張 雨 吳永歡
(廣州供電局有限公司,廣東廣州510620)
當前,國內外電網企業已經在工業用電負荷預測、電網網架建設優化、95598供電客戶服務等內部基本業務應用的大數據分析方面做了一些嘗試,奠定了一定的基礎[1]。在此基礎之上,電網企業面對龐大的數據資產,應當考慮的另一個重點應用方向是電網企業內外部數據的交互。遵循這一思路,電網企業將不再局限于以往的傳統輸配電業務模式,而將發掘出更加豐富多彩的商業模式,實現業務價值向電網外部的拓展,并最終實現跨行業的產業升級。
大數據正在改變著各行各業,近年來互聯網產業呈現出井噴式的增長,涌現出了線上貿易、線上金融等互聯網與傳統行業相融合的創新途徑,并取得了豐碩的成果。電網企業通過各類表計、監測設備等所記錄的海量數據中,蘊藏著巨大的價值財富,同時也具有獨特的數據價值發掘需求[2]。但由于歷史體制原因,過去電力行業與其他領域跨行業交互融合的情形還比較鮮見。
如今國家“互聯網+”行動計劃的蓬勃開展,為社會各部門跨行業數據合作提供了可能。電網公司與其他公用事業管理部門及社會企業進行合作,在一定程度上打破數據壁壘,可以提高整個社會的運行效率。
數據融合的概念,最初是針對多傳感器系統而提出的。在最初的多傳感器復雜系統中,傳感器上送的信號具有信號數據的海量性(Volume)、信號形態的多樣性(Variety)、相互連接的價值性(Value),以及研判處理的實時性(Velocity),當時都已經遠遠超出了過去任何聰明的人類大腦的處理能力。在這種情況下,就出現了多傳感器復雜系統信號融合技術。
在當今的大數據時代,數據融合的實質是針對多來源、多維度、多形態的復雜海量數據進行碰撞關聯以及線索分析,尋求和發掘數據的價值,進而提取優化的管理模式和技術路線[3],以發掘提取低價值密度數據的價值,提高數據的可利用率。為此,電網企業需立足自身數據資產以及與外部數據的關聯能力,將大數據技術與具體業務場景相結合,發揮數據挖掘的巨大作用。
電網企業數據融合可以涵蓋很多場景,比較典型的包括天氣數據、工商稅務數據、實時交通數據、行業經濟動態數據等。除此之外,還有許多種數據融合的形式可以為電網所用。凡是與電網發生關聯的、可以獲取到的數據,都值得研究其數據融合價值。
2.2.1 氣象數據
氣象部門的氣象數據,對于電網運行是至關重要的。溫度的高低會影響負荷,內澇、干旱會導致農業灌溉負荷陡降陡升。颶風、強降水等災害性天氣通常會使得電力需求明顯變低。在輸變電設備運行的影響方面,大雪、凍雨容易造成高壓線路斷股、斷線,嚴重覆冰的情形甚至會導致倒塔,沙塵或污染物難以擴散的無風天氣容易造成輸電線路污閃,強風容易造成輸電線路相間放電,雷擊容易造成開關跳閘等。在電力施工的影響方面,大風、雨雪等惡劣天氣會對室外的電力施工、檢修等帶來不同程度的不利影響。電網企業融合了外部的氣象數據之后,將可對因天氣影響而發生的電力設備故障進行預測分析,提前給出預警,對檢修和施工作業結合天氣情況進行優化安排。
2.2.2 大用戶工商、稅務數據
將電力用戶的工商、稅務數據融合進電網企業的大數據平臺,可以與客戶的電費繳費行為進行關聯分析,通過將客戶的外部工商稅務信息、客戶基本屬性特征與其繳費行為進行關聯分析,用大量的數據將用戶欠費模型訓練出來,用于對潛在的欠費客戶給出預警,然后對比預警結果與后續繳費記錄中客戶的實際繳費行為。若預測準確率較高可信,利用此模型對容易發生欠費行為的重點客戶劃定相應的風險等級以及進行預警,就可以提前采取應對措施,保障企業的電費收入,有效控制企業經營風險。
2.2.3 實時交通數據
城市電網電力工程的施工常常與道路交通互相影響,如地下電纜工程的破路開溝、電纜敷設等,往往需要對道路進行部分封堵限行。根據交警提供的實時交通數據,以及通過模型預測出來的分時段車流量數據,可以合理安排施工工期以及封路程度。
2.2.4 行業經濟動態互聯網數據
電網企業將外部獲取的行業經濟動態數據與電力用戶的用電信息融合,可為大客戶營銷提供支持。電力工業大客戶是供電企業的核心客戶,其電力消費對供電企業的經濟指標貢獻特別大,而且其用電量具有受其所在行業的整體形勢影響較大的特點。電網企業可以從國家統計部門、工商部門以及互聯網上抓取相關的行業形勢動態數據,為大客戶的營銷提供支持和預警。客戶經理可以協助大客戶進行用電分析,優化用電服務方案。在節假日、行業特殊事件發生時,能夠針對大客戶的特殊用電需求,迅速做出響應。針對大用戶可能存在的電費拖欠風險,也可以進行有效的識別和防范。
在數據融合方面,要與外部數據源相關部門進行溝通協調,建立數據共享機制。例如,與氣象部門、交通部門達成協議,將重點區域附近的氣象信息和道路交通狀況實時推送到電網企業的大數據融合平臺。
要以能源價值鏈延伸為目標,樹立大數據融合導向的思維模式。電網內部的大數據分析、應用已積累了一定的經驗。從長遠來看,海量數據的所有者,即“數據主人”對其數據資產處置的著力點將是內外部數據的交互融合。首先,必須更加注重提升用戶價值,同時通過利用跨行業數據提高全社會運行效率,為促進社會節能減排做貢獻。其次,要加快建設統一的大數據基礎平臺,如構建企業級跨行業融合數據倉庫等,聚攏各個業務部門的數據需求,提高數據資產的利用效率與質量,促進商業模式創新。

圖1 基于商業Hadoop發行版產品的大數據倉庫架構
為實現電網大數據的跨行業數據融合交互,從技術角度來說,需構建基于電網企業全局的統一大數據平臺體系,建設服務于內外部數據跨行業融合交互的數據倉庫與數據集市。
3.2.1 數據倉庫與數據集市搭建
數據倉庫是為企業所有級別的決策制定過程提供所有類型數據支持的戰略集合,對于有建構企業級商業智能業務需求的客戶,在企業運營成本降低、生產進度和質量監控方面,有顯著的輔助優化作用。
圖1是一個基于Hadoop商業發行版大數據平臺的數據倉庫結構與數據流轉路徑,該圖示出的數據倉庫架構涵蓋了海量數據的存儲匯聚、查詢檢索、交互式數據探索以及數據挖掘等大的功能模塊,此外還包括元數據管理、數據同步、數據稽查等開發工具。數據存儲層可以通過豐富的中間件和通用接口來對接多種異構的數據源,不論是結構化數據、半結構化數據還是非結構化數據都可以先匯聚到統一的大數據平臺的“ODS貼源層”中來。對于結構化數據來說,從最底層的貼源層,到上面的基礎明細層,再到公共主題模型層,在不同的層次間流轉時,數據將按照特定的主題而劃歸為獨立的分布式批處理task,交由分布式計算引擎來執行離線的批處理計算,也即分層分步進行“數據加工”的過程。另外,在這些紛繁的數據流轉層次之間,需要有總體化的資源調度機制以及完善的工作流配置工具做保證,避免各個業務之間出現資源爭搶的現象,確保各類批處理任務有條不紊地執行完成。
底層數據處理引擎的各項功能提供了對應用層業務邏輯的強大支持,通過基于容器技術構建的微服務架構,實現了動態的資源分配和管理。經過基礎明細層和公共主題模型層加工過的數據,由業務應用層的軟件獲取,根據自身的業務邏輯特點對數據進行多角度的展現和人機交互,同時由于底層共用一套基礎平臺,不同的電網業務群的應用層軟件之間也可以實現數據共享。
3.2.2 數據源管理
數據倉庫建設過程中,需要對數據源進行數據抽取和管理。大數據平臺要融合來自各個單位和部門的數據,系統接入數據方式非常多樣化,包括關系型數據庫數據、實時數據、文件數據、圖片數據、日志數據、音視頻等。面對于多種數據接入的需求,通過Flume、Sqoop等多種數據抽取中間件進行對接。
3.2.3 算法建模
數據挖掘的任務依賴大數據平臺的數據挖掘組件進行。該組件主要由R語言環境、Spark分布式內存計算框架等構成,并且后臺引擎內置了大量常用的并行化機器學習算法和統計算法,同時兼容數千個開源的R語言算法包,可高速分析關聯關系網絡等的圖數據。并行化算法庫主要包含機器學習算法庫與統計算法庫,利用Spark在迭代類型的計算上天然的優勢,將經典的傳統數據挖掘算法在Spark上進行了分布式的實現,可以有效提高大數據量上算法的執行效率,也能充分體現其在內存計算方面的優點。另外,該組件同時還包括一些統計類算法的分布式化,可充分支撐電網數據融合業務的算法建模工作。
3.2.4 平臺安全管控
數據融合交互大數據平臺通過Guardian組件,在軟件層面提供資源管理控制和數據訪問權限安全的能力,實現大數據平臺“4A”級(即包括賬號管理、賬號認證、權限授權、日志審計)統一控制管理多租戶方案,有效地對各個部門以及下級單位的用戶數據提供多租戶的開發平臺服務。
由于歷史因素的影響,長久以來,電網企業的客戶服務一直采用的是傳統的人工應答和記錄模式,對于客戶的需求響應不及時,會埋下一定的風險隱患,尤其是針對大的工業用戶,以及部分老舊線路的居民用戶,需要投入大量的人力進行客戶服務以及關系維護工作。一旦出現服務不及時、不到位,在當今這個輿論體系和“自媒體”發達的年代,極有可能造成惡劣的社會影響。如能對可能出現問題的用戶進行實時監控乃至提前預警,則可以使得電力營銷和95598客服工作準備更充分、更有針對性。
通過使用大數據實時企業數據服務總線技術,準實時接收95598渠道工單及工單流程變化信息,實時展現95598工單變化情況,并與進入大數據平臺的其他數據相融合,對其中的關鍵客戶發出預警,是實現這一目標的技術手段。大數據平臺融合的數據來源包括電網公司內部的營銷綜合管理平臺、企業工商信息公示平臺、互聯網數據等。
在技術方面,借助大數據實時計算技術,實時消費Kafka的隊列消息,并按照業務邏輯進行關聯計算,把計算結果封裝成JSON串寫入到Kafka消息隊列,可以供前端進行實時的消費展現。若要對前端的操作型數據庫與大數據融合平臺實現準實時的數據同步,需要借助于OGG(或Shareplex)所生成的操作型的日志,并在大數據平臺上進行同樣的事務處理。數據采集時,需要同時配置源端以及目標端的Goldengate進程,實時把增量日志解釋成變化數據,并把變化數據準實時地同步到大數據平臺的各個存儲引擎。
在業務方面,95598工單類別包括報修、咨詢、查詢、投訴、舉報等類別。將95598工單信息與其他渠道獲取的相關用戶信息進行融合,加以語義解析和語義挖掘,就可以進而探查出特定用戶或用戶群體的投訴、抱怨甚至欠費風險,并給出及時的預警。
大數據平臺融合的數據源多種多樣,既包括國家公示的企業經營數據、電網企業掌握的居民數據,也包括互聯網上關于電力大用戶的企業新聞、貼吧評論、法院裁決、招投標信息等,以及對居民用戶的新聞采訪及評論。根據關鍵詞將這些與分析的目標企業相關的零碎信息通過網絡爬蟲以及離線的文件傳輸工具統一匯聚到大數據平臺后,對海量的、低價值密度的數據進行解析,可以形成客戶知識圖譜,分析出企業的經營趨勢以及居民用戶的用電行為特征,進而實現上述的業務目標。該系統能夠幫助電網企業的營銷部門更加深入地了解客戶,大大提高電網公司95598客服工作的效率。
電網數據資產管理,是一種全方位的無形資產管理模式。其針對電網企業現有以及將來可能擁有的數據資產,從最初的數據匯集,到數據資產形成,到中期數據資產維護,以及到后期的價值轉化,達到覆蓋每個步驟的全過程管理的目標。這樣可對電網企業運營的數據資產進行統一管理,方便管理者制定相關的數據資產管理相關規范制度,從而使得電網數據在各種業務應用中的分析和利用更加高效,最終達到電網企業數據資產價值最大化的目標。
建設電網大數據跨行業數據融合交互平臺,匯聚了來自于各個渠道的數據,其挑戰主要在于數據的可信度與安全性。數據質量需要進行核實與校驗。首先,對于從各個渠道搜集來的海量數據,需要進行清洗和加工,然后基于數據溯源關系以及數據關聯關系,形成公司數據資產全景視圖,采用數據資產實時監測技術,通過源頭把控、關鍵節點監督、防篡改監控等手段,將企業的數據轉化為有價值的資產。
電網企業及其關聯單位蘊藏著極為豐富的數據資源,電網企業與外部數據進行交互也是大勢所趨。大數據技術的發展為這種數據跨行業融合交互提供了充分的技術支撐。在關聯分析、聚類分析等數據挖掘和機器學習理論和方法的幫助下,數據對于電網企業的價值終會凸顯出來。在電網企業、電力客戶以及外部相關單位的共同努力下,未來一定會實現電網數據的深度開發,以及電網內外部數據充分的跨行業融合交互,為社會創造更多的財富。
[1]張東霞,苗新,劉麗平,等.智能電網大數據技術發展研究[J].中國電機工程學報,2015,35(1):2-12.
[2]劉廣一,朱文東,陳金祥,等.智能電網大數據的特點、應用場景與分析平臺[J].南方電網技術,2016,10(5):102-110.
[3]杜磊,王黨衛,姚迪.多源目標數據融合方法設計與實現[J].科技信息,2011(13):27-28.