吳軍英++辛銳

摘 要:近年來大數據技術迅猛發展,在電商、金融等行業取得了巨大成效。國家電網公司十三五規劃目標,廣泛應用“大云物移”技術,推動公司管理變革和運營模式創新,推動電網創新發展高效運作。國網河北省電力公司基于大數據技術對電費風險展開分析,對數據來源進行了梳理,并探討了大數據的采集、存儲、處理及分析展示的技術。通過應用場景分析直觀展現電費回收情況,發現電費風險問題。
關鍵詞:電費回收 電費風險 大數據 數據集市 聚類
中圖分類號:TP39 文獻標識碼:A 文章編號:1674-098X(2017)03(a)-0121-02
國家電網公司十三五規劃目標,廣泛應用“大云物移”技術,推動公司管理變革和運營模式創新,推動電網創新發展高效運作。隨著智能電網[1-3]的深入發展,電力大數據已經成為學術研究和企業發展所關注的熱點領域,國內外大學、研究機構、IT企業、電力公司均已開展了相關方面的研究應用。
目前公司精細化管理需要對電費情況進行實時監控,及時發現存在的風險點,調整降低風險,提升企業收益。當前主要采取人工從系統導出數據,工作量大,工作效率低下,并且由于傳統系統數據量龐大,經常出現無法導出數據等問題,給日常工作帶來很大不便。
1 電費風險數據來源
電費作為電力公司收益的直觀數據,體現了公司經營管理的成果。如何有效地降低電費風險,提升電費回收率,成為當前公司經營管理工作的重點。電費風險來源于電費回收情況,電費回收由發行電費、實收電費、預收電費、欠費電費等幾部分組成。日常工作中實收電費由預收結轉、欠費繳費等幾類業務情況產生,流轉較為復雜,因此,此次主要從發行電費、預收電費和欠費電費3個方面入手進行分析。
1.1 用戶信息
用戶分為考核用戶、高壓用戶、低壓非居民用戶和低壓居民四大類。此次主要針對存在電費回收風險較大的用戶進行分析,低壓居民用戶大多為預付費,且管理比較系統化,風險相對較低,此次暫不分析,主要分析剩下的三大類用戶。
1.2 電費信息
電費風險主要通過電費回收情況分析呈現,電費回收主要從發行電費、預收電費和欠費電費幾方面體現,所以需要提供用戶每月產生的發行電費、預收以及欠費電費數據信息。
1.3 供電單位
通過分析不同供電單位的電費回收情況,對比各單位的電費回收風險,說明發現供電單位對電費回收風險有一定影響,可以有效借鑒較好的工作經驗,制定整改辦法,降低供電單位的電費回收風險。
1.4 行業類別
通過分析用戶在不同行業下的電費回收情況,說明不同行業對電費回收風險的影響程度,一定程度上反映了用戶行業管理上的不足之處,從而強化管控,降低電費風險,提升電費回收率。
1.5 電壓等級
通過對不同電壓等級用戶的電費情況分析,發現不同電壓等級用戶的回收情況有差異,說明電壓等級對電費風險有影響。可以從電壓負荷、容量、穩定性等各方面分析發現問題,降低電費風險。
2 電費風險關鍵技術
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。
該平臺基于Hadoop架構搭建實現,沿用國網大數據平臺的數據倉庫工具Hive。圖1為平臺技術架構。
2.1 數據采集
系統采用Kafka,Sqoop兩種技術來實現電費、用戶以及所需信息的數據采集整合,為業務場景分析提供數據支撐。
Kafka是一種高吞吐量的分布式發布訂閱消息系統。它的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理,也是為了通過集群機來提供實時的消費。因此,通過Kafka技術實現應收電費及欠費電費數據的實時采集。
Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具。它類似于其他ETL工具,使用元數據模型來判斷數據類型并在數據從數據源轉移到Hadoop時確保類型安全的數據處理。Sqoop專為大數據批量傳輸設計,能夠分割數據集并創建Hadoop任務來處理每個區塊。因此,通過Sqoop技術實現用戶、預收電費等信息的離線數據采集整合。
2.2 數據存儲
數據存儲使用數據倉庫Hive和Postgresql數據庫聯合實現。發揮各自優勢,為場景分析提供數據保障。
Hive用來存放數據采集的第一手數據,將采集到的源端數據存儲至HDFS文件系統中。
Postgresql作為數據集,用來存放從數據倉庫Hive中抽取到的數據,并且按照國網CIM模型的標準域存儲,用來存放業務場景分析所需的數據。它通過Kettle技術實現完成。
2.3 數據計算及分析
數據計算采用Spark技術來滿足業務場景實時分析的需求。Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用并行框架,Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法,適用于需要多次操作特定數據集的應用場合。
算法上,此次分析主要使用聚類算法,按照需求將不明確的數據實現分門別類,輔助日常監測工作。采用具有代表性的K-means算法,它是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標。
通過使用聚類等算法,對業務進行深入挖掘分析,最終以玫瑰圖、熱力圖、雷達圖等專業分析圖形展示,配備一定的表格展示數據,使分析結果顯得更加直觀。
3 應用場景分析
應用場景從系統采集數據,經由噪聲處理、分析挖掘最終實現展現。圖2為分析挖掘流程,其關鍵技術包括噪聲數據處理、業務數據分析、基于距離計算的聚類分析。噪聲數據處理和業務數據分析是按照業務需求,對數據進行初步篩選處理的過程,實現數據挖掘計算;聚類分析是根據歐式距離公式及誤差平方和準則實現聚類中心點選擇與分類,實現對未知分類數據的類別劃分,主要應用于供電單位間、行業間以及電壓等級間的電費回收情況對比分類,劃分為較好、一般和較差3類。針對較差類別的情況進行深入分析,發現管控薄弱環節,進行整改完善。
應用場景圍繞電費回收情況開展,包括發行電費、預收電費和欠費電費3類,根據業務主題劃分電費回收整體情況分析、預收電費分析和欠費電費分析,其中電費回收情況中包含發行電費、預收電費和欠費電費3類電費的數據信息。此次分析以日為單位實時監控,以月為單位分析電費回收情況,可監控分析每日的電費回收情況,對應分析當月1日截止到監控日的電費回收走勢情況,通過供電單位、行業、電壓等級多維度分析電費回收情況,發現回收情況弱點,從業務側深入分析發現風險點,制定整改措施,降低風險,達到提升效益的目的。
4 結語
未來的電費風險依托于大數據技術實現實時監控,通過分析電費回收情況,進一步深化、挖掘潛在的風險,為電網經營管理提供實時多樣化的數據,為公司的精益化管理提供支撐,從而提升企業經濟效益。
參考文獻
[1] 余貽鑫,欒文鵬.智能電網的基本理念[J].天津大學學報, 2011,44(5):377-384.
[2] 余貽鑫,欒文平.智能電網評述[J].中國電機工程學報,2009,29(34):1-8.
[3] 張文亮,劉壯志,王明俊,等.智能電網的研究進展及發展趨勢[J].電網技術,2009,33(13):1-11.