廣東電網有限責任公司 錢正浩 吳廣財
一種基于大數據挖掘的電費回收風險預測技術研究
廣東電網有限責任公司 錢正浩 吳廣財
電費回收是供電企業最終效益的體現,電費回收率也是供電企業內部考核的一項重要經濟指標[1]。每年全國電力用戶拖欠電網企業電費現場比較嚴重,導致企業資金周轉不暢,同時也使國家資產蒙受巨大損失。隨著國家產業結構的不斷調整,部分行業產能過剩,給電力企業電費回收帶來諸多風險,尤其電力大客戶(主要是企業用戶、商業用戶等)是電費回收工作的主要風險,本文通過對大客戶歷史用電數據、行業數據、企業法人征信、宏觀經濟環境等數據的收集,基于大數據挖掘技術對電費回收風險進行預測分析,及早發現電費回收風險,針對性采取相應措施提高電費回收率。
電費回收;電費風險;風險預測;大數據;數據挖掘
“十三五”期間,電網企業提出要運用“大移物云”技術,推動公司管理變革和運營模式創新,推動電網創新發展高效運作。目前大數據技術已在互聯網、電商、廣告等行業取得了長足的發展,在用戶行為分析、銷售策略制定、廣告定點投放等領域已進入實用階段。
目前電力營銷管理系統主要是由人工從營銷管理系統導出電費明細、欠費明細等數據,根據催收策略實施一級、二級、三級催收工作,浪費的人力、物力資源大,催收工作效率低下,并且只能被動的在事后進行電費催收工作[2]。運用大數據技術對大客戶電費回收風險進行分析預測,及時發現存在的電費回收風險點,通過營銷策略調整降低風險,有效提高電費回收率,提升電力企業經營效益。
基于大數據存儲、計算、分析能力,結合電力大客戶的用電行為、企業發展、企業法人征信、國家政策、地區社會環境等因素,建立電費回收風險預測數據模型,提出大數據預測分析技術方案以及本技術方案應用場景。
電費回收率作為電網公司收益的主要的運營指標數據,體現了電網公司經營效益的成果。凡事預則立,不預則廢,在提升電費回收率、有效地降低電費回收風險方面同樣適用。深入探討電費風險產生的原因,對風險影響因素進行分類,主要分為內部和外部兩大方面的因素,電費風險預測數據主要包括:內部因素數據(用戶基礎信息、業擴信息、電費信息、欠費歷史信息、用電檢查信息、營銷稽查信息等)、外部因素數據(企業基本信息、企業法人個人征信、納稅證明信息、銀行貸款信息、企業經營狀況、國家宏觀經濟環境、區域社會環境等)。
營銷管理系統中的用戶類型信息包括企業客戶、個人客戶、集團客戶、事業單位客戶、社會團體、政府機關、軍事單位客戶,本文分析范圍只針對電費回收風險較大的企業客戶進行分析。個人客戶由于基數較大、個體風險影響較低,同時事業單位客戶、社會團體、政府機關等客戶因負有社會責任,受外部因素影響較低。
電費信息、業擴信息、稽查信息、用檢信息和欠費歷史信息均由營銷管理系統提供,企業用戶信息、業擴信息以及欠費信息均包含企業行業類別信息以及企業基本信息,通過企業信息可進行外部因素關聯分析。
企業基本信息包括企業名稱、經營范圍、法人、注冊資本、稅號等信息,來源于工商管理局系統,同時還需要來源于征信系統的企業法人征信信息,稅務局系統的納稅證明信息,銀行系統的貸款信息及還款信息,企業經營狀況、宏觀經濟因素(資訊、視頻、圖片等)以及特定行業影響因素(比如農產品加工企業,需要考慮氣候、產能等因素)主要從網絡途徑獲取,考慮外部因素的難度主要在于有效數據的獲取和篩查。
電費回收風險預測數據量大,數據類別多,不僅有結構化的用戶、電費、征信信息,還有半結構化和非結構化的外部數據、網絡數據,本文引入Hadoop架構以解決海量數據存儲、數據多樣化處理的需求,同時軟硬件成本較低。Hadoop是由Apache基金會所開發的分布式系統基礎架構,典型技術架構主要包括數據采集、數據存儲、數據管理、數據計算、數據分析五層模型,圖1為hadoop平臺技術架構。

圖1 hadoop平臺技術架構
目前電力營銷管理系統使用傳統的關系型數據庫存儲用電客戶、電費、業擴、用檢、稽查等數據。
企業基本信息、企業法人個人征信、納稅證明信息、銀行貸款信息等數據需從工商管理局、銀行、征信等專業系統獲取,需考慮各系統的數據存儲方式及獲取方式的多樣性。
企業經營狀況、國家宏觀經濟環境、區域社會環境等半結構化或非結構化數據主要是借助網絡爬蟲或網站公開API等方式獲取數據。
大數據存儲是指將大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問。數據庫存儲管理技術包括分布式存儲、NoSQL、內存存儲技術[3]。
分布式存儲通過網絡將分散的存儲資源構成一個虛擬的存儲設備,實現數據的分散存儲,典型的如Hadoop平臺的分布式文件存儲系統(HDFS),主要優勢體現在硬件成本低且節點可不斷擴展、通過冗余備份實現高容錯性。
NoSQL數據存儲不需要固定的表結構,存取上性能優勢明顯,但和關系型數據庫也不存在連接操作;內存存儲技術主要應用于對數據讀取、處理響應高的場景。
電費預測分析主要是通過用戶用電數據與用戶征信、企業經營、外部環境進行關聯分析,同時對響應要求不高,存儲技術首選分布式存儲。
大數據預處理可以對采集到的原始數據進行清洗、填補、平滑、合并、規格化以及檢查一致性等,將那些雜亂無章的數據轉化為相對單一且便于處理的構型,為后期的數據分析奠定基礎。數據預處理主要包括:數據清理、數據集成、數據轉換以及數據規約等部分。
數據清理主要工具有ETL,實現數據的抽取、轉換、裝載;數據集成工具主要有Sqoop, Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,Sqoop專為大數據批量傳輸設計,能夠分割數據集并創建Hadoop任務來處理每個區塊。通過數據集成工具可將網絡上非結構化數據、半結構化數據從網頁中提取出來,并以結構化的方式統一存儲。
大規模數據的并行運算主要使用MapReduce方法,支持自動將一個作業(Job)待處理的大數據劃分為很多個數據塊,每個數據塊對應于一個計算任務(Task),并自動調度計算節點(Map節點或Reduce節點)來處理相應的數據塊,同時負責監控這些節點的執行狀態,并負責Map節點執行的同步控制。
數據挖掘預測則是通過對歷史數據的輸入值和輸出值關聯性的學習,得到預測模型,再利用該模型對未來的輸入值進行輸出值預測。
一般地,可以通過機器學習方法建立預測模型。即假定事物的輸入、輸出之間存在一種函數關系y=f(x, β),其中β是待定參數,x是輸入變量,則y=f(x, β)稱為學習機器。通過數據建模,由歷史數據學習得到參數β的取值,就確定了具體表達式y=f(x, β),這樣就可以對新的x預測y。
典型的機器學習方法包括:決策樹方法、人工神經網絡、支持向量機、正則化方法。其他常見的預測方法還有近鄰法、樸素貝葉斯等。
電力企業電費風險預測主要是通過大數據技術實現對用電客戶信息的收集、風險識別、風險分析、風險預警,建立電費回收風險評價—風險控制—風險后評價的閉環管理體系。
(1)風險評價:通過全面收集客戶電費風險相關數據,量化風險發生的可能性,對客戶電費回收風險進行評級,進行電費風險評估。
(2)風險控制:根據用電客戶風險評價體系的評價結果,根據風險程度高低采取差異化的電費回收措施[4]。
(3)風險后評價:對風險管理效果進行科學的評價,并生成相應的報表,同時對電費風險成惡化趨勢的用電客戶按照行業、區域、用電類別進行分析和評價,對相關聯用電客戶群體進行電費風險趨勢評估,在相關聯范圍內進行相應的風險提示。
未來的電費風險預測主要依托于大數據技術實現,通過用戶用電行為、客戶征信、企業經營狀況、區域及宏觀經濟環境,挖掘潛在的電費回收風險,為電網經營管理提供實時多樣化的數據,為公司的精益化管理提供支撐,從而提升企業經濟效益。
[1]董運,孟飛.供電企業電費風險防范管理[J].中國工業年鑒,2014(01).
[2]姜力維.電費風險防范與清欠[M].中國電力出版社,2012.
[3]賴征田.電力大數據-能源互聯網時代的電力企業轉型與價值創造[M].機械工業出版社,2016.
[4]余長江,張海榮.探究電費大數據分析與風險預警[J].電腦知識與技術,2016,11(33):23-23.
錢正浩(1982-),男,工程師,從事電力企業信息化建設工作。
吳廣財(1985-),男,工程師,從事電力企業信息化建設工作。