燕躍豪 尚繼武 鮑 薇 王 瑩 師 楊
(國網河南省電力公司鄭州供電公司)
隨著大數據技術的迅猛發展,電力企業積累了大量用戶數據,且數量呈指數型增長。目前,電力企業對用戶數據分析過程中存在不足:數據分析手段有待提升,人為主觀因素影響較大,對用戶行為產生的內在原因分析較淺,無法快速分析大量用戶投訴的工單數據。利用大數據技術來分析用戶的用電行為,生成客戶畫像,可以指導企業決策,同時提高用戶滿意度。基于大數據技術生成客戶畫像,可以全面、準確地量化處理電力用戶數據,將用戶的興趣、特征、行為等多方面具象化數據分類描述,并在此基礎上預測用戶短期內的用電行為。
本研究對電力客戶服務呼叫中心、營銷系統等其他方式獲得的用戶數據進行統計、分析,將復雜、具象的信息加工量化,形成簡單的基本行為標簽,同時經過K-means聚類分析、分類分析、歸類分析和回歸分析挖掘出數據中的復雜標簽,進而建立電力用戶標簽庫,再利用標簽庫的標簽生成客戶畫像,將用戶信息結構化集中展示幫助電力企業直觀、系統地認識客戶。畫像的種類包括個體畫像和群體畫像,這些畫像結果將在精益管理、提升服務、營銷智能等方面輔助決策,指導生產實踐。
本文主要從以下三個渠道采集數據來構建模型:
1)電力客戶服務呼叫中心,該中心存儲了用戶對電力公司的所有通話記錄,包含用戶的戶號、住址、投訴內容等個人信息數據。
2)由營銷系統提供的用戶用電信息檔案。
3)用電信息采集系統的數據,主要包括:電表每日抄表數據、負荷數據變化及配變數據等。
數據核對就是對不同的數據屬性進行統一的規劃,將數據進行分詞,選取有效且合理的關聯字段,刪除異常、無意義字段。為下一步的生成標簽創造條件,主要從如圖1所示四個方面進行核對。

圖1 數據核對示意圖
本文數據清洗主要針對數據異常值清洗,采用箱線圖法對數據的異常值進行處理,如圖2所示。

圖2 箱線圖法原理示意
其中,Z為數據的中位數,A1為上四位數,A2為下四位數,B=(A1-A2)。在(A2-1.5B)至A2和A1至(1.5B+A1)的數據為溫和異常值,在上下邊緣之外的數據為極端異常值。
電力用戶標簽主要根據電力用戶的基礎信息和行為屬性去構建,基礎信息一般指用戶的性別、年齡、城鄉戶口、住址和電壓等級和用電規模等信息,行為屬性即隨用戶行為不斷變化的時序信息。電力企業要想利用電力用戶數據輔助決策,就要識別用戶發生的行為、描述行為的時序特性,并且挖掘出各個行為之間的相關性,據此實現用戶分類和行為預測。本文根據標簽的屬性將用戶標簽主要分為:基礎屬性標簽、行為標簽、行為預測標簽。如圖3所示。

圖3 客戶畫像技術架構
基本屬性標簽一般包括用戶的性別、年齡、行業屬性、城鄉戶口、住址、電壓等級和用電規模等基礎信息,可利用處理后的數據直接分類生成。
生成行為標簽、行為描述標簽和行為預測標簽這些復雜的標簽時,本文采用了改進的K-means聚類算法。本文結合電力用戶行為標簽的特性對K-means算法進行一定程度的改進,以提高算法在電力用戶行為聚類中的效果。本文采用聚類有效性指標控制K值的選取,通過建立聚類有效性指標,評價聚類質量并確定最佳聚類數,思想簡單,受樣本分布的影響不大,且不需要人為設定閾值。K-means聚類分析流程圖如圖4所示。

圖4 K-means聚類分析流程圖
行為標簽生成時,需離散化處理行為發生的時間特征,將時間特征分層,進而對行為的頻次、頻率及行為產生的時間間隔進行聚類。
某用戶i在某段時間內用戶行為標簽A發生的頻率P計算公式為:

式中,sum(Aj,i)E-S為用戶i在該時間段內發生標簽A行為的次數總和,E為終止時間,S為起始時間。
行為發生的時間間隔用d表示,則行為產生的平均時間間隔為:

偏離度計算公式如下:

電力用戶畫像的行為預測標簽要利用已生成的行為標簽對用戶行為進行短期預測。梯度提升樹算法可以嵌入各種不同的分類算法,通過不斷迭代改進上一次分類結果來提高分類準確度,該方法預測用戶行為具有速度快、結果準確的優點。行為預測主要步驟為:
1)輸入:T={(x1,y1),(x2,y2),…,(xN,yN)},xi,yi∈R。T為訓練樣本數據集,x為自變量,y為因變量,N為數據集大小。
2)初始化:

3)對m=1,2,3,…,M,M為迭代次數。
a)對i=1,2,3,…,N,計算:

式中,rim為梯度方向。
b)對j=1,2,3,…,Jm,計算:

c)更新:

4)得到回歸樹:

據此生成用戶行為預測標簽。經過以上數據聚類分析、分類分析后,將客戶行為預測標簽納入標簽庫,用來生成客戶畫象。
對某個具體用戶的數據分析后,生成該用戶的個體畫像,以標簽化的形式來展現該用戶的基礎屬性、行為特征。電力企業可以根據該畫像快速了解用戶行為偏好,適用于對個人進行電力業務的個性化推薦。
基于畫像標簽,可利用矩陣分析法實現客戶畫像的細分,篩選一個或若干標簽,提取出具有某一共性的用戶群體,形成某一類群體畫像。據此,電力企業可以直觀地觀察出一類客戶特征,并針對這一群體提供差異化服務、針對性營銷等輔助決策,為企業運營提供幫助,提升電力企業服務質量與供電質量,同時提高客戶滿意度與用電感知。
本文利用95598呼叫中心、營銷部門等電力客戶的用戶數據,基于K-means聚類建立了客戶標簽數據庫,并利用這些標簽生成個體畫像及各類群體畫像。根據標簽對電力用戶進行分類和行為預測,制定精細化營銷與服務方案,利用大數據促進電力企業的發展。