基于用電行為特征大數據的異常用戶識別模型研究與應用

2021-03-18 12:34:14王威王蘭君

電力大數據 2021年12期

關鍵詞：用戶

王威、王蘭君

(國網上海市電力公司，上海 200000)

能源與電力發展事關國計民生，與經濟社會存在廣泛緊密的聯系。推動大數據和實體經濟深度融合，挖掘能源電力大數據價值，對于助力新時代能源電力事業數字化轉型，更好服務經濟社會發展具有重大意義[1-2]。

售電收入是電力企業主營業務收入，在面臨復雜外部環境挑戰下，準確落實國家政策要求，確保電價執行正確，保證電費應收盡收是電力企業的重點工作之一。考慮到電網企業日常管理的復雜性，末端用戶電價執行錯誤造成的錯收、少收一直都客觀存在[3-4]。以福利機構類用電為例，福利機構用電是指經區(縣)級及以上人民政府民政部門批準，由國家、社會組織或公民個人舉辦的，為老年人、殘疾人、孤兒、棄嬰提供養護、康復、托管等服務場所的生活用電。然而，實際用電用戶中，部分應執行大工業、一般工商業電價的工商業企業、培訓機構類用戶等，錯誤執行了福利機構類用電電價[5]。根據傳統基于用戶信息檔案比對的方法，以上用戶在電力公司登記信息很可能不存在任何疑點。用戶的用電行為習慣反映了真實用電需求，因此運用能源電力大數據分析的技術方法分析用戶用電行為習慣特征識別異常用戶是精準的切入點[6-8]。

能源電力大數據是在新時期能源生產和消費革命的背景下，在能源電力、能源經濟、電力經濟、大數據等概念基礎上全面融合而成的新理念。通過融合電網企業內部生產、營銷等數據，以及外部各類能源、經濟、產業、氣象、商業等數據，利用大數據分析手段，對經濟社會發展的運行狀態、變化特點、關聯演進等進行洞察和分析，提供更好的服務[9-11]。

本課題應用居民檔案信息、電量、負荷等內部數據，融合氣象、地理位置等外部數據，分析福利機構用電類用戶用電行為與用能情況，防范異常用電侵占風險，助力電力公司進行監督和管理[12]。

1 技術路線和模型原理

首先，基于用戶用電特征，設計核心指標體系，導入處理好的數據計算指標值；然后，核算用戶指標值與行業總體指標值的偏離程度，換算成嫌疑分數，通過客觀賦權法確定各指標偏離度權重，加權得到用戶綜合嫌疑得分；最后，根據綜合嫌疑得分高低識別潛在的異常用戶[13-15]。

圖1 用電異常嫌疑用戶識別模型技術路線Fig.1 Technical route of identification model for suspected users with abnormal electricity usage

模型識別原理是在用電行為習慣和特征相似的群體里，識別異于總體特征，或與總體特征弱相關的個體異常值[16-18]。

1.1 熵權法模型

熵權法是一種客觀賦權法，基本思路是根據指標的變化程度分配權重[19]。本文通過信息熵計算各指標的權重：

(1)

注：假設給定了k個指標X1，X2，……，Xk，其中Xi={x1,x2,……,xn}，對各指標數據標準化后的值為Y1，Y2，……，Yk，Ej表示信息熵。

1.2 變異系數模型

變異系數模型是一種較為客觀的方法，能夠反映指標數據的變化信息[20]。標準差與平均數的比值稱為變異系數，記為CV，其計算公式為：

(2)

結合指標變異系數計算指標權重W(n)，其計算公式為：

(3)

其中，n表示評價指標個數。

指標的變異程度來對各指標進行賦權，當指標取值差異越大時，也就越能反映因素差異。

1.3 灰色關聯模型

為全面反映評價指標的權重，采用灰色關聯模型進行組合賦權[21]。運用熵權法和變異系數法分別對各指標計算客觀權重，并將兩組客觀權重通過一定的方式(如：乘法集成法)進行組合，最終確定各指標的權重。

(1)生成權重矩陣

(2)求每個指標權重平均值

(4)

(3)不同模型下指標權重的絕對偏差

(5)

(4)計算指標綜合權重

W(n)為綜合權重向量，其中：

其中wj表示第j個指標在客觀綜合賦權法的組合權重。

1.4 異常值檢測

通過運用實時分析，對同一用電類別客戶的橫向比較，或者對同類型、同規模的用戶之間數據進行比較，可利用箱形圖發現用電異常[22-23]。

箱形圖可以通過展現出的大致的數據離散程度，作為異常值判斷的信息支撐。與需假定數據服從正態分布的z分數或3σ法則方法不同，箱形圖主要依靠實際數據特征，不需要事先假定數據服從特定的分布形式。

箱形圖的基礎是將數據劃分為上四分位數Q1、下四分位數Q3和四分位距QR。同時將Q3+1.5QR和Q1-1.5QR兩處異常值截斷點之間的區域作為內限。箱線圖提供了識別異常值的一個標準:小于Q1-1.5QR或大于Q3+1.5QR的值被定義為異常值。

2 數據獲取與數據預處理

從營銷業務應用系統、用電信息采集系統中抽取用戶基礎用電特征數據(如：實時電流、電壓、日電量等)，形成用戶特征原始數據表。同時，為保證特征軌跡接近實際情況，將對原始數據表進行缺失值填充、去重、歸一化等操作，確保數據整齊可靠。

2.1 基礎數據準備

2.1.1 月用電量數據字段

抽取用戶月用電量系統數據字段：戶號、戶名、供電單位、地址、合同容量、運行容量、變壓器容量、用戶電壓、用電類別、行業類別、客戶類型、變損標志、功率因素考核標準、立戶日期、銷戶日期、電源編號、電價碼、電價名稱、201901-201912各時段電量。

2.1.2 日用電量數據字段

抽取用戶日用電量系統數據字段：計量點ID、日期、表計倍率、總讀數、尖峰讀數、峰讀數、平讀數、谷讀數。

2.1.3 96點負荷數據字段

抽取用戶96點負荷系統數據：戶號、計量點ID、電價碼、電價名稱、日期、A1(00:00-00:15)、A2(00:15-00:30)……A96(23:45-00:00)96個時點數據。

2.2 數據量統計檢查

福利機構用戶1437戶，電量時間跨度201901-201912。月用電量數據58,680條、日用電量數據594,950條、96點負荷數據57,115,200條。

2.2.1 月用電量數據統計

部分用戶涉及多個電表，抽取用戶電表每月峰、平、谷三個時段用電量數據。

2.2.2 日用電量數據統計

日用電量數據表提供的是各時段示數，需要進行計算轉換為電量值，具體計算邏輯如下：

電量值=(當天讀數-前一日讀數)*表計倍率

(注：當天讀數是指當天0時-當日24時，如：7月17日，當天為2019年07月17日 0時，到2019年07月18日 0時)。

2.2.3 96點負荷數據統計

96點負荷數據表提供電壓、電流、功率因素三相數據(到表計)，需要通過計算得到負荷并匹配到戶。96點負荷值計算具體邏輯如下：

某時刻負荷瞬時值=DL(該時刻電流)*DY(該時刻電壓)*YS(該時刻功率因素)

(注：ABC三相基本均衡，取C相用于后續數據分析)

2.3 數據異常預處理

2.3.1 空值情況

(1)日電量表

日電量表存在日期、表計倍率為空，以及平時段讀數、谷時段讀數缺失(為空或0)的情況。

經核實，平時、谷時讀數可能未采集到，后續考慮日用電量數據指標和應用場景，不用各時段的電量，僅采用總電量來做計算。

(2)96點負荷表

96點負荷數據表存在日期、SSLX(示數類型)、相線(XX)為空或某些時刻缺失，以及96個點負荷均為0的情況[24]。

經核實，可能是采集異常等原因導致，后續采用前后填充的方式填充缺失值。對于96個點負荷均為0的情況，在分析中考慮按計量點ID分組統計96個點時刻0值的天數，若達到總天數80%以上則刪除該用戶，反之暫時保留。

2.3.2 負值情況

(1)日電量表

日電量表存在讀數倒流(讀數在某天下降的比前一天低)或讀數每天均相同情況。

經核實，讀數采集可能存在異常或抄表人員誤操作等問題導致，后續考慮將電量為負數的記錄進行填充(前后填充)。讀數每天均相同的按METER_ID分組統計0值的天數，達到總天數80%以上則刪除該表計數據。

(2)96點負荷表

96點負荷數據存在電壓、電流、功率因素等參數為負數的情況。

經核實，負荷瞬時值為負數，表示倒走，后續分析直接填充為0。

2.3.3 數據修正

數據抽取采集過程中，不同系統或渠道數據源，部分存在數據異常或沖突的問題。這是不同系統對于同一個數據對象的統計邏輯不同而造成的，邏輯的不一致會直接導致結果的差異性；除了統計邏輯和口徑的差異，也有因為源數據系統基于性能的考慮，放棄了外鍵約束，從而導致數據不一致的結果。

通常由于并發量和負載過高、服務器延遲甚至宕機等原因導致的數據采集差異。對于這類的數據矛盾，首先明確各個源系統的邏輯、條件、口徑，然后定義一套符合各個系統采集邏輯的規則，并對異常源系統的采集邏輯進行修正。

此外，還存在抽數規則的錯誤導致的數據采集的錯誤，此時需要從源頭糾正錯誤的采集邏輯，然后再進行數據清洗和轉換。

3 福利機構用電類異常識別模型

抽取2019年上海全部福利機構用電類用戶月用電量、日用電量和96點負荷數據，進行數據預處理后，代入模型運算，輸出疑似侵占用戶嫌疑清單。

3.1 福利機構用電類特征分析

3.1.1 基于資料調研的用電特征

(1)福利機構用電活動規律性明顯，通常日間負荷較高，中午午休時間負荷降低，三餐時間會出現一個用電小高峰，夜間負荷較低，深夜是每天負荷的最低點[25]。

(2)福利機構工作日用電與周末、節假日用電等相差不大。

(3)福利機構用電受氣候、季節影響，陰雨天日間照明負荷增加，夏季高溫時空調、電扇負荷上升，冬季取暖用電負荷上升。

(4)福利機構用電與工商業用電相比，負荷密度較小，屬于低耗能用戶。

3.1.2 基于大數據分析的用電特征

基于基礎數據觀測，對比分析福利機構類用電谷電量占比、單位容量年消費電量等指標值情況：

(1)福利機構類用戶季節性用電特征

福利機構用電整體上夏季、冬季處于用電高峰，高峰月有1月-2月、8月(其中1月-2月氣溫偏低，8月氣溫最高)，春秋季用電相對較低，與調研資料一致。

圖2 福利機構用戶總體月度用電趨勢圖Fig.2 Overall monthly electricity consumption trend of users in welfare institutions

圖3 上海2019年氣溫變化趨勢Fig.3 Temperature trend of Shanghai in 2019

(2)福利機構用戶峰谷用電強度分析

福利機構用戶峰平谷用電相差不大，谷時段用電相對較低。為區分用戶白天夜間用電偏好，將峰時段與平時段電量相加作為峰時段，從峰谷時段用電趨勢可以看出，兩個時段趨勢基本一致，峰(峰+平)谷比約為3。

圖4 福利機構用戶峰谷用電強度分布圖Fig.4 Peak-to-valley electricity intensity distribution of users in welfare institutions

圖5 福利機構用戶總體月度峰谷用電趨勢圖Fig.5 Overall monthly peak-to-valley electricity trend of users in welfare institutions

(3)福利機構用戶節假日用電強度分析

福利機構工作日用電與周末用電整體差異較小，與全年日均電量比例維持在1∶1。

圖6 福利機構用戶工作日/周末用電強度Fig.6 Power consumption intensity of users of welfare institutions on weekdays/weekends

(4)福利機構用戶96點負荷曲線分析

福利機構類用戶周末和工作日96點負荷曲線幾乎一致，無周末用電偏好；從96點負荷曲線可以看出用電主要集中在白天(早上6點至夜間6點)，其他時段負荷較低。

圖7 福利機構用戶96點負荷曲線Fig.7 96-point load curve for users of welfare institutions

3.2 福利機構用電類特征指標

3.2.1 特征指標設計與公式

結合福利機構類用戶用電數據，對福利機構用電特征的分析，歸納如下：

福利機構用戶用電高峰集中在夏季和冬季，高峰月份為1月、2月、8月；工作日與周末用電差異不大；白天用電較多，夜間用電較少(夏季、冬季可能略有增高)，總體峰谷用電趨勢一致。因此福利機構用電嫌疑用戶挖掘主要參考谷峰電量比、周末與工作日用電強度比等2個特征指標，各指標計算公式如下所示：

(1)谷峰電量比=谷時段電量/峰時段電量；

(2)周末用電強度=周末日均電量/全年日均電量；

(3)工作日用電強度=工作日日均電量/全年日均電量；

(4)周末與工作日用電強度比=周末用電強度/工作日用電強度。

3.2.2 指標異常偏離度計算

針對單個指標，基于指標數據分布確定指標總體水平，定義異常偏離度SCL為單個用戶與總體水平之間的偏離程度：

(7)

其中SCL表示單個指標的異常偏離度，[Q1,Q2]表示單個指標總體集中區間，Qi表示單個指標某用戶具體取值[26-27]。以此類推，可計算谷峰電量比偏離度SCLva、周末與工作日用電強度比偏離度SCLwe。

3.2.3 指標偏離度權重確認

Score=t1*SCLva+t2*SCLwe

(8)

其中，Score表示綜合嫌疑得分，SCL為用戶各指標與總體水平的偏離度，t1、t2為基于灰色關聯分析模型計算的谷峰電量比偏離度權重、周末與工作日用電強度比偏離度權重。灰色關聯分析模型融合了熵權法及變異系數法兩套客觀賦權法的結果，最終可以結合專家經驗采用主觀賦權法進行科學調整[28]。

表1 t1、t2客觀賦權法計算結果Tab.1 Calculation results of t1 and t2 objective weighting method

3.3 福利機構用電類嫌疑用戶挖掘

3.3.1 福利機構用電類行業標準

分別計算福利機構用電客戶總體的谷峰電量比、周末與工作日用電強度比指標值集中區間，作為識別嫌疑用戶的行業標準。

福利機構類用戶總體的指標值計算結果如下所示：

(1)總體谷峰電量比集中水平為0.33；

(2)總體周末與工作日用電強度比集中區間為[0.98,1.00]。

當用戶各指標值接近總體集中水平或落在總體的集中區間時視為正常。

谷峰電量比方面，谷峰用電比例越大，越偏向谷時用電，峰時用電較少，即夜間用電多，白天用電少，與用戶實際用電行為習慣不符。考慮部分用戶夜間用電少或不用電，當谷峰比小于0.33時，亦視為正常；當谷峰比大于0.33時，分析用戶與總體谷峰比的偏離度。

周末與工作日用電強度比方面，當用戶周末與工作日用電強度比在集中區間時視為用戶周末與工作日用電差異較小，無周末用電偏好，與實際相符；當強度比小于0.98時，分析與總體用戶強度比集中區間下限的偏離度；當強度比大于1.00時，分析用戶與總體用戶強度比集中區間上限的偏離度。

3.3.2 用電異常嫌疑用戶輸出

綜合各指標偏離度計算值與權重得到各用戶的綜合嫌疑得分，其中綜合嫌疑得分越高，用電異常嫌疑越大。

當前，僅展示嫌疑最大的前5位用戶，如下表所示。

表2 福利機構用電類嫌疑用戶top5清單Tab.2 Top 5 list of suspected electricity users in welfare institutions

3.4 福利機構用電類嫌疑用戶核查

為進一步驗證模型的有效性和精確度，根據用電異常嫌疑用戶清單展開核查，綜合嫌疑得分前二十的福利機構用電類嫌疑用戶中，確認侵占的異常用戶14個，占比70%。

通過實證檢驗，本課題研究建立的嫌疑用戶智能識別模型有效。

4 結語

通過本課題創新設計，基于能源電力大數據，采用大數據算法分析目標用戶群體的用電行為特征，搭建多維行業用戶行為特性特征指標體系，建立智能化、自動化嫌疑用戶智能識別模型，全面助力異常用電快速定位，避免電費錯收、漏收、少收等問題發生，保障電力企業經濟利益。嫌疑用戶智能識別模型搭建完成后，可應用信息技術整合用戶基礎檔案和橫向對標分析功能研制用電異常用戶識別輔助工具，形成常態化工作模式和機制，協助相關工作人員進行用電異常用戶定位與核查，提高工作效率，促進數字化工作新模式的轉型升級與落地應用。