史玉良 榮以平 朱偉義
1(山東大學軟件學院 濟南 250100)2(山大地緯軟件股份有限公司 濟南 250100)3 (國網山東省電力公司 濟南 250001) (shiyuliang@sdu.edu.cn)
近年來,我國竊電相關的糾紛案件數量逐年上升,竊電手段不斷變化發(fā)展,使得竊電范圍不斷擴大,對電力系統(tǒng)的正常運行造成了阻礙.為規(guī)范管理生產生活用電、提高電能利用率、推進電力企業(yè)健康穩(wěn)定發(fā)展,開展用電檢查與反竊電工作是電力企業(yè)的一項迫切工作.
早期,傳統(tǒng)的電費收取方式為人工手抄表,體力勞動強且涉外人員數量不足,竊電查處問題也由涉外人員承擔,用電檢查人員數量難以滿足需求;其次,由于傳統(tǒng)用電管理思想觀念根深蒂固,供電企業(yè)對竊電行為不夠重視,造成用電檢查及打擊竊電行為力度低,助長了竊電行為.隨著社會進步、經濟發(fā)展,用戶用電數量不斷增多,社會生產生活對電能的需求量越來越大,電力企業(yè)也隨之引進智能電表,以用電信息采集系統(tǒng)和SG186營銷業(yè)務應用系統(tǒng)有效實現遠程費控,然而竊電查處問題并未隨之解決,且在經濟利益的驅使下,竊電者不再局限于過去的居民、個體等,逐漸發(fā)展成為了集體企業(yè)、中外合作企業(yè)等,發(fā)展速度十分快,嚴重干擾了電力企業(yè)供電安全與秩序.此外,隨著科學技術日新月異,高科技手段被竊電人員廣泛應用,隨著竊電技術的智能化、科技化發(fā)展,使得高科技含量的竊電方式越來越多,如無線遙控、有線遠方控制等,此類竊電手段往往十分隱蔽,傳統(tǒng)用電檢查方法根本無法檢測,且用電檢查人員綜合素質較低,難以滿足用電檢查和反竊電工作的現代化需求[1].
因此,亟需采取有效方法,利用電力企業(yè)現有系統(tǒng)所提供數據實現反竊電分析,對竊電嫌疑用戶行為進行概率推測和診斷,精準識別重大竊電嫌疑用戶,提高反竊電工作成效,加強我國電力企業(yè)對電能輸出的高效監(jiān)管力度.通過采用強有力的竊電監(jiān)控識別手段,加大竊電的查處懲治力度,維護正常的供用電秩序,保障公司經營效益.
本文的主要貢獻有3個方面:
1) 在用電特征提取階段.一方面基于過濾式算法篩選竊電特征數據項,另一方面深化特征數據項的有效性,針對動態(tài)數據以規(guī)則與閾值結合的方式識別特征異常類型,并以日、周、月、季、年5類數據,實現當前用電數據與歷史用電數據的對比,從而實現對人工判別異常數據的模擬.
2) 在模型算法選擇階段.以邏輯回歸算法實現竊電行為的數據挖掘,始終著眼于整體數據,對全局數據的綜合性把握較高,特別隨著新數據的參與,模型可基于反饋數據快速調整其輸入特征及參數變化.
3) 在模型訓練階段.基于用電信息采集系統(tǒng)和SG186營銷業(yè)務應用系統(tǒng)積累的大量客戶用電信息,結合大量典型竊電案例,綜合考慮各種竊電因素,依據事物發(fā)展變化的因果關系來識別數據的異常走勢,是一種從定量至定性的診斷方法,具有模擬人工識別異常數據和多維數據的綜合信息挖掘的優(yōu)點.
目前,反竊電工作越來越受到各級電力企業(yè)的重視,并引起社會各界的廣泛研究與關注,反竊電手段亦得到不斷發(fā)展.如針對當前常見的竊電技術和存在的缺陷,采用4G通信模塊、智能視頻取證等關鍵技術,集成防竊電和實時視頻監(jiān)控的智能視頻監(jiān)控終端的防竊電監(jiān)測方式[2];針對電力傳輸過程中產生的線損數據,對高線損異常用戶進行識別,從而實現反竊電監(jiān)測的方式[3];針對異常用電用戶,提出基于無監(jiān)督學習的異常用電模式檢測模型,主要以特征提取、主成分分析、網格處理、計算局部離群因子等建模,輸出所有用戶用電行為的異常度及疑似概率排序,以檢測異常度排序靠前的少數用戶查出異常用戶[4].
由參考文獻[2-4]可以看出,反竊電工作越來越具體化與目標明確化,且主要以遠程偵查為發(fā)展目標,由此減輕涉外人員的工作強度;同時帶來的問題是,如何在不增加電力企業(yè)經濟壓力的前提下,實現對竊電行為的全面?zhèn)刹?,特別隨著用電信息采集系統(tǒng)和SG186營銷業(yè)務應用系統(tǒng)的全覆蓋應用,“數據海量,信息匱乏”的現象正反映了反竊電工作的尷尬處境.針對竊電問題帶來的電力企業(yè)用電監(jiān)管問題,本文基于當前電力系統(tǒng)積累的大量客戶用電信息,綜合考慮各種因素,建立竊電行為識別方法[5],對竊電嫌疑行為進行概率推測和診斷[6],精準識別重大竊電嫌疑戶.
本方法旨在構建有效可行的竊電用戶行為識別模型.在該模型特征數據輸入階段,為有效提取竊電行為的相關數據和異常數據,一方面基于過濾式算法篩選竊電特征數據項,一方面基于反竊電領域專家經驗設定動態(tài)數據曲線異常識別規(guī)則及閾值,從而提高了模型輸入特征數據的有效性;隨后以邏輯回歸算法[7]構建用戶竊電行為診斷模型,以樣本特征數據為輸入,輸出樣本分類的方式實現對用戶竊電行為的識別,整體采用一種閉環(huán)工作的反竊電診斷機制[8],滿足精準識別重大竊電嫌疑戶的業(yè)務需求,整體方法流程步驟如圖1所示:

Fig. 1 The flow chart of stealing behavior diagnosis method圖1 用戶竊電行為診斷方法的總體流程圖
① 自SG186營銷業(yè)務應用系統(tǒng)搜集竊電樣本、無竊電正常樣本、用戶檔案類數據,從用電信息采集系統(tǒng)獲取用戶計量指標數據,竊電樣本數據與正常樣本數據構成數據樣本集;
② 基于竊電樣本,對樣本進行典型竊電案例精簡,初始化典型竊電案例的專家樣本庫;
③ 基于典型竊電案例反向分析,基于過濾式算法篩選竊電特征數據,建立基于竊電行為的特征數據庫,即竊電行為診斷指標體系,初始化特征數據庫;
④ 基于特征數據項提取模型輸入數據信息,選取多時間域的用戶用電數據動態(tài)曲線,基于規(guī)則和閾值識別特征異常類別;
⑤ 基于用戶基本特征數據項和異常數據類別,利用邏輯回歸算法構建用戶竊電行為診斷模型,實現對竊電用戶行為的識別,若識別正確率后期降低,則將信息反饋至④,從而對新特征異常類別加以重構;
⑥ 以某一時間段內的用戶數據構建驗證數據樣本集,對本文構建的用戶竊電行為識別方法進行驗證;
⑦ 根據驗證輸出的竊電嫌疑用戶生成竊電排查工單,現場進行檢查取證、查處工作,對現場排查確認的竊電用戶,確認竊電行為及采用的竊電方式;
⑧ 現場核實結果反饋至SG186營銷業(yè)務應用系統(tǒng),提取有效的竊電數據作為案例加入專家樣本庫中,完善竊電行為診斷指標體系,根據反饋的竊電案例對竊電行為識別方法不斷修正優(yōu)化.
本文主要對竊電行為識別方法的構建加以闡述,并以matlab仿真對模型的訓練與測試效果進行驗證,實踐應用環(huán)節(jié)還有待開展,并可基于后期反竊電開展工作不斷優(yōu)化提高竊電行為識別方法的性能.
本文構建的竊電行為識別方法主要包含2部分:1)基于多尺度識別用電特征異常,實現對人工識別竊電異常數據的模擬;2)基于用戶基本數據和特征異常識別數據,采用邏輯回歸算法[9]構建用戶竊電行為診斷模型,從而完成嫌疑用戶竊電行為識別.
本文對歷年竊電用戶在采集、營銷系統(tǒng)的電量、電壓、電流、報警、信用等數據進行反向分析,構建本次建模的指標體系[10],主要分為2部分:1)基于過濾式算法篩選竊電特征數據項;2)基于規(guī)則和閾值設定識別動態(tài)用電異常特征數據.
1) 基于過濾式算法篩選竊電特征數據項

Fig. 2 Discriminating curve of voltage phase failure圖2 電壓失壓斷相判別數據曲線
本文首先對樣本特征數據進行規(guī)范化處理,特征數據取值為[-1,1];隨后,基于過濾式算法對樣本數據進行特征選擇,主要方法為針對每一個初始特征,以特征相關性度量特征對分類結果的重要性.


(1)

由式(1)可得,對于屬性j,若xi與其猜中近鄰xi,nh的距離越小,與其猜錯近鄰xi,nm的距離越大,則其相關統(tǒng)計量δj越大,說明特征屬性j的區(qū)分竊電與非竊電類別的能力越強,將δj進行降序排列,設定閾值τ,將相關統(tǒng)計量大于閾值τ的特征作為篩選特征.
2) 基于規(guī)則識別動態(tài)用電異常特征數據
在傳統(tǒng)的反竊電偵查過程中,工作人員往往通過用電信息采集系統(tǒng)、營銷業(yè)務應用系統(tǒng)提供的采集數據和歷史數據對比進行人工識別,由于用電數據動態(tài)變化往往包含清晰的竊電識別信息,反竊電專家往往基于此結合豐富的反竊電經驗對此作出甄別,故本文針對此類用電動態(tài)數據制定數據異常判別規(guī)則[11],結合閾值的方式識別特征數據異常并給出異常類別,如電流三相不平衡、電量突減、相位角反極性等.
基于反竊電專家歷年竊電診斷經驗,本文對電流數據、電壓數據、電量數據和相位角數據進行特征異常類別甄別.由于反竊電診斷是基于當前采集數據進行,故識別數據曲線為當日采集數據、前推一周采集數據、前推一月采集數據、前推一季度采集數據和前推一年采集數據.判別規(guī)則分類制定,圖2為由采集數據獲取的電壓失壓斷相實際曲線,其規(guī)則及閾值設定如下:
三相四線斷相:任一相電壓小于K×額定電壓,另兩相電壓中任一相電壓不小于K×額定電壓.
若上述規(guī)則成立,則判定其為電壓失壓斷相.
圖3為電量趨勢突減異常采集數據曲線,電量趨勢下降指標作為模型的異常特征指標,部分行業(yè)的用戶在春節(jié)及長假數據可能對結果造成誤判,需要剔除,故其量化公式為電量趨勢判斷規(guī)則如下:

Fig. 3 Discriminating curve of electricity trend圖3 電量趨勢判斷數據曲線
(2)
其中,kl為當天下降趨勢指標,gr為當天電量,gl為前后幾天電量,αr為權重,d為前后天數.
圖2為單日電壓數據采集曲線,反竊電專家從該數據變化判別該用戶電壓數據異常,即電壓失壓斷相;然而,僅依賴于單日采集數據進行特征異常判別,往往導致局部視角狹窄,如圖3所示,在2016-04-15—2016-06-15區(qū)間的單日電量數據難以察覺其用電量異常,需結合前推一季度乃至前推一年的用電量加以判別.本文基于反竊電專家的判別經驗,盡可能地以動態(tài)規(guī)則的視角模擬人工識別視角,以多尺度的規(guī)則及閾值設定實現單類特征異常識別,從而最大程度地擬合人工識別,提高竊電類型識別的精準度.具體異常特征識別類型如表1所示:

Table 1 Abnormality Feature Identification Type表1 異常特征識別類型
用戶竊電行為診斷模型是本方法的核心內容,以邏輯回歸算法為數據處理原理,主要包含模型訓練與模型測試2部分,具體模型構建流程如圖4所示,包括8個步驟:
步驟1. 基于用戶用電數據選取等比例竊電樣本數據與正常用電樣本數據作為模型樣本集,從模型樣本集內分別隨機抽取相應比例的數據構成訓練集數據及測試集數據;
步驟2. 將訓練集數據進行用戶樣本集定義X={x1,x2,…},特征權重向量θ=(θ1,θ2,…),則目標函數f(θ)=θT×X,類別集合C∈{C1,C2},初始化迭代次數k=0,允許誤差ε>0,基于一定范圍對θ隨機賦值;
步驟3. 進入迭代求解過程,k=k+1;
步驟4. 采用擬牛頓法對目標函數進行最優(yōu)求解,目標函數的梯度

(3)

Fig. 4 The flow chart of the stealing behavior diagnosis model圖4 構建用戶竊電行為診斷模型流程圖
計算海森矩陣Hk+1:

(4)

梯度下降方向

(5)
進而從x(k)出發(fā),延方向d(k)搜索,求步長λk,求解方程滿足如下:

(6)
更新特征權重向量θ=(θ1,θ2,…),
θ(k+1)=θ(k)+λkd(k).
(7)
步驟5. 將特征權重向量θ代入目標函數f(θ),判斷式(8)是否成立

(8)
若成立,則返回步驟3繼續(xù)進入迭代求解過程;若不成立,則獲得本次計算所得的最優(yōu)化目標函數,進入步驟6.
步驟6. 基于最優(yōu)化目標函數構成用戶竊電行為診斷模型,

(9)
對用戶竊電行為診斷模型進行樣本測試,比較概率,概率與類別比例相比較獲取對應類標號,進行測試樣本分類,其中,xj為測試樣本數據,屬于步驟1所得的測試集數據.
步驟7. 計算測試集數據的測試參數,判斷是否滿足用戶竊電判別要求,若不滿足,則返回步驟2對θ更新隨機賦值,若滿足,則進入步驟8.
步驟8. 構建完成用戶竊電行為診斷模型,并輸出本次更新模型.
為驗證本方法的可行性和有效性,本文基于國網山東省電力公司用電信息采集系統(tǒng)為背景實施平臺,并作為基礎數據來源.其中,竊電行為診斷包含與外圍系統(tǒng)連接的輸入輸出信息模塊,存儲單元包含3類數據庫:1)數據庫存儲輸入信息與信息預定義;2)數據庫存儲解決方案與測試結果;3)數據庫存儲專家樣本與樣本特征.
自SG186營銷業(yè)務應用系統(tǒng)搜集從2009—2016年的竊電樣本1萬例,對應相關竊電用戶從用電信息采集系統(tǒng)獲取用戶計量指標數據、SG186營銷業(yè)務應用系統(tǒng)獲取用戶檔案類數據、采集終端獲取異常事項數據,此外,從山東省各地市全面地抽取無竊電記錄用戶1萬例,其對應相關數據作為正常用戶數據,竊電樣本數據與正常用戶數據構成數據樣本集,基于1萬余例可用竊電樣本,對樣本進行典型竊電案例精簡,初始獲取77例典型竊電案例的專家樣本庫,進而建立基于竊電行為的特征數據庫,即反竊電預警診斷指標體系.
基于獲取的1萬余例可用竊電樣本數據,采用過濾式算法篩選竊電特征數據項,如表2所示:

Table 2 Results on Feature Data Screening 表2 特征數據篩選結果
隨后,針對篩選特征項內的動態(tài)變化數據,采用基于規(guī)則和閾值設定的方式識別用電異常特征數據,并以部分識別的異常數據為例進行展示,結果如表3所示:

Table 3 Results on Partial Abnormal Data Feature Recognition表3 部分異常數據特征識別結果
綜上所述,針對于用戶竊電行為診斷模型的訓練和測試,本文采用77例典型竊電案例實現特征異常數據規(guī)則與閾值的設定,采用2萬例樣本集數據用于實現對邏輯回歸概率預測的構建,并以此作為模型特征數據的篩選與提取.
基于2萬例樣本集數據[12]構建用戶竊電行為診斷模型,為獲取更優(yōu)化的邏輯回歸概率預測,本文采用重復3次訓練過程優(yōu)化邏輯回歸概率預測,訓練樣本為1.6萬例,累計獲取8次特征權重向量重新賦值,迭代次數閾值設定為200次,模型優(yōu)化準確率目標為98%,模型分別在第3次、第5次、第8次迭代過程中取得滿足準確率識別要求的參數解,其迭代次數分別為165次、158次和200次,其歷次準確率與迭代次數變化如圖5所示,其中OI(output iteration)表示輸出迭代值:

Fig. 5 Iterative solution process for model building圖5 構建模型的迭代求解過程
根據圖5的模型訓練結果,本文選取準確率滿足要求的3例模型,以4 000例測試樣本對其進行測試,最終獲取測試結果的正確率、召回率及精準率如表4所示:

Table 4 Test Results on the Model of Stealing BehaviorRecognition
表4中,True/False表示樣本實際是否是竊電數據;Positive/Negative表示數據通過模型后輸出結果是否是竊電(模型判斷是竊電的為Positive,反之為Negative).
由于本文為竊電監(jiān)測類識別,故需在保證準確率的情況下提高召回率,即盡可能地識別實際竊電的用戶,故采用綜合評價指標(F-Measure),在準確率和召回率出現矛盾的情況,通過加權調和評價,計算為

(10)
由綜合評價指標計算可得,Model 1,Model 2和Model 3分別為94%,93.94%和93.4%,故選擇Model 1為最終用戶竊電行為診斷模型.
為說明本文所使用方法的合理性,本文基于4.2節(jié)實驗數據,選擇當前反竊電研究熱點領域的2種方法作為竊電行為識別的對比方案,并將本文所述方法作為第3種方案,開展對比實驗并對實驗結果加以說明,具體方案如下:
1) Options 1. 基于采集數據,建立基于正態(tài)分布離群點算法的竊電行為識別方法[13].
2) Options 2. 基于本文的特征提取數據,建立基于無限深度神經網絡的竊電行為識別方法[14].
3) Options 3. 本文基于用電特征分析的竊電行為識別方法.
最終實驗結果如表5所示:

Table 5 Comparison of Experimental Results forThree Options
由表5可知,由于Options 1基于采集數據的離群點檢測構建正態(tài)分布概率統(tǒng)計模型,與本文所述方法的用電異常特征數據篩選環(huán)節(jié)原理相似,但本文一方面結合了反竊電專家的數據甄別經驗實現異常特征規(guī)律的人工判別模擬,另一方面以多特征而非單一異常特征實現竊電行為識別,從而提高了模型的綜合性和整體性識別水平,故本文所用方法雖然平均時耗高于Options 1,但在綜合評價指標方面體現出較大優(yōu)勢.隨著機器學習的發(fā)展,無限深度神經網絡開始成為各領域的研究熱點,Options 2亦基于此方法開展竊電行為識別的訓練與測試,該模型構建須基于海量數據支撐,且在數據質量不穩(wěn)定時存在較高風險,尤其對于當前處于發(fā)展階段的預測分類,其輸入/輸出數據的變動,往往導致模型產生高重構代價的風險,雖然在再訓練過程中可借鑒歷史經驗,但是其調參復雜迭代次數往往為5 000~10 000次,甚至再訓練時間多達幾天,且基于當前的有限采集竊電樣本,構建的模型綜合評價指標測試結果不理想,僅為87.2%,故在時效性、精確性和合理性方面,Options 2在本文所述應用環(huán)境中均受限.
銀行行業(yè)的預測模型中,80%是采用邏輯回歸算法構建[15],可見邏輯回歸方法在模型構建、數據處理穩(wěn)定性方面具有顯著優(yōu)勢,通過表5的測試結果亦可得,基于現有的歷史數據,本文所述方法的竊電行為識別的綜合評價指標均高于Options 1和Options 2.且反竊電工作屬于發(fā)展階段,隨著科技技術的日新月異,竊電技術亦不斷發(fā)展,故在輸入/輸出數據均存在變動性的情況下,本文所述方法可快速實現模型的再訓練,適應性更強.由以上數據顯示,本方法對竊電概率預警具有高效預測能力,可有效輔助國網山東省電力公司相關工作人員開展反竊電工作.
本文以國網山東省電力公司集成化數據平臺為背景,對用電信息采集系統(tǒng)、SG186營銷業(yè)務應用系統(tǒng)及采集終端可提供的用戶數據進行分析處理,構建了一種基于用電特征分析的竊電行為識別方法.首先基于竊電樣本可用數據對竊電行為用電特征數據進行篩選,隨后基于竊電樣本篩選典型竊電案例構建專家樣本庫,并基于此設定竊電行為導致用電數據異常的規(guī)則與閾值,從而提取出用電特征中的異常數據類別,上述數據作為模型輸入.基于邏輯回歸算法構建用戶竊電行為診斷模型,并以擬牛頓算法求解最優(yōu)目標函數有效減少迭代求解次數,上述模型實現對竊電嫌疑用戶的篩查.
此外,本方法采用預警、排查和處理反饋的閉環(huán)工作機制不斷豐富專家樣本庫,模型根據反饋案例持續(xù)進行學習訓練、優(yōu)化重構,不斷提高模型的精度和泛化能力,提高識別竊電嫌疑用戶的精準度.由算例分析數據可得,本方法是高效可行的,可精準識別竊電嫌疑用戶,它提供一種強有力的反竊電監(jiān)控預警手段,有助于加大反竊電的查處懲治力度,維護正常的供用電秩序.
ShiYuliang, born in 1978. PhD, professor. His main research interests include cloud computing, database and privacy preserving.

RongYiping, born in 1977. Senior engineer. His main research interests include electricity marketing, power information.

ZhuWeiyi, born in 1971. Senior engineer. His main research interests include electricity marketing, power information.