鄺萌,李英娜,李川,曹敏
基于多模型融合Stacking集成學習的異常用電檢測方法研究
鄺萌1,2,3,李英娜1,2,李川1,2,曹敏3
(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500; 2. 云南省計算機技術應用重點實驗室,云南 昆明 650500; 3. 云南電網有限責任公司 電力科學研究院,云南 昆明 650217)
針對單一異常用電檢測方法對于存在不平衡性的數據集檢測效率普遍不高的問題,提出了一種基于多模型融合Stacking集成學習的異常用電檢測方法。首先,以居民用電數據作為研究對象,分析用戶在習慣上表現的不同特征,結合不平衡處理技術和分類預測算法進行研究;其次,為了提高模型的整體性能,采用量子遺傳算法對集成學習模型中的參數做優化處理;最后,通過云南某地區用電數據集進行驗證,證明所提模型相比單一學習模型檢測的準確率有明顯提升,對提升異常排查效率,降低電力公司的運營成本具有重要意義。
異常用電檢測;多模型融合;不平衡處理技術;分類預測算法;Stacking集成學習
大數據[1]打開了時代轉型的大門,各界學者的關注重點轉向了從眾多低密度數據中提取有價值的信息。對電力行業而言,隨著電力系統信息化水平的提高和電力數據的快速增長[2-3],各種設備和系統都產生大量的數據,事件信息類型多樣,很難從數據中提取有用的信息。同時,伴隨著計量裝置的異常、電網波動等事件的發生,出現了大量的異常數據,這將妨礙電網的安全運行及電力行業的正常發展。因此在大規模電力數據中挖掘和建立異常檢測算法對于充分挖掘異常用電信息及智能電網[4]的大規模發展具有重要意義。
近年來,隨著數據挖掘在互聯網行業的發展,提出了一些基于數據挖掘和智能優化算法的異常檢測方法。由于異常用電欺詐與電信行業、保險行業、信用卡交易等欺詐有類似共同特征,可以用類似的數據挖掘方法做異常檢測,例如:無模式無監督的學習方法[5-9]和有模式監督學習方法[10-13],其中有模式監督學習是主要方法。文獻[12]提出基于深度學習的用戶異常用電模式檢測模型,但該模型存在學習速度不夠理想,生成模型所用時間比較長等問題。文獻[13]提出提出了一種基于LSTM神經網絡的功耗預測和異常檢測方法,與非監督算法相比,具有更好的實用性,但是預測和異常檢測的準確性不夠理想,還需要進一步優化。
多數研究沒有分析數據不平衡對異常用電檢測的影響,只是從算法優化的角度來開展研究。針對這個問題,本文提出了一種基于多模型融合Stacking集成學習的異常用電檢測方法。在異常用電檢測中,正常樣本和異常樣本不平衡是不可避免的。本文首先進行數據預處理和特征選取;然后建立基于Stacking集成學習的異常用電檢測模型,選取3個不同性質的單分類算法(支持向量機、鄰近算法、決策樹)作為該模型的基學習器,選取3種單分類算法中實驗結果相對較好的支持向量機作為該模型的元學習器,并將基學習器分類預測的輸出結果作為元學習器的輸入,由此來提高模型分類預測的精確率;最后,為了提高算法的整體性能,采用量子遺傳算法(QGA)對集成模型元學習器SVM中的參數和值做優化處理。最后通過云南某地區真實用電數據集進行驗證,證明所提模型的有效性。
Stacking[14]集成算法首先把原始輸入數據集分解成數個子集,分別輸入到第1層分類模型的各個基學習器中,且每個基學習器輸出各自的分類結果,并作為第二層元學習器的輸入,以此來達到糾正第一層分類預測模型誤差的目的,從而提高模型分類預測的精度。集成模型框架如圖1所示。

圖1 Stacking集成模型框架
Stacking的具體學習步驟如下:
不同的算法是在不同的角度觀測數據,再從自身原理出發建立相應模型。因此,在集成方法中選擇差異較大的算法能夠使得各個差異化模型優勢互補。本次研究所提的Stacking集成算法由支持向量機(SVM)、鄰近算法(KNN)和決策樹(DTree)3種不同質的單分類算法組成。SVM算法參數調節和核函數選擇敏感,但解決小樣本、非線性問題有特有的優勢;鄰近算法計算復雜度高,但訓練時間短;決策樹處理缺失值非常有限,但計算復雜度低,3種算法可以優勢互補。
異常用電檢測與各參量間的關系屬于非線性關系,所以選擇非線性結構支持向量機,其效果估計函數可通過以下方法確定:

式中:和可以通過最小化回歸風險來估計。

式中:為懲罰因子。非線性回歸的決策回歸方程為:

本次實驗中核函數(x,)選用高斯核函數,其表達式為:

鄰近算法根據多維樣本到已知訓練樣本的距離對多維樣本進行分類。一般用歐式距離表示:

目前,常用的決策樹分類算法有ID3、C4.5等。算法區別在于特征選擇標準量化的不同。ID3算法不支持缺失值、剪枝處理情況;C4.5采用多叉樹結構。異常數據存在缺失值情況,所以選取C4.5算法進行實驗。C4.5算法思路是將連續的特征離散化,并引入信息增益比I(,),表達式為:
(6)
式中:為樣本特征輸出的集合;為樣本特征。
量子遺傳算法(QGA)是遺傳算法(GA)的優化,利用概率進化算法的機制,將量子計算的概念整合到遺傳算法中。在量子計算中,量子態向量是QGA表達式的基礎,量子染色體由量子比特編碼。QGA中的每一條染色體都使用所選的量子旋轉門進行群體進化,更新多態性的疊加,然后搜索群體的最優個體位置。其中,量子旋轉門的調整操作為:

其更新過程為:

異常用電檢測是一個典型的二分類問題,本文采用混淆矩陣、ROC曲線作為評價體系。混淆矩陣如表1所示,0代表正常用戶,1代表異常用戶。

表1 混淆矩陣
模型分類預測結果會出現以下4種情況。表示模型判斷用戶用電正常且實際異常的用戶;表示模型判斷用戶電用電異常且實際用電異常的用戶;表示模型判斷用戶用電正常但實際用電異常的用戶;表示模型判斷用戶用電異常但實際用電正常的用戶。本文所提模型的評價指標有準確率,精確率,召回率,1值,可以根據混淆矩陣推測得到,具體公式如下所示:




ROC曲線如圖2所示,模型分類性能的好壞可根據曲線下的面積大小來判斷,即ROC曲線下的面積較大,則表明該模型的分類性能較好。
本文采用的數據是由云南某供電所提供的該地區2 745戶用戶6個月的用電在線監測數據集和與之對應的日線損統計表,其中有26戶經過現場工作人員確定并標記為異常用電用戶。在線監測數據集每60 min采集一次,采集的信息主要包括一天24 h的正向有功、無功總電能,反向有功、無功總電能,三相電壓、電流、有功功率和功率因數等電參量。

圖2 ROC曲線圖
首先進行數據分析,預處理刪除一些沒有價值和冗余的數據,然后分析數據集,挑選用電特征。針對本文算例,隨機抽取4個異常用戶和4個正常用戶各3個月的用電量數據進行分析,具體情況如圖3所示。

通過對比發現,正常用戶的用電量在短時間內比較平穩,但異常用戶的用電量經常性出現劇烈的電量波動,而且在線監測表中的電壓、電流等屬性的數據也出現不穩定狀態。
為全面地反映異常用電特征,分別對電流異常、電壓異常、功率因數異常、電量異常和線損異常這5個方面進行綜合分析并提出異常用電的判別特征,構成異常用電特征集。利用SPSS數據分析軟件做降維處理,剔除相關性小的特征,最終選取用戶日用電量的最大值、最小值、日平均值、三相電流、電壓不平衡率、三相功率因數不平衡率、線損率7個特征數據作為模型的輸入。
經過多次數據劃分實驗,訓練集和測試集按7:3比例劃分最理想。為了數據不被雙層學習器重復學習,需要在保證數據ID互不重疊的基礎上,按照時間維度劃分數據集,在學習器中分別劃分測試集和驗證集。
在本次實驗中,Stacking集成模型第1層基學習器分別為非線性核SVM、KNN、DTree,由基學習器產生的數據集合并為一個數據集,且作為Stacking第2層元學習器的輸入數據。第2層選擇單分類算法中效果相對較好的SVM作為元學習器,由ROC曲線下的面積大小可判斷各單分類算法的好壞,對比圖如圖4~6所示。

圖4 KNN算法ROC曲線圖
2.3.1 量子遺傳算法(QGA)優化SVM參數
因為SVM算法識別精度較大程度上受限于參數的選擇,并且參數優化算法普遍存在收斂速度慢、易陷入局部極值等問題,所以在本次實驗中選擇尋優能力強、收斂速度快和計算時間短的QGA算法對集成模型元學習器SVM的超參數和值做優化處理。

圖5 Dtree算法ROC曲線圖

圖6 SVM算法ROC曲線圖
量子遺傳算法優化SVM參數尋優流程如圖7所示。

圖7 量子遺傳算法優化SVM參數流程圖
2.3.2 模型訓練與測試

當SVM的參數取值為75.61,取值為5.064時取得最佳適應度值,約為0.911,迭代圖如8所示。

圖8 進化迭代圖
取得最佳適應度值的同時,由圖9和圖10看出經QGA算法優化參數后明顯比優化前的面積大,可用的值來直觀表述,優化前為91.8%,優化后為98.7%,的值提高了6.9%。
2.3.3 實驗結果
單分類算法與集成算法結果對比如表2所示。相比于單分類算法和Stacking集成算法,使用量子遺傳算法優化支持向量機的集成算法,其正確率、精確率、召回率、1值都得到明顯的提升,其中與單一學習算法中的SVM算法相比,Stacking集成算法的正確率提高了6.7%,精確率提高了11.3%,召回率提高了9%,1值提高了2.5%,提高了3.5%;與Stacking集成算法相比,優化后的Stacking集成算法的正確率提高了16.4%,精確率提高了25.2%,召回率提高了7.1%,1值提高了17.5%,提高了6.9%。

圖9 優化前ROC曲線圖

圖10 優化后ROC曲線圖

表2 單分類算法與集成算法結果對比
異常功耗數據的識別是確保智能電網運行效率和可靠性的關鍵和難點。本文針對單一異常用電檢測方法對存在不平衡性的數據集,檢測效率普遍不高的問題,提出了一種基于多模型融合Stacking集成學習的異常用電檢測方法。該方法由雙層學習器構成,且基學習器分類預測的輸出結果作為元學習器的輸入,由此來提高模型分類預測的精確率。除此之外,還采用量子遺傳算法(QGA)優化Stacking集成算法中元學習器SVM的懲罰系數和值來提高算法的整體性能。通過實驗結果分析可知,優化后的Stacking集成算法相對單一學習算法和Stacking集成算法檢測的正確率、精確率、召回率、1值等均有明顯的提高,驗證了本文所提方法的有效性。該方法具有很高的實用價值,適合廣泛使用,可以有效地幫助有關部門縮小調查范圍,為電力公司節省人力、物力,降低成本。
[1] SCHADT E E. The changing privacy landscape in the era of big data[J]. Molecular Systems Biology, 2012, 8(1): 612.
[2] LIANG M. Data mining: concepts, models, methods, and algorithms[J]. Iie Transactions, 2005, 36(5): 495-496.
[3] LIM J, CHOI J. Web based online real-time outage cost assessment information system of power system[J]. Review of Scientific Instruments, 2012, 37(2): 171-172.
[4] BUZAU M M, TEJEDOR-AGUILERA J, CRUZ-ROMERO, et al. Detection of non-technical losses using smart meter data and supervised learning[J]. Smart Grid IEEE Transactions on, 2019, 10(3): 2661-2670.
[5] 莊池杰, 張斌, 胡軍, 等. 基于無監督學習的電力用戶異常用電模式檢測[J]. 中國電機工程學報, 2016, 36(2): 379-387. ZHUANG CHIJIE, ZHANG BIN, HU JUN, et al. Anomaly detection for power consumption patterns based on unsupervised learning[J]. Proceedings of the CSEE, 2016, 36(2): 379-387(in Chinese).
[6] 孫毅, 李世豪, 崔燦, 等. 基于高斯核函數改進的電力用戶用電數據離群點檢測方法[J]. 電網技術, 2018, 42(5): 1595-1606. SUN YI, LI SHIHAO, CUI CAN, et al. Improved outlier detection method of power consumer data based on Gaussian kernel function[J]. Power System Technology, 2018, 42(5): 1595-1606(in Chinese).
[7] MAO W, CAO X, ZHOU Q, et al. Anomaly detection for power consumption data based on isolated forest[C]. International Conference on Power System Technology (POWERCON), Guangzhou, 2018: 4169-4174
[8] ZHANG W, DONG X, LI H et al. Unsupervised detection of abnormal electricity consumption behavior based on feature engineering[J]. IEEE Access, 2020(8): 55483-55500.
[9] ZHANG C, WANG F. Multi-feature fusion based anomaly electro-data detection in smart grid[C]. International Symposium on Pervasive Systems Algorithms and Networks, 2018.
[10] ZHANG J, OU J, DING C, et al. An abnormal behavior detection based on deep learning. IEEE Smart World, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud&Big Data Computing, Internet of People and Smart City Innovation, Guangzhou, 2018: 61-65.
[11] FANG Z, CHENG Q, MOU L, et al. Abnormal electricity consumption detection based on ensemble learning[C]. 2019 9th International Conference on Information Science and Technology(ICIST), Hulunbuir, China, 2019: 175-182.
[12] 趙文清, 沈哲吉, 李剛. 基于深度學習的用戶異常用電模式檢測[J]. 電力自動化設備, 2018, 38(9): 34-38. ZHAO WENQING, SHEN ZHEJI, LI GANG. Anomaly detection for power consumption pattern based on deep learning[J]. Electric Power Automation Equipment, 2018, 38(9): 34-38(in Chinese).
[13] WANG X, ZHAO T, LIU H et al. Power consumption predicting and anomaly detection based on long short-term memory neural network[C]. 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis (ICCCBDA), Chengdu, China, 2019: 487-491.
[14] WOLPERT D H. Stacked generalization[M]. Boston: Springer, 2017: 6-10.
Research on Abnormal Electricity Detection Method Based on Multi-model by Stacking Ensemble Learning
KUANG Meng1,2,3, LI Yingna1,2, LI Chuan1,2, CAO Min3
(1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China; 2. Yunnan Key Laboratory of Computer Technology Application, Kunming 650500, China; 3. Electric Power Research Institute, Yunnan Power Grid Co., Ltd., Kunming 650217, China)
Aiming at solving the problem that the efficiency of single abnormal power detection method is generally not high, an abnormal power detection method based on multi-model by Stacking ensemble learning is introduced. Firstly,taking the residential electricity data as the research object, and based on the analysis of different characteristics of users’ habits, this paper studies the imbalance processing technology and classification prediction algorithm. Secondly, in order to improve the overall performance of the model, the quantum genetic algorithm is used to optimize the parameter in the ensemble learning model. Finally, through verifying a data set of electricity consumption in a certain area of Yunnan, it is proved that the accuracy of the proposed model is significantly improved compared with a single learning model, which is of great significance for improving the efficiency of abnormal detection and reducing the operating cost of power companies.
abnormal electricity detection; multi-model fusion; imbalance processing technology; classification prediction algorithm; Stacking ensemble learning
TM933
A
1672-0792(2021)03-0023-07
10.3969/j.ISSN.1672-0792.2021.03.004
2020-11-03
國家自然科學基金(61962031,51567013)
鄺 萌(1995—),女,碩士研究生,研究方向為電力數據挖掘;
李英娜(1973—),女,副教授,研究方向為傳感網組建與信息集成;
曹 敏(1961—),男,教授級高級工程師,研究方向為電能計量和物聯網技術。
李英娜