陳婷, 許睿, 孟維麗婭, 劉暢, 許蕾, 胡文彥
(云南電網(wǎng)有限責(zé)任公司,電力客戶服務(wù)中心, 云南,昆明 650000)
在電力營銷網(wǎng)絡(luò)中,對電力營銷數(shù)據(jù)進(jìn)行特征分析和異常檢測,根據(jù)電力營銷數(shù)據(jù)的異常特征量分析結(jié)果,對其數(shù)據(jù)規(guī)則展開研究,不僅有利于提高電力營銷的規(guī)律性分析水平,還能夠提高對電力營銷數(shù)據(jù)的優(yōu)化檢測能力[1]。因此,對相關(guān)電力營銷數(shù)據(jù)異常檢測方法的研究受到電力領(lǐng)域的極大關(guān)注。
一般來說,對電力營銷數(shù)據(jù)的異常特征檢測是建立在對電力營銷數(shù)據(jù)異常特征分析基礎(chǔ)上實(shí)現(xiàn)的[2]。然后結(jié)合對電力營銷異常數(shù)據(jù)的特征提取和大數(shù)據(jù)挖掘結(jié)果,實(shí)現(xiàn)數(shù)據(jù)的語義特征分析和重組[3]。目前,常用的電力營銷數(shù)據(jù)異常識(shí)別方法有基于改進(jìn)譜聚類算法的電力數(shù)據(jù)異常檢測方法[4]、基于低秩模型的電力數(shù)據(jù)異常檢測方法[5]以及基于Spark框架的電網(wǎng)異常數(shù)據(jù)辨識(shí)與修正方法[6]等,但隨著電力網(wǎng)絡(luò)的不斷優(yōu)化和電力技術(shù)的更新,傳統(tǒng)方法已難以適用于現(xiàn)階段的電力營銷異常數(shù)據(jù)識(shí)別。
為提高對電力營銷數(shù)據(jù)異常的識(shí)別能力,本文提出基于孤立森林算法的電力營銷數(shù)據(jù)異常識(shí)別方法,并通過仿真測試結(jié)果證明了該方法在提高電力營銷數(shù)據(jù)異常識(shí)別能力方面的優(yōu)越性能。
為了實(shí)現(xiàn)對電力營銷數(shù)據(jù)異常的識(shí)別,首先需構(gòu)建電力營銷數(shù)據(jù)異常特征檢測和大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型,并結(jié)合空間分布式融合調(diào)度的方法設(shè)計(jì)電力營銷異常數(shù)據(jù)存儲(chǔ)網(wǎng)格結(jié)構(gòu)模型[7]。
電力營銷數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型如圖1所示。

圖1 電力營銷數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型
在圖1所示的電力營銷數(shù)據(jù)分層存儲(chǔ)結(jié)構(gòu)模型中,結(jié)合空間分布式融合調(diào)度對電力營銷數(shù)據(jù)展開分層調(diào)度和信息融合處理,從而構(gòu)建電力營銷數(shù)據(jù)分層加權(quán)組合結(jié)構(gòu)模型[8],可得到電力營銷數(shù)據(jù)分層特征信息融合結(jié)果W={w,w1,w2,…,wk},其中,k=1,2,…,n表示數(shù)據(jù)層數(shù)。在電力營銷異常數(shù)據(jù)的信息覆蓋區(qū)域,假設(shè)存在M個(gè)電力營銷數(shù)據(jù)分層傳輸鏈路層,通過分塊區(qū)域融合得到電力營銷數(shù)據(jù)分層組合調(diào)度形式為X=[x1(k-1),…,xn(k-M)],電力營銷異常數(shù)據(jù)的模糊度差分融合參數(shù)分布為η,得到電力營銷數(shù)據(jù)分層存儲(chǔ)的區(qū)域模塊特征估計(jì)值如下:
(1)
式中,y表示電力營銷數(shù)據(jù)估計(jì)值。在此基礎(chǔ)上,利用優(yōu)先級(jí)劃分方法構(gòu)建電力營銷異常數(shù)據(jù)的本體結(jié)構(gòu)特征量如下:
(2)
式中,ω(t)表示電力營銷數(shù)據(jù)分層存儲(chǔ)的維數(shù),p(t)表示電力營銷異常數(shù)據(jù)分布的Source與Sink節(jié)點(diǎn)之間的距離,bi表示電力營銷數(shù)據(jù)結(jié)構(gòu)特征量。
根據(jù)上述分析,構(gòu)建電力營銷異常數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型[9],通過空間分布式網(wǎng)格匹配過程可知,電力營銷數(shù)據(jù)的分塊融合判決準(zhǔn)則需滿足:
(3)
式中,Rtol表示電力營銷數(shù)據(jù)分塊檢測特征量。然后根據(jù)電力營銷異常數(shù)據(jù)源分布檢測異常特征,結(jié)合主成分分析的方法得到電力營銷數(shù)據(jù)分層的屬性特征量,再通過虛擬空間異構(gòu)融合構(gòu)建異構(gòu)特征分布集,通過語義本體融合得到電力營銷數(shù)據(jù)的分塊檢測特征量[10]。根據(jù)上述過程實(shí)現(xiàn)電力營銷異常數(shù)據(jù)的存儲(chǔ)和優(yōu)化調(diào)度。
根據(jù)電力營銷數(shù)據(jù)分析結(jié)果,采用壓縮感知方法提取電力營銷數(shù)據(jù)異常特征,并分析其特征譜結(jié)構(gòu),然后通過隨機(jī)解耦性特征分解方法分解電力營銷數(shù)據(jù)異常譜特征[11-12],并計(jì)算密集場景中電力營銷異常數(shù)據(jù)分布特征集Itrust的統(tǒng)計(jì)特征量,得到電力營銷異常數(shù)據(jù)識(shí)別的信任度如下:
(4)
式中,Dtrust表示電力營銷數(shù)據(jù)分布特征集,β表示信任度系數(shù)。根據(jù)頻譜特征分解結(jié)果構(gòu)建電力營銷異常數(shù)據(jù)的參數(shù)辨識(shí)模型,得到標(biāo)準(zhǔn)正態(tài)分布如下:
(5)
式中,j(a,c)表示電力營銷異常數(shù)據(jù)的重構(gòu)向量a→c的個(gè)數(shù),d表示標(biāo)準(zhǔn)正態(tài)值。在此基礎(chǔ)上,對電力營銷異常數(shù)據(jù)進(jìn)行稀疏特征分解和重組,從而實(shí)現(xiàn)對電力營銷異常數(shù)據(jù)的模糊管理,繼而得到電力營銷異常數(shù)據(jù)定位的回歸分析模型如下:
(6)
式中,λ表示模糊度映射值。根據(jù)回歸分析結(jié)果,結(jié)合互信息特征匹配進(jìn)行電力營銷異常數(shù)據(jù)的分塊檢測和網(wǎng)格區(qū)域匹配[13],得到電力營銷異常數(shù)據(jù)的模糊遞推公式如下:
(7)
式中,CIntrai(n)表示電力營銷異常數(shù)據(jù)訪問節(jié)點(diǎn)i的最優(yōu)間隔,CInteri(n)表示電力營銷異常數(shù)據(jù)特征的分布時(shí)隙。根據(jù)上述分析,利用隨機(jī)解耦性特征分解方法分解電力營銷數(shù)據(jù)異常譜特征,建立電力營銷數(shù)據(jù)異常數(shù)據(jù)的識(shí)別模型,可有效提高數(shù)據(jù)的異常識(shí)別能力。
本文通過隨機(jī)解耦性特征分解方法分解電力營銷數(shù)據(jù)異常譜特征,從而建立電力營銷數(shù)據(jù)異常數(shù)據(jù)的多尺度特征分解模型,得到電力營銷異常數(shù)據(jù)的模糊概念分布集表達(dá)式如下:
(8)
式中,μi表示電力異常數(shù)據(jù)概念信息分布集[14]。在此基礎(chǔ)上,利用孤立森林學(xué)習(xí)算法得到電力營銷異常數(shù)據(jù)挖掘的自相關(guān)分布特征量,再通過孤立森林學(xué)習(xí)過程實(shí)現(xiàn)自適應(yīng)尋優(yōu),得到電力營銷異常數(shù)據(jù)的稀疏異構(gòu)特征點(diǎn)集如下:
(9)
式中,Hac表示孤立森林學(xué)習(xí)的收斂性,?表示自適應(yīng)尋優(yōu)解,l表示收斂長度。在異構(gòu)環(huán)境下,得到電力營銷異常數(shù)據(jù)識(shí)別的異常特征提取模型如下:
(10)
式中,δ表示異常特征提取值。根據(jù)異常特征提取結(jié)果,采用分塊信息融合的方法進(jìn)行到電力營銷異常數(shù)據(jù)檢測和信息重構(gòu),提高到電力營銷異常特征分析能力。
在隨機(jī)森林學(xué)習(xí)下,提取電力營銷數(shù)據(jù)異常數(shù)據(jù)的關(guān)聯(lián)特征量,通過關(guān)聯(lián)規(guī)則調(diào)度和粗糙集特征匹配方法完成電力營銷數(shù)據(jù)異常特征檢測和識(shí)別。電力營銷數(shù)據(jù)中異常數(shù)據(jù)的關(guān)聯(lián)特征分布優(yōu)化解如下:
(11)
式中,z表示關(guān)聯(lián)系數(shù)。在此基礎(chǔ)上,構(gòu)建電力營銷數(shù)據(jù)異常數(shù)據(jù)的統(tǒng)計(jì)特征量,得到電力營銷數(shù)據(jù)異常數(shù)分布的概念函數(shù),然后通過稀疏性特征重組構(gòu)建電力營銷異常特征分析模型,通過模糊控制方法檢測電力營銷異常數(shù)據(jù)[15],得到異常特征檢測模型為
(12)
式中,γ表示模糊控制值。根據(jù)模型檢測結(jié)果,采用頻譜特征分解的方法進(jìn)行電力營銷異常數(shù)據(jù)的空間線性結(jié)構(gòu)重組,得到重組結(jié)構(gòu)模型如下:

(13)
式中,x(m)表示空間線性結(jié)構(gòu)函數(shù),w(n)表示頻譜特征分解函數(shù)。然后進(jìn)行電力營銷數(shù)據(jù)異常特征檢測和識(shí)別,對識(shí)別結(jié)果采用孤立森林算法進(jìn)行過程尋優(yōu)控制,得到尋優(yōu)函數(shù)為:

(14)
式中,φ表示電力營銷數(shù)據(jù)異常特征分布的關(guān)聯(lián)系數(shù),其取值介于0和1之間。結(jié)合模糊度識(shí)別可得到電力營銷數(shù)據(jù)異常分布的關(guān)聯(lián)系數(shù)λ為
(15)
式中,σj表示電力營銷數(shù)據(jù)異常數(shù)據(jù)分布的維數(shù)。通過壓縮感知和孤立森林學(xué)習(xí),得到電力營銷數(shù)據(jù)異常擴(kuò)展函數(shù)如下:

(16)
綜上分析,結(jié)合關(guān)聯(lián)規(guī)則項(xiàng)特征融合和孤立森林算法,實(shí)現(xiàn)了對電力營銷數(shù)據(jù)的異常檢測與識(shí)別。
為驗(yàn)證上述基于孤立森林算法的電力營銷數(shù)據(jù)異常識(shí)別方法在實(shí)際應(yīng)用中的性能,設(shè)計(jì)如下仿真實(shí)驗(yàn)并對結(jié)果進(jìn)行對比分析。所用的對比方法分別為文獻(xiàn)[4]中的基于改進(jìn)譜聚類算法的電力數(shù)據(jù)異常檢測方法、文獻(xiàn)[5]中的基于低秩模型的電力數(shù)據(jù)異常檢測方法以及文獻(xiàn)[6]中的基于Spark框架的電網(wǎng)異常數(shù)據(jù)辨識(shí)與修正方法。
仿真實(shí)驗(yàn)環(huán)境設(shè)計(jì)如下:電力營銷數(shù)據(jù)異常特征采樣節(jié)點(diǎn)數(shù)為240個(gè),電力營銷數(shù)據(jù)聚類分塊區(qū)域?yàn)?00 m×200 m,電力營銷數(shù)據(jù)的檢測頻率為800 kHz,多元回歸分析的迭代次數(shù)為120次。根據(jù)上述仿真參量設(shè)定,對電力營銷數(shù)據(jù)中的異常信息展開識(shí)別。
首先將電力數(shù)據(jù)采集信號(hào)經(jīng)A/D變換轉(zhuǎn)換為數(shù)字信號(hào),然后利用MATLAB模型進(jìn)行數(shù)據(jù)的分析處理,并繪制信號(hào)的時(shí)域波動(dòng)情況如圖2所示。

圖2 電力營銷數(shù)據(jù)異常識(shí)別時(shí)域波形
以圖2所示的電力營銷數(shù)據(jù)為研究對象,利用本文方法對其中的異常數(shù)據(jù)展開初步識(shí)別,通過構(gòu)建信息融合模型提取數(shù)據(jù)的關(guān)聯(lián)特征,再通過關(guān)聯(lián)規(guī)則調(diào)度和粗糙集特征匹配過程識(shí)別出異常數(shù)據(jù)的輸出特征,得到識(shí)別結(jié)果如圖3所示。

圖3 電力營銷數(shù)據(jù)異常識(shí)別結(jié)果
分析圖3所示結(jié)果可知,應(yīng)用本文方法后,在5 s后,電力營銷數(shù)據(jù)的輸出結(jié)果存在一個(gè)明顯的波動(dòng),證明此時(shí),應(yīng)用基于孤立森林算法的電力營銷數(shù)據(jù)異常識(shí)別方法識(shí)別到了異常電力營銷數(shù)據(jù),初步證明了該方法的有效性,能夠?qū)崿F(xiàn)對異常數(shù)據(jù)的檢測識(shí)別。
在此基礎(chǔ)上,為進(jìn)一步驗(yàn)證本文方法的應(yīng)用性能,以異常數(shù)據(jù)識(shí)別精度為檢驗(yàn)指標(biāo)。異常數(shù)據(jù)識(shí)別精度計(jì)算過程如下:
(17)
式中,W表示總識(shí)別次數(shù),e表示錯(cuò)誤識(shí)別次數(shù)。利用對比實(shí)驗(yàn)的方式測試本文方法、基于改進(jìn)譜聚類算法的方法、基于低秩模型的方法、基于Spark框架的方法的有效性,得到對比結(jié)果如表1所示。
分析表1所示結(jié)果可知,隨著實(shí)驗(yàn)次數(shù)的增加,不同方法對電力營銷數(shù)據(jù)異常的識(shí)別精度也在不斷變化。三種對比方法中,基于低秩模型的方法和基于Spark框架的方法的識(shí)別精度較為接近,基于改進(jìn)譜聚類算法的方法的識(shí)別精度更高,最高可達(dá)到0.925。而本文方法的識(shí)別精度隨著呈現(xiàn)下降趨勢,但最低的識(shí)別精度可達(dá)到0.906,最高則可達(dá)到0.945。由此可知,基于孤立森林算法的電力營銷數(shù)據(jù)異常識(shí)別方法的識(shí)別精度更高,應(yīng)用優(yōu)勢最強(qiáng)。

表1 不同方法電力營銷數(shù)據(jù)異常識(shí)別精度對比
本文基于孤立森林算法設(shè)計(jì)了一種電力營銷數(shù)據(jù)異常識(shí)別方法。結(jié)合空間分布式融合調(diào)度的方法設(shè)計(jì)電力營銷異常數(shù)據(jù)存儲(chǔ)網(wǎng)格結(jié)構(gòu)模型,然后根據(jù)電力營銷異常特征檢測結(jié)果,對電力營銷異常數(shù)據(jù)進(jìn)行稀疏特征分解和重組,從而實(shí)現(xiàn)對異常數(shù)據(jù)的模糊管理。然后結(jié)合互信息特征匹配進(jìn)行電力營銷異常數(shù)據(jù)的分塊檢測和網(wǎng)格區(qū)域匹配,在隨機(jī)森林算法的支持下,提取電力營銷數(shù)據(jù)異常數(shù)據(jù)的關(guān)聯(lián)特征量,通過關(guān)聯(lián)規(guī)則調(diào)度和粗糙集特征匹配方法實(shí)現(xiàn)對電力營銷數(shù)據(jù)異常的檢測和識(shí)別。經(jīng)實(shí)驗(yàn)分析可知,該方法對電力營銷數(shù)據(jù)異常識(shí)別的精度較高,識(shí)別性能較好,證明該方法具有良好的應(yīng)用前景。