王 斌,房向陽,毛 華,孫 岳
(國網(wǎng)天津市電力公司,天津 300010)
電力建設工程對于保障我國經(jīng)濟高速發(fā)展具有重要意義。近年來,隨著用戶用電需求的日益提升,電網(wǎng)公司逐步向高質(zhì)量能源服務商[1-2]轉(zhuǎn)變。
在推進電力工程的建設過程中,電網(wǎng)公司積累了海量數(shù)據(jù),這類數(shù)據(jù)與電網(wǎng)結(jié)構(gòu)、運行狀態(tài)等緊密相關[3-5]。然而目前仍未能充分利用此類數(shù)據(jù),原因在于:1)雖然數(shù)據(jù)量較為龐大,但由于整體質(zhì)量偏低,故無法支撐人工智能算法的訓練與構(gòu)建[6];2)海量數(shù)據(jù)之間的內(nèi)在聯(lián)系錯綜復雜,且缺乏高效、精準的智能數(shù)據(jù)分析方法[7]。
異常數(shù)據(jù)檢測是改善數(shù)據(jù)質(zhì)量的關鍵方法之一,也是深度挖掘數(shù)據(jù)價值的重要基礎。針對此,文中通過深度學習(Deep Learning,DL)算法實現(xiàn)對異常數(shù)據(jù)的檢測,進而有效提升了電力工程數(shù)據(jù)的質(zhì)量。
在快速密度峰值聚類算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)中[8-9],每個數(shù)據(jù)樣本均具有局部密度ρi和距離li兩個特征值。其中ρi可表征為:
式中,dij為數(shù)據(jù)樣本xi與xj的距離;de為閾值距離,是算法所設定的參數(shù);φ(·)為函數(shù),其表達式如下:
dij的計算方式為:
由式(1)可知,xi的局部密度物理含義為與xi的距離小于閾值距離de的數(shù)據(jù)樣本個數(shù)。li是xi與局部密度大于其自身其他數(shù)據(jù)點的最小距離,其計算方式如下:
數(shù)據(jù)樣本特征值的大小依賴于距離閾值,通常該值為人工設定,故具有較大的主觀性,且較易干擾算法的智能決策過程。
因此,文中在此基礎上加以改進。通過計算xi與其他任意一個數(shù)據(jù)樣本間的距離dij,再按照該距離由小到大排序。假設第k個數(shù)據(jù)樣本為Nk(xi),則數(shù)據(jù)樣本xi的k個近鄰數(shù)據(jù)樣本為:
該文基于深度自編碼器(Deep Auto Encoder,DAE)與高斯過程回歸(Gaussian Process Regression,GPR)理論提出了一種電力工程數(shù)據(jù)異常檢測算法,該算法的結(jié)構(gòu)如圖1 所示。其由兩部分組成:1)DAE模型,通過具有深層網(wǎng)絡結(jié)構(gòu)的編碼器-解碼器模型實現(xiàn)輸入數(shù)據(jù)的重構(gòu);2)GPR 模型,將輸入數(shù)據(jù)的局部密度因子、編碼器的輸出數(shù)據(jù)及重構(gòu)誤差等特征作為輸入,以完成對異常數(shù)據(jù)的精準檢測。

圖1 DAE-GPR模型結(jié)構(gòu)
自編碼器是具有對稱結(jié)構(gòu)的神經(jīng)網(wǎng)絡模型[10-12],其核心思想便是在誤差盡可能小的情況下對輸出層實現(xiàn)輸入數(shù)據(jù)的重構(gòu)。自編碼器的典型結(jié)構(gòu)如圖2所示。

圖2 自編碼器結(jié)構(gòu)
編碼器利用輸入數(shù)據(jù)進行特征提取,且該過程可描述為:
式中,h是編碼器輸出向量;σe是編碼器的激活函數(shù);we和be則分別為編碼器的權重矩陣及偏置向量。
而解碼器則采用輸入數(shù)據(jù)的特征來實現(xiàn)對其的重構(gòu),該過程可描述為:
式中,y為解碼器輸出向量;σd為解碼器的激活函數(shù);wd和bd分別為解碼器的權重矩陣和偏置向量。
編碼器訓練的目標是:令輸出與輸入間的誤差最小化。該訓練的損失函數(shù)E(W,b)通常為均方誤差(MSE)或交叉熵函數(shù)(Cross Entropy),二者可定義表征為:
文中提出的深度自編碼器結(jié)構(gòu),如圖3 所示。其中編碼器包括三個卷積層,且卷積濾波器的大小分別5×5、5×5 和3×3。其通過一個全連接層得到維數(shù)為10 的輸出,并進行歸一化;然后,將歸一化后的數(shù)據(jù)作為解碼器的輸入。而解碼器包括三個反卷積層,卷積濾波器的大小則分別為3×3、5×5 和5×5。

圖3 DAE結(jié)構(gòu)
歸一化過程可表述為:
式中,xi為編碼器的第i個輸出;為編碼器輸出的平均值;zi則是解碼器的第i個輸入。
多元高斯分布如下:
式中,x為隨機變量;μ為隨機變量的均值;C為隨機變量之間的協(xié)方差矩陣;D為隨機變量的維數(shù)。
高斯過程回歸是使用多元高斯分布模型實現(xiàn)數(shù)據(jù)回歸分析的一種方法[13-14]。通常線性回歸采用以下公式來描述輸入與輸出間的關系:
式中,w為權重變量;b為截距向量。
通常預測值y與實際值f(x) 之間存在一定偏差。因此預測值可描述為:
其中,ε為預測值與實際值之間的偏差,又稱之為噪聲。
高斯過程回歸中,假設噪聲ε服從高斯分布:
為了得到回歸方程,需求解權重向量w。通常利用似然函數(shù)[15-16]進行求解:
由于噪聲服從高斯分布,則有:
根據(jù)貝葉斯先驗概率模型,則有:
因此,權重w的最優(yōu)解即為式(20)所取得的最大值。由于p(y|x)與w無關,故可轉(zhuǎn)化為:
通過分析可知,式(20)的值服從多元高斯分布:
則能夠得到權重的最優(yōu)值為:
對電力工程數(shù)據(jù)的異常檢測結(jié)果存在表1 所示的幾種情況。

表1 檢測結(jié)果
召回率pRecall和假正率pFPR計算方式如下:
若pRecall越接近1 且pFPR越接近0,即表明檢測算法的性能越優(yōu)。但當不同算法中這兩個指標相近時,則無法進行簡單判斷。此時通常采用ROC 曲線方法加以判定,其以pFPR為橫坐標、pRecall為縱坐標。在ROC 曲線下,面積AUC 是歸一化數(shù)值,可作為衡量算法性能的指標,且AUC 的值越大表明算法的性能越優(yōu)。
為驗證所提DAE-GPR 算法的準確性,采用了某省電網(wǎng)公司近五年來的2 568 條電力工程數(shù)據(jù)作為測試數(shù)據(jù)集,并進行了仿真。
將所提算法與DAE、自編碼器(Auto Encoder,AE)算法進行比較,三種算法的迭代收斂過程如圖4所示。從圖中可看出,三種算法在15~20 次時的迭代接近收斂,且收斂速度差異較小。但所提算法在最終收斂時的AUC 值為0.892,而DAE 和AE 算法分別為0.873 和0.860。由此表明,該文算法的異常數(shù)據(jù)檢測性能更優(yōu)。

圖4 算法迭代收斂過程
對比分析測試數(shù)據(jù)集異常率在10%、20%、30%、40%和50%情況下,三種不同算法的AUC 值。具體結(jié)果,如圖5 所示。可以看到,當數(shù)據(jù)異常率從10%上升到50%時,DAE-GPR 算法AUC 值僅降低了0.092,而DAE 和AE 算法的AUC 值則分 別下降 了0.192 和0.262。由此說明該文算法受數(shù)據(jù)異常率的影響較小,算法穩(wěn)定性較強。

圖5 數(shù)據(jù)異常率對檢測結(jié)果的影響
進一步將所提算法應用于某電網(wǎng)公司2022 年以來的209 條電力工程數(shù)據(jù)中。數(shù)據(jù)異常檢測結(jié)果,如圖6 所示。由圖可知,工程量與費用數(shù)據(jù)的異常占比均在40%以上,且二者之和超過了90%,而技術條件數(shù)據(jù)的異常占比則小于10%。因此在電力工程數(shù)據(jù)的管理過程中,可通過加強對工程量與費用類型數(shù)據(jù)的校核管控,從而提升電力工程數(shù)據(jù)的質(zhì)量。

圖6 數(shù)據(jù)異常檢測結(jié)果
文中開展了深度學習算法在電力工程數(shù)據(jù)異常檢測中的應用研究,并提出了DAE-GPR 算法,以實現(xiàn)對異常數(shù)據(jù)的精準檢測。通過仿真算例表明,所提算法的AUC 指標優(yōu)于DAE 及AE 算法,且具有更高的異常數(shù)據(jù)檢測性能。同時,其受數(shù)據(jù)異常率的影響也較小,穩(wěn)定性良好。實際應用結(jié)果表明,電力工程數(shù)據(jù)中工程量與費用類型的數(shù)據(jù)異常占比超過了90%,因而需要加強對這兩類數(shù)據(jù)的管控。但該文算法無法實現(xiàn)對異常數(shù)據(jù)的修正,這將在后續(xù)工作中開展。