謝聞捷, 王永威, 陳豪鈺, 楊淑凡
(三峽大學 電氣與新能源學院,湖北宜昌 443002)
變壓器是供電系統的關鍵設備之一,保證變壓器安全平穩地工作是保證供電正常工作和電源安全可靠的前提。而在變壓器的實際運行中,電力系統因各種原因導致的突發故障以及變壓器自身的設備老化問題,都會對變壓器的運行造成嚴重的不良影響,當這種影響對設備造成的損害達到一定的程度,就會發生變壓器的運行故障[1-2]。
目前對于變壓器故障診斷國內外學者已經有了一定的研究,考慮到故障數據獲取的便捷性以及故障樣本與實際故障之間的關聯性,油中溶解氣體分析(dissolved gas analysis,DGA)技術被廣泛應用于提取變壓器的故障主要特征信息,該方法可以準確地識別變壓器的故障原因。通過DGA技術,對變壓器油樣品進行化學氣相色譜分析,測定油中溶解氣體的組分和含量,主要檢測的氣體包括:H2、CH4、C2H4、C2H6和C2H2等[3]。
DGA技術主要檢測變壓器油中溶解的特征氣體的成分和含量,并且因為故障的原因、部位、嚴重程度等關系,特征氣體與故障之間存在著復雜的對應關系。根據這一現象,國內外的研究人員可以分析到溶解的氣體含量值與變壓器事故種類和嚴重程度有關,從而產生了羅杰斯(Rogers)比值法、IEC三比值法、Duval三角形法等傳統方法。傳統的DGA方式雖然并不依賴于大量的樣本訓練,但是如今的變壓器工作條件越來越復雜,產生的冗余特征信號會影響變壓器的故障診斷,從而大幅降低了診斷的準確性。通過對變壓器的故障信息進行特征選擇,減少高冗余信息所產生的影響,對提升故障診斷的準確度有著重要意義。
在消除特征的領域,隨機森林(random forest,RF)作為一個基于集成技術把不同決策樹融合到一起的方法,可以有效地處理具有冗余數據的高維特征輸入樣本,并能評估數據的各個特征在分類問題上的重要性,實現重要度排序。李萌鋒等[4]將RF運用變電站隔離開關的定位與識別中,將RF算法運用到對隔離開關的工作狀態分類中;董彥軍等[5]在電力負荷預測中使用RF對特征重要度排序的特點,從時間日期和氣候因素建立的高維特征數據集篩選出重要特征量;在診斷方面,深度神經網絡、貝葉斯網絡、極限學習機被廣泛用作電力變壓器的診斷方法,但這些算法受到自身的限制,如人工神經網絡等可能容易發生局部最優解的情況,貝葉斯網絡的先驗概率模型很容易在分類與判斷時產生一定錯誤,極限學習機具有快速的機器學習能力,但無法保證安全性。支持向量機(support vector machine,SVM)具有可以解決較小數據下的機器學習提問,計算速度快,解決非線性問題的特性,由核函數和懲罰因子來共同確定分類性能。在智能算法方面,天牛須搜索(beetle antennae search,BAS)算法擁有出色的全局搜索性能、計算復雜程度低、收斂速度快的特點,無需大量樣本便可完成尋優,尋優效率有明顯提升。肖旰等[6]在高壓電纜故障診斷中,引入BAS算法對卷積神經網絡的超參數進行優化,提高模型精度;李鎮等[7]將BAS算法使用到有源電力濾波器(APF)的直流側電壓控制問題中,對自抗控制器(ADRC)的參數進行優化,提升了控制精度與響應速度。
綜上所述,本研究采用RF算法的MDG值對變壓器油中溶解氣體的特征量重要度排序,再通過氣體的優選, 從而減少數據冗余,在此基礎上,利用BAS算法優化SVM的核函數與懲罰因子,并將優選出來的特征量輸入到BAS-SVM故障診斷模型中,從而實現故障診斷。將優選特征量與傳統特征量對比,并將BAS-SVM與PSO-SVM、ABC-SVM兩種模型對比,驗證所提的優選特征和BAS-SVM模型的實用性與可靠性。
RF是利用集成學習的概念實現多棵決策樹集成組合分類器[15]。RF對輸入特征量的平均值基尼不純度GI進行計算,該指標是通過基尼指標計算節點的不純度以判斷特征量的重要程度,即平均值基尼指標下降(mean decrease in Gini,MDG)指標,根據MDG值即可對優選結果做出判斷。
以本文所論述的變壓器故障診斷方法為例,對RF模型加以解釋。假定獲得的故障樣本(xj,yj)的數量為D個,j=1,2,3...W,其中xj代表變壓器設備的W維輸入特征,yj代表故障類型,為訓練樣本的輸出值。在計算特征信息xj的重要度時,以一棵決策樹i為起始節點,計算xj在第i棵決策樹的GI值。
通過計算RF中每棵決策樹對應的GI值并取平均值,得到MDG值,就可以得到特征信息xj的重要性。
式中:N為決策樹的數量。
SVM算法適用于小樣本學習,對線性可分樣本和線性不可分樣本都具有良好的處理能力。
通過引入松弛變量ξi以及懲罰因子C,得到最小化優化模型,目標函數和約束條件為:
式中:M(xj)為特征向量xj的MDG值;b為偏置;ω為權重向量。
引入拉格朗日函數以及乘子αj,得到SVM的對偶問題優化模型:
由K-T條件可得,αj需滿足:
當αj≠0時,滿足對應樣本為支持向量。對上述問題求解后的最優分類函數表示為:
式中:K(xi,xj)表示核函數,采用高斯核函數(radial basis function,RBF)[20]。RBF表達式為:
式中;h為核函數。
BAS算法是一種不需要知道函數的具體類型,只需單一個體就能夠做到快速尋優的智能算法,大幅降低了計算量。
BAS算法的建模過程如下:
(1)建立天牛須的隨機變量,并做歸一化數據處理:
式中:k為空間維度。
(2)經過第t次迭代后左右天牛須的空間坐標表示為:
式中:xlt和xrt分別為左右天牛須第t次迭代時的坐標;d0表示觸須的間距;x為質心位置。
(3)設適應度函數為f(),則左右觸須的最適應度函數值分別為:
(4)天牛的空間位置表示為:
其中,sign()表示符號函數,δt為第t次迭代時的步長因子。
通過BAS優化算法對SVM中的核函數h與懲罰因子C進行尋優,進而提升SVM故障診斷的準確性。BAS-SVM故障診斷流程如圖1所示。

圖1 BAS-SVM故障診斷流程
BAS-SVM模型診斷流程如下:
(1)構建天牛須隨機朝向向量,定義空間維度k。
(2)設置算法的步長因子δ,其表達式為:
其中,eta取[0,1]之間靠近1的值,本文取eta=0.95。
(3)設置適應度評價函數:
式中:N為訓練樣本數;tsim(i)為第i個樣本輸出值;yi為第i個樣本的實際值。
(4)重新定義天牛須位置。從[-0.5,0.5]中隨機選取一個數字設點為新的天牛須起始點,并將新的起始點輸入bestX進行存儲;通過表達式(13)計算新的起始點適應度,將新的函數值輸入bestY進行儲存;通過表達式(9)確定新的左右天牛須坐標。
(5)更新bestX和bestY。通過式(10)的函數中f(xr)和f(xl)計算得到左右天牛須的位置,天牛的實時位置由式(9)確定,即對SVM的懲罰因子C和核函數h更新,同時計算實時記錄bestX和bestY。
(6)迭代停止。如果計算得到的適應度函數值與預設的精度條件相一致,則執行步驟(7),否則,返回步驟(4)進一步對天牛須位置更新。
(7)得到最優解。最優解即為支持向量機優化的懲罰因素C和核函數h。
以三比值法為基礎,對常見的5種DGA診斷氣體(H2、CH4、C2H6、C2H4、C2H2)構建特征向量來進行分析是目前智能算法的主流故障診斷方式。目前生產運行中的變壓器種類、電壓等級各不相同,所處的環境、運行年限等也有較大的差別,所以不同的變壓器在產生相似的故障時,產生的氣體含量和速率不同。因此,定義7種不同的變壓器運行狀態:正常(normal,N)、低能放電(low energy discharge,LED)、高能放電(high energy discharge,HED)、局部放電(partial discharge,PD)、中低溫過熱(thermal fault of low and medium temperature,LMT)、高溫過熱(thermal fault of high temperature,HT)、放電兼過熱(Discharge and overheating,DAO),其中每一類故障類型與氣體的對應關系如圖2所示。

圖2 變壓器故障類型與故障氣體的關系
由圖2可知,分析的7種運行狀態中,熱故障會使絕緣材料的性能減弱,同時熱應力會分解固體材料生成一定量的CO和CO2。僅針對發熱點分析,CH4和C2H4氣體占據了總烴類氣體的絕大部分,溫度越高,C2H4的含量就會越高。C2H2氣體不是熱故障產生氣體的主要組成成分,占比很低,即使發生嚴重過熱情況時,C2H2也不會有很高的含量。
故本研究不考慮CO和CO2作為參考氣體,兩種熱故障定義如下:①中低溫過熱,溫度低于500 ℃,CH4占比高于C2H4,C2H4占總烴2%以下,總烴較高;高溫過熱,溫度高于500 ℃,CH4占比低于C2H4,C2H4占總烴5.5%以下,H2占氫烴氣體的27%以下,總烴高。
以常見的5種DGA診斷氣體(H2、CH4、C2H6、C2H4、C2H2)、總烴THC為基礎,共生成22種特征氣體建立待選特征集(詳見表1)。

表1 輸入氣體待選特征量
按表1中特征量產生的冗余信息,提出基于RF特征選擇優化的BAS-SVM變壓器DGA故障診斷方法,其具體步驟:①選取5種典型的油中溶解氣體,根據相關比值法,生成22維DGA待選輸入量;②預處理生成的待選特征集,并對數據集歸一化,分為訓練集和測試集;③設置RF參數,輸入訓練樣本,輸出22維待選特征量的MDG值并排序;④得到MDG值結合SVM對待選特征量優選;⑤設置BAS的迭代次數、空間維度、初始位置的范圍;⑥通過訓練集完成模型的訓練,建立BAS-SVM變壓器DGA故障診斷模型;⑦將測試集輸入訓練好的診斷模型并輸出故障類型。
本研究主要引用IEC TC10 database DGA數據庫和文獻[10-11]中的數據,共計350組數據(每種故障類型均有50組樣本)。任選其中240組數據作為模型的訓練樣本,另選110組數據作為測試樣本來檢測訓練后模型的性能。
由表1確定的22維變壓器故障待選特征建立需要的DGA故障特征數據庫,通過對得到的數據進行歸一化處理,可以避免信息冗余的現象,并通過RF對已處理過的信息集中進行優選,設置RF的決策樹數量N。決策樹的數量決定對輸入特征向量的重要度評分的準確性,設置為N=300,以保證模型的準確性。22維特征量的重要度排序如圖3所示。

圖3 特征向量重要程度排序
由圖3可知,不同特征向量重要程度存在較大差異。為了消除冗余特征,需要對輸入的特征向量進行優選。圖4所示為特征向量數量對診斷準確率的影響。
由圖4可知,不同特征的重要程度數值之間存在較大的差異,當輸入特征量的維數較少時,SVM模型將無法獲得特征量的關鍵信息,準確率降低;隨著輸入特征數量逐漸增多,準確率也隨之提高,峰值為82.38%,此時的輸入特征量達到10個。當輸入特征量上升至16個時,準確率開始降低,但繼續增加后又趨于平穩,在20個特征量全部輸入后準確率為77.67%,這說明在特征量增加到一定個數帶來的冗余信息對模型的分類性能產生了一定的負面影響。
通過圖4的結果,選擇RF排序后的前10種特征作為診斷模型的最優輸入特征。定義樣本診斷準確率為:
式中:Nright表示正確診斷的樣本總數;Nall表示測試樣本總數。通過式(14)來驗證優選出的10維特征相較于傳統DGA數據、無編碼比值法以及三比值法的有效性,具體情況見表2。

表2 采用不同特征選擇方法的診斷準確率
由表2可知,4種不同特征選擇方法的總樣本準確率分別為60.95%、76.05%、57.76%、82.38%。其中優選后的特征量對于HED故障的診斷準確率達到100%,證明RF優選后的特征量對于提高故障診斷的準確率具有顯著的效果。
BAS算法通過對SVM中的懲罰因子與核函數優化,可以提高診斷模型的準確率。通過BASSVM診斷模型對上述10種輸入特征量進行診斷,設置模型中的各項參數:初始步長δ=5,空間維度K=10,最大迭代次數E=100,懲罰因子C和核函數h從[0.01,1000]隨機選取。其適應度變化曲線如圖5所示。BAS-SVM的診斷結果如圖6所示。

圖5 適應度曲線變化趨勢

圖6 BAS-SVM故障診斷結果
由圖5可得,兩條適應度曲線都隨迭代次數的增加而收斂,在第20次最佳適應度達到最優。由圖6可得,相較于表2的故障診斷準確率82.38%,經過BAS算法參數優化的SVM模型的準確率達到了92.78%,提高了10.4%。
為驗證本研究的BAS-SVM算法的優勢,將上述優選的10維特征變量分別用于其他主流的SVM故障診斷方法,采用粒子群極限學習機(PSO-SVM)和蜂群極限學習機(ABC-SVM)進行對比實驗,三種算法對應的適應度曲線變化如圖7所示。兩種對比算法的診斷結果如圖8、圖9所示。

圖7 3種智能算法適應度曲線變化趨勢

圖8 PSO-SVM故障診斷結果

圖9 ABC-SVM故障診斷結果
由圖7可知,對比3種方法,BAS-SVM的收斂速度與尋優能力相較于其他兩種算法都有明顯的優勢。3種算法的診斷準確率與運行時間對比如表3所示。由表3可知,對相同的故障集樣本,BASSVM的診斷用時更少,準確率得到提升,其中對LED和PD的故障診斷準確率均達到了100%,證明了BAS-SVM的準確性與快速性。

表3 3種改進的SVM智能算法的性能對比
研究了一種基于RF特征選擇的BAS-SVM變壓器DGA故障診斷方法,主要結論如下。
(1)利用RF特征選擇方法從22個特征量中優選出10個,對于文中所提到的7種狀態的診斷,新的特征量組合比傳統的三比值法、無編碼比值法、常用DGA數據準確率分別高出21.43%、6.33%、24.62%,并消除了冗余信息。
(2)建立了BAS-SVM故障診斷模型。BAS優化算法具有時間復雜度低、搜索能力強的特點,對SVM的參數進行優化,將故障診斷準確率由82.38%提升至92.78%。
(3)以新的10維特征量作為輸入,與傳統的PSO-SVM和ABC-SVM相比,BAS-SVM能夠更有效地減少模型訓練的時間,同時提高了對本文所提不同故障狀態的分類準確率,為變壓器故障診斷提供了一種新的方法。