劉可真, 姚 岳*, 趙現(xiàn)平, 楊春昊, 盛戈皞, 王 科
(1.昆明理工大學(xué) 電力工程學(xué)院,云南 昆明 650500;2.云南電網(wǎng)有限責(zé)任公司,云南 昆明 650200;3.上海交通大學(xué) 電氣工程系,上海 200240;4.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明 650217)
能源是人類生存中不可或缺的物質(zhì)基礎(chǔ),極大地推動(dòng)著社會(huì)經(jīng)濟(jì)的高速發(fā)展,目前電能在我國(guó)終端能源消費(fèi)中占比高達(dá)26.8%,近十年增幅在世界主要經(jīng)濟(jì)體中最大,電氣化整體程度位居世界前列[1]。隨著遠(yuǎn)距離、大規(guī)模、高容量的電網(wǎng)發(fā)展,對(duì)輸變電設(shè)備的安全穩(wěn)定性也提出了更高的要求,作為電力系統(tǒng)中變換電壓等級(jí)的關(guān)鍵設(shè)備,變壓器可靠的運(yùn)行極為重要。
變壓器內(nèi)部存在故障時(shí),通常會(huì)產(chǎn)生大量的CH4、C2H6、C2H4和C2H2等一系列低分子烴類,以及H2、CO和CO2等氣體。油中溶解氣體分析(DGA)被認(rèn)為是最主要且有效的變壓器故障診斷方法,能夠在變壓器運(yùn)行過程中進(jìn)行測(cè)定,不受外界因素的干擾。通過對(duì)上述油中溶解氣體的類別及濃度進(jìn)行定性定量分析,可以有效地判斷出電力變壓器的運(yùn)行狀況,提前發(fā)現(xiàn)內(nèi)部存在潛伏故障,保證變壓器能夠長(zhǎng)期穩(wěn)定運(yùn)行[2]。
基于DGA理論,國(guó)內(nèi)外研究者提出了諸多的變壓器故障診斷方法,早期的比值法、三角形法等,由于存在比值缺失,故障判別邊界條件不清晰,無法完全反映特征氣體與各類故障之間的隱藏規(guī)律[3-4]。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,基于機(jī)器學(xué)習(xí)的智能診斷方法提高了對(duì)變壓器各種故障類型的識(shí)別準(zhǔn)確率。目前常用的機(jī)器學(xué)習(xí)算法包括專家系統(tǒng)[5]、SVM[6]、集成學(xué)習(xí)[7]和神經(jīng)網(wǎng)絡(luò)[8]。其中,具有扎實(shí)理論基礎(chǔ)的SVM模型在小樣本下泛化性能較好,被廣泛應(yīng)用于變壓器故障診斷。然而,變壓器實(shí)際運(yùn)行中發(fā)生故障的概率較低,導(dǎo)致收集的數(shù)據(jù)集中各種故障類型樣本數(shù)量存在較大差異。當(dāng)類別不平衡的數(shù)據(jù)集的用于上述分類模型訓(xùn)練時(shí),模型容易忽略少數(shù)類樣本包含的特征信息,且模型訓(xùn)練時(shí)過度依賴少數(shù)類樣本數(shù)據(jù)易出現(xiàn)過擬合,造成在新數(shù)據(jù)上的識(shí)別準(zhǔn)確率較低[9]。
為降低不平衡數(shù)據(jù)的影響,從數(shù)據(jù)角度對(duì)數(shù)據(jù)進(jìn)行欠采樣和過采樣。過采樣以隨機(jī)采樣來增加樣本,常用的方法主要有合成少數(shù)類過采樣技術(shù)(SMOTE)[10]、改進(jìn)過采樣技術(shù)(Borderline-Smote)[11]和自適應(yīng)合成抽樣(ADASYN)[12]等。此類算法生成新樣本時(shí),存在邊緣樣本重疊的問題。其中,隨機(jī)欠采樣則以隨機(jī)丟棄部分多數(shù)類樣本,會(huì)造成故障特性信息的丟失,需要加以改進(jìn)。
基于此,本文提出了一種基于樣本集成學(xué)習(xí)的SO-SVM變壓器故障診斷方法。首先,為解決人為設(shè)置SVM模型關(guān)鍵參數(shù)(懲罰系數(shù)c和核函數(shù)系數(shù)g)不合理而導(dǎo)致分類性能降低[13],采用蛇優(yōu)化算法(SO)對(duì)其進(jìn)行優(yōu)化。以優(yōu)化參數(shù)后的SVM模型作為Balanced Bagging Classifier集成學(xué)習(xí)策略的基分類器,建立變壓器故障診斷模型。該方法可通過EasyEnsemble采樣器對(duì)樣本集進(jìn)行多次欠采樣獲得多個(gè)訓(xùn)練子集,然后以Bagging策略組合多個(gè)基分類器結(jié)果,得到最終診斷結(jié)果,實(shí)現(xiàn)對(duì)變壓器運(yùn)行狀態(tài)的準(zhǔn)確分析。
SVM算法的基本原理如圖1所示,目標(biāo)是求解一個(gè)能有效區(qū)分?jǐn)?shù)據(jù)的超平面,需要在保證精度較高的同時(shí)滿足兩側(cè)數(shù)據(jù)到超平面的幾何間隔最大。

圖1 SVM分類原理Fig.1 SVM classification principle
對(duì)于一般的二分類問題,假設(shè)正類記為+1,負(fù)類記為-1,對(duì)于給定的特征空間中的數(shù)據(jù)集S={(x1,y1),(x2,y2),…,(xk,yk)},其中xi∈Rk,代表第i個(gè)特征所包含的特征向量;yi∈{-1,+1},代表所屬類別;i∈(1,k)。當(dāng)數(shù)據(jù)在空間中線性可分時(shí),記分隔超平面為w·x+b=0,數(shù)據(jù)集中的任意一點(diǎn)(xi,yi)到超平面的幾何間隔為[14]

(1)
式中:w為超平面權(quán)重向量;b為偏置參數(shù)。

(2)
式中:α為拉格朗日乘子;k為支持向量數(shù)量。

(4)
式中:α*為拉格朗日乘子。
此時(shí)求得分離超平面為:w*·x+b*=0。相應(yīng)的分類決策函數(shù)為[16]
f(x)=sign(w*·x+b*)=

(5)
而在特征空間中的數(shù)據(jù)集線性不可分時(shí),需要借助核函數(shù)對(duì)其作非線性變化映射到高維線性可分的特征空間中,在高維空間中訓(xùn)練線性支持向量機(jī)。假設(shè)核函數(shù)表示為K(x,z),初始特征在高維空間中的映射關(guān)系為φ(x),則對(duì)初始輸入特征空間中的x、z,有如下變換:
K(x,z)=φ(x)·φ(z)
(6)
式中:K(x,z)為核函數(shù);φ(x)為映射函數(shù)。
將線性可分下的支持向量機(jī)內(nèi)積用核函數(shù)代替的分類決策函數(shù)為

(7)
在模型的訓(xùn)練過程中,一個(gè)訓(xùn)練樣本最終是否出現(xiàn)在模型參數(shù)表達(dá)式中與其Lagrange乘子α相關(guān);只有α>0時(shí)保留,其對(duì)應(yīng)的樣本點(diǎn)處在最大間隔邊界上,是一個(gè)與最終模型相關(guān)的支持向量。
蛇優(yōu)化算法(SO)是Hashim,F.A和Hussien,A.G在2022年提出的新型智能仿生學(xué)優(yōu)化算法[17],算法模仿蛇的生活習(xí)性:分為覓食、戰(zhàn)斗和繁殖模式。由于蛇類是冷血?jiǎng)游?其行為與生存的環(huán)境溫度息息相關(guān)。若當(dāng)前沒有食物,雌雄個(gè)體都會(huì)尋找食物,個(gè)體之間會(huì)彼此遠(yuǎn)離以搜尋食物,搜索范圍大,找出附近食物充足的區(qū)域。當(dāng)食物充足后,蛇個(gè)體之間會(huì)通過信息共享,以保證沒有得到足夠食物的同伴可以快速獲得食物,滿足需求。若此時(shí)食物充足,且周圍環(huán)境溫度較低,雄性個(gè)體比較活躍,彼此之間便會(huì)有一定概率出現(xiàn)戰(zhàn)斗情況吸引雌性個(gè)體的注意,交配后雌性可以決定是否產(chǎn)卵;周圍環(huán)境溫度較高,蛇個(gè)體會(huì)往食物位置靠近,即向全局最優(yōu)位置靠近。算法的優(yōu)化原理如圖2所示。

圖2 SO優(yōu)化過程Fig.2 SO optimization process
具體計(jì)算:建立SO算法的數(shù)學(xué)模型,假定蛇的種群數(shù)量為n,待優(yōu)化問題解的維度為d,則蛇類個(gè)體的位置信息表達(dá)為

(8)
同所有啟發(fā)式算法相同,SO算法需要生成均勻分布的隨機(jī)種群位置,使得能夠進(jìn)行優(yōu)化過程,個(gè)體位置初始化如式:
Xi=Xmin+r×(Xmax-Xmin)
(9)
式中:Xi為第i個(gè)體在所有維度下的位置集合;r為[0,1]區(qū)間的隨機(jī)數(shù);Xmax和Xmin為待優(yōu)化問題的上下界。然后將初始化后的種群1…1劃分為雌雄個(gè)體,雌性、雄性個(gè)體位置分為表示為Xi,m和Xi,f。
蛇類活動(dòng)的環(huán)境溫度系數(shù)Temp和食物量Q如式(10)所示:

(10)
式中:t為當(dāng)前迭代次數(shù);T為最大迭代次數(shù)。
當(dāng)食物量Q<0.25,算法進(jìn)行全局搜索;此時(shí)蛇類個(gè)體隨機(jī)選擇位置去尋找食物,雌雄個(gè)體以式(11)更新其位置信息[18]:

(11)
式中:Xt+1 i,m和Xt+1 i,f分別為第t+1次迭代雄雌個(gè)體的空間位置;Xt rand,m和Xt rand,f分別為第t次時(shí)雄雌個(gè)體的位置;c2為搜索因子,一般取0.05;Am和Af分別為雄雌個(gè)體搜尋食物的能力,計(jì)算式如下:

(12)
式中:frand,m和frand,f分別為雄雌個(gè)體的隨機(jī)適應(yīng)度值;fi,m和fi,f分別為雄雌搜索代理的適應(yīng)度值。
當(dāng)食物量Q>0.25,算法處于局部搜索狀態(tài),此條件下環(huán)境溫度系數(shù)Temp大于0.6時(shí),蛇類個(gè)體只會(huì)往食物方向運(yùn)動(dòng),按式(13)更新自身位置:

(13)
式中:Xt+1 i,j和Xt i,j為個(gè)體t+1和t次迭代時(shí)位置信息;Xfood為整體的全局最優(yōu)值;c3為更新因子,一般取2。
當(dāng)環(huán)境溫度系數(shù)Temp小于0.6時(shí),蛇類個(gè)體處于戰(zhàn)斗或繁殖模式,戰(zhàn)斗模式下雄雌個(gè)體按式(14)更新位置信息,繁殖模式下雄雌個(gè)體按式(15)更新位置信息:

(15)
式中:Xbest,f和Xbest,m分別為雄雌個(gè)體的最優(yōu)位置;Mm和Mf分別為雄雌個(gè)體的繁殖能力;Fm和Ff分別為雄雌個(gè)體的戰(zhàn)斗值,計(jì)算如式(16)所示:

(16)
式中:fbest,m和fbest,f分別為雄雌個(gè)體的最優(yōu)適應(yīng)度值。
如果由后代產(chǎn)生,則由式(9)隨機(jī)生成一個(gè)個(gè)體取代全局中適應(yīng)度最差的個(gè)體[19]。
Balanced Bagging Classifier是Ensemble集成分類器中的一種,原理如圖3所示,其綜合了EasyEnsemble采樣器與分類器的bagging優(yōu)點(diǎn)[20]。

圖3 Balanced Bagging Classifier原理Fig.3 Balanced Bagging Classifier principle
EasyEnsemble采樣器的基本思路是將存在類別不平衡的數(shù)據(jù)集以少數(shù)類樣本為基準(zhǔn),對(duì)多數(shù)類樣本進(jìn)行隨機(jī)k次欠采樣,分別和少數(shù)類樣本進(jìn)行組合,最終得到k份類別平衡的訓(xùn)練數(shù)據(jù)集。假設(shè)變壓器有m種故障類型,按其樣本數(shù)量由多到少進(jìn)行排序得到樣本集合{D1,D2,…,Dm}。若最后一種少數(shù)類的樣本Dm數(shù)量為|S|,對(duì)前m-1種多數(shù)類樣本隨機(jī)重復(fù)k次獨(dú)立的欠采樣,每次采樣過程中產(chǎn)生的子集記為Di,k,且每一子集在數(shù)量上有|Di,k|=|S|,i=1,2,…,m-1。
多數(shù)類樣本Di在以上采樣過程下,其樣本內(nèi)部的任意一個(gè)樣本(xi,yi)被抽到一次及以上的概率為1-(1-1/|Di|)|S|,則該樣本在采樣后形成的k個(gè)子集中出現(xiàn)一次及以上概率P1和全部出現(xiàn)的概率P分別為

(18)
當(dāng)最少類樣本數(shù)量|S|確定時(shí),隨著采樣次數(shù)k的增大,樣本(xi,yi)分布在所有訓(xùn)練子集的概率P也隨之增大,這在一定程度上可減少欠采樣方式造成的信息丟失。同時(shí),當(dāng)變壓器其它故障類型樣本數(shù)量與最少類數(shù)量倍數(shù)相差不大時(shí),由式(18)可知樣本(xi,yi)分布在所有訓(xùn)練子集中的概率比倍數(shù)相差較大的故障類型更高,在分類模型中的重視程度更高,確保了此類型故障樣本的采樣質(zhì)量。將k次采樣后得到的集合Dk={D1,k,D2,k,…,Dm-1,k}與最少類樣本集合Dm合并,最終故障類別相對(duì)平衡的訓(xùn)練子集記為Ck。
Bagging是對(duì)所有基分類器的結(jié)果進(jìn)行平均化,降低模型過擬合的風(fēng)險(xiǎn),從而減小輸出結(jié)果的誤差,將上述得到的平衡數(shù)據(jù)集Ck分別輸入到基分類器進(jìn)行學(xué)習(xí),假設(shè)fi(i=1,2,…,k)為每個(gè)分類器的決策結(jié)果,變壓器的故障類型標(biāo)識(shí)為L(zhǎng)j(j=0,1,…,7),則最終投票結(jié)果fend為

(19)
式中:fi為每個(gè)分類器的決策結(jié)果;Lj為變壓器的故障類型標(biāo)識(shí)。
在基于樣本集成學(xué)習(xí)的SO-SVM變壓器故障診斷模型中,選擇H2和4種烴類氣體(CH4、C2H6、C2H4和C2H2)共5類氣體作為診斷模型的輸入特征向量。由于特征尺度影響著模型的參數(shù)更新,各種特征氣體含量量級(jí)差異較大,在訓(xùn)練模型過程中,尺度較大特征數(shù)據(jù)對(duì)模型的影響可能遠(yuǎn)大于尺度小的特征數(shù)據(jù)。為保證模型能夠更好的識(shí)別特征中的潛在信息,加快模型的訓(xùn)練速度,采用式(20)將各種特征氣體尺度縮放至區(qū)間[0,1]。

(20)
式中:x為原始樣本氣體序列;x*為縮放后的樣本序列;xmin、xmax為樣本各氣體含量的最小值和最大值。
根據(jù)DL/T 722—2000與IEC 60599—2015以及變壓器內(nèi)部故障下放電能量的強(qiáng)弱與溫度的高低,劃分變壓器運(yùn)行狀態(tài)及編碼如表1所示。

表1 變壓器狀態(tài)及編碼Tab.1 Transformer status and coding
本文收集了南方電網(wǎng)公司變壓器故障樣例庫中監(jiān)測(cè)的油中溶解氣體數(shù)據(jù),將其劃分為訓(xùn)練集和測(cè)試集,樣例中各種故障類型分布如表2所示。部分不同故障類型下變壓器油中溶解氣體數(shù)據(jù)如表3所示。
基于樣本集成學(xué)習(xí)的SO-SVM變壓器故障診斷方法如圖4所示,以SO優(yōu)化的SVM模型作為基礎(chǔ)分類器,以Balanced Bagging Classifier樣本的集成學(xué)習(xí)方法對(duì)基礎(chǔ)分類器結(jié)果進(jìn)行綜合決策。模型的具體步驟為:

圖4 故障診斷技術(shù)路線Fig.4 Technical route for fault diagnosis
Step1:將收集到的油中溶解氣體樣本進(jìn)行縮放處理后,按表所示劃分為訓(xùn)練集和測(cè)試集。
Step2:在訓(xùn)練集中,以少數(shù)類樣本為基準(zhǔn),對(duì)多數(shù)類樣本進(jìn)行k次采樣,分別和少數(shù)類樣本進(jìn)行組合,最終得到k份類別平衡的訓(xùn)練數(shù)據(jù)集。
Step3:設(shè)置蛇優(yōu)化算法種群數(shù)量N,優(yōu)化超參數(shù)維度D,最大迭代次數(shù)T,接著對(duì)個(gè)體位置進(jìn)行初始化,計(jì)算適應(yīng)度和個(gè)體最優(yōu)位置,開始訓(xùn)練并計(jì)算個(gè)體在每一個(gè)訓(xùn)練集的適應(yīng)度。
Step4:計(jì)算環(huán)境溫度系數(shù)Temp和食物量Q,依據(jù)雄雌個(gè)體不同情況更新位置信息,即更新學(xué)習(xí)參數(shù)c和g,得到當(dāng)前適應(yīng)度,與上一次迭代適應(yīng)度相比較取最優(yōu)適應(yīng)度,使模型在訓(xùn)練集中分類精度最高。
Step5:當(dāng)適應(yīng)度不再變化或達(dá)到最大次數(shù)時(shí)終止迭代,獲取當(dāng)前SVM模型最優(yōu)超參數(shù)c和g,否則繼續(xù)步驟3。
Step6:使用SO算法得到的最優(yōu)超參數(shù)更新SVM參數(shù)后得到k個(gè)SO-SVM分類器。
Step7:將測(cè)試集輸入每一個(gè)SO-SVM模型,投票決定所有基礎(chǔ)分類器上的結(jié)果,獲得最終診斷的變壓器故障類型。
變壓器故障診斷模型實(shí)質(zhì)上是分類模型,混淆矩陣可以直觀看出模型對(duì)各個(gè)故障類別的診斷表現(xiàn),計(jì)算出相應(yīng)準(zhǔn)確率。如圖5所示的二分類混淆矩陣,矩陣的主對(duì)角線上矩形塊為該類標(biāo)簽被正確預(yù)測(cè)的個(gè)數(shù),與對(duì)應(yīng)類別總數(shù)相比即可得到其診斷準(zhǔn)確率。

圖5 二分類混淆矩陣圖Fig.5 Two-category confusion matrix diagram
當(dāng)數(shù)據(jù)存在類別不平衡性時(shí),受試者特征曲線(ROC曲線)可以更為全面的評(píng)價(jià)模型的性能。計(jì)算曲線與橫坐標(biāo)之間的面積可得到分類模型的AUC值;同樣可衡量模型的分類性能,一般認(rèn)為其值大于0.5時(shí)模型的分類結(jié)果具有參考意義,值越大越模型性能越好。
由于SVM模型的分類準(zhǔn)確率受到參數(shù)c和g的影響,在模型訓(xùn)練時(shí)采用SO算法其進(jìn)行優(yōu)化。SO算法的參數(shù)設(shè)置為:種群數(shù)量t:30;適應(yīng)度值:模型準(zhǔn)確率。算法達(dá)到收斂狀態(tài)時(shí),迭代了12次,此時(shí)適應(yīng)度值為0.891 27,訓(xùn)練過程中的模型參數(shù)變化如圖6所示,最優(yōu)參數(shù)設(shè)置和選取結(jié)果如表4所示。

表4 最優(yōu)參數(shù)選取結(jié)果Tab.4 Selection results of optimal parameters

圖6 優(yōu)化過程中參數(shù)變化圖Fig.6 Parameter variation diagram during optimization process
本文在Window10系統(tǒng)、核心處理器及頻率:AMD Ryzen 5 5600U 2.30 GHz、內(nèi)存16 GB、編程語言及版本為Python3.9.7環(huán)境下以表中數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。為驗(yàn)證本文所提模型對(duì)變壓器故障診斷的優(yōu)越性,選擇RF、SVM、KNN三種故障診斷模型作為對(duì)比模型,四種模型在測(cè)試上診斷結(jié)果的混淆矩陣如圖7所示,對(duì)應(yīng)診斷準(zhǔn)確率結(jié)果見表5。

表5 不同模型診斷準(zhǔn)確率結(jié)果Tab.5 Diagnostic accuracy results of different models

圖7 各模型診斷結(jié)果混淆矩陣Fig.7 Diagnostic results confusion matrix for each model
從診斷結(jié)果可以看出,本文所提故障診斷方法平均準(zhǔn)確率最高,可靠性高于三種對(duì)比模型。對(duì)測(cè)試集174個(gè)數(shù)據(jù)判斷錯(cuò)誤個(gè)數(shù)共12個(gè),準(zhǔn)確率為93.10%,分別比RF、SVM、KNN模型減少了6、12、19個(gè),診斷準(zhǔn)確率提高了3.44%、6.89%、10.92%。
分析少數(shù)類的中溫過熱、低溫過熱以及屬于復(fù)合故障的放電兼過熱等故障類型的泛化性,由于故障類別間的不平衡性,而KNN模型未對(duì)其進(jìn)行有效處理,識(shí)別準(zhǔn)確率較低,分別判斷錯(cuò)誤5、4、4個(gè)。SVM由于核函數(shù)和對(duì)判斷錯(cuò)誤的懲罰系數(shù)C的存在,對(duì)少數(shù)類識(shí)別率稍有提升,分別判斷錯(cuò)誤4、4、2個(gè)。由于RF模型是基于決策樹的Bagging學(xué)習(xí)策略,雖然隨機(jī)抽樣得到的訓(xùn)練子集仍存在不平衡性,但學(xué)習(xí)策略在一定程度上提高了對(duì)少數(shù)類的識(shí)別準(zhǔn)確率,分別判斷錯(cuò)誤4、3、2個(gè),表明了需要對(duì)樣本的類不平衡進(jìn)行一定的處理。而本文提出的基于樣本集成學(xué)習(xí)的SO-SVM模型利用EasyEnsemble采樣器對(duì)訓(xùn)練進(jìn)行欠采樣生成多個(gè)平衡樣本后,以優(yōu)化后的SVM為Balanced Bagging Classifier集成學(xué)習(xí)策略的基分類器,有效降低了樣本間的類不平衡性,對(duì)少數(shù)類樣本識(shí)別準(zhǔn)確率整體最高,三種少數(shù)類樣本分別判斷錯(cuò)誤3、2、0個(gè)。
將不同模型的診斷結(jié)果繪制為ROC曲線,如圖8所示。從中可以看出本文模型的AUC面積最大為0.960 8,相較于對(duì)比模型分別提高了0.026 4、0.042 5、0.081 2,表明本文所提模型在測(cè)試集上的泛化性能更優(yōu),更加趨近完美故障分類器。

圖8 不同模型診斷結(jié)果ROC曲線Fig.8 ROC curves of diagnostic results for different models
為驗(yàn)證本文所提樣本平衡方法的有效性,本章選擇過采樣方法SMOTE、ADASYN對(duì)本文的訓(xùn)練集進(jìn)行平衡處理,以優(yōu)化參數(shù)后的SVM作為分類器進(jìn)行故障診斷。表6中列出了訓(xùn)練集經(jīng)SMOTE和ADASYN過采樣后各故障類型的數(shù)量分布,可以看出,這兩種方法處理后,數(shù)據(jù)集類別同樣相對(duì)平衡。

表6 不同平衡方式下的樣本分布Tab.6 Sample distribution under different equilibrium modes
將以上兩種方法平衡后的訓(xùn)練集分別輸入優(yōu)化后的SVM訓(xùn)練后,模型對(duì)各類故障的識(shí)別結(jié)果與本文所提模型對(duì)比情況如表7所示。從表中可以看出,通過SMOTE和ADASYN過采樣平衡樣本后,模型對(duì)于少數(shù)類樣本診斷準(zhǔn)確率都得到提高;在本文數(shù)據(jù)下,模型在ADASYN平衡后數(shù)據(jù)上整體表現(xiàn)更佳,平均準(zhǔn)確率較SMOTE提高了1.67%。但由于兩種方法采樣后都存在邊緣樣本的重疊問題,提升效果低于本文所提方法。訓(xùn)練集在本文模型下,診斷準(zhǔn)確率較SMOTE方法和ADASYN方法,分別提高了4.59%、2.87%,驗(yàn)證了所提模型的有效性。分析模型對(duì)所有故障類型的診斷結(jié)果,可以看出,放電兼過熱故障對(duì)樣本的不平衡性最敏感,在本文所提模型下所有數(shù)據(jù)均被正確識(shí)別。

表7 不同平衡方式下的準(zhǔn)確率情況Tab.7 Accuracy under different balancing methods
本文針對(duì)變壓器故障樣本類別不平衡造成分類模型準(zhǔn)確率偏低的問題,選擇H2和4種烴類氣體(CH4、C2H6、C2H4和C2H2)共5類氣體作為診斷模型的輸入特征向量,提出了一種基于樣本集成學(xué)習(xí)和蛇優(yōu)化算法(SO)優(yōu)化支持向量機(jī)(SVM)的變壓器故障診斷模型。該模型利用EasyEnsemble采樣器進(jìn)行多次欠采樣,生成類別平衡的多個(gè)子集,然后使用SO優(yōu)化關(guān)鍵參數(shù)后的SVM模型進(jìn)行訓(xùn)練,并通過Bagging策略綜合各個(gè)分類器結(jié)果得到最終故障類型。試驗(yàn)結(jié)果表明,相比于其他模型和方法,SO-SVM的故障診斷準(zhǔn)確率和AUC值都有明顯提高,對(duì)不平衡樣本的故障診斷能力更優(yōu)。
1) 針對(duì)變壓器故障樣本類別不平衡問題,建立Balanced Bagging Classifier樣本集成學(xué)習(xí)模型,其通過EasyEnsemble采樣器對(duì)數(shù)據(jù)集進(jìn)行多次欠采樣后生成多份類別平衡的訓(xùn)練子集,以Bagging策略分別訓(xùn)練基分類器后綜合輸出訓(xùn)練結(jié)果,提高了對(duì)不平樣本的故障識(shí)別能力。
2) 為降低SVM基分類器關(guān)鍵參數(shù)對(duì)模型性能的影響,采用SO算法對(duì)其進(jìn)行優(yōu)化,避免人為設(shè)置參數(shù)不合理造成分類準(zhǔn)確率的問題。
3) 算例分析表明,提出的故障診斷模型相比于RF、SVM、KNN模型,診斷準(zhǔn)確率分別提高了3.44%、6.89%、10.92%,AUC值分別提高了0.026 4、0.042 5、0.081 2。在同一分類器下,本文模型相比于SMOTE和ADASYN樣本平衡方法,診斷準(zhǔn)確率分別提高了4.59%、2.87%,說明本文方法對(duì)不平衡樣本的故障診斷能力更優(yōu)。