王子鑒,秦瑜瑞,李景麗
(1.鄭州大學(xué)電氣工程學(xué)院,鄭州 450001;2.國(guó)網(wǎng)河南省電力公司鄭州供電公司,鄭州 450000)
電力變壓器是電網(wǎng)中的核心設(shè)備,在發(fā)電、輸電、配電每個(gè)環(huán)節(jié)中都有不可取代的作用,其運(yùn)行狀態(tài)直接影響著電網(wǎng)供電可靠性,對(duì)變壓器運(yùn)行狀態(tài)做出正確評(píng)估,具有重要意義。變壓器運(yùn)行狀態(tài)可分為正常工作狀態(tài)、熱故障、電故障和機(jī)械類故障四大類。其中,大類故障又可細(xì)分,如熱故障可劃分為低溫過熱故障、中溫過熱故障、高溫過熱故障。變壓器發(fā)生故障時(shí),可在絕緣油中檢測(cè)到大量氣體,氣體的成分、含量、產(chǎn)氣速度[1]與故障類型有密切關(guān)系。油中溶解氣體分析DGA(dissolved gas analysis)是目前應(yīng)用最為廣泛的一種簡(jiǎn)單、有效的方法。DGA依據(jù)變壓器油裂解產(chǎn)生的特征氣體,構(gòu)造用以確定故障類型的判據(jù)。近年來(lái),基于DGA已發(fā)展形成了多種變壓器故障診斷方法,如大衛(wèi)三角法[2]、IEC三比值法[3]、改良三比值法[4]、Roger比值法[5]等,上述方法通過求取氣體之間的比值,進(jìn)行“編碼-查表”的步驟后確定變壓器的故障類型,但這些方法編碼邊界過于絕對(duì),且都是建立于現(xiàn)場(chǎng)工程經(jīng)驗(yàn)上,易出現(xiàn)診斷結(jié)果不一致的情況。近年來(lái)隨著人工智能技術(shù)的發(fā)展,多種智能識(shí)別方法被運(yùn)用在變壓器故障診斷領(lǐng)域,如神經(jīng)網(wǎng)絡(luò)[6-7],支持向量機(jī)[8-9]等。這些方法以數(shù)據(jù)驅(qū)動(dòng)為基礎(chǔ),不過多依賴于工程經(jīng)驗(yàn)。文獻(xiàn)[7]通過分析變壓器油色譜數(shù)據(jù)特點(diǎn),利用Spark計(jì)算框架,提出了一種基于多深度神經(jīng)網(wǎng)絡(luò)的故障識(shí)別算法。
但對(duì)于變壓器故障診斷這一典型多分類問題,上述方法直接以小類故障為分類目標(biāo),未考慮大類故障之間、同一大類故障下的小類故障間的差異。同時(shí),以H2、CH4、C2H2、C2H6、C2H4等全部特征氣體及比值作為故障診斷的輸入量,忽略特征量與故障類型之間的相關(guān)性。因此,應(yīng)對(duì)變壓器進(jìn)行分層診斷,并選取與分類目標(biāo)聯(lián)系緊密的故障特征量。文獻(xiàn)[10]基于機(jī)器學(xué)習(xí)中的特征工程,通過卡方檢驗(yàn)分析特征量與分類目標(biāo)之間的相關(guān)性,進(jìn)行特征選擇,在多分類問題中取得了良好效果。
文章針對(duì)變壓器主要幾種油中溶解氣體(H2、CH4、C2H2、C2H6、C2H4),采用卡方檢驗(yàn)對(duì)每種氣體與分類目標(biāo)的相關(guān)性進(jìn)行探究,剔除與分類目標(biāo)相關(guān)性較小的特征氣體。在分層故障診斷方案的基礎(chǔ)上,利用不同的機(jī)器學(xué)習(xí)分類器對(duì)精簡(jiǎn)后的特征氣體診斷效果進(jìn)行評(píng)估,確定效果最優(yōu)的特征氣體與分類器。最后,與未經(jīng)特征選擇的分類方法進(jìn)行對(duì)比,驗(yàn)證了文中方案的有效性。
絕緣油是由不同碳?xì)浠衔锝M成的混合物,在放電和過熱故障作用下發(fā)生化學(xué)反應(yīng)后,各類氣體含量產(chǎn)生變化。不同故障類型對(duì)應(yīng)的氣體成分如表1所示。

表1 故障類型與油中溶解氣體Tab.1 Fault types and dissolved gases in oil
變壓器故障按大類分為熱故障和電故障,據(jù)表1可知,氣體組分和故障類型之間具有很強(qiáng)的相關(guān)性,故障類型不同時(shí),氣體組分也會(huì)隨之改變。例如:放電故障時(shí),化合物中的C-H鍵斷裂,生成H2,當(dāng)放電具有較高能量,C-C鍵斷裂,形成CH4、C2H6等氣體;過熱故障時(shí),化合物中的C=C鍵斷裂,生成C2H2等氣體。
文章依據(jù)DLT722—2000《變壓器油中溶解氣體分析和判斷導(dǎo)則》和樣本分布將運(yùn)行狀態(tài)劃分為熱故障、放電故障、正常三大類,其中,熱故障分為中低溫過熱、高溫過熱,放電故障分為低能放電、高能放電。
由于大類故障之間、同一大類故障的小類故障之間氣體特性均有所不同,為充分利用故障特性,采取分層診斷策略對(duì)其進(jìn)行分類,先對(duì)大類故障進(jìn)行診斷,進(jìn)而細(xì)分故障類型[11]。分層故障模型如下圖1所示。

圖1 分層故障診斷模型Fig.1 Multi-level fault diagnosis model
其中,第一層診斷用以劃分正常與故障狀態(tài);第二層診斷區(qū)分過熱故障與放電故障;第三層和第四層診斷為平行關(guān)系,分別對(duì)過熱故障和放電故障進(jìn)一步劃分。模型中各層分別取名為“正常-故障(N-F)”層、“放電-發(fā)熱(D-H)”層、“放電(D)”層、“發(fā)熱(H)”層。
卡方檢驗(yàn)可用于檢驗(yàn)兩組量之間的相關(guān)程度,在機(jī)器學(xué)習(xí)領(lǐng)域的特征選擇中得到廣泛應(yīng)用[12]。以“故障-正常”診斷層為例,如果某種特征氣體與分類目標(biāo)無(wú)關(guān),則該氣體在樣本中的分布不會(huì)因?yàn)樗鶎倌繕?biāo)為“故障”或“正常”而不同,即該氣體無(wú)論在目標(biāo)為“故障”還是“正常”,其都應(yīng)為均勻分布。以氫氣為例,氫氣含量的取值C可能屬于n種不同區(qū)間{C1,C2,…,C n},目標(biāo)值E有兩種不同的取值{E1,E2},數(shù)據(jù)聯(lián)合分布可如表2所示。

表2 氫氣與目標(biāo)的聯(lián)合分布Tab.2 Joint distribution of H 2 and target
假設(shè)氫氣含量和故障標(biāo)簽獨(dú)立,取標(biāo)簽為E1的N.1個(gè)樣本,標(biāo)簽為E2的N.2個(gè)樣本組成樣本集P,共N個(gè)樣本。從樣本集中隨機(jī)抽取N1.個(gè)樣本,若氫氣含量和分類目標(biāo)滿足獨(dú)立假設(shè),則該N1.個(gè)樣本中滿足E=E1的期望個(gè)數(shù)m應(yīng)該為

按照以上規(guī)則,則滿足C=Ci,E=Ej的期望個(gè)數(shù)為

期望樣本集與實(shí)際樣本的差異定義為

式中:N.j為表2中第j列的數(shù)值之和;N ij為表2中第i行第j列的數(shù)值。
χ2越大,則氫氣含量與分類目標(biāo)的關(guān)聯(lián)度越高,在分類過程中發(fā)揮的作用更重要。同理計(jì)算其余氣體在該診斷層中的χ2,在不同診斷層中,也以此作為特征氣體選擇依據(jù)。
變壓器故障診斷數(shù)據(jù)通常由兩部分組成,分別是特征氣體構(gòu)成的特征向量集合X和目標(biāo)類別Y,其中X={x1,x2,…,x n},n為樣本數(shù)量。分類器的任務(wù)是通過訓(xùn)練數(shù)據(jù),建立模型,利用該模型,對(duì)于給定的測(cè)試樣本X,預(yù)測(cè)輸出Y。
線性回歸LR(linear regression)和支持向量機(jī)SVM(support vector machine),決策樹DT(decision tree),隨機(jī)森林RF(random forest)都屬于判別模型,由輸入的數(shù)據(jù)X得到預(yù)測(cè)分類目標(biāo)f(X),在訓(xùn)練過程中,通過實(shí)際目標(biāo)Y與預(yù)測(cè)目標(biāo)f(X)之間的關(guān)系進(jìn)行迭代,以此確定決策函數(shù)f(X)的構(gòu)造。LR是一種線性回歸模型,通過求解損失函數(shù)的最小值,來(lái)確定最優(yōu)權(quán)重和偏置。SVM是機(jī)器學(xué)習(xí)中極具代表性的算法,通過將原始向量x映射至高維空間φ(x),使線性不可分?jǐn)?shù)據(jù)變?yōu)榫€性可分,構(gòu)造距不同類別距離最大的最優(yōu)超平面進(jìn)行分類[12]。分類模型為

式中:a為拉格朗日乘子;,K為核函數(shù)。SVM是針對(duì)二分類問題提出的,而變壓器故障診斷為典型多分類問題,利用“一對(duì)一”方法可將多分類問題分解為二分類問題。DT是一種樹模型結(jié)構(gòu),構(gòu)建決策樹是從根節(jié)點(diǎn)不斷遞歸生成子樹的過程,在每個(gè)葉子節(jié)點(diǎn),通過信息熵的大小來(lái)選取最優(yōu)特征,之后經(jīng)剪枝策略以防止過擬合。RF是一種集成算法,本質(zhì)上為多個(gè)決策樹的集合。
樸素貝葉斯NB(Naive Bayesian)則屬于生成模型,生成模型的目標(biāo)是求取聯(lián)合分布概率P(X,Y),并利用條件概率公式,在訓(xùn)練完畢后,對(duì)于給定的輸入X,該模型可給出屬于Y的概率,以此判斷所屬類別。所采用的條件概率公式為

文章以文獻(xiàn)[13]中絕緣油分解產(chǎn)生的氣體含量與故障類型作為數(shù)據(jù)來(lái)源,剔除冗余樣本和異常樣本,并將低溫過熱和中溫過熱合并為中低溫過熱,建立故障庫(kù)。
樣本中運(yùn)行狀態(tài)類型分布如表3所示。

表3 樣本中各運(yùn)行狀態(tài)分布Tab.3 Distribution of each operating state in dataset
由于文獻(xiàn)[13]中的特征氣體在不同樣本中大小差距較大,采用如下公式進(jìn)行歸一化處理:

式中,φ為歸一化后的氣體,下標(biāo)1、2、3、4、5代表H2、CH4、C2H2、C2H6和C2H45種特征氣體;Xi為經(jīng)過縮放后的氣體i的含量,i=1,…,5。
對(duì)于每個(gè)診斷層,求取特征氣體與分類目標(biāo)的χ2值,并按式(7)對(duì)其進(jìn)行歸一化后如表4所示。


表4 歸一化后的關(guān)聯(lián)度Tab.4 Correlation after normalization
變壓器在正常狀態(tài)下,產(chǎn)生的能量不足以分解C2H6,該氣體含量較高,發(fā)生故障時(shí),變壓器內(nèi)部產(chǎn)生大量能量,使C2H6分解產(chǎn)生C2H4,C2H6和C2H4兩種氣體的含量變化與“故障”和“正常”兩種運(yùn)行狀態(tài)之間具有很強(qiáng)的相關(guān)性,因此,這些氣體在“正常-故障”診斷層相關(guān)程度較高;在“發(fā)熱-放電”診斷層經(jīng)卡方檢驗(yàn)得到的相關(guān)程度較高的3種氣體為H2、C2H2、C2H4。通過表1可知,過熱故障時(shí)產(chǎn)生的主要?dú)怏w有C2H4,而放電故障產(chǎn)生的主要?dú)怏w為H2、C2H2,這3種氣體對(duì)于區(qū)分過熱故障和放電故障具有重要意義;過熱故障時(shí),隨著溫度的升高,由CH4和C2H6分解產(chǎn)生的H2、C2H4逐漸增多,由該特性可知,兩種氣體是溫度升高的標(biāo)志,可用于劃分中低溫故障與高溫故障;電弧放電與電火花放電均存在大量的H2和C2H2,相比電弧放電,電火花放電能量較低,次要?dú)怏w中存在C2H4和C2H6,而電火花放電則不存在兩種氣體。在上述其余各故障診斷層中,由卡方檢驗(yàn)得到的相關(guān)氣體相關(guān)度大小,與特征氣體在不同故障類型中的理化性質(zhì)保持一致,驗(yàn)證了卡方檢驗(yàn)在分層故障診斷中的可行性。
文章為減少特征氣體的維度,降低特征氣體的冗余度,提高分類器故障診斷準(zhǔn)確度,只選取部分特征氣體輸入分類器。根據(jù)表4中每個(gè)診斷層下每種特征氣體的χ2大小,對(duì)其重要程度進(jìn)行排序。將排序靠前的特征氣體種類數(shù)定義為最優(yōu)特征數(shù)Z,Z值由5至1依次選取,通過減小最優(yōu)特征數(shù)來(lái)檢驗(yàn)剔除次要?dú)怏w對(duì)故障診斷性能的影響。以“正常-故障”診斷層為例,當(dāng)Z=3時(shí),只選取χ2大小為前3位的特征氣體進(jìn)行訓(xùn)練,即依據(jù)表4,選取C2H6、C2H4、C2H2的數(shù)據(jù)作為樣本輸入分類器進(jìn)行故障診斷。
文章采用文獻(xiàn)[13]中的數(shù)據(jù),去除重復(fù)和異常樣本,共選取其中517組數(shù)據(jù),作為故障庫(kù),該故障庫(kù)中各故障類型分布如表3。以Scikit-learn 0.2為平臺(tái),采取SVM、NB、RF、DT、LR 5種分類器,每種分類器訓(xùn)練時(shí)均采用“留一法”交叉驗(yàn)證[14],以綜合準(zhǔn)確度作為指標(biāo)。其中,NB、RF、DT、LR采取默認(rèn)參數(shù),對(duì)于SVM,在每層診斷時(shí)采取網(wǎng)格搜索尋找最優(yōu)參數(shù)C和γ[11]。對(duì)于每種分類器,計(jì)算流程如下:
(1)將每個(gè)樣本中各類氣體含量按式(6)進(jìn)行歸一化處理;
(2)對(duì)故障類型編號(hào),作為分類目標(biāo);
(3)根據(jù)Z值選取特征氣體;
(4)輸入分類器,并采用“留一法”交叉驗(yàn)證,得出在當(dāng)前Z值下的準(zhǔn)確率;
(5)改變Z值,重復(fù)步驟(3)、(4)。
各診斷層中,Z取不同值時(shí),各算法的準(zhǔn)確率如表5至表8所示。

表8 “放電”層算法準(zhǔn)確率Tab.8 Accuracy of algorithm at“D”level %
以下各表中,當(dāng)Z=5時(shí),即代表在分類過程中選取了全部5種特征氣體。通過分析表5可知,在“正常-故障”診斷層中SVM、NB、LR 3種分類器,分別在Z=2、Z=4、Z=1時(shí),出現(xiàn)了故障診斷準(zhǔn)確率大于選取全部氣體時(shí)的準(zhǔn)確率的情況,RF和DT選取全部氣體時(shí)的準(zhǔn)確率僅比Z=4有微小提升。其余各診斷層與該層類似,除少數(shù)分類器在剔除相關(guān)性較弱的氣體后準(zhǔn)確率出現(xiàn)微小下降,其余分類器都體現(xiàn)出篩選特征氣體的優(yōu)越性。可見,剔除與分類目標(biāo)相關(guān)性較小的氣體,減少特征氣體的維度,有助于避免各分類器的過擬合現(xiàn)象,故而提高分類器準(zhǔn)確度。

表5 “正常-故障”層算法準(zhǔn)確率Tab.5 Accuracy of algorithm at“N-F”level %

表6 “發(fā)熱-放電”層算法準(zhǔn)確率Tab.6 Accuracy of algorithm at“H-D”level %

表7 “發(fā)熱”層算法準(zhǔn)確率Tab.7 Accuracy of algorithm at“H”level %
根據(jù)表5至表8中個(gè)各個(gè)分類器的性能,選擇在不同診斷層具有不同核參數(shù)的SVM作為最佳分類器。分類器選擇不同數(shù)量特征氣體作為輸入時(shí),在每個(gè)診斷層的的準(zhǔn)確率如圖2所示。

圖2 SVM在各診斷層準(zhǔn)確率Fig.2 Accuracy of SVM at each diagnosis level
從圖2可以看出,SVM分類器在“正常-故障”層、“發(fā)熱-放電”層、“發(fā)熱”層經(jīng)特征選擇后準(zhǔn)確率得到提高。在“放電”層,當(dāng)Z=3時(shí),剔除2種特征氣體,準(zhǔn)確率和采取全部5種特征氣體時(shí)的準(zhǔn)確率差別不大。
綜合表5至表8,以及表4中氣體與分類目標(biāo)的相關(guān)程度,在盡量剔除相關(guān)性較小的氣體仍能取得較高分類準(zhǔn)確率的情況下,選取正常-故障層、發(fā)熱-放電和發(fā)熱層的Z值為2,放電層的Z值為3,并通過GridSearch方法,對(duì)分類器中參數(shù)進(jìn)行確定對(duì)各診斷層所需分類器及特征氣體和準(zhǔn)確度總結(jié)如表9所示。

表9 各診斷層分類器及特征氣體Tab.9 Classifiers and feature gases at each diagnosis level
結(jié)合圖1與表9,分層診斷最終模型如圖3所示。

圖3 基于SVM與特征選擇的診斷模型Fig.3 Diagnosis model based on SVM and feature selection
模型利用C2H6和C2H4特征氣體,通過正常-故障層診斷,將樣本分為故障和正常狀態(tài),有故障的樣本則進(jìn)入發(fā)熱-放電層的SVM分類器,利用H2、C2H2進(jìn)行判斷,結(jié)果為發(fā)熱故障或放電故障。若為發(fā)熱故障,則進(jìn)入發(fā)熱層,利用C2H6、C2H4判斷,將故障進(jìn)一步細(xì)分為中低溫過熱和高溫過熱;若為放電故障,則進(jìn)入放電層,利用H2、C2H6、C2H4判斷,將故障進(jìn)一步細(xì)分為高能放電和低能放電。這樣每個(gè)層次單獨(dú)判斷,都只需要實(shí)現(xiàn)簡(jiǎn)單的二分類,減少了重疊問題,有利于提高變壓器故障診斷的正確判斷概率。
采用上文所述數(shù)據(jù)集,將全部特征氣體輸入分類器并對(duì)中低溫過熱、高溫過熱、低能放電、高能放電、正常5種運(yùn)行狀態(tài)直接進(jìn)行分類,同樣在Sklearn0.2中使用SVM、NB、RF、DT、LR等5種分類器,并對(duì)SVM使用網(wǎng)格尋優(yōu),采用“留一法”進(jìn)行交叉驗(yàn)證,所得到各分類器的綜合準(zhǔn)確率如表10所示。

表10 未選擇特征氣體分類準(zhǔn)確率Tab.10 Accuracy of classification without selecting feature gases
結(jié)合表10和表9可看出,采用全部5種氣體,利用單一分類器直接以每種運(yùn)行狀態(tài)為分類目標(biāo)進(jìn)行分類,所得到的分類效果低于經(jīng)特征選擇后的分層故障診斷模型。
本文引入卡方檢驗(yàn)對(duì)特征氣體進(jìn)行選擇,并將其運(yùn)用到分層故障診斷模型中。通過多種機(jī)器學(xué)習(xí)分類器對(duì)不同特征氣體的組合進(jìn)行分析,得到不同診斷層的最優(yōu)分類器和特征氣體組合,總結(jié)出如下結(jié)論:
(1)利用卡方檢驗(yàn)?zāi)苡行У靥蕹头诸惸繕?biāo)相關(guān)性較低的氣體,降低特征氣體的冗余度,可作為變壓器特征氣體選擇的依據(jù);
(2)采用分層故障診斷模型,在不同診斷層應(yīng)用不同分類器以及不同特征氣體數(shù)量進(jìn)行分析,得出在每個(gè)層應(yīng)用自動(dòng)調(diào)參后的SVM分類器時(shí)準(zhǔn)確度最高。
所得到的分類效果優(yōu)于采用單一分類器對(duì)多種運(yùn)行狀態(tài)直接進(jìn)行分類。