袁 帥 余 偉 余 放 李石君
1(鄭州電力高等專(zhuān)科學(xué)校信息通信系 河南 鄭州 450000)2(武漢大學(xué)數(shù)據(jù)科學(xué)研究所 湖北 武漢 430072)
隨著我國(guó)經(jīng)濟(jì)的發(fā)展,對(duì)電力需求不斷增大,保證電力系統(tǒng)的安全穩(wěn)定運(yùn)行,有效診斷預(yù)測(cè)電網(wǎng)故障尤為重要。近年來(lái)計(jì)算機(jī)和診斷技術(shù)不斷發(fā)展,電網(wǎng)故障診斷技術(shù)也得到飛速的提升。國(guó)內(nèi)外學(xué)者已運(yùn)用的專(zhuān)家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、Petri網(wǎng)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等智能故障診斷技術(shù)[1],雖然在故障診斷上都取得了較好的效果,但存在前提條件苛刻(數(shù)據(jù)預(yù)處理要求過(guò)高)、局部欠學(xué)習(xí)和過(guò)學(xué)習(xí)等問(wèn)題。本文樣本中正常數(shù)據(jù)占絕大部分,而故障數(shù)據(jù)只占小部分,正常和故障數(shù)據(jù)分別為大類(lèi)和小類(lèi)樣本,即構(gòu)成典型的不平衡數(shù)據(jù)。
當(dāng)前,不平衡數(shù)據(jù)分類(lèi)問(wèn)題的解決方法[2]主要有2個(gè)方面:(1) 數(shù)據(jù)層面,上采樣和下采樣,改變數(shù)據(jù)分布,降低不平衡度,稱(chēng)之為重采樣方法;(2) 算法層面,分析已有算法在面對(duì)不平衡數(shù)據(jù)的缺陷,改進(jìn)算法或者提出新算法來(lái)提升小類(lèi)的分類(lèi)準(zhǔn)確率,例如代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)[3]等。
針對(duì)故障診斷不平衡的樣本數(shù)據(jù),Zhang等[4]提出了基于快速聚類(lèi)和支持向量機(jī)的旋轉(zhuǎn)機(jī)械故障診斷算法,通過(guò)快速聚類(lèi)減少數(shù)據(jù),平衡后利用支持向量機(jī)進(jìn)行訓(xùn)練,有較好的診斷效果。Zhang等[5]提出綜合上采樣和特征學(xué)習(xí)的旋轉(zhuǎn)機(jī)械不平衡數(shù)據(jù)故障診斷方法,用加權(quán)上采樣法平衡數(shù)據(jù)分布,用增強(qiáng)的自動(dòng)編碼進(jìn)行特征選擇,可以更有效地檢測(cè)故障樣本。
不平衡學(xué)習(xí)方法在故障診斷領(lǐng)域已有較好的效果,但在電網(wǎng)故障診斷領(lǐng)域應(yīng)用較少,本文采用不平衡學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn)研究。目前研究不平衡數(shù)據(jù),以SMOTE方法[6]為基礎(chǔ)的改進(jìn)模型[7-8]居多,但SMOTE方法容易造成小類(lèi)的生成樣本重疊,因?yàn)樯蓸颖臼歉餍☆?lèi)盲目地生成相同的數(shù)量,忽略了其臨近樣本的分布特點(diǎn)。而自適應(yīng)合成上采樣[9](Adaptive Synthetic Sampling Approach,ADASYN)生成樣本數(shù)量,是根據(jù)各小類(lèi)的密度分布來(lái)計(jì)算得到的,更能增強(qiáng)分類(lèi)模型的學(xué)習(xí)能力[10]。圖1為各采樣算法生成模擬樣本的對(duì)比,得出SMOTE采樣在樣本點(diǎn)之間線(xiàn)性插值生成新樣本;SVMSMOTE采樣[11]基于SVM的超平面生成新的樣本;BorderlineSMOTE采樣[12]在小類(lèi)靠邊界點(diǎn)附近生成樣本;ADASYN采樣在小類(lèi)的樣本聚集處生成較多樣本。極端隨機(jī)樹(shù)算法[13](Extremely Randomized Trees,ET)能有效地降低分類(lèi)的偏差和方差,并在小類(lèi)的應(yīng)用上有較好的效果[14-15],但本文數(shù)據(jù)小類(lèi)數(shù)量極少,并不適用。因此,本文結(jié)合ADASYN的自適應(yīng)合成和極端隨機(jī)樹(shù)的偏差和方差低優(yōu)點(diǎn),并在此基礎(chǔ)上進(jìn)行改進(jìn),提出了一種ADASYN-DHSD-ET算法,應(yīng)用于電網(wǎng)故障診斷中。

(a) 原本樣 (b) SMOTE (c) SVMSMOTE

(d) BorderlineSMOTE (e) ADASYN圖1 各采樣算法合成樣本對(duì)比圖
ADASYN-DHSD算法是基于A(yíng)DASYN在生成數(shù)據(jù)時(shí)根據(jù)離散高維空間距離改進(jìn)的算法。該方法考慮數(shù)據(jù)為多類(lèi)不平衡問(wèn)題,根據(jù)小類(lèi)樣本的分布自適應(yīng)地合成新樣本,在合成新樣本時(shí)用高維空間距離來(lái)計(jì)算樣本的離散型特征數(shù)據(jù),根據(jù)樣本點(diǎn)之間的距離確定合成的樣本點(diǎn)的數(shù)量大小。距離越近合成樣本點(diǎn)越多。創(chuàng)建一個(gè)定義所有特征向量的特征值之間高維空間距離的矩陣,兩個(gè)特征向量的距離δ的定義如下:
(1)
式中:V1和V2是兩個(gè)特征值;C1是特征值V1出現(xiàn)的總次數(shù);C1i是在i類(lèi)中特征值V1出現(xiàn)的次數(shù);C2和C2i與上面的定義相似;k是常數(shù)。式(1)用來(lái)計(jì)算特征向量的每個(gè)標(biāo)稱(chēng)特征值的差值矩陣,并給出一個(gè)確定的幾何距離。
根據(jù)ADASYN,設(shè)小類(lèi)的樣本點(diǎn)x,有x1,x2,…,xt(t (2) (3) x與xi的生成結(jié)點(diǎn)個(gè)數(shù)mi為: (4) x依次與各xi合成mi個(gè)新樣本。 ET算法是一種集成算法。其基分類(lèi)器使用全部樣本進(jìn)行訓(xùn)練,為增強(qiáng)隨機(jī)性,在節(jié)點(diǎn)分裂時(shí)隨機(jī)從M個(gè)特征中選擇m個(gè)特征,以基尼系數(shù)或信息增益熵選擇最優(yōu)屬性進(jìn)行分裂,分裂過(guò)程中不剪枝,直到生成一個(gè)決策樹(shù)(基分類(lèi)器)。利用投票決策對(duì)所有基分類(lèi)器統(tǒng)計(jì)產(chǎn)生最終分類(lèi)結(jié)果。 ET優(yōu)于貪婪的決策樹(shù),在小樣本上有更好的平滑性,能有效降低偏差和方差。為說(shuō)明這一點(diǎn),考慮大小為N的樣本: lsN={(xi,yi)}i=1,2,…,N 特征函數(shù)I(i1,i2,…,in)(x)的區(qū)間為: 基于此,參考文獻(xiàn)[13]可得一個(gè)無(wú)限的ET可以近似表示為: (5) 當(dāng)nmin=2完全樹(shù)的特殊情況下,有: (6) 如果輸入空間為一維(n=1 andx=(x1)),式(6)退化為線(xiàn)性分段模型: (7) 當(dāng)基分類(lèi)器的數(shù)量M→∞時(shí),對(duì)比其他基于樹(shù)的集成分類(lèi)方法,ET更連續(xù)光滑。從偏差和方差的角度看,模型的連續(xù)性使得目標(biāo)函數(shù)平滑區(qū)域的方差和偏倚較小,從而使得該區(qū)域的模型更加精確。ET雖然在小類(lèi)樣本的數(shù)據(jù)上有較好的表現(xiàn),但在數(shù)據(jù)分布極不平衡情況下,由于小類(lèi)的數(shù)目極少,樣本特征的表現(xiàn)力較低,導(dǎo)致小類(lèi)被誤分,降低模型對(duì)小類(lèi)的預(yù)測(cè)性能。為提高小類(lèi)的預(yù)測(cè)精度,提升樣本的平衡度,并保證模型的較小的偏差和方差,本文提出一種基于A(yíng)DASYN-DHSD-ET的分類(lèi)算法。 本文通過(guò)ADASYN-DHSD采樣,利用小類(lèi)中每個(gè)樣本的K最鄰近,計(jì)算樣本的分布,使用DHSD計(jì)算樣本之間的合成數(shù)、合成數(shù)據(jù),改進(jìn)樣本的平衡度,增強(qiáng)算法的訓(xùn)練效果。同時(shí)極端隨機(jī)樹(shù)算法中,每個(gè)基分類(lèi)器都使用新合成的全部樣本進(jìn)行訓(xùn)練,在基分類(lèi)器節(jié)點(diǎn)分裂時(shí)隨機(jī)選取分裂特征,計(jì)算其最優(yōu)的分裂屬性進(jìn)行分裂,直到生成一個(gè)基分類(lèi)器。最后對(duì)所有基分類(lèi)器進(jìn)行投票,形成ADASYN-DHSD-ET算法。 設(shè)訓(xùn)練樣本集為D={(x1,y1),(x2,y2),…,(xm,ym)},則ADASYN-DHSD-ET算法描述如下: 1) 構(gòu)造ADASYN_DHSD_ET(D)。 輸入訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)} 輸出極端隨機(jī)樹(shù)T={t1,t2,…,tM} 1. fori=1 toMdo 2. 生成決策樹(shù),ti=構(gòu)造子分類(lèi)器(D) 3. end for 4. 投票策略 5. 返回極端隨機(jī)樹(shù)T 2) 構(gòu)造子分類(lèi)器(D)。 輸入訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)} 輸出子分類(lèi)器t 1. 調(diào)用ADASYN_DHSD采樣(D),返回采樣后數(shù)據(jù)集Dnew 2. if 停止分裂(Dnew) then 3. 返回一個(gè)葉節(jié)點(diǎn) 4. else 5. 從所有候選屬性中隨機(jī)選擇K個(gè)屬性{a1,a2,…,aK} 6. 產(chǎn)生K個(gè)分裂閾值{s1,s2,…,sK},其中si=選取分裂點(diǎn)(Dnew,ai),i=1,2,…,K 7. 根據(jù)Score(s*,Dnew)=maxi=1,2,…,KScore(s*,Dnew),選擇最好的測(cè)試分裂閾值s* 8. 根據(jù)測(cè)試分裂閾值s*,將樣本集Dnew分為兩個(gè)子樣本集Dl和Dr 9. 分別用子集Dl和Dr構(gòu)造左子樹(shù)tl=構(gòu)造子分類(lèi)器(Dl)和右子樹(shù)tr=構(gòu)造子分類(lèi)器(Dr) 10. 根據(jù)s*建立樹(shù)節(jié)點(diǎn),tl和tr分別為其左子樹(shù)和右子樹(shù),并返回決策樹(shù)t 11. end if 3) ADASYN_DHSD采樣(D)。 輸入D為訓(xùn)練數(shù)據(jù)集,其中包含m個(gè)樣本{xi,yi},xi是n維特征集合,yi∈Y={1,2,…,C}是類(lèi)別集合,表示大類(lèi)數(shù)目用ml表示,各小類(lèi)的數(shù)目用ms1,ms2,…,msj表示。有msi≤ml,并且∑msi+ml=m 輸出采樣后樣本Dnew 1. 循環(huán)每個(gè)小類(lèi)fori=1 tojdo 2. 計(jì)算小類(lèi)的不平衡度di: di=msi/mldi∈(0,1] (8) 3. ifdi 4. 計(jì)算需要合成的小類(lèi)樣本的總數(shù)目Gi,參數(shù)β表示小類(lèi)樣本合成后的不平衡度,β=1表示大類(lèi)樣本數(shù)目和合成后的小類(lèi)樣本數(shù)目相同 Gi=(ml-msi)×ββ∈(0,1] (9) 5.xi表示小類(lèi)的每個(gè)樣本,并且計(jì)算其在n維空間的K近鄰比率ri,其中Δi是xi的K近鄰中樣本的數(shù)目,因此ri∈[0,1] ri=Δi/Ki=1,2,…,msi (10) (11) 7.gi表示每個(gè)小類(lèi)樣本xi期望的合成樣本數(shù)量,Gi是式(9)中合成樣本的總數(shù) (12) 8. 用DHSD為每個(gè)樣本xi生成gi個(gè)合成數(shù)據(jù) 4) 停止分裂(D)。 輸入訓(xùn)練集D 輸出布爾值 1. ifD 2. ifD中所有屬性確定不變,then return TRUE 3. ifD中輸出變量確定不變,then return TRUE 4. else return FALSE 5) 選取分裂點(diǎn)(D,a)。 輸入訓(xùn)練集D,屬性a 輸出分裂屬性 3. 返回分裂屬性[a 本文選取自江西省2016年9月至2018年4月之間的電網(wǎng)的日常監(jiān)控?cái)?shù)據(jù),經(jīng)過(guò)預(yù)處理后,保留全部屬性完整的記錄。樣本如表1所示,共有記錄30 039條,每條記錄特征屬性11個(gè),包括電壓、電流、是否修復(fù)過(guò)、日期等信息;故障類(lèi)別分為5大類(lèi),類(lèi)別1表示正常類(lèi),類(lèi)別2-類(lèi)別5分別表示信號(hào)丟失故障類(lèi)、MIB備份未對(duì)齊故障類(lèi)、R丟失故障類(lèi)、信號(hào)降級(jí)故障類(lèi),其中正常類(lèi)的數(shù)據(jù)極多,為大類(lèi),4個(gè)故障類(lèi)別數(shù)據(jù)極少,為小類(lèi),類(lèi)別比例為0.989 1∶0.003 6∶0.003 0∶0.002 5∶0.001 8。可以看出,該樣本的特征為一個(gè)極大類(lèi),多個(gè)極小類(lèi),具有明顯的數(shù)據(jù)不平衡特征。 表1 數(shù)據(jù)集的特征 基于電氣量信息(電壓、電流、電功耗、電能、相位、頻率等)的電網(wǎng)故障診斷[16],可提供較準(zhǔn)確的故障診斷,并具有較強(qiáng)的解釋性。但實(shí)際情況中電氣測(cè)量較難,本文中只有電流和電壓的電氣量,難以用根據(jù)大量電氣量信息的模型計(jì)算。并且電網(wǎng)故障產(chǎn)生的原因較多,比如設(shè)備老化、用電負(fù)荷、惡劣天氣、無(wú)線(xiàn)通信等,都會(huì)對(duì)精密電網(wǎng)設(shè)備造成一定的影響,其中部分原因是無(wú)規(guī)律的,并可能包括很多考慮不到的情況。本文特征屬性包含一些看似沒(méi)有直接關(guān)聯(lián)的屬性(是否修復(fù)過(guò)、工作日、時(shí)間等),基于大數(shù)據(jù)采用人工智能中分類(lèi)的方法進(jìn)行對(duì)比分析,發(fā)現(xiàn)其中隱藏的有價(jià)值信息。 本文實(shí)驗(yàn)的流程圖如圖2所示。首先基于多源數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理(數(shù)據(jù)清理、數(shù)據(jù)集成),得到以上數(shù)據(jù)集。數(shù)據(jù)集按照6∶4對(duì)每個(gè)類(lèi)進(jìn)行隨機(jī)采樣,得到訓(xùn)練集Dtrain和測(cè)試集Dtest。 圖2 實(shí)驗(yàn)的流程圖 然后使用ADASYN-DHSD-ET算法對(duì)Dtrain訓(xùn)練故障診斷模型,算法對(duì)4個(gè)故障類(lèi)進(jìn)行過(guò)采樣,根據(jù)故障類(lèi)的密度分布自動(dòng)生成新樣本,改變數(shù)據(jù)集的平衡度,并使采樣后的數(shù)據(jù)保持原樣本的特征。對(duì)生成新樣本數(shù)量進(jìn)行調(diào)參,依次設(shè)置采樣數(shù)量為原樣本的10、20、50、100、200倍直到與正常類(lèi)樣本數(shù)量相同。每個(gè)基分類(lèi)器對(duì)全部的新數(shù)據(jù)集進(jìn)行分類(lèi),在節(jié)點(diǎn)分裂時(shí)在11個(gè)特征中隨機(jī)選取分裂特征,不減枝,充分考慮數(shù)據(jù)集特征。對(duì)基分類(lèi)器的數(shù)量進(jìn)行調(diào)參,依次設(shè)置生成基分類(lèi)器數(shù)量100、200、500、1 000。集成分類(lèi)器進(jìn)行投票得到訓(xùn)練模型。使用Dtest驗(yàn)證訓(xùn)練模型,根據(jù)每個(gè)參數(shù)設(shè)置進(jìn)行實(shí)驗(yàn),得到最優(yōu)模型。 傳統(tǒng)的分類(lèi)器評(píng)價(jià)指標(biāo)以整體的正確率評(píng)價(jià)算法性能,但在非均衡的故障數(shù)據(jù)中,正常運(yùn)行的大類(lèi)準(zhǔn)確率高,故障數(shù)據(jù)的小類(lèi)準(zhǔn)確率低,依然得到較高總體準(zhǔn)確率,但模型已失去意義。本文選擇平均精度(Average Accuracy,Avg_Acc)、小類(lèi)的平均精度(Avg_Accm)、F_score、G_mean和時(shí)間復(fù)雜度(Time)作為不平衡數(shù)據(jù)集的性能評(píng)價(jià)指標(biāo)。 把混合矩陣擴(kuò)展到k(k≥2)類(lèi)分類(lèi)問(wèn)題上,用C1,C2,…,Ck表示k個(gè)分類(lèi),設(shè)實(shí)際第k類(lèi)正確被預(yù)測(cè)為k類(lèi)的樣本個(gè)數(shù)nkk,預(yù)測(cè)第i類(lèi)的樣本個(gè)數(shù)為nki,混合矩陣如表2所示。 表2 擴(kuò)展的混淆矩陣 (13) (14) (15) (4) 平均精度表示各類(lèi)正確率的算術(shù)平均值: (16) OA在大類(lèi)數(shù)量較多正確率高的情況下,不能體現(xiàn)小類(lèi)的準(zhǔn)確率,而Avg_Acc更能反映小類(lèi)的準(zhǔn)確率。C1為大類(lèi),C2,C3,…,Ck則為各小類(lèi),小類(lèi)的平均精度表示各小類(lèi)正確率的算術(shù)平均值: (17) (5) 設(shè)Fi為第i類(lèi)的查全率和查準(zhǔn)率的調(diào)和均值,F(xiàn)_score表示所有類(lèi)別Fi的平均值: (18) (19) (6)G_mean表示為各類(lèi)正確率的幾何平均值: (20) 使用各種傳統(tǒng)的分類(lèi)器和不平衡的分類(lèi)方法訓(xùn)練、測(cè)試模型并與本文提出的ADASYN-DHSD-ET模型進(jìn)行對(duì)比實(shí)驗(yàn)。評(píng)價(jià)指標(biāo)為OA、Avg_Acc、Rlarge(大類(lèi)的正確率)、Avg_Accm、F_score、G_mean和Time。為保證可重復(fù)性和一般性,取50次實(shí)驗(yàn)結(jié)果的平均值。 表3為傳統(tǒng)分類(lèi)模型、集成分類(lèi)模型與本文算法的性能比較結(jié)果,傳統(tǒng)分類(lèi)模型包括多項(xiàng)樸素貝葉斯分類(lèi)(Bayes)、最鄰近分類(lèi)(KNN)、決策樹(shù)分類(lèi)(Decision Tree)、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)多層感知器(MLP);集成方法包括Bagging、AdaBoost、梯度提升(Gradient Boosting)、隨機(jī)森林(Random Forest)、極端隨機(jī)樹(shù)(ET)。由表3的比較可知,ADASYN-DHSD-ET模型在性能指標(biāo)Avg_Acc和G_mean上有明顯的提升。大部分算法在指標(biāo)Rlarge上表現(xiàn)較好,而在指標(biāo)Avg_Accm上本文模型比其他模型均高30%以上,說(shuō)明在數(shù)量較大的類(lèi)別進(jìn)行訓(xùn)練,可以得到較好的模型,但在極小類(lèi)上由于樣本數(shù)量過(guò)少很難訓(xùn)練出有效的模型。因此傳統(tǒng)的分類(lèi)算法在不平衡問(wèn)題上的表現(xiàn)較差,特別是樣本數(shù)量過(guò)少的情況下,小樣本類(lèi)別識(shí)別率極低,應(yīng)研究適合不平衡分類(lèi)的新算法。在傳統(tǒng)的分類(lèi)算法中Bayes和ET在指標(biāo)Avg_Accm上表現(xiàn)較好,但在指標(biāo)Rlarge上ET表現(xiàn)得更好,即在大類(lèi)樣本中ET保持較高的正確率,選擇ET模型做進(jìn)一步的改進(jìn)。 表3 傳統(tǒng)分類(lèi)模型與本文算法的性能比較 表4是本文算法與當(dāng)前流行的不平衡分類(lèi)方法進(jìn)行比較,不平衡分類(lèi)方法包括不平衡中常用的上采樣與ET模型結(jié)合:SMOTE-ET、SMOTENC-ET、SVMSMOTE-ET、BorderlineSMOTE-ET、ADASYN-ET;內(nèi)部子集采取采樣的不平衡集成分類(lèi)模型:BalancedRandomForest、RUSBoost、EasyEnsemble、BalancedBagging。由表4可知,本文算法與結(jié)合上采樣的ET模型相比在指標(biāo)Avg_Acc、F_score和Avg_Accm上表現(xiàn)較好,說(shuō)明本文算法在小類(lèi)的識(shí)別上有較好的表現(xiàn)。SMOTENC-ET與本文指標(biāo)相差較少,但耗時(shí)過(guò)高,本文算法和不平衡集成分類(lèi)相比在指標(biāo)Avg_Acc、Rlarge和G_mean上表現(xiàn)較好,說(shuō)明本文算法在大類(lèi)的識(shí)別上不會(huì)因?yàn)樯喜蓸佣苡绊憽km然BalancedRandomForest在指標(biāo)Avg_Accm上優(yōu)于本文模型,但在其他三個(gè)指標(biāo)上明顯低于本文模型,這是由于BalancedRandomForest在上采樣后生成的數(shù)據(jù)影響大類(lèi)的識(shí)別率,在指標(biāo)Rlarge中表現(xiàn)較差,而本文算法對(duì)大類(lèi)的識(shí)別率依然保持較好。針對(duì)電網(wǎng)故障診斷,ADASYN-DHSD-ET模型的性能更好,對(duì)大類(lèi)即正常運(yùn)行的類(lèi)別的識(shí)別正確率達(dá)到99%,同時(shí)對(duì)小類(lèi)即故障類(lèi)別的識(shí)別平均正確率達(dá)到70%,總體的平均正確率達(dá)到84.39%,F(xiàn)_score達(dá)到84.67%,G_mean達(dá)到82.6%。因此采用基于A(yíng)DASYN-DHSD-ET的電網(wǎng)故障診斷方法,可以較準(zhǔn)確地識(shí)別電網(wǎng)中的故障類(lèi)型,增強(qiáng)了電力系統(tǒng)安全運(yùn)行的穩(wěn)定性和可靠性。 表4 常用不平衡分類(lèi)模型與本文算法的性能比較 針對(duì)電網(wǎng)故障診斷樣本數(shù)據(jù)不平衡現(xiàn)象,本文提出一種基于A(yíng)DASYN-DHSD-ET的分類(lèi)方法。本文的主要貢獻(xiàn)包括:(1) 基于A(yíng)DASYN-DHSD-ET,改進(jìn)樣本平衡度和模型的訓(xùn)練方法;(2) 提高隨機(jī)性,降低分類(lèi)的偏差和方差,來(lái)克服模型的過(guò)擬合,提高模型的泛化能力;(3) 提高小類(lèi)的正確率,并保證大類(lèi)較高的正確率;(4) 對(duì)電網(wǎng)故障診斷,之前大部分研究只抽取部分故障數(shù)據(jù)進(jìn)行研究,從真實(shí)多源數(shù)據(jù)庫(kù)出發(fā),預(yù)處理得到的數(shù)據(jù)包含正常和故障樣本,并用不平衡分類(lèi)方法進(jìn)行研究,從實(shí)際數(shù)據(jù)源出發(fā),具有完整的研究路線(xiàn),并更全面地考慮到正常和故障數(shù)據(jù)的所有特性。 本文算法輸出故障診斷模型的解釋性仍需提高,在小類(lèi)的精度不夠好,原因在于小類(lèi)樣本數(shù)量過(guò)少。未來(lái)將在其他故障診斷上驗(yàn)證本算法,進(jìn)一步提高故障類(lèi)別的分類(lèi)精度。
1.2 ET算法




2 ADASYN-DHSD-ET算法



3 基于A(yíng)DASYN-DHSD-ET的電網(wǎng)故障診斷實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集描述

3.2 電網(wǎng)故障診斷實(shí)驗(yàn)

3.3 模型性能評(píng)價(jià)指標(biāo)




3.4 實(shí)驗(yàn)結(jié)果分析


4 結(jié) 語(yǔ)