999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

類間數據不均衡條件下基于平衡隨機森林的軸向柱塞泵故障診斷方法

2022-06-09 06:29:12馬歆宇岳毅趙亞鵬
液壓與氣動 2022年3期
關鍵詞:分類

馬歆宇岳 毅趙亞鵬

(1.燕山大學 河北省重型機械流體動力傳輸與控制重點實驗室,河北 秦皇島 066004;2.燕山大學 先進鍛壓成形技術與科學教育部重點實驗室,河北 秦皇島 066004)

引言

作為液壓系統的主要動力元件,液壓泵的性能直接影響液壓系統的正常工作[1-4],其狀態監測與故障診斷是液壓系統運維的重要環節。軸向柱塞泵常見故障有泵發熱、配流盤磨損、滑靴與斜盤磨損、松靴以及輸出流量不足等[5-7]。

在實際的液壓泵故障診斷過程中,正常樣本的數量遠大于故障樣本的數量,即不同類別的樣本數量極度不均衡。這時,傳統的分類方法就難以取得好的分類效果。因為不同類別樣本數量差距很大,在分類時分類器會將少數類樣本誤判為多數類樣本從而無法達到較高的分類準確率。目前非均衡數據處理方法一般分為兩類:一是數據層面,通過欠采樣或過采樣方法改變數據的原始分布,將非均衡數據轉變為均衡數據;二是算法層面,通過改進分類器提高少數類樣本的識別準確率。

從數據層面處理非均衡數據的方法是重構數據集,使非均衡數據趨向均衡,然后進行處理[8]。重構數據集的方法是重采樣,有欠采樣與過采樣兩種。

欠采樣算法通過除去一部分多數類樣本使其與少數類樣本數量一致或相近來實現數據均衡。常見的欠采樣算法有隨機欠采樣算法、Tomek links方法[9]、壓縮最近鄰規則、單邊選擇方法[10]、近鄰清理方法[10-11]等。因為欠采樣算法會除去部分樣本,所以被除去樣本的屬性也會一并除去,因此會影響原始數據的分布進而影響分類器的性能。

過采樣通過人為增加少數類樣本使少數類樣本數目與多數類樣本數目一致或相近,從而達到數據均衡。常見的過采樣方法有隨機過采樣、合成少數類過采樣(Synthetic Minority Over-sampling Technique,SMOTE)[12]。ESTABROOKS A等[13]提出根據數據集情況自適應地選擇重采樣率的多重采樣方法;TAEHO J等[14]提出根據聚類改進的同時能夠處理非均衡數據類間問題和類內問題的采樣方法;HAN Hui等[15]對SMOTE方法進行了改進,提出了僅對邊界附近少數類樣本進行過采樣的Borderline-SMOTE過采樣方法;HE Haibo等[16]提出性能優于SMOTE和隨機過采樣的自適應合成采樣算法。由于過采樣方法是增加樣本數量,這有可能會造成樣本重復,若樣本特征較少則會導致過擬合。

從算法層面處理非均衡數據的方法是對數據集內不同類別的樣本設置不同的特征權重,或改變算法的結構。目前使用較多的方法有集成學習算法、代價敏感算法等。

將多個弱分類器組合成1個強分類器,是集成方法中被廣泛使用的技術。常見的集成學習方法有Bagging算法、Boosting算法以及隨機森林(Random Forest,RF)算法等。AdaBoost算法是一種提高集成方法性能的算法,通過多次迭代,在每次迭代中修改正確分類樣本與錯誤分類樣本的權重來提高分類效果。SUN Yanmin等[17]改進了AdaBoost算法,提出了AdaC1算法、AdaC2算法以及AdaC3算法;CHAWLA N V等[18]結合AdaBoost與SMOTE兩種算法,提出了提升泛化能力的SMOTEBoost算法; CHEN Chao等[19]改進了隨機森林算法,提出了集數據均衡與分類為一體的平衡隨機森林(Balanced Random Forest,BRF)算法。

此外,深度學習作為一種端到端的數據驅動方法,在處理數據非均衡問題方面也有著廣泛的應用。SOHONY I等[20]采用神經網絡集成算法處理類不均衡問題;KAZEMI Z等[21]提出使用深度自編碼器從樣本中提取特征,并使用Softmax網絡進行樣本分類以解決非均衡問題。上述方法雖能在一定程度上解決數據非均衡問題,但仍存在評價指標不完善、在極度不均衡數據集上表現較差的缺點。

綜上所述,為解決軸向柱塞泵故障診斷中出現的正常數據與各類故障數據不均衡的問題,本研究將BRF算法應用于軸向柱塞泵故障診斷領域;通過與傳統的SMOTE-RF算法、RF算法進行比較,驗證了BRF算法處理類間數據不均衡條件下軸向柱塞泵故障診斷問題的優越性。

1 相關算法原理

1.1 SMOTE算法

SMOTE算法避免了隨機過采樣帶來的過擬合風險,其并非復制現有的樣本,而是生成人造樣本,原理如圖1所示,X為樣本點,通過對隨機選擇的少數類樣本及其相鄰的少數類樣本之間進行線性插值來實現樣本生成。SMOTE執行3個步驟來生成合成樣本:首先,選擇1個隨機的少數類樣本a;在k個最近的少數類鄰域中選擇樣本b;最后,在2個樣本之間隨機插值,得到新的樣本,插值公式如下:

x=a+w(b-a)

(1)

式中,x—— 新生成的樣本

w—— [0,1]之間的隨機權重

圖1 SMOTE算法樣本合成原理Fig.1 Sample synthesis principle of SMOTE algorithm

1.2 RF算法

RF算法是一種以決策樹為基本分類器的集成算法。RF算法使用自助抽樣,從原始樣本中選取若干樣本組成樣本集,決策樹對每個樣本集進行建模,組合多個決策樹的預測,并通過投票獲得最終的預測結果[22],該算法的理論方法描述如下:

(1) 假設原始訓練集中有N個樣本,采用隨機且有放回的自助抽樣選取自助樣本集,建立決策樹,每次未選取的樣本構成袋外(Out of Bag,OOB)數據;

(2) 假設屬性總數為M,在每個決策樹的每個節點上隨機抽樣提取m(遠小于M)個屬性,之后再采用某種策略(如信息增益等),從m個屬性中選擇一個最優屬性作為分支和生長的分裂變量;

(3) 分割節點按照步驟(2)處理,每棵決策樹都將生長置于修剪之上(即生長優先于修剪);

(4) 生成的多個決策樹形成隨機森林,新的數據通過隨機森林分類器進行鑒別和分類,最終的分類結果通過簡單的投票獲得。

一般情況下,隨機森林是由大量分類回歸樹(Classification and Regression Tree,CART)構建而成的,CART決策樹以基尼系數為屬性選擇的標準。在理想狀態下,隨著節點不斷分裂,決策樹分支節點中的樣本也應盡可能屬于同一類[22],即保持節點的高“純度”。假設當前數據集D中第k類樣本所占的比例為pk(k=1,2,……,K),數據集D的純度可以用式(2)來體現:

(2)

Gini(D)代表從數據集D中隨機選取2個樣本,其類別不相同的概率。Gini(D)越小,數據集的純度越高。

設離散屬性a有Y個可能的取值,A={a1,a2,a3,…,aY},使用A對數據集D進行劃分,就會生成Y個分支節點,其中第i個分支節點囊括了D中所有在A上取值為ai的樣本,記為Di。

屬性a的基尼系數為:

(3)

式中,|D| —— 數據集D中樣本的數量

|Di| —— 數據集D在第i個分支節點中的樣本數量

在屬性選擇時,選擇屬性集合A中基尼系數最小的屬性即可:

a*=arg min (Gini(D,A)),a*∈A

(4)

式中,a*—— 屬性集合中基尼系數最小的屬性。

在構建決策樹時,對于每棵樹(以第k棵樹為例),大約1/3的樣本不參與第k棵樹的生成。這些樣本是第k棵樹的OOB樣本。OOB樣本可以估計訓練集之外的樣本的誤差率,該誤差被稱為模型的推廣誤差。OOB誤差是隨機森林泛化誤差的無偏估計,其結果類似于k折交叉驗證。

RF算法可以根據OOB樣本評估特征的重要性。對于隨機森林模型,假設其1個屬性變成1個隨機數;這個屬性在模型中的重要性是通過比較變化前后的OOB誤差來評估的。屬性重要性的度量被定義為平均遞減精度(Mean Decreasing Accuracy,MDA)其表達式如下:

(5)

式中,Hn—— 改變特征后的OOB誤差

Qo—— 改變特征前的OOB誤差

Nt—— 決策樹的數量

OOB誤差下降程度越大,對應屬性的重要性也越高。

將屬性按重要性高低降序排列,再根據重要性剔除1個或多個屬性,從而得到1個新的屬性集。使用新的屬性集重復上述步驟,直到剩余屬性個數達到設定值。最后比較步驟中所得到的各個屬性集對應的OOB誤差率,選出OOB誤差率最小的屬性集,該屬性集中屬性的數量即為最佳決策樹節點屬性數量。

該算法在保持單棵樹精度不變的前提下,通過引入隨機性來降低決策樹之間的相關性。因此,RF算法可以提高預測的準確性,而不會顯著增加計算量。鑒于這種優異的性能,RF算法得到了廣泛的應用。

1.3 BRF算法

在學習極不平衡的數據時,自助抽樣很少甚至不會對少數類樣本進行抽取,這就導致決策樹在少數類的預測方面表現很差。改善這一問題的一個簡單方法是使用分層自助抽樣,即在每個類別中都進行抽樣,但這種方法效果不佳。以往的研究表明,通過對多數類進行欠采樣或對非多數類進行過采樣來人為地使樣本均衡,對于給定的性能度量來說,這種方法更有效,并且欠采樣比過采樣具有優勢。BRF算法從平衡的欠采樣數據中歸納出系統樹, BRF算法的理論方法如下:

(1) 在每輪自助抽樣中加入隨機欠采樣方法,從少數類中隨機抽取若干樣本,隨后從多數類中隨機抽取相同數量的樣本組成均衡數據集,使用均衡數據集作為每次迭代的數據集;

(2) 在不修剪的情況下,從數據中歸納出最大規模的決策樹,該樹由CART算法歸納而成,并做出以下修改: 在每個節點上,不是搜索所有屬性以獲得最佳分裂變量,而是僅隨機選取一個屬性作為分裂變量;

(3) 重復上述步驟,生成的多棵決策樹形成平衡隨機森林,新的數據通過平衡隨機森林分類器進行鑒別和分類,最終的分類結果通過簡單的投票獲得。

設非均衡數據集中各類別樣本數量的比例為n1∶n2∶n3∶…∶nk。在RF算法的自助抽樣中,少數類樣本很少被納入抽取范圍,此時決策樹中可能存在樣本類別不全的現象;若使用分層自助抽樣,則各類別樣本的權重是默認相等的,即每輪自助抽樣中從訓練集抽取的各類別樣本數量的比例趨近于n1∶n2∶n3∶…∶nk,此時每棵決策樹中的重組數據集依舊是不均衡的。

BRF算法對此進行了優化,在自助抽樣過程中添加了隨機欠采樣環節。隨機欠采樣可以在隨機的條件下設定各類別樣本的抽取數量,在自助抽樣時既可以做到充分利用少數類樣本,又能對樣本數量較多的類別進行欠采樣處理,使每棵決策樹中不同類別樣本的數量趨向均衡。

BRF算法的流程如下:首先,將原始數據集按照比例劃分為訓練集與測試集,測試集不做任何處理,對任意一決策樹ti,都會使用隨機欠采樣方法從訓練集中隨機抽取(有放回抽取)與各少數類樣本數量相近或相等的多數類樣本,隨后將抽取出的各多數類樣本與少數類樣本混合組成均衡數據集;在節點分裂時隨機選取一個屬性作為分裂變量,之后流程與RF算法相同,每棵決策樹會對各自的均衡數據集進行分類并得出一個結果;當算法中的每棵樹都產生結果之后,再根據bagging原則投票選出最理想的一個作為最終結果并生成模型,最后將測試集數據導入生成的模型中即可得出結果,BRF算法的流程圖如圖2所示。

圖2 BRF算法流程圖Fig.2 Flow chart of BRF algorithm

2 BRF算法的性能研究

2.1 BRF算法參數選擇

2.2 BRF算法性能評價指標

一般情況下,在分類結束后會出現如表1所示4種情況。通過混淆矩陣可以計算出一些評價指標,例如精確率、召回率、準確率等。對于非均衡數據,分類器在分類時大概率會將少數類劃分為多數類,使用準確率作為評價標準不適用于非均衡數據分類。因此,引入G-mean,F-measure與精確率P共同作為評判指標。

表1 混淆矩陣Tab.1 Confusion matrix

G-mean結合了特異度和召回率,表示只有當分類器對樣本中少數類和多數類的分類效果都很好的情況下,G-mean的值最大;F-measure 同時結合了精確率和召回率,是兩者的加權調和平均,用于評價分類器對某一類樣本分類性能的優劣,因此可用于測量分類器在少數類樣本上的分類性能[24]。

G-mean與F-measure的計算公式如下:

(6)

(7)

若是多分類問題,在計算時將所要計算的類別視為正類,其余類別視為負類,計算每個少數類的G-mean,F-measure與精確率,然后分別取平均值作為整個少數類的結果。

設非均衡數據集中有n類樣本,其中類別1為多數類,其余類別為少數類。則少數類整體的G-mean,F-measure與少數類平均精確率計算方式如下:

(8)

(9)

(10)

式中,G2到Gn分別為類別2到類別n的G-mean值,Ga為少數類整體的G-mean值;F2到Fn分別為類別2到類別n的F-measure值,Fa為少數類整體的F-measure值;P2到Pn分別為類別2到類別n的精確率,Pa為少數類平均精確率。

2.3 BRF算法性能分析

為證明BRF算法的優勢與泛化能力,先使用公開數據集對其進行驗證。驗證所選數據集為UCI開源數據集,4組數據集均為多分類非均衡數據,具體信息如表2所示。

表2 所用數據集信息Tab.2 Datasets information used

數據集中樣本數量最多的類別為多數類,其余類別為少數類。為保證結果準確,每個數據集都進行了10次計算,每次計算都會改變隨機數種子以保證每次訓練集與測試集都不相同,取10次結果的均值作為最終結果,分類結果如表3所示。

表3 各數據集分類結果Tab.3 Classification results of each dataset

由表3可知,在4種數據集中,BRF算法的Ga,Fa,Pa均高于RF算法和SMOTE-RF算法。

其中,Thyroid數據集不均衡程度最高,BRF算法的Pa,Ga,Fa相較于RF算法分別提升了20%,0.122,0.133;相較于SMOTE-RF算法分別提升了15%,0.108,0.098。

其次為Vowel數據集,BRF算法的Pa,Ga,Fa相較于RF算法分別提升了10.4%,0.067,0.121;相較于SMOTE-RF算法分別提升了4.2%,0.023,0.049。

在CMC數據集上,BRF算法的Pa,Ga,Fa,相較于RF算法分別提升了7.1%,0.075,0.069;相較于SMOTE-RF算法分別提升了2.6%,0.024,0.020。

Wine數據集不均衡程度最低,BRF算法的Pa,Ga,Fa相較于RF算法提升了5.9%,0.073,0.064;相較于SMOTE-RF算法分別提升了2.3%,0.028,0.029。

通過上述分析可得,數據集的不均衡程度越高,BRF算法對少數類的分類精確率提升越大。

3 基于BRF算法的軸向柱塞泵故障診斷

3.1 故障注入及故障數據采集

本研究采用硬件設備與軟件程序相結合的方法采集實驗數據。軟件采用LabVIEW2018,以此來監控柱塞泵的工作狀態,同時進行數據采集。實驗系統原理如圖3所示,柱塞泵振動信號采自液壓泵故障模擬實驗臺,實驗臺照片如圖4所示。

圖3 實驗系統原理圖Fig.3 Schematic diagram of experimental system

圖4 實驗臺照片Fig.4 Experimental bench photo

液壓泵為MCY14-1B型斜盤式軸向柱塞泵,柱塞數目為7,理論排量10 mL/r,額定工作壓力31.5 MPa;電機型號為Y132M-4,額定轉速為1480 r/min;加速度傳感型號為YD72D,頻率范圍1~18 kHz。對液壓泵端蓋的振動信號進行采集,試驗時調定主溢流閥將系統壓力設置為5 MPa,采樣頻率設為10 kHz,每次采樣時長為10 s。

試驗共模擬4類故障,分別為滑靴磨損、松靴、斜盤磨損、中心彈簧磨損。故障是使用故障元件代替正常元件注入的,故障元件是從液壓泵維修單位收集的磨損廢棄元件。數據采集結束后對原始振動信號進行小波包能量特征提取,小波包函數選用db5小波,分解層數為4,由16個子頻帶能量占比作為特征組成特征向量。各子頻帶B的頻率范圍如表4所示,故障元件照片與各類別子帶能量譜分別如圖5、圖6所示。

表4 子頻帶及頻率范圍Tab.4 Sub-band and frequency range Hz

圖5 故障元件照片Fig.5 Faulty component photos

圖6中能量占比與子頻帶分別用PE與B表示,且二者均無量綱。由圖6可知,5種狀態下各子頻帶的能量占比區分度大,差異明顯,使用小波包能量特征提取方法能夠清晰有效地將5種狀態進行區分。

選取不同狀態的柱塞泵端蓋的振動信號,經小波包能量特征提取后制作成數據集。數據類別包括正常、滑靴磨損、松靴、斜盤磨損、中心彈簧磨損。所得到的軸向柱塞泵故障數據集如表5所示,正常類/單個故障類比例為20∶1。

表5 軸向柱塞泵故障數據集Tab.5 Axial piston pump failure dataset

圖6 各狀態類別下的子帶能量譜Fig.6 Sub-band energy spectrum of each state category

圖7 基于BRF的軸向柱塞泵故障診斷流程圖Fig.7 Fault diagnosis flowchart of axial piston pump based on BRF

完整的基于BRF的軸向柱塞泵故障診斷流程圖如圖7所示。

3.2 基于BRF的軸向柱塞泵故障診斷及結果分析

劃分軸向柱塞泵數據集時,設置訓練集與測試集比例為7∶3,設置軸向柱塞泵數據集中屬性總數M為16,RF算法與SMOTE-RF算法中的參數m為4,Nt為1000;BRF算法中Nt為1000。

數據集中正常樣本為多數類樣本,滑靴磨損、松靴、斜盤磨損、中心彈簧磨損的樣本為少數類樣本。為使結果準確,進行10次計算并對結果進行平均。每次計算時都設置不同的隨機數種子,以確保每次的訓練集與測試集都不相同,取均值作為最終結果,診斷結果如表6所示,表中7項評價指標均無量綱。

表6 軸向柱塞泵故障數據集的診斷結果Tab.6 Diagnosis results of axial piston pump fault dataset

由表6可知,BRF算法的滑靴磨損、松靴、中心彈簧磨損的分類精確率相較于RF算法、SOMTE-RF算法有著較大的提升,BRF算法對斜盤磨損的分類精確率雖不是最高,但也達到了0.94,僅比SMOTE-RF算法低0.7%,說明BRF算法的整體性能優于RF和SMOTE-RF算法。

在非均衡問題中,不均衡程度沒有明確的度量標準。通常當數據集中不同類別樣本的比例超過5∶1時[8],數據不均衡所帶來的問題就會凸顯出來。

為進一步分析BRF的性能,將正常類/單個故障類比例分別調整至15∶1,10∶1,5∶1,隨后再次使用3種算法進行計算。3種算法在不同不均衡比例下的Ga,Fa,Pa如圖8所示,圖中結果皆為10次計算結果的均值。

圖8為3種算法在不同不均衡比例下的性能,其中橫坐標pns為正常類/單個故障類的比例。

由圖8可得,在4種不均衡比例下BRF算法的性能均優于RF算法和SMOTE-RF算法。BRF的Ga,Fa,Pa始終高于其他2種算法,在比例為20∶1時提升最大,相比于RF算法分別提升了0.10,0.07,18.5%,相比于SMOTE-RF算法分別提升了0.053,0.019,9.7%。

4 結論

將BRF算法引入軸向柱塞泵故障診斷領域,提出了在類間數據不均衡條件下基于BRF的軸向柱塞泵故障診斷方法:

(1) 利用開源UCI數據對BRF,RF,SMOTE-RF 3種算法的性能進行了比較,結果表明BRF算法的Ga,Fa,Pa均高于其他2種算法,且在非均衡程度最高的數據集上性能提升最大;

(2) 對軸向柱塞泵不同類型故障進行模擬,采集了正常、滑靴磨損、松靴、斜盤磨損、中心彈簧磨損5種狀態的數據,使用上述3種算法在不同的不均衡比例下進行對比分析,結果表明,BRF算法性能始終優于RF算法與SMOTE-RF算法,并且在數據不均衡比例最高時BRF的性能提升最大,滿足實際需要;

(3) 對于類間數據不均衡的軸向柱塞泵故障診斷問題,BRF能夠在符合實際(即數據處于高度不均衡狀態)的前提下有效提升故障類的分類性能,該方法在處理類間數據不均衡的軸向柱塞泵故障分類問題方面相較于傳統分類算法具有明顯優勢。

圖8 3種算法在不同不均衡比例下的Ga,Fa,PaFig.8 Ga, Fa, Pa for three algorithms under different imbalance ratios

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 色欲综合久久中文字幕网| 亚洲精品视频网| 国产成人综合在线观看| 国内黄色精品| 91精品网站| 国产精品网址你懂的| 亚洲精品无码AⅤ片青青在线观看| 亚洲欧美不卡视频| 美女免费精品高清毛片在线视| 99尹人香蕉国产免费天天拍| 国产精品一区二区不卡的视频| 在线精品亚洲国产| 久久99蜜桃精品久久久久小说| h视频在线观看网站| 日韩欧美高清视频| 中文字幕久久波多野结衣| 91成人在线观看| 69视频国产| 亚洲视频色图| 强乱中文字幕在线播放不卡| 久久精品国产91久久综合麻豆自制| 99久久国产精品无码| 午夜人性色福利无码视频在线观看| 91精品在线视频观看| 亚洲香蕉久久| 日本精品视频一区二区 | 国产人前露出系列视频| 粉嫩国产白浆在线观看| 91久久精品国产| 国产成在线观看免费视频 | 99re精彩视频| 欧美亚洲日韩中文| 亚洲精品视频免费看| 国产成人一区在线播放| 免费国产不卡午夜福在线观看| 亚洲国产AV无码综合原创| 国产精品爽爽va在线无码观看| 欧美不卡视频在线观看| 国产小视频免费| 乱人伦视频中文字幕在线| 欧美日韩免费观看| 午夜免费小视频| 国产凹凸视频在线观看| 在线观看精品国产入口| 97久久免费视频| 婷婷六月在线| 国产午夜精品一区二区三| 久久久国产精品免费视频| 欧洲av毛片| 国产精欧美一区二区三区| 国产色爱av资源综合区| 午夜丁香婷婷| 99精品免费欧美成人小视频| 成人蜜桃网| 国产成人91精品免费网址在线 | 亚洲高清无码久久久| 天天做天天爱夜夜爽毛片毛片| 久久综合婷婷| 国产sm重味一区二区三区| 天天操天天噜| 亚洲久悠悠色悠在线播放| 久久美女精品| av手机版在线播放| 毛片免费高清免费| 亚洲高清无在码在线无弹窗| 首页亚洲国产丝袜长腿综合| 亚洲欧洲自拍拍偷午夜色无码| 2021国产乱人伦在线播放| 久久久精品无码一二三区| 久久鸭综合久久国产| 秋霞午夜国产精品成人片| 成人自拍视频在线观看| 国产精品专区第一页在线观看| 性喷潮久久久久久久久| 亚洲无码37.| 国产精品女在线观看| 91精品免费久久久| 欧美日韩中文国产va另类| 亚洲av成人无码网站在线观看| 久久黄色小视频| 中文字幕乱码二三区免费| 香蕉综合在线视频91|