莊 燕
(九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116)
滾動軸承是旋轉(zhuǎn)設(shè)備中極其重要的零部件,常被稱為“工業(yè)的關(guān)節(jié)”。軸承一般在高溫、重載、變載荷等極端環(huán)境中長時間工作,因此容易發(fā)生裂紋、腐蝕失效、塑性變形等多種形式的故障。軸承故障會使機械設(shè)備或生產(chǎn)線停產(chǎn),嚴重時造成設(shè)備損毀或威脅人身安全[1]。因此,研究滾動軸承的故障診斷技術(shù)具有重要的經(jīng)濟意義和安全意義。
對滾動軸承故障進行診斷主要流程包括3個重要方面,即信號采集、特征提取和模式診斷。3個流程具體為:(1)信號采集是依據(jù)診斷對象結(jié)構(gòu)特征,選擇傳感器和信號類型,包括聲信號、溫度信號、振動信號等。(2)特征提取是對采樣信號進行處理和變換,得到能夠表征故障模式的特征參數(shù),包括時域參數(shù)、頻域參數(shù)、時頻域參數(shù)[2,3]、圖形參數(shù)特征等。(3)故障模式診斷主要有2種,即基于模型驅(qū)動和基于數(shù)據(jù)驅(qū)動的模式。其中,基于模型的診斷技術(shù)需要建立軸承動力學(xué)模型,而精確模型和參數(shù)一般難以獲得,因此基于模型診斷方法使用較少。基于數(shù)據(jù)驅(qū)動的診斷方法依據(jù)大量歷史數(shù)據(jù)進行故障診斷,包括神經(jīng)網(wǎng)絡(luò)、支持向量機[4]、深度神經(jīng)網(wǎng)絡(luò)[5]等。
范春旸等人[6]采用希爾伯特邊際譜的11個統(tǒng)計參數(shù)構(gòu)造了軸承故障的初始特征,而后對其進行了降維,最終使用隨機森林算法對軸承進行了故障模式識別;該方法雖然能有效地提取軸承故障特征,但是隨機森林算法存在無差別對待隨機樹的問題。孫巖等人[7]使用多尺度卷積核Inception結(jié)構(gòu)和空間注意力機制替代神經(jīng)網(wǎng)絡(luò)的卷積層,從而提取了不同尺度、重點突出的軸承故障特征參數(shù),同時基于改進膠囊網(wǎng)絡(luò)實現(xiàn)了對軸承的故障診斷;雖然該方法在噪聲環(huán)境下仍能取得較好診斷結(jié)果,但是膠囊網(wǎng)絡(luò)參數(shù)的整定較為困難,且一般要依賴人工經(jīng)驗。王金東等人[8]使用復(fù)合多尺度模糊熵提取了軸承的間隙故障特征,并使用支持向量機對其進行了故障識別;雖然該方法有效提取了軸承的故障時頻域特征,但是忽視了其他域的敏感特征,因此其故障診斷的準確率有限。
針對特征參數(shù)敏感度問題和隨機森林無差別對待隨機樹的問題,筆者從故障特征提取和故障模式識別兩個角度對其進行研究,即在故障特征提取方面,結(jié)合KPCA和t-SNE方法分別提取基礎(chǔ)故障庫的全局和局部結(jié)構(gòu)特征;而在故障模式診斷方面,為每個隨機樹賦予不同發(fā)言權(quán),從而提出基于專家森林算法的故障診斷方法。
首先,筆者從時域、頻域、時頻域等多個維度出發(fā),選擇能夠刻畫軸承故障狀態(tài)的初始特征庫;而后,依據(jù)核主成分分析法(KPCA)提取初始參數(shù)中的全局非線性特征,并依據(jù)t-SNE挖掘高維特征參數(shù)的局部流形結(jié)構(gòu),提取局部結(jié)構(gòu)特征;最終,獲得用于故障診斷的低維特征參數(shù)。
筆者從時域、頻域、時頻域等3個維度中選擇軸承故障特征參數(shù)作為初始特征庫;后續(xù)從初始特征庫中選擇較為敏感的參數(shù)作為模式識別參數(shù)。采用該方法可以大范圍概略地選擇時域、頻域、時頻域特征參數(shù)。
初始特征庫如表1所示。

表1 初始特征庫
KPCA依據(jù)非線性函數(shù)Φ,使低維線性不可分的參數(shù)映射為高維的線性可分;而后使用PCA降維方法,提取出初始特征庫中的全局非線性特征參數(shù)[9]。
筆者將原始數(shù)據(jù)記為(x1,x2,…,xM),使用非線性函數(shù)Φ將其映射到高維空間F后,協(xié)方差矩陣表示為:
(1)
式中:CF—協(xié)方差矩陣。
求解協(xié)方差矩陣CF的特征值和特征向量[10],即:
CFv=λv
(2)
式中:λ—矩陣CF的特征值;v—矩陣CF的特征向量。
特征向量v可以由Φ(xi)線性表示為:
(3)
式中:αi—線性系數(shù)。
結(jié)合式(1~3),則有:

(4)
定義一個M×M維的矩陣K,令Kij=[Φ(xi)Φ(xj)],則式(2)可以變形為:
Mλα=Kα
(5)
對矩陣K的特征值進行排序,為λ1>λ2>…>λM,則前i個特征值的累積貢獻率ηi為:
(6)
式(6)中,特征值越大,表明對應(yīng)的特征向量越能夠代表軸承的故障特征。此處,筆者選擇累積貢獻率不小于95%的前s個主成分特征。
t-分布隨機鄰域嵌入(t-SNE)是一種用于非線性降維的機器學(xué)習(xí)算法,它將高維數(shù)據(jù)向低維映射時,最大程度實現(xiàn)了相互間分布概率的相似性,解決了樣本數(shù)據(jù)的擁擠問題[11]。基于t-SNE的參數(shù)降維與提取可由以下6個步驟來實現(xiàn)。
步驟1。計算高維聯(lián)合密度函數(shù)。筆者將初始高維數(shù)據(jù)序列維度設(shè)置為D,初始數(shù)據(jù)序列記為X=(x1,x2,…,xN)∈RD,則高維空間中任意兩點xi、xj的距離用概率密度函數(shù)衡量[12],即:
(7)
式中:σi—xi的高斯方差。
為了避免異常值問題,將高維數(shù)據(jù)的聯(lián)合密度函數(shù)修正為:
(8)
式中:pij—修正后的聯(lián)合密度函數(shù);N—數(shù)據(jù)序列長度。
步驟2。初始化低維數(shù)據(jù)。筆者將蘊含在X中的低維流形記為Y=(y1,y2,…,yn)∈Rd。其中,d為低維流形維度,且d 則低維數(shù)據(jù)Y使用隨機初始化方法,即: Y(0)=N(0,10-4I) (9) 式中:Y(0)—初始化的低維數(shù)據(jù);I—D維單位向量。 步驟3。依據(jù)t分布計算低維數(shù)據(jù)的概率密度qij為[13]: (10) 步驟4。計算目標函數(shù)梯度。以高維分布P和低維分布Q的相似度為代價函數(shù)C: (11) 式中:KL(P‖Q)—Y和Q之間的Kullback-Leibler散度。 則目標函數(shù)梯度為: (12) 步驟5。低維數(shù)據(jù)的迭代公式。以迭代方式得到低維數(shù)據(jù)Y(t)為: (13) 式中:t—迭代次數(shù);η—學(xué)習(xí)效率;μ(t)—動量因子。 步驟6。重復(fù)步驟3~步驟5直到達到最大迭代次數(shù)T,而后得到低維數(shù)據(jù)Y(T)。 按照以上步驟,可以從高維數(shù)據(jù)中提取局部的流形結(jié)構(gòu)特征,得到低維特征參數(shù)。 基于KPCA全局特征與t-SNE局部特征的特征參數(shù)降維步驟為: 步驟1。采集軸承的原始振動數(shù)據(jù),計算表1中的參數(shù)構(gòu)造原始故障特征參數(shù),而后進行參數(shù)歸一化,得到初始故障特征庫X; 步驟2。以徑向基函數(shù)為核函數(shù),使用KPCA進行參數(shù)降維,得到貢獻率不小于95%的特征參數(shù),以及基于全局特征的降維參數(shù)X1; 步驟3。以X1為高維數(shù)據(jù),使用t-SNE對數(shù)據(jù)進行降維處理,得到基于局部流形結(jié)構(gòu)特征的降維特征參數(shù)X2。 故障特征的提取效果可以采用類間間距Sw和類內(nèi)間距Sb進行評價。筆者將原始序列記為X=(x1,x2,…,xN)∈RD。 假設(shè)該數(shù)據(jù)序列具有L個模式類,第i類的樣本數(shù)量為Ni,則類間間距Sw和類內(nèi)間距Sb分別為: (14) 隨機森林算法中一棵樹為一個決策單元,多個決策樹組成一個隨機森林,隨機森林算法中森林的決策結(jié)果為多數(shù)決策樹的輸出結(jié)果[15]。這種決策方式充分發(fā)揮了決策樹的民主作用,但是卻忽略了決策樹的個體差異,也即忽略了決策樹的專家屬性差異。為了解決這一問題,筆者提出了一種專家森林算法。 筆者將原始數(shù)據(jù)集記為D,樣本數(shù)量記為N′,輸入特征數(shù)量記為M′,分類標簽記為Y。隨機森林的構(gòu)造包括抽樣、決策樹訓(xùn)練、決策樹決策、森林決策等步驟[14]。 (1)抽樣。使用bootstrap抽樣法從原始數(shù)據(jù)集D中有放回地抽取K個訓(xùn)練樣本,稱為bootstrap樣本[16]; (2)決策樹訓(xùn)練。基于分類回歸樹構(gòu)建決策樹,在決策樹的每個節(jié)點位置,從所有輸入特征中隨機選擇m個作為該節(jié)點的分裂特征集,而后依據(jù)基尼指數(shù)最小化準則選擇最優(yōu)分裂特征和切分點,從而將訓(xùn)練樣本劃分到兩個子節(jié)點中。重復(fù)以上步驟,直至決策樹訓(xùn)練完畢; (3)決策樹決策。使用bootstrap樣本按照上述步驟訓(xùn)練決策樹,訓(xùn)練完畢的決策樹組成一個隨機森林{ti,i=1,2,…,K},ti表示決策樹i。將測試樣本x輸入到該隨機森林中,得到各決策樹的決策結(jié)果{ti(x),i=1,2,…,K}; (4)隨機森林決策。隨機森林的決策方式較為簡單,一般取決策樹輸出的眾數(shù)作為隨機森林的決策結(jié)果,即[17]: (15) 式中:T(x)—隨機森林針對樣本x的決策結(jié)果。 如前所述,為決策樹賦予完全相同的投票權(quán)忽略了個體之間的專家屬性差異,即這是一種將專家決策和普通人決策同等視之的決策方法,因此其存在明顯的不合理。 為了解決這一問題,筆者提出了專家森林算法,其基本思想為:在決策樹訓(xùn)練完畢后,增加一個預(yù)測試過程,根據(jù)決策樹的預(yù)測試準確率為決策樹賦予不同的專家屬性和專家權(quán)值。 在傳統(tǒng)隨機森林算法[18]中,抽樣的K個bootstrap樣本全部為訓(xùn)練集。而在專家森林算法中,以隨機方式選擇0.8K個bootstrap樣本作為訓(xùn)練集,另外0.2K個bootstrap樣本作為預(yù)測試集。 決策樹i的預(yù)測試準確率記為Ri,為: (16) 式中:Kcorrect—預(yù)測試集中決策正確的樣本數(shù)量;0.2K—預(yù)測試集中的樣本總數(shù)。 毫無疑問,決策樹預(yù)測試的準確率可以代表決策樹的專家屬性。預(yù)測試準確率越高,表示決策樹的專家性越強,其做出的決策信服力也就越強。 為了讓專家決策樹充分發(fā)揮專家作用,筆者依據(jù)其預(yù)測試準確率賦予其不同權(quán)重,即: (17) 式中:wi—決策樹i的專家權(quán)重。 專家森林根據(jù)加權(quán)決策值做出最終決定,為: (18) 式中:Tex(x)—專家森林決策結(jié)果。 此處筆者以美國凱斯西儲大學(xué)的軸承實驗公開數(shù)據(jù)作為數(shù)據(jù)來源,選擇SKF6205型軸承試驗數(shù)據(jù);使用電火花加工技術(shù)在內(nèi)圈、外圈和滾動體上加工出點蝕故障,障礙點直徑為0.177 8 mm,數(shù)據(jù)采樣頻率為48 kHz。 實驗中,分正常狀態(tài)、內(nèi)圈故障、外圈故障、滾動體故障等4種狀態(tài),每種狀態(tài)下各包含200個樣本,共800個樣本,每個樣本隨機截取0.1 s的原始數(shù)據(jù)。 首先,驗證軸承故障特征提取方法的優(yōu)劣。為了進行比較,筆者同時使用KPCA、t-SNE、KPCA與t-SNE結(jié)合的特征參數(shù)降維與提取方法。 3種方法對應(yīng)的參數(shù)降維后的空間分布如圖1所示。 圖1 不同方法提取的特征 圖2 不同提取方法的評價指標 由圖2可知: 使用KPCA與t-SNE相結(jié)合提取的故障特征指標參數(shù)值最大,其次為KPCA方法和t-SNE方法; 參數(shù)指標值與圖1特征分布相對應(yīng),KPCA+t-SNE提取的特征不僅類與類之間區(qū)分明顯,而且類內(nèi)樣本的聚集度較好; KPCA提取的特征類間區(qū)分也較好,但是類內(nèi)樣本的聚集度明顯差于KPCA+t-SNE組合法; T-SNE提取的外圈故障而后滾動體故障間還存在交叉現(xiàn)象,因此其指標參數(shù)最小。 從理論上講,KPCA法只提取了故障特征的全局特征,t-SNE只提取了故障特征的局部流形結(jié)構(gòu)特征;而KPCA+t-SNE方法充分挖掘了故障特征的全局和局部結(jié)構(gòu)特征,因此提取效果好于另外兩種方法。 筆者從每個狀態(tài)的200組樣本中抽取160組作為Bootstrap樣本。在傳統(tǒng)隨機森林算法中,該160組Bootstrap樣本直接用于決策樹訓(xùn)練。在專家森林算法中,隨機選擇其中的80%(即128組)作為訓(xùn)練集,其余的20%(即32組)作為預(yù)測試集。 待隨機森林算法和專家森林算法訓(xùn)練完畢后,筆者使用隨機森林算法和專家森林算法分別對剩余的40×4=160組測試樣本進行故障診斷,其結(jié)果如圖3所示。 圖3 兩種森林算法的診斷結(jié)果 圖3所示的實驗中,隨機森林算法的診斷準確率為96.25%,專家森林算法的診斷準確率為99.38%。 在本次實驗中,專家森林的診斷準確率高于隨機森林算法。為了進行更加有力的比較,筆者按照上述步驟重復(fù)實驗10次,每次實驗抽取的訓(xùn)練樣本和測試樣本不同,統(tǒng)計10次實驗的診斷準確率參數(shù)。 兩種森林算法診斷準確率如表2所示。 表2 兩種森林算法診斷準確率 由表2可知: 隨機森林算法的診斷準確率均值為96.14%,標準差為3.26%;而專家森林算法的診斷準確率為99.48%,比隨機森林算法提高了3.47%;專家森林算法診斷準確率標準差為0.87%,遠小于隨機森林算法,說明專家森林算法診斷結(jié)果更加穩(wěn)定。 以上數(shù)據(jù)說明,專家森林算法的故障診斷準確率高于隨機森林算法,且診斷穩(wěn)定性好于隨機森林算法。 這是因為專家森林算法中,在訓(xùn)練階段對決策樹的專家屬性進行了預(yù)測試,能夠較為準確地評價決策樹的專家屬性,從而依據(jù)專家屬性賦予不同的專家權(quán)值,使其發(fā)言權(quán)與自身診斷能力成正比;而隨機森林將所有決策樹視為同等決策權(quán),忽略了個體間的差異,因此隨機森林算法的診斷性能差于專家森林算法。 針對特征參數(shù)敏感度問題和隨機森林無差別對待隨機樹的問題,筆者從故障特征提取和故障模式識別兩個角度對其進行了研究,即在故障特征提取方面,結(jié)合KPCA和t-SNE方法分別提取基礎(chǔ)故障庫的全局和局部結(jié)構(gòu)特征;在故障診斷方面,為決策樹賦予專家屬性和專家權(quán)值,從而提出了專家森林算法。 經(jīng)驗證得出以下研究結(jié)論: (1)基于KPCA與t-SNE結(jié)合方法提取的故障特征優(yōu)于兩種方法獨立提取的特征; (2)通過故障特征提取,不僅可以降低特征維度,降低計算量,而且可以提高特征向量對故障敏感程度; (3)專家森林算法由于在隨機樹上賦予了專家屬性,因此故障診斷準確率高于隨機森林算法。 從軸承故障診斷的研究熱點和發(fā)展趨勢看,在今后的工作中筆者可以展開以下3個方面的研究: (1)研究高敏感特征提取方法,使故障特征對故障模式更加敏感; (2)研究更加準確的分類方法,使模式識別更加精準; (3)研究基于深度學(xué)習(xí)的故障特征提取與模式識別一體化方法。1.4 特征參數(shù)降維步驟與評價參數(shù)


2 基于專家森林算法的故障識別
2.1 隨機森林算法
2.2 專家森林算法
3 實驗與結(jié)果分析
3.1 實驗設(shè)置與特征提取



3.2 故障模式診斷結(jié)果


4 結(jié)束語