李 冬
(無錫工藝職業技術學院,江蘇 宜興 214200)
滾動軸承的內圈、外圈、滾動體等關鍵部件故障時會嚴重影響生產精度和生產效率,甚至引發安全事故[1]。對軸承工作狀態進行監測,及時發現軸承故障并進行有效定位,對軸承日常維護、提高生產質量、效益和生產安全具有重要意義。軸承故障診斷是通過采集軸承的振動信號或聲發射信號等,從信號中提取敏感軸承不同狀態的特征量,通過智能分類器實現故障識別。
由此可知,故障診斷主要包括特征提取和模式識別兩個方面,當前存在的特征參數包括時域參數、頻域參數、時頻域參數、非線性參數等,時頻域參數提取方法包括經驗模態分解[2]、小波分解[3]等,非線性參數包括分形維數[4]、排列熵、樣本熵[5]等。
智能模式識別方法包括人工神經網絡、支持向量機、馬爾科夫模型、專家系統等方法[6-7],文獻[8]使用磷蝦算法優化支持向量機參數,實現了軸承故障狀態識別;文獻[9]使用改進魚群算法優化神經網絡用于軸承故障診斷,不僅提高了神經網絡收斂速度,而且提高了識別精度。當前軸承故障診斷系統在實際生產中尚未廣泛應用,主要因為故障識別系統研究還不夠成熟,軸承故障狀態的智能識別系統仍是當前研究熱點。以滾動軸承故障的智能識別系統為研究對象,包括故障特征提取和模式識別兩個方面的內容。使用多重分形理論提取了故障特征參數,應用K均值聚類法對特征參數進行了優選。改進了隨機森林算法,并將其應用于軸承故障的模式識別,達到了提高軸承故障識別正確率的目的。
軸承在正常狀態下與故障狀態下振動信號的隨機性、非線性程度不同,多重分形理論可以精細刻畫非線性現象[10],因此使用多重分形參數提取軸承故障特征。多重分形去趨勢波動分析多重分形理論與去趨勢波動分析相結合的方法,其具體分析過程為:
(1)計算序列輪廓。記具有多重分形特征的非平穩時間序列為,k=1,2,…,N,則此序列的輪廓序列{yi} 定義為:

(2)輪廓序列劃分。按照不重疊劃分方式將輪廓序列{yi} 劃分為長度為s的Ns個等長序列,此時,多數情況下s無法被N整除,此時若舍棄末端數據則會造成信息遺漏,為了解決這個問題,從序列最后一位開始以同樣形式向前分組,此時得到2Ns組子序列。
(3)使用最小二乘法對子序列yv(j),v=1,2,…,2Ns進行多項式擬合,并計算擬合誤差,為:

式中:ai—多項式系數;p—多項式階數。
(4)計算誤差序列{F(v,s)}v=1,2 …,2Ns的q階趨勢波動函數為:

式中:q—波動函數階數,可以取任意非零實數。當q=0計算方法為:

(5)計算不同尺度值下的q階波動函數,如果初始數據序列k=1,2,…,N存在自相似性,則趨勢波動函數Fq(s)與尺度s間成冪律關系,即Fq(s)~sh(q),式中:h(q)—Hurst指數,若h(q)為q的函數則初始數據序列為多重分形序列,若h(q)為常數則初始數據序列為單重分形序列。
多重分形譜標度指數τ(q)與Hurst指數h(q)存在以下關系:τ(q)=qh(q)-1。根據勒讓德變換可得多重分形譜f(α)、奇異指數α為:

其中,奇異指數α反應多重分形序列在某局部概率分布上的不均勻程度,多重分形譜f(α)是α的分維函數,對于多重分形序列來講,f(α)是α的單峰函數。
多重分形譜曲線為例對參數αmax、αmin、α0和Δα進行說明,如圖1所示。

圖1 多重分形譜曲線Fig.1 Multifractal Spectral Curve
αmax、αmin分別為奇異指數的最大值和最小值,分別代表了小波動特征和大波動特征的奇異程度;Δα=αmax-αmin為奇異指數的跨度,此參數代表了信號的波動程度,其值越大代表信號波動越大;α0為多重分形取最大值時的奇異值,代表信號的隨機性,其值越大表示信號隨機性越大。因為此4個參數能夠表征信號的隨機性和波動性,所以選擇此4個參數為備選對象組成特征向量。
以美國凱斯西儲大學的軸承公開數據為例,對2.2節給出的4個備選特征參數進行組合和挑選。選擇SKF6205型軸承試驗數據,內圈、外圈和滾動體的點蝕故障直徑為0.1778mm。選取正常狀態、內圈故障、外圈故障、滾動體故障等4種狀態下各10組樣本,共40組樣本數據,每個樣本包含1200個數據。
首先計算Hurst指數曲線,驗證軸承振動信號序列是否多重分形特性。經驗證,在4種工作狀態下Hurst指數h(q)均隨q單調遞減,即h(q)為q的函數而非常數,說明軸承振動信號具有多重分形特性。計算4種狀態下的多重分形曲線結果,如圖2所示。

圖2 軸承四種狀態下的多重分形曲線Fig.2 Multifractal Curve Under 4 States of Bearing
因為每種狀態下具有10組樣本,因此每種狀態下計算了10組曲線,從圖中可以看出,同種工作狀態下的多重分形曲線幾乎重合,在一定程度上說明了多重分形譜的穩定性或聚合性極好。另外,不同工作狀態下的多重分形參數αmax、αmin、α0和Δα具有明顯區別,但是不同參數含有的故障信息不同,也可以說不同參數對故障的敏感性不同,因此需要進行篩選。
從4個多重分形參數中選取2個作為特征參數,也就是4選2的組合問題,包括以下6 種組合方法從40組樣本數據種分別提取4個多重分形參數,每種工作狀態下得到10組多重分形參數,按照6種組合方法依次使用K均值聚類,由于篇幅限制,在此僅給出兩種組合方法的聚類結果,如圖3所示。

圖3 不同參數組合的聚類效果Fig.3 Clustering Effect of Different Parameters Combination
從圖3中可以明顯看出第二種組合方案的類內聚集度明顯差于第一種組合方案。對于6種組合方案,按照聚類結果,以類間距離和類內聚集度為指標選取最優組合方法作為特征向量。評價函數為:

式中:f—評價函數;dij—類i中心點與類j中心點之間的距離,且i,j=1,2,3,4、i≠j,類間距離最小值越大表示類與類之間的區分度越大;σk—類k內所有點與中心點距離之和,其值越小表示類內聚集度越高。
因此選擇評價函數最大的參數組合方法作為特征參數,經計算,最終選擇的特征參數組合為說明此兩個參數包含更多的故障信息,或者說此兩個參數對故障具有高度敏感性。
隨機森林是由多棵決策樹分類器構成的組合分類器,解決了單個分類器分類效果有限、分類精度不高的問題,類似于由“獨裁判斷”向“民主投票”的權力進化。
隨機森林算法主要包括決策樹的構建、集成學習、投票決策等三個步驟。決策樹是隨機森林的基分類器,發揮民主投票作用;集成學習對決策樹的訓練樣本抽樣方法進行規定;投票決策是對基分類器投票結果的融合方法。
(1)構建決策樹。決策樹的構建使用遞歸方法,根據特征評估標準,從根節點開始依次向下生成子節點,直至生成所有的葉子節點。特征評估標準包括基于信息增益的ID3算法、基于基尼指數的CART算法、基于信息增益比的C4.5算法,鑒于CART算法對于離散數據和連續數據都能夠處理,且對孤立點和空缺點不敏感,使用鑒于CART算法作為特征評估標準。決策樹構建時節點分裂方法和特征參數的隨機選取方法可參考文獻[11],這里不再詳細介紹。
(2)集成學習。集成學習算法主要包括Bagging 方法和Boosting方法兩類,Bagging方法是一種有放回的樣本數據隨機抽取方法,Boosting方法是一種有權重抽樣方法,由于Bagging方法是獨立隨機抽樣,抽樣過程具有完全的獨立性,可以有效減少訓練后決策樹間的相關程度,進而減小泛化誤差,因此選用Bagging方法進行抽樣。
Bagging抽樣方法的具體執行方法為:記原始訓練樣本數量為N,決策樹數量為L,使用Bootstrap抽樣每次從原始訓練樣本中抽取n個訓練樣本,作為一個訓練集;而后將此n個訓練樣本放回原始訓練樣本中進行下次抽取,共執行L次得到L個訓練集,將此L個訓練集分配給L個決策樹用于訓練。
(3)投票決策。隨機森林決策過程為:對于給定的待分類樣本x,記第l個決策樹的輸出為fl(x)=i,i=1,2,…,c,c為類別數量,l=1,2,…,L為決策樹編號。取決策樹輸出的眾數作為隨機森林的輸出結果,即:

式中:fRF(x)—隨機森林輸出;I()—滿足括號內等式的樣本數量。
提出了舍棄策略和話語權策略對隨機森林算法進行改進,下面進行具體說明。
(1)舍棄策略。給出舍棄策略之前首先介紹隨機森林的泛化誤差PE*,泛化誤差度量了隨機森林對給定樣本的分類錯誤率,且有:

由式(8)可以看出,要想減小隨機森林泛化誤差,需減小決策樹間的相關度,同時提高決策樹的分類精度。在前文集成學習方法中使用Bagging方法就是為了減小決策樹間的相關度,達到減小泛化誤差的效果。從提高決策樹平均分類精度的角度出發,這里提出了舍棄策略。
舍棄策略的思路為:將訓練樣本分為兩組,一組稱為訓練樣本組,另一組稱為預測試樣本組。使用訓練樣本組對決策樹進行訓練,而后使用預測試樣本組測試決策樹的分類正確率,對決策樹按照分類正確率排序,保留分類正確率為前80%的決策樹,而拋棄分類正確率為后20%的決策樹,從而提高決策樹的平均分類精度,減小隨機森林的泛化誤差。決策樹的分類正確率計算方法為:

式中:Rlcorrect—決策樹l的分類正確率;Xlcorrect—決策樹l的分類正確樣本數;X—預測試樣本數量。
(2)話語權策略。傳統的分類方法,如神經網絡系統、馬爾科夫模型等,使用一個分類器對樣本進行分類,此種方式類似于“獨裁話語權”;而隨機森林算法依賴投票決定分類結果,且每個人1 票,具有同等話語權,此種方式類似于“完全民主話語權”。“獨裁話語權”明顯更加容易出錯;“完全民主話語權”使用絕對的、完全的民主方式,而忽略個體之間的差異,優秀決策樹與較差決策樹話語權一致,這明顯是不合理的,且從人類文明發展趨勢看,“建立在話語權基礎上的民主”更加高效。基于這一思想,提出了話語權策略,使優秀決策樹具有更大的發言權或決定權,而較差決策樹恰好相反。
決策樹的分類正確率能夠很好地反應決策樹優劣性,因此依賴分類正確率構造決策樹話語權,決策樹l的話語權wl=Rlcorrect,而后對所有決策樹話語權進行歸一化處理,即:

對于決策樹l,當其輸出為i時,其話語權為wl′,計算所有輸出為i的話語權之和,則具有相同輸出的決策樹話語權之和最大者,對應的決策結果即為隨機森林決策結果。
根據傳統隨機森林算法原理和改進策略,制定改進隨機森林算法流程為:
(1)初始化算法參數,包括決策樹數量L、訓練樣本集數量和預測試樣本集數量等;(2)使用Bagging方法從原始訓練樣本中抽取L個訓練集,將每個訓練集分為訓練樣本集和預測試樣本集;(3)使用訓練樣本集對L個決策樹進行構建和訓練;(4)使用預測試樣本集測試L個決策樹的分類正確率,并進行排序,使用舍棄策略淘汰后20%決策樹;(5)按照分類正確率為決策樹賦歸一化話語權,此時隨機森林構建完畢;(6)輸入待分類樣本,計算同一輸出的話語權之和,將話語權之和最大者對應的決策結果作為隨機森林分類結果。結束。
研究的核心內容包括特征提取和故障智能識別兩個方面的內容,特征提取方法在前文中已經使用K均值聚類進行驗證,結論是由組成的特征向量具有最好的聚類效果。在本節只對改進隨機森林算法的故障識別效果進行驗證。
以美國凱斯西儲大學的軸承實驗公開數據作為數據來源,選擇SKF6205型軸承試驗數據,使用電火花加工技術在內圈、外圈和滾動體上加工出點蝕故障,障礙點直徑為0.1778mm,數據采樣頻率為48kHz。實驗中正常狀態、內圈故障、外圈故障、滾動體故障等4種狀態下各包含200個樣本,共800個樣本,每個樣本包含2400個數據。
(1)訓練過程說明。設置隨機森林中初始決策樹數量為200,隨機森林的訓練樣本抽取方法為:從每種工作狀態下使用Bagging方法各抽取50組樣本共200組樣本,提取每組樣本數據的特征參數,共得到200組特征參數,每種工作狀態下前30組樣本共120組用于訓練決策樹,后80組作為預測試樣本組。使用預測試結果正確率對決策樹進行排序,保留前80%的決策樹,即正確率靠前的160個決策樹。而后按照預測結果正確率為每個決策樹賦予歸一化話語權。
(2)測試過程說明。從每種工作狀態下使用Bagging方法各抽取20組樣本共80組樣本,作為測試樣本。提取每組樣本數據的特征參數,共得到80組特征參數,而后計算具有相同輸出決策樹的話語權之和,話語權之和最大者對應的類別為隨機森林輸出類別。
為了形成對比,分別使用傳統隨機森林算法與改進隨機森林算法對80組測試樣本進行分類結果,如圖4所示。從圖4 中可以看出,改進隨機森林算法通過對故障特征參數進行故障識別,識別正確率為100%,為出現誤判現象;使用傳統隨機森林算法進行故障狀態識別,錯誤率為6/80=7.5%,識別正確率為92.5%。以同樣方式重復測試過程20 次,得到改進隨機森林算法故障識別正確率均值為100%,未出現任何錯誤;傳統隨機森林算法故障識別正確率均值為93.1%。這是因為改進隨機森林算法引入了舍棄策略和話語權策略,舍棄策略淘汰了正確率靠后的決策樹,提高了決策樹平均識別精度,減小了隨機森林泛化誤差;話語權策略放棄了“完全民主式權利分配”,使用了加權方法使優秀決策樹具有更大話語權,最終提高了模式識別正確率。

圖4 兩種隨機森林算法的故障識別結果Fig.4 Fault Diagnosis Result of Two Random Forest Algorithms
主要研究了軸承故障診斷問題的特征提取和模式識別兩個方面的內容,使用多重分形理論提取了故障特征參數,改進了隨機森林算法并應用于軸承故障識別,經實驗驗證,得到了以下結論:(1)多重分形參數可以敏感軸承故障特性,不同參數組合的敏感性不同,經分析,αmax、αmin、α0和Δα等4個參數的兩兩組合中,組合的敏感性最高;(2)在改進隨機森林算法中,通過分配不同話語權使優異者更加具有發言權。使用美國凱斯西儲大學軸承數據進行驗證,傳統森林算法正確率為93.1%,而改進森林算法正確率為100%。說明改進隨機森林算法的模式識別精度更高,也可以理解為“話語權式的權力分配”優于“完全民主的權力分配”。