楊望燦, 張培林, 張云強
(軍械工程學院 七系,石家莊 050003)
軸承振動信號是典型的非線性、非平穩信號,從混有背景噪聲的振動信號中提取出有效的特征參數才能提高后續模式識別的準確率。EMD方法是一種適合于分析非線性、非平穩信號的方法[1],它根據信號自身的特征時間尺度將信號依次分解為從高頻到低頻的若干個固有模態函數(IMF)分量。經過EMD分解后,每個IMF分量集中表現了數據的局部特征,并且具有平穩性的特性[2]。
AR模型是一種時間序列分析方法,其模型參數對狀態變化規律的反映最為敏感[3]。由于AR模型適用于平穩信號,所以可以對經過平穩化處理的IMF分量建立AR模型,以AR模型的自回歸參數構建故障特征子集[4]。但得到的原始特征子集中不可避免的存在一些和故障診斷不相關的特征和冗余特征,導致故障診斷的計算量和時間增加,診斷準確率下降,因此,需要對提取的原始特征子集進行降維和優化選擇。
Tenenbaum等[5-7]提出流形學習的概念和方法后,流形學習成為一類重要的維數約減方法。流形學習比傳統的線性降維方法更能體現數據的內在本質,進而解決一些在模式識別方面存在的問題,因此,流形學習方法在人臉識別、圖像處理和故障診斷等方面得到了廣泛的應用[8-10]。等距映射(Isomap)、局部線性嵌入(LLE)、拉普拉斯映射(LE)等算法是流形學習中的經典算法,但這幾種算法不能提供顯式的變換或投影矩陣,無法快速有效處理新增數據。而局部保持投影(LPP)算法通過線性逼近LE,兼顧線性降維方法優點和經典流形學習算法的非線性化處理能力,并且能夠得到顯式的投影矩陣,提高了流形學習算法的泛化能力[11-13]。在LPP算法中,鄰域參數的選擇直接影響算法性能的好壞,而傳統的LPP算法往往根據經驗人為設定鄰域參數,導致無法充分實現流形學習算法的優勢,影響最終降維效果。
因此,提出了一個基于鄰域自適應局部保持投影(NALPP)的軸承故障診斷模型。首先,利用EMD-AR方法構建軸承振動信號的原始特征子集;然后采用鄰域自適應局部保持投影算法對原始特征子集進行維數約減;最后,把低維特征向量輸入LS-SVM分類器,通過分析故障識別率和低維特征空間維數的關系,確定識別率最高時的低維特征空間維數為最優降維維數,對應的轉換矩陣為最優投影矩陣。根據確定的最優降維維數采用NALPP算法得到數據樣本的低維特征向量,輸入故障分類器,識別和判斷軸承的工作狀態和故障類型。通過對實測軸承振動信號的分析,驗證了基于鄰域自適應局部保持投影(NALPP)的軸承故障診斷模型的有效性和適用性。
局部保持投影本質上是一種線性的流形學習算法,是拉普拉斯映射(LE)的線性逼近,具有一般線性降維方法不具有的流形學習的能力。LPP根據最近鄰圖建立數據間的映射,在保持數據局部結構特征不變的條件下,將高維空間中的數據映射到低維空間,使在高維空間中距離相近的點在低維空間中也距離較近。
假設X={x1,x2,…,xN}為高維空間RD中的一個數據集,LPP的目的是尋求一個投影矩陣A,使得高維空間中的數據集X映射到相對低維的特征空間Rd(d< (1) 其中:Wij為加權矩陣W的一個元素。加權矩陣W可根據ε鄰域方法由下式獲得: (2) 其中:參數t>0,為熱核寬度。 由式(1)和式(2),可以看出LPP算法通過最小化目標函數能夠保持數據點間的局部特征,即在高維特征空間相距較近的點投影到低維特征空間也相距較近。對目標函數最小化的推導變換的過程如下: (3) 引入約束條件YDYT=1,即ATXDXTA=1,則式(3)的最優化問題可轉化為求解下式的廣義特征值問題 XLXTA=λXDXTA (4) 令列向量a1,a2,…,ad分別為式(4)的前d個最小非零特征值對應的特征向量,則投影矩陣A的表達式如下式所示 A={a1,a2,…,ad} (5) 在LPP算法中鄰域參數ε的選取直接影響算法的性能,若參數選取過大,則會導致非近鄰點納入近鄰中,破壞局部線性結構,影響映射結果;若參數選取過小,則會使得構建的鄰域不關聯,無法恢復數據集的全局結構,因此如何選取鄰域參數ε非常關鍵。一般情況下LPP選取的是全局統一的鄰域參數,而實際采集到的數據樣本在空間分布并不均勻,所以若根據數據樣本的空間分布自適應的調整鄰域參數的大小,則能夠改善LPP算法的降維效果,得到的低維特征向量也更能反映數據的內在流形。Parzen窗概率密度估計[14]是一種非參數的概率密度估計方法,它能夠在不知道樣本總體分布的條件下,僅根據數據樣本就可以估計出總體分布的概率密度。因此,利用Parzen窗估計數據樣本空間的總體分布情況,從而根據每個數據樣本點鄰域的概率密度自適應地調整鄰域參數。 X={x1,x2,…,xN}為高維空間RD中的一個數據集,對于任意數據點xi(i=1,2,…,N),基于Parzen窗的概率密度估計式為: (6) 窗函數φ(x)選取效果較好的高斯窗函數: (7) 則點xi處的概率密度為: (8) 若鄰域參數初始值為ε0,樣本點xi的初始鄰域為Nε0(xi),令窗寬h=ε0,則點xi的鄰域概率密度計算公式如下: (9) 則高維特征空間數據集中的每個數據點根據下式自適應地調整鄰域參數ε。 (10) 通過式(10)可以得到,當數據點的密度較小時,即其鄰域數據較稀疏時,自適應地減小ε的值,從而保持鄰域的局部線性結構;當數據點的密度較大時,即其鄰域數據較密時,又自適應地增大ε的值,從而使相連的鄰域盡可能重疊,保證數據集全局結構的恢復。 基于鄰域自適應局部保持投影(NALPP)的軸承故障診斷模型如圖1所示,具體步驟如下: 圖1 基于NALPP的軸承故障診斷模型 (1)對軸承正常和各種故障的振動信號,按一定的采樣頻率進行采樣,得到不同工作狀態的訓練樣本和測試樣本。 (2)對每個樣本進行EMD分解,得到每個樣本的n個IMF分量。 (3)對每個樣本的IMF分量建立AR模型,根據FPE準則確定模型階次m,用改進的協方差法求AR模型參數θij(i為第i個IMF分量,j=1,2,…,m)。提取AR模型參數構建訓練樣本和測試樣本的原始特征子集Xtr和Xte。 (4)利用NALPP算法對訓練樣本的原始特征子集Xtr進行維數約減,得到低維特征向量Ytr和投影矩陣A。 (5)把低維特征向量Ytr分為兩部分,一部分訓練樣本用來訓練LS-SVM分類器,另一部分訓練樣本用于得到故障識別率η和降維維數d之間的關系。 (6)重復步驟(4)和(5),確定最優降維維數db。 (7)測試樣本的原始特征子集Xte,根據確定的最優降維維數db使用NALPP算法進行降維,得到低維特征向量Yte和最優投影矩陣Ab,Yte輸入LS-SVM分類器,得到輸出結果。 實測軸承數據是在軸承故障試驗臺中的單級傳動齒輪箱上采集到的。在軸承內圈、外圈和滾動體上分別加工溝槽來模擬相應部位局部裂紋故障。實驗中,加速度傳感器安裝在軸承座上,電動機轉速控制在1 770 r/min,采樣頻率為12 kHz,采樣點數為1 024,分別采集正常狀態、外圈故障、內圈故障和滾動體故障4種狀態振動數據各100組,其中,隨機選取每種狀態的40組數據作為訓練樣本,另外60組數據作為測試樣本。采集到的4類狀態軸承振動信號如圖2所示。 對采集到的各類狀態信號進行EMD分解。圖3給出了軸承外圈故障狀態振動信號經EMD分解后的各個IMF分量。 由圖3可以看出前幾個IMF分量的調幅特征較為明顯,故障信息主要集中在前幾個IMF分量。所以,對每類樣本EMD分解后的前6個IMF分量建立AR模型。根據FPE準則確定AR模型階次m為8,因此,構建的原始特征子集的維數為48維。表1列出了4種狀態下各一個樣本所提取的特征參數。c1,c2,…,c6表示對每一類軸承狀態信號進行EMD分解得到的前6個IMF分量,θi1,θi2,…,θi8為第i(i=1,2,…,6)個IMF分量的AR模型參數。 圖2 四類狀態的振動信號 圖3 外圈故障的IMF分量 利用NALPP算法按照步驟(4)和(5)對原始特征子集進行維數約減。為了驗證NALPP算法的有效性,將原始特征子集分別用主成分分析(PCA)和局部保持投影(LPP)算法進行降維,作為對比實驗。采用PCA算法時,依據主成分的累積貢獻率大于或等于95%的原則確定降維維數;采用LPP算法時,采用和NALPP同樣的方法確定降維維數。實驗過程中,隨機選取訓練樣本中每類狀態的各20組數據訓練LS-SVM,訓練樣本中每類狀態的另外20組數據用于得到故障識別率η和降維維數d之間的關系。采用LPP和NALPP算法得到的故障識別率和降維維數間的關系如圖4所示。LPP算法中的鄰域參數ε取值為3.2,NALPP算法中鄰域參數初始值ε0設為3.2,熱核寬度t取值均為8。LS-SVM均使用徑向基核函數,采用交叉驗證的方法優化核函數參數σ2和懲罰因子γ。 圖4 故障識別率與低維特征空間維數的關系圖 由圖4可以看出,無論是LPP算法還是NALPP算法,初始階段故障識別率隨著降維維數的增加逐漸提高。但NALPP算法由于能夠根據數據樣本的鄰域密度自適應的調整鄰域參數,而LPP算法選取的是全局統一的固定參數,所以NALPP算法的故障識別率高于LPP算法。對于NALPP算法,當降維維數為27維時,故障識別率達到最高,為93.75%;而LPP算法,當降維維數為29維時,故障識別率最高僅為85%,所以NALPP算法的降維效果更好,更有利于后續的識別分類。隨著降維維數繼續增加,故障識別率有所下降并趨于穩定。圖4中d=48時,即不采用任何算法降維,直接將原始特征子集輸入LS-SVM分類器,由于原始特征子集中存在一些和故障診斷不相關的特征和相互冗余的特征,故障識別率只有73.75%,所以有必要對原始特征子集進行維數約減。 對測試樣本構建的原始特征子集分別使用PCA、LPP和NALPP三種算法進行維數約減,PCA算法根據主成分的累積貢獻率大于或等于95%的原則確定降維維數為12維;LPP算法利用最優降維維數d=29時進行降維;NALPP算法利用最優降維維數d=27時進行降維。將分別利用PCA、LPP和NALPP算法得到的低維特征向量輸入LS-SVM分類器,其中隨機選取每類狀態的20組樣本訓練LS-SVM分類器,每類狀態的另外40組完成測試,對比試驗結果如表2所示。 表2 三種降維算法的故障識別率 由表2可以看出,由于PCA算法對原始特征子集采用線性變換得到低維坐標,忽略了數據中的非線性結構,得到的降維結果不能反映數據本質,PCA算法的故障識別率最低。LPP算法和NALPP算法通過線性逼近LE,盡量保持數據局部結構而完成降維,所以LPP和NALPP算法的故障識別率相比PCA算法得到了提高。NALPP算法通過自適應的調整鄰域參數,使構建的鄰域結構更加逼近原始特征子集的空間流形,得到的降維效果更能反映數據本質,所以經過NALPP算法降維后的故障識別率最高,達到95%。在計算時間方面,LPP和NALPP算法采用線性逼近的方法進行降維,所以相比線性降維的PCA算法,計算時間有所增加。但是,三種算法基本都是在瞬間完成降維過程。NALPP算法根據得到的原始特征子集的不同,自適應的調整鄰域參數找尋原始特征子集空間中的低維流形,雖然計算時間略有增加,但故障識別率得到了較大的提高,所以NALPP算法的故障診斷效果最好,能夠滿足工程實際應用的需求。 針對非線性、非平穩的振動信號,本文提出了一種基于鄰域自適應局部保持投影(NALPP)的軸承故障診斷模型。該模型充分利用EMD能夠將非平穩信號轉化為平穩信號的自適應處理能力,AR模型把IMF分量中所包含的振動信號的特征提取出來,從而構建振動信號的原始特征子集。NALPP算法通過保持局部線性結構保留原始特征子集的內在低維特征,并利用Parzen窗自適應的選擇鄰域參數,提高降維效果。利用故障識別率和降維維數的關系得到最優降維維數和最優投影矩陣,根據最優降維維數對原始特征子集進行降維處理,得到的低維特征向量輸入LS-SVM分類器完成故障識別和診斷。得到的最優投影矩陣,能夠更加快速地處理新增數據。實驗結果驗證了本文所提模型的準確性和有效性,為軸承的故障診斷提供了新的方法和途徑。 參 考 文 獻 [1]Huang N E, Shen Z, Long S R,et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society of London, 1998, 454(1):903-995. [2]張 超, 陳建軍, 郭 迅. 基于EMD能量熵和支持向量機的齒輪故障診斷方法[J]. 振動與沖擊, 2010, 29(10):216-220. ZHANG Chao, CHEN Jian-jun, GUO Xun. A gear fault diagnosis method based on EMD energy entropy and SVM[J]. Journal of Vibration and Shock, 2010, 29(10):216-220. [3]Dron J P,Rasolofondraibe L,Couet C,et al. Fault detection and monitoring of a ball bearing benchtest and a production machine via autoregressive spectrum analysis[J]. Journal of Sound and Vibration, 1998, 218(3):501-525. [4]賈 嶸, 王小宇, 張 麗,等. 基于EMD和AR模型的水輪機尾水管動態特征提取[J]. 電力系統自動化, 2006, 30(22):77-80. JIA Rong, WANG Xiao-yu, ZHANG Li, et al. EMD and AR model based dynamic characteristic extraction of the draft tube of hydraulic turbines[J]. Automation of Electric Power Systems, 2006, 30(22):77-80. [5]Tenenbaum J B, Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500):2319-2323. [6]Seung H S, Daniel D L. The manifold ways of perception[J]. Science, 2000, 290(5500):2268-2269. [7]Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000,290(5500):2323-2326. [8]魯 珂, 丁正明, 趙繼東,等. 一種基于相關反饋的視頻人臉算法[J]. 西安電子科技大學學報(自然科學版), 2012, 39(3):154-160. LU Ke, DING Zheng-ming, ZHAO Ji-dong, et al. Novel face recognition relevance feedback algorithm for video[J]. Journal of Xidian University(Nature Science), 2012, 39(3):154-160. [9]孫 斌, 薛廣鑫. 基于等距特征映射和支持矢量機的轉子故障診斷方法[J]. 機械工程學報, 2012, 48(9):129-135. SUN Bin, XUE Guang-xin. Method of rotor fault diagnosis based on isometric feature mapping and support vector machine[J]. Journal of Mechanical Engineering, 2012, 48(9):129-135. [10]王立志, 黃 鴻, 馮海亮. 多線性局部與全局保持嵌入在高光譜遙感影像分類中的應用[J]. 計算機輔助設計與圖形學學報, 2012, 24(6):781-786. WANG Li-zhi, HUANG Hong, FENG Hai-liang. Multi-liner local and global preserving embedding and its application in hyperspectral remote sensing image classification[J]. Journal of Computer-Aided Design and Computer Graphics, 2012, 24(6):781-786. [11]Yu J B. Bearing performance degradation assessment using locality preserving projections[J]. Expert Systems with Applications, 2011, 38(6):7440-7450. [12]張敏情, 楊曉元, 吳 翔. 基于局部保持映射的音頻數字簽名算法[J]. 解放軍理工大學學報(自然科學版), 2009, 10(3):248-252. ZHANG Min-qing, YANG Xiao-yuan, WU Xiang. Audio digital signature algorithm based on LPP[J]. Journal of PLA University of Science and Technology(Nature Science), 2009, 10(3):248-252. [13]Weng X Q, Shen J Y. Classification of multivariate time series using locality preserving projections[J]. Knowledge-Based Systems, 2008,21(7):581-587. [14]邊肇祺, 張學工. 模式識別[M]. 北京:清華大學出版社, 2000:65-71.

2 鄰域參數的自適應確定


3 基于鄰域自適應局部保持投影(NALPP)的軸承故障診斷模型

4 實驗驗證




5 結 論