劉遠(yuǎn)紅 黃穎濤



摘 要 提出一種基于全局約束的局部融合線性嵌入方法,該方法首先在原始空間對數(shù)據(jù)進(jìn)行低秩約束,捕捉數(shù)據(jù)的全局子空間結(jié)構(gòu),同時去除數(shù)據(jù)噪聲;其次分別在低秩子空間和原始空間中挖掘數(shù)據(jù)的兩種幾何結(jié)構(gòu);然后,通過重構(gòu)誤差評估兩種結(jié)構(gòu)的重要性,實現(xiàn)兩種結(jié)構(gòu)的線性融合;最后,構(gòu)建數(shù)據(jù)的低維重構(gòu)函數(shù),完成數(shù)據(jù)顯著特征的提取。在標(biāo)準(zhǔn)的軸承數(shù)據(jù)集與實驗室采集的數(shù)據(jù)集上進(jìn)行驗證,結(jié)果表明:所提方法能夠很好地利用數(shù)據(jù)的全局信息以及局部重構(gòu)信息,更具魯棒性,故障識別率也得到了相應(yīng)的提高。
關(guān)鍵詞 局部線性嵌入 特征提取 低秩約束 全局結(jié)構(gòu) 局部結(jié)構(gòu) 數(shù)據(jù)降維
中圖分類號 TP391? ?文獻(xiàn)標(biāo)識碼 A? ?文章編號 1000-3932(2023)04-0529-09
隨著現(xiàn)代化生產(chǎn)系統(tǒng)對安全性[1]和穩(wěn)定性[2]要求的提高,機(jī)械故障診斷技術(shù)[3]得到了迅速發(fā)展。振動信號[4]中蘊(yùn)含了設(shè)備豐富的信息,因此振動信號常用于機(jī)械設(shè)備的故障診斷。然而在實際應(yīng)用中,采集的振動信號冗維度高,這就導(dǎo)致有限的數(shù)據(jù)在空間中的分布變得稀疏[5],難以形成有效的簇,增加了對數(shù)據(jù)分析的難度。因此從高維數(shù)據(jù)中提取出能表征原始數(shù)據(jù)最本質(zhì)的特征[6]是非常必要的。
流形學(xué)習(xí)[7]作為一種非線性降維方法,已成為近年的研究熱點。流形學(xué)習(xí)的基本思想是在高維空間中挖掘數(shù)據(jù)的某種局部結(jié)構(gòu),并在低維流形中保持這種結(jié)構(gòu)不變,實現(xiàn)對數(shù)據(jù)顯著特征的提取。目前,一系列經(jīng)典的流形學(xué)習(xí)算法相繼被提出,如拉普拉斯特征映射(Laplacian Eigenmaps,LE)算法[8]、等距映射(Isometric Mapping,ISOMAP)算法[9]、局部切空間對齊(Locally Tangent Space Alignment,LTSA)算法[10]、局部保持投影(Locality Preserving Projections,LPP)算法[11]及局部線性嵌入(LLE)算法[12]等。其中LLE算法以保持?jǐn)?shù)據(jù)局部重構(gòu)權(quán)值不變進(jìn)行低維嵌入,成為了流形學(xué)習(xí)中最為經(jīng)典的算法之一。
然而,LLE算法在對數(shù)據(jù)進(jìn)行特征提取時仍然存在一些局限性,如LLE算法對局部結(jié)構(gòu)的選取和噪聲較為敏感。針對局部鄰域選取問題,王銳等從數(shù)據(jù)度量方式出發(fā),提出利用馬氏距離、余弦相似性等度量方式對數(shù)據(jù)的相似性進(jìn)行評估,使得數(shù)據(jù)間的相關(guān)性更加可靠合理[13,14]。LIU Y H等則同時考慮數(shù)據(jù)的兩種局部線性結(jié)構(gòu),再有機(jī)地將兩種結(jié)構(gòu)以不同方式融合起來,有效解決原算法只考慮單一結(jié)構(gòu)的問題[15,16]。針對數(shù)據(jù)噪聲問題,JAIN N等從數(shù)據(jù)局部線性結(jié)構(gòu)出發(fā),自適應(yīng)地進(jìn)行近鄰選擇,有效解決鄰域參數(shù)對特征提取結(jié)果的影響[17,18]。文獻(xiàn)[19,20]則考慮數(shù)據(jù)對噪聲敏感的問題,提出一種對數(shù)據(jù)特征提取的同時對數(shù)據(jù)噪聲具有魯棒性的改進(jìn)方法。文獻(xiàn)[21]提出可以根據(jù)數(shù)據(jù)的結(jié)構(gòu)保持將眾多降維算法分為局部結(jié)構(gòu)保持和全局結(jié)構(gòu)保持兩類,局部結(jié)構(gòu)反映數(shù)據(jù)的內(nèi)部屬性,全局結(jié)構(gòu)可以理解為數(shù)據(jù)的外部整體屬性。受文獻(xiàn)[21]的啟發(fā),以上算法在對數(shù)據(jù)特征提取的時候只關(guān)注數(shù)據(jù)的局部結(jié)構(gòu),忽略了數(shù)據(jù)的全局結(jié)構(gòu)。在實際應(yīng)用中,一旦局部結(jié)構(gòu)遭到破壞或者局部鄰域選擇不當(dāng),會使識別精度大幅降低。
因此,筆者提出一種基于全局約束同時融合兩種局部結(jié)構(gòu)的降維算法。該算法將核范數(shù)作為原始數(shù)據(jù)的低秩約束,以捕獲數(shù)據(jù)的全局子空間結(jié)構(gòu),用L21作為數(shù)據(jù)噪聲的約束。然后,為了更好地利用數(shù)據(jù)的結(jié)構(gòu)信息同時兼顧去除噪聲的影響,挖掘并融合低秩子空間和原始空間的局部拓?fù)浣Y(jié)構(gòu)。最后構(gòu)建數(shù)據(jù)的低維重構(gòu)函數(shù),實現(xiàn)對數(shù)據(jù)進(jìn)行顯著特征的提取。從實驗結(jié)果可以看出,該方法能夠有效地解決算法對鄰域選取敏感的問題,且在各方面都優(yōu)于其他相關(guān)算法。
1 相關(guān)工作
本節(jié)首先簡要介紹兩種相關(guān)算法的基本理論:局部線性嵌入算法和魯棒主成分分析(Robust Principal Components Analysis,RPCA)算法。
1.1 局部線性嵌入算法
1.2 魯棒主成分分析算法
2 基于全局約束的局部融合線性嵌入
本節(jié)主要描述全局約束的局部融合線性嵌入(GC-LFLE)的目標(biāo)函數(shù)以及算法過程。
傳統(tǒng)的LLE及其優(yōu)化算法都是利用不同度量方式得到的數(shù)據(jù)的單一局部結(jié)構(gòu)。這些方法對數(shù)據(jù)噪聲非常敏感,因為一旦數(shù)據(jù)存在噪聲或者誤差,數(shù)據(jù)的局部結(jié)構(gòu)就會發(fā)生改變,同類數(shù)據(jù)可能就被分離開來,此時再僅僅依靠局部結(jié)構(gòu)來保持?jǐn)?shù)據(jù)的完整性顯然是不可行的。考慮到數(shù)據(jù)遭到破壞的可能性,同時兼顧數(shù)據(jù)最原始的結(jié)構(gòu),將兩種結(jié)構(gòu)結(jié)合起來才能有效地解決數(shù)據(jù)噪聲對算法的影響。所以為了更好地保持?jǐn)?shù)據(jù)的原始結(jié)構(gòu),筆者利用數(shù)據(jù)的低秩結(jié)構(gòu)來保持?jǐn)?shù)據(jù)的全局結(jié)構(gòu),同時假設(shè)數(shù)據(jù)噪聲是稀疏的。
3 實驗結(jié)果與分析
筆者采用兩個滾動軸承數(shù)據(jù)集進(jìn)行實驗,實驗所對比的線性降維方法主要有RPCA+LLE、線性判別分析方法(Linear Discriminant Analysis,LDA)、LPP,非線性降維方法有LLE、ISOMAP、LTSA。其中RPCA+LLE算法是先對數(shù)據(jù)進(jìn)行RPCA去噪,再將低秩矩陣直接進(jìn)行LLE特征提取的過程,采用此方法是為了與筆者所提的同時考慮全局約束和局部信息融合的方法形成對比。
3.1 數(shù)據(jù)集介紹
CWRU數(shù)據(jù)集。該數(shù)據(jù)集是凱斯西儲大學(xué)提供的公開數(shù)據(jù)集,其實驗數(shù)據(jù)來自于圖2所示的測試平臺,包括一個1 470 W的電機(jī)(左),一個扭矩傳感器/編碼器(中),一個功率測試計(右)和電子控制設(shè)備(未顯示)。該數(shù)據(jù)集在負(fù)載為0、采樣頻率為12 kHz、轉(zhuǎn)子轉(zhuǎn)速為1 720 r/min的情況下采集,包含正常數(shù)據(jù)、滾珠故障數(shù)據(jù)、軸承內(nèi)圈故障數(shù)據(jù)和軸承外圈故障數(shù)據(jù)4種。整個數(shù)據(jù)集為1024×400的矩陣,其中,每一個樣本包含1 024個數(shù)據(jù)點,每一類數(shù)據(jù)包含100個樣本。
OL數(shù)據(jù)集。該數(shù)據(jù)集是筆者所在實驗室采集的數(shù)據(jù)集,其實驗平臺由電機(jī)、軸承和齒輪箱組成,如圖3所示。該數(shù)據(jù)集在負(fù)載為0、電機(jī)采樣頻率為10 kHz、轉(zhuǎn)速為1 400 r/min的情況下采集,也包含正常數(shù)據(jù)、滾珠故障數(shù)據(jù)、軸承內(nèi)圈故障數(shù)據(jù)和軸承外圈故障數(shù)據(jù)4種數(shù)據(jù),其中,每一個樣本包含1 024個數(shù)據(jù)點,每類數(shù)據(jù)包含100個樣本。
3.2 數(shù)據(jù)可視化實驗
本實驗中,分別將所有對比方法以及筆者提出的GC-LFLE方法用在兩個數(shù)據(jù)集上進(jìn)行實驗。圖4表示將CWRU數(shù)據(jù)集應(yīng)用每種算法將高維數(shù)據(jù)降到三維的可視化結(jié)果,圖5表示在OL數(shù)據(jù)集上的三維可視化結(jié)果。每幅圖中紅色點表示正常數(shù)據(jù),藍(lán)色點表示滾珠故障數(shù)據(jù),綠色點表示軸承內(nèi)圈故障數(shù)據(jù),黑色點表示軸承外圈故障數(shù)據(jù)。從圖4、5可以看出,筆者所提方法在兩個數(shù)據(jù)集上都可以將4類數(shù)據(jù)有效地分開,同時同類數(shù)據(jù)保持很好的緊密型。其中LPP算法(圖4e、5e)有3類數(shù)據(jù)分類效果表現(xiàn)比較好,類內(nèi)緊湊性和類間分散性都取得很好的結(jié)果,但總存在兩類數(shù)據(jù)混在一起的情況。
3.3 數(shù)據(jù)聚類實驗
筆者所提方法GC-LFLE與相關(guān)算法的實驗結(jié)果對比見表1,在對比實驗中加入了LDA方法。從表1數(shù)據(jù)可以看出,所提算法可以很好地保持?jǐn)?shù)據(jù)類內(nèi)的緊密型和類間的可分性。從RPCA+LLE的結(jié)果看來,對原始數(shù)據(jù)先進(jìn)行去噪處理有適當(dāng)改善后續(xù)數(shù)據(jù)局部對特征提取的影響,不過僅考慮單個局部結(jié)構(gòu)去進(jìn)行特征提取仍然無法達(dá)到很好的效果;LDA和LPP的結(jié)果也顯示在CRWU中取得了不錯的效果,但在數(shù)據(jù)類內(nèi)收斂性上表現(xiàn)得還不夠優(yōu)越;而筆者所提方法GC-LFLE在類內(nèi)收斂性和類間分散性上都取得了很好的效果,自然聚類的指標(biāo)J也取得了一個特別理想的值。綜上所述,該實驗進(jìn)一步證明所提算法在兩個數(shù)據(jù)集上的先進(jìn)性,這與可視化實驗的結(jié)果一致。
3.4 識別精度實驗
為進(jìn)一步驗證筆者所提方法將數(shù)據(jù)投影到低維時數(shù)據(jù)的聚類效果,在兩個數(shù)據(jù)集上進(jìn)行識別精度測試實驗。該實驗將每類100個樣本分成80個訓(xùn)練樣本和20個測試樣本,隨機(jī)抽取測試樣本先對其進(jìn)行降維處理,再識別其故障類型。與相關(guān)算法的比較結(jié)果如圖6所示,可以看出,筆者所提方法對每一類故障數(shù)據(jù)的識別都非常成功,且對兩個數(shù)據(jù)集的每類故障樣本的識別精度都達(dá)到了97%以上。
3.5 魯棒性實驗
大多數(shù)流形學(xué)習(xí)方法雖然在數(shù)據(jù)降維上取得了不錯的效果,但仍然存在一個問題:對鄰域拓?fù)浣Y(jié)構(gòu)的選取非常敏感,當(dāng)數(shù)據(jù)局部遭到破壞或者近鄰參數(shù)k選取不同,都可能造成局部鄰域結(jié)構(gòu)發(fā)生變化,從而使得識別精度大幅下降。經(jīng)分析,鄰域敏感是因為近鄰參數(shù)k的選取和局部結(jié)構(gòu)不完整,直接影響算法對數(shù)據(jù)特征的提取結(jié)果,這給后續(xù)研究帶來了很大的難題。本實驗從識別精度和可視化兩個方面去驗證筆者所提方法在近鄰參數(shù)選擇問題上的魯棒性。
3.5.1 識別精度魯棒性實驗
為驗證算法在選取不同近鄰參數(shù)k時對故障識別精度的影響,本實驗在兩個數(shù)據(jù)集上分別選取4、7、10、13、16五種不同k值,其識別精度結(jié)果如圖7所示。可以看出在兩個數(shù)據(jù)集上選取不同k值時,其他算法的識別精度隨著k值變化出現(xiàn)了波動,而筆者所提方法基本保持穩(wěn)定。對比圖7a、b可以發(fā)現(xiàn),同一算法面對不同數(shù)據(jù)集時,不僅識別精度最高時所對應(yīng)的k值不同,而且隨著k值變化識別精度變化趨勢也不同,反映出不同數(shù)據(jù)集存在不同的內(nèi)部結(jié)構(gòu),相同算法最優(yōu)的識別精度所對應(yīng)的參數(shù)也不同。相反地,筆者所提方法識別精度一直保持在比較穩(wěn)定的狀態(tài)且都高于其他算法。同時也得以驗證:當(dāng)數(shù)據(jù)局部結(jié)構(gòu)發(fā)生變化(不穩(wěn)定或者存在噪聲)時,加入全局約束也可以很好地保證數(shù)據(jù)的真實性和完整性,從而使得算法更具魯棒性。
3.5.2 可視化魯棒性實驗
與識別精度魯棒性實驗出發(fā)點一樣,為驗證不同k值對數(shù)據(jù)三維可視化的影響,利用筆者所提方法在兩個數(shù)據(jù)集上分別選取4、16兩種不同k值,三維可視化結(jié)果如圖8、9所示。從實驗結(jié)果可以看出,在k取不同值時,三維可視化結(jié)果都呈現(xiàn)出較好的聚類效果,再次證明筆者所提方法對參數(shù)k具有魯棒性。
4 結(jié)束語
筆者提出一種基于全局約束的局部融合線性嵌入方法,該算法充分利用了數(shù)據(jù)的結(jié)構(gòu)信息,同時考慮低秩子空間和原流形空間中的幾何結(jié)構(gòu),使得其得到的低維嵌入結(jié)果更能反映滾動軸承真實的運(yùn)行狀態(tài)。最后,在兩個滾動軸承故障數(shù)據(jù)上進(jìn)行大量實驗,驗證了該算法對近鄰參數(shù)k的魯棒性,故障識別精度達(dá)到了97%以上,進(jìn)一步體現(xiàn)出該方法的優(yōu)越性。
參 考 文 獻(xiàn)
[1] 李志杰,陳吉清,蘭鳳崇,等.機(jī)械外力下動力電池包的系統(tǒng)安全性分析與評價[J].機(jī)械工程學(xué)報,2019,55(12):137-148.
[2] 龔榕,羅思琦,葉波,等.厚度無損檢測儀器的精度長期穩(wěn)定性研究[J].機(jī)械工程學(xué)報,2019,55(21):161-169.
[3] 張鍵.機(jī)械故障診斷技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008.
[4] 沈繼忱,趙士榮,董明瑞.管道振動故障三維識別方法[J].化工自動化及儀表,2012,39(1):28-31.
[5] 姜維,龐秀麗.面向數(shù)據(jù)稀疏問題的個性化組合推薦研究[J].計算機(jī)工程與應(yīng)用,2012,48(21):21-25.
[6] YUILLE A L,HALLINAN P W,COHEN D S.Feature extraction from faces using deformable templates[J].International Journal of Computer Vision,1992,8(2):99-111.
[7] LIN T,ZHA H.Riemannian Manifold Learning[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2008,30(5):796.
[8] SCH?魻LKOPF B,PLATT J,HOFMANN T.Convergence of Laplacian Eigenmaps[C]//Advances in Neural Information Processing Systems 19: Proceedings of the 2006 Conference.MIT Press,2006:129-136.
[9] BALASUBRAMANIAN M.The Isomap Algorithm and Topological Stability[J].Science,2002,295.DOI:10.1126/science.295.5552.7a.
[10] ZHANG Z Y,ZHA H Y.Principal Manifolds and Nonlinear Dimension Reduction via Local Tangent Space Alignment[J].Journal of Shanghai University,2002,8(4):406-424.
[11] HE X F.Locality preserving projections[J].Advances in Neural Information Processing Systems,2003,16(1):186-197.
[12] ROWEIS S T,SAUL L K.Nonlinear Dimensionality Reduction by Locally Linear Embedding[J].Science,2000,290:2323-2326.
[13] 王銳,王新.基于小波包熵和馬氏距離的級聯(lián)式變頻器故障診斷[J].自動化儀表,2017,38(12):27-30;36.
[14] MIAO A M,SONG Z H ,GE Z Q,et al.Nonlinear fault detection based on locally linear embedding[J].Journal of Control Theory & Applications,2013,11:615-622.
[15] LIU Y H,HU Z B,ZHANG Y S.Bearing feature extraction using multi-structure locally linear embedding[J].Neurocomputing,2020,428(4):280-290.
[16] 李元,李榕.基于多核支持向量機(jī)的多模態(tài)過程故障檢測[J].化工自動化及儀表,2022,49(3):286-293.
[17] JAIN N,VERMA S,KUMAR M.Adaptive Locally Linear Embedding for Node Localization in Sensor Networks[J].IEEE Sensors Journal,2017(9):2949-2956.
[18] 張紹輝,李巍華.可變近鄰參數(shù)的局部線性嵌入算法及其在軸承狀態(tài)識別中的應(yīng)用[J].機(jī)械工程學(xué)報,2013,49(1):81-87.
[19] ZHANG Y S,YE D,LIU Y H,et al.Robust locally linear embedding algorithm for machinery fault diagnosis[J].Neurocomputing,2018,273:323-332.
[20] HUANG L Z,ZHENG L X,CHEN C Y,et al.Locally Linear Embedding Algorithm with Adaptive Neighbors[C]//International Workshop on Intelligent Systems & Applications.IEEE,2009.DOI:10.1109/IWISA.2009.5 072944.
[21] 趙孝禮,趙榮珍.全局與局部判別信息融合的轉(zhuǎn)子故障數(shù)據(jù)集降維方法研究[J].自動化學(xué)報,2017,43(4):560-567.
[22] CANDES E J,LI X D,MA Y,et al. Robust Principal Component Analysis?[J].Journal of the ACM,2011,58(3):1-37.
(收稿日期:2022-09-23,修回日期:2023-05-24)
Bearing Fault Diagnosis Based on Global Constraint and Local Fusion Linear Embedding Algorithm
LIU Yuan-hong , HUANG Ying-tao
(College of Electrical and Engineering Information,Northeast Petroleum University)
Abstract? ?The local linear embedding method based on global constrain was proposed, which firstly imposed low-rank constraints on the data in the original space, captured the global subspace structure of the data and removed data noise at the same time; secondly, it mined? two geometric structures of the data in the low-rank subspace and the original space, respectively; then, through reconstructing the error, the importance of the two structures was evaluated, including realizing? linear fusion of the two structures; finally, the low-dimensional reconstruction function of the data was constructed to complete? extraction of the salient features of the data. Validation on the standard bearing data set and the data set collected in the laboratory shows that, this method can make good use of the global information of the data and the local reconstruction information, and it has good robustness together with correspondingly improved fault recognition rate.
Key words? ? local linear embedding, feature extraction, low-rank constraints, global structure, local structure, data dimension reduction