















摘要:針對現有的滾動軸承剩余使用壽命預測方法存在預測準確度不足、訓練效率不高等問題,提出一種時頻分析結合改進Transformer的軸承剩余使用壽命預測方法。首先用短時傅里葉變換提取軸承的時頻特征,為了改善Transformer的特征提取能力,研究了基于膨脹因果卷積的可變長度數據分析結構,并設計了自適應位置編碼模塊替代Transformer的傳統編碼方式,改進的模型增強了對時頻數據的分析能力,實現了高效、準確的端到端的滾動軸承剩余壽命預測。在PHM2012軸承數據集上的實驗結果表明提出的方法的效率比LSTM高20%,同時預測精度相比于多種現有傳統方法均具有16%以上的提升。
關鍵詞:剩余壽命預測;Transformer;膨脹因果卷積;自適應位置編碼
中圖分類號: TH865,TP391文獻標識碼: ADOI:10.3969/j.issn.1007-791X.2024.04.0030引言
滾動軸承等旋轉部件被廣泛應用在工業領域的各種機械設備中,它們的健康狀況會影響機械設備的整體運行,研究滾動軸承等旋轉部件的剩余使用壽命預測方法,對于合理安排設備維修以及避免重大安全事故的發生具有重要意義。
現有的機械設備剩余使用壽命(Remaining Useful Life,RUL)預測方法大致可分為三類:基于模型的預測方法[1-2]、數據驅動的預測方法以及模型和數據混合的預測方法[3]?;谀P偷念A測方法需要大量的先驗知識,且由于工業環境的復雜多變,建立準確的預測模型比較困難;數據驅動的預測方法,能夠充分利用數據資源,將其與高級信號處理理論相結合,減少了對專業知識的依賴,具有更廣闊的發展前景。早期數據驅動的預測方法有基于支持向量機[4]、基于相關向量機、基于人工神經網絡[5]等,但是此類模型本身的淺層網絡結構導致其特征提取能力不足,預測效果不夠理想?;旌项A測方法通過將物理和數據驅動模型結合來提高預測性能,但是設計融合兩種模型的機制同樣需要大量先驗知識。
近年來,深度神經網絡[6]依托其良好的特征提取和非線性擬合能力,能夠自動從原始數據學習高維特征表示,彌補了淺層網絡的不足,因此,學者們開始研究基于深度神經網絡的機械設備RUL預測方法[7]。Li等[8]提出了基于CNN多尺度特征提取的軸承RUL預測算法,實現了較為準確的滾動軸承RUL預測。Chen等[9]提出結合主成分分析和門控遞歸單元的預測方法。Zhao等[10]利用CNN從多傳感器數據中提取特征,并采用雙向LSTM對剩余使用壽命進行預測。Ma等[11]提出了基于CNN改進LSTM的RUL預測方法。Huang[12]提出基于雙向長短記憶神經網絡的軸承RUL預測方法。Yang等[13]提出了基于雙CNN架構的滾動軸承剩余使用壽命預測方法。Ali等[14]人將CNN和LSTM結合起來,使用LSTM提取時間特征,使用CNN提取空間特征,對機械設備RUL進行了預測。
通過分析文獻可知,現有的基于深度學習的RUL算法大多是基于CNN或LSTM等模型對單一時域或是頻域信息進行分析,忽略了軸承振動信號隨時間變化的特性,影響了模型預測準確度。此外,CNN只關注數據的局部特性忽略了數據之間的全局關系。循環神經網絡雖然能夠提取數據間的全局關系,但是自身的串行結構導致訓練效率低下。兩類模型的深層結構都會導致提取冗余特征,影響預測的準確性和算法效率,因此既能關注數據中的全局時間關系又能根據特征重要性簡化計算的高效算法研究得到了廣泛關注。注意力機制[15]可以根據輸入信息的重要性程度給予不同權重,具有全局特征篩選功能,在處理序列任務時具有天然的優勢。Transformer作為一種注意力機制模型[16],避免了遞歸結構,完全依賴于自注意力機制來描述輸入和輸出之間的關系,具有強大的全局特征提取能力,在自然語言處理[17]、圖像識別[18-19]等多個領域成功應用并表現出優異性能,彌補了傳統CNN以及循環神經網絡在序列任務上的不足。
綜上,本文將Transformer模型引入軸承RUL預測研究,并對其改進,提出一種結合時頻分析的膨脹因果卷積改進Transformer(Dilated Casual Convolution Enhanced Transformer,DCCET)剩余壽命預測方法。該方法引入膨脹因果卷積,增強了原始Transformer對歷史數據的利用,改善了其時頻特征提取能力;并實現了新的位置編碼方式,避免了編碼函數的選擇和外來數據引入對模型預測性能的影響[19],使其更適合于滾動軸承RUL預測任務,在此基礎上構建深度網絡對監測信號的時頻變換結果進行分析,實現了更為準確的RUL預測。
1Transformer模型及其改進
1.1Transformer基本結構及原理
Transformer模型是一種完全基于自注意力機制的模型[16],其原始模型由Encoder和Decoder兩部分組成,其中Encoder因其優異的全局建模能力被研究人員用來解決各自領域的問題,例如,Vision Transformer和Swin Transformer模型都使用了Encoder部分解決視覺領域的問題。Encoder部分的具體結構如圖1所示。
Fig.1Structure of Transformer encoder該結構由多頭自注意力層、層歸一化、前饋神經網絡層、位置編碼和殘差連接組成,其中最重要的部分是自注意力機制,自注意力也被稱為內部注意力機制,它可以動態生成不同連接的權重,Transformer中使用的多頭自注意力機制,其計算過程為
MSA(Q,K,V)=δ(h0,h1,…,hn)WO ,(1)
式中,MSA表示多頭自注意力計算,Q、K、V表示查詢、鍵、值,δ表示拼接運算,hi表示第i個自注意力頭,i的大小需要根據實際情況選取。多頭自注意力機制可以將序列不同的位置聯系起來計算不同時間點的長期關系表示,捕獲數據在多種維度上的相關系數,從而使得Transformer模型具有更強的全局特征提取與建模能力。
1.2非平穩信號的自適應歷史數據分析
滾動軸承的退化數據具有非平穩性。為更好分析其退化過程,本文對原始振動信號進行時頻變換,得到更能反映退化過程的時頻域信息??紤]到單一固定窗長難以充分提取描述軸承狀態變化的特征,本文引入膨脹因果卷積對Transformer模型改進,增強對時頻數據的特征提取,改善軸承退化分析的準確度。
膨脹因果卷積[20]是一種內部具有因果結構的一維卷積神經網絡模型,對時頻數據具有很強的特征提取能力。膨脹因果卷積的結構如圖2所示。
圖2中d為膨脹系數。膨脹操作相當于在兩個相鄰的卷積核間引入固定步長,因果結構保證膨脹因果卷積當前時刻輸出僅與當前時刻的數據及其之前的歷史數據有關。因此,膨脹因果卷積具有兩個重要特點:
1) 根據所利用歷史數據的不同,輸入數據序列的不同位置所對應的輸出中攜帶了獨特的位置信息,且其并行結構也能保持較高的計算效率。
2) 每一層提取了不同周期下的抽象特征,從而使用適當的參數量就可以充分利用不同時間的歷史數據,實現不同長度歷史數據的自適應分析,改善對時頻信息的特征分析能力。
由圖2可以看出膨脹因果卷積所能利用的歷史數據的長度由感受野決定,膨脹操作在一定程度上擴大了感受野,配合堆疊多層構成卷積塊的策略能夠進一步增大感受野,增加能夠分析的歷史數據長度,改善預測性能。因此,本文構建膨脹因果卷積塊(Dilated Casual Convolution block,DCC block)用于進行時頻數據的分析,其結構如圖3所示。
該塊結構由膨脹因果卷積、激活函數、Dropout層和殘差連接構成,其多層結構可以實現自適應變化的感受野,增加歷史數據的利用率,更好地實現非平穩信號自適應分析;另一方面,針對網絡模型層數加深可能出現的模型退化問題,引入殘差連接保持網絡模型的穩定性,其輸入輸出關系為
Y=F(X,{Wi})+WsX,(2)
式中,X表示輸入該卷積塊的向量,Y表示該卷積塊的輸出向量,F表示需要學習的殘差映射。
1.3自適應位置編碼方式的實現
由Transformer基本結構可知,位置編碼使得模型具有辨別數據先后順序的能力,這對于RUL預測這種時序任務具有重要意義。然而,原始Transformer模型的位置編碼方式是采用位置編碼函數產生位置編碼矩陣,位置編碼函數的選擇不僅要求先驗知識,而且引入的外來數據可能破壞振動信號中的退化信息從而影響最后的預測結果。文獻[21]提出了一種用長短時記憶網絡代替常規位置編碼函數的方法,在時序預測任務上取得了較好的效果,因此,可以用能夠提取數據中位置信息的神經網絡來代替常規位置編碼函數。
在上節的膨脹因果卷積結構中提到,該結構在不引入外部數據的情況下即可實現唯一的位置編碼,因此本節通過級聯3個DCC block構成自適應位置編碼模塊,對Transformer模型進行自適應位置編碼方式的改進。為了比較兩種位置編碼方式的不同,圖4對比了本文提出的自適應位置編碼與原始編碼方式的實現過程。
如圖4(a)所示,原始Transformer模型中,位置編碼通過編碼函數生成的同型矩陣與原始數據相加產生。對不同的任務,編碼函數選擇需要專業知識;而且位置編碼向量與輸入數據直接相加的方法,有可能破壞原始數據中的退化信息,影響RUL預測的效果。
本文提出的自適應位置編碼方式如圖4(b)所示,以膨脹因果卷積為核心,對于輸入向量X中s位置的元素,其歷史數據的特征提取過程為
F(s)=∑k-1i=0f(i)·Xs-d·i,(3)
式中,d表示膨脹因子,f表示卷積核,k表示卷積核的尺寸,s-d·i表示當前位置元素的歷史數據的方向。為了防止多層DCC block堆疊導致深度網絡加深帶來的模型退化,本文在提出的自適應位置編碼層引入了殘差連接,其實現過程為
o=σ(X+F(X)),(4)
式中,X表示輸入序列,o表示輸出的攜帶位置信息的數據,σ表示殘差運算,F表示多個DCC block對于輸入數據的特征提取等操作。為了更直觀分析自適應位置編碼層,使用Pos表示自適應位置編碼層的計算過程,自適應位置編碼過程可以簡化描述為
θ(t,n)=Pos(X),(5)
式中,X表示輸入數據,θ(t,n)表示經過編碼值后融入了位置信息的輸出向量,n表示位置標簽。結合圖4(b)可以看出,在t時刻,時頻域數據經過一個長為L的滑動窗口取樣后組成一個包含當前時刻和前L-1個時刻的輸入向量X,將該向量輸入自適應位置編碼層。自適應位置編碼層根據輸入數據的歷史信息編碼,輸出長度為L攜帶有位置信息的向量θ=[θ(t,n-L),θ(t,n-L+1),…,θ(t,n)]。
本文提出的自適應位置編碼方式的輸出是由位置編碼層通過特征提取完成的,其自適應性在于輸出的位置編碼完全由輸入歷史數據的長度和內容決定,針對不同位置的數據采用不同內容和長度的歷史數據,因此攜帶唯一的位置信息,使得Transformer具有能夠辨別數據先后順序的能力。與原始Transformer中的位置編碼方法相比,本文方法不需要選擇編碼函數,位置信息完全由自適應位置編碼模塊根據輸入數據的提取結果決定,沒有引入外來數據,不會破壞原數據中的退化信息;此外,提出的位置編碼塊保持了模型的整體并行架構,提高了訓練效率。
2軸承剩余使用壽命預測模型
本文的DCCET軸承RUL預測方法模型是通過構造以膨脹因果卷積結構為主體的深度網絡并結合時頻分析,增強了原始Transformer模型對故障演化特征的分析能力,實現新的位置編碼方式改善了RUL預測效果。
2.1振動信號的短時傅里葉變換
機械設備退化時,產生的振動信號呈現時變和非平穩特性,這種情況下,單獨使用時域或頻域分析都難以提取足夠的退化信息,因此,本文采用短時傅里葉變換處理振動信號,通過對不同瞬態對應的頻譜分布進行分析,得到信號的頻率隨時間變化的規律。短時傅里葉變換的計算過程為
X(ω,t)=∫∞-∞x(τ)ω(τ-t)e-iwtdτ,(6)
式中,信號x(t)的短時傅里葉變換是t和ω的二元函數,其中ω表示時間窗口函數,t表示時間窗口函數的位置,隨著時間窗口函數ω在整個積分區間上的滑動可以獲得信號x(t)在各局部區間上對應的頻譜。
2.2軸承剩余使用壽命預測框架
采用DCCET實現滾動軸承RUL預測的總體處理過程如圖5所示。
在前文提出的改進模型基礎上構造深度增強網絡DCCET,由堆疊的DCC block、層歸一化、多頭自注意力機制、前饋網絡層和全連接層組成。堆疊DCC block作為自適應位置編碼層,用于增強Transformer模型對時頻特征的提取能力,并根據輸入數據及其相應歷史數據進行自適應的位置編碼。
2.3軸承剩余使用壽命預測的處理步驟
本文提出方法的總體處理過程包含離線訓練和在線預測兩個階段,兩個階段都包含數據采集、數據預處理、網絡訓練與RUL預測三部分,主要步驟如下:
1) 訓練數據集構建。對訓練數據利用短時傅里葉變換以及滑動窗口取樣處理,構建有標簽的訓練數據集Dtrain={(xtrain,i,ytrain,i)}。
2) 振動信號特征提取與自適應位置編碼。將時頻域數據輸入振動信號特征提取與位置編碼模塊得到位置編碼后的數據D′train={(θtrain,i,ytrain,i)}。
3) 基于深度網絡的壽命預測。
① 完成位置編碼的數據θtrain,i先輸入多頭自注意力機制,多頭自注意力機制的輸出由n個并行執行的自注意力頭產生的多維輸出再次投影產生。
② 多頭注意力機制的輸出經過層歸一化后,再經過由兩個全連接層和一個ReLU激活函數構成的前饋神經網絡層,再經過一個層歸一化處理,其輸出為
FFN(MSA(θ))=
LayerNorm(ReLU(MSA(θ)W1+b1)W2+b2),(7)
至此實現一個Transformer Encoder的輸出,經過多個模塊處理,輸出的數據輸入三層全連接層進行擬合得到RUL的預測值。
4) RUL預測。將用于測試的軸承振動信號處理后輸入訓練好的預測模型得到該軸承RUL,實現端到端的RUL預測。
3實驗相關情況介紹
3.1數據集介紹
為了驗證本文方法的有效性,采用IEEE PHM Challenge 2012滾動軸承數據集[22]的數據進行實驗。該數據集的具體情況如表1所示,共計17個軸承在3種不同的運行條件下進行測試,其中工況1和工況2各有7個軸承參與測試,工況3有3個軸承參與測試。
3.2數據預處理及評價指標
3.2.1歸一化處理
由于參與測試的軸承的生命周期的范圍較大,使用其RUL的真實數值進行模型訓練,會因其顯著差異導致模型欠擬合,造成預測效果不好。因此,將RUL的數值歸一化到[0,1]的范圍。歸一化計算過程為
RULtnorm=RULtRULmax,(8)
其中,RULmax表示受測軸承的最長RUL,即軸承開始運行時刻的RUL,RULt表示參與測試的軸承在t時刻的RUL,RULtnorm表示歸一化之后的RUL的數值。
3.2.2時頻域變換
PHM2012數據集中每個數據含有水平和垂直兩個方向的振動信息,已有研究[23-24]表明,水平方向的振動數據含有更多的退化信息,因此本文以水平方向采集的數據作為研究對象。原始振動數據經過基于Hanning窗函數的短時傅里葉變換處理,從時域變換到時頻域,圖6給出了軸承1-1最后一個采樣時間點的時頻轉換結果。
3.2.3滑動時間窗口采樣
滾動軸承RUL預測中,當前采樣時間點的預測結果不僅取決于當前的數據還受之前數據的影響,如果只采用當前采樣時間的數據作為輸入就會忽略先前數據中的時間信息,因此,引入滑動時間窗口策略,利用固定長度的時間窗口以步長為1在預處理之后的信號上滑動采樣,組成高維向量作為網絡模型的輸入,計算過程為
Xtinput=(xt-W+1,xt-W+2,…,xt),(9)
式中,Xtinput表示t時刻的輸入矩陣,xt表示預處理后的時頻數據,W表示滑動時間窗口的長度,即輸入中包含當前采樣時間點和當前采樣時間點之前W個采樣時間點的數據。
3.2.4預測結果評價指標
為準確評估模型的預測效果,采用RUL的真實值和預測值的均方誤差(Mean Square Error, MSE)和平均絕對誤差(Mean Absolute Error, MAE)作為評價指標:
1) RMSE:
ERMSE=1N∑Ni=1(yitrue-yipred)2,(10)
2) MAE:
EMAE=1N∑Ni=1yipred-yitrue,(11)
式中,N表示測試樣本數量,yitrue表示實際壽命,yipred表示預測壽命。
4實驗結果及分析
采用PHM2012滾動軸承數據集工況1的軸承數據進行驗證,共設置7個預測任務,每次選擇7個軸承數據中的一個作為測試集,剩下的6個數據集作為訓練集。為避免偶然誤差的影響,每個預測任務重復10次,統計均值和方差。本文實驗環境為PyTorch 1.10.2,運行該實驗環境的計算機配置為64位Windows系統,i7-11700K,RTX3050,16GB RAM。為了獲得更好的訓練效果,模型訓練過程中采用了動態調整學習率策略。
4.1滑動時間窗口長度的選擇
在序列任務中,滑動時間窗口長度是影響訓練時間和模型準確性的重要參數,本節通過設定不同長度的滑動時間窗口,研究窗長對模型的訓練時間和預測效果的影響。表2統計了預測結果的兩個評價指標值以及訓練時間。
由表2的統計結果可以看出,隨著滑動時間窗口長度的增加,本文方法的預測效果明顯改善,但模型的訓練時間也隨之增加,尤其是當滑動窗長超過10以后,模型訓練耗時增加更為顯著。綜合考慮模型的預測效果和訓練耗時,在滑動窗口長度為10的時候,模型的RMSE達到0.0941,MAE為0.0785均為最好,訓練耗時也沒有大幅度提升,因此本文選取的滑動時間窗口長度為10。
4.2模型其他主要參數配置及預測結果
本文提出方法的其他主要參數包括:膨脹因果卷積塊的個數及卷積核尺寸,Dropout的比例、滑動時間窗口的長度,Transformer中多頭注意力機制的注意力頭的個數等。實驗中采用的主要參數值見表3。
表3設置本文方法的相關參數,在選定的7個軸承數據集上進行實驗。采用輪流交叉驗證策略,每一個軸承數據集輪流作為測試集,其余6個軸承作為訓練數據集,測試的結果見表4,方法的總體預測結果的RMSE平均值為0.134 9,MAE平均值為0.108 5。
4.3DCCET的改進效果分析
本文方法對原始Transformer模型進行了信號特征提取以及位置編碼方式上的改進,為了驗證改進的效果,將本文方法與原始Transformer模型(Transformer,TRA)以及使用常規編碼方式且利用一維卷積增強時頻信號特征提取能力的Transformer模型(Convolution Transformer,CoT)進行對比,網絡輸入均采用時頻數據。用于比較的模型的網絡參數配置如表5所示。
在PHM2012數據集上進行多次實驗,對比方法統計RMSE和MAE指標結果如圖7所示。
由圖7可以看出,采用傳統Transformer模型的預測結果各項指標最差,經過信號特征增強的CoT模型預測結果各項指標好于傳統模型,本文模型預測結果的各項指標最好。
4.4與常用預測方法的對比
本文在Transformer模型的基礎上進行了改進,提高了滾動軸承RUL預測的準確度和效率,為了驗證本文方法的優越性,將本文方法與常用預測方法進行了對比。
本文提出的DCCET模型采用了并行結構,而傳統的LSTM等循環神經網絡采用串行結構,為了對比兩類方法在訓練效率上的差異,本節將DCCET與LSTM進行對比,兩種方法的輸入均采用相同的預處理方式,具體的網絡結構如表6所示。
表7顯示了兩種方法迭代100個epoch的訓練時間,圖8顯示了測試的loss曲線。
由結果可以看到,DCCET在收斂速度、訓練效率上比LSTM更具優勢,這源于并行架構可以同時處理多組輸入數據,而串行架構依次處理輸入數據,這種效率優勢在數據量增多的時候更為明顯,所以本文提出的方法可適用于長期運行的工業環境。為進一步驗證本文方法的優勢,將其與SVR[25],CBLSTM[10],MDBGRU[26]三種現有的常用模型進行比較,參數配置見表8。
圖9給出不同預測方法在軸承1-1上的RUL預測結果。
從圖9的預測結果可以看出本文提出的方法在軸承1-1的RUL預測效果最好。為了更全面地比較本文方法與對比方法的綜合性能,將幾種方法在另外6個任務上進行實驗,統計7個任務預測結果的整體指標。從表9的統計結果可以看出,本文提出的方法在預測準確度上優于常規的機器學習模型和循環神經網絡等深度學習模型,表明本文方法能夠更加充分提取數據之間的時間相關性,實現更為準確的滾動軸承RUL預測。
5結論
本文提出了一種時頻特征結合改進Transformer的滾動軸承RUL預測方法。該方法利用短時傅里葉變換提取原始信號的時頻特征,并利用膨脹因果卷積增強了傳統Transformer的特征提取能力,提出在不引入額外數據的情況下對輸入數據進行自適應位置編碼的編碼方式,提高了Transformer模型對時頻信號的分析能力和對歷史數據的利用率,實現了高效準確的端到端的滾動軸承RUL在線預測。本文方法在PHM2012軸承數據集上進行了實驗驗證,結果表明本文方法不僅能夠充分提取數據之間時間相關性進行準確的RUL預測,而且其并行架構也能帶來計算效率的提升。
參考文獻
[1]LEI Y,LI N,GONTARZ S,et al.A model-based method for remaining useful life prediction of machinery[J].IEEE Transactions on Reliability,2016,65(3): 1314-1326.
[2]金曉航,李建華,孫毅.基于二元維納過程的軸承剩余壽命預測[J].儀器儀表學報,2018,39(6): 89-95.
JIN X H,LI J H ,SUN Y.Bearing remaining useful life prediction based on two-dimensional wiener process[J].Chinese Journal of Scientific Instrument,2018,39(6): 89-95.
[3]景博,崔展博,孫宏達,等.失效物理與數據驅動融合的燃油泵在線壽命預測[J].儀器儀表學報,2022,43(3): 68-76.
JING B,CUI Z B,SUN H D,et al.Online life prediction of the fuel pump based on failure physics and data-driven fusion[J].Chinese Journal of Scientific Instrument,2022,43(3): 68-76.
[4]HUANG H,WANG H,LI Y,et al.Support vector machine based estimation of remaining useful life: current research status and future trends[J].Journal of Mechanical Science and Technology,2015,29(1): 151-163.
[5]MAHAMAD A K,SAON S,HIYAMA T.Predicting remaining useful life of rotating machinery based artificial neural network[J].Computers amp; Mathematics with Applications,2010,60(4): 1078-1087.
[6]SCHMIDHUBER J.Deep learning in neural networks: an overview[J].Neural Networks,2015,61: 85-117.
[7]姜萬錄,李振寶,雷亞飛,等.基于深度學習的滾動軸承故障診斷與性能退化程度識別方法[J],燕山大學學報,2020,44(6):526-536.
JIANG W L,LI Z B,LEI Y F,et al.Deep learning based rolling bearing fault diagnosis and performance degradation degree recognition method [J].Journal of Yanshan University,2020,44(6):526-536.
[8]LI X,ZHANG W,DING Q.Deep learning-based remaining useful life estimation of bearings using multi-scale feature extraction[J].Reliability Engineering amp; System Safety,2019,182: 208-218.
[9]CHEN J,JING H,CHANG Y,et al.Gated recurrent unit based recurrent neural network for remaining useful life prediction of nonlinear deterioration process[J].Reliability Engineering amp; System Safety,2019,185: 372-382.
[10]ZHAO R,YAN R,WANG J,et al.Learning to monitor machine health with convolutional bi-directional LSTM networks[J].Sensors,2017,17(2): 273.
[11]MA M,MAO Z.Deep-convolution-based LSTM network for remaining useful life prediction[J].IEEE Transactions on Industrial Informatics,2021,17(3): 1658-1667.
[12]HUANG C,HUANG H,LI Y.A bidirectional LSTM prognostics method under multiple operational conditions[J].IEEE Transactions on Industrial Electronics,2019,66(11): 8792-8802.
[13]YANG B,LIU R,ZIO E.Remaining useful life prediction based on a double-convolutional neural network architecture[J].IEEE Transactions on Industrial Electronics,2019,66(12): 9521-9530.
[14]AL-DULAIMI A,ZABIHI S,ASIF A,et al.A multimodal and hybrid deep neural network model for remaining useful life estimation[J].Computers in Industry,2019,108: 186-196.
[15]CHAUDHARI S,MITHAL V,POLATKAN G,et al.An attentive survey of attention models[J].ACM Transactions on Intelligent Systems and Technology,2021,12(5): 1-32.
[16]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of 31st Conference on Neural Information Processing Systems, Long Beach,USA, 2017: 5998-6008.
[17]DEVLIN J,CHANG M,LEE K,et al.BERT: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Stroudsburg, 2019: 4171-4186.
[18]DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL].(2020-10-22)[2023-03-25]. https://arxiv.org/abs/2010.11929.pdf.
[19]LIU Z,LIN Y,CAO Y,et al.Swin transformer: hierarchical vision transformer using shifted windows[C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision, Piscataway, 2021: 10012-10022.
[20]BAI S,KOLTER J Z,KOLTUN V.An empirical evaluation of generic convolutional and recurrent networks for sequence modeling,[EB/OL].(2018-03-04)[2023-03-25]. https://arxiv.org/abs/1803.01271.pdf.
[21]LIM B,ARIK S ,LOEFF N,et al.Temporal fusion transformers for interpretable multi-horizon time series forecasting[J].International Journal of Forecasting,2021,37(4): 1748-1764.
[22]NECTOUX P,GOURIVEAU R,MEDJAHER K,et al.PRONOSTIA: an experimental platform for bearings accelerated degradation tests[C]// IEEE International Conference on Prognostics and Health Management,Denver, USA,2012.
[23]SINGLETON R K,STRANGAS E G,AVIYENTE S.Extended Kalman filtering for remaining-useful-life estimation of bearings[J].IEEE Transactions on Industrial Electronics,2015,62(3): 1781-1790.
[24]SOUALHI A,MEDJAHER K,ZERHOUNI N.Bearing health monitoring based on Hilbert-Huang transform,support vector machine,and regression[J].IEEE Transactions on Instrumentation and Measurement,2015,64(1): 52-62.
[25]SAIDI L,BEN ALI J,BECHHOEFER E,et al.Wind turbine high-speed shaft bearings health prognosis through a spectral Kurtosis-derived indices and SVR[J].Applied Acoustics,2017,120: 1-8.
[26]BEHERA S,MISRA R,SILLITTI A.Multiscale deep bidirectional gated recurrent neural networks based prognostic method for complex non-linear degradation systems[J].Information Sciences,2021,554: 120-144.
Remaining useful life prediction method for
rolling bearing based on enhanced Transformer
WEN Jiangtao1,2,ZHANG Zhe1,2
(1.School of Electrical Engineering ,Yanshan University,Qinhuangdao,Hebei 066004,China;
2.Key Laboratory of Measurement Technology and Instrumentation of Hebei Province,
Yanshan University,Qinhuangdao,Hebei 066004,China)
Abstract: To address the problems of insufficient prediction accuracy and low training efficiency of existing rolling bearing remaining life prediction methods,a time-frequency analysis combined with an improved Transformer is proposed for bearing remaining life prediction.First,the short-time Fourier transform is used to extract the time-frequency features of complex vibration signals.To improve the feature extraction capability of the Transformer,a variable length data analysis structure based on dilated causal convolution is investigated,and an adaptive position coding module is designed to replace the traditional coding method of the Transformer.The improved model enhances the analysis of time-frequency data and achieves an efficient and accurate end-to-end prediction of the remaining life of rolling bearings.Experimental results on the PHM2012 bearing dataset show that the proposed method has higher training efficiency and better prediction accuracy than traditional methods.
Keywords: remaining useful life prediction; Transformer; dilated causal convolution; adaptive positional encoding