周立儉,卜振飛,耿增榮,孫伊萍,周玉國
(青島理工大學 信息與控制工程學院,青島 266525)
軸承是機械設備運轉過程最容易損壞的部件,例如在交流同步、交流異步、直流電機中軸承的損壞比例分別為51%,41%和42%[1]。為了避免軸承損壞造成安全生產事故,建立了基于數據驅動的健康評估框架、工業裝備故障預測與健康管理(簡稱PHM)系統[2]。軸承作為PHM中的核心,對其進行剩余壽命(RUL)預測可以避免機械設備突發事故造成的損失,具有重要的現實意義。
隨著深度學習技術的發展,相關理論的完善,基于數據驅動的預測方法中,利用深度學習進行RUL預測逐漸成為主流。馬占偉等[3]建立了多尺度卷積神經網絡(CNN)對軸承數據進行特征提取,構建退化指標;張繼冬等[4]則是建立了基于全卷積的預測網絡,去掉神經網絡中的全連接層來減少神經網絡需要訓練的參數。為了利用軸承數據之間的時序相關性,蔡薇薇等[5]先對軸承數據進行頻域特征提取,然后利用卷積神經網絡(CNN)與長短期記憶網絡(LSTM)組成的預測模型進行深層特征提取和RUL預測。孫世巖等[6]利用動態時間規整算法擴增數據集訓練預測網絡BLSTM;而為了使網絡在特征提取時得到更為有效的退化特征,DU等[7]將全局注意力結構加入預測網絡用以調整退化特征的貢獻度。
上述基于深度學習網絡建立的預測模型,不管是利用CNN還是LSTM進行特性提取時,數據稍微平移,絕大多數CNN的輸出會發生變化,而可變形卷積[8]在每個卷積采樣點上增加了偏移量,可以獲得不規則數據的不變特征。但因為可變形卷積的參數計算量較大,太多可變形卷積的堆疊會造成計算負擔太大,因此本文在使用較少可變卷積核的基礎上進一步利用注意力機制、普通的卷積計算和殘差結構構建了基于可變形卷積的RUL預測模型(ADRN),減小計算負擔的同時也提高了預測精度。又因為預測網絡越來越復雜,如果不對網絡訓練加以約束,網絡權重更新就變得不穩定,為使網絡在面對異常數據時也能有效調節網絡訓練的權重,本文在訓練過程中提出了基于均方誤差(MSE)與均方根對數誤差(RMSLE)的動態損失函數。
因為原始的軸承數據變化是非平穩的,很難體現出軸承的退化趨勢,ZHU等[9]在軸承的RUL預測工作中,采用小波變換獲得軸承原始數據的時頻特征圖作為模型輸入,與使用原始信號或時域、頻域特征相比,在CNN預測網絡中取得了更好的RUL預測精度。因此本文首先使用了連續小波變換(CWT)提取軸承數據的時頻特征圖作為網絡的輸入。
綜上所述,本文首先利用CWT變換提取軸承的時頻退化特征,然后,建立了使用可變形卷積、普通卷積、注意力機制與殘差結構的ADRN預測網絡,最后,為了對網絡的訓練加以約束,構建了動態損失函數。
本文使用IEEE PHM2012軸承數據集[10]來進行實驗。PHM2012數據由IEEE可靠性協會和法國FEMTO-ST提供,在PRONOSTIA平臺(圖1)上進行,該平臺通過傳感器收集來自水平和垂直方向的振動加速度信號,傳感器每10 s收集1次0.1 s的數據(頻率25.6 kHz)。PHM2012采集了3種不同轉速負載下17個滾動軸承的數據,其測試集與訓練集的劃分如表1所示。

表1 PHM2012數據集中訓練集與測試集劃分

圖1 PRONOSTIA實驗臺[10]
本文使用預測誤差評價預測效果,對模型整體的精度使用分數(S)作為評價標準。
1) 預測誤差:
(1)
式中:E為預測誤差;ARUL為軸承的真實剩余壽命;PRUL為軸承的預測剩余壽命。
2) 分數:
在實際的生產生活中,欠預測(E>0)優于過預測(E<0),因此在后續的實驗中,使用評價指標分數來描述這種影響,第i個軸承的評價分數Ai為
(2)
Ai越接近1,預測的精度越高。在同精度下,欠預測得分是高于過預測的。為評價模型的整體精度,將所有N個測試軸承的評價指標求平均得到模型的評價分數,記作S。
(3)
相較于可變形卷積,普通卷積固有的幾何結構對未知形狀的數據特征建模存在不足。以圖2為例,在對時頻圖進行卷積計算時,普通卷積的卷積核為固定的矩形,而可變形卷積則可以通過一個偏移量來適應特征的幾何形狀。

圖2 可變形卷積與普通卷積示意
普通卷積與可變形卷積的計算輸出定義如下。
1) 普通卷積計算。使用規則網格G對二維特征圖采樣時,對于一個膨脹率為1的3×3卷積核而言,G可表示為
G={(-1,-1),(-1,0),…,(0,1),(1,1)}
(4)
其中,G的每個元素代表卷積核的所有位置相對于中心位置的偏移量。
因此對于采樣中心位置為p0的普通卷積而言,其計算輸出為
y(p0)=∑pn∈Gw(pn)·x(p0+pn)
(5)
式中:pn為采樣點位置;w(·)為卷積得到的當前位置權值;x(·)為輸入對應的位置值。
2) 可變形卷積計算。對于可變形卷積而言,通過在G上增加偏移量得到式(6):
y(p0)=∑pn∈Gw(pn)·x(p0+pn+Δpn)·Δmn
(6)
式中:Δpn為采樣點位置pn的偏移量;Δmn為權值調制參數,Δmn∈[0,1]。
Δpn與Δmn通過額外的卷積層計算得到,額外卷積層在計算時所使用的學習率為原有卷積層的0.1倍,Δpn與Δmn的初始值分別為0和0.5。
為了對滾動軸承進行準確地RUL預測,本文構建了基于圖像化軸承時頻特征數據與深度學習網絡的預測方法,如圖3所示。該方法由數據預處理、ADRN預測網絡和RUL預測3個模塊組成。

圖3 軸承RUL預測方法流程
數據預處理模塊:①利用CWT提取軸承的時頻特征,并生成時頻圖;②使用雙行性差值對原始的軸承時頻圖進行降維;③將每個采樣時刻水平與垂直方向的時頻圖利用通道拼接構建成新的軸承退化數據。
ADRN預測網絡模塊:ADRN預測網絡主要由注意力、殘差可變卷積與殘差普通卷積構成,并使用動態損失減少網絡訓練中的異常值。①在軸承深層退化特征提取過程中,注意力機制為初級退化特征分配貢獻權值;②使用殘差可變卷積與普通卷積自動提取軸承深層退化特征;③在網絡訓練過程中利用由MSE與RMSLE組成的動態損失函數約束預測網絡;④通過全連接層對深層退化特征下采樣,并使用Tanh激活函數計算并輸出健康因子。
RUL預測模塊:①將預處理后的數據測試集輸入訓練好的預測網絡,得到預測健康因子(HI);②為去除HI中的異常值并加強軸承的退化趨勢,使用Savitzky-golay濾波器平滑預測HI;③利用多項式函數精確擬合平滑后的HI,得到軸承的預測RUL。
當滾動軸承運行到生命后期,由于脈沖變載荷原因造成軸承處于非平穩的狀態,因此收集到的軸承原始振動信號也是非平穩、非線性的[11],不能清晰和準確描述軸承的退化特征,降低了RUL預測效果。因此本文通過CWT提取軸承的時頻故障特征圖。以訓練集Bearing1-1第2600個采樣時刻的原始振動數據為例,軸承原始振動數據與CWT時頻如圖4(a)和(b)所示,軸承時頻特征圖中的故障特征更為清晰豐富。

圖4 數據預處理過程
進行預測網絡訓練時,時頻圖的尺寸過大會影響到網絡訓練的效率。因此本文首先對原始CWT時頻圖(840×840×3)使用雙線性插值將其縮小到適合處理尺寸(224×224×3),如圖4(b)和(c),最后將得到的每一采樣時刻水平與垂直方向的時頻圖利用通道拼接構成新的退化數據特征(n×224×224×6,n為采樣時刻)。
本文的預測網絡具體結構如圖5所示,其中,降級卷積降采樣層由1層7×7的二維卷積與1層二維全局平均池化組成;注意力結構由通道與空間注意力組成;可變卷積層則是由可變卷積塊與下采樣可變卷積塊組成。

圖5 ADRN預測網絡結構
2.2.1 注意力
預測網絡在訓練時,首先將輸入尺寸為224×224的時頻退化數據通過卷積核為7×7的二維卷積進行降采樣,得到退化特征(F);之后由通道與空間注意力為退化特征重新分配權重;最后,在全連接層將深度退化特征計算為健康因子HI之前,使用通道與空間注意力為深度退化特征(F′)重新分配權重,使網絡在特征提取時關注到更為重要的退化特征。具體流程如圖6所示。

圖6 注意力機制
退化特征中的每一個通道都代表一個特征的表達,因此,為了在特征提取時充分利用特征圖中的有效特征數據,使用通道注意力為特征圖中的每一個通道賦予一個數值,將該數值與對應的特征圖元素進行相乘計算,得到加權后的退化特征。為確定特征圖不同空間方位重要程度,通過空間注意力的像素級的計算,可以得到特征圖中每一通道上的每一像素值的權重。
2.2.2 深度殘差可變卷積
軸承的CWT時頻圖中不同特征之間的邊界劃分較為復雜,而且時頻圖中的特征形狀是不規則的,如圖4(b)所示。因此,為了獲得更為準確的特征信息,本文利用可以適應特征的幾何形狀可變形的二維卷積構建了可變卷積層,而構成可變卷積層的可變卷積層塊與下采樣可變卷積塊的結構如圖7所示。

圖7 可變卷積層
在可變卷積塊中,首先由普通卷積對退化特征D進行3×3的卷積計算,并由批標準化(BachNorm2D)與激活函數(ReLU)進行處理得到退化特征D1;然后使用卷積尺寸為3×3的可變卷積計算D1,得到退化特征D2;最后在殘差結構中D與D2逐點相加,得到退化特征D3。較于可變卷積塊,下采樣可變卷積塊,則是在殘差結構中加入了1×1的二維卷積,對特征進行升維和下采樣處理。
可變形卷積計算時會對采樣點的權重再次分配,因此在可變卷積塊與下采樣可變卷積塊中,并沒有加入空間與通道注意力。但是因為可變形的卷積計算和采樣點權重分配會成倍地增加模型參數,因此本文的卷積計算并沒有全部使用可變形卷積,而是加入了普通卷積來增加網絡計算復雜度。同時為避免網絡深度增加造成梯度的不穩定,在網絡構建時加入了殘差結構。
2.2.3 動態損失
滾動軸承在退化過程中經常出現瞬時突發故障,而在網絡訓練過程中,這些突發故障數據有可能造成影響網絡精度與穩定性的異常值出現;并且隨著網絡的加深,計算復雜度的上升,在網絡訓練過程中難免出現異常值。而為了減少網絡訓練時異常值影響,本文將MSE與RMSLE損失函數相結合,當訓練集的真實值與預測值的差小于閾值(σ)時,網絡利用MSE損失函數訓練,而當真實值與預測值的差大于閾值(σ)時則使用RMSLE損失函數,即
(7)

當面對較小的訓練誤差時,MSE可以有效地將網絡收斂到最小值;而當面對較大的訓練誤差時,RMSLE因對數的計算所以幾乎不受影響。
為了對比不同閾值設置下的網絡訓練結果,本文分別設置閾值0.01,0.05,0.1,0.5,1和5進行對比訓練。在訓練過程中,測試集數據設置退化標簽用以監督,其定義為:當前運行時刻/總運行時間,分布于0~1之間,代表了軸承運行到此時的損壞程度,0為完全健康、1為完全失效,并使用Adam優化器、學習率為0.001、批量大小為4、訓練周期為50作為網絡訓練的超參數設置。PHM2012中所有訓練集的平均誤差(MAE)與確定系數(R2)的平均值如表2所示。

表2 不同閾值設置下的訓練結果
由表2可以觀察到,當閾值設置為0.01時網絡訓練效果較差,而其余閾值的設置下網絡訓練結果非常相近,當閾值為0.01時網絡的損失函數為RMSLE。為了進一步選取合適的閾值設置,本文使用測試集軸承Bearing1-6(退化過程存在異常故障)對比了不同閾值設置下的HI預測結果(圖8)。

圖8 不同閾值設置下的Bearing1-6的預測結果
由圖8可以看到,5種不同閾值設置下的軸承退化趨勢較為相似,但是在異常故障發生時(紅色方框所標記的區域)只有閾值為0.05時預測結果的波動較小。因此,本文選取閾值為0.05的動態損失作為本文網絡的損失函數。
2.2.4 HI預測
可變形卷積層與注意力將軸承退化數據計算為深度退化特征后,首先使用展平層將退化特征轉變為一維數據;然后由全連層對一維的退化特征進行下采樣,并由tanh激活函數輸出健康因子HI。
在得到軸承的預測HI后,為了避免HI的分布震蕩導致預測結果不準確,本文首先使用了Savitzky-golay濾波器對預測HI進行平滑處理;之后利用多項式擬合平滑后的HI,得到回歸函數并計算出軸承的預測RUL。圖9為Bearing1-5和Bearing2-3的原始預測HI與平滑后的HI對比,可見經過平滑后預測HI中的異常值被剔除,軸承整體退化趨勢更加清晰,減少了后續HI擬合的誤差。
測試集中軸承在不同工況下的振動表現與故障類型是不同的,因此它們的退化趨勢也是不同的。如果對不同軸承使用相同的擬合函數來擬合回歸HI,會造成欠擬合現象,無法有效且準確地預測RUL。因此,本文擬合過程中,選擇均方根誤差(RMSE)落在[0.01~0.04]的多項式函數作為每一個軸承的最終擬合回歸函數,圖10為3種不同工況下的軸承擬合回歸曲線。由圖10可以看出,本文所選用的多項式擬合函數可以較好地擬合HI。圖10紅框中為擬合曲線縱坐標為1時(軸承完全失效)的波形,其中圖10(a)與圖10(b)非常符合整體的退化趨勢,因此,得出來的預測結果更加真實地反應了本文模型的預測能力。圖10(c)的退化趨勢較為復雜,而本文的擬合回歸函數也可以有效地擬合HI,說明本文模型的預測能力較強。

為了證明本文提出的可變形卷積與注意力機制在軸承RUL預測任務中的有效性,設計了4個消融實驗:a.普通卷積+無注意力;b.普通卷積+有注意力;c.可變卷積+無注意力;d.可變卷積+有注意力。
在相同的硬件環境下4個網絡對3種不同工況下的軸承預測結果如表3所示。實驗d在Bearing1-3、Bearing1-4、Bearing2-5、Bearing2-6上預測誤差的絕對值最小,意味著預測的RUL更接近于真實RUL;而在Bearing1-3、Bearing1-4、Bearing2-5、Bearing3-3上實驗d的預測均為欠預測,意味著預測結果更貼合實際預測需求。因此,消融實驗的結果證明可變卷積計算表達能力要強于普通卷積,預測結果更接近真實壽命。

表3 消融實驗預測結果
為了證明本文提出方法的有效性,在PHM2012數據集上使用預測誤差與評價分數作為評價指標,與已被證明有效的4種方法[12-15]進行了結果對比,如表4所示,由軸承真實RUL、本文預測的RUL、每個軸承預測誤差(E)計算得到平均預測誤差和預測分數S。文獻[12]首先將原始數據處理為時頻譜圖,之后利用殘差神經網絡與時間卷積神經網絡(R-T)進行退化建模;文獻[13]利用長短期記憶循環網絡構成的編碼解碼結構預測模型(LSTM-ED)進行RUL預測;文獻[14]利用模態分解提取其中具有代表性的模態分量作為特征數據,使用循環神經網絡(EMD-RL)進行預測建模;文獻[15]為PHM2012挑戰賽獲勝算法(PHM2012)。

表4 PHM2012數據集中不同方法的預測結果對比
通過表4可以看出,與已被公開證明的方法相比,本文所提出方法的預測平均誤差要小于其他方法,而且評價分數也要高一些,證明本文方法可以有效進行剩余壽命預測。
本文在建立軸承預測網絡時利用可變形卷積取代了部分普通卷積,并通過注意力機制與動態損失函數提升了預測網絡的復雜度與穩定性。在PHM2012數據集中,與其他方法的預測結果相比,預測精度有較大提升。