姚德臣, 李博陽, 劉恒暢, 姚娟娟, 皮雁南
(1.北京建筑大學 機電與車輛工程學院,北京 100044;2.北京建筑大學 城市軌道交通車輛服役性能保障北京市重點實驗室,北京 100044;3.北京市地鐵運營有限公司,北京 100044)
隨著科學技術的不斷發展以及工程應用的迫切需要,越來越多的大型機械裝置被設計并制造出來服務于人類社會之中,旋轉機械裝置作為其中的一類,在冶金,航空航天,軌道交通,電力,石油化工等眾多領域中有著廣泛的應用。滾動軸承作為旋轉機械中最為常見的零件之一,其狀態的好壞對于維持整個旋轉機械運行的平穩性與安全性有著重要的意義,但相關研究表明,滾動軸承同樣也是最容易產生故障的零件。據統計,在使用滾動軸承的旋轉設備中,大約有45%~55%的機械故障都是由滾動軸承引起的[1]。
因此,針對滾動軸承的剩余壽命預測,已經成為了機械故障診斷領域熱點話題之一,許多滾動軸承剩余壽命預測方法也隨之被提出應用于此。例如,徐繼亞等[2]提出的融合KPCA與信息粒化的SVM預測方法,劉波等[3]提出的基于連續型HMM和PSO-SVM的預測方法,馬海龍[4]提出的基于主元特征融合和SVM的預測方法,者娜等[5]提出的KPCA和改進SVM結合的預測方法,這些方法大都以支持向量機(support vector machine,SVM)為核心算法并加以改進實現預測,然而隨著先進制造技術的發展,智能化旋轉機械設備的大量出現,滾動軸承的運行工況也變得更加復雜多變[6],這些傳統預測方法的缺點也突顯出來,傳統方法需要依靠隨軸承壽命退化敏感的特征作為輸入,而不能將多種特征綜合起來進行自主學習,這就導致了其過于依賴人工經驗進行特征提取,降低了預測的智能性[7];且傳統模型結構簡單,復雜程度低,學習能力有限,在預測結果達到一定精度后因為模型自身問題而進入瓶頸期,修改超參數也不能使預測精度進一步提高,特別是面對非線性,非平穩信號時,并不具備很好的表現。
隨著深度學習近年來的發展,一些深度神經網絡也被提出用于滾動軸承剩余壽命預測,例如張繼冬等[8]提出的全卷積層神經網絡的預測方法,以此來避免人工提取特征指標,依靠加深神經網絡結構層次,融入復雜機制自動提取信號特征進行預測。然而,原始信號中的大量噪聲會影響預測結果,而且為了充分提取信號特征而不斷增加網絡結構層次,從而導致網絡整體復雜性的增加,不僅使計算量增大,對設備要求更高,同時使網絡更加難以優化,最為重要的是原始振動信號不具有明顯的序列性,況且這些神經網絡自身缺乏序列數據處理能力,并不適合實際工程應用。
因此,本文提出一種Attention機制融合GRU算法的方法來進行滾動軸承剩余壽命預測,試驗結果表明,改進后的GRU模型學習能力更強,處理序列數據的表現更好,更加適用于滾動軸承剩余壽命預測。
本文提出利用循環神經網絡對時序數據處理能力實現對滾動軸承的壽命預測,主要技術路線為首先從原始信號中提取多種特征指標,將這些特征指標歸一化處理后構建多特征數據集,并劃分為訓練集和測試集,其次進行GRU算法模型的構建,并引入Attention機制增強模型表現,最后,將訓練集數據輸入模型,對模型進行訓練,降低損失函數值(loss),確定最優結構參數,待模型訓練完成后,輸入測試集數據,用于評估模型預測效果。圖1為預測方法流程圖。

圖1 預測方法流程圖Fig.1 Flow chart of prediction method
首先,提取原始振動信號中十六種時域特征指標構建數據集。表1為所提特征信息。其原因包括:
(1) 構建特征數據集,可大幅降低原始數據量,減少計算量,降低噪聲影響,提升效率,從而避免了為追求神經網絡提取特征能力而不斷堆疊網絡層次,加深網絡結構,造成網絡難以優化的問題。
(2) 在實時動態的監測過程中,信號的時域特征能夠最直接且明顯的反映滾動軸承的退化狀態。
(3) 以時域特征構建的數據集其自身的序列性和變化的趨勢性最為顯著,更適合GRU網絡結構的輸入。
(4) 單一特征反映軸承退化情況有限,而且可能引起信息的丟失[9]。
(5) GRU算法的側重點在于學習和分析數據的序列趨勢和內在聯系,且能夠自主決定特征信息的保留與舍棄,因此不需要專門去提取某種敏感特征,相反,多種特征能夠使模型學習的內容更加充分,表現程度往往也更貼合實際。

表1 特征提取Tab.1 Feature extraction
數據的歸一化(normalization)又叫做數據的離差標準化,是將數據縮小至[0,1]區間之內,歸一化經常被用于一些評價指標處理之中,去除單位對數據的限制,便于不同指標之間的比較或加權。數據歸一化后的優點如下:
模型一定程度上會提升收斂速度,提高預測精度。
對于某些神經網絡,歸一化后可有效防止梯度爆炸。
其計算公式如下
(1)
式中:max為所有樣本數據的最大值;min為所有樣本數據的最小值。數據歸一化處理后構建特征數據集。
針對普通RNN結構在反向傳播過程中遇到的梯度消失或梯度爆炸的問題,Hochreiter等[10]提出了一種長短期記憶網絡(long short-term memory,LSTM),以其獨特的“三個門”結構成功的解決了這個問題,LSTM的出現為RNN的發展做出了開創性的貢獻,門控循環單元(gated recurrent unit,GRU)[11]作為LSTM的變體網絡,它的出現,進一步推動了循環神經網絡的發展。圖2為RNN結構圖。圖3為LSTM結構圖。

圖2 RNN結構圖Fig.2 RNN structure diagram

圖3 LSTM結構圖Fig.3 LSTM structure diagram
相較于LSTM,GRU網絡比較大的改動在于:
(1) GRU網絡將單元狀態與輸出合并為隱藏狀態,依靠隱藏狀態來傳輸信息。
(2) GRU網絡將LSTM中的遺忘門和輸入門整合成為了一個更新門限[12]。
正是由于這兩個創新點的引入,使得GRU模型較LSTM模型具有如下優點:參數量減少了三分之一,不容易發生過擬合的現象,在一些情況下可以省略dropout環節;在訓練數據很大的時候可以有效減少運算時間,加速迭代過程,提升運算效率;從計算角度看,其可擴展性有利于構筑較大的模型。
同時,GRU繼承了LSTM處理梯度問題的能力,其門結構可以有效過濾掉無用信息,捕捉輸入數據的長期依賴關系[13],在處理序列問題上具有非常出色的表現。圖4為GRU結構圖。

圖4 GRU結構圖Fig.4 GRU structure diagram
圖4中:σ表示sigmoid函數;sigmoid函數是GRU網絡的激活函數之一,其能夠將變量控制在0~1之間,在網絡結構中,以0代表任何變量都不能通過,反之,以1代表任意變量都可以通過;tanh代表雙曲正切函數,也是GRU網絡中的激活函數,用于實現非線性變換;“?”表示兩項相乘;“⊕”表示兩項相加。sigmoid函數與tanh函數表達式如下
(2)
(3)
更新門zt的作用是決定丟棄哪些舊信息和添加哪些新信息,其計算公式為
zt=σ(Wz·[ht-1,xt])
(4)
如圖5所示,此步驟先將上一時刻的輸入信息ht-1與當前時刻的輸入信息Xt與權重矩陣W相乘進行線性變換,然后將數據送入更新門zt之中,經過激活函數sigmoid的作用后,輸出一個0~1之間的值,此環節決定了有多少過去的信息可以繼續傳遞到未來。

圖5 更新門信息流向圖Fig.5 Update gate information flow diagram
重置門rt的作用是決定忘掉歷史信息的程度,其計算公式為
rt=σ(Wr·[ht-1,xt])
(5)
如圖6所示,與更新門zt類似,先將上一時刻輸入信息ht-1與當前時刻輸入信息Xt與權重矩陣W相乘進行線性變換,只是兩次權重的數值和作用不同,然后將數據送入重置門中經sigmoid函數作用,此環節決定了有多少歷史信息不能傳遞到下一時刻。

圖6 重置門信息流向圖Fig.6 Reset gate information flow diagram
備選狀態主要是當前時刻的輸入信息,相當于記憶了當前時刻的狀態,其計算公式為
(6)


圖7 備選信息流向圖Fig.7 Alternative information flow diagram
最后,隱藏狀態決定當前時刻需要輸出的信息,其計算公式為
(7)
式中:W代表權重矩陣;ht-1代表上一時刻隱藏層輸出;Xt代表當前時刻輸入;“*”代表矩陣乘法;“·”代表點乘。


圖8 最終輸出信息流向圖Fig.8 Final output information flow diagram
注意力機制是深度學習中的一種仿生機制,它的提出是由人類觀察環境的習慣規律所總結而來的,人類在觀察環境時,大腦往往只關注某幾個特別重要的局部,獲取需要的信息,構建出關于環境的描述,而注意力機制正是如此,其本質就是對關注部分給予較高權重[14],從而獲取更有效的信息,從數學意義上來說,它可以理解為是一種加權求和。注意力機制的主要作用包括:
(1) 對輸入序列的不同局部,賦予不同的權重。
(2) 對于不同的輸出序列局部,給輸入局部不一樣賦權規劃。
在滾動軸承壽命預測中,考慮到不同時刻的特征對下一時刻壽命預測的貢獻不同,所以在GRU模型中增加注意力層,以加強重要時刻特征對壽命預測的貢獻,將此Attention-GRU模型應用于滾動軸承剩余壽命預測,以期望通過注意力機制自我調節使預測得到一個更好的結果。圖9為注意力機制圖。

圖9 注意力機制Fig.9 Attention mechanism
加權求和公式
(8)
式中:hi為隱藏層輸出;ai為注意力權重分配;c就是一個加權求和的過程。
為證明將構建特征指標數據集融合改進GRU算法應用于滾動軸承剩余壽命預測的有效性,設計試驗進行驗證,數據來源于XJTU-SY的滾動軸承加速壽命試驗數據集[15],此數據集包含了3種工況下的15個滾動軸承的全壽命周期信號并明確標注了每個軸承的失效部位,試驗用軸承類型為LDK UER204滾動軸承。試驗中設置采樣頻率為25.6 kHz,采樣間隔為1 min,每次采樣時長為1.28 s。圖10為軸承加速壽命試驗平臺。

圖10 軸承加速壽命試驗平臺Fig.10 Bearing accelerated life test platform
在驗證過程中,選用第三種工況下的第二組數據集,該數據集共有2 496個樣本,每個樣本中有兩列數據,分別是軸承的橫向和垂向振動信號,每列有32 769個采樣值,軸承實際剩余壽命為41 h36 min,試驗結束至軸承失效時,出現內圈,外圈,保持架,滾動體四種復合故障。由于在試驗過程中施加的力為徑向力,因此,橫向振動信號更能反映軸承的退化狀態[16],本文以所有樣本的橫向振動信號為研究對象。首先,利用MATLAB軟件對全部樣本進行時域特征提取,針對每一個樣本數據計算其16種時域特征,共計2 496組,作為振動信號特征提取后的特征數據集并儲存為csv文件格式,并將特征數據集分為訓練集和測試集,其中,前2 400組樣本作為訓練集對模型進行訓練,剩余96組作為測試集輸入。

GRU模型基于TensorFlow開源深度學習框架進行設計,使用Intel(R) Core(TM) i5-9300H CPU(主頻2.4 GHz),WIN10 64位操作系統,NVIDIA GTX1660Ti顯卡,主機上安裝了CUDA 10.0,Cudnn7.3對顯卡運算進行加速。
試驗中GRU模型選取Adam優化器對訓練loss進行優化,Adam是目前TensorFlow架構中比較流行的一種優化器,相較于其他優化器能夠自適應參數學習,具有收斂速度快,對內存需求小,能較好處理噪音樣本等優點。圖11為兩種常用優化器在訓練過程中的loss值下降曲線。

圖11 訓練集loss曲線Fig.11 Loss curve of training set
為了更好評估構建特征指標數據集融合改進GRU模型的預測效果,本文以平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square error,RMSE)為指標進行評估[17],并計算了不同模型訓練時長。
平均絕對誤差計算公式
(9)
均方根誤差計算公式
(10)
本試驗主要測試融合注意力機制的GRU模型在預測滾動軸承剩余壽命這類時間序列問題上的表現,并與其它模型預測效果進行對比。圖12為幾種模型預測效果圖。表2為在XJTU-SY數據集上的評估數據。

表2 不同模型在XJTU-SY數據集上評估數據Tab.2 Different models evaluate data on XJTU-SY data set
畫出不同模型預測效果對比圖,并利用MATLAB軟件畫出改進GRU模型在XJTU-SY數據集上預測效果的擬合曲線。如圖13和圖14所示。可以看出預測結果非常貼近實際壽命曲線。

圖13 不同模型對XJTU-SY數據集預測效果對比Fig.13 Comparison of prediction effects of different models on XJTU-SY data set

圖14 XJTU-SY數據集擬合效果圖Fig.14 XJTU-SY data set fitting rendering
為進一步驗證該方法應用在滾動軸承剩余壽命預測上的可行性,選擇辛辛那提大學智能維護中心(intelligent maintenance systems,IMS)的第二組軸承全壽命試驗數據[18]增設一組試驗,該組數據共984個樣本,采樣頻率為20 kHz,采樣間隔10 min,采樣時間為1 s,試驗軸承為Rexnord ZA-2115雙排軸承,恒定轉速為2 000 rad/min,附加徑向載荷6 000磅,軸承四通道排列,試驗結束至失效試驗時,一號軸承發生外圈單一故障,實際剩余壽命為164 h。圖15為試驗裝置示意圖。

圖15 試驗裝置示意圖Fig.15 Schematic diagram of experimental device
在特征指標數據集構建與訓練標簽的構建上均采用上述所提方法,將984組數據的前900組作為訓練集用以對模型的訓練,剩余84組樣本作為測試集進行預測。圖16為幾種模型預測效果。表3為在IMS軸承數據集上的評估數據。

表3 不同模型在IMS數據集上評估數據Tab.3 Different models evaluate data on IMS data set
同樣,畫出不同模型預測效果對比圖,并利用MATLAB軟件擬合出改進GRU模型在IMS數據集上表現。如圖17和圖18所示。

圖17 不同模型對IMS數據集預測效果對比Fig.17 Comparison of prediction effects of different models on IMS data set

圖18 IMS數據集擬合效果圖Fig.18 IMS data set fitting renderings
經過計算后可得,在XJTU-SY數據集上,Attention-GRU模型相比GRU與LSTM模型,其MAE和RMSE兩項指標分別提升了16%和25%左右,在IMS數據集上,這兩項指標分別提升了35%和27%左右。
此外,融入Attention機制的GRU算法在預測精度顯著提升的同時并未對訓練時間產生很大影響,且由于自身參數量更少,GRU模型無論改進或未改進其訓練時長上均快于LSTM模型,經過多次試驗后發現,在XJTU-SY數據集上,這一提升平均在6 s左右,在IMS數據集上,這一提升平均在3 s左右,如果數據量級更大,這一提升將會更加顯著。
本文針對旋轉機械中的滾動軸承零件剩余壽命預測這一問題進行分析,提出一種將Attention機制融入GRU模型的預測方法,試驗后得出如下結論:
Attention-GRU模型與普通GRU及LSTM模型相比,在預測結果上更貼近實際壽命曲線,擬合程度高,曲線波動也更加平穩,可以看出改進后的GRU模型在處理滾動軸承剩余壽命預測這類時間序列問題上具有更好表現,證明了此種方法的可行性,能夠為旋轉機械中的滾動軸承零件剩余壽命預測提供一種新思路。