王秀娜,魯守銀,2,任 飛
(1.山東建筑大學信息與電氣工程學院,山東 濟南 250101;2.山東建筑大學機器人技術與智能系統研究院)
近年來,預測性維護在研究和工業界都得到了廣泛關注,被認為是第四次工業革命(“工業4.0”)背后的驅動力。在大數據時代的今天,嵌入式智能傳感器收集的數據用于對當前和未來的健康狀況或剩余使用壽命進行估計和預測。雖然近年來在高質量傳感器的開發和預測建模方面取得了較大進展,但是近年來的一些研究顯示,工業界尚未對預測性維護解決方案感到滿意。研究表明,預測性維護在工業環境中的應用仍然需要對真實的工業數據和整體框架進行廣泛的研究。整體框架包括預測性維護信息在生產中的部署,以提供決策支持來確定最佳維護時間點。生產和維護的綜合調度使制造業能夠優化維護時間,同時避免代價高昂的機器故障,優化了機器退化建模和維護集成生產調度領域的交互。
提高故障預測的準確性不僅可以提高安全性和可靠性,降低平均維護成本,還可以為設備的維修決策提供參考?,F有的研究將故障預測方法分為兩大類:基于物理模型和基于數據驅動的方法。基于物理的模型需捕獲失效機制或物理現象,以建立一個退化過程的數學模型表示。由于系統的復雜性或降解機制的不明確,使其在實際應用中不可行或無效。與基于物理的方法不同,數據驅動的方法不需要理解復雜的退化機制。該方法通常依賴于數據分析,對數據進行挖掘,以預測系統狀態的變化。因此,數據驅動方法常用于預測系統的剩余使用壽命,其預測結果能夠很好地表現設備健康狀況。在數據驅動方法中,很多機器學習方法在剩余使用壽命預測中有不錯的表現。Huang 等利用傳統的多層感知器(Multilayer Perceptron,MLP)方法對實驗室測試軸承的剩余使用壽命進行建模,得出預測結果優于基于可靠性的方法的結論。Tian開發了一種人工神經網絡(Artificial Neural Network,ANN)方法來估計設備的剩余使用壽命,該模型以當前和之前檢查點的年齡以及多條件監測測量值作為輸入,以設備壽命百分比作為輸出。Khawaja 等引入了一種帶有置信分布節點的置信預測方法。Malhi 等人提出了一種基于競爭性學習的方法,使用循環神經網絡(Recurrent Neural Network,RNN)進行機器健康狀態的長期預測。
隨機森林算法是一種集成學習方法,通過在訓練時構建大量決策樹來進行操作,隨機森林算法計算所有特征的重要性,從而得出特征等級。通過排列所有樣本的特征值,袋外數據(Out of Bag,OOB)誤差的增量或者是OOB準確率的降低,可用于計算該特征的重要性。具體步驟如下:

⑵對于第條特征,為OOB 樣本排列其值,并在第棵樹上測試這些樣本,以獲得其精度A,=1,2,,,=1,2,,ntree;
⑶特征的重要性指標計算公式為:



為了提高模型的預測性維護性能,采用時間卷積網絡(TCN)。TCN 采用的擴展卷積結構如圖1 所示。因果卷積層確保僅使用當前和過去的樣本來計算其在時間的輸出。并且TCN為了處理梯度消失等問題,采用擴張卷積層,在獲得足夠大的感受野時,盡可能的通過減少卷積層的數量來降低計算量。其中一維輸入向量x的第個元素處的擴張卷積計算公式如下:

其中,q ∈0,1,…,k -1 表示過濾器,表示膨脹系數,表示過濾器的大小。
TCN 的剩余塊體結構如圖1 所示,殘差連接結構由兩個相同的連續部分組成,其結構按照擴展因果卷積、權值規范化、激活函數和隨機失活排列的順序構成。如圖1 所示,圖中d 代表采樣率,d=1 代表每個點都采集,層級越高d 越大。數據被送入1×1 卷積層確保輸入輸出的寬度一致,同時還通過擴展卷積、權值規范化、激活函數和隨機失活結構兩次以輸出。

圖1 殘差連接結構和擴展因果卷積結構
本文所提出的基于隨機森林算法進行特征選擇,并且提取重要性特征的滾動平均值和滾動標準差以重構特征變量,將處理后的特征變量輸入至時間卷積網絡以進行故障狀態預測性維護的具體步驟為:
隨機森林算法對輸入特征變量進行重要性排序,選擇與故障相關的重要性特征;
對選擇出的重要性特征進行滾動平均值和滾動標準差提取,來得到重構特征;
將重要性特征結合重構后的特征,組成新的輸入特征變量;
將新的時間序列,輸入至時間卷積網絡以實現預測性維護過程。
本文的實驗數據來源于美國國家航空航天局的故障預測研究,使用C-MAPSS 發動機仿真軟件模擬了發動機的各個部件從健康運行到故障的整個生命周期,收集了整套的傳感器退化數據,用于預測性維護領域算法開發和驗證。
在構建預測性維護模型之前對數據進行特征工程處理,既可以通過篩選與故障更相關的特征變量,又可以通過對特征變量進行提取重構,來達到提高模型訓練效果的作用。已知數據集的原始特征是從setting1 到setting3,以及傳感器的記錄值s1-s21,其中一些傳感器的記錄值幾乎沒有變化。因此,我們對上述特征變量進行了標準差和相關性分析并排序,其結果如圖2所示。

圖2 訓練數據集的特征變量標準差與變異系數絕對值
性能評價指標
在本文中,使用均方根誤差(Root Mean Square Error,RMSE),平均絕對誤差(Mean Absolute Error,MAE),平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和決定系數(R),公式如下:


隨機森林和時間卷積網絡模型設置
在本文所提出的預測性維護過程中,首先,采用隨機森林算法進行與故障相關的特征重要性排序,從21 個傳感器值的特征變量中選擇重要性排名前16 個特征作為后續時間卷積網絡的輸入數據。其中隨機森林算法進行特征重要性選擇時的參數設置為:森林中決策樹的個數為10;度量分裂的標準為:gini;尋找最佳分裂點時考慮的特征數目為“:auto”;分裂內部節點為:2;最少葉子節點數為:1。數據特征選擇結果如圖3 所示,其中柱狀圖的排列高低按照所選擇特征的重要性進行排序。

圖3 隨機森林特征選擇重要性排序
將上述篩選出的特征變量提取滾動平均值和滾動標準差進行特征重構,輸入至TCN 以進行訓練。TCN的網絡參數設置為:網絡層數為4層,卷積核為2,Dropout為0.5,epochs為10,batch_size為256,學習率為0.002,優化器為adam,損失函數為binary-crossentropy,度量值為accuracy。將設置好參數的TCN網絡用于模型訓練,在利用訓練集將模型訓練完畢后,進而利用測試集對訓練好的模型進行預性維護過程的結果驗證。
通過研究隨時間變化的傳感器值,利用預測性維護模型來學習傳感器值和傳感器值變化與歷史故障數據之間的關系,從而進行未來故障的預測。在上一節中,通過檢查數據特征的可變性,對特征數據進行了統計性分析,從而得出對因變量有顯著影響的部分特征。在保證模型訓練精度的基礎上,減少模型訓練的時間。為提高模型在特征選擇方面的效率,采用隨機森林算法對數據進行分析,選擇出重要性靠前的特征,并且將選擇出的特征進行特征重構,其預測性能結果與其他模型相比的數據如表1 所示,可視化結果如圖4、圖5所示。

表1 不同模型下的性能指標對比

圖4 不同模型下評價指標對比柱狀圖
由表1,圖4和圖5可以看出,對于C-MAPSS數據集,本文提出的基于隨機森林和時間卷積網絡的混合預測性維護模型,能夠較好對故障進行預測,在四種評價指標上都有很大的改善,其中相較于RMSE 至少提升了56.87%,MAE 至少提升了55.63%,MAPE 至少提升了36.37%,R至少提升了46.70%。

圖5 不同模型下的故障預測曲線對比
由于現代工業具有更為復雜和龐大的數據,導致原先的故障預測方法無法直接應用于現階段計算難度大等問題。本文針對現存傳感器數據具有維度高、非線性和隨機性等特點,提出一種基于隨機森林算法和時間卷積網絡的故障預測方法。
首先利用隨機森林算法選擇出與故障相關性大的重要性特征變量。然后將篩選出的重要性特征進行滾動平均值和滾動標準差等相關特征的提取,重構輸入特征變量。最后利用時間卷積網絡強大的非線性、并行性處理能力,來進行預測性維護的二分類問題預測。在C-MAPSS 數據集上的實驗驗證表明,該模型的預測性能與其他機器學習模型相比有很大的提高,表現出很高的預測精度。