基于深度遷移學習的柴油機故障診斷研究

2023-11-14 05:30:14宋業棟馬光偉裴國斌張俊紅

振動與沖擊 2023年21期

宋業棟,馬光偉,裴國斌,張俊紅,3

(1.濰柴動力股份有限公司,山東濰坊 261061;2.天津大學內燃機燃燒學國家重點實驗室,天津 300072;3.天津仁愛學院機械工程學院,天津 301636)

柴油機是工業、農業、核電及其他領域的主要動力源,由于其內部結構復雜,工作環境惡劣,容易誘發故障。因此,對柴油機工作狀態的故障檢測和診斷具有極其重要的意義。傳統上,柴油機故障診斷方法主要包含信號處理、特征提取、模式識別3個過程。王鳳利等[1]提出了自適應參數選取的改進集合經驗模態分解的信號分解方法并進行了柴油機氣缸磨損診斷。蔣佳煒等[2]研究了基于小波包能量譜的特征提取方法并采用模糊熵進行特征選擇。Xu等[3]提出了基于人工神經網絡、信念規則推理以及證據推理的集成模式識別算法。傳統故障診斷方法需要對振動信號進行大量前處理,且難以表征被測信號與故障之間的復雜映射關系,限制了診斷準確率的提高。

深度學習,作為機器學習領域最新的發展方向和研究趨勢之一,為柴油機的智能診斷帶來了革命性的進步。通過獲取歷史故障數據,可建立并訓練對應的診斷模型。在訓練數據充分的前提下,通過改進網絡結構和增加網絡深度,構建的深度神經網絡能夠挖掘蘊含在原始數據下的故障信息,減少對診斷知識的依賴[4-5]。張永祥等[6]研究了基于加窗與卷積神經網絡(convolutional neural network,CNN)的柴油機拉缸故障診斷方法。Jiang等[7]提出了基于一維卷積長短期記憶網絡的柴油機工況識別方法,識別精度達到了99.08%。張康等[8]針對柴油機失火故障提出了基于隨機丟棄與批標準化的深度卷積神經網絡,對比傳統方法取得了較高的準確率。Tamilselvan等[9]從原始信號出發,采用深度置信網絡對飛機機翼和飛機發動機故障進行診斷和預測。Sak等[10]所提出的基于循環神經網絡(recurrent neural network,RNN)的健康指標比基于自組織圖的方法具有更好的診斷性能。Ince等[11]提出了一個快速和準確的電機狀態監測和早期故障檢測系統使用一維卷積神經網絡。Yu等[12]提出了一種風電機組數據驅動故障診斷模型,并利用DBN實現了該模型。Chung等[13]提出了一個基于長短期記憶網絡(long short term memory,LSTM)的編碼-解碼結構,利用重建誤差計算健康指數實現對剩余有效壽命的估計。雷亞國等[14]結合機械大數據的特點與深度學習的優勢,提出了一種新的機械裝備健康監測方法。侯文擎[15]引入粒子群算法來優化構建堆棧去噪自編碼器(stacked denoised autoencoder,SDAE),在軸承故障數據上改進了原始SDAE的分類能力。Janssens等[16]研究深度學習是否以及如何應用于紅外熱視頻自動確定機器的狀態。Vincent等[17]總結了傳統的特征提取方法,并基于快速傅里葉變換后的頻域特征和小波包特征訓練去噪自編碼網絡,在試驗中指出以頻域特征作為低層輸入獲取的深度特征更適用于以支持向量機作為分類器的診斷系統。Thirukovalluru等[18]指出棧式去噪自編碼網絡提取的特征是魯棒的,并評估了輸入的大小、結構的深度以及稀疏性、去噪等約束參數對診斷性能的影響。鑒于傳統自編碼網絡對原始輸入信號局部特征和移變特征處理的不足,Lu等[19]提出了基于正則化稀疏自編碼的局部連接網絡。雖然堆棧自編碼器網絡屬于特征自學習,但現有方法無法同時結合L1和L2正則化優點,Jia等[20]通過數據點的重復利用增加了輸入的隨機性,結合彈性網激勵修改損失函數中的正則化項,使其可以更有效地處理高度相關的變量。當訓練數據有限時,Meng等[21]在自編碼網絡的隱層上引入“丟棄”技術防止數據過擬合。Sun等[22]通過在潛空間上施加先驗分布構建分類對抗自編碼網絡,再結合樣本與預測類別分布之間的互信息進行無監督聚類,驗證了提取特征在嘈雜環境的魯棒性和跨模態負荷下的域自適應性。對于多模態感知信號,如振動信號和聲信號,Liu等[23]通過耦合兩個單模態自編碼網絡的隱層表示,提出了基于深度耦合自編碼網絡的故障診斷模型。

綜上所述,該類方法采用多隱層網絡以逐層學習的方式從輸入數據中提取信息,其深層架構允許它通過多級抽象來形成高層表示、屬性或類別,挖掘原始數據中包含的高維特征,可以減少對專家知識的依賴,縮短模型訓練時間,增強模型泛化能力。但在實際的柴油機工程場景中,采集到的實時數據有兩個特點：①不平衡性,柴油機不可能伴隨故障長時間運行,大部分時間工作狀態良好,很少發生故障,因此,采集的數據嚴重不平衡,故障數據大多不足;②沒有標簽,通過停止柴油機運行來監測柴油機的詳細健康狀況,但經常中斷柴油機的運行是不現實的,因此這只會留下故障數據,而丟失故障類型標簽。此外,雖然在發動機臺架上模擬故障是快速獲取故障數據的一種方式,但不同工況下人為故障的成本極其昂貴,長期故障工況下運行的風險很大。特別是發動機臺架試驗與實際運行之間的環境差異不可忽視。當標簽樣本稀缺時,深度神經網絡容易出現過擬合,泛化性能較差,導致診斷精度降低。因此,在實際的診斷任務中,一個關鍵問題是如何利用不同設備不同工況的歷史數據和有效挖掘和關聯不同的設備,實現知識的遷移和復用,從而提高設備在故障樣本稀缺下的分類和泛化能力。

針對小樣本問題,本文提出一種基于深度遷移學習的智能故障診斷方法。為探索深度神經網絡的強大特征學習能力,首先構建一種寬卷積核卷積長短期記憶神經網絡(wide kernel convolutional long short-term memory,WKCL)。然后,以歸納式遷移學習中的模型遷移技術為基礎,提出了一種基于可遷移深度神經網絡的小樣本故障分類方法,致力于解決以下問題：①抗噪能力,構建改進的深度神經網絡診斷模型對柴油機振動信號進行自動特征學習和診斷,發揮寬卷積核和LSTM處理低信噪比數據的優勢,提高診斷的抗噪性;②小樣本學習能力,針對標簽故障樣本稀缺的問題,引入模型遷移的方法,在大量源域樣本上訓練一個有效的深度神經網絡診斷模型,然后,采用凍結特定層和調優的方法,將大型源域數據獲取的診斷知識遷移到目標域網絡上,改進網絡在目標域任務小樣本條件下的訓練效率和故障識別能力。

1 基于WKCL的遷移學習方法

1.1 CNN和LSTM簡介

1.1.1 CNN

CNN是一種多層深度神經網絡,可組合低層特征形成更加抽象的高層表示。CNN具有4個基本特性,即局部特征提取、非線性映射、權重共享和特征池化。相比全連接網絡,CNN在不損失表達能力的情況下,可明顯減少可訓練的參數,促進有效訓練。典型的 CNN結構通常包括卷積層、激活函數、池化層和全連接層,其中,卷積層和池化層是CNN的特有結構,也是實現上述4個基本特性的關鍵。本文僅以簡便的形式展示卷積層和池化層的運算過程,如式(1)所示

(1)

式中：l為層數;σ為激活函數;*為卷積;W為卷積核矩陣;b為偏置項;pool為池化,一般為最大值或平均值。

1.1.2 LSTM

最常見的LSTM結構如圖1(a)所示。從圖1(a)可以看出,在每個序列索引位置t時刻向前傳播的除了和RNN一樣的隱藏狀態h(t),還多了另一個隱藏狀態,如圖1中上面的長橫線。這個隱藏狀態我們一般稱為細胞狀態,記為C(t)。

(a)

除了細胞狀態,LSTM還有很多門控結構。LSTM在每個序列索引位置t的門一般包括遺忘門、輸入門和輸出門3種。

(1) 遺忘門

遺忘門,是控制是否遺忘的,在LSTM中即以一定的概率控制是否遺忘上一層的隱藏細胞狀態。遺忘門子結構如圖1(b)所示。用數學表達式表示為

f(t)=σ(Wfh(t-1)+Ufx(t)+bf)

(2)

式中：Wf,Uf,bf為線性關系的系數和偏置,和RNN中的類似;σ為sigmoid激活函數。

(2) 輸入門

輸入門負責處理當前序列位置的輸入,它的子結構如圖1(c)所示。數學表達式表示為

i(t)=σ(Wih(t-1)+Uix(t)+bi)

(3)

a(t)=tanh(Wah(t-1)+Uax(t)+ba)

(4)

式中：Ua,ba為線性關系的系數和偏置;σ為sigmoid激活函數。

(3) 細胞狀態更新

前面的遺忘門和輸入門的結果都會作用于細胞狀態C(t),如圖1(d)所示。用數學表達式表示為

C(t)=C(t-1)⊙f(t)+i(t)⊙a(t)

(5)

式中,⊙為Hadamard積。

(4) 輸出門

輸出門的子結構如圖1(e)所示,從圖1(e)可以看出,隱藏狀態h(t)的更新由兩部分組成,數學表達式為

o(t)=σ(Woh(t-1)+Uox(t)+bo)

(6)

h(t)=o(t)⊙tanh(C(t))

(7)

1.2 WKCL網絡結構

在經典CNN[24]和LSTM[25]模型的啟發下,構建了WCCL網絡,該網絡的整體架構與普通的1D-CNN類似,如圖2所示。WKCL網絡的輸入是一段原始的柴油機故障振動時域信號,模型的總體架構與普通1D-CNN模型相同,共有4組卷積層和池化層,用以提取原始信號的局部特征。卷積核的數量逐漸增加,分別為16個、32個、64個和128個,從而在網絡的較高層獲得更多的鑒別特征。每層卷積操作之后均進行批量歸一化處理(batch Normalization,BN)[26],以減少網絡各層特征學習的差異。激活函數采用LeakyReLU[27],來彌補ReLU函數在負區間內的學習能力。然后進行 2×1 的最大值池化,將池化后的輸出特征大小減半,來降低網絡的復雜性。網絡輸出層為Softmax,用于獲取每個輸入樣本的類別概率輸出。最后,基于交叉熵損失函數,通過反向傳播更新各層參數。WKCL網絡的優勢在于：①第一層卷積層采用寬卷積核;②最后一層池化層后面增加LSTM網絡。具體結構參數如表1所示。

表1 WKCL各層參數設置

圖2 WKCL網絡結構

1.2.1 寬卷積核卷積層的降噪處理

卷積層利用卷積核對輸入信號(或特征)的局部區域進行卷積運算,生成相應的特征。它的函數類似于短時傅里葉變換。柴油機振動信號的信噪比較低,小的卷積核難以捕捉中低頻特性,易受高頻噪聲的影響。當噪聲較大時,選取較大的卷積核有利于提升模型的抗噪性能[28]。本文第一層卷積步長設置為16,卷積核寬度為步長的4倍,大小為64×1。而為了增強 WKCL的學習能力,除第一層外,其余卷積層的卷積核大小均為3×1,此部分的小卷積核有利于加深網絡,同時可以抑制過擬合。

1.2.2 LSTM層的降噪處理

RNN適用于處理時間序列,即需要考慮輸入先后順序的問題。LSTM是一種改進后的RNN,憑借巧妙的門控結構和隱藏的細胞狀態,解決了標準RNN存在的長期依賴問題。

本文采用原始時域信號作為輸入,具有明顯的時間相關性。在網絡的前部分,以特征學習為主,保證故障特征的全面性。而在網絡的后部分,額外考慮特征出現的先后順序,提升在惡劣噪聲環境下,對柴油機故障診斷的容錯性。使用的LSTM基本參數設置為Input size=128,Hidden size=128,Num layers=2。

1.3 模型遷移方案

基于深度神經網絡的模型遷移,屬于歸納式遷移學習的一種。擅長處理的問題具有以下要求：①大量的伴隨標簽的源域數據集;②少量的伴隨標簽的目標域數據集;③源域數據和目標域數據可以來源于相似但是不同的分布。模型遷移的目的在于將從源領域學到的知識遷移到數據量少的目標域,提高目標域任務的小樣本分類性能。

基于WKCL的模型遷移故障診斷流程如圖3所示。第一步,基于構建的大型標簽源域數據集,采用傳統的監督式深度神經網絡訓練方法,對所提的 WKCL 進行充分預訓練,預訓練好的模型其各層參數獲得了源域數據集的診斷知識。第二步,利用深度神經網絡學習的特征在底層更通用,而在高層更加具體這一特點,通過固定預訓練網絡的底層參數,同時利用少量目標域訓練樣本對高層參數進行微調的方法,進行模型遷移,獲得最終適用于目標域的診斷模型。

2 試驗測試與結果

2.1 數據描述

2.1.1 A：柴油機故障數據集

試驗數據來源于某六缸柴油機,試驗臺總體布局與主要技術參數如圖4和表2所示,詳細的傳感器布局、故障模擬方案以及信號采集過程詳見文獻[29]。

表2 柴油機主要技術參數

圖4 試驗臺總體布局

試驗采用PCB公司的ICP 356A26型三向壓電式加速度傳感器,采集怠速和空載狀態下的缸蓋信號,采樣頻率為25 kHz,一個工作循環包含3 152個采樣點。基于以上設置,試驗共模擬了柴油機燃油系統和配氣機構11種常見故障,如表3所示。12種不同故障狀態單周期時域波形如圖5所示,記為正常,故障1～故障11。

表3 故障類型

(a) 正常

2.1.2 B：軸承故障數據集

軸承是柴油機動力總成的關鍵部件,軸承故障也是影響柴油機正常運轉的常見故障之一。為了驗證提出的方法在不同數據集間的遷移效果,額外使用了凱斯西儲大學軸承故障數據集作為目標域數據集[30]。電機驅動機械系統如圖6所示。軸承故障有6種類型：正常故障、球圈故障、內圈故障和3種不同位置的外圈故障。本文選擇了1 797 r/min和1 772 r/min兩種電機轉速下的數據,共計12組。詳細數據說明如表4所示。

表4 滾動軸承故障數據集

2.2 故障診斷算例與結果

試驗使用的深度學習框架為Facebook公司的PyTorch,所用計算機的配置為 CPU i7 10700,16 GB內存。利用Python在PyTorch環境下搭建本文提出的模型。本文提供了3個算例,第一個算例測試WKCL模型的抗噪性;第二個算例測試遷移模型在不同故障域診斷能力;第三個算例測試遷移模型在不同設備間的診斷能力。試驗將目標域樣本的分為訓練集、驗證集和測試集,比例為0.5∶0.25∶0.25。其中,驗證集不參與模型訓練,用于監控模型是否發生過擬合來決定是否停止訓練并調整超參數。所有算例測試結果中列出的是訓練集的樣本數量和測試集的平均準確率。

2.2.1 算例1：WKCL模型診斷精度與抗噪性

用數據集A測試所提的WKCL模型的準確率,與傳統機器學習方法、MLP(multi-layer perceptron)、WDCNN(deep convolutional neural networks with wide first layer kernel)、LSTM進行比較,結果如圖7所示。

圖7 WKCL與其他方法準確率對比

由結果可知,與傳統機器學習相比,深度學習具有明顯優勢,WDCNN、LSTM、WKCL平均精度超過95%,MLP由于網絡結構簡單,略遜一籌,但仍然略強于TML(traditional machine learning)。在無噪聲環境,本文提出的方法優勢并不明顯。為了進一步驗證這3個網絡的抗噪性,模擬柴油機工作環境的噪聲污染,在原始信號加入加性高斯白噪聲[31],如式(1)所示。Psignal和Pnoise分別表示信號與噪聲的能量,信號中所含噪聲越多,SNR(signal-noise ratio)值就越小。當SNR值為0時,信號與噪聲所含能量相等。

(8)

正常狀態的原始信號、噪聲信號以及帶噪聲信號如圖8所示。

(a) 原始信號

3種方法在不同信噪比條件下的診斷精度如圖9所示,可知,WKCL的抗噪性更強,且信噪比越低即噪聲信號越大,優勢越明顯。

圖9 不同信噪比條件下的診斷精度

提出的WKCL網絡能實現優越的分類性能,得益于兩個條件：一是大量的帶標簽的訓練數據;二是目標域和源域數據滿足獨立同分布。然而,在實際工業應用中,某些研究任務很難獲取大量的標注數據,并且測試數據與訓練數據難以滿足獨立同分布的。如圖10所示,同等噪聲環境下(SNR=0),隨著目標域任務的標簽數據的減少,深度神經網絡的診斷能力指數型下降。特別地,當每種狀態的樣本數量下降到1 000時,診斷精度將低于80%。

圖10 不同樣本數量下的診斷精度

為了解決上述實際問題,后面兩個算例將會詳細討論基于遷移學習進行跨域診斷在小樣本上的優勢。

2.2.2 算例2：跨故障域遷移

為研究不同故障域的遷移效果,將數據集A分成兩部分,數據集A1：正常和故障1～5;數據集A2：故障6～故障11。本文假定數據集 A1代表實際情況中故障率大,容易獲取的數據集,數據集 A2代表故障率大,難獲取的數據集。為了解決目標域數據集A2可能存在的樣本不足問題,首先以數據集 A1作為源域數據進行WKCL模型訓練,然后利用數據集A2對遷移模型的優化層進行訓練和測試,同時加入SNR=0的噪聲,結果如圖11所示。結果顯示,由于樣本不足,僅使用WKCL直接對A2數據進行訓練的效果很差,且精度隨著樣本數量減少持續下降。而深度遷移學習方法在精度上優勢明顯,對樣本數量的依賴性也更小。需要解釋一點,1 000樣本時僅對A2數據的診斷精度比2.2.1節高的原因是本節是6分類問題,而2.2.1節是12分類問題。

圖11 小樣本下跨故障域診斷結果

由結果可知,在提出的具備抗噪性的WKCL模型的基礎上,充足的源域樣本大大提高了預訓練網絡的特征提取能力,并凍結了能夠發揮此能力的網絡層,使得網絡在處理目標域同構振動信號時,首先能有效放大不同故障之間的特征差異,其次僅需要少量的目標域樣本微調分類層的網絡參數并賦予新的標簽,從而實現目標域新的故障診斷任務。

該算例說明了,當某種故障樣本受到限制時,在提出的WKCL模型基礎上,同一設備的不同故障數據,即源域目標域來自于同一采集時間和空間,具備相同的采樣頻率的信噪比時,利用同設備的其他故障數據進行預訓練,將學習到的知識遷移到目標任務,可有效提高診斷精度。

同設備遷移任務在此算例中得到驗證,算例3進一步分析了跨設備域診斷任務的可遷移性。

2.2.3 算例3：跨設備域遷移

本節以柴油機故障數據數據集A和軸承故障數據數據集B分別作為源域和目標域,圖12示出了診斷結果。當數據集B作為目標域時,與算例2相似,使用模型遷移之后表現更好;然而,當數據集A作為目標域時,雖然模型遷移有一定作用,但整體效果均不理想。

圖12 小樣本下跨設備域診斷結果

結合數據集特點作進一步分析。一方面,與柴油機故障數據相比,軸承故障數據差異性更強、一致性更高,因此數據集B作為目標域時,需求的樣本更少,而數據集A作為目標域時,受小樣本的影響,導致無論是否進行模型遷移,精度都很差。另一方面,柴油機故障數據特征更復雜,信噪比也更高,所以數據集A作為源域數據可以讓模型獲取更豐富的特征與更強的特征區分能力,反之則不然。本算例說明,提出的WKCL模型經過預訓練學習到的關于柴油機故障特征的知識,可遷移到軸承的故障診斷任務中。

3 結論

該方法的核心思想是將不同故障域和數據集的歷史數據訓練深度神經網絡獲得的診斷知識遷移到新的目標域任務中,從而提高目標診斷任務在樣本稀缺情況下的分類能力。所提方法一方面構建多層深度神經網絡,自適應的從原始振動信號自動提取特征,改進了特征提取的抗噪性和有效性。另一方面,進一步將模型遷移方案應用到WKCL中,通過固定特定層參數和調優其余層的方法,有效遷移大型源域數據的診斷知識到目標域任務上,促進了目標診斷網絡的快速和有效訓練,改善了目標域任務診斷性能。

試驗結果表明,相比其他深度神經網絡方法,所提方法呈現更好的抗噪性能和計算精度。但隨著目標域標記數據的減少,深度神經網絡的診斷能力仍然會大幅度降低。同時,研究發現,當某一故障樣本有限時,利用同一設備的其他故障數據將學習到的知識轉移到目標任務中,可以有效地提高診斷精度。另外,所提出的WKCL模型通過預訓練獲得的柴油機故障特征知識也可以轉移到軸承故障診斷任務中,反之效果很差。因此,模型遷移的性能與目標域訓練數據的大小、目標域和源域的相似程度以及信噪比均有關。目標域任務參與的訓練數據越多,與源域任務更相似,則遷移性能越好,分類精度越高。因此,為提高模型遷移性能,除建立強大的深度神經網絡診斷模型外,訓練數據的數量和質量仍然是兩個至關重要的因素。