廖舒瑯,畢鳳榮,田從豐,楊 曉,李 鑫,湯代杰
(1.天津大學 內燃機燃燒學國家重點實驗室,天津 300072;2.山推工程機械股份有限公司,山東 濟寧 272073)
柴油機作為最常用的動力機械設備之一,其工作狀態將直接影響整個機械系統的安全性和可靠性。在實際生產工作中,為了保證機械設備安全運行、節約機械設備維護與維修成本,對柴油機的運行狀態進行實時無拆卸故障診斷十分必要[1]。柴油機的振動噪聲信號通常包含大量的機械系統狀態信息,是典型的非平穩、非線性時變信號,所以利用振動信號進行故障診斷是一種常用且有效的方法[2]。
振動分析法主要包括振動信號采集、故障特征提取、故障識別與診斷三個步驟,其中故障特征提取最為關鍵。傳統的人為特征提取方法過于依賴先驗知識,存在主觀性較強和提取效率較低的問題。
深度學習[3]是人工智能領域中的一種特征提取方法,其基于神經網絡模擬人腦的傳播機制,能夠省略手動提取和篩選信號特征的步驟。通過搭建多層網絡結構對輸入數據進行非線性映射,實現對原始數據集中有價值的深層特征的自動提取[4]。近年來,深度學習被廣泛地應用于機械故障診斷領域。Sun等[5]提出了一種基于深度學習網絡(deep neural networks,DNN)的稀疏自編碼算法,利用無標簽的數據集進行特征學習,實現了對異步電機的故障診斷。Zhou等[6]為適應時域振動信號一維的特征,在經典卷積神經網絡AlexNet的基礎上,提出一種基于一維卷積神經網絡(one-dimensional convolutional neural network,1-DCNN)的模型,在旋轉機械的振動數據集上實現了精確診斷。Zhu等[7]將注意力機制和Inception網絡結構與卷積神經網絡進行結合,應用于不同工況下的滾動軸承數據集,均能達到較高的準確率。
但是在上述文獻中,并未針對訓練樣本數量較少的情況進行研究。在實際的工程應用中,柴油機正常樣本與故障樣本的數量通常不平衡[8],且大部分故障樣本難以標記。僅使用有限的有標簽樣本進行訓練,現有模型較難提取其中的敏感故障特征,易出現過擬合現象,泛化性較差。
圖卷積神經網絡(graph convolutional network,GCN)是由Kipf等[9]提出的基于圖結構數據的分類模型,在Cora、Citeseer等引文網絡數據集的分類中的準確率和效率均明顯優于其他模型。通常一個無向、加權圖可以表示為G=(V,E)[10],其中V(vertex)為圖上節點的集合,包含每個節點的特征信息,E(edge)為節點間邊的集合,用于體現節點與近鄰節點之間的關系。
GCN在圖域中定義了卷積,通過權值矩陣和鄰接矩陣聚合了樣本及其近鄰樣本的屬性信息和標簽信息[11]。樣本特征在有標簽樣本和無標簽樣本之間相互傳播,實現了對樣本深層特征的自動提取,有效解決了訓練樣本稀少情況下的分類問題。近年來,GCN在互聯網技術[12]、有機化工[13]、交通預測[14]、生物醫學[15]上都得到了初步的應用,但在機械故障診斷領域發展遲緩,其中如何將時序振動數據轉換為圖數據成為了亟需攻克的難題。
同時,GCN的分類性能受其關鍵參數的影響較大,應用于不同數據集中的最優值不同。量子粒子群優化算法(QPSO)[16]是受量子力學的啟發,基于PSO算法提出的一種新的優化算法,因其可以同時優化多個參數在參數優化領域應用廣泛。針對傳統PSO算法存在超參數較多,且易陷入局部最優的問題。QPSO算法省略了PSO算法中速度的部分,參考量子的概念,使得粒子可以到達搜索空間的任意位置,新一代粒子的具體位置由上一代粒子的位置根據Monte Carlo隨機方法遞推得到[17],提高了粒子位置變化的隨機性。
結合以上情況,本文建立一種圖數據轉換方式,在三個測點的時序振動數據之間建立邊連接,并利用雙頭權值矩陣和一維最大池化層對GCN的模型結構進行優化,同時引入QPSO對模型的關鍵控制參數進行自適應選取。構造以三個測點的原始振動數據作為輸入,包含信息融合、特征提取和模式識別的端到端方法,達到訓練樣本數量較少情況下對柴油機典型故障進行精確自適應診斷的目的。
QPSO具體計算步驟如下:
(1) 初始化粒子群中粒子的位置。
(2) 計算每個粒子的適應度函數值。
(3) 比較適應度函數值,更新每個粒子的個體最優位置和全局最優位置。
(4) 計算第t次迭代中所有粒子個體最優位置的平均值Mbest(t)。
(1)
式中:M為粒子總數;pbestn(t)為第n個粒子在第t次迭代中的個體最優位置。
(5) 對每個粒子的位置進行更新。
Pn(t)=ε·pbest_n(t)+(1-ε)pbest_all(t)
(2)
(3)
式中:Xn(t)為第n個粒子在第t次迭代中的位置;pbest_all(t)為第t次迭代中所有粒子的全局最優位置;ε和μ是隨機數,在(0,1)上均勻分布;±取正負的概率各為0.5;λ為創新因子,是算法中唯一的控制參數。
根據SUN[18]的理論推導和試驗驗證,λ<1.782時粒子收斂。在實際應用中,λ取值一般小于1。
(6) 粒子收斂后,輸出全局最優粒子位置。
卷積神經網絡在計算機視覺[19]和機器翻譯[20]等領域獲取了巨大的成功,因為權值共享和局部連接兩大特性使得它可以在優化較少參數的同時獲取較強的平移不變性。圖數據作為一種典型的非歐式空間數據,具有局部結構互異的特點[21],這導致傳統的CNN無法對其進行處理。
為了解決這一問題,圖卷積神經網絡結合圖譜理論,將傳統的卷積算子引入圖結構,目前主要分為譜方法和空間方法兩類[22]。譜方法將圖數據通過拉普拉斯變換映射到譜域,再根據卷積定理定義圖卷積;空間方法則通過在節點域定義聚合函數來聚合頂點及其近鄰頂點的特征。Kipf等提出了一種介于兩種方法之間的近似算法,從譜方法的思想出發,以規范化后的鄰接矩陣作為聚合函數,極大地降低了時間復雜度。
鄰接矩陣A(adjacency)用于儲存圖數據中節點間邊的集合中的信息,是一個二維數組。若節點x和節點y之間存在邊連接e(x,y),則A中的元素axy等于邊e(x,y)的權值;若頂點間不存在邊連接,則axy=0。
GCN的前向傳播過程如下:
(4)

(2) 得到第l+1層的輸出矩陣Hl+1。
(5)
式中:H0為輸入矩陣;f(·)為非線性激活函數;Wl+1為第l+1層的可訓練權值矩陣。
為實現從時序振動數據到圖數據的轉換,將數據集中的每一個樣本作為一個節點,再通過對樣本間距離的加權構建邊的集合。目前常用的加權方式有高斯核函數加權、歐氏距離加權和等值加權三種,其中歐式距離加權中節點間距離越遠權值越大,不符合本模型的需求,等值加權只考慮了節點之間是否具有連接關系,忽略了節點之間的差異。故采用高斯核函數加權在三個測點間建立邊連接,使得距離更近的兩個節點之間的邊權值更大。為降低計算復雜度,使用每個測點全部樣本的均值計算三個測點間統一的權值。建立一種適配于柴油機多測點時序振動信號的鄰接矩陣搭建方法,具體步驟如下:
(1) 分別將3個測點所有的樣本進行打包構成矩陣S1,S2和S3。

(6)
式中,αi,βi和γi為同一時間分別在測點1,測點2和測點3獲取的樣本,均為n維行向量,其中m為每個測點樣本的總數,n為樣本的維度。
(2) 依次計算S1,S2和S3每列元素的平均值,并組成新的行向量y1,y2和y3。

(7)
式中:i=1,2,3;ξ為元素值全為1的m維行向量。
(3) 計算三個測點之間的權值w12,w13和w23。
(8)
式中,σ為熱核函數寬度,用于控制映射的范圍,其取值是使用高斯核函數的難點。
(4) 利用統一的邊權值搭建鄰接矩陣A。
(9)
為了提取更豐富的節點特征,參考CNN中多個卷積核的設置,建立雙頭權值矩陣,即同時使用兩個可訓練權值矩陣進行計算,具體如下:
(10)
式中,‖表示矩陣的粘合,例如兩個2×2的矩陣可粘合為一個2×4的矩陣。因為新的權值矩陣的行向量長度為原來的一半,所以計算復雜度并未增加。
池化層通過對輸入矩陣進行子采樣,一方面可以降低頂點的特征維度,簡化了模型計算的復雜度,另一方面可以有效控制有標簽樣本數量較少時的過擬合現象[23]。目前常用的池化方式主要分為最大值池化和平均池化兩類,前者的效果更好且應用更為廣泛。為了適應振動時序信號的維度,在傳統GCN的基礎上引入一維最大池化層,其中池化核寬度為2,步長為2,其運算方式如下:
(11)
式中,X=[x(i,2j)]∈3m×2n和Z=[z(i,j)]∈3m×n分別為池化層的輸入矩陣和輸出矩陣,3m為三個測點樣本的總數,n為樣本輸出的特征維度。
多通道圖卷積神經網絡(multi-channel graph convolutional network,MC-GCN)模型由兩個圖卷積層和一個一維最大池化層構成,如圖1所示。

圖1 多通道圖卷積神經網絡模型結構Fig.1 Multi-channel graph convolutional network model structure
其中第一層使用雙頭權值矩陣,并以ReLU作為激活函數;第二層為傳統圖卷積層;第三層為一維最大池化層,并使用Softmax分類器對輸出進行分類,網絡模型如下所示:
f1=ReLU(x)=max(0,x)
(12)
(13)
(14)
式中,X和Z分別為模型的輸入矩陣和輸出矩陣。
采用交叉熵(cross entropy)損失函數為目標函數對權值矩陣進行反向傳播,其計算公式如下
(15)
式中:Vtrain為訓練集樣本的集合:C為類別的數量;p和q分別為真實標簽值和模型輸出值,均為行向量;pik為第i個樣本的真實標簽向量中的第k個元素;qik同理。
缺鎂發生原因:首先,酸性土壤和輕砂土中鎂容易流失,尤其是山坡地,土壤中的交換性鎂含量降低。其次,鉀肥和磷施用過多,影響橘樹對鎂的吸收,容易引起缺鎂。此外,果園中過多使用硫磺及石硫合劑藥劑,容易使土壤顯酸性,導致缺鎂。
采用量子粒子群優化算法對圖卷積神經網絡中的兩個關鍵參數學習率k和熱核函數寬度σ進行尋優,以實現對不同類型的柴油機故障樣本集的自適應診斷。方法的具體步驟如下:
(1) 獲取初始樣本集X。在柴油機的不同工況下采集三個測點的振動信號,按工作周期截取樣本集后對每一個樣本作歸一化處理和快速傅里葉變換(fast Fourier transformation,FFT)。然后將同一時間采集到的三個測點的樣本進行打包,賦予標簽后隨機進行打亂,最后根據不同比例劃分訓練集和測試集。
(2) 根據第1.3節搭建鄰接矩陣A。
(3) 初始化網絡模型。設定QPSO的創新因子λ=0.6,粒子數量為10,學習率k和熱核函數寬度σ的搜索范圍分別為[0.02,0.03]和[4,5],增設過濾機制忽略范圍之外的粒子以提高優化效率。設定MC-GCN的輸出層維度與樣本類別數量相等,隱藏層維度為輸出層的4倍。
(4) 使用QPSO自適應選取k和σ。以MC-GCN迭代75次后訓練集的目標函數作為QPSO的適應度函數,粒子收斂后輸出優化后的k和σ。
(5) 訓練MC-GCN的權值矩陣,目標函數收斂后對柴油機的典型故障進行診斷。
與上述步驟對應的流程如圖2所示。

圖2 故障診斷流程圖Fig.2 Flowchart offault diagnosis
為了驗證方法的有效性,采用實測柴油機的模擬故障振動數據進行分析。該柴油機和測試設備的基本參數如表1和表2所示,試驗臺架如圖3所示,其中柴油機采用剛性連接,測功機通過傳動軸與飛輪相連。振動傳感器的安裝位置參考GB/T 7184—2008《中小功率柴油機振動測量及評級》[24]的要求進行布置。

圖3 模擬故障試驗臺架Fig.3 Simulated fault test bench

表1 柴油機基本參數Tab.1 Basic parameters of diesel engine

表2 測試設備基本參數Tab.2 Basic parameters of test equipment
試驗主要模擬了主噴角度異常、預噴角度異常、預噴油量異常和斷缸四種典型故障類型,除斷缸以外,其余三種均為6個缸的統一故障模擬。具體如表3所示,分別構成4個數據集,其中括號內為正常狀態。

表3 模擬故障類型表Tab.3 Diesel engine detailed parameters
本章選取該柴油機最大扭矩點附近的工況(滿載1 500 r/min)作為試驗工況,因采用的為四沖程柴油機,故其曲軸旋轉2 r為一個工作周期(0.08 s),結合采樣頻率12.8 kHz,計算得到柴油機每個工作周期的采樣點數為1 024。為保證截取后的樣本均包含一個完整的周期,設置初始樣本的長度為1 024,如圖4所示為一個周期的實測振動信號。

圖4 實測振動信號的波形圖Fig.4 Waveform of measured vibration signal
柴油機表面的振動響應信號是多個激勵源的綜合反映,但在傳播過程中其振動幅值存在不同程度的衰減。另外由于故障時的異常振動是由多個方向傳遞到機體的,不同測點采集到的信號中包含的瞬態沖擊成分不同,所以只對單一信號進行分析可能導致敏感信息的丟失。但是測點數量的增加不僅會提高使用成本,而且易受到噪聲信號的影響。故利用表3中的1號數據集進行分析,包含10個類別的樣本,單測點每類取10個訓練樣本和190個測試樣本組成樣本集。利用訓練樣本對模型進行訓練,通過測試樣本對模型性能進行評定。僅改變使用的測點數量,結果如圖5所示。
由圖5可得,當測點數量增加至3個后,診斷準確率達到一個較高值并趨于穩定。當測點數量大于4個后,診斷準確率出現下降趨勢,故最終確定測點數量為3個。如圖6所示,選取柴油機支承端位于柴油機中部的點,曲軸平面位于柴油機中部的點和機架頂部邊緣位于聯軸器端部的點作為試驗測點。

圖5 測點數量對模型性能的影響Fig.5 Influence of the number of measuring points on the performance of the model

圖6 測點位置Fig.6 Measuring point position
確定測點數量后,將第3.2節中測點數量為3的訓練過程和結果進行直觀展示。QPSO的尋優過程如圖7所示,尋優后k和σ的取值分別為0.024和4.421。MC-GCN的訓練過程如圖8和圖9所示,可見模型在迭代100次后基本保持穩定,對測試集的診斷準確率可達到97.63%。

圖7 QPSO尋優過程Fig.7 QPSO optimization process

圖8 訓練集訓練過程Fig.8 Training set training process

圖9 測試集訓練過程Fig.9 Test set training process
為進一步驗證方法對于原始時域振動信號的特征提取能力,采用流形學習中的t-SNE算法[25]分別對測試集的輸入和輸出進行可視化分析。其通過計算不同樣本之間的相似性并轉換為條件概率,以實現對高維數據集的降維。初始樣本集的分析結果如圖10所示,振動信號的冗余性導致不同類型的故障樣本混疊在一起,不具備可區分性。經過QPSO-MC-GCN模型的深層特征提取后,分析結果如圖11所示,可見各類樣本之間僅存在少量混疊,聚類效果較好。

圖10 原始數據可視化結果Fig.10 Raw data visualization results

圖11 輸出數據可視化結果Fig.11 Output data visualization results
根據以上結果,說明基于QPSO-MC-GCN的方法在訓練樣本數量較少時能夠提取出原始時域振動信號中的有價值信息,同時實現信息在不同測點樣本之間的相互傳播,實現對柴油機典型故障的精確診斷。
為了驗證論文對模型的優化效果,在傳統GCN的基礎上分別單獨引入一維池化層、雙頭權值矩陣機制和QPSO,再與本文方法進行性能對比試驗。其中傳統GCN的前向傳播模型如下:
(16)
對于不引入QPSO的模型,學習率k取QPSO搜索范圍的中間值0.025,熱核函數寬度σ取y1,y2和y3之間歐氏距離的平均值,如下式所示。
(17)
式中,yi由公式(7)計算得到。
采用與第3.2節相同的樣本集進行診斷,結果如表4所示。由表可得,單獨引入一維池化層、雙頭權值矩陣機制和QPSO后,診斷準確率分別可以提高1.69%,1.53%和1.90%,而基于QPSO-MC-GCN的方法可以將診斷準確率提高2.95%,有效驗證了優化效果。

表4 優化效果分析Tab.4 Optimization effect analysis
進一步引入混淆矩陣對各個類別的分類效果進行直觀展示,優化前和優化后的測試集診斷結果如圖12和圖13所示。圖中橫坐標表示真實標簽,縱坐標表示模型預測標簽,標簽1~10依次表示主噴角度為2°~11°的十種狀態。以主噴角度為2°的樣本為例,有99%的樣本診斷正確,有1%的樣本被錯誤診斷為3°。

圖12 優化前混淆矩陣Fig.12 Confusion matrix before optimization

圖13 優化后混淆矩陣Fig.13 Confusion matrix after optimization
由圖可見,模型對測試樣本集的最大診斷誤差僅為1°,但是優化前對于主噴角度為6°和10°兩種狀態的診斷效果不佳,準確率僅為86%和77%。而優化后,這一現象得到了明顯的改善,模型對大部分類別的診斷準確率均能夠達到98%以上。
為體現本文方法在訓練樣本數量較少時的優越性以及在不同數據集上的自適應性,采用支持向量機(support vector machine,SVM)、單通道一維卷積神經網絡(single-channel 1DCNN,SC-1DCNN)、多通道一維卷積神經網絡[26](MC-1DCNN)、單通道圖卷積神經網絡[27](SC-GCN)進行對比分析。其中,SVM采用Linear作為核函數,懲罰系數取1;SC-1DCNN和MC-1DCNN均使用4個卷積層、4個最大池化層和1個全連接層構成的模型,使用Tanh函數和ReLU函數作為激活函數;SC-GCN由2個圖卷積層構成,通過k-近鄰圖構建鄰接矩陣,使用ReLU函數和Softmax函數作為激活函數。
定義標簽比為訓練集樣本數占樣本集總數的比值,在不同標簽比條件下分別對不同程度的主噴角度異常、預噴角度異常、預噴油量異常和斷缸四種典型故障類型進行診斷,其中每種故障類型的單測點單類樣本總數為200個。對于多通道方法,同時輸入三個測點的樣本;對于單通道方法,依次輸入單測點的樣本,最后取三個測點準確率的均值。試驗結果如表5所示。

表5 本文方法與其他方法診斷準確率對比Tab.5 Comparison of recognition accuracy between QPSO-MC-GCN and other methods
由表可得,在低標簽比條件下,SVM出現了過擬合現象,對四個樣本集的平均診斷準確率僅為51.09%,無法對柴油機典型故障進行有效診斷,SC-1DCNN、MC-1DCNN和SC-GCN的診斷性能也隨著標簽比的降低有明顯的衰退。且因為關鍵控制參數無法針對不同樣本集進行自適應尋優,前四種方法應用于不同樣本集的診斷結果差異較大。基于QPSO-MC-GCN的方法擺脫了對標簽比的依賴,對不同類型的樣本集進行診斷時均能保持結果穩定,綜合性能優于其他幾種方法。
論文針對柴油機典型故障診斷中有標簽樣本數量較少的問題,建立一種基于量子粒子群算法和圖卷積神經網絡的故障診斷方法。主要工作如下:
① 將圖卷積神經網絡應用于柴油機故障診斷領域,省略了傳統方法中需要人工提取和選擇特征的步驟,在不同標簽比條件下均能保持較高的故障診斷準確率,實現了端對端的故障診斷。
② 建立一種適配于柴油機多測點時序振動信號的鄰接矩陣構建方式,利用高斯核函數衡量測點間的相互關系,在三個測點之間建立邊連接,將三個測點樣本特征映射到同一空間,實現有效融合。
③ 采用量子粒子群優化算法對圖卷積神經網絡中的學習率k和熱核函數寬度σ進行尋優選取,擺脫了對人工的依賴,使得方法應用于不同類型的數據集時具備較好的泛化能力,并增設過濾機制只保留范圍以內的粒子以降低計算復雜度。
④ 相對傳統圖卷積神經網絡,建立雙頭權值矩陣,并引入一維最大池化層。通過雙頭權值矩陣提取更豐富的深層特征,通過池化進一步抑制低標簽比條件下容易出現的過擬合現象。
⑤ 采用某型6缸柴油機的實測時序振動信號對SVM、SC-1DCNN、MC-1DCNN、SC-GCN以及基于QPSO-MC-GCN的方法進行對比試驗,驗證了方法的有效性和優越性。