王曉玉,劉桂芳,韓寶坤,王金瑞,石兆婷
(山東科技大學(xué) 機(jī)械電子工程學(xué)院,山東 青島266590)
在大數(shù)據(jù)時代,數(shù)據(jù)的特征學(xué)習(xí)過程可以通過運(yùn)用人工智能技術(shù)自動完成[1-3]。在智能故障診斷領(lǐng)域,現(xiàn)有的大多數(shù)故障診斷算法研究的前提是不同類型的故障樣本的數(shù)量是充足的。然而,在實(shí)際應(yīng)用場景中,經(jīng)常會出現(xiàn)數(shù)據(jù)分類不充分的情況。同時,機(jī)械運(yùn)行過程中故障較少,大部分運(yùn)行階段處于正常工作狀態(tài)[4-5]。一些罕見的故障問題不可避免地存在數(shù)據(jù)量有限的問題[6]。當(dāng)對應(yīng)的故障數(shù)據(jù)集相對充足時,識別率較高。但對于罕見的故障類型,由于數(shù)據(jù)相對稀少,識別率較低。此外,有些故障類型甚至無法識別[7]。因此,有必要針對數(shù)據(jù)量不足的情況,開發(fā)有效的智能故障診斷算法。
通過文獻(xiàn)綜述可知,許多深度學(xué)習(xí)模型[8-9]被用來解決訓(xùn)練數(shù)據(jù)不充足工況下的故障診斷問題。最常見的解決方法是對充足的訓(xùn)練樣本進(jìn)行欠采樣,對不充足的訓(xùn)練樣本進(jìn)行過采樣。王金瑞等[10]提出了一種基于Wasserstein 距離的生成對抗網(wǎng)絡(luò)-堆疊自編碼器(Wasserstein generative adversarial networks-stacked autoencoders,WGAN-SAE)用于樣本無關(guān)情況下的故障診斷。該框架采用WGAN 生成仿真數(shù)據(jù),堆疊自編碼器(Stacked autoencoders,SAE)[11]對平衡數(shù)據(jù)集進(jìn)行精確分類。賈峰等[12]提出了一種深度歸一化卷積神經(jīng)網(wǎng)絡(luò)(Deep normalized convolutional neural network,DNCNN)框架,通過對卷積神經(jīng)網(wǎng)絡(luò)添加權(quán)重標(biāo)準(zhǔn)化實(shí)現(xiàn)了不平衡狀態(tài)下的軸承故障分類。陳超等[13]提出了一種基于輔助數(shù)據(jù)的增強(qiáng)型最小二乘支持向量機(jī),并采用遷移學(xué)習(xí)策略實(shí)現(xiàn)了數(shù)據(jù)量不充足條件下的軸承故障診斷。Yan 等[14]提出了一種基于改進(jìn)的希爾伯特-黃變換(Hilbert-Huang transform,HHT)和支持向量機(jī)(Support vector machine,SVM)的軸承初始故障的診斷方法,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
為了促進(jìn)樣本不足的情況下智能故障診斷的成功應(yīng)用,提出一種新的數(shù)據(jù)增強(qiáng)堆疊自編碼(Dataenhanced stacked autoencoders,DESAE)框架,主要包括數(shù)據(jù)增強(qiáng)部分和故障分類部分。在數(shù)據(jù)增強(qiáng)部分,將SAE 用于生成模擬信號以處理樣本集不足的問題。因?yàn)镾AE的解碼過程是一個輸入樣本的重建進(jìn)程,因此,重構(gòu)數(shù)據(jù)可以用來補(bǔ)充樣本集不足。在故障分類模塊中,再次采用SAE 對增強(qiáng)的數(shù)據(jù)集進(jìn)行特征提取,采用Softmax 回歸(Softmax logical regression)[15]對故障類型進(jìn)行識別。
本文的章節(jié)安排如下:第一部分簡要介紹自編碼器(Autoencoders,AE)[16]和SAE的框架結(jié)構(gòu),具體介紹DESAE算法;在第二部分,用軸承的診斷案例來驗(yàn)證所提方法的有效性;最后部分是結(jié)語。
AE是SAE的基本單元,是一種無監(jiān)督學(xué)習(xí)算法,可以從未標(biāo)記的數(shù)據(jù)中自動學(xué)習(xí)特征。它主要用于數(shù)據(jù)的特征提取和降維。AE的結(jié)構(gòu)是一個前饋神經(jīng)網(wǎng)絡(luò),它有3個網(wǎng)絡(luò)層[17],包括數(shù)據(jù)輸入層、隱含層和輸出層,如圖1所示。自動編碼器分為兩部分,即編碼器部分和解碼器部分。利用編碼器將輸入信號映射到隱層表達(dá)式中,完成數(shù)據(jù)的高維特征提取過程。利用解碼器從隱層中恢復(fù)原始輸入數(shù)據(jù),完成數(shù)據(jù)重建過程。
同時,AE是一種特殊的神經(jīng)網(wǎng)絡(luò)算法。由于輸出向量是輸入向量的重構(gòu),故理想狀態(tài)下具有相同的輸出和輸入。為了使輸入特征的重構(gòu)誤差最小,在重構(gòu)過程中建立損失函數(shù),采用隨機(jī)梯度下降法(Stochastic gradient descent,SGD)[17]或其他參數(shù)優(yōu)化算法使損失函數(shù)最小。

圖1 AE的結(jié)構(gòu)

其中:hn表示由xn計(jì)算得到的隱層編碼向量。
gθ′(·)是編碼器函數(shù),它從低維特征映射到高維特征,產(chǎn)生重構(gòu):

對AE的參數(shù)集進(jìn)行優(yōu)化,使其重構(gòu)誤差最小:

其中:L表示損失函數(shù)
如圖2所示,SAE 由兩個或多個獨(dú)立的AEs組成。實(shí)際上,它增加了隱層的數(shù)量,逐層學(xué)習(xí)原始數(shù)據(jù)的各種表達(dá)式,以便從復(fù)雜的高維輸入數(shù)據(jù)中更好學(xué)習(xí)具有不同維度和層次的抽象特征向量。因此,SAE可以減少輸入數(shù)據(jù)的維數(shù),具有很強(qiáng)的通過學(xué)習(xí)提取輸入特征值的能力。

圖2 SAE的結(jié)構(gòu)
SAE的整個訓(xùn)練過程包括兩個步驟:預(yù)訓(xùn)練和微調(diào)。首先,單個AE是一種自監(jiān)督算法,將每一層的輸出作為下一層的輸入,直到所有隱層都訓(xùn)練完畢。最后一層采用Softmax 回歸作為分類器,使用誤差反向傳播算法(Error back propagation,BP)[18]對帶標(biāo)記數(shù)據(jù)的整個網(wǎng)絡(luò)進(jìn)行微調(diào),最后輸出分類結(jié)果。
如圖3所示。DESAE 由兩個SAE模型組成。第一個SAE模型用于從真實(shí)的故障譜信號中生成模擬的故障數(shù)據(jù),每層神經(jīng)元數(shù)量分別為1 200、600、200、100。第二個SAE模型用于實(shí)現(xiàn)故障樣本的特征提取和故障分類,將第一個SAE 生成的仿真數(shù)據(jù)以及原始樣本作為該模型的輸入,每層神經(jīng)元數(shù)量分別為1 200、600、200 和100。最后一層采用softmax 分類器,采用BP算法進(jìn)行網(wǎng)絡(luò)微調(diào)。網(wǎng)絡(luò)的激活函數(shù)是ReLU 函數(shù)。需要注意的是,為了提高網(wǎng)絡(luò)訓(xùn)練速度,避免出現(xiàn)梯度消失的問題,在SAE的每一個激活層之前都使用了批標(biāo)準(zhǔn)化(Batch normalization,BN)算法[19]。

圖3 DESAE的結(jié)構(gòu)
選用一組自行采集的圓柱滾子軸承數(shù)據(jù)集驗(yàn)證DESAE診斷軸承故障的性能,實(shí)驗(yàn)平臺如圖4(a)所示。電動機(jī)、聯(lián)軸器、軸承座、齒輪箱和制動器是平臺的主要部件。支座振動信號由帶振動傳感器的LMS數(shù)據(jù)采集儀采集,采樣頻率為25.6 kHz,發(fā)動機(jī)轉(zhuǎn)速為2 000 r/min,圓柱滾子軸承類型為N205EU,如圖4(b)所示。軸承有4種健康狀態(tài):NC、RF、IF、OF。每種故障類型包含3種不同程度的損壞,分別為0.2 mm、0.4 mm 和0.6 mm。因此,軸承類型可分為10種,具體如表1所示。對振動傳感器采集到的時域信號進(jìn)行預(yù)處理。首先從每種健康狀況下的軸承信號中隨機(jī)抽取200 段信號,將每段信號作為一個樣本,每個樣本包含2 400個數(shù)據(jù)點(diǎn)。然后對每個樣本進(jìn)行快速傅里葉變換,得到1 200維的頻域信號樣本。最后將得到的頻譜樣本作為DESAE的輸入。此外,所有的實(shí)驗(yàn)樣本數(shù)據(jù)都是在相同的負(fù)載下采集的。

表1 圓柱滾子軸承的數(shù)據(jù)集描述

圖4 軸承數(shù)據(jù)測試平臺
DESAE 參數(shù)設(shè)置如下:網(wǎng)絡(luò)的激活函數(shù)為Re-LU函數(shù),迭代次數(shù)為30次,學(xué)習(xí)速率為1×10-4,動量為0.5,批量大小為50。從每個數(shù)據(jù)類型中隨機(jī)抽取25 %的樣本作為訓(xùn)練樣本,其余樣本作為測試集。如圖5所示,生成樣本頻域信號的特征分布與真實(shí)樣本的頻域信號除了幅值存在小幅度的差異,各樣本的特征分布非常相似,具有幾乎相同的特征趨勢,僅憑肉眼難以區(qū)分兩組數(shù)據(jù)的真?zhèn)巍y試數(shù)據(jù)集的診斷準(zhǔn)確性結(jié)果如圖6所示。可見,SAE的性能最差,測試精度僅為85.02%。無BN的DESAE的性能略好于SAE,平均準(zhǔn)確率為87.9%。毫無疑問,DESAE的性能最好,平均準(zhǔn)確率遠(yuǎn)高于其他兩種方法,達(dá)到99.75%。為了驗(yàn)證DESAE的有效性,使用t-SNE將根據(jù)3種方法學(xué)習(xí)到的高維特征向量進(jìn)行降維可視化處理。在圖7(a)、圖7(b)中,同一類型的樣本散點(diǎn)分布較為分散,不同類型的樣本出現(xiàn)了不同程度的誤分類。由圖7(c)可以看出,DESAE的表現(xiàn)最好,相同類型的樣本緊密聚集在一起,不同類型的樣本區(qū)分明顯,未發(fā)生誤分類的情況。

圖5 圓柱滾子軸承的實(shí)際故障信號和產(chǎn)生的故障信號

圖6 3種方法的準(zhǔn)確率對比

圖7 3種方法的混淆矩陣

圖8 DESAE各層網(wǎng)絡(luò)的軸承信號特征可視化圖
為了更好了解DESAE各隱層提取特征的形式,圖8給出了所有網(wǎng)絡(luò)層特征分布的可視化表現(xiàn)形式。從特征的變化趨勢可以看出,輸入層特征的區(qū)別度很小,不同樣本的特征區(qū)分度不大。經(jīng)各隱層提取特征之后,隨著隱含層層數(shù)的增加,不同樣本的特征越來越明顯。由圖8(d)可看出,不同健康狀況的樣本間的特征區(qū)別明顯。因此,所提方法可從待測樣本中提取特征并進(jìn)行精確分類。
針對機(jī)械故障分類不足的問題,提出了一種深度設(shè)計(jì)框架。在DESAE框架的基礎(chǔ)上,首先利用第一個SAE 生成模擬信號,以增強(qiáng)不足的訓(xùn)練數(shù)據(jù),然后將增強(qiáng)后的數(shù)據(jù)集與原始數(shù)據(jù)集相結(jié)合,再輸入到第二個SAE 進(jìn)行故障分類。通過軸承實(shí)驗(yàn)驗(yàn)證了該方法的有效性,并由分類結(jié)果和可視化分析可以看出,DESAE 能更有效地處理分類不足的問題。本文試圖為機(jī)械故障診斷任務(wù)建立一個預(yù)測框架,通過建模數(shù)據(jù)生成過程有可能更好地學(xué)習(xí)和理解輸入數(shù)據(jù)的分布,有助于隨后的分類任務(wù)。