侯鑫燁,董增壽,劉鑫
(1.太原科技大學電子信息工程學院,山西太原 030024;2.陽泉市區域創新促進中心,山西陽泉 045000)
近年來,采用深度學習算法的智能故障診斷技術在制造業中得到了廣泛應用,取代了耗時的人工分析方法,提高了故障診斷效率[1-3]。然而,研究者發現,深度學習方法只有當有足夠的標記訓練數據且訓練和測試數據服從相同分布,深度學習方法才能很好地工作,當訓練集和測試集來自不同工況或者不同機器時,深度學習方法的作用可能會下降甚至無效。遷移學習法旨在解決這類跨域問題,試圖利用一個域的知識解決另一個域新的相關任務[4]。
許多學者嘗試利用數據建立域不變模型,最小化特征空間分布差異。ZHANG等[5]提出的方法實現了滾動軸承故障診斷的端到端深度模型,但模型中沒有用到遷移學習算法。一些利用最大平均差異(MMD)[6-7]的遷移神經網絡模型在轉移任務上可取得良好的效果,但學習過程中會出現梯度消失和爆炸。ARJOVSKY等[8]提出了一種適用于變速旋轉機械故障診斷的深度半監督域泛化網絡DSDGN,引入Wasserstein解決了梯度消失的問題。但上述研究方法存在一定的局限性:它們的研究對象是同一臺機器上使用的軸承的遷移學習任務,僅從一種操作條件遷移到另一種操作條件;實際機器中使用的軸承帶標記的數據很少,當目標域缺乏標簽信息時,目標域中的未標記數據不能用于充分訓練智能診斷模型。
為此,本文作者提出一種基于偽標簽的弱監督遷移學習模型WSTLPL。該方法通過構建帶有偽標簽的目標域數據集,幫助帶標簽的源域數據一起訓練WSTLPL模型,Wasserstein度量用于計算源域和目標域的分布差異;通過迭代學習,一維卷積神經網絡(1D-CNN)便可學習到可遷移特征,實現域自適應。該模型中利用原始振動信號作為輸入,自適應學習故障特征。在CWRU、IMS、MPC數據集上進行實驗,證明了該模型具有更好的遷移效果。
遷移學習中,域是學習的主體[9-10],主要指相應的數據空間和數據分布。假設源域和目標域分別Ds和Dt,它們的特征空間相同、數據分布不同。遷移學習目標就是從帶標簽的源數據{Xs,Yt}中學習一個分類器并遷移到未標記的數據{Xt}中進行預測。基于特征的域自適應方法是遷移學習的一類,可將2個域映射到1個域不變的特征空間以減少源域與目標域的差異。
Wasserstein距離為評價標準,用于度量源域數據分布和目標域數據分布的距離。假設一個度量空間(M,ρ),ρ(x,y)為距離函數,x、y為集合M上的樣本,P、Q為M上的任意2個概率分布,其p階的Wasserstein距離[11-12]定義為
(1)
其中:π(x,y)為從位置x到位置y的遷移策略;∏(P,Q)為集合M×M上以P、Q為邊緣分布的聯合分布。p=1和p=2為最有效的2個階數,相比于W2、W1距離更靈活,更容易約束,通過Kantorovich-Rubinstein對偶[12]構造,W1可以表示為
(2)

WSTLPL模型如圖1所示,用一個域共享神經網絡從源域和目標域的原始振動數據中提取可傳遞的特征。然后,通過域自適應網絡減少學習到的可轉移特征的分布差異。最后,給目標域中未標記的樣本分配偽標簽,幫助訓練域共享網絡。

圖1 WSTLPL網絡結構
域共享網絡由卷積層、池化層、全連接層組成,其參數如表1所示。卷積層對輸入矩陣進行卷積操作,提取輸入矩陣不同的特征。池化層對提取的特征壓縮映射,獲得主要特征。

表1 域共享網絡參數
用于圖像分類的典型卷積層包含輸入圖像I和核K,二維卷積[13]定義如下:
(3)
由于數據是一維振動信號,因此在每個卷積層中用一維卷積。令m=1時,得到一維卷積,則上式就可以寫成如下形式:
(4)

全連接層輸出定義為
yl=φ(Wlyl-1+bl)
(5)
其中:Wl為上一層與當前層的權重矩陣;yl-1為上一層的輸出;bl為當前層的偏置。
域自適應網絡也由卷積神經網絡組成,幫助域共享網絡學習可遷移特征,其參數如表2所示。為減少從不同域數據中學習到的可轉移特征的分布差異,域自適應網絡通過最大最小化學習到的可轉移特征的Wasserstein距離來訓練域共享神經網絡的參數,計算公式如下:

表2 域自適應網絡參數
(6)

在弱監督訓練前,先進行預訓練。根據表1和表2的網絡結構構建WSTLPL網絡,將源域數據集劃分成訓練、驗證、測試3個數據集,然后將訓練集輸入該網絡,利用式(7)計算Softmax輸出的預測標簽與真實標簽的交叉熵損失,利用BP算法訓練網絡參數。
(7)
其中:n為樣本個數;K為樣本種類;F為Softmax輸出值;Y為樣本的真實標簽。
由于目標域中的樣本缺乏標簽信息,不能直接用于訓練模型,所以引入偽標簽學習[14-15]。預訓練結束后,取目標域中小批次樣本作為輸入進行預測,并將這批次樣本打對應的偽標簽。通過公式(8)計算目標域樣本的預測標簽和偽標簽之間的誤差,并反傳回網絡訓練網絡參數。最后將打偽標簽的目標域數據和帶標簽的源域數據混合,作為新的數據集對網絡進行訓練。
(8)
結合公式(6)—(8),最終的優化目標表示為
minLc+αLp+LD
(9)
其中:α∈(0,1)為平衡系數。
為驗證模型效果,分兩部分進行研究:(1)與現有學習算法的對比實驗;(2)討論系數α對WSTLPL模型的影響。實驗在Tensorflow框架下進行,計算機配置為Intel(R)Xeon(R)CPU E5-2660、中央處理器CPU的主頻為2.20 GHz,32 GB內存GTX1080Ti GPU。深度學習網絡都由ADAM優化,學習率設為0.001、衰減率為0.99、實驗訓練次數為10 000、預訓練次數為2 000。
實驗用到3個數據集:西儲大學軸承數據集CRWU、辛辛那提大學軸承壽命數據集IMS、多級離心泵數據集MCP,以實現不同機器軸承知識的遷移學習。每個數據集都包含正常、外圈故障、內圈故障、滾動體故障4種狀態,每個狀態500個樣本。由于數據分布隨著工作條件的不同而變化,則根據工作條件,將它分成不同的域,如表3所示。

表3 數據集描述
將CRWU、IMS、MCP數據集分別作為源域或目標域,共有6個遷移任務實驗。在每個實驗中,訓練數據集包括來自源域數據的所有標記數據樣本和來自目標域的1/2的未標記數據樣本,目標域的另1/2數據樣本用于測試。如表4所示,將WSTLPL模型在不同遷移任務的識別率與CNN、TCA[16]、DDC[17]作對比,分別在6個遷移實驗中進行驗證,其中:A-B表示源域A向目標域B遷移,其他遷移任務類似。從表4可以看出:所提模型的平均識別率達88.72%,在4種方法中最高;CNN沒有遷移能力,平均識別率為55.16%;TCA由于不能提取樣本深層特征,識別率僅為33.20%,不適合域差異大的遷移任務;DDC方法通過最小化MMD減小分布差異,識別率達76.36%,比WSTLPL小,比其他方法高。該結果證明了Wasserstein引導的域自適應和偽標簽學習的有效性。

表4 不同方法的識別率 單位:%
在遷移任務C-A中研究系數α對WSTLPL模型的影響。設一個參數i,其值分別取 0、0.05、0.1、0.15、0.2、0.3,令α=i,依次輸入WSTLPL模型的識別率,結果如圖2所示。可知:WSTLPL的分類準確率隨α的增大而先增大后減小;α=0時,準確率很低;當α=0.15時,WSTLPL的分類準確率達到最高;當α=0.2時,準確率迅速下降。因此,當α為0.15左右時,模型分類效果好。

圖2 系數α對WSTLPL模型的影響
利用Wasserstein距離來度量WSTLPL模型的遷移效果。圖3所示為各遷移任務在弱監督訓練時,源域和目標域特征分布的Wasserstein距離變化情況。可知:在弱監督訓練開始時,Wasserstein距離很大,隨著迭代次數的增加,Wasserstein距離減小,并趨于平穩。結果表明:WSTLPL模型可以很好地減少學習到的分布差異,提高了模型的泛化能力。

圖3 WSTLPL模型不同遷移任務時Wasserstein距離的變化
針對遷移學習中目標域標記樣本不足,且源域和目標域數據分布差異大時,訓練出的模型存在泛化能力弱的問題,提出一種基于偽標簽的半監督遷移學習模型WSTLPL。在CWRU、IMS、MCP 3個數據集的遷移任務中進行實驗對比,結果表明WSTLPL模型具有更高的識別率,并且通過觀察Wasserstein距離的變化趨勢,證明了WSTLPL模型可以減少源域和目標域的特征分布差異,模型遷移效果顯著。