彭 博,張 毅,蹇清平,于 翔
(1.成都工業職業技術學院,四川 成都 610218;2.西南石油大學機電工程學院,四川 成都 610500)
近年來,深度學習作為一種高效的數據驅動特征提取技術正在興起,而故障診斷研究在很大程度上得益于深度神經網絡的發展[1]。由于運行條件的變化、附加噪聲的干擾、機器安裝誤差等,在許多行業中,訓練和測試數據更有可能從不同的分布中收集[2]。因此,測試診斷性能存在分布差異,這被稱為域轉移問題[3]。
域自適應方法已經成功地被開發用于知識轉移,其目的是最小化源領域和目標領域之間的分布差異。其中,深度學習網絡使得知識可以在不同的領域之間進行有效的傳遞,因此得到了廣泛的研究。文獻[4]提出了一種用于故障診斷知識轉移的深度卷積神經網絡結構,其中采用了兩個模塊,即狀態識別和域自適應。文獻[5]提出了一種用于跨域故障診斷任務的深生成神經網絡,測試場景中的假故障數據可以通過MMD人工生成。文獻[6]提出了一種基于深度學習的故障診斷領域自適應方法,使得域間最小均方誤差最小。然而,考慮到現有的方法一般側重于域的邊緣分布的比較,這類方法的嚴重局限性在于兩個域都有標識空間的理想化假設。
在實際的工業應用中,在測試場景中收集所有機器健康狀況的數據幾乎是不可能的。因此,考慮了部分遷移學習問題,即目標域的標簽空間是源標簽空間的子空間。文獻[7]提出了一種選擇性對抗網絡,其中使用多個鑒別器進行部分域自適應。文獻[8]提出了一種非監督部分遷移學習的重要性加權對抗式網絡,在源樣本上附加學習到的實例級權值來度量與目標域的相似度。文獻[9]對不同來源實例的部分相關“實例特征”知識進行了探索,并相應地提出了一種具有部分相關“實例特征”知識的轉移學習方法,用于選擇性知識轉移。但是上述方法在處理邊緣數據分布時由于源類的離群性,無法跨領域傳遞有效的診斷知識。
為解決邊緣數據離群性問題,提出了一種基于類加權對抗網絡的跨域旋轉機械故障診斷方法。通過在源類別上附加類級權重,可以直觀地表示源域和目標域之間的關系,大大提高域自適應效果。在兩個機械故障診斷數據集上的實驗結果驗證了該方法的有效性。
這里的目的是設計一個特征提取器h=G(x),以獲取數據的域不變特征,并尤其注意標簽空間的差異。同時,構造了用于機器故障診斷的分類器y=F(G(x)),在源監督下的最小化概率Rt=
這里以機械振動信號為研究對象,進行故障診斷。具體地說,利用頻域信息,首先對原始采集的加速度數據進行快速傅里葉變換(FFT)。端到端學習方案是深度學習的優點之一,但直接對數據進行數據源提取通常會導致網絡訓練效率較低,需要對數據進行預處理。與其他常見信號大多分布在圖像等固定范圍內的數據值不同,振動信號普遍存在顯著峰值,可能比穩態時的值大上百倍。因此,目前流行的最小最大尺度等數據預處理方法不能直接用于機械信號的處理。在本研究中,提出了一種頻域樣本縮放的預處理方法,如式(1)所示。

式中:xs,i,k—源域中第i個樣本的第k個數據點;xt,j,k—目標域中第j個樣本的第k個數據點;xs,min—所有源域數據點的最小值;Ninput—樣本的維數。利用對數函數,大幅度降低峰值,將信號映射到數據分布較為均勻的區域,便于后續深度神經網絡的特征提取。
近年來,域對抗網絡在遷移學習中得到了廣泛的發展,通常采用特征提取器G和域鑒別器D兩個模塊,其參數分別記為θG和θD。同時進行對抗訓練,其中域鑒別器的目標是根據提取的特征G(x)來區分源域和目標域,然后訓練G來混淆鑒別器。這里進一步采用分類器模塊C進行故障診斷,其參數記為θC,所提方法,如圖1所示。

圖1 遷移學習總體結構Fig.1 Overall Structure of Transfer Learning
首先,分類器用于機器故障診斷,并進行源監督訓練。具體來說,在源域樣本的經驗分類損失最小的前提下,對特征提取器和分類器同時進行優化。
同時,為了減少域的移動,特征提取器需要學習域不變特征?;趯褂柧毞桨福瑢郸菵進行優化,以減小區域鑒別器D的損失。其中,D是兩個域的二值分類器。另一方面,特征提取器被訓練用來使得D的損失最大化。綜上所述,域對抗網絡的目標定義為:

式中:Lc—機器狀態預測損失;Ld—領域分類損失;di—域標號;α0—兩項懲罰系數。
在本研究中,機器狀態和域分類都采用了交叉熵損失函數[10]。對參數θG、θD和θC進行了優化,得到了最優解。

式中:、和—θG、θD和θC的最佳取值。
這樣,G可以提取域不變特征,在源監督下最小化目標故障診斷的風險。
傳統的領域對抗網絡旨在拉近源域和目標域的邊界分布。由于目標標簽空間是部分遷移學習中源域標簽空間的一個子空間,即Yt?Ys,直接進行對抗訓練基本上會由于源離群數據而導致測試性能下降。因此,由于目標域數據無監督且目標標簽空間不可用,因此在域自適應過程中需要忽略離群類。
針對部分遷移學習問題,這里提出了一種類加權域自適應方法。盡管目標標簽空間不可訪問,但可以向源類附加額外的權重,以衡量它們與目標域的相似性??梢园l現,域鑒別器的輸出非常適合用來作為權重的指標。
損失函數Ld描述了真實域標號d和預測標號之間的差異。在對抗訓練過程中,期望屬于同一類的樣本聚類到相同的區域。相應的,離群源類與兩個域的重疊較小,這意味著可以獲得較高的預測離群源類的置信度,獲得較小的Ld值。另一方面,共享的類經過大量的對抗訓練,并且域鑒別器對域標簽預測沒有信心。因此,損失Ld更大。
因此,在部分遷移學習中,源類的權值可以通過域預測損失Ld來估計。

式中:wj和Djs—第j個源類的權重和樣本;ns,j—Djs中樣本的個數;ds—源域標簽;Nc—源類的個數。
等式4表明,如果域鑒別器在識別源類時不太清晰,則源類有更大的機會進入目標域。相應的,應該更多地關注共享類的域適配,而忽略離群類。本研究中提出的類加權遷移學習方法的方案,在對抗學習中,源類被賦予不同的權值,如圖2所示。

圖2 對抗性學習中提出的類加權遷移學習Fig.2 Class Weighted Transfer Learning Proposed in Antagonistic Learning
雖然權值可以很好地用域分解損失表示,但值應在一定范圍內歸一化。這里采用最小最大歸一化方法:

綜上所述,這里方法的最終目標函數為:

式中:α1和α2—懲罰系數;dt—目標域標簽。優化目標為:

目前廣泛使用的隨機梯度下降優化方法基本上不能直接求解式(7)中的優化問題。這是因為,同時通過特征提取器的優化和域鑒別器的優化,可以使域預識別損失最小化。因此,引入梯度反轉層(GRL)來解決這一問題。
具體來說,在網絡模型的前饋過程中,GRL作為身份映射,也可以忽略。在反向傳播中,GRL在翻轉符號后將接收到梯度傳遞的前一層。具體地說,GRL可以用前向傳播和后向傳播過程中的函數R(x)表示。

式中:I—單位矩陣;λ—懲罰參數,為簡便起見,這里將懲罰參數設為1。
通過等式(7)中梯度反轉層的應用,優化問題可以通過基于隨機梯度下降的算法求解,該算法也可以在常用的深度學習編程平臺上實現。這樣就可以在一個訓練步驟中同時更新網絡模型中的所有參數,并且可以很好地解決局部遷移學習問題,有效地過濾源離群類,并將共享類集中于域自適應區域。
所提出的網絡結構,如圖3所示。一般采用三個模塊,即:特征提取器、域鑒別器和分類器。在特征抽取器中,首先使用三個卷積層,其濾波器尺寸為3,濾波器數目分別為128、64和32。在扁平化層之后,使用一個完全連接層對128個神經元進行分類,并將所學到的表示進一步用于域分類和機器狀態分類。

圖3 所提出的網絡架構Fig.3 Proposed Network Architecture
對于域鑒別器,使用2個卷積層,分別使用大小為3的256個和128個濾波器,然后使用2個全連接層,分別使用512和128個神經元。然后連接兩個神經元,分別代表兩個域標簽,最后使用softmax函數進行域分類。
分類器模塊的結構與域鑒別器相似。使用了兩個卷積層,分別帶有大小為3的32和16個過濾器。在64個神經元完全連接后,利用Nc神經元和softmax分類器進行故障診斷。此外,為了避免過擬合,整個網絡一般采用主動丟棄策略,大多數層采用LRe-LU激活函數。采用BP 算法對網絡參數進行更新,并采用Adam優化方法。
(1)CWRU。首個滾動軸承數據集由凱斯西儲大學軸承數據中心提供。這里使用的振動數據采集自電機驅動端2個轉速下的振動數據。1797rpm 和1730rpm,在4 個健康狀態下:(1)健康(H);(2)外圈故障(OF);(3)內圈故障(IF);(4)球圈故障(BF)。這三個故障是人工制造的,直徑分別為7mils、14mils 和21mils。因此,在兩個轉速域考慮了10種軸承條件。
(2)TrainBogie。第二個滾動軸承數據集是在高速多單元列車轉向架軸承系統實驗裝置上制備的,如圖4所示。

圖4 列車轉向架試驗臺以及三種軸承故障Fig.4 Test Bed of Train Bogie and Three Kinds of Bearing Faults
與CWRU數據集類似,將1590rpm和1950rpm的兩個轉速作為不同的域,分別對應于260km∕h和320km∕h的列車速度。產生了三種類型的斷層,即斷層。外圈故障(OF)、滾子故障(RF)、內圈故障(IF)。這里還考慮了故障嚴重程度的三個級別,即輕度故障、中度故障和嚴重故障。兩個數據集的詳細信息,如表1所示。

表1 兩個數據集的詳細信息Tab.1 Details of the Two Data Sets
本研究對部分遷移學習問題采用不同的觀點進行比較。以下所有方法均與該方法共享相似的網絡和實驗配置。
基準方法:首先,在沒有域自適應和部分轉移特征提取的情況下,特征提取器和分類器在源監督下訓練并直接用于測試。
DA-Ad[11]:該方法去掉了領域自適應的類加權方案,只引入了傳統的域對抗訓練。兩個數據集的詳細信息,如表1所示。
DA-MMD[12]:最大平均差度量(Maximum Mean Difference,MMD)已被廣泛應用于測量源域和目標域之間分布的離散性。因此,也可以通過最小化學習表示中的MMD來提取領域不變特征。
在本節中,對部分轉移學習問題進行了實驗研究,研究了不同的故障診斷任務。相關任務的詳細信息,如表2所示。在兩個數據集中隨機選取部分遷移學習任務。每個機器條件下有100個標記的源域樣本可用于不同場景的訓練,在每個考慮的條件下測試400個未標記的目標域樣本。在實現過程中,首先對網絡進行預訓練,只保留最小的分類損失Lc。然后,對網絡進行優化,使式(6)中提出的目標F最小。為了減少隨機性的影響,對報告的實驗結果進行10次試驗平均,并給出平均值和標準差。模型參數,如表3所示。它們主要是由任務中的驗證結果確定的,任務中僅使用1797rpm 轉速下的CWRU 數據進行訓練和驗證,目標類與C2相同。本研究的實驗是在NVIDIA GeForce RTX 2080 Ti GPU和i7 CPU的工作站上進行的。使用Tensorflow 深度學習平臺進行編程。

表2 部分遷移學習任務的信息Tab.2 Information of the Partial Transfer Learning Tasks in this Study

表3 用到的參數Tab.3 Parameters Used in this Study
3.3.1 跨域的診斷結果
CWRU數據集不同部分遷移學習任務下的跨域故障診斷結果,如表4所示。除了提出的框架中的三種比較方法外,還使用了重要性加權對抗網絡(IWAN)進行比較。實驗結果表明,提出方法具有較高的測試正確率,大多數正確率在98%以上。在不同的任務下,該方法的性能優于其他方法,證明了提出的方法在解決部分遷移學習問題上的有效性。此外,該方法在不同情況下的標準差一般較小,表明該方法在不同的實驗運行中都能取得良好的收斂性能。
可以看出,在非部分任務C1中,兩種邊緣域自適應方法DAAdv和DA-MMD 取得了良好的遷移學習性能。但是,當測試數據有偏差時,這些方法會產生顯著的負傳遞效應。例如,在測試數據集中只有3個類的任務C5中,傳統的領域自適應方法診斷正確率僅為60%左右,而在不使用遷移學習技術的情況下,基線方法的診斷正確率達到87.6%。使用該方法,正確率達到99.6%,在部分遷移學習任務中具有優越性。此外,比較方法的標準差也顯著,特別是在C5等極端情況下,所提方法可以在較小的變化下取得穩定的性能。進一步驗證了該算法的收斂性能。
此外,通過與IWAN方法的比較,該方法也取得了較好的效果。IWAN在相對簡單的任務,如C1、C2和C8中具有較強競爭力,但在目標域有很大偏差的困難任務中效率較低。例如,在任務,C7和C10中,只有一個類包含在目標域中,而提出的方法明顯有較大的改善。另外,在機器狀態監控任務中,目標機器健康狀態集通常較小,故障類別有限。因此,該方法適用于故障診斷中的局部域自適應問題。
不同方法的平均計算時間也,如表4所示。可以看出,在一般情況下,所提出的方法可以在半小時內實現。由于部分遷移學習問題大多離線進行,所以其計算量可以接受。雖然基線和DAAdv的比較方法導致更快的計算,但它們在測試精度上的競爭力卻比較弱。值得注意的是,IWAN方法引入了源和目標域之間的實例級校準,因此相關樣本包含了更多的參數。IWAN還使用了正則化技術[13],因此,盡管其具有較好的診斷性能,但卻需要更多的計算時間。

表4 CWRU數據集中不同任務測試精度的均值和標準差(%)Tab.4 Mean and Standard Deviation of test Accuracy for Different Tasks in CWRU Data Set(%)
列車轉向架數據集的實驗結果,如表5所示。與CWRU數據集相比,該數據集具有更強的實用性,因此獲得的測試正確率較低。然而,仍然可以觀察到相似的規律。對于目標域內相關類別超過半數的部分遷移任務,即B1、B2、B3和B8,三種域自適應方法的性能一般都優于基準方法。與該方法相比,DA-Adv 和DAMMD兩種優化邊界域分布的方法都具有較強的競爭力。但是,當目標域存在顯著偏置時,兩種邊緣方法均達到負遷移性能,且測試結果比基準方法差。

表5 列車轉向架數據集中不同任務測試精度的平均值和標準差Tab.5 Means and Standard Deviations of the Testing Accuracies in Different Tasks in the Train Bogie Data Set
與此同時,盡管IWAN方法在很多情況下都有很好的結果,但在目標領域存在很大偏差的困難任務中,IWAN方法的競爭力較弱。該方法在不同場景下仍然具有最佳的診斷性能,進一步驗證了該方法對部分遷移學習問題的有效性和優越性。
3.3.2 參數分析
在本節中,研究了模型參數對診斷性能的影響。具體地,研究了懲罰系數α1和α2作為不同優化目標的權重。驗證任務的實驗結果,如圖5所示。可以看出,在合理范圍內,不同參數的性能變化不明顯。例如,沒有參數大于或小于另一個參數的十倍。結果表明,該方法的收斂性一般是穩定的。

圖5 懲罰系數對驗證任務的影響Fig.5 The Effect of Penalty Coefficient on Verification Task
3.3.3 特征可視化
在本節中,基于學習表示的可視化,定性地研究了所提方法的有效性。有效的t-SNE技術通過將樣本從原始特征空間映射到二維地圖來使得高維數據表示可視化[14]。
任務C2中特征提取器在不同方法下學習的高級表示的可視化結果,藍色和紅色數字分別表示源域和目標域中共享類的樣本,如圖6所示。綠色數字表示源異常值,值表示類。結果表明,不同的適應方法使不同域的分布更加接近,同一類群在不同域上很好地聚在一起。這表明現有的遷移學習方法一般適用于目標域偏性不顯著且包含源類最多的部分遷移任務。結果表明,測試正確率較高,如表4所示。

圖6 任務C2中不同方法學習的高級表征的可視化Fig.6 Visualization of Advanced Representations of Different Learning Methods in Task C2
任務C5中的可視化結果,如圖7所示。其中,10個源類中只有3 個存在于目標域中。在這個場景中,使用DA-Adv 和DAMMD方法觀察到兩個域中不同類之間的顯著重疊?,F有的兩種深度遷移學習方法都是為了最小化兩個域的邊緣分布,由于目標域存在較大偏差,導致同類的聚類性能較差。因此,兩種方法的測試正確率都很低,如表4所示。另一方面,該方法對兩個域之間的共享類具有較好的聚類性能,并且離群類與共享類能夠很好地分離。因此,測試精度接近100%。

圖7 任務C5的可視化結果Fig.7 Visualization Results of Task C5
此外,這里的方法在不同任務下的學習表示和類級權重,如圖8所示。一色和另一色的數字表示不同權重的源樣本,顏色條表示權重值。一色的數字是目標樣本,值代表類。可以觀察到,兩個域之間的共享類大多聚在相同的區域,源離群類是分開的。另外,共享類基本上附加了最大的權值,源離群值的權值一般接近于0。例如,對于目標域存在顯著偏倚且只有1 類中的任務C10,現有的域自適應方法負遷移性能嚴重,測試正確率明顯低于基準方法,如表4所示。

圖8 不同任務中的可視化結果Fig.8 Visualization Results in Different Tasks
然而,這里提出的方法通過將異常值的權值設置為幾乎為零來忽略異常值,并關注權值最大的共享類5的自適應的結果。其結果表明,該方法對于解決部分遷移學習問題是非常有效的。
為解決邊緣數據離群性問題,提出了一種基于類加權對抗網絡的跨域旋轉機械故障診斷方法。在CWRU數據集和一個列車轉向架數據集上對該方法進行了實驗,分析實驗結果可以得出如下結論:
(1)提出的診斷方法能夠有效地忽略離群源類,在不同的任務下,該方法的性能優于其他故障診斷方法,證明了提出的方法在解決部分遷移學習問題上的有效性。
(2)該方法在不同情況下的標準差一般較小,表明該方法在不同的實驗運行中都能取得良好的收斂性。
(3)提出的故障診斷方法相對來說具有更好的診斷精度,且時間成本也處于可接受區間。