季友昌,袁偉偉,毛善斌,任春紅,關(guān)東海
(1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 江蘇 南京 211106; 2.北京動(dòng)力機(jī)械研究所, 北京 100074)
在發(fā)動(dòng)機(jī)制造中,發(fā)動(dòng)機(jī)裝配完成后需要進(jìn)行試車測(cè)試,若出現(xiàn)振動(dòng)超差,則需要拆解發(fā)動(dòng)機(jī),更換零部件或者調(diào)整裝配操作,再重新裝配測(cè)試。而影響發(fā)動(dòng)機(jī)振動(dòng)水平的因素眾多,依靠經(jīng)驗(yàn)進(jìn)行調(diào)試需要花費(fèi)大量人力,嚴(yán)重影響發(fā)動(dòng)機(jī)的生產(chǎn)進(jìn)度。隨著人工智能技術(shù)的發(fā)展,研究人員嘗試開發(fā)智能算法對(duì)發(fā)動(dòng)機(jī)振動(dòng)水平進(jìn)行預(yù)測(cè),期望算法能夠?qū)ρb配過程給予指導(dǎo)。但由于復(fù)雜的裝配操作和高昂的數(shù)據(jù)獲取成本,能采集到的數(shù)據(jù)量小,并且振動(dòng)合格的樣本數(shù)量遠(yuǎn)超振動(dòng)超差的樣本,因此該問題屬于不平衡小樣本預(yù)測(cè)問題。
現(xiàn)有的發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)方法可分為:基于傳統(tǒng)機(jī)器學(xué)習(xí)算法[1],以及基于復(fù)雜神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,例如借助LSTM(long short-term memory)和RNN(recurrent neural network)來預(yù)測(cè)渦輪發(fā)動(dòng)機(jī)振動(dòng)水平[2]。但由于實(shí)際應(yīng)用場(chǎng)景中訓(xùn)練樣本的不平衡且數(shù)量少的特點(diǎn),直接使用傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法容易產(chǎn)生標(biāo)簽偏差和過擬合等問題。
遷移學(xué)習(xí)技術(shù)是解決小樣本預(yù)測(cè)問題的關(guān)鍵技術(shù)之一。它能夠利用源域數(shù)據(jù)中的知識(shí)來提高模型在目標(biāo)域的性能,減少目標(biāo)域?qū)颖镜囊蕾嘯3]。為解決目標(biāo)域和源域數(shù)據(jù)分布上的差異,提出了如基于子結(jié)構(gòu)遷移的跨域行為識(shí)別框架[4]、基于類質(zhì)心匹配與局部流形學(xué)習(xí)的域自適應(yīng)方法[5]、基于魯棒專家模型的連續(xù)性領(lǐng)域自適應(yīng)[6]等方法。但由于不同型號(hào)發(fā)動(dòng)機(jī)的裝配參數(shù)不同,即源域和目標(biāo)域的特征空間不同,在進(jìn)行域自適應(yīng)前需要先對(duì)齊特征空間,因此該問題屬于異構(gòu)遷移學(xué)習(xí)問題。
異構(gòu)遷移學(xué)習(xí)的主要思路是通過將源域和目標(biāo)域映射同一個(gè)特征空間,在該空間兩域數(shù)據(jù)分布接近,從而實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的遷移[7]。隨著深度學(xué)習(xí)蓬勃發(fā)展,越來越多的學(xué)者通過復(fù)用深度網(wǎng)絡(luò)模型實(shí)現(xiàn)領(lǐng)域遷移[8-11],而自從生成對(duì)抗網(wǎng)絡(luò)[12]的提出,其對(duì)抗的思想也被運(yùn)用到遷移學(xué)習(xí)中,衍生了許多對(duì)抗遷移學(xué)習(xí)方法[13-16]。然而,由于采集到的實(shí)際裝配數(shù)據(jù)呈現(xiàn)出樣本量小且類別不平衡的特點(diǎn),現(xiàn)有的異構(gòu)遷移學(xué)習(xí)方法很難訓(xùn)練一個(gè)具有標(biāo)簽自然不平衡的域不變特征的分類器,少數(shù)類樣本被錯(cuò)誤遷移,導(dǎo)致最終的分類模型可能也會(huì)出現(xiàn)標(biāo)簽偏差問題。此外,由于樣本量小,采用層數(shù)過多、復(fù)雜的神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)過擬合問題。
為解決現(xiàn)有工作的問題,本文提出了基于局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)模型(engine vibration prediction model based on partial domain adversarial adaptation network,EVP-PDAA)。EVP-PDAA 將領(lǐng)域按標(biāo)簽分為多個(gè)局部域,建立多個(gè)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)將目標(biāo)域樣本映射到相應(yīng)標(biāo)簽的局部源域,保證少數(shù)類樣本也能得到合理的遷移。由于樣本量小,為保證局部域?qū)惯m應(yīng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和域轉(zhuǎn)換的正確性,將推土機(jī)距離(earth mover distance,EMD)作為網(wǎng)絡(luò)的優(yōu)化目標(biāo),并在網(wǎng)絡(luò)參數(shù)更新時(shí)使用梯度懲罰策略。進(jìn)行振動(dòng)預(yù)測(cè)時(shí),利用偽標(biāo)簽來解決待預(yù)測(cè)目標(biāo)樣本的局部域?qū)惯m應(yīng)網(wǎng)絡(luò)選擇問題,使用源域分類器給出可靠的預(yù)測(cè)結(jié)果,矯正偽標(biāo)簽可能出現(xiàn)的錯(cuò)誤。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在面對(duì)不平衡小樣本時(shí)的表現(xiàn)優(yōu)于其他遷移學(xué)習(xí)方法,實(shí)現(xiàn)了遷移其他型號(hào)發(fā)動(dòng)機(jī)的數(shù)據(jù)來提高目標(biāo)發(fā)動(dòng)機(jī)的振動(dòng)預(yù)測(cè)效果。
本研究采用基于對(duì)抗思想的異構(gòu)遷移學(xué)習(xí)方法遷移源域知識(shí)。因此在相關(guān)工作中,分別對(duì)異構(gòu)遷移學(xué)習(xí)方法、深度神經(jīng)網(wǎng)絡(luò)遷移方法和深度對(duì)抗網(wǎng)絡(luò)遷移方法進(jìn)行介紹。
異構(gòu)遷移學(xué)習(xí)方法可以被主要分為兩類:基于對(duì)稱特征變換的方法和基于非對(duì)稱特征變換的方法。基于對(duì)稱特征變換的方法,即將源域和目標(biāo)域轉(zhuǎn)換到一個(gè)公共子空間,在這個(gè)空間里,源域和目標(biāo)域的數(shù)據(jù)分布較之前更接近。比如,Duan等[17]提出了異構(gòu)特征增強(qiáng)方法(heterogeneous feature augmentation,HFA),該方法使用兩個(gè)變換矩陣將源域和目標(biāo)域映射到公共子空間,并將兩個(gè)變換矩陣合并,以SVM 的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最小化對(duì)合并后矩陣進(jìn)行優(yōu)化求解。基于非對(duì)稱特征變換的方法,即將源域特征空間轉(zhuǎn)換到目標(biāo)域特征空間或?qū)⒛繕?biāo)域特征空間轉(zhuǎn)換到源域特征空間。Sukhija 等[18]提出了基于隨機(jī)森林的有監(jiān)督異構(gòu)領(lǐng)域自適應(yīng)(supervised heterogeneous domain adaptation via random forests,SHDA-RF)。SHDA-RF以目標(biāo)域和源域的共享標(biāo)簽分布作為特征變換的核心,通過隨機(jī)森林來定義共享標(biāo)簽分布和特征之間的關(guān)系,從而得到源域和目標(biāo)域特征空間之間的關(guān)系。Feuz 等[19]提出了一個(gè)特征空間重映射(feature-space remapping,F(xiàn)SR)方法。FSR 定義了目標(biāo)域和源域的元特征,并以此構(gòu)建了目標(biāo)域和源域特征的相似度矩陣,最后通過特征映射關(guān)系將目標(biāo)域樣本映射到源域樣本空間。
隨著深度學(xué)習(xí)的發(fā)展,越來越多的學(xué)者將深度網(wǎng)絡(luò)應(yīng)用于遷移學(xué)習(xí)。Ferhat 等[20]通過集成預(yù)訓(xùn)練的Transformer 模型來檢測(cè)惡意軟件。Zhang等[21]通過預(yù)訓(xùn)練和微調(diào)來進(jìn)行小樣本意圖檢測(cè)。
自從Goodfellow 提出生成對(duì)抗網(wǎng)絡(luò)[12]以來,有諸多學(xué)者嘗試將網(wǎng)絡(luò)對(duì)抗的思想應(yīng)用到遷移學(xué)習(xí)中,并提出了各種深度對(duì)抗網(wǎng)絡(luò)方法。例如Hong等提出了一個(gè)基于交叉模態(tài)肝分割、聯(lián)合對(duì)抗學(xué)習(xí)和自學(xué)習(xí)的域自適應(yīng)框架[22]。
但現(xiàn)有研究在處理不平衡小樣本的分類預(yù)測(cè)問題時(shí),少數(shù)類樣本在遷移過程中會(huì)出現(xiàn)錯(cuò)誤遷移的情況,訓(xùn)練得到的分類模型會(huì)出現(xiàn)如圖1 所示的標(biāo)簽偏差現(xiàn)象。采用層數(shù)過多、復(fù)雜的神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)過擬合問題。

圖1 標(biāo)簽偏差現(xiàn)象Fig.1 Label bias phenomenon
發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè),即根據(jù)裝配參數(shù),預(yù)測(cè)裝配后的振動(dòng)水平是否合格。實(shí)際采集到的數(shù)據(jù)樣本總量不超過150,振動(dòng)超差樣本比例不超過20%,難以直接使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)建立有效的預(yù)測(cè)模型,為此,將遷移其他型號(hào)發(fā)動(dòng)機(jī)的知識(shí)來輔助目標(biāo)發(fā)動(dòng)機(jī)的振動(dòng)預(yù)測(cè)。為將問題形式化,本文作出以下幾個(gè)定義。
定義1 源域:源域Ds由 特征集Xs=(x1s,x2s,···,xNs)和 標(biāo) 簽 集Ys=(y1s,y2s,···,yNs) 組 成, (xis,yis) 代 表 Ds的第i條樣本,N為源域樣本數(shù)量。
定義2目標(biāo)域:目標(biāo)域 Dt由特征集Xt=(x1t,x2t,···,xtN) 和 標(biāo) 簽集Yt=組成,代表 Dt的第i條樣本,M為目標(biāo)域樣本數(shù)量。
定義3局部源域:局部源域 Dγs為標(biāo)簽為γ的源域樣本所組成的集合:Dγs==γ,i=1,2,···,N}。
定義4局部目標(biāo)域:局部目標(biāo)域?yàn)闃?biāo)簽為γ 的目標(biāo)域樣本所組成的集合:Dγt==γ,i=1,2,···,M}。
定義5生成器集合:生成器集合Gen={Gi|i=0,1,···,L-1}, 其中Gi為將 Dit映射到 Dis的局部域?qū)惯m應(yīng)網(wǎng)絡(luò)中的生成器。
本文針對(duì)發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)中不平衡小樣本的問題,提出了基于局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)模型。該方法的核心思想是將領(lǐng)域按標(biāo)簽分為多個(gè)局部域,建立多個(gè)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)將各個(gè)局部目標(biāo)域樣本映射到相應(yīng)的局部源域,振動(dòng)預(yù)測(cè)時(shí)使用偽標(biāo)簽解決映射函數(shù)選擇問題,并使用源域分類器給出預(yù)測(cè)的可靠結(jié)果,糾正偽標(biāo)簽可能出現(xiàn)的錯(cuò)誤。EVP-PDAA 包含兩個(gè)階段:一是局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的建立;二是振動(dòng)預(yù)測(cè)機(jī)制。基于局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)模型的框架如圖2 所示。

圖2 EVP-PDAA 的框架Fig.2 Structure of EVP-PDAA
局部域?qū)惯m應(yīng)網(wǎng)絡(luò)由一個(gè)生成器G和一個(gè)判別器D組成。生成器學(xué)習(xí)局部目標(biāo)域到局部源域樣本空間的映射關(guān)系,以局部目標(biāo)域樣本為輸入,輸出為轉(zhuǎn)換到局部源域樣本空間的樣本。判別器學(xué)習(xí)判斷數(shù)據(jù)是轉(zhuǎn)換后的目標(biāo)域數(shù)據(jù)還是源域數(shù)據(jù),以局部源域樣本和生成器的輸出為輸入,輸出為輸入樣本與局部源域的接近程度。通過生成器和判別器的對(duì)抗訓(xùn)練,使生成器能夠準(zhǔn)確地將局部目標(biāo)域樣本映射到相應(yīng)局部源域。
若使用二元交叉熵作為損失函數(shù),生成器和判別器的損失函數(shù)分別為
式中: E 為期望函數(shù);Pr和Pg分別是局部源域樣本所服從的分布和由生成器轉(zhuǎn)換后的局部目標(biāo)域樣本所服從的分布;G(·)和D(·)分別是生成器和判別器網(wǎng)絡(luò)的可微分函數(shù)。
但以二元交叉熵作為損失函數(shù)可能會(huì)出現(xiàn)判別器訓(xùn)練得越好,最小化式(2)就會(huì)越近似于最小化Pr和Pg的JS 散度,但若Pr和Pg沒有重疊或重疊部分可以忽略時(shí)(可能性很大),Pr和Pg的JS 散度越接近于一固定常數(shù)lg2,進(jìn)而面臨梯度消失問題。此外,還有可能導(dǎo)致生成器生成樣本多樣性不夠等問題[23]。
即使Pr和Pg沒有重疊,EMD 仍能反映它們的遠(yuǎn)近,從而提供有意義的梯度。因此,將EMD 定義為生成器的損失函數(shù),可以有效地將生成器生成的樣本分布向局部源域樣本分布靠攏。EMD的定義為[23]。
使用帶參數(shù) ω的神經(jīng)網(wǎng)絡(luò)來定義一系列可能的函數(shù)fω,式(4)就可以近似轉(zhuǎn)化為
為使fω滿足Lipschitz 條件,可以采用權(quán)重裁剪策略,即限制參數(shù) ω的變化范圍不超過某個(gè)特定范圍 [-c,c],c為固定常數(shù)。但權(quán)重裁剪策略可能會(huì)導(dǎo)致判別器學(xué)習(xí)成為一種簡(jiǎn)單的函數(shù)映射,或出現(xiàn)梯度消失或爆炸等問題[23]。
因此,本文使用梯度懲罰策略[24],加入一個(gè)正則項(xiàng),將梯度的L2 范數(shù)約束在1 附近,使判別器的參數(shù)不超過某個(gè)常數(shù),滿足Lipschitz 條件。此時(shí),局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)為
其中 ε為0 到1 之間的隨機(jī)數(shù)。
綜上所述,生成器和判別器的損失函數(shù)分別為
生成器和判別器均由輸入層、隱藏層和輸出層組成。由于數(shù)據(jù)量小,為避免出現(xiàn)過擬合的情況,隱藏層的網(wǎng)絡(luò)不宜設(shè)計(jì)得過于復(fù)雜。此外,由于batch normalization(BN)是對(duì)一個(gè)批次的樣本進(jìn)行歸一化,在判別器網(wǎng)絡(luò)中加入BN 層會(huì)使得每個(gè)樣本的梯度計(jì)算出錯(cuò),因此在判別器中不加入BN 層。局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,圖中生成器和判別器的隱層層數(shù)為1。

圖3 局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.3 Structure of PDAA
局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的訓(xùn)練偽代碼如算法1 所示。
算法1局部域?qū)惯m應(yīng)網(wǎng)絡(luò)訓(xùn)練偽代碼
輸入局部目標(biāo)域訓(xùn)練數(shù)據(jù)Xt,對(duì)應(yīng)的局部源域數(shù)據(jù)Xs, 梯度懲罰項(xiàng)系數(shù) λ,判別器和生成器訓(xùn)練次數(shù)比例nd,訓(xùn)練輪次T
輸出生成器
1) Fort= 1, 2, … ,T:
2) 隨機(jī)從Xt中選擇一個(gè)樣本:xt
3) 隨機(jī)從Xs中 選擇一個(gè)樣本:xs
4) Fori= 1, 2, … ,nd:
5) 根據(jù)式(5),生成隨機(jī)樣本
6) 根據(jù)式(7),計(jì)算判別器損失
7) 使用Adam 優(yōu)化算法更新判別器參數(shù)
8) End For
9) 根據(jù)式(8),計(jì)算生成器損失
10) 使用Adam 優(yōu)化算法更新生成器參數(shù)
11) End For
在EVP-PDAA 中存在L個(gè)局部域?qū)惯m應(yīng)網(wǎng)絡(luò),使用網(wǎng)絡(luò)中的生成器可以將目標(biāo)域中各類樣本映射到對(duì)應(yīng)局部源域。但當(dāng)面對(duì)沒有標(biāo)簽的目標(biāo)樣本時(shí),很難決定使用哪一個(gè)生成器進(jìn)行領(lǐng)域轉(zhuǎn)換,無法對(duì)振動(dòng)水平進(jìn)行預(yù)測(cè)。為此,EVP-PDAA設(shè)計(jì)了一個(gè)基于偽標(biāo)簽的振動(dòng)預(yù)測(cè)機(jī)制。
EVP-PDAA 在有限的目標(biāo)域訓(xùn)練樣本上建立一個(gè)預(yù)分類器,預(yù)分類器對(duì)待預(yù)測(cè)的目標(biāo)樣本xt進(jìn)行預(yù)測(cè)并給出標(biāo)簽,將該標(biāo)簽記為偽標(biāo)簽yp,偽標(biāo)簽的值域同為目標(biāo)域標(biāo)簽空間。與最終標(biāo)簽相比,偽標(biāo)簽yp的可靠性不足,需要借助后續(xù)機(jī)制進(jìn)行驗(yàn)證或進(jìn)行修改。
隨后,根據(jù)偽標(biāo)簽在生成器集合Generators中選擇相應(yīng)生成器Gyp,利用Gyp即可將目標(biāo)樣本轉(zhuǎn)換到源域樣本空間。得到轉(zhuǎn)換到源域樣本空間下的目標(biāo)樣本Gyp(xt)后,利用在源域樣本空間中訓(xùn)練的源域分類器,對(duì)轉(zhuǎn)換后的樣本再次進(jìn)行預(yù)測(cè),給出預(yù)測(cè)的最終結(jié)果。當(dāng)預(yù)分類器出現(xiàn)誤分類, 導(dǎo)致后續(xù)選擇了錯(cuò)誤的生成器Gyp進(jìn)行域轉(zhuǎn)換,但由于Gyp學(xué)習(xí)的是 Dytp到 Dysp的映射函數(shù),不屬于 Dy
tp的目標(biāo)樣本經(jīng)過轉(zhuǎn)換后較 Dysp必然存在一定差異,而當(dāng)差異超過了源域分類器對(duì) Dysp的決策邊界且位于真實(shí)標(biāo)簽的樣本空間時(shí),源域分類器就能夠矯正預(yù)分類器的錯(cuò)誤,給出正確的標(biāo)簽。
EVP-PDAA 的振動(dòng)預(yù)測(cè)機(jī)制偽代碼如算法2 所示。
算法2振動(dòng)預(yù)測(cè)機(jī)制偽代碼
輸入待分類的目標(biāo)樣本Dtest,目標(biāo)域數(shù)據(jù)Dt,源域數(shù)據(jù)Ds,生成器集合Generators
輸出目標(biāo)樣本的標(biāo)簽Ytest
1) 在Generators 中選擇相應(yīng)的生成器,將Dt轉(zhuǎn)換到源域樣本空間,得到轉(zhuǎn)換后的數(shù)據(jù)Dt_trans
2) 使用 Dt_trans和 Ds訓(xùn)練源域分類器
3) 使用 Dt訓(xùn)練預(yù)分類器
4) 預(yù)分類器對(duì)Dtest進(jìn)行預(yù)測(cè),給出偽標(biāo)簽
5) 根據(jù)偽標(biāo)簽,在Generators 中選擇相應(yīng)的生成器對(duì)Dtest進(jìn)行域轉(zhuǎn)換,得到Dtest_trans
6) 源域分類器對(duì)Dtest_trans進(jìn)行預(yù)測(cè),給出預(yù)測(cè)的最終結(jié)果Ytest
本文在3 個(gè)源域數(shù)據(jù)集DR、EP-1、EP-2 和3 個(gè)目標(biāo)域數(shù)據(jù)集SR-1、SR-2、SR-3 上進(jìn)行了實(shí)驗(yàn)。單軸發(fā)動(dòng)機(jī)的實(shí)際裝配數(shù)據(jù)中包含248 個(gè)裝配參數(shù),使用不同的特征選擇方法進(jìn)行3 輪特征選擇,分別篩選出9、12、23 個(gè)關(guān)鍵裝配參數(shù),即SR-1、SR-2 和SR-3。DR 是從雙軸發(fā)動(dòng)機(jī)的實(shí)際裝配過程中采集而來,雙軸發(fā)動(dòng)機(jī)具有與單軸發(fā)動(dòng)機(jī)振動(dòng)相關(guān)的共性關(guān)鍵特征。EP-1 和EP-2 是從單軸發(fā)動(dòng)機(jī)的實(shí)驗(yàn)平臺(tái)采集而來,該實(shí)驗(yàn)平臺(tái)是對(duì)單軸發(fā)動(dòng)機(jī)的簡(jiǎn)化模擬,源域發(fā)動(dòng)機(jī)和目標(biāo)域發(fā)動(dòng)機(jī)的裝配工藝對(duì)發(fā)動(dòng)機(jī)振動(dòng)水平的影響具有一定共性關(guān)系,但很難通過機(jī)理分析得出關(guān)系的具體表現(xiàn)形式。各數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示。

表1 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistic results of datasets
本文選取了5 種對(duì)比方法,分別是:1) RF-T:不使用遷移學(xué)習(xí)方法,直接使用目標(biāo)域數(shù)據(jù)建立分類器;2) TCA(transfer component analysis)[25]:通過最小化源域和目標(biāo)域邊緣概率分布的距離解決兩域數(shù)據(jù)分布差異;3) CORAL(correlation alignment)[25]:通過對(duì)齊源域和目標(biāo)域協(xié)方差解決數(shù)據(jù)分布差異;4) FSR;5) SHDA-RF。由于CORAL 和TCA 要求目標(biāo)域和源域的特征空間相同,因此在遷移之前,先使用UMR[26]來統(tǒng)一目標(biāo)域和源域的特征空間。所有方法中的分類器均采用隨機(jī)森林(random forests,RF)算法。
本文使用AUC 和F1來評(píng)價(jià)各方法所建立的振動(dòng)預(yù)測(cè)模型性能,其中F1用于衡量模型對(duì)少數(shù)類的預(yù)測(cè)性能,AUC 用于評(píng)價(jià)模型的整體性能。為避免隨機(jī)因子對(duì)實(shí)驗(yàn)造成影響,每組實(shí)驗(yàn)都重復(fù)20 次,使用Wilcoxon 符號(hào)秩檢驗(yàn)[27]判斷兩個(gè)方法的實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)意義上的不同,置信水平設(shè)為95%。此外,本文使用Cohen’s d 效應(yīng)量來量化兩個(gè)方法的差異,Cohen’s d 值和效應(yīng)等級(jí)的對(duì)應(yīng)關(guān)系如表2 所示[22]。

表2 Cohen’s d 效應(yīng)量等級(jí)Table 2 The effectiveness levels of Cohen’s d
為使得網(wǎng)絡(luò)結(jié)構(gòu)不會(huì)過于復(fù)雜,在實(shí)驗(yàn)中,EVP-PDAA 局部域?qū)惯m應(yīng)網(wǎng)絡(luò)中的生成器和判別器全連接層的神經(jīng)元數(shù)量設(shè)為32,隱層層數(shù)為1,預(yù)分類器和源域分類器均使用RF。根據(jù)交叉驗(yàn)證結(jié)果,將網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)為0.0005、判別器和生成器訓(xùn)練次數(shù)比例設(shè)為5、梯度懲罰項(xiàng)系數(shù)設(shè)為10、訓(xùn)練輪次為200。
從表3 和表4 可以看出,在面對(duì)不同的源域和目標(biāo)域,EVP-PDAA 的AUC 和F1較未使用任何遷移學(xué)習(xí)方法的RF-T 都具有顯著的提升,AUC平均提升9%,F(xiàn)1平均提升25%。說明了EVP-PDAA通過多個(gè)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)隱性地表示了源域發(fā)動(dòng)機(jī)同目標(biāo)域發(fā)動(dòng)機(jī)的裝配工藝對(duì)振動(dòng)水平的共性影響關(guān)系,進(jìn)而建立起目標(biāo)域到源域的映射。并得益于源域分類器優(yōu)異的分類性能,糾正了預(yù)分類器所給偽標(biāo)簽的錯(cuò)誤,充分運(yùn)用了源域的知識(shí),進(jìn)行了有效的遷移,具有較強(qiáng)泛化性。

表3 各方法的AUC 指標(biāo)Table 3 The AUC of different methods %

表4 各方法的F1 指標(biāo)Table 4 F1 of different methods %
在大部分遷移場(chǎng)景下,CORAL 建立的振動(dòng)預(yù)測(cè)模型的AUC 和F1較RF-T 都能夠有一定提升,但在某些場(chǎng)景下,CORAL 會(huì)出現(xiàn)負(fù)遷移,預(yù)測(cè)性能不升反降,說明CORAL 的泛用性較差。而其他遷移學(xué)習(xí)方法建立的預(yù)測(cè)模型在大部分情況下的性能均劣于RF-T,出現(xiàn)了嚴(yán)重的負(fù)遷移,說明這些遷移學(xué)習(xí)方法在面對(duì)不平衡小樣本不能進(jìn)行合理的遷移。EVP-PDAA 的表現(xiàn)顯著超過其他遷移學(xué)習(xí)方法,AUC 能夠平均提升26%,F(xiàn)1能夠平均提升30%。
從圖4 和圖5 可以看出,EVP-PDAA 和其他遷移學(xué)習(xí)方法建立的預(yù)測(cè)模型在性能上都具有統(tǒng)計(jì)意義的不同。AUC 和F1指標(biāo)的效應(yīng)量等級(jí)幾乎都為L(zhǎng),且效應(yīng)量值遠(yuǎn)大于L 的閾值,說明較其他遷移學(xué)習(xí)方法,EVP-PDAA 能夠更有效地遷移其他型號(hào)發(fā)動(dòng)機(jī)的知識(shí),建立性能更強(qiáng)的振動(dòng)預(yù)測(cè)模型。

圖4 EVP-PDAA 和其他遷移學(xué)習(xí)方法的AUC 統(tǒng)計(jì)分析Fig.4 Statistical analysis of AUC between EVP-PDAA and other transfer learning methods

圖5 EVP-PDAA 和其他遷移學(xué)習(xí)方法的F1 統(tǒng)計(jì)分析Fig.5 Statistical analysis of F1 between EVP-PDAA and other transfer learning methods
此外,對(duì)于EVP-PDAA,遷移 EP-1 和EP-2 性能要優(yōu)于遷移DR 的性能。這是由于EP-1 和EP-2的源域分類器性能要優(yōu)于DR,表5 給出了RF 在源域上的分類性能, EP-1 和EP-2 的源域分類器對(duì)偽標(biāo)簽的錯(cuò)誤矯正能力更強(qiáng),所建立的振動(dòng)預(yù)測(cè)模型的性能更強(qiáng)。也進(jìn)一步說明了,當(dāng)EVPPDAA 通過多個(gè)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)建立起目標(biāo)域到源域的映射,且能在源域上建立一個(gè)分類性能很強(qiáng)的分類器時(shí),可以實(shí)現(xiàn)有效的遷移,較好地解決了不平衡小樣本帶來的遷移難等問題。EVP-PDAA 不適用于在源域樣本空間中無法建立一個(gè)具備優(yōu)異分類性能的分類器的情況。

表5 RF 在源域上的性能Table 5 The performance of RF in source domain %
為對(duì)預(yù)分類器進(jìn)行有效性分析,預(yù)分類器使用6 種不同類型的分類算法,分別是人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、貝葉斯分類器(Bayes)、決策樹(decision tree,DT)、邏輯回歸(logistic regression,LR)、RF、支持向量機(jī)(support vector machine,SVM)。其中,ANN 的網(wǎng)絡(luò)結(jié)構(gòu)為:輸入層、包含64 個(gè)神經(jīng)元的全連接層、LeakyReLU激活函數(shù)、輸出層,使用二元交叉熵作為損失函數(shù),Adam 作為優(yōu)化器。Bayes 使用高斯樸素貝葉斯,LR 使用L2 作為正則項(xiàng)。EVP-PDAA 采用不同預(yù)分類器的AUC 和F1平均值如圖6 和圖7 所示。

圖6 EVP-PDAA 和預(yù)分類器的AUC 對(duì)比分析Fig.6 Comparison of AUC between EVP-PDAA and pre-classifier

圖7 EVP-PDAA 和預(yù)分類器的F1 對(duì)比分析Fig.7 Comparison of F1 between EVP-PDAA and pre-classifier
從實(shí)驗(yàn)結(jié)果上看,無論預(yù)分類器采用何種類型的分類算法,EVP-PDAA 的AUC 和F1均優(yōu)于預(yù)分類器。當(dāng)預(yù)分類器的指標(biāo)較低時(shí),EVP-PDAA的提升幅度非常明顯,EVP-PDAA 的性能與預(yù)分類器的性能基本呈正相關(guān)的關(guān)系,預(yù)分類器的性能越強(qiáng),EVP-PDAA 的性能越強(qiáng)。這是因?yàn)轭A(yù)分類器給出的偽標(biāo)簽越準(zhǔn)確,執(zhí)行錯(cuò)誤轉(zhuǎn)換越少,需要標(biāo)簽矯正的次數(shù)越少。此外,從實(shí)驗(yàn)結(jié)果中,我們發(fā)現(xiàn)SVM 和LR 較其他分類算法的性能更強(qiáng),這可能是因?yàn)槟繕?biāo)域數(shù)據(jù)存在一個(gè)線性平面能夠相對(duì)較好地劃分多數(shù)類和少數(shù)類的決策邊界。ANN、Bayes 和DT 識(shí)別少數(shù)類的能力較差,這可能是因?yàn)槟P统霈F(xiàn)了過擬合,決策邊界更偏向多數(shù)類。
為對(duì)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行有效性分析,本文對(duì)另外兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了實(shí)驗(yàn),分別是使用梯度裁剪策略來保證Lipschitz 連續(xù),記采用這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的EVP-PDAA 為EVP-PDAA-C;以及使用二元交叉熵作為生成器和判別器的損失函數(shù),記為EVP-PDAA-N。
PDAA、EVP-PDAA-N 和EVP-PDAA-C 的預(yù)分類器均以RF 為預(yù)分類器,圖8 和圖9 分別顯示了各方法的AUC 和F1值。從實(shí)驗(yàn)結(jié)果中,我們可以發(fā)現(xiàn)采用EMD 距離作為目標(biāo)函數(shù)并使用梯度懲罰策略的PDAA 在AUC 和F1指標(biāo)上均優(yōu)于EVPPDAA-C 和EVP-PDAA-N,而EVP-PDAA-C 的性能要優(yōu)于EVP-PDAA-N。這是因?yàn)楫?dāng)EVP-PDAA-N的判別器訓(xùn)練得過好時(shí),生成器的損失函數(shù)會(huì)出現(xiàn)梯度消失,并且生成器損失函數(shù)的梯度不夠穩(wěn)定,容易出現(xiàn)模型崩潰等問題。采用EMD 作為目標(biāo)函數(shù)的EVP-PDAA-C 雖然能夠解決生成器損失函數(shù)梯度消失的問題,保證網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,但梯度裁剪策略直接將梯度暴力地限制在一個(gè)常數(shù)空間,樣本生成能力差和目標(biāo)函數(shù)不能收斂的問題仍會(huì)存在。當(dāng)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)中生成器訓(xùn)練得越好,建立的目標(biāo)域到源域的映射函數(shù)越準(zhǔn)確,EVP-PDAA 的性能也會(huì)越強(qiáng)。

圖8 EVP-PDAA、EVP-PDAA-C、EVP-PDAA -N 的AUC箱型圖Fig.8 AUC box plot of EVP-PDAA、EVP-PDAA-C、EVPPDAA -N

圖9 EVP-PDAA、EVP-PDAA-C、EVP-PDAA -N 的F1 箱型圖Fig.9 F1 box plot of EVP-PDAA、EVP-PDAA-C、EVPPDAA -N
為分析各訓(xùn)練超參數(shù)對(duì)EVP-PDAA 性能的影響,本文對(duì)學(xué)習(xí)率、梯度懲罰項(xiàng)系數(shù) λ、判別器和生成器訓(xùn)練次數(shù)比例nd、訓(xùn)練輪次T分別進(jìn)行了實(shí)驗(yàn)。在實(shí)驗(yàn)中,源域數(shù)據(jù)集為DR,目標(biāo)域數(shù)據(jù)集為SR-1,使用RF 作為預(yù)分類器。分析某一超參數(shù)時(shí),其他超參數(shù)均固定。為避免隨機(jī)因子造成影響,每組實(shí)驗(yàn)都重復(fù)20 次,取平均值作為對(duì)比。
圖10 給出了EVP-PDAA 在不同學(xué)習(xí)率和λ下,AUC 和F1指標(biāo)的變化情況。從圖中可以看出,當(dāng)學(xué)習(xí)率取0.000 5 時(shí),EVP-PDAA 的性能最佳。不同梯度懲罰項(xiàng)系數(shù) λ的取值為10 時(shí),EVPPDAA 性能最強(qiáng)。


圖10 EVP-PDAA 在不同學(xué)習(xí)率和梯度懲罰項(xiàng)系數(shù)λ 下AUC 和F1 指標(biāo)的變化情況Fig.10 AUC and F1 of EVP-PDAA under different learning rate and gradient penalty coefficient λ
圖11 給出了EVP-PDAA 在nd、T不同的取值下,AUC 和F1指標(biāo)的變化情況。從圖中可以看出,當(dāng)nd在到達(dá)5 時(shí),判別器已能夠得到較好地訓(xùn)練,EVP-PDAA 性能已基本最優(yōu),而當(dāng)nd小于5時(shí),由于判別器訓(xùn)練得不夠充分,導(dǎo)致模型性能受到較大影響。此外,當(dāng)T到達(dá)200 時(shí),網(wǎng)絡(luò)已基本訓(xùn)練完成,此時(shí)模型性能已趨于穩(wěn)定。

圖11 EVP-PDAA 在不同n d、T 下AUC 和F1 指標(biāo)的變化情況Fig.11 AUC and F1 of EVP-PDAA under different nd and T
實(shí)際裝配過程中采集到的發(fā)動(dòng)機(jī)裝配數(shù)據(jù)呈現(xiàn)樣本量小且類別不平衡的特點(diǎn),直接建立的發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)模型性能不佳。借助遷移學(xué)習(xí)技術(shù),可以將其他型號(hào)的發(fā)動(dòng)機(jī)裝配數(shù)據(jù)和實(shí)驗(yàn)平臺(tái)的裝配數(shù)據(jù)遷移到目標(biāo)發(fā)動(dòng)機(jī),輔助目標(biāo)發(fā)動(dòng)機(jī)的振動(dòng)預(yù)測(cè)。但現(xiàn)有遷移學(xué)習(xí)方法在面對(duì)不平衡小樣本并不能進(jìn)行合理有效的遷移,因此,我們提出了基于局部域?qū)惯m應(yīng)網(wǎng)絡(luò)的發(fā)動(dòng)機(jī)振動(dòng)預(yù)測(cè)模型。將領(lǐng)域按標(biāo)簽分為多個(gè)局部域,通過多個(gè)局部域?qū)惯m應(yīng)網(wǎng)絡(luò)將目標(biāo)域樣本映射到源域,保證小樣本中的少數(shù)類得到正確的遷移。通過偽標(biāo)簽來解決目標(biāo)樣本的域轉(zhuǎn)換,并使用標(biāo)簽矯正機(jī)制給出可靠的預(yù)測(cè)結(jié)果。