李 鑫 李哲民 魏居輝 楊雅婷 王紅霞
(國防科技大學文理學院 長沙 410073)
目前,絕大部分機器學習任務都需要假設數據滿足獨立同分布這一條件,但在語音語義、工業視覺檢測、自動駕駛等諸多機器學習的應用場景中,傳感器采集到的數據可能不滿足獨立同分布的假設,而是來自多個不同的分布(域).例如,手寫數字識別中采集的數字可能來自多種不同的書寫風格,或是字體大小、顏色等在不同的環境中具有不同的分布.此時,在監督學習過程中,模型會學習到書寫風格、顏色等特征,由于這些特征與標簽的相關性在不同環境下發生了變化,且不是識別手寫數字的主要依據,因此稱之為虛假特征.而手寫數字的形狀特征在各個域中是獨立同分布的,也即在不同環境中與標簽的相關性保持不變,因此稱之為真實特征,其直觀解釋如圖1所示:

Fig. 1 Intuitive interpretation of true and false features
跨域訓練任務的訓練集數據按不同的域分類給出,且可根據是否知道測試集所屬域信息分為跨域泛化和跨域適應2個問題.當面對一個未知的測試環境時,其虛假特征的分布可能發生重大偏差,因此更傾向于使用真實特征對未知域進行預測,我們稱此類問題為跨域泛化問題.另一方面,當預先知道待預測數據來自某個域時,更傾向于綜合利用真實特征和虛假特征對目標進行預測,特別地,當收集到的新域數據量較少時,需要結合訓練域中的足量數據共同訓練出更好的識別模型,我們稱此類問題為跨域適應問題.研究跨域任務具有很高的實用價值,例如,根據針對的發音人,語音識別技術可以分為特定人語音識別和非特定人語音識別,前者只需識別1個或幾個人的發音,而后者則可以被任何人使用.由于不同發音人的所屬地區、年齡、性別等差異可將采集的訓練數據分為不同的域,此時訓練語音識別模型可視為一個跨域訓練任務.對于非特定人的語音識別,就必須提取到語音數據的真實特征,這對應于本項目研究的跨域泛化問題.而對于特定人的語音識別,我們希望能夠綜合利用真實特征和虛假特征實現更準確的預測.特別地,當采集到的特定人的語音數據較少時,我們希望可以從訓練域中事先提取到真實特征和虛假特征,只需通過少量的特定人數據綜合利用這些特征,就可以達到更好的識別效果,這對應于本項目研究的跨域適應問題.
本文旨在為上述跨域適應問題提供一種解決思路,其核心就是要分離并綜合利用真實特征和虛假特征.由于該問題是最新提出的問題,因此還鮮有文獻對其進行詳細討論,通常直接利用經驗風險最小化[1]方法進行訓練.而分離特征的關鍵在于穩定地提取真實特征,這又對應于上述跨域泛化問題,因此我們仍需要詳細討論并改進已有的關于跨域泛化問題的方法,進一步嵌入到本文新設計的模型中,可以在跨域任務中取得高效預測.
傳統的機器學習方法通過最大程度地減少訓練誤差來學習復雜的預測規則,但數據常會有選擇偏見,一些混雜因素和虛假特征會損害輸入數據[2-5],導致模型學到一些虛假的特征[6-8].為了只提取真實特征,目前主要有2種研究思路:一種思路是提升分類模型的魯棒性[9-12],Engstrom等人[13]指出簡單的平移或旋轉變換足以蒙騙基于神經網絡的視覺模型,需要設計魯棒的分類模型.后來Jacobsen等人[14]發現神經網絡可能對任務無關的輸入變化過于敏感,而通過對抗訓練提升模型魯棒性的方法會限制與任務相關的輸入.Arpit等人[15-16]從熵的角度出發通過剔除低相關性特征,增強了預測模型的魯棒性.盡管文獻[9-16]的研究較好地增強了模型的魯棒性,但在部分訓練環境中,虛假特征的相關性甚至高于真實特征的相關性,此時這些方法仍會失效.而另一種研究思路發展于Arjovsky等人[17]提出的不變風險最小化,該文認為不穩定特征與標簽之間具有虛假相關性,且這種相關性的大小會因環境的不同而發生變化,而穩定特征Φ(x)具有不變性,也即基于穩定特征對標簽Y的預測概率P(Y|Φ(x))在不同環境下都相同,且認為這種不變性特征與標簽之間具有因果關系[18-20].基于這一思想,提出了用于跨域泛化任務的不變風險最小化(invariant risk minimization, IRM)模型,通過增加了跨域不變性的懲罰項,使得模型能從不同訓練域中學習到穩定特征.基于這個結果,Ahuja等人[21]將IRM問題轉化為博弈論問題,給出了一種求解新思路.Krueger等人[22]提出了MM-REx和V-REx這2種訓練風險函數,使得跨域泛化的準確率得到進一步提升,從而更好地提取穩定特征.
盡管基于IRM的4種方法已經在分離真實特征方面取得了不錯的效果,但仍存在一些不足:
1) 各種方法的懲罰項在形式上差異明顯,如何解釋和評價這些不變懲罰項,以及如何設計合適的不變懲罰項還需要進一步討論;
2) 這些方法無法預先選擇最佳的訓練輪數,訓練易過擬合.實驗表明隨著訓練輪數的增加,訓練準確率會繼續增加(上界由訓練環境中的標簽與虛假特征的相關性大小決定),但測試準確率會先增加后減小,這表明隨著訓練輪數的增加模型繞過了不變性懲罰學習到虛假特征.
針對上述問題,本文在充分討論跨域泛化問題的基礎上,設計了一種更加穩定風險損失函數,在此基礎上,構建了一個基于特征分離的跨域自適應學習模型,很好地解決了跨域適應問題.具體有3方面貢獻:
1) 提取真實特征的關鍵在于設計合適的訓練風險函數,我們發現總體預測風險中引入不變性懲罰應與虛假特征在不同環境下和標簽的相關性差異有本質聯系.基于這一思路,比較了各種分布差異懲罰的優劣,并根據準確率差異設計了一種新的不變性懲罰.
2) 基于上述不變性懲罰提出了一種新的風險損失函數ADR(accuracy difference risk),該風險函數不僅可以更好地提取真實特征,而且有效地避免了IRM等方法容易過擬合的缺點,因此,該風險函數便于嵌入應用到后續模型中,更具實用價值.
3) 基于ADR風險函數,我們構建一個可以綜合利用穩定特征和不穩定特征的自適應學習模型CDGA(cross-domain generalization and adaptation model).該模型分為數據特征表達和分類器2部分,通過設計的訓練方法訓練后,該模型不僅可以提升了解決跨域泛化問題的效果,還充分利用訓練域的足量數據和新域的少量數據很好地解決跨域適應問題.

1) 經驗風險最小化[1](ERM).設環境e中的誤差風險為

(1)
(2)
2) 魯棒性優化[10](ROB).在魯棒性優化中,需要最小化風險函數:

(3)
其中,re為環境基準,當設定re=0時,也就是最小化誤差最大的環境誤差.選擇這個基準是為了去除環境噪聲對學習的影響.
3) 不變風險最小化[17](IRM).Arjovsky等人[17]最新提出了一種不變風險最小化的方法,將預測模型f分成2個部分f=ω°Φ,其中Φ:X→H為數據特征表達,ω:H→Y為分類器.并提出當分類器ω可以使得所有環境中的預測風險一致達到最小時,則認為預測模型用的是不變特征進行預測的,而這種不變的特征正是在跨域泛化問題中需要提取的真實特征.該方法的數學表示為

(4)
這是一個很有挑戰的2級多目標優化問題,因此作者進一步將其簡化為一種可操作的版本IRMv1,轉化成一個2級單目標優化問題,即要最小化風險函數:

(5)

4) 最小化最大風險(MM-REx)和風險方差最小化[22](V-REx).Krueger等人[22]基于各環境中的預測風險,分別提出了最小化最大風險和風險方差最小化2種風險函數.MM-REx方法考慮將最大環境風險與其他環境風險加上權重,以增加不同環境風險的相似性:

(6)
其中,m為訓練環境數量,超參數β為平衡參數.而V-REx方法可以進一步增強不同環境風險的相似性,以它們之間的方差作為懲罰項加入到風險函數中:

(7)
該方法通過控制不同環境中輸出風險的差異,使得模型學習訓練數據中的真實特征.
這4種方法在風險函數中引入了不同的不變性懲罰項,從而學習了原始數據的真實特征.但為了更好地嵌入到后續提出的CDGA模型中,我們需要對式(5)~(7)中的風險函數進一步優化,在跨域泛化任務中的測試準確率和訓練穩定性這2個方面達到更好的效果.

針對此問題,我們在改進分離真實特征中訓練風險函數的基礎上構建了一個解決跨域任務的CDGA模型,可以很好地分離出并綜合利用真實特征和虛假特征,在跨域泛化和跨域適應問題中均取得了很好的效果.
本文的最終目標是構建一個能夠綜合利用真實特征和虛假特征的學習訓練模型,在跨域泛化和跨域適應問題上都具有很好的效果.而該模型的核心在于如何更好地學習不同環境數據中的真實特征,因此本節先詳細討論了學習跨域穩定特征的關鍵是在總體預測風險中引入不變性懲罰,并提出該懲罰項與模型預測分布的差異有本質聯系.進一步,通過比較了各種分布差異懲罰的優劣,基于準確率差異設計了一個更好的不變性懲罰,從而提出ADR風險函數,在分離真實特征中取得很好的效果,提升了跨域泛化能力.
跨域泛化問題的核心是提取不同環境下訓練數據的真實特征.如果模型提取了真實特征,對于同一標簽的預測結果,預測為各類別的概率近似相同,也即P(Y|Φ(x))在不同環境中都相同,因此其在不同環境下對相同標簽數據的預測分布應近似相同,大多數文獻都基于此將構建的不變性懲罰項加入到總體訓練風險函數之中,從而提取真實特征.Arjovsky等人[17]提出了不變風險最小化方法,預測模型分為數據表達Φ和分類器ω這2個部分,訓練目標是優化ω和Φ的參數使得所有環境中的預測風險達到一致最小,其風險函數由式(5)給出.Krueger等人[20]提出了最大風險最小化和風險方差最小化2種方法,訓練目標是優化不同環境中預測風險的差異達到最小,風險函數分別由式(6)(7)給出.以上3種方法是目前提取真實特征效果較好的方法,從本質上而言,各種風險函數都專注于刻畫不同環境下模型預測分布差異.如果學習到真實特征進行預測,那么其在不同環境下的預測結果應當具有類似的分布,與之相反,當學習到虛假特征時,模型在不同環境下預測結果的分布會產生較大差異.為此基于4.1節所構造的Colored MNIST數據集考察了不同的風險函數下模型訓練輸出的分布,其平均預測準確率見表1,預測分布情況如圖2所示.

Table 1 Average Accuracy of the Model Under Different Penalty Items
首先,訓練之前人為去除訓練集的顏色特征(4.1節中構造的Colored MNIST數據集僅有顏色這一個虛假特征),此時模型只能學習到真實特征,因此期望的訓練結果是訓練和測試準確率均超過了72%,其在不同環境中的預測分布見圖2(a1)(a2);隨后,引入顏色特征,并考察多種方法的預測效果.
1) 不采用任何不變性懲罰時的預測分布見圖2(b1)(b2)(即ERM方法),此時模型學習了虛假特征進行預測,訓練準確率達到84.8%,但由于虛假特征在測試集中與標簽的相關性發生較大變化,測試準確率僅有10.3%,該方法失效.
2) 采用分布均值差異作為不變性懲罰項的預測分布見圖2(c1)(c2)(即MEAN方法),該方法懲罰了不同環境下預測分布均值的差異.此時,訓練準確率為82.6%,測試準確率上升為31.4%,可見該懲罰一定程度上增強了對真實特征的學習,但并不嚴格,仍能學習到很多虛假特征.
3) 采用分布方差差異作為不變性懲罰項的預測分布見圖2(d1)(d2)(即VAR方法),采用分布均值差異和分布方差差異相結合的方式見圖2(e1)(e2),此時預測分布差異得到更細致的刻畫,測試準確率上升到40.8%,可見進一步嚴格預測分布懲罰可以學習到更多穩定特征.
4) 采用IRMv1作為不變性懲罰項的預測分布見圖2(f1)(f2),該方法考慮到在不同環境下的預測結果分布應當是平移不變的,更加嚴格地限制了分布的差異,其測試準確率提升到66.3%.
5) 采用V-REx作為不變性懲罰項的預測分布見圖2(g1)(g2),該方法懲罰了不同訓練環境下預測誤差的方差,適當放寬了IRMv1對分布差異的限制,訓練準確率可進一步提升到68.6%.
6) 采用更嚴格的KL散度作為不變性懲罰項的預測分布見圖2(h1)(h2),KL散度從信息的角度表征了分布之間的差異大小.此時,模型更傾向于在不同環境下作出更一致的預測結果,而隨機的預測結果比任何一種預測都更能縮減其中的差異,從而導致模型無法學習到任何有用的特征.

Fig. 2 Distribution map of label prediction under different methods
通過分析不同方法下的不變性懲罰項,發現其本質在于刻畫模型在不同環境下的預測分布差異.但需要注意是,若嚴格限制不同環境下的預測結果的分布,會導致分類器更傾向于一個隨機的預測結果,而不對任何特征進行學習,為此,需要在模型的準確性和模型的泛化能力之間作出取舍,折中設計一種更好的不變性懲罰.
在設計風險函數時,要盡可能地懲罰虛假特征,且保留真實特征.為實現這2個目的,我們從2個方面考慮:1)要在學習真實特征的基礎上,盡可能多地懲罰虛假特征的影響.因此,我們在設計風險懲罰函數時,要能充分反映虛假特征的影響,也即,當模型學習到虛假特征進行預測時,風險函數會明顯增大.2)要在懲罰虛假特征的基礎上,盡可能多地保留真實特征.為此,我們需要放寬對預測分布的一致性約束.主要有2個原因:1)不同訓練環境中的樣本的隨機性和數據量的有限性,造成了真實特征在不同環境下與標簽的相關性產生差異;2)在一些實際系統中,真正決定樣本分類的特征與虛假特征不具有明顯的界限(如手寫數字的形狀特征和書寫風格這一虛假特征),因此,虛假特征在不同環境下與標簽的相關性差異會一定程度上影響了真實特征在不同環境下與標簽的相關性.所以,我們在懲罰虛假特征的同時,也要保護形狀特征不被明顯“過濾掉”.基于此分析,我們基于預測準確率差異設計了一種非參數估計的懲罰項,有效權衡了“懲罰虛假特征”和“保留真實特征”兩個目標,在此基礎上設計了ADR訓練風險函數.
ADR風險函數的設計基于思想為:當模型進行學習時,會同時學習到真實特征和虛假特征,從而在不同環境下作出不一致的預測,而在這些不一致的預測中,那些預測錯誤的結果是由虛假特征主導的,這是因為不同環境下虛假特征與目標的相關性會發生改變,因此我們更加關注不同環境下分類錯誤部分的差異并施以懲罰.因此,構建了ADR訓練風險函數:
(8)
其中,labels表示分類標簽集合,Nei(f)表示環境e下的i標簽被分類錯誤的數目,μ為調節超參數.

我們在第2節詳細討論了如何分離提取出訓練數據中的真實特征,該特征可以對跨域泛化問題作出穩定的預測.事實上,在學習過程中引入了預測分布差異懲罰項后,數據表達Φ將自動地過濾掉虛假特征,而僅保留真實特征.但當已知數據來自哪個域時,應當更傾向于綜合利用真實特征和虛假特征共同預測,基于此,本文建立了可以同時處理跨域泛化和跨域適應問題CDGA模型.
d(D(Φs(xe1)),D(Φs(xe2)),…,D(Φs(xem))),
(9)
其中,D(·)為數據的分布,在后文的CDGA模型中采用式(8)所示的ADR風險函數.從而,通過訓練可以使得Φs在保證訓練準確率的基礎上滿足:
D(Φs(xep))≈D(Φs(xeq)),?ep,eq∈εtr,
(10)



算法1.CDGA模型參數訓練算法.
輸入:訓練數據De(e∈εtr)、少量新域數據Dea;
輸出:預測模型ωs°Φ,ωa°Φ以及ωe°Φ,e∈εtr.
① forstep=1 toNφdo
② fork=1 toNωdo
③ forj=1 tomdo
④logitj=ωej°Φ(xej);
⑤lossj=(logitj-yej);
⑥lossj反向傳播更新參數λej;
⑦ end for
⑧logita=ωa°Φ(xea);
⑨lossa=(logita-yea) ;
⑩lossa反向傳播更新參數λea;
D(Φs(xe2)),…,D(Φs(xem)));
/*step小于閾值Γω,μ取較小值*/
μ(D(Φs(xe1)),D(Φs(xe2)),…,
D(Φs(xem)));
/*step小于閾值ΓΦ,μ取較小值*/
算法1便是CDGA模型的學習過程,通過交替學習分類器和數據表達,最終學習出可分離特征的數據表達Φ,以及與環境適應的分類器ω.當只有2個訓練環境時,訓練過程示意圖如圖3所示:

Fig. 3 Schematic diagram of CDGA model training in two training environments
如圖4所示,對于跨域泛化任務,我們可以用返回的模型ωs°Φ進行預測.對于跨域適應任務,若待預測數據來自訓練環境ej,則用模型ωej°Φ進行預測,若待預測數據來自新環境ea,則用模型ωa°Φ進行預測.因此,該模型可以同時實現跨域泛化和跨域適應2項任務.

對于分類器ω,每次迭代我們都會學習出適應各訓練環境的最優分類器ωe,e∈εtr和不變預測分類器ωs,它們可以對Φ表達的真實特征和虛假特征進行加權結合,從而使得預測模型更加適應特定環境進行預測.對于未知域的待預測數據,我們可直接采用不變預測分類器ωs和Φ進行預測,也即使用真實特征進行預測,可以保證預測效果.
綜上,通過交替訓練各環境下的分類器和數據表達,我們可以分離真實特征和虛假特征,從而在跨域任務中實現高效預測.


(11)


Fig. 5 Flow chart of constructing Colored MNIST data set
當模型學習到樣本中的真實特征時,其能夠在不同域中均具有不錯的表現.為了驗證本文提出的ADR模型能夠較好地提取樣本的穩定特征,我們取pe=0.1,0.2分別生成25 000張圖像作為2個訓練環境,以pe=0.9生成10 000張圖像作為測試環境.當采用ADR風險函數訓練模型,模型的預測結果數據分布情況如圖6所示.可以發現相比較于其他方法,其在錯誤預測上具備更穩定的分布特征,由此削弱了模型對虛假特征的學習程度,可以更好地學習真實特征進行模型預測.
然后,我們將采用ADR風險函數的實驗結果與經驗風險最小化模型(ERM)、不變風險最小化模型(IRMv1)、魯棒性優化模型(Rob)和風險方差模型(V-REx)進行了對比.每種方法進行20次訓練實驗,每次訓練2 000輪.選取模型在測試集上的準確率作為模型優劣的度量指標.實驗結果如圖7和圖8所示,圖中的各種線表示不同方法下20次實驗的準確率均值,陰影區域表示20次實驗結果的包絡區域.圖7展示了不同方法在訓練環境中的準確率隨訓練輪數的變化情況.我們可以看出ERM方法和Rob方法的訓練準確率超過90%,可見模型充分學習了顏色特征.而其他3種方法的訓練準確率均在70%左右,有效地抑制了對顏色特征的學習.而圖8展示了模型在pe=0.9的測試環境中的準確率隨訓練輪數的變化情況,我們提出的方法的平均測試準確率為69.0%±1.8%,具有最高的測試準確率.另外,隨著訓練輪數的增加,其他方法的測試準確率逐漸開始下降,而我們的方法保持不變,這就避免了因迭代輪數選擇過大而影響訓練效果,有效地克服了其他方法容易過擬合學習到顏色特征的缺點,解決了測試準確率因迭代輪數增加而明顯降低的問題.因此,ADR方法可以穩定地提取真實特征,可很好地嵌入到我們的CDGA模型中.

Fig. 6 The label prediction distribution map using the ADR risk function

Fig. 7 Comparison of training precision under different methods
在實際運用中,僅使用真實特征去識別往往會導致識別準確率不高,因為一些虛假特征往往對識別準確率的提升有一定的積極作用.而這些虛假特征的分布會隨著域的變化而改變,在已知某個樣本來自某個域的情況下對該樣本進行識別被稱之為跨域適應問題.例如,在實際問題中,有時可能需要去識別一些具備不同背景顏色的數字,而這些來自新域的數字很少被標注,經常直接使用這些樣本訓練模型后,模型在測試集表現不佳.而直接使用MNIST作為訓練集進行訓練會面臨跨域適應的難題.已有的工作提出了能夠學習真實特征的模型,但是沒有對如何結合適用少量新域數據中的虛假特征進行討論.本文對于跨域適應問題的討論,基于假設域的信息通過來自該域的其他少量標注樣本給出,這一假設和實際背景契合,具有合理性.

Fig. 8 Comparison of test precision under different methods
實驗以pe=0.1,0.2分別生成25 000張圖像作為2個訓練環境,分別以pe=0.4,0.5,0.6,0.7,0.8,0.9生成10 000張圖像作為測試環境.此外,以pe=0.4,0.5,0.6,0.7,0.8,0.9生成1 000張來自新域的標注圖像,且這些圖像的原圖像與測試集不相同.實驗選取了3種模型:第1種為本文提出的跨域泛化模型,該模型使用生成的50 000張訓練集進行訓練;第2種為經驗風險最小化模型(ERM),該模型分別在pe=0.4,0.5,0.6,0.7,0.8,0.9的1 000張新域圖像上進行訓練;第3種為本文提出的CDGA模型,使用50 000張訓練集和1 000張新域圖像進行訓練.
實驗結果如表2所示,我們不難看出本項目提出的CDGA模型對新域的預測結果要顯著優于跨域泛化和ERM方法.當虛假特征與標簽的相關性較弱時(pe的值接近0.5),CDGA模型側重利用真實特征作出預測,且少量利用虛假特征使預測結果比泛化模型更好;當虛假特征與標簽的相關性較強時(pe的值接近0或1),CDGA模型側重利用虛假特征作出預測,且少量利用真實特征使預測結果比ERM方法還要好,從而驗證了CDGA模型在跨域適應問題中的優勢.

Table 2 Comparison of the Effects of Different Models with a Small Amount of New Domain Data
綜上,我們的模型在跨域適應問題中可以綜合利用真實特征和虛假特征作出很好的預測.而且在訓練過程中也學習了跨域泛化預測模型ωs°Φ,因此我們初步驗證了CDGA模型可以同時在跨域泛化和跨域適應任務中作出高效預測.
本文基于機器學習領域中的跨域任務的最新研究,構建了一個能夠實現特征分離的自適應學習模型——CDGA模型,該模型在跨域泛化和跨域適應問題上都具有不錯的表現.
一方面,對于跨域泛化問題,需要使用真實特征對未知新域數據進行預測.由于真實特征在不同環境下的分布保持不變,因此考慮在訓練風險中引入不變性懲罰來剔除虛假特征.通過分析發現,該懲罰項的本質是表征模型在不同環境下輸出分布的差異.基于這一思路,比較了現有方法的優劣,并提出了一種新的訓練風險函數ADR,可以更好地學習到數據中的真實特征.該方法不僅具有更高的測試準確率,還克服現有方法容易過擬合的缺點,解決了測試準確率因迭代輪數增加而明顯降低的問題.
另一方面,基于穩定的跨域泛化學習方法,本文構建的CDGA模型可以在跨域適應任務取得很好的效果.該模型訓練出的數據表達Φ同時可以表達真實特征和虛假特征.若已知待測數據來自某個訓練域,則只需選擇相應域的分類器即可;若已知待測數據來自某個新域ea,則只需收集該域的少量數據Dea訓練相應的分類器ωa即可;若待測數據來自未知域,則選擇穩定預測分類器ωs°Φ進行預測.因此,不論是跨域泛化任務還是跨域適應任務,該模型均可選擇相應的分類器ω作出高效預測.
本文提出的模型可以應用于跨域適應和跨域泛化2項任務,相較于原有方法取得一定的進展.但對于跨域學習任務,仍然有不少問題值得進一步研究.例如,如何尋找新的不變性懲罰項以更好地提取真實特征并過濾虛假特征;如何拓展該模型在多種虛假特征混雜的訓練數據中的應用;如何將不變性懲罰方法與魯棒性增強的方法相結合以解決跨域訓練任務等.
作者貢獻聲明:李鑫負責提出研究選題、提出模型、論文撰寫;李哲民負責編寫代碼和實施實驗過程;魏居輝負責論文作圖和撰寫論文;楊雅婷負責調研整理文獻并設計論文框架;王紅霞負責修訂和完善論文.