余歡歡,陳松燦
南京航空航天大學 計算機科學與技術學院,南京 211106
域適應學習(domain adaptation learning,DAL)[1]作為遷移學習[2]的子問題,近幾年在機器學習和數據挖掘領域受到了越來越多的關注,并被應用于自然語言[3-6]、計算機視覺[7-8]、醫療健康和生物信息學[9-10]等領域。DAL不同于傳統的機器學習方法,其無需假設訓練/源域(記為S)樣本和測試/目標域(記為T)樣本服從相同的概率分布,即PS(X)≠PT(X),因此能有效解決因概率分布不同而產生的學習性能退化問題。
無監督域適應(unsupervised DA,UDA)作為域適應學習的一個研究分支,通常用于解決標記稀缺、無標記小樣本、個性化設計等問題。其中,無標記小樣本問題備受關注,一般采用聚類方法進行建模,但因樣本量少易導致聚類性能較差。因此,嘗試借助相關域(與目標域分布不同)中的“知識”來提高目標域的學習性能。而在現實場景中,獲得大量有標記源域樣本成本較高,并且源域樣本的標記有時可能難以獲取。例如,校園網頁文本分類中,不同學校的網頁文本數據的分布可能存在差異(如已建立的校A網和新建立的校B網可分別作為源域和目標域),A網和B網的文本數據可能因標記成本的原因導致難以獲得樣本標記,同時B網建立時間較短,則可能僅有少量訓練樣本能獲取。然而,針對此類問題,現有的基于參數[11-13]和非參數[4,14-22]域適應的方法可能難以直接對其建模。因此,在這種缺少監督信息(即完全無監督)的情況下,尋找源域和目標域間的共性并實現“知識”遷移更成為了無監督域適應研究的極大挑戰。
為了應對上述問題,受先前軟大間隔聚類[23](soft large margin clustering,SLMC)啟發,提出了一種靈活的參數遷移新方法——參數字典稀疏表示的完全無監督域適應(whole UDA,WUDA)。該方法不僅擴充了文獻[2]中的參數遷移方法,還擴展了參數遷移在域適應學習中的應用范圍。本文中,WUDA的核心思想是源域和目標域的參數(決策函數的權重矩陣)借助一個參數公共字典上的稀疏表示實現選擇性的互適應學習。此種基于參數字典稀疏表示的選擇性域適應方法還未見發表。本文所提出的WUDA避免了現有參數遷移方法[11-13]的典型缺陷,如:(1)現有方法直接在域間作參數傳遞[11],或者通過線性變換[12]和參數微調[13]進行,而WUDA利用學得的參數公共字典作為橋梁實現了兩個域的關聯。(2)現有方法無法或難以進行參數的適應性選擇學習,而WUDA則利用參數公共字典的稀疏表示加以實現,使得各域參數可被適應性選擇。
總之,本文的主要貢獻如下:
(1)借助源域的知識,從參數公共字典的角度,對兩個域的權重經參數字典進行互適應學習,并通過系數的稀疏約束進行各域權重的適應性選擇,從而實現域適應并提高目標域的聚類性能。
(2)為現有參數遷移方法提供了一個更大的靈活框架,能克服現有參數遷移方法無法適應性選擇參數的缺陷,并擴展了參數遷移在完全無監督域適應上的應用。
(3)采用網格搜索法尋找最佳參數,有效克服了無標記樣本無法使用交叉驗證選擇超參數的問題,同時合適的參數也避免了負遷移的產生。
(4)通過在多個模擬和真實數據集上與相關算法的比較,驗證了本文方法在聚類性能上的顯著有效性。
域適應學習是機器學習領域的重要研究方向之一。在源域有標記的條件下,根據目標域是否包含樣本標記,域適應學習可分為監督型[3,24]、半監督型[25-27]和無監督型[14-16,28]。例如,Daumé[3]提出了特征增廣的監督型方法。那么,對于給定特征向量x,定義源域和目標域中樣本的增廣特征分別為和,然后根據訓練分類器。但該方法需目標樣本有標記,不適用于現實場景。針對這種問題,Daumé等人[25]對EDA(easy domain adaptation)算法做出改進,使其可用于半監督域適應學習。此外,考慮到無標記樣本更易獲得,且標記樣本通常需要較高的代價,則為了提升機器學習算法在這種無標簽目標域中的學習性能,無監督域適應和無監督遷移學習(unsupervised transfer learning,UTL)分別被提出。前者針對的是源域有標記而目標域無標記的學習問題,而后者解決的是源域和目標域均無標記的學習問題,其與本文提出的WUDA的主要區別[2]是:DAL針對的是不同域(D={X,P(X)})但任務(T={Y,P(Y|X)})相同的問題(DS≠DT但TS=TT)。例如,源域樣本為來自Webcam的電腦圖片,目標域樣本為來自Amazon的電腦圖片。顯然,兩個域的樣本分布不同,但任務均為電腦識別。但UTL解決的是學習任務不同但相似的問題(TS≠TT)。因此,建立在聚類基礎上的STC(self-taught clustering)[29]、TSC(transfer spectral clustering)[30]和TFCM(transfer fuzzy C-means)[31]算法先后被提出。其中,STC建立在雙聚類的基礎上,利用互信息學習兩個域間的共有特征空間,從而提高目標域的聚類性能;TSC是一種譜聚類方法,它不僅與聚類任務的數據流形相關,還與聚類任務間共享的特征流形相關;TFCM則通過對齊源域和目標域的聚類中心來實現簇與簇的對齊,從而提高了FCM的聚類性能。
基于非參數遷移的域適應是解決UDA核心方法之一,主要包括特征遷移和實例遷移兩種方法。第一種方法通常需將原始域中特征進行變換,使得變換后的域間差異減小。因此,文獻[4]提出了結構對應學習算法(structural correspondence learning,SCL)來促進不同域的特征對應,其有效性取決于兩個域中核心特征的啟發式選擇。雖然SCL算法在NLP(natural language processing)上獲得了顯著效果,但核心特征選擇的啟發式準則對不同應用極為敏感。鑒于此不足,基于對齊方式的UDA被提出。其中,Fernando等人[14]提出的子空間對齊(subspacealignment,SA)是一種實例對齊方法,該方法通過在子空間中學得變換矩陣來實現子空間基的對齊。但是,SA算法易在投影時產生代價。為了避免該問題,相關性對齊[15](correlation alignment,CORAL)和基于深度神經網絡的深度CORAL[16](Deep CORAL)方法先后被Sun等人提出,CORAL通過對齊數據的二階統計矩來學習一個線性變換矩陣,Deep CORAL建立在CORAL的基礎上,解決了CORAL算法無法實現端對端計算的問題。雖然CORAL和Deep CORAL算法實現了較好的實驗性能,但它們忽略了協方差矩陣是對稱正定矩陣(symmetric positive definite,SPD)的屬性——SPD矩陣不是歐氏空間的子空間。因此,Morerio等人[17]提出了基于黎曼度量的相關性對齊(log D-CORAL)方法,即采用似然歐氏度量[18]來衡量協方差矩陣的距離。盡管一階矩[19](均值)、二階矩[15-16](方差)對齊方法先后實現了較好的域適應性能,但Zellinger等人[20]提出了更強的對齊方法——中心距對齊(central moment discrepancy,CMD)。該方法實現了源域和目標域樣本的各階矩(包括一階矩、二階矩、三階矩等)對齊,從而大大減小了分布間的差異。第二種方法基于重加權實現了模型建立。其中,核均值匹配(kernel-mean matching,KMM)[21]最具代表性,該方法通過匹配源域和目標域的核均值來直接學習權重,實現了域適應學習。但該方法僅關注了源域樣本的重加權。因此,Li等人[22]從目標數據的角度實現了目標數據預測的重加權(prediction reweighting for domain adaptation,PRDA)。
不同于非參數方法,基于參數遷移的域適應則通過參數傳遞實現知識遷移。例如,Evgeniou等人[11]提出了一種參數直接遷移的方法,該方法借鑒了層次貝葉斯(hierarchical Bayesian,HB)框架[32]的思想,將SVM在源域和目標域學習的參數wS和wT分別表示為wS=w0+vS和wT=w0+vT,然后利用共享參數w0實現域間“連接”。除此之外,基于神經網絡的參數遷移方法也逐漸受到關注。因此,通過參數微調[13]和變換[12](domain adaption with parameter transfer,DAPT)的方法先后被提出,參數微調法針對遷移權重實現微調,而DAPT的目標是學習一個變換矩陣W,將目標域上的分類器參數投影到源域參數空間中,使得域間參數分布相同。雖然RMTL(regularized multitask learning)和DAPT實現了部分參數的遷移,但它們不能靈活地選擇各域參數和公共參數,更無法進行選擇性適應。
綜上所述,目前大部分域適應學習僅面向源域有標記的學習問題而設計,然而對于源域和目標域均無標記的域適應學習研究相對較少。為彌補現有參數遷移方法的不足并擴展域適應方法的應用范圍,本文提出了一種基于參數字典稀疏表示的完全無監督域適應方法(WUDA)。
WUDA與在樣本空間中直接學習字典的SIUDA[33]和S-LOW[34]不同,它通過樣本學習參數(決策函數的權重矩陣),然后從學習參數公共字典的角度,在源域和目標域的權重間進行互適應參數字典學習。通過對系數的l2,1范數約束,不僅避免了文獻[11-12]中的問題,而且實現了參數的選擇性域適應。實際上,RMTL和DAPT能視為WUDA的特例,故而WUDA為基于參數遷移的域適應方法提供了一個更大的框架。
圖1顯示了WUDA的算法框架圖。因此,針對給定的源域樣本,通過SLMC實現聚類,學得源域權重矩陣WS。那么,當給定目標域樣本時,WUDA不僅實現聚類,而且通過源域參數和目標域參數矩陣學習一個公共參數字典A=(a1,a2,…,ar),該參數字典實現了源域到目標域的知識遷移,同時對參數字典的系數矩陣做行稀疏約束,使得各域權重參數可從A中互適應選擇。

Fig.1 System diagram of proposed WUDA圖1WUDA系統圖
軟大間隔聚類是一種結合了大間隔聚類[35](maximum margin clustering,MMC)和模糊聚類[36](fuzzy C-means,FCM)優點的方法,但其本身不同于FCM和MMC:第一,SLMC采用分類學習的原則在輸出(標記)空間中實現聚類,該方法通過One-Of-C標記編碼準則將輸出空間中的聚類中心固定,并確定樣本的決策函數和隸屬度。第二,SLMC允許樣本屬于多個簇。因此,給定數據集X=[x1,x2,…,xn](xi∈Rd),令f(x)=WTx(W∈Rd×c表示權重矩陣)為決策函數,則在原始空間中SLMC的優化問題為:

其中,U=[uki]C×n(uki表示第i個樣本屬于第k個簇的隸屬度),{l1,l2,…,lC}表示C個簇的標記編碼,且lk=[0,…,0,1,0,…,0]T∈RC(對應第k個類)表示第k個元素為1,其余元素均為0。
SLMC實際上是對樣本標記的聚類,那么決策函數和隸屬度可同時確定給定樣本的預測值。而當給定實例的隸屬度相等但簇標記不相等時,為了保證期望一致性,SLMC總是將樣本分配給簇標記更小或更大的簇。
對于完全無監督域適應問題,給定無標記的源域樣本XS=[x1,x2,…,xnS]∈ Rd×nS和目標域樣本XT=[x1,x2,…,xnT]∈ Rd×nT,其中nT?nS。假設源域DS和目標域DT不同:XS=XT但P(XS)≠P(XT),源任務TS和目標任務TT相同:YS=YT且P(YS|XS)=P(YT|XT)。因此,本文從學習參數公共字典的角度,實現了源域和目標域知識的關聯,并通過對字典系數的稀疏約束實現各域參數的適應性選擇。故WUDA的優化問題如下:

其中,WS和WT為d×C矩陣,分別表示源域和目標域的權重矩陣;A∈Rd×r表示源域和目標域公共字典;VS和VT為r×C矩陣,分別表示源域和目標域的系數矩陣,然后引入l2,1范數來約束系數,體現了權重矩陣可由字典稀疏表示的特性;λ、β1、β2和α為權衡參數。
對于式(2),第一項和第二項繼承了原始的SLMC算法,主要用于目標域數據的聚類;第三項和第四項為參數的公共字典學習,實現了源域和目標域“知識”的連接;最后兩項為字典系數的約束,并通過行稀疏約束實現了選擇性域適應。
該模型基于SLMC在輸出(標記)空間中進行聚類,通過學習參數公共字典實現域間知識連接,并由稀疏系數實現各域參數(權重)在公共字典中的適應性選擇。此外,本文提出的參數遷移新方法,對于無監督模型(FCM及其衍生算法)、監督模型(SVM及其衍生算法)和神經網絡模型,亦可分別對聚類中心和權重進行參數字典學習實現域適應。因此,本文提出的WUDA框架有著較廣泛的擴展。
WUDA是關于(WT,u,A,VS,VT)塊凸的優化問題,則根據文獻[37]可保證迭代優化的收斂性。故而,本文使用交替迭代法優化目標變量,即在優化過程中,固定其他變量,只優化一個變量。因此,式(2)的優化問題可重寫為以下5個子優化問題:

對于式(3)中的5個子優化問題,分別令關于uki、WT、A、VS、VT的偏導為0,即有:

因此,關于uki、WT、A、VS、VT的閉式解如下:

那么,具體算法如下:
輸入:XS、XT,源域和目標域數據集;λ、β1、β2、α,權衡參數;r,字典的詞匯量;ε,迭代停止參數;Max_iter,迭代最大次數。
輸出:U,隸屬度矩陣;,決策函數。


實驗中,采用RI(rand index)和NMI(normalized mutual information)指標評估WUDA算法的聚類性能。通常,RI和NMI的定義如下:
子美千古大俠,司馬遷之后一人。 子長為救李陵而下腐刑,子美為救房琯幾陷不測,賴張相鎬申救獲免。 坐是蹉跌,卒老劍外,可謂為俠所累。 然太史公遭李陵之禍而成《史記》,與天地相終始; 子美自《發秦州》以后諸作,泣鬼疑神,驚心動魄,直與《史記》并行。 造物所以酬先生者,正自不薄。

其中,n為樣本數,a和b分別表示實際標記和預測標記屬于相同類別的元素對數和不同類別的元素對數。ni,j表示簇i和簇j一致的樣本量,ni和nj分別表示簇i和簇j的樣本量。RI和NMI的取值范圍均為[0,1],并且它們的值越大說明聚類效果越好。
在WUDA優化模型中,字典的詞匯量r和多個權衡參數(λ、β1、β2、α)需要確定,β1和β2分別權衡源域和目標域所提供“知識”的程度。因此,這些參數值的確定對提高WUDA的聚類性能至關重要。同時,本文的研究問題是從完全無監督(源域和目標域中的數據均無標記)的角度考慮,而交叉驗證法主要面向監督型方法確定參數。因此,在實驗過程中采用網格搜索法來尋找最佳參數,避免了不佳參數產生的負遷移問題。
本文關注的是無標記小樣本問題。因此,對目標域數據做以下處理:從給定的真實數據集中隨機抽取各類的部分樣本作為目標域的實驗數據。
實驗均在配置為Intel?CoreTMi5-3470 CPU,16 GB內存的計算機上運行,且實驗代碼均由python編寫實現。
為了驗證WUDA算法的有效性,本文分別在模擬數據集和真實數據集上進行實驗,對比算法包括聚類算法(FCM、SLMC)和無監督遷移學習算法(STC、TSC、TFCM),并且為了避免實驗的偶然性,分別在各數據集上運行10次,以它們的均值作為最后的實驗結果。
(1)模擬數據集
在模擬數據集中,分別模擬高斯分布和雙月分布。在高斯分布的情況下,源域樣本數為600(每個類為200),目標域樣本數為90(每個類為30)且特征維度均為2。而在雙月分布的情況下,源域樣本數為400(每個類為200),目標域樣本數為60(每個類為30),且特征維度也為2。由圖2知,源域和目標域的邊際概率P(X)不同,但條件概率P(Y|X)相同。

Fig.2 Simulated data sets圖2 模擬數據集

Table 1 Performance comparison of simulated data sets表1 模擬數據集性能比較
(2)真實數據集
真實數據集包括Office+Caltech、Mnist+Usps和PIE數據集,分別為目標識別、手寫數字和人臉識別數據集。如表2所示。

Table 2 Real data sets表2 真實數據集
(1)Office+Caltech數據集總共包括2 533個圖片和4個域,分別為Webcam、Amazon、Caltech和Dslr,且這4個域的邊際分布(P(X))不同但描述的均為相同的物體。在實驗中,分別以Caltech和Webcam作為源域,以Amazon和Dslr作為目標域。
(2)Mnist+Usps數據集共有3 800個樣本和2個域,這兩個域中的手寫數字的表現形式不同。實驗中,以Mnist為源域,Usps為目標域實現完全無監督域適應。
(3)PIE數據集是人臉識別數據集,該數據集根據不同的拍攝角度劃分域。實驗中,選取PIE05作為源域,PIE07作為目標域實現完全無監督自適應。綜上,數據如圖3所示。
在實驗中,為了驗證WUDA的可行性僅僅是因為域適應而不是樣本是否線性可分,以線性決策函數f(x)=WTx為代表進行算法驗證和比較。因此,本文通過減少類別數來降低非線性情況的概率。那么,在 Caltech→Amazon、Webcam→Dslr、Mnist→Usps、PIE05→PIE07數據集中,分別從它們的10、10、10和68個類中隨機選擇3、4、3和8個類作為實驗類別,故實驗結果的好壞完全驗證了域適應的程度。
對于非線性問題,本文的WUDA也可解決。但WUDA的優化函數需做以下修改:將核化后樣本的決策函數表示成f(x)=WTφ(x)=αK,然而,直接對參數W進行字典學習會因φ(x)未知而導致問題無法優化。故而,需對參數α進行互適應公共字典學習,從而可以解決樣本線性不可分的問題。因本文的主旨是驗證WUDA在概念上的可行性,所以僅對線性情況做了實驗,免去了非線性的實驗,原因是兩者實現方式上完全一致。因此,給出了非線性情況的理論說明,同時線性情況的實驗已充分驗證了WUDA不僅可行,而且聚類效果顯著。
由于本文針對的是無標記小樣本問題,且原始樣本數過多,故從對應類中隨機刪除部分數據,得到了滿足要求的數據。
在真實的域適應數據集上,分別與5種算法進行比較,得到表3,并據此得出以下結論:

Fig.3 Real data sets圖3 真實數據集

Table 3 Performance comparison of real data sets表3 真實數據集性能比較
(1)在Office+Caltech數據集和PIE人臉識別數據集上,提出的WUDA明顯優于其他算法,主要得益于源域和目標域間公共字典的連接及其選擇性適應。STC和TSC均從實例和特征兩個角度實現知識遷移,由于其無選擇能力,導致不利元素也被遷移致使性能變弱;而TFCM受源域和目標域間的類中心和隸屬度的影響,若源域對目標域的類中心和隸屬度指導性差,則同樣因其無選擇能力而導致遷移能力變弱。此外,對比2016年提出的TFCM,在Office+Caltech數據集上,WUDA的RI指標高出約15%;在PIE數據集上,NMI指標高出約35%。
(2)在Mnist+Usps數據集上,TSC的聚類性能最佳,但WUDA明顯優于TFCM,且與STC的聚類性能相當。究其原因:Mnist和Usps數據集間參數的相關性較弱,導致Usps和Mnist互適應學得的公共“知識”較少,致使各域參數的選擇能力變弱,故而WUDA的聚類性能達不到最佳。TSC在原始樣本空間中實現譜聚類遷移學習,由于受參數相關性影響相對較小,因此域適應效果優于WUDA。
(3)在所有數據集上,提出的WUDA均優于原始聚類算法SLMC,說明通過調節域適應參數β1、β2和α,可有效地抑制負遷移的產生。
(1)參數選擇
本文所提的WUDA的目標函數有多個參數需要確定,在完全無監督的情況下,采用網格搜索法尋找最佳參數。在參數選擇的過程中,以PIE數據集為例進行參數確定。
首先是參數α,它用于權衡字典稀疏系數的重要性,搜索范圍為[0.01,0.10,1.00,2.00,5.00,8.00,10.00,20.00,50.00]。觀察圖4(a)發現:當α=1.00時,NMI的值最大;同時,α在[2.00,5.00,8.00,10.00]上并未對結果產生顯著性影響。

Fig.4 Parameter setting ofαandr圖4 α和r的參數設置
然后是參數r,它表示字典的詞匯量。從圖4(b)易知,詞匯量的大小顯著地影響聚類性能,搜索范圍為1~10,當r為5時,NMI取最大值0.665;當r超過5時,NMI趨于穩定。說明r超過一定值時,超出的字典對域適應學習影響較小。然而總體的NMI變化較大,則說明字典詞匯量過小,會影響WUDA的聚類性能。
最后,對于參數β1和β2,分別用于權衡源域和目標域中參數W的重要性,搜索范圍均為[0.000 1,0.001 0,0.010 0,0.100 0,1.000 0,5.000 0,10.000 0]。觀察圖5發現:當β1=5.000 0,β2=0.010 0時,NMI取最大值,說明目標域從源域中適應性學得了可遷移“知識”,提高了目標域的聚類性能。

Fig.5 Parameter setting ofβ1andβ2圖5 β1和β2的參數設置
(2)收斂性

Fig.6 Convergence of data sets圖6 數據集的收斂性
本文受軟大間隔聚類的啟發,結合字典學習的理論,在源域和目標域的權重間進行互適應參數公共字典學習,并引入l2,1范數來約束字典系數,使各域參數可從公共字典中適應性選擇,從而實現域適應學習。最后通過相關實驗驗證了WUDA的可行性和顯著有效性。除此之外,本文的算法思想不僅適用于SLMC,對于傳統的無監督算法(如FCM及其衍生算法)、監督型算法(如SVM及衍生算法)和神經網絡,可對聚類中心v和參數W分別進行互適應公共字典學習,亦可實現域適應學習。故下一步工作中,將對此算法做以下擴展:(1)目標域類別是源域類別的子類問題;(2)多個源域和多個目標域的互適應學習問題(既有虛漂移也有實漂移),同時包括源域和源域、目標域和目標域的互學習。