吳蘭,崔全龍
(河南工業(yè)大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
遷移學(xué)習(xí)可以用來改善機(jī)器學(xué)習(xí)領(lǐng)域中跨域任務(wù)上的模型性能[1],當(dāng)目標(biāo)域標(biāo)簽樣本較少且質(zhì)量不高時(shí),可以通過含有大量標(biāo)簽數(shù)據(jù)的源域作為輔助信息去訓(xùn)練泛化能力較強(qiáng)的分類器.多數(shù)關(guān)于遷移學(xué)習(xí)的研究集中在同構(gòu)場(chǎng)景中(源域和目標(biāo)域數(shù)據(jù)分布不同但特征空間相同),不同領(lǐng)域數(shù)據(jù)具有不同特征空間的研究鮮見,然而不同設(shè)備數(shù)據(jù)的編碼方式和標(biāo)識(shí)存在差異的情況在現(xiàn)實(shí)應(yīng)用程序中經(jīng)常涉及.
有研究者提出采用異構(gòu)域適應(yīng)[2-5]對(duì)不同的特征空間和數(shù)據(jù)分布的領(lǐng)域進(jìn)行知識(shí)遷移.異構(gòu)域自適應(yīng)方法以目標(biāo)域偽標(biāo)簽來幫助學(xué)習(xí)潛在子空間中的判別特征表示,提高了分類模型的準(zhǔn)確性.如異構(gòu)領(lǐng)域適應(yīng)中的跨域標(biāo)志學(xué)習(xí)(learning cross-domain landmarks for heterogeneous domain adaptation, CDLS)[6]通過匹配跨域數(shù)據(jù)分布和減少域差異獲得適當(dāng)?shù)南虬l(fā)散的特征子空間,基于廣義聯(lián)合分布自適應(yīng)的異構(gòu)跨域數(shù)據(jù)識(shí)別(recognizing heterogeneous cross-domain data via generalized joint distribution adaptation, G-JDA)[7]通過聯(lián)合匹配邊緣分布和條件分布以適應(yīng)和分類.由于目標(biāo)域無標(biāo)簽樣本不能得到高置信度的偽標(biāo)簽,上述方法容易受到誤差累積的影響,造成分布偏移增加,甚至?xí)?dǎo)致負(fù)遷移.為了避免傳統(tǒng)硬標(biāo)簽分配引入虛假偽標(biāo)簽,基于柔性遷移網(wǎng)絡(luò)的單源異構(gòu)遷移學(xué)習(xí)方法(heterogeneous domain adaptation via soft transfer network, STN)[8]在類對(duì)齊過程中采用軟標(biāo)簽策略.雖然這些異構(gòu)域自適應(yīng)方法具有較好的適應(yīng)性、泛化能力、魯棒性和遷移效果,但是它們忽略類別預(yù)測(cè)中語義屬性的重要性,而且直接利用分類器預(yù)測(cè)得到的偽標(biāo)簽具有不確定性,這將降低模型分類性能.
本研究提出基于偽標(biāo)簽細(xì)化和語義對(duì)齊的異構(gòu)域自適應(yīng)方法.該方法包括3個(gè)部分:非線性特征編碼器、領(lǐng)域鑒別器、分類器.非線性特征編碼器將用于特征變換,通過偽標(biāo)簽細(xì)化方法選擇目標(biāo)域無標(biāo)簽樣本并賦予偽標(biāo)簽,被選中的樣本將參與訓(xùn)練分類器;在語義預(yù)測(cè)空間中構(gòu)造域鑒別器,充分挖掘數(shù)據(jù)的內(nèi)在信息,提高模型的泛化性.針對(duì)目標(biāo)域大量無標(biāo)簽樣本偽標(biāo)簽置信度較低的問題,本研究提出的具有空間相似性的偽標(biāo)簽細(xì)化方法將有效利用源域和目標(biāo)域之間的特性和判別信息.
半監(jiān)督異構(gòu)域自適應(yīng)方法在進(jìn)行異構(gòu)域自適應(yīng)時(shí),目標(biāo)域有少量的標(biāo)記樣本可用.利用流形對(duì)齊進(jìn)行異構(gòu)域自適應(yīng)(heterogeneous domain adaptation using manifold alignment, DAMA)[9]實(shí)現(xiàn)的域自適應(yīng)在自適應(yīng)過程中保留流形結(jié)構(gòu)和標(biāo)簽信息;利用增強(qiáng)特征進(jìn)行異構(gòu)域自適應(yīng)學(xué)習(xí)(learning with augmented features for heterogeneous domain adaptation, HFA)[10]將轉(zhuǎn)換后的源特征和目標(biāo)特征與原始特征和零進(jìn)行參數(shù)化,并通過訓(xùn)練SVM將結(jié)構(gòu)風(fēng)險(xiǎn)最小化.Li等[11]在訓(xùn)練過程中利用未標(biāo)記的目標(biāo)數(shù)據(jù),將HFA擴(kuò)展到半監(jiān)督版本(learning with augmented features for supervised and semi-supervised heterogeneous domain adaptation,SHFA).域不變圖像表示的有效學(xué)習(xí)(efficient learning of domain-invariant image representations,MMDT)[12]通過非對(duì)稱類別無關(guān)變換學(xué)習(xí)域不變表示.針對(duì)多個(gè)類的異構(gòu)域自適應(yīng)(heterogeneous domain adaptation for multiple classes, SHFR)[13]將特征映射的學(xué)習(xí)轉(zhuǎn)化為壓縮感知問題.異構(gòu)域自適應(yīng)的半監(jiān)督最優(yōu)傳輸(semi-supervised optimal transport for heterogeneous domain adaptation, SGW)[14]學(xué)習(xí)從源到目標(biāo)域特征的最優(yōu)傳輸.轉(zhuǎn)移神經(jīng)樹的異構(gòu)域自適應(yīng)(transfer neural trees for heterogeneous domain adaptation, TNT)[15]解決特征映射和促進(jìn)域自適應(yīng).異構(gòu)域自適應(yīng)的同步語義對(duì)齊網(wǎng)絡(luò)(simultaneous semantic alignment network for heterogeneous domain adaptation, SSAN)[16]利用目標(biāo)域標(biāo)記數(shù)據(jù)學(xué)習(xí)源域標(biāo)簽的語義知識(shí).標(biāo)簽引導(dǎo)的異構(gòu)領(lǐng)域自適應(yīng)(label-guided heterogeneous domain adaptation, LG)[17]通過增強(qiáng)少量標(biāo)記目標(biāo)域數(shù)據(jù)的應(yīng)用將源域的相關(guān)知識(shí)用來解決目標(biāo)域任務(wù).具有統(tǒng)計(jì)分布對(duì)齊和漸進(jìn)式偽標(biāo)簽選擇的異構(gòu)域自適應(yīng)(heterogeneous domain adaptation with statistical distribution alignment and progressive pseudo label selection, SDA-PPLS)[18]通過對(duì)目標(biāo)域數(shù)據(jù)的偽標(biāo)簽細(xì)化來對(duì)齊類的條件分布.
生成式對(duì)抗網(wǎng)絡(luò)GAN由2個(gè)模塊構(gòu)成:生成模塊G和判別模塊D.G接收隨機(jī)的噪聲z,通過z生成圖片,記做G(z).D判別圖片x是否為真,它的輸入為x,輸出D(x)代表x為真實(shí)圖片的概率.在訓(xùn)練過程中,G的目標(biāo)是生成與訓(xùn)練數(shù)據(jù)無法區(qū)分的數(shù)據(jù),D的目標(biāo)是正確地識(shí)別數(shù)據(jù)是來自訓(xùn)練數(shù)據(jù)還是由G生成.G和D構(gòu)成動(dòng)態(tài)的博弈過程.在最理想的狀態(tài)下,博弈的結(jié)果是G可以生成足以以假亂真的圖片G(z),對(duì)于D來說,它難以判定G生成的圖片是否真實(shí),即D(G(z))=0.5.
當(dāng)將GAN應(yīng)用到語義預(yù)測(cè)空間時(shí),由于存在源域和目標(biāo)域,生成器的目的發(fā)生變化,不再是生成樣本,而是扮演分類預(yù)測(cè)功能.即在對(duì)樣本進(jìn)行類別預(yù)測(cè)時(shí),使判別器無法區(qū)分樣本來自哪個(gè)域.通過不斷優(yōu)化語義預(yù)測(cè)空間中的對(duì)抗損失,可以將源域類別預(yù)測(cè)分布的相關(guān)知識(shí)遷移到目標(biāo)域.
如圖1所示為本研究所提異構(gòu)域自適應(yīng)方法,使用神經(jīng)網(wǎng)絡(luò)構(gòu)建2個(gè)非線性特征編碼器:源編碼器、目標(biāo)編碼器,利用源域數(shù)據(jù)訓(xùn)練具有監(jiān)督分類損失的共享分類器.如文獻(xiàn)[11]所述,在訓(xùn)練過程中利用未標(biāo)記的目標(biāo)樣本有助于解決異構(gòu)域自適應(yīng)(heterogeneous domain adaptation,HDA)問題,本研究考慮源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在公共特征子空間的相似性,構(gòu)造空間相似性機(jī)制;通過達(dá)成共享分類器和空間相似性機(jī)制預(yù)測(cè)的一致性,為目標(biāo)域未標(biāo)記樣本賦予偽標(biāo)簽.為了減少虛假偽標(biāo)簽造成的偏差,受到類條件最大平均異(conditional maximum mean discrepancy,CMMD)的啟發(fā),本研究對(duì)源域和目標(biāo)域每個(gè)類別的質(zhì)心進(jìn)行距離約束,引入自適應(yīng)的系數(shù)來不斷調(diào)整偽標(biāo)簽的重要程度.考慮到同類的樣本經(jīng)過分類器輸出后有相似的預(yù)測(cè)分布,將對(duì)抗性學(xué)習(xí)應(yīng)用于語義預(yù)測(cè)空間,構(gòu)造語義預(yù)測(cè)空間中的域鑒別器.通過不斷優(yōu)化語義預(yù)測(cè)空間中的對(duì)抗損失,縮減領(lǐng)域之間的邊緣分布差異,提高模型的分類精度.為了更好利用目標(biāo)域有標(biāo)簽樣本,引用隱式語義[16]相關(guān)損失.

圖1 異構(gòu)域自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram of heterogeneous domain adaptive
利用源域數(shù)據(jù)訓(xùn)練具有監(jiān)督分類損失?sup的共享分類器,分類損失的表達(dá)式為
式中:?ce(·,·)為交叉熵?fù)p失.
異構(gòu)域自適應(yīng)研究使用源域和目標(biāo)域所有類質(zhì)心距離的總和來建模源域和目標(biāo)域之間條件分布的差異,通過對(duì)齊源域和目標(biāo)域的條件分布來學(xué)習(xí)未標(biāo)記目標(biāo)樣本的判別表示.目標(biāo)域有大量的無標(biāo)簽樣本,計(jì)算類質(zhì)心時(shí)無法直接使用它們.常規(guī)方法直接利用共享分類器預(yù)測(cè)的偽標(biāo)簽[6-7]計(jì)算目標(biāo)域所有樣本的類質(zhì)心,由于錯(cuò)誤分配的偽標(biāo)簽會(huì)導(dǎo)致類質(zhì)心的計(jì)算出現(xiàn)錯(cuò)誤,阻礙域自適應(yīng)能力,產(chǎn)生負(fù)遷移.為了減少偽標(biāo)簽的不確定性,提高偽標(biāo)簽的置信度,本研究設(shè)計(jì)空間相似性偽標(biāo)簽細(xì)化機(jī)制,為與特征空間中標(biāo)簽數(shù)據(jù)的類別質(zhì)心呈現(xiàn)空間相似性的無標(biāo)簽樣本分配偽標(biāo)簽.帶標(biāo)簽的源域中第k類的質(zhì)心?ks∈Rdc是每個(gè)類別中所有帶標(biāo)簽樣本的特征的平均向量,計(jì)算式為
式中:Scos(·,·)為域不變公共子空間中第i個(gè)未標(biāo)記目標(biāo)域向量與由源域標(biāo)記數(shù)據(jù)得到的類質(zhì)心之間的余弦相似度,yu,c為目標(biāo)域無標(biāo)簽樣本根據(jù)樣本的特征向量與類質(zhì)心的最大余弦相似度得到的偽標(biāo)簽;Sed(·,·)為域不變公共子空間中第i個(gè)未標(biāo)記目標(biāo)域向量與由源域標(biāo)記數(shù)據(jù)得到的類質(zhì)心之間的歐式距離,yu,e為目標(biāo)域無標(biāo)簽樣本根據(jù)樣本的特征向量與類質(zhì)心的最小歐氏距離得到的偽標(biāo)簽.從共享分類器C中很容易得到目標(biāo)域無標(biāo)簽樣本預(yù)測(cè)的偽標(biāo)簽yu,n,利用無標(biāo)簽樣本的空間相似性標(biāo)簽和分類器預(yù)測(cè)的標(biāo)簽,為目標(biāo)域樣本分配偽標(biāo)簽.只有在yu,n=yu,c=yu,e時(shí),才能選擇未標(biāo)記的目標(biāo)域樣本并分配偽標(biāo)簽,提高偽標(biāo)簽的置信度.為未標(biāo)記的目標(biāo)域樣本分配偽標(biāo)簽的原理圖如圖2所示.定義Xf,Yf分別為所選的未標(biāo)記目標(biāo)域樣本及其對(duì)應(yīng)的偽標(biāo)簽,為目標(biāo)域第k類被分配偽標(biāo)簽的樣本數(shù),有Xt=Xl∪Xf、Yt=Yl∪Yf和nkt=nkl+nkf.nkt為目標(biāo)域第k類有標(biāo)簽的樣本數(shù),為目標(biāo)域第k類帶標(biāo)簽樣本的特征向量.

圖2 偽標(biāo)簽分配原理圖Fig.2 Allocation schematic of pseudo label
目標(biāo)域中帶標(biāo)簽的樣本和得到偽標(biāo)簽樣本的k類的質(zhì)心?kt∈Rdc.計(jì)算式為
通過最小化條件分布對(duì)齊損失,每個(gè)類別的質(zhì)心將在域不變公共子特征空間中非常接近,使得源域和目標(biāo)域的條件分布對(duì)齊.
2.3.1 語義預(yù)測(cè)空間中的特征對(duì)齊 當(dāng)域偏移嚴(yán)重時(shí),通過式(8)約束仍然不足以達(dá)到期望的域自適應(yīng)結(jié)果.考慮到數(shù)據(jù)類別預(yù)測(cè)中包含的語義屬性,將對(duì)抗性學(xué)習(xí)應(yīng)用于語義預(yù)測(cè)空間,構(gòu)造語義預(yù)測(cè)空間中的域鑒別器D,使其鑒別出樣本經(jīng)過分類器的類別預(yù)測(cè)后來源于哪個(gè)域,而分類器則使域鑒別器無法區(qū)分樣本來自哪個(gè)域.語義預(yù)測(cè)空間代表樣本結(jié)構(gòu)的信息,它們?cè)诓煌某尸F(xiàn)方式中代表同一類.語義預(yù)測(cè)空間中特征對(duì)齊的對(duì)抗性損失為
通過式(9)約束,目標(biāo)域網(wǎng)絡(luò)可以更好地對(duì)類邊界周圍的這些數(shù)據(jù)進(jìn)行泛化,縮減領(lǐng)域之間的邊緣分布差異,使模型獲得顯著的性能提升.
2.3.2 隱式語義對(duì)齊 將源域第k個(gè)類別輸出的概率的平均值視為第k個(gè)教師,表示為p(k)∈Rk,為第k個(gè)類別的軟標(biāo)簽.由于源域具有大量的標(biāo)記數(shù)據(jù),軟標(biāo)簽相比于硬標(biāo)簽包含更多知識(shí)和信息:像誰、有多像、有多不像,特別是非正確類別概率的相對(duì)大小.為了充分利用這些相關(guān)性,新增蒸餾溫度T.T在softmax函數(shù)中使用,使得概率分布相比于普通的softmax函數(shù)更軟.定義
利用有標(biāo)簽的目標(biāo)數(shù)據(jù),可以用軟標(biāo)簽對(duì)目標(biāo)域網(wǎng)絡(luò)進(jìn)行微調(diào),以學(xué)習(xí)并將語義相關(guān)性從源域轉(zhuǎn)移到目標(biāo)域.在學(xué)習(xí)到的軟標(biāo)簽的監(jiān)督下,進(jìn)一步考慮標(biāo)記目標(biāo)數(shù)據(jù)的監(jiān)督損失,計(jì)算式為
其中a的取值范圍為[0, 1).當(dāng)源域樣本預(yù)測(cè)準(zhǔn)確率小于目標(biāo)域標(biāo)簽樣本預(yù)測(cè)準(zhǔn)確率時(shí),直接對(duì)有標(biāo)簽的目標(biāo)樣本進(jìn)行監(jiān)督訓(xùn)練:
分類器C(·,·)的性能會(huì)隨著迭代次數(shù)的增加而逐漸提升,因此的值也會(huì)隨著迭代次數(shù)的增加變得更加精確且可靠.自適應(yīng)權(quán)重因子的表達(dá)式為
式中:Q為總共的迭代次數(shù),q為當(dāng)前迭代的索引,引入自適應(yīng)權(quán)重因子后:
總體損失函數(shù)包括分類損失、條件分布對(duì)齊損失、隱式語義對(duì)齊損失和語義預(yù)測(cè)空間中的特征對(duì)齊損失.總體損失函數(shù)的表達(dá)式為
其中超參數(shù)β、γ分別平衡了?cd、?D對(duì)優(yōu)化過程的影響.
為了評(píng)估該方法在異構(gòu)域自適應(yīng)中的有效性,在常用的基準(zhǔn)數(shù)據(jù)集上開展實(shí)驗(yàn).
3.1.1 文本到圖像遷移任務(wù) NUS-WIDE+ImageNet用于文本到圖像的遷移任務(wù),其中樣本的特征類型和特征模式均不相同.NUS-WIDE包含從Flickr.com中抓取的269 648張圖像的標(biāo)簽信息,ImageNet包含5 247個(gè)子集的3.20×106張圖像.按照文獻(xiàn)[15]、[16]的設(shè)置,從2個(gè)數(shù)據(jù)集中選擇8個(gè)公共類構(gòu)建ImageNet+NUS-WIDE數(shù)據(jù)集,采用64維特征表示NUS-WIDE的標(biāo)簽,采用4 096維的 DeCAF6特征對(duì)圖像數(shù)據(jù)進(jìn)行表征.在源域中,從NUS-WIDE中為每個(gè)類別各選擇100個(gè)文本,作為帶標(biāo)簽的數(shù)據(jù).在ImageNet中,為每個(gè)類別隨機(jī)抽取3張圖像作為帶標(biāo)簽的目標(biāo)數(shù)據(jù),剩余的所有圖像作為無標(biāo)簽的目標(biāo)數(shù)據(jù).
3.1.2 圖像到圖像遷移任務(wù) Office+Caltech-256 用于圖像到圖像的遷移任務(wù).Office-31數(shù)據(jù)集包含來自Amazon、 Webcam和DSLR領(lǐng)域的一共4 652張圖片,類別數(shù)為31.Caltech-256包括30 607張圖像,類別數(shù)為256.從2個(gè)數(shù)據(jù)集中選取10個(gè)重疊類構(gòu)建,有4個(gè)領(lǐng)域分別標(biāo)記為A、W、D、C.考慮3種類型的特征表示:800維SURF特征、2 048維ResNet50特征,以及4 096維DeCAF6特征.在源域中,所有圖像都是帶有標(biāo)簽的樣本.在目標(biāo)域中,每類隨機(jī)選擇3張圖像作為標(biāo)記的目標(biāo)樣本,其余所有圖像均設(shè)置為未標(biāo)記的目標(biāo)數(shù)據(jù)進(jìn)行識(shí)別.由于領(lǐng)域D的圖像數(shù)量有限,只被作為目標(biāo)域.為了證明本研究所提方法的有效性,對(duì)模型性能分析如下.1)同域跨異構(gòu)特性遷移任務(wù).構(gòu)造6個(gè)遷移任務(wù):A→A、C→C、W→W,對(duì)源特征和目標(biāo)特征分別采用2種設(shè)置,即SURF→DeCAF6和DeCAF6→SURF.2)不同域跨異構(gòu)特性遷移任務(wù).為了實(shí)現(xiàn)無偏評(píng)估, 對(duì)所有18個(gè)遷移任務(wù):A→C、A→W、A→D、W→C、W→A、W→D、C→A、C→W、C→D均進(jìn)行評(píng)估,對(duì)源特征和目標(biāo)特征分別采用2種設(shè)置,即SURF→DeCAF6和SURF→ResNet50.
3.1.3 文本到文本遷移任務(wù) Multilingual Reuters Collection用于文本到文本的遷移任務(wù),數(shù)據(jù)集共包含使用英語(English, E)、法語(French, F)、德語(German, G)、意大利語(Italian, I) 和西班牙語(Spanish, S)5種語言撰寫的11 000多篇文章,類別總數(shù)為6.將E、F、G和I作為源域,S作為目標(biāo)域.使用TF-IDF的詞袋模型提取每篇文章的特征,該特征已經(jīng)執(zhí)行PCA降維.在經(jīng)過上述特征處理之后,來自于領(lǐng)域E、F、G、I和S的文章特征數(shù)分別為1 131、1 230、1 417、1 041和807.對(duì)于源域,每個(gè)類別隨機(jī)選擇100篇文章作為標(biāo)記樣本.對(duì)于目標(biāo)域,隨機(jī)選取10篇文章作為標(biāo)記樣本和500篇文章作為測(cè)試樣本.
3.1.4 實(shí)驗(yàn)設(shè)置 為了驗(yàn)證本研究所提方法的有效性,對(duì)模型性能進(jìn)行如下分析.1)與現(xiàn)有的主流方法進(jìn)行分類精度對(duì)比分析.在Office+Caltech-256 數(shù)據(jù)集中,從SURF→DeCAF6、SURF→ResNet50和DeCAF6→SURF這3個(gè)不同域跨異構(gòu)特性與SVMt、NNt、MMDT[12]、G-JDA[7]、CDLS[6]、STN[8]、SSAN[16]、LG[17]和SDA-PPLS[18]等方法進(jìn)行比較.在ImageNet+NUS-WIDE數(shù)據(jù)集中,與NNt、CDLS[6]、STN[8]、SSAN[16]、LG[17]和SDAPPLS[18]等方法進(jìn)行比較.在Multilingual Reuters Collection 數(shù)據(jù)集中,與SVMt、 NNt 、MMDT[12]、SHFA[11]、 G-JDA[7]、CDLS[6]、 STN[8]、SSAN[16]、LG[17]和SDA-PPLS[18]等方法進(jìn)行比較.2)從各部分損失函數(shù)對(duì)模型的性能進(jìn)行分析.在Office+Caltech-256數(shù)據(jù)集中進(jìn)行3組遷移任務(wù),分別對(duì)條件分布對(duì)齊損失、迭代約束損失、空間相似性、隱式語義一致?lián)p失和語義預(yù)測(cè)空間中的特征對(duì)齊損失進(jìn)行重點(diǎn)分析.3)根據(jù)經(jīng)驗(yàn)設(shè)置β= 0.01、γ= 0.1.實(shí)驗(yàn)分別在Office+Caltech-256數(shù)據(jù)集和Multilingual Reuters Collection數(shù)據(jù)集進(jìn)行,分析參數(shù)的敏感性.
3.2.1 分類精度對(duì)比分析 如表1所示為不同異構(gòu)域自適應(yīng)方法在 ImageNet+NUS-WIDE數(shù)據(jù)集上進(jìn)行的文本到圖像遷移,其中Acc為分類精度.可以看出:與最佳監(jiān)督方法NNt相比,本研究所提方法的精度提高了12.86個(gè)百分點(diǎn).本研究所提方法也在一定程度上優(yōu)于表現(xiàn)最好的基線SSAN.由于文本與圖像的遷移任務(wù)存在異質(zhì)性,即使SSAN考慮類之間的語義相關(guān)性,仍然不足以避免錯(cuò)誤偽標(biāo)簽的負(fù)影響,為此須同時(shí)提高偽標(biāo)簽的置信度和語義預(yù)測(cè)空間中類之間的語義相關(guān)性.

表1 不同方法在 ImageNet+NUS-WIDE數(shù)據(jù)集上進(jìn)行文本到圖像異構(gòu)遷移的分類結(jié)果Tab.1 Classification results of different methods for text-toimage heterogeneous migration on ImageNet+NUSWIDE dataset
在圖像到圖像的遷移任務(wù)實(shí)驗(yàn)中,如表2所示為不同異構(gòu)域自適應(yīng)方法在同域跨特征的遷移任務(wù)的分類結(jié)果,表3、4分別為現(xiàn)有主流方法在跨域和淺層特征(SURF)和不同深度特征(DeCAF6和ResNet50)之間的遷移任務(wù)的分類結(jié)果.其中AccSD為SURF→DeCAF6情況下的分類精度,AccDS為DeCAF6→SURF情況下的分類精度.由表2~4可知,本研究所提方法在所有任務(wù)上一致地表現(xiàn)出最好的分類準(zhǔn)確率.本研究所提方法在跨域和跨特征的遷移任務(wù)中平均分類準(zhǔn)確率為94.98%,相較于監(jiān)督學(xué)習(xí)方法 NNt ,提高了6.29個(gè)百分點(diǎn),此結(jié)果驗(yàn)證了本研究所提方法的有效性.分析對(duì)比方法的性能不及本研究所提方法的性能的原因,1)MMDT忽略分布對(duì)齊約束.2)CDLS 、G-JDA 和LG均直接采用目標(biāo)域無標(biāo)簽樣本的偽標(biāo)簽來對(duì)齊領(lǐng)域之間的條件分布,未考慮樣本之間的空間相似度,使得到的偽標(biāo)簽置信度不高,可能造成有限的性能提升,甚至導(dǎo)致負(fù)遷移的發(fā)生.3)SGW 在對(duì)齊源域和目標(biāo)域之間的條件分布時(shí)沒有利用目標(biāo)域無標(biāo)簽樣本的信息.4)TNT 沒有最小化領(lǐng)域之間分布的差異.5)STN的性能超越所有使用線性特征變換的單源異構(gòu)遷移學(xué)習(xí)方法,但是STN未考慮源域和目標(biāo)域的語義一致性.6)SSAN在目標(biāo)域無標(biāo)簽樣本賦予偽標(biāo)簽時(shí)僅考慮幾何性未考慮空間相似性,且僅考慮特征語義一致性未考慮語義預(yù)測(cè)空間中的語義一致性.7)SDA-PPLS考慮偽標(biāo)簽的置信度,卻忽略語義預(yù)測(cè)空間中的語義一致性.

表2 不同方法在 Office+Caltech-256數(shù)據(jù)集上進(jìn)行同域跨特征遷移的分類結(jié)果Tab.2 Classification results of different methods for same domain cross-feature migration on Office+Caltech-256 dataset

表3 不同方法在 Office+Caltech-256數(shù)據(jù)集上進(jìn)行異域跨特征遷移的分類結(jié)果(SURF→DeCAF6)Tab.3 Classification results of different methods for heterogeneous domain cross-feature migration on Office+Caltech-256 dataset(SURF→DeCAF6)

表4 不同方法在 Office+Caltech-256數(shù)據(jù)集上進(jìn)行異域跨特征遷移的分類結(jié)果(SURF→ ResNet50)Tab.4 Classification results of different methods for heterogeneous domain cross-feature migration on Office+Caltech-256 dataset(SURF→ResNet50)
如表5所示為不同異構(gòu)域自適應(yīng)方法在Multilingual Reuters Collection 數(shù)據(jù)集上進(jìn)行文本到文本遷移的分類精度.可以得出,與監(jiān)督方法NNt和SVMt相比,大多數(shù)的單源異構(gòu)遷移學(xué)習(xí)方法都表現(xiàn)出較好的性能,此結(jié)果表明CDLS、STN、SSAN和本研究所提方法都可以在文本到文本的遷移上有效實(shí)現(xiàn)異構(gòu)知識(shí)遷移.本研究所提方法的平均分類準(zhǔn)確率為 77.75%,相較于監(jiān)督學(xué)習(xí)方法 NNt 和單源異構(gòu)遷移學(xué)習(xí)方法 SSAN分別提升了 9.75個(gè)百分點(diǎn)和1.09個(gè)百分點(diǎn).結(jié)果再次驗(yàn)證了本研究所提方法的有效性.

表5 不同方法在 Multilingual Reuters Collection數(shù)據(jù)集上進(jìn)行文本到文本異構(gòu)遷移的分類結(jié)果Tab.5 Classification results of different methods for text-totext heterogeneous migration on Multilingual Reuters Collection dataset
3.2.2 消融實(shí)驗(yàn) 為了深入探究特征對(duì)齊約束、隱式語義約束、語義預(yù)測(cè)空間中的特征對(duì)齊約束以及迭代加權(quán)約束的有效性,對(duì)本研究所提方法的 5個(gè)變種進(jìn)行評(píng)估.其中PLR-SAs為消融掉空間相似性約束,PLR-SA (β=0)為消融掉條件分布對(duì)齊約束,PLR-SAst為消融掉隱式語義約束,PLR-SA (γ=0)為消融掉語義預(yù)測(cè)空間中的特征對(duì)齊約束,PLR-SA (q=Q)為消融掉迭代加權(quán),PLR-SA:未進(jìn)行消融.如表6所示為本研究所提方法以及變種在 Office+Caltech-256 數(shù)據(jù)集上的性能.由表可以得到1)本研究所提方法在所有任務(wù)上的性能最佳,表明上述5種約束有效.2) 消融掉空間相似性約束的性能弱于本研究所提方法,表明空間相似性約束可以提高偽標(biāo)簽的置信度.3) 消融掉條件分布對(duì)齊約束的性能最差,表明條件分布對(duì)齊約束對(duì)于跨域跨特征的知識(shí)遷移是所必需的.4) 消融掉隱式語義約束的性能弱于本研究所提方法,表明隱式語義約束可以使目標(biāo)域標(biāo)簽數(shù)據(jù)學(xué)習(xí)到更多的源域標(biāo)簽知識(shí).5) 消融掉語義預(yù)測(cè)空間中的特征對(duì)齊約束的性能弱于本研究所提方法,表明語義預(yù)測(cè)空間中的特征對(duì)齊約束對(duì)齊了領(lǐng)域的邊緣分布,縮小源域和目標(biāo)域之間的域差距.6) 消融掉迭代加權(quán)的性能弱于本研究所提方法,表明迭代加權(quán)約束可以幫助提升遷移性能.

表6 本研究所提方法在Office+Caltech-256數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.6 Ablation experiment of proposed method on Office+Caltech-256 dataset
3.2.3 參數(shù)敏感性分析 為了驗(yàn)證本研究所提方法中參數(shù)β、γ的敏感性,實(shí)驗(yàn)分析Office+Caltech-256 數(shù)據(jù)集上的A→C遷移任務(wù)和Multilingual Reuters Collection數(shù)據(jù)集上的E→S遷移任務(wù).PLR-SA 的分類精度的變化曲線如圖3所示.默認(rèn)的參數(shù)設(shè)置可以實(shí)現(xiàn)比較高的分類準(zhǔn)確率,表明默認(rèn)的參數(shù)設(shè)置較合理;PLR-SA在所有遷移任務(wù)上使用默認(rèn)參數(shù)設(shè)置均表現(xiàn)出優(yōu)異的性能,表明PLR-SA對(duì)于不同的實(shí)驗(yàn)設(shè)置具有較為穩(wěn)定且有效的性能.

圖3 本研究所提方法在不同遷移任務(wù)上的參數(shù)敏感性分析結(jié)果Fig.3 Results of parameter sensitivity analysis of proposed method on different migration tasks
本研究提出基于偽標(biāo)簽細(xì)化和語義對(duì)齊的異構(gòu)域自適應(yīng)方法,解決了異構(gòu)域間的特征和分布差異.為了縮減領(lǐng)域之間條件分布差異,考慮到源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在公共特征子空間的相似性,提出具有空間相似度的偽標(biāo)簽細(xì)化方法,增強(qiáng)了目標(biāo)域偽標(biāo)簽的置信度.在縮減領(lǐng)域之間邊緣分布的差異時(shí),考慮到同類樣本經(jīng)過分類器輸出后具有相似的預(yù)測(cè)分布,構(gòu)造語義預(yù)測(cè)空間中的域鑒別器,將預(yù)測(cè)空間中源域的知識(shí)遷移到目標(biāo)域,提高了模型的泛化性.與多個(gè)HDA方法的仿真實(shí)驗(yàn)結(jié)果成功地驗(yàn)證了本研究所提方法優(yōu)于其他HDA方法.本文只探討了單個(gè)異構(gòu)源域場(chǎng)景下的遷移學(xué)習(xí)問題,沒有探討其他場(chǎng)景下的遷移學(xué)習(xí)問題.下一步將考慮引入注意力機(jī)制或?qū)W習(xí)權(quán)重來自適應(yīng)地融合多個(gè)源域的特征,以更好地利用源域之間的差異和相似性信息,以解決更多場(chǎng)景下的異構(gòu)遷移問題.