劉 歡 鄭慶華 羅敏楠 趙洪科 肖 陽 呂彥章
1(西安交通大學計算機科學與技術學院 西安 710049)2(天津大學管理與經濟學部 天津 300072)3(綜合業務網國家重點實驗室(西安電子科技大學)西安 710071)(huanliucs@gmail.com)
隨著深度神經網絡的快速發展和面向特定任務大規模標記數據集的構建,基于監督學習的視覺數據分類研究近期取得了重大的進展[1-5].然而,在現實世界中,視覺數據的分布呈現出顯著的長尾效應,大量的類別具有很少、甚至沒有用于訓練的樣本,導致分類任務依然復雜且具有挑戰性.而相比于計算機需要一定數量的樣本才能完成分類模型的訓練,人類卻能夠在不看任何樣本的情況下學習新的類別,即只閱讀類別的語義描述.借鑒人類的這種學習能力,一種新的范式[6],即零樣本學習(zero-shot learning,ZSL)被提出用以識別未見過訓練樣本的新類別.
傳統的零樣本學習方法主要目標是建立視覺和語義特征空間之間的跨模態映射函數,包括視覺到語義的映射[7-11]、語義到視覺的映射[12-14]以及視覺和語義到公共空間的映射[15-18]等.但是,由于視覺和語義空間存在明顯的模態鴻溝,在它們之間進行嵌入會造成信息損失問題;另外,由于可見類和未見類的數據分布不同,基于映射函數的方法也導致未見類的識別高度偏向于可見類.為了緩解這些問題,借助于深度生成網絡[19-20],尤其是跨模態生成網絡[21-24],一系列面向零樣本學習的生成模型[25-30]被提出基于語義信息為未見類合成訓練樣本.與傳統方法通過間接的映射方式處理未見類數據不同,生成模型能夠利用合成的未見類假樣本直接訓練一個針對未見類的分類器,從而將零樣本分類問題轉換為經典的監督學習問題.
根據采用的生成機制不同,面向零樣本學習的生成模型一般分為2類:基于生成對抗網絡(gener-ative adversarial nets,GANs)的生成模型[25-28]和基于變分自編碼器(variational auto-encoder,VAE)的生成模型[29-30],這2種方法的特點各不相同.生成對抗網絡合成的樣本相對清晰,比較逼真,但是由于訓練過程不穩定,部分生成的樣本會嚴重偏離真實的數據分布,導致模式崩塌問題,如圖1(b)所示.與生成對抗網絡不同,變分自編碼器的訓練過程相對穩定,然而由于如何評判重構樣本和原始樣本是否接近比較困難,導致合成的樣本雖然比較均勻,卻相對模糊,如圖1(c)所示.

Fig.1 Real images and two kinds of synthetic images of celebrity faces圖1 名人人臉真實圖片和2種合成圖片
為了利用生成對抗網絡和變分自編碼器各自的優勢,最近的研究工作提出通過共享前者的生成器和后者的解碼器,將這2種生成模型整合到一個統一的框架(聯合模型)中[31-34],進而學習互補信息,提高合成樣本的能力.但是,由于生成器和解碼器的輸入分別為隨機高斯噪音和原始數據的隱變量表示,經過聯合模型中共享生成器/解碼器合成的數據不再滿足各自單一的數據分布,而是遵循復雜的多域分布,該分布包含來自生成器域的假樣本(如圖1(b))和來自解碼器域的假樣本(如圖1(c)).
為了解決這個問題,提出跨域對抗生成網絡(cross -domain adversarial generative network,CrossD -AGN),將傳統生成對抗網絡(GANs)和變分自編碼器(VAE)有機地結合,基于類級語義信息為未見類合成接近真實數據分布的樣本,進而實現零樣本分類.首先,通過共享生成器和解碼器構建聯合模型,該聯合模型能夠同時利用生成對抗網絡和變分自編碼器的優勢,學習互補信息;其次,針對聯合模型中共享生成器/解碼器合成的多域數據分布問題,提出跨域對抗學習的訓練機制.通過引入2個對稱的跨域判別器,分別學習判斷合成樣本是來自生成器域分布還是解碼器域分布.這樣的競爭方式促使聯合模型不斷優化其生成器/解碼器,直到無法區分合成的樣本來自哪個域分布為止,進而提高聯合模型的樣本生成能力.值得注意的是,本文研究的“域”與遷移學習中的“域”是不相同的。前者是“模型的域”,即對于相同語義類別,不同生成模型的合成數據分布域不同;而后者則是“數據集的域”,即對于不同語義類別,用源域中學到的知識幫助解決目標域中的任務.
本文的主要貢獻有3個方面:
1)提出了一個面向零樣本分類的聯合生成模型,該聯合模型能夠將傳統生成對抗網絡和變分自編碼器有機地結合起來,學習互補信息;
2)引入2個對稱的跨域判別器,并采用對抗學習機制,通過學習判定合成樣本的分布域來源,促使生成器/解碼器不斷優化,提高生成能力;
3)在4個真實視頻數據集上進行了大量的零樣本學習實驗.與最先進的算法相比,提出的模型在2個評價指標上分別取得了2.7%和3.2%的提升.
本節介紹關于零樣本學習的研究工作.早期的零樣本學習主要集中于在視覺空間和語義空間之間學習一個跨模態的映射函數,包括視覺到語義的映射[7-11]、語義到視覺的映射[12-14]以及視覺和語義到公共空間的映射[15-18]等.例如在視覺-語義映射方面,Frome等人[9]提出深度視覺-語義嵌入模型(DeViSE)將圖像顯式地映射到豐富的語義空間中,并利用文本數據學習標簽之間的語義關系,以識別未見類視覺對象.而語義-視覺映射與之相反,例如在文獻[13]中,將視覺空間作為嵌入空間來緩解樞紐問題(hubness problem),提高算法的效率.此外,Kodirov等人[18]提出將視覺特征和標簽特征同時映射到一個屬性空間中,然后利用無監督領域自適應算法來克服領域漂移問題(domain shift problem).
最近,借助于深度生成網絡[19-20],一系列面向零樣本學習的生成模型[25-30]被提出基于語義信息為未見類合成訓練樣本.相比早期的映射方法,利用合成的未見類假樣本,生成類模型將零樣本學習轉換為傳統的監督學習任務,并取得了極大的突破.根據使用的基礎模型的不同,零樣本學習生成模型可以分為2種:1)GANs類生成模型[25-28],利用對抗學習機制,訓練生成器來合成未見類樣本.例如,文獻[24]提出將GANs和分類誤差結合來生成具有顯著區分性的視覺特征.2)VAE類生成模型[29-30],基于編碼-解碼機制,利用解碼器從隱變量重構樣本.例如Mishra等人[29]通過引入類別信息,訓練VAE來學習符合標簽語義的圖像潛在概率分布.
最新的研究將這2種生成模型結合起來,提出了針對零樣本學習的VAE-GAN聯合框架[31-34],希望能夠利用他們各自的優勢(前者訓練過程穩定,后者生成的樣本清晰逼真).但是,聯合模型生成的樣本遵循復雜的多域分布而現有方法忽視了這個問題,所以亟需能夠對多域數據分布進行建模的算法.
本節敘述關于神經生成網絡的研究工作.基于VAE和GANs,尤其是后者,大量有趣的應用如雨后春筍般涌現.考慮到本研究的目標是從語義信息出發合成視覺樣本,我們主要回顧生成網絡社區中與跨模態生成和增強訓練過程穩定性相關的研究.
條件生成對抗網絡(CGAN)[21]和條件變分自編碼器(CVAE)[22]首先提出通過給定分類器和判別器(編碼器和解碼器)類標簽來控制生成的樣本符合特定的語義分布.基于此,后續的研究人員將離散的類別標簽拓展到了屬性向量和文本描述.例如為了獲得包含必要細節和生動對象的視覺樣本,文獻[23-24,35]提出直接利用文本描述而不是類標簽或者視覺屬性來合成高分辨率圖像.與此同時,大量研究致力于緩解原始生成對抗機制存在的梯度爆炸/消失和模式崩塌等問題.Salimans等人[36]提出了特征匹配、單側標簽平滑和虛擬批量標準化等實用技術來促進生成對抗網絡在訓練階段的收斂.為了避免梯度消失問題,Arjovsky等人[37]提出使用Wasserstein距離替代原始的損失函數來衡量真假樣本數據分布之間的距離,并通過簡單的判別器參數裁剪實現.為了不降低判別器的能力,他們進一步改進了上述模型,提出了WGAN-GP[38],用梯度懲罰項替代參數裁剪操作.
顯然,條件生成網絡(CVAE,CGAN)和改進的生成對抗訓練機制(WGAN-GP)為穩定地合成具有豐富語義的視覺樣本提供了巨大的可能性.因此,本文在聯合模型中使用類級語義信息作為條件輸入,并利用Wasserstein距離和梯度懲罰項進行訓練.
本節主要介紹跨域對抗生成網絡在零樣本分類問題中的應用.給出了問題的定義;提出了的跨域對抗生成網絡;描述了零樣本分類的測試過程.本文中使用的符號和變量名如表1所示:

Table 1 Nomenclature表1 術語表

本節詳細介紹跨域對抗生成網絡(CrossD -AGN),如圖2所示,跨域對抗生成網絡包含4組部件:編碼器E、生成器G(解碼器Dec)、真假判別器D以及跨域判別器D1和D2.由于跨域對抗生成網絡結合了生成對抗網絡和變分自編碼器各自的優勢來合成樣本,因此在所提出的模型中,來自生成對抗網絡的生成器G和來自變分自編碼器的解碼器Dec是相同的,共享參數.
首先介紹生成器G和真假判別器D.跨域對抗生成網絡中的生成器G和真假判別器D來源于傳統的生成對抗網絡,他們通過互相博弈進行學習.判別器D的目的是判斷一個樣本來自真實的數據分布還是生成器G生成的假分布,而生成器G則努力生成無法被檢測為假的樣本.兩者相互對抗,不斷優化自身參數,直到判別器D無法判斷生成器G生成的樣本是否真實.由于傳統生成對抗網絡的訓練過程非常不穩定,文獻[38]提出WGAN-GP模型,即利用Wasserstein距離和梯度懲罰項來緩解梯度爆炸和模式崩塌等問題,目標函數為

(1)

Fig.2 Framework of the proposed cross-domain adversarial generative network圖2 跨域對抗生成網絡的框架
另外,為了生成具有特定語義含義的樣本,本文遵循條件生成對抗網絡[21](CGAN)的做法,將語義編碼同時集成到生成器G和判別器D中.因此,利用Wasserstein距離和梯度懲罰項,基于類級語義信息φt,在CrossD-AGN中,生成器G的目標是最小化損失函數:

(2)


(3)

跨域對抗生成網絡中的編碼器E和解碼器Dec來源于傳統的變分自編碼器,旨在通過編碼-解碼的訓練機制,能夠從符合特定分布的隱變量生成圖像等樣本.具體來說,編碼器E將原始數據轉化為一個符合特定分布的隱變量,解碼器Dec基于此隱變量重構原始輸入,目標函數為

(4)
式(4)中等號右邊第1項為重構誤差:

(5)


(6)
用來計算隱變量分布和標準正態分布的距離.
最后,通過引入2個對稱的跨域辨別器D1和D2來將傳統的生成對抗網絡和變分自編碼器有機地結合起來.生成對抗網絡和變分自編碼器都有合成樣本的能力,但他們生成的特點不同.生成對抗網絡合成的樣本相對清晰,但是由于訓練過程不穩定,部分生成的樣本會嚴重偏離真實的數據分布,如圖1(b)所示.與生成對抗網絡不同,變分自編碼器的訓練過程相對穩定,然而由于如何評判重構樣本和原始樣本是否接近比較困難,導致合成的樣本相對模糊,如圖1(c)所示.因此,結合生成對抗網絡和變分自編碼器能夠學習互補信息,提高生成樣本的能力.但是,生成器和解碼器的輸入分別為隨機高斯噪音zp和原始數據的隱變量表示zf,由生成器/解碼器合成的數據不再滿足單一的分布,而是遵循復雜的多域分布,該分布包含來自生成器域的假樣本和來自解碼器域的假樣本.因此,為了更好地利用生成對抗網絡和變分自編碼器的優點來合成樣本,提出跨域對抗學習的訓練策略,對生成數據的域分布進行區分和建模.
將解碼器域假樣本xf作為真實數據,生成器域假樣本xp作為合成數據,使用對抗學習的訓練機制,可以得到第1個跨域對抗損失函數:

(7)
其中,pDec和pG分別為解碼器域的分布和生成器域的分布.這里的第1個跨域生成器即對抗生成網絡中的生成器G,目標是最小化損失函數:

(8)
第1個跨域判別器D1的目標是最小化損失函數:

(9)
相應地,將生成器域假樣本xp作為真實數據,解碼器域假樣本xf作為生成數據,可以得到第2個跨域對抗損失函數:

(10)
這里的第2個跨域生成器即變分自編碼器中的解碼器Dec,目標是最小化損失函數:

(11)


(12)
總體目標函數.綜上所述,跨域對抗生成網絡(CrossD-AGN)的最終目標是最小化損失函數:

(13)

算法1.跨域對抗生成網絡(CrossD-AGN)的訓練過程.
輸入:訓練過程迭代次數Nsted、批大小m、每次訓練迭代中判別器的更新次數ncritic、梯度懲罰系數λ、損失函數中的權重系數γ1和γ2、Adam優化器的超參α,β1和β2、初始化編碼器θE、生成器(解碼器)θG(θDec)、真假判別器θD、跨域判別器θD1和θD2;
① foriter=1,2,…,Nsteddo
② forj=1,2,…,ncriticdo
③ 采樣一批(m個)真實數據x及其對應的語義編碼φt、隨機高斯噪音zp、隨機數ε;
④ 合成生成器域假樣本xp←G(zp,φt);
⑧ 計算編碼器隱變量zf←E(x,φt);
⑨ 合成解碼器域假樣本xf←Dec(zf,φt);


(14)
最后,在測試階段,給定一個真實的未見類樣本xu和最優Softmax分類器θ*,該樣本的預測標簽為

(15)
鑒于所提出的框架能夠基于語義編碼生成語義相關的視覺樣本,因此整個訓練和測試過程易于擴展到其他應用,例如零樣本視頻檢索.
本節描述了實驗數據集、對比方法、實驗設置、定性與定量分析以及敏感性分析.
3.1.1 數據集及劃分
使用4個公開的視頻數據集進行實驗,圖3給出了一些例子.

Fig.3 Example videos from four datasets used in this paper圖3 本文中使用的數據集視頻示例
1)Olympic Sports[39].它是一個具有16種類別的體育運動數據集,其中每個種類包含50個YouTube視頻.每種運動包含的動作都比較復雜,如“撐桿跳”和“三級跳”等.
2)CCV[40].它是一個包含20個種類的網絡用戶視頻數據集,共有9 317個用戶視頻.類別分為事件(如“游行”)、場景(如“沙灘”)和目標對象(如“狗”)等.
3)HMDB51[41].它是一個人類日常行為視頻數據集,包含51個類別,共有7 000個電影片段或Internet視頻.類別可以分為5組:一般面部動作如“笑”、操作物體的面部動作如“吃”、一般身體動作如“爬”、操作物體的身體動作如“打高爾夫”以及身體互動動作如“擁抱”.
4)UCF101[42].它是一個共有101個類和13 320個YouTube視頻的行為識別數據集.101個類別包括人與物交互如“刷牙”、身體動作如“攀巖”、人與人交互如“剪頭發”、演奏樂器如“彈鋼琴”以及運動如“滑雪”等.
本文遵循文獻[43]提出的零樣本視頻分類數據劃分方法.具體來說,對于每一個數據集,共隨機生成了50個劃分.在每一個劃分中,用50%的類別作為可見類,剩余的50%的類作為未見類.
3.1.2 度量標準
對于零樣本視頻分類,在每個數據劃分中,用平均top-1準確率來度量模型性能,定義:
(16)
其中,c為類別.所以,對于每個數據集,本文在實驗中報告所有50個劃分平均top-1準確率的均值和標準差.
對于零樣本視頻檢索,在每個數據劃分中,用平均精度均值(map)來度量模型性能,定義:
(17)

3.1.3 特征提取
給定一個視頻,首先從中抽取20個視頻片段,每個視頻片段包含16個幀.每個視頻幀為3通道(RGB)的圖片,大小調整為112×112,并以50%的概率進行水平翻轉.因此,每個視頻片段最后表示為維度為3×16×112×112的張量.緊接著,將視頻片段輸入3D Resnet34[44]網絡來抽取該片段的視覺特征.使用的3D Resnet34網絡在包含超過300 000個視頻,多達400個類的Kinetics[45]數據集上進行了預訓練,得到的視覺特征是網絡中3D平均池化層的輸出,維度為512維.最后,計算一個視頻所有20個視頻片段視覺特征的平均值,得到該視頻的視覺特征.
給定一個類的語義信息,采用skip-gram[46]語言模型來生成語義編碼.該模型在包含大約1 000億個單詞的Google新聞數據集上進行了預訓練,并生成300維的編碼向量.
3.1.4 實現細節
本節描述所提出神經網絡的實現細節、目標函數中的權重系數以及訓練過程的超參.所有的神經網絡都由多層感知機(MLP)組成.具體來說,編碼器E、生成器G(解碼器Dec)、真假判別器D以及2個跨域判別器D1和D2都包含一個1024維的隱層.除了生成器G的輸出層使用Sigmoid函數作為激活函數外,其余網絡的隱層都使用LeakyReLU函數進行非線性映射.所有網絡的參數都使用Xavier方法進行初始化.
為了得到最佳的實驗性能,實驗中經驗地設置目標函數中的λ為10,γ1和γ2為0.01,隨機高斯噪音的維度為300維.使用Adam優化器來訓練模型,學習率為0.001,批大小為64.為每個未見類合成100個視覺特征.所有的神經網絡都是基于Pytorch平臺進行開發的.
將所提出模型和9種方法進行了對比:
1)語義編碼凸組合模型(ConSE)[47].ConSE通過對類標簽編碼進行凸組合,將圖片映射到語義空間,從而實現零樣本分類.
2)結構化聯合編碼模型(SJE)[8].SJE首先學習一個圖片和類標簽之間的相容函數,然后搜索產生最高相容分數的標簽來對未見圖片進行分類.
3)流形正則化回歸模型(MR)[43].MR利用流形正則化、自訓練和數據增廣等技術,增強圖片到語義空間的映射,從而實現零樣本分類.
4)語義自編碼器(SAE)[11].SAE采用編碼-解碼機制將視覺特征映射到類標簽語義空間中,并完成語義空間到視覺特征的重構,從而能夠將未見圖片進行分類.
5)條件變分自編碼器(CVAE)[22].CVAE利用變分自編碼器基于語義編碼生成視覺特征,并利用合成的未見類數據完成零樣本分類.
6)條件對抗生成網絡(CWGAN)[38].CWGAN采用Wassertein距離度量真假樣本的距離,并且能夠基于語義編碼生成視覺特征,從而能夠訓練未見類分類器實現零樣本分類.
7)細類度圖像生成網絡(CVAEGAN-FM)[32].CVAEGAN-FM結合VAE和GAN各自的優點,利用特征匹配技術使訓練過程穩定,進而基于語義信息合成更加清晰和真實的圖像.
8)零樣本學習聯合生成模型(CVAEGAN-PR)[33].CVAEGAN-PR在CVAEGAN-FM的基礎上,引入了感知重構誤差,以此增強生成模型合成視覺特征的能力.
9)任意樣本學習特征生成網絡(CVAEWGAN)[34].CVAEWGAN提出將VAE和WGAN進行結合,基于語義信息合成未見類的視覺特征,實現任意樣本分類.
鑒于所提出的方法能夠基于語義信息生成樣本的視覺特征,因此從零樣本分類和零樣本檢索2個方面對模型的零樣本學習能力進行評價.
3.3.1 零樣本視頻分類
零樣本視頻分類的對比實驗結果如表2所示.從表1中可知,相比于傳統的映射方法(前4個方法),生成式模型(后6個方法)的準確率取得了顯著的提高,這表明了為未見類生成視覺特征來進行零樣本分類的可行性和有效性.傳統方法MR的性能較高,是因為該方法屬于直推式(Transductive)零樣本學習方法,即在訓練模型的時候,可以看到無標簽的未見類數據,而其他傳統方法屬于歸納式(Inductive),訓練階段只能看到可見類數據.在生成式模型中,CVAE表現不佳,而基于WGAN的模型(CWGAN,CVAEWGAN,CrossDAGN)性能最好.作為效果第2好的生成模型,CVAEWGAN的準確率高于CWGAN,表明聯合模型能夠同時利用變分自編碼器和生成對抗網絡的優點來合成樣本.最后,提出的模型CrossDAGN優于CVAEWGAN,驗證了在零樣本分類問題中,跨域對抗學習能夠有機地結合2種生成模型,合成更加符合真實數據分布的樣本.

Table 2 acc Results (mean±standard deviation)of Zero-Shot Video Classification on Different Datasets表2 對比方法在不同數據集上零樣本視頻分類的acc結果(均值±標準差)
Note:The best results are highlighted in bold.
3.3.2 零樣本視頻檢索
零樣本視頻檢索定義為給定一個未見類的語義描述作為查詢語句來檢索視頻,對比實驗結果如表3所示.表3中平均精度均值(map)結果和表2中準確率(acc)結果呈現出類似的趨勢.因此,零樣本視頻檢索和視頻分類實驗結果的一致性表明所提出的跨域對抗學習方法能夠為零樣本學習提供令人滿意的未見類樣本視覺特征.

Table 3 map Results (mean±standard deviation)of Zero-Shot Video Retrieval on Different Datasets表3 對比方法在不同數據集上零樣本視頻檢索的map結果(均值±標準差)
Note:The best results are highlighted in bold.

Fig.4 Qualitative results of zero-shot video retrieval圖4 零樣本視頻檢索的定性分析
除了上述的定量分析,還在Olympic Sports數據集上對所提出模型進行了零樣本檢索定性分析實驗.部分實驗結果如圖4所示.我們注意到,除了多數正確(實線框)外,也存在一些錯誤(虛線框)的檢索結果.這些錯誤大部分是由于視頻的場景以及動作的相似所造成的.例如“保齡球”和“十米跳臺”的檢索結果中均出現了屬于對方的錯誤視頻,可能是由于類似的場景(如“室內”、“觀眾”等).而關于“挺舉”的檢索結果中,錯誤地出現了“抓舉”的視頻(第2個和第7個),這是因為這2種運動都屬于舉重運動,身體的動作十分相似.
3.3.3 性能差異討論
在表2和表3中各個算法在不同數據集上性能差異較大,且按照數據集Olympic Sports>CCV>HMDB51≈UCF101的順序降低.原因有2個:
1)Olympic Sports和CCV包含較少的類別,而類別數越少,模型越容易構建分類邊界,所以算法在這2個數據集上的性能遠高于類別較多的HMDB51和UCF101.另外,Olympic Sports包含800個視頻,平均時長約為8 s,而CCV包含7 000個視頻,平均時長約為80 s,即CCV中的視頻包含了相對更多的噪音和異常點,因此在類別數差不多的情況下,各算法性能明顯低于其在Olympic Sports上的表現.
2)HMDB51數據集類間邊界不明顯,所以在類別數更少的情況下,各算法在HMDB51上的性能卻和在UCF101上差不多,甚至更低.具體地,通過計算HMDB51和UCF01數據集的2個聚類指標:Calinski-Harabasz Index(CHI)[48]和Silhouette Coefficient(SC)[49]來評估各個類別的分離程度.計算結果如表4所示,HMDB51無論是真實的數據還是合成的數據,其分布的類別分離程度都遠低于UCF101.因此,即使HMDB51的類別數比UCF101少得多,各個算法在其上的性能也和在UCF101上差不多甚至更差.

Table 4 The Degree of Separation Evaluation of Classes表4 類別的分離程度評估 %
為了進一步驗證論文提出的跨域判別器D1和D2的作用,對3個由變分自編碼器和生成對抗網絡組成的聯合模型(CVAEGAN-FM,CVAEGAN-PR,CVAEWGAN)進行組件分析實驗,即比較添加跨域判別器前后的模型性能.簡單起見,本文只在Olympic Sports和CCV數據集的前8個數據劃分上進行了實驗,實驗結果如表5所示.顯然,所有的聯合模型在添加跨域判別器之后,利用跨域對抗學習的訓練機制,不管是分類的準確率還是檢索的平均精度均值都獲得了顯著的提升.該實驗結果表明,所提出的跨域判別器不僅有助于為零樣本學習合成高質量的樣本,而且具有較好的泛化能力,能夠推廣到不同的聯合模型.

Table 5 Components Analysis of the Proposed Cross Domain Discriminators表5 跨域判別器的組件分析
Note:The best results are highlighted in bold.
為了研究2個跨域判別器的關系和最優的樣本合成數目,進行了2組敏感性分析實驗.首先,我們在數據集Olympic Sports和CCV的前8個劃分上進行了跨域判別器權重系數(γ1和γ2)敏感性實驗,結果如圖5所示.實驗結果表明:(γ1,γ2)=(0.01,0.01)是2個跨域判別器的最佳平衡點,即它們是對稱的,對樣本的合成起到相同的作用.其次,我們在相同的數據集上進行了視覺特征合成數量的敏感性實驗,結果如圖6所示.顯然,當合成的數量為100時,所提出的模型可以達到最優的性能;而隨著數量增大直到100以上時,準確率和平均精度均值反而開始下降.這一現象表明,合成更多假樣本的同時也會引入更多的噪聲數據.因此,應該控制合成視覺特征的數量,以便在有用知識和隨之而來的噪聲信息之間進行權衡.

Fig.5 acc and map with respect to different γ1 and γ2圖5 不同γ1和γ2對應的準確率和平均精度均值

Fig.6 acc and map with respect to different numbers of synthesized features圖6 不同數量合成特征對應的準確率和平均精度均值
使用t-SNE[50]方法對Olympic Sports和CCV數據集中未見類的真實特征和3個生成模型合成的特征進行可視化,結果如圖7所示.與CWGAN和CVAEWGAN相比,CrossD -AGN能夠合成更接近真實數據分布的樣本.在圖7(a)中,CrossD -AGN合成的特征和真實的特征分布一樣,都具有明顯的類間邊界;在圖7(b)中,某些由CrossD -AGN合成的類的特征彼此非常接近甚至略有混淆,而真實的特征分布中也存在一定的重疊.

Fig.7 t-SNE visualization of real and three synthesized features for unseen classes圖7 未見類的真實特征以及3種合成特征的t-SNE可視化
本文提出了一種基于跨域對抗生成網絡的零樣本分類方法.通過引入2個跨域判別器,利用對抗學習機制,不斷學習判定聯合模型合成樣本的域分布來源,進而優化聯合模型的生成器/解碼器,最終提高樣本生成的能力.與目前最新的CVAEWGAN模型相比,所提出的CrossD -AGN在指標acc和map上分別取得了2.7%和3.2%的平均提升,表明了所提出模型的有效性和優越性.此外,3種傳統聯合模型的性能在添加跨域判別器之后在2個指標上分別增加了4.0%和4.2%,也表明了跨域對抗學習思想的靈活性,易于推廣.但是,目前的方法只考慮了類別信息來合成樣本,而對于零樣本分類問題來說,這樣做仍不足以產生較高的類間辨別性.因此,未來的工作將嘗試引入分類相關的損失信息來進一步提高零樣本學習的性能.