李 昂 杜軍平 寇菲菲 薛 哲 徐 欣 許明英 姜 陽
(北京郵電大學計算機學院(國家示范性軟件學院)北京 100876)
(智能通信軟件與多媒體北京市重點實驗室(北京郵電大學)北京 100876)
(junpingdu@126.com)
科技資訊聚焦了中外高新技術的前沿動態.實時跟進最新的科技資訊,有助于促進國家戰略科技力量的發展,驅動科技創新,進而確保國家高質量發展[1].科技資訊中包含大量的多媒體信息(如圖像、文本等),具備體量大、來源豐富、類型多樣等特點[2-3].隨著用戶感興趣的科技資訊模態不再單一,檢索需求也呈現出從單一模態到跨模態的發展態勢[4-5].憑借跨媒體科技資訊檢索,用戶能夠從多源異構的海量科技資源中獲取目標科技資訊;研究者亦能近一步設計出符合用戶需求的應用,包括科技資訊推薦[6]、個性化科技資訊檢索[7]等.跨媒體科技資訊檢索作為當下的研究熱點,仍舊面臨著多媒體數據間異構鴻溝和語義鴻溝亟待打破的難題[8-9].本文旨在解決現有跨媒體科技資訊檢索中僅考慮了媒體內數據判別損失和媒體間數據在映射后的不變性損失,卻忽略了媒體間數據在映射前后的語義一致性損失和語義內的媒體判別性損失,使得跨媒體檢索效果存在局限性的問題.
跨媒體科技資訊檢索方法種類繁多.先前的工作[10-14]聚焦于傳統的統計關聯分析方法,通過優化統計值來學習公共空間的線性投影矩陣[15],目的是建立一個共享子空間,使得不同媒體類型的數據對象的相似性可以映射到該子空間中,再使用常見的距離進行度量.然而,文獻[10-14]所述的方法依賴于數據的線性表示,僅通過線性投影很難完全模擬現實世界中跨媒體數據的復雜相關性.因此,一些研究[16-20]通過深度學習方法解決上述問題,利用其強大的抽象能力處理多媒體數據的多層非線性變換,進行跨媒體相關學習.然而,現有的基于深度學習的跨媒體檢索模型通常只專注于保留耦合的跨媒體樣本(例如圖像和文本)的成對相似性[21],卻忽略了一種媒體的一個樣本可能存在多個相同媒體的語義不同的樣本,因此無法保留跨媒體語義結構.保留跨媒體語義結構需要使得相同語義不同媒體的數據間距離最小化,且相同媒體不同語義的數據間距離最大化.最近的工作[22-26]引入對抗學習的思想,通過聯合執行標簽預測并保留數據中的底層跨媒體語義結構,為公共子空間中不同媒體的樣本生成媒體不變表示.然而,文獻[22-26]所述的方法聚焦于建模媒體內數據的語義判別性和媒體間數據在子空間映射后的語義不變性,卻忽略了媒體間數據在映射前后的語義一致性和語義內的媒體判別性,使得跨媒體檢索效果存在局限性.
針對上述問題,引入語義內的媒體約束來加強將不同類型的媒體數據映射到共享高級語義空間的能力,提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索(semantics-adversarial and mediaadversarial cross-media retrieval,SMCR)方法.SMCR 方法采用對抗博弈[27]的思想,構建特征映射器和媒體判別器,進行極小化極大化游戲.SMCR 方法追隨先前工作[28-29],采用標簽預測來確保數據在特征投影后仍保留在媒體內的區別.與先前工作不同的是,SMCR 方法同時最小化相同語義的文本-圖像對中不同媒體的數據分別在特征映射前和特征映射后的距離,以確保不同媒體間數據在映射過程中的語義一致性得以保留.此外,通過構建基礎映射網絡和精煉映射網絡共同輔助建模語義內的媒體約束,使映射后的數據做到語義上接近自身和媒體上遠離自身,來增強特征映射網絡混淆媒體判別網絡的能力.媒體判別網絡負責區分數據的原始媒體,一旦媒體判別網絡被欺騙,整個博弈過程收斂.
本文的主要貢獻包括3 個方面:
1)提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法(SMCR),通過端到端的方式同時保持媒體內的語義判別性、媒體間的語義一致性、語義內的媒體判別性,能夠有效地學習異構數據的公共表示;
2)通過構建基礎特征映射網絡和精煉特征映射網絡聯合進行多媒體數據特征映射,輔助語義內的媒體約束,有效地增強了特征映射網絡混淆媒體判別網絡的能力;
3)在2 個數據集上進行的大量實驗表明,本文提出的SMCR 方法優于當前最前沿的跨媒體檢索方法,包括傳統的方法和基于深度學習的方法.
科技資訊跨媒體檢索是近年來的研究熱點,旨在學習一個公共子空間[13,24,30],使得不同媒體的數據在該子空間中可以直接相互比較,以跨越不同媒體間存在的語義鴻溝.
一類經典的方法當屬傳統的統計關聯分析方法[10-14],它是公共空間學習方法的基本范式和基礎,主要通過優化統計值來學習公共空間的線性投影矩陣.例如,Hardoon 等人[12]提出典型關聯分析(canonical correlation analysis,CCA)方法,CCA 方法是一種關聯2 個多維變量之間線性關系的方法,可以被視為使用復雜標簽作為引導特征選擇朝向底層語義的一種方式.該方法利用同一語義對象的2 個視角來提取語義的表示.Wang 等人[13]提出一種基于耦合特征選擇和子空間學習的聯合學習(joint feature selection and subspace learning,JFSSL),受CCA 和線性最小二乘法之間潛在關系的啟發,將耦合線性回歸用于學習投影矩陣,使來自不同媒體的數據映射到公共子空間中.同時,JFSSL 將l2正則用于同時從不同的特征空間中選擇相關和不相關的特征,并且在映射時使用多媒體圖正則化來保留媒體間和媒體內的相似性關系.Zhai 等人[14]提出了一種新的跨媒體數據特征學習算法,稱為聯合表示學習(joint representation learning,JRL).該方法能夠在統一的優化框架中聯合探索相關性和語義信息,并將所有媒體類型的稀疏和半監督正則化集成到一個統一的優化問題中.JRL旨在同時學習不同媒體的稀疏投影矩陣,并將原始異構特征直接投影到聯合空間中.然而,僅通過線性投影很難完全模擬現實世界中跨媒體數據的復雜相關性.
隨著深度學習的興起,許多研究聚焦于將能夠實現多層非線性變換的深度神經網絡應用于跨媒體檢索中[16-20].例如,Yan 等人[17]提出一種基于深度典型相關分析(deep canonical correlation analysis,DCCA)的跨媒體圖像字幕匹配方法.通過解決非平凡的復雜性和過度擬合問題,使該方法適用于高維圖像和文本表示以及大型數據集.Peng 等人[18]提出一種跨媒體多重深度網絡(cross-media multiple deep network,CMDN),通過分層學習來利用復雜而豐富的跨媒體相關性.在第1 階段,CMDN 不像先前工作僅利用媒體內的分離表示,而是聯合學習每種媒體類型的2種互補的分離表示;在第2 階段,由于每種媒體類型都有2 個互補的獨立表示,該方法在更深的2 級網絡中分層組合單獨的表示,以便聯合建模媒體間和媒體內的信息以生成共享表示.然而,現有的基于深度神經網絡的跨媒體檢索模型通常只專注于保留耦合的跨媒體樣本(例如圖像和文本)的成對相似性,卻忽略了一種媒體的一個樣本,可能存在多個相同媒體的語義不同的樣本,因此無法保留跨媒體語義結構.
近年來,相關研究轉而向對抗學習[31]進行探索.雖然它在圖像生成[32]中應用較廣,但研究者也將其用作正則化器[33].一些研究將其思想應用于跨媒體檢索,并取得了顯著的效果[22-26].例如,Wang 等人[24]提出一種基于對抗跨媒體檢索(adversarial cross-modal retrieval,ACMR)方法來解決跨媒體語義結構難保留的問題.該方法使用特征投影器,通過聯合執行標簽預測并保留數據中的底層跨媒體語義結構,為公共子空間中不同媒體的樣本生成媒體不變表示.ACMR 的目的是混淆充當對手的媒體分類器,媒體分類器試圖根據它們的媒體來區分樣本,并以這種方式引導特征投影器的學習.通過這個過程的收斂,即當媒體分類器失敗時,表示子空間對于跨媒體檢索是最優的.Zhen 等人[25]提出一種深度監督跨媒體檢索(deep supervised cross-modal retrieval,DSCMR)方法,旨在找到一個共同的表示空間,以便在其中直接比較來自不同媒體的樣本.該方法將標簽空間和公共表示空間中的判別損失最小化,以監督模型學習判別特征.同時最小化媒體不變性損失,并使用權重共享策略來消除公共表示空間中多媒體數據的跨媒體差異,以學習媒體不變特征.劉翀等人[26]提出一種基于對抗學習和語義相似度的社交網絡跨媒體搜索方法(semantic similarity based adversarial cross media retrieval,SSACR),SSACR 使用語義分布及相似度作為特征映射網訓練依據,使得相同語義下的不同媒體數據在該空間距離小、不同語義下的相同媒體數據距離大,最終在同一空間內使用相似度來排序并得到搜索結果.然而,文獻[24-26]聚焦于建模媒體內數據語義損失和媒體間數據在映射后的語義損失,卻忽略了媒體間數據在映射前后的語義一致性和語義內的媒體判別性,使得跨媒體檢索效果存在局限性.
多媒體數據種類繁多,為了不失通用性,本文聚焦于文本、圖像2 種媒體的跨媒體檢索.給定一系列語義相關的圖像-文本對m={m1,m2,…,m|m|},其中mi=(vi,ti)表示m中的第i個圖像-文本對,表示維度為dvis的圖像特征向量,表示維度為dtex的文本特征向量.每個圖像-文本對都對應著一個語義類別向量li=(y1,y2,…,yC)∈RC,用來表示圖像-文本對的語義分布,也可以表示類別標簽分布.其中C表示語義類別總數,假設li屬于第j個語義類別,則記yj=1,否則記yj=0 .記m中所有的圖像、文本、語義類別所對應的特征矩陣為V=(v1,v2,…,vN)∈T=(t1,t2,…,tN)∈L=(l1,l2,…,lN)∈RC×N.
我們的目標是利用一種媒體的數據(如圖像vi或文本ti)檢索另一種媒體的數據(如文本ti或圖像vi).為了比較不同媒體數據之間的語義相似性,我們設計2 個特征映射網絡——基礎映射網絡和精煉映射網絡.基礎映射網絡將圖像特征和文本特征映射到統一的隱語義空間S中以進行語義相似性的對比.圖像特征V映射到隱語義空間S后的特征記為SV=fV(V;θV),文本特征T映射到隱語義空間S后的特征記為ST=fT(T;θT) .其中fV(V;θV)和fT(T;θT)分別表示圖像和文本的映射函數.為了近一步提高特征映射質量,我們用精煉映射網絡對基礎映射網絡的輸出特征進行映射.圖像特征SV映射后的特征記為文本特征ST映射后的特征記為其中表示圖像特征和文本特征的映射函數.
本文提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法(SMCR).SMCR 的框架如圖1 所示.本文的目的是利用對抗學習的思想不斷在語義與媒體間進行對抗,學習到一個公共子空間,使不同媒體的數據在該子空間中可以直接相互比較.

Fig.1 The overall framework of SMCR圖1 SMCR 的整體框架
本文采用特征映射網絡是為了將不同媒體的特征映射到統一的隱語義空間以便進行語義相似性的比較.同時,特征映射網絡也扮演著GAN[27]中“生成器”的角色,目的是為了迷惑媒體判別網絡(將在3.2節介紹).為了使映射后的特征表示充分考慮2 類媒體數據的語義相似性和媒體相似性,本文設計的特征映射網絡由3 部分組成:媒體內的標簽預測、媒體間的語義保留、語義內的媒體約束.媒體內的標簽預測使得映射在隱語義空間S中的特征依然能夠以原始的語義標簽為真值進行語義分類;媒體間的語義保留使得語義相同媒體不同的數據在映射前后都能保留語義相似性;語義內的媒體約束使得映射后的數據更加逼近原本語義.
3.1.1 標簽預測
為了保證映射到隱語義空間S中的特征依然能夠保留原始語義,以原始的語義標簽為真值進行語義分類.在每個特征映射網絡的最后加入一個保持線性激活的softmax 層.將圖像-文本對mi=(vi,ti)作為樣本進行訓練,并輸出每個數據對應語義類別的概率分布.采用在文獻[24]中介紹的損失函數來計算媒體內的判別損失:
其中Limd表示對所有圖像-文本對進行語義類別分類的交叉熵損失,θimd表示分類器的參數,li是每個樣本mi的真值,是樣本中每個數據(圖像或文本)所得到的概率分布.
3.1.2 語義保留
語義保留模塊致力于保證語義相同、媒體不同的數據在映射前后都能保留語義相似性,即媒體不同、語義相同的數據距離較近,媒體不同、語義不同的數據距離較遠.在映射到隱語義空間S之前,每個樣本mi中的圖像數據與文本數據的語義分布分別為lvis和ltex,那么2 個不同媒體數據間的語義一致性損失用l2范數表示為
在映射到隱語義空間S之后,每個樣本mi中的圖像數據特征SV與文本數據的特征ST之間的語義一致性損失同樣用l2范數表示為
因此,整體的媒體間一致性損失可以建模為l2(lvis,ltex) 和l2(SV,ST)兩者的結合:
其中Limi表示媒體間同時考慮映射前與映射后的語義一致性損失.
3.1.3 媒體約束
除了便于度量不同媒體數據間的語義相似性之外,特征映射網絡的另一個作用是生成映射后的特征來欺騙媒體判別網絡,讓它無法區分出數據的原始媒體.因此,引入語義內的媒體約束模塊.為了能夠更加逼真地映射出難以區分媒體的特征,在基礎的特征映射網絡P1之外,構造另一個相同結構的特征映射網絡P2,稱為精煉網絡.精煉網絡P2的輸入是P1的輸出結果SV或ST.P2的輸出是或其中分別表示SV和ST經過特征映射網絡P2映射后的特征,分別表示SV和ST這2 種特征的映射函數.
對每一個圖像-文本對mi而言,目標是讓精煉網絡P2映射出的特征距離基礎網絡P1映射的特征(SV或ST)較遠,距離相同語義的特征(ST或SV)較近.受到文獻[34-36]啟發,語義內的媒體判別損失采用如下約束損失進行計算:
其中Lcon,V表示圖像媒體數據的約束損失,Lcon,T表示文本媒體數據的約束損失.
因此,整體語義內的媒體判別損失可以建模為圖像媒體數據的約束損失與文本媒體數據的約束損失的結合:
3.1.4 特征映射網絡損失
整個特征映射網絡的映射性損失由媒體內的判別損失Limd、媒體間的一致性損失Limi、語義內的判別損失Lcom共同組成,記為Lemb:
其中 α 和 β 為可調節參數,用以控制Limi和Lcon這2 類損失在整個特征映射網絡損失中的參與度.
媒體判別網絡扮演著GAN[27]中“判別器”的角色,用來判斷映射到隱語義空間后的數據的原始媒體.令經過圖像映射函數的數據標簽為0,經過文本映射函數的數據標簽為1.本文使用一個參數為 θdis的3 層全連接網絡作為判別網絡,充當特征映射網絡的對手.其目標是最小化媒體分類損失,也稱為對抗性損失Ladv,定義為
其中Ladv表示媒體判別網絡中每個樣本mi的交叉熵損失,D(·;θdis)表示樣本中每個數據(圖像或文本)所得到的媒體概率分布.
對抗學習的目的旨在通過同時最小化式(8)的映射性損失和式(9)的對抗性損失,來學習得到最優的特征表示網絡參數,定義如下所示:
具體的對抗學習訓練過程如算法1 所示.
算法1.SMCR 的對抗訓練過程.
輸入:圖像特征矩陣V=(v1,v2,…,vN),文本特征矩陣T=(t1,t2,…,tN),真值語義標簽矩陣L=(l1,l2,…,lN),迭代次數k,學習率 μ,每個批次的數據量m,損失參數 λ;
本文分別闡述對實驗部分至關重要的研究問題、數據集、對比算法、評價指標等4 個方面.
本文通過3 個研究問題來引導實驗的設置.
研究問題1.面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法SMCR 的表現能否優于前沿的跨媒體檢索算法.
研究問題2.SMCR 方法的主要組成部分對于跨媒體檢索是否存在貢獻.
研究問題3.SMCR 方法是否對參數敏感.
為了回答上述3 個研究問題,使用爬取自科技資訊網站SciTechDaily[37]的數據集進行實驗.數據集包括5 217 個圖像-文本對,將其中的4 173 對數據作為訓練集,1 044 對數據作為測試集.為了驗證本文模型的通用性,同時使用Wikipedia[38]數據集進行實驗.Wikipedia 數據集包括2 866 個圖像-文本對,將其中的2 292 對數據作為訓練集,574 對數據作為測試集.這2 個數據集的詳細信息如表1 所示.

Table 1 Attributes of Two Datasets Used for the Experiments表1 實驗使用的2 個數據集的屬性
本文將SMCR 與相關的基準算法和前沿算法進行比較,對比算法如下.
1)典型關聯分析(canonical correlation analysis,CCA).該模型[12]為不同的媒體類型的數據學習一個公共子空間,使2 組異構數據之間的關聯最大化.
2)基于耦合特征選擇和子空間學習的聯合學習(joint feature selection and subspace learning,JFSSL).該模型[13]學習投影矩陣將多媒體數據映射到一個公共子空間,并同時從不同的特征空間中選擇相關的和有區別的特征.
3)跨媒體多重深度網絡(cross-media multiple deep network,CMDN).該模型[18]通過分層學習來利用復雜的跨媒體相關性.在第1 階段,聯合對媒體內和媒體信息進行建模;在第2 階段,分層組合媒體間表示和媒體內表示來進一步學習豐富的跨媒體相關性.
4)基于對抗的跨媒體檢索(adversarial crossmodal retrieval,ACMR).該模型[24]基于對抗性學習尋求有效的公共子空間.對特征投影器施加3 重約束,以最小化來自具有相同語義標簽、不同媒體的所有樣本表示之間的差距,同時最大化語義不同的圖像和文本之間的距離.
5)深度監督跨媒體檢索(deep supervised crossmodal retrieval,DSCMR).該模型[25]同樣基于對抗性學習的思想,將標簽空間和公共表示空間中的判別損失最小化,同時最小化媒體不變性損失,并使用權重共享策略來消除公共表示空間中多媒體數據的跨媒體差異.
6)基于對抗學習和語義相似度的社交網絡跨媒體搜索(SSACR).該模型[26]同樣基于對抗性學習的思想,將映射到同一語義空間的不同媒體數據的特征向量進行了相似度計算,并與原本的語義特征向量之間的相似度進行比較,以消除同一語義下不同媒體數據的差異.
本文采用跨媒體檢索[39-40]中經典的評價指標——平均精度均值(mean average precision,mAP),在文本檢索圖像txt2img 和圖像檢索文本img2txt 這2 個任務上,分別對SMCR 和所有對比算法進行評價.計算mAP,首先需計算R個檢索出的文檔的平均精度其中T是檢索出的文檔中的相關文檔數量,P(r) 表示前r個檢索出的文檔的精度,如果第r個檢索出的文檔是相關的,則 δ(r)=1,否則δ(r)=0.然后通過對查詢集中所有查詢的AP值進行平均來計算mAP.mAP值越大,說明跨媒體檢索結果越精準.
本節對所有實驗結果進行分析,來回答4.1 節提出的研究問題.
為了回答研究問題1,將SMCR 和6 個前沿算法分別在SciTechDaily,Wikipedia 這2 個數據集上進行對比.對比算法為:1)基于統計關聯分析的方法CCA[12],JFSSL[13];2)基于深度學習的方法CMDN[18],ACMR[24],DSCMR[25],SSACR[26].
表2 展示了本文在文本檢索圖像txt2img 和圖像檢索文本img2txt 這2 個任務上,對前5 個、前25 個、前50 個的檢索結果計算mAP值(mAP@5,mAP@25,mAP@50)和2 個檢索任務的mAP均值的結果.

Table 2 Comparison of Cross-Media Retrieval Performance on SciTechDaily and Wikipedia Datasets表2 在SciTechDaily 和Wikipedia 數據集上的跨媒體檢索性能比較
從表2 中,我們有以下發現:
1)SMCR 的表現優于所有前沿算法,包括基于統計關聯分析的方法和基于深度學習的方法.其中SMCR 方法在前5 個、前25 個、前50 個的檢索結果上的mAP均值在2 個數據集上均優于目前最前沿的SSACR 算法.這表明,雖然SSACR 同樣建模了媒體內語義損失和媒體間語義損失,SMCR 引入語義內的媒體約束模塊,通過更加逼真地映射出難以區分媒體的特征表示,有助于進一步提升跨媒體檢索性能.
2)SMCR 和JFSSL,CMDN,ACMR,DSCMR,SSACR等同時建模媒體內相似性和媒體間相似性的模型,效果優于基于圖像-文本對建模媒體間相似性的CCA,表明同時考慮媒體內相似性和媒體間相似性能夠提高跨媒體檢索精度.
3)SMCR 和ACMR,DSCMR,SSACR 的跨媒體檢索性能優于在多任務學習框架中同樣建模了媒體間不變性和媒體內判別性的CMDN,表明對抗學習有助于進一步提升媒體間不變性和媒體內判別性的建模.
4)SMCR 通過分別建模相同語義、不同媒體數據在映射前和映射后的語義相似性,表現優于僅建模相同語義、不同媒體間數據在映射后的語義相似性的ACMR 和DSCMR.這表示建模不同媒體的數據在映射前后的語義不變性有助于提高跨媒體檢索精度.
5)SMCR 和所有前沿算法在SciTechDaily,Wikipedia 這2 個數據集上的表現一致,表明SMCR 算法不僅局限于跨媒體科技資訊的檢索,而且在通用的跨媒體檢索任務中同樣具備良好效果.
為了回答研究問題2,我們將SMCR 與去掉媒體間語義損失Limi的SMCR、去掉語義內媒體損失Lcon的SMCR 在SciTechDaily 和Wikipedia 這2 個數據集上進行對比.由于采用標簽分類建模的媒體內語義損失Limd并非本文創新,因此不對去掉Limd的SMCR進行對比,結果如表3、表4 所示.從表3、表4 中有2點發現:

Table 3 Performance of SMCR and Its Variants in SciTechDaily Dataset表3 SMCR 與其變種在SciTechDaily 數據集上的表現

Table 4 Performance of SMCR and Its Variants in Wikipedia Dataset表4 SMCR 與其變體在Wikipedia 數據集上的表現
1)去掉媒體間語義損失Limi的SMCR 和去掉語義內媒體損失Lcon的SMCR,相比SMCR,跨媒體檢索mAP值均有所下降.這表明在特征映射網絡中同時優化媒體間語義損失Limi和語義內媒體損失Lcon相比單獨優化其中一個更有助于提升跨媒體檢索表現.
2)SMCR 與其變體在SciTechDaily,Wikipedia 這2 個數據集上的跨媒體檢索表現一致,再次表明SMCR 方法并不局限于跨媒體科技資訊檢索,而在通用的跨媒體檢索任務上同樣有效.
本節回答研究問題3.式(8)中的特征映射網絡的映射性損失Lemb有 α 和 β這2 個參數,分別控制媒體間語義損失Limi和語義內媒體損失Lcon在整體映射性損失Lemb中的參與度.本節在Wikipedia 數據集上改變α 和 β 的取值,以測試SMCR 算法的參數敏感性.將α和 β分別取值0.1,1,10,100,特別而言,當α=0時SMCR 退化為去掉媒體間語義損失Limi的SMCR;當β=0時 SMCR 退化為去掉語義內媒體損失Lcon的SMCR.因此 α 和 β 的取值不為0.固定一個參數(如 α)的前提下,改變另一個參數(如 β)進行實驗,并采用mAP@50分別評估文本檢索圖像效果、圖像檢索文本效果、平均檢索效果,結果如圖2 所示.

Fig.2 Retrieval performance with α and β in Wikipedia dataset圖2 Wikepedia 數據集上在 α 和 β下的檢索效果
從圖2中可見,當 α取值為0.1,1,10 和 β取值為0.1,1,10,100 時,SMCR 表現較好.這表明SMCR 對參數不敏感,即泛化能力較好.特別地,在文本檢索圖像任務上,當 α=0.1 且 β=0.1時,SMCR 表現最優;在圖像檢索文本任務上,當 α=1且 β=-1時,SMCR取得最優檢索效果;在平均檢索效果上,當 α=-1且β=-1時,SMCR 表現最好.
本文提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法(SMCR),能夠同時學習跨媒體檢索中的媒體內判別性、媒體間一致性、語義內判別性表示.SMCR 基于對抗學習方法,在極小化極大化游戲中涉及2 個過程:生成具有媒體內判別性、媒體間一致性、語義間判別性表示的特征映射網絡和試圖辨別給定數據原始媒體的媒體判別網絡.本文引入媒體間一致性損失,以確保映射前后的媒體間數據保留語義一致性;此外,引入語義內媒體判別性損失,以確保映射后的數據在語義上接近自身,媒體上遠離自身來增強特征映射網絡混淆媒體判別網絡的能力.在2 個跨媒體數據集上進行的綜合實驗結果證明了SMCR 方法的有效性,且在跨媒體檢索上的表現優于最前沿的方法.
作者貢獻聲明:李昂負責論文初稿撰寫及修改、實驗設計驗證與核實;杜軍平負責論文審閱與修訂、研究課題監管與指導;寇菲菲負責指導實驗方法設計;薛哲負責指導論文選題;徐欣和許明英負責實際調查研究;姜陽負責數據分析與管理.