楊 楊 ,詹德川 ,姜 遠 ,熊 輝
1(南京理工大學 計算機科學與工程學院,江蘇 南京 210094)
2(計算機軟件新技術國家重點實驗室(南京大學),江蘇 南京 210023)
3(Rutgers Business School,Newark,NJ 07012,USA)
“一本《紅樓夢》,經學家看見《易》,道學家看見淫,才子看見纏綿,革命家看見排滿,流言家看見宮闈秘事.”——魯迅.
現實世界中,復雜對象從不同角度分析擁有不同的屬性特征.如圖1 所示,現實應用中復雜對象通常可以通過多模態信息加以描述,多模態學習也有著廣泛的應用場景,網頁包含文本、圖片和超鏈接等信息;視頻可以分解為圖片幀、音頻和文本;文章可以通過不同語言表示;手機應用從不同傳感器收集信息進行分析,等等.可見,樣本可以通過不同通道的信息加以描述,每一通道的信息定義為一種特定的模態.因此,較之單模態數據,多模態數據可以提供更豐富的信息表示,且基于多模態數據表示也有著極其廣泛的應用,如基于圖文數據的熱點推薦、基于多傳感器信號的無人駕駛、基于視頻語音的字幕生成等.

Fig.1 Multi-modal data and applications圖1 多模態數據及應用
較之單模態學習,多模態學習通常考慮如下兩方面的研究內容:(1) 單模態學習性能;(2) 模態間相關性度量及利用.采用的主要策略是將二者納入統一框架中進行聯合優化,進而為每個模態學習更具判別性的語義表示,構建模態間的映射關聯,提升模型性能.具體地,傳統多模態方法大致可分為兩類:(1) 基于協同訓練思想的方法;(2) 基于協同正則化思想的方法.協同訓練(co-training)[1]是多模態學習早期學習方法之一,其利用模態間的互補性準則,最大化兩個不同模態未標記數據的互一致性(即挑選最置信的未標記樣本標記偽標記,提供給其他模態學習)提升單模態的性能.基于這一思想設計出眾多衍生方法,如 Co-EM[2]、Bayesian co-training[3]、Co-Trade[4]等.作為多模態學習的另一個重要分支,協同正則化(co-regularization)[5]則是利用模態間的一致性準則,最小化兩個不同模態未標記數據的預測差異性來排除不一致的假設.進一步地,研究者基于該思路提出其他模型,如SVM-2K[6]、MSE[7]等.此外,基于子空間學習方法(如CCA[8])、基于多核學習方法(如MKL[9])也可歸為利用一致性準則的協同正則化方法.值得注意的是,早期基于互補性準則的協同訓練類型方法通過各模態最置信的未標記樣本的偽標記信息進行相互教學,其本質也可看作潛在標記的一致性,因此傳統的兩類方法都關注利用樣本不同模態間的強相關性.相對于早期傳統的多模態學習方法,近些年一些研究轉而注重學習或度量模態間的互補信息表示,以此增強模態的融合性能[10],本文將在第2.2.3 節具體介紹該類方法.同時,多模態理論研究也有所建樹,如協同訓練的泛化界[11]、基于信息熵的多模態理論框架[12].然而,在開放環境下,考慮信息缺失、噪聲干擾等問題,模態間的強相關性難以滿足,傳統多模態學習方法仍面臨著巨大挑戰.同時,多模態學習與機器學習中的其他研究領域也緊密相關,研究內容豐富,如集成學習[13]、領域適配[14]、主動學習[15],考慮到與本文主題關聯較低,這里不再一一贅述.
真實開放環境下,多模態數據通常會受到噪聲、自身缺陷及異常點等干擾,使得上述互補性及一致性準則難以得到滿足.究其原因,主要體現在學習過程中出現的未標記樣本偽標記噪聲、采樣偏差及模態特征表示、模型性能差異等問題,進而導致模態表示強弱以及模態對齊關聯的不一致.具體表示為:
1) 模態表示強弱不一致.傳統多模態學習方法通常考慮模態間的一致性,即特征或預測的一致性.而在開放環境下,噪聲等因素會造成單模態的信息不充分[16],進而導致單模態特征、預測的噪聲和模態間的差異性,造成模態之間存在強弱之分.直接使用傳統的互補性或一致性準則會造成模型優化偏差,影響模型聯合訓練;
2) 模態對齊關聯不一致.傳統多模態學習方法通常假設同一樣本擁有全量的模態信息,且模態間的關聯關系也是事先確定的.而開放環境中,考慮到隱私保護、數據收集缺陷等因素,多模態數據存在模態缺失問題[17],即樣本可能僅獲得部分模態信息,而非全量信息.同時,考慮到人工標注代價等因素,同一任務獲得的不同模態間的對應關系也可能不明確[18].
綜上所述,模態表示強弱不一致和模態對齊關聯不一致是多模態數據在開放環境下凸顯的兩大新的挑戰,也是造成傳統多模態學習方法在真實數據集上甚至出現性能退化現象的關鍵因素.針對這些挑戰,可靠多模態學習(也稱魯棒多模態學習)開始受到國內外研究的廣泛關注.針對模態表示強弱不一致問題,文獻[19,20]提出利用強模態作為軟監督信息輔助弱模態,文獻[21,22]考慮加權等操作排除不一致樣本的干擾;針對模態關聯不一致問題,文獻[17]考慮缺失模態的聚類,文獻[23]考慮不對齊多模態的融合.
目前已有一些關于多模態學習的綜述發表[24-26],這些綜述大多著重于總結傳統多模態學習方法及其應用.例如,文獻[25]總結了傳統多模態子空間學習、多核學習及協同學習,并給出了當前深度多模態學習的進展;文獻[24]則從多模態應用層面出發介紹相關的學習方法,包括:(1) 模態表示學習;(2) 模態映射學習;(3) 模態對齊學習;(4) 模態融合學習;(5) 模態協同學習,并給出其在視覺領域、多媒體領域的諸多應用.表1 給出了上述5 種多模態技術在不同實際場景中的具體應用.

Table 1 Main techniques and applications in multi-modal learning[24]表1 多模態學習的主要技術與應用[24]
值得注意的是,大多綜述忽略了第1.1 節中所描述的多模態學習所面臨的挑戰,為此,本綜述將具體分析針對這兩個挑戰的國內外相關研究現狀,并介紹目前可靠多模態學習的研究進展.
本文首先概述傳統多模態學習中基于互補性和一致性準則的方法,其次具體分析開放環境下多模態數據凸顯的“模態表示強弱不一致”“模態對齊關聯不一致”兩大挑戰,并介紹目前針對這兩個問題的可靠多模態學習研究進展狀況,內容安排的具體框架如圖2 所示.特別地,隨著深度學習的興起,適應不同領域的深度模型均取得遠超傳統模型的性能,而目前先進的多模態方法也通常選擇相應的神經網絡,如卷積神經網絡、長短記憶神經網絡作為各模態(圖片、文本)的基模型,并設計相應的損失函數進行聯合訓練,為此本文也將著重介紹目前高性能的多模態深度學習模型.

Fig.2 The framework of the survey,including traditional and reliable multi-modal learning圖2 本文整體組織框架(包括傳統多模態學習和可靠多模態學習)
本節首先介紹多模態學習的兩種基本準則,然后具體介紹相應的學習方法.在無特殊說明的情況下,本文所介紹的方法一般以兩模態為例,不失一般性,擴展到多模態通常采用兩兩遍歷加和形式.
傳統多模態學習的精髓在于如何有效地考慮模態間的關聯性,通常要求服從兩個基本準則:互補性和一致性.互補性準則描述每個模態的數據可能包含其他模態所欠缺的信息,因此綜合考慮多模態信息可以更全面地描述數據并提升任務性能.具體地,假設數據集X包含兩個模態X1和X2,進而單樣本可以表示為其中,yi是標記信息.數據滿足以下3 個假設:(1) 充分性,即每個模態自身含有充分信息進行分類;(2) 兼容性,即兩個模態大概率具有共現特征,能夠預測相同標簽;(3) 條件獨立,即給定標簽情況下模態條件獨立.基于上述假設,文獻[1]給出如下結論:如兩個模態是條件獨立的,那么協同訓練會提升單模態性能.文獻[11]則進一步給出了基于PAC 理論的協同訓練的泛化誤差界,證明兩個模態的一致性是單模態模型性能的上界.考慮到條件獨立假設過強,因此文獻[27,28]等工作進一步放松該假設,并給出相應的泛化誤差理論證明.
相對于互補性準則,一致性準則旨在最大化兩個不同模態的一致性.假設數據集X包含兩個模態X1和X2,文獻[29]證明兩個模態的一致性和單模態錯誤率之間的關聯為

依據上式可以得出兩個獨立模態模型不一致的概率是單模態模型最大錯誤率的上界.因此,通過最小化兩個模態模型的不一致,每個模態模型的錯誤率將被最小化.殊途同歸,可以看出,互補性本質上也是一致性的一個變種.
2.2.1 Co-training
Co-training[1]假設樣本有兩個條件獨立的模態,給定L個有標記樣本和U個無標記樣本,Co-training 采用如下迭代訓練方式.
Step 1.無放回地從無標記數據集U構造數據池U';
Step 2.分別用兩個模態X1和X2的有標記數據訓練兩個樸素貝葉斯學習器(可替換其他弱學習器)h1和h2;
Step 3.每個模態用訓練好的學習器在U'中為本模態挑選p個最置信正例和n個最置信負例的無標記樣本,標上偽標記加到L中重訓練.從而X1可以獲得X2互補的信息,X2也可以獲得X1互補的信息;
Step 4.從U中重新填充2p+2n個樣本到數據池U'.
2.2.2 Deep co-trade
基于集成學習的思想,文獻[4]提出Co-trade 算法.該算法首先對有標記數據進行可重復取樣得到3 個訓練集并訓練3 個對應的學習器,且在協同訓練的過程中,每個學習器獲得的新數據集合都是通過其他兩個學習器投票得到.同時,隨著深度網絡的成功應用,文獻[30]基于Co-trade 的思想提出了Tri-net.如圖3 所示,Tri-net 首先對訓練數據用不同大小的卷積核構造3 個不同的訓練集,并且采用Output smearing 技術(對訓練集的真實標記加入隨機噪聲)來構造差異性更大的無標記數據.隨后采用Tri-training[31]的思想對無標記數據預測標記并帶回訓練集重新訓練.

Fig.3 The illustration of Tri-net,which utilizes multiple classifiers for ensemble[30]圖3 Tri-net 示意圖[30].采用多個學習器集成學習
而當擴展到兩模態以上的場景時,Tri-net 也可以衍生出很多變種,包括:(1) 為每個模態建立學習器,再采用集成思想結合其他模態學習器為當前模態的無標記數據投票得到新標記;(2) 為每個模態基于Tri-training 思想建立多個學習器,再用兩層的堆疊(stacking)技術為無標記數據投票得到新標記.
2.2.3 ECMSC
不難看出,傳統協同訓練方法局限于運用標記相互教學,仍屬于潛在的標記一致,缺乏學習量化模態間的互補信息.因此,文獻[10]提出一種新穎的多模態聚類方法ECMSC(exclusivity-consistency regularized multi-view subspace clustering),ECMSC 兼顧多模態特征表示的差異性和聚類指示矩陣的一致性,其新穎點在于使用了差異化正則凸顯模態的互補信息.差異性可通過如下矩陣Hadamard 乘積來定義.
定義1.兩個矩陣U∈?n×n和V∈?n×n之間的差異性定義為 H(U,V)=||U⊙V||0=∑i,j(u ij·vij≠0),其中,⊙表示Hadamard 乘積(對應位相乘),|| ·|0| 表示 ?0范數.
?0范數可以放松到 ?1范數,于是兩個模態聚類結果的差異性可以表示為 H(Z v,Zw)=||Z v·Zw||1.
每個模態聚類指示矩陣和潛在一致的聚類指示矩陣的關聯可以延用以往常用的約束,具體為

將定義1 中的差異性正則擴展到多模態譜聚類中,新模型表示為

其中,||Zv||1的作用是保證稀疏性,約束項中每個模態的聚類指示矩陣則可以看成字典學習的表示形式,噪聲損失項則采用 ?1范數來處理稀疏噪聲.
該模型的本質思想也是一種對抗學習,一方面希望體現不同模態的差異性(第2 項),另一方面則希望單模態的聚類指示函數與潛在真實的聚類指示矩陣一致(第3 項).在優化方面,ECMSC 也可以采用ADMM 進行并行優化.值得注意的是,第2 項的差異正則實質上可以采用很多其他形式,如HSIC 等.
基于一致性準則的方法可以分為:(1) 約束模態預測一致性;(2) 約束模態特征表示的一致性.
2.3.1 Co-regularization
半監督學習方法協同正則化(co-regularization)[5]考慮預測的一致性約束.具體地,給定少量有標記數據(xi,yi)和大量的無標記數據(xj),協同正則化為每一個模態學習一個最優學習器:

其中,f1∈H1,f2∈H2,分別是兩個模態的學習器,H1和H2是兩個模態的假設空間.計算兩個模態預測集成結果和真實結果的損失.不失一般性,?一般取平方損失,即運用RKHS 范數度量模型c的復雜度.起關鍵作用的最后一項則是強制不同模態在無監督數據上的一致性,Nl和Nu是有標記數據和無標記數據的大小.文獻[32]證明,通過度量兩個函數類的“距離”可以約束無標記數據的一致性,進而降低Rademacher 的復雜度.測試階段,樣本預測結果為

2.3.2 DCCA
典型性相關分析CCA(canonical correlation analysis)[8]則是約束模態特征表示的一致性.具體地,對于X1∈兩個模態數據,每個模態學習投影向量將兩個模態投影到相同維度的子空間,并最大化兩者投影后特征間的相關系數:

因為對ω1和ω2具有伸縮不變性,CCA 等價為

而ω1和ω2也可以通過求解廣義特征值問題的最大特征值對應的特征向量而得到:

其中,μ是特征向量1ω的特征值,2ω也可以類似求得.文獻[46]則將CCA 擴展面向多模態的多重集典型相關分析MCCA(multiple CCA),并利用多核稀疏保持投影有效擴展為多模態場景.值得注意的是,MCCA 采用兩兩模態關聯加和形式.考慮到神經網絡強大的非線性表示能力,文獻[33]提出了DCCA(deep CCA),如圖4 所示,DCCA為每個模態分別建立單獨的神經網絡進行特征學習,再將不同模態的特征輸出線性投影到共享子空間,最大化模態間的相關性,具體表示為

其中,f1和f2表示各模態的神經網絡,θ1和θ2是其對應的網絡參數.特別地,文獻[33]的實驗發現,全量數據的L-BFGS 二階優化效果遠好于批量數據的一階隨機優化,說明優化過程中采樣數據的大小與相關性計算有著密切的聯系.

Fig.4 The illustration of DCCA,which combines the CCA and deep networks[33]圖4 DCCA 框架[33].該方法結合CCA 思想和深度模型框架
進一步地,DCCAE(deep auto-encoder CCA)[34]綜合考慮了自編碼網絡和DCCA 思想,相應的模型表示如下:

2.3.3 MDL
文獻[35]提出了基于模態隱空間表示一致的多模態深度網絡MDL(multi-modal deep learning),如圖5 所示.MDL 在訓練階段利用深度網絡學習不同模態在同一子空間共享的隱含表示,再重構不同模態的原始輸入.圖5左圖所示為單模態輸入重構多模態,右圖所示為多模態輸入重構多模態.值得注意的是,MDL 共享隱空間表示學習可以自然地擴展為兩模態以上的多模態表示學習,無需像子空間表示學習方法那樣兩兩加和擴展為多模態場景.

Fig.5 The illustration of MDL,which employs deep auto-encoder for representation learning[35]圖5 MDL 框架[35].該方法考慮深度自動編碼網路進行模態隱空間表示學習
本節介紹了基于互補性和一致性準則的傳統多模態學習方法.萬變不離其宗,這兩類多模態學習方法都利用了模態間的強相關性:(1) 標記預測的強相關性.協同訓練類型方法利用潛在一致的偽標記進行互補教學,協同正則化方法利用各模態對齊無標記數據預測的一致性作為正則化項;(2) 特征表示的強相關性.子空間特征約束和隱空間特征約束方法均考慮了各模態數據相同維度特征表示的相關性度量,其中,隱空間特征學習方法可有效擴展為多模態場景,而其他方法則需兩兩度量.
針對傳統的聚類、分類等任務,多模態較之單模態可提供更具判別性的特征表示,其思路可類比于單模態集成學習中的特征抽樣、單模態半監督學習中的數據增廣,從而在特征層面為樣本提供更加豐富的表示.基于模態間強相關性有效地利用各模態無標記數據,進而可有效地提升聚類、分類的集成性能.在聚類、分類任務中,互補性和一致性體現為特征的互補性和標記的一致性,二者相輔相成.另一方面,針對多模態特有的跨模態檢索、描述、問答等任務,其需要構建跨模態特征嵌入間的映射關聯,這類多模態學習則更注重特征表示的強相關性應用,對互補性考慮較少.
在開放環境下,各模態的信息差異性較大,呈現出不均衡性,其強相關性很難保證,致使傳統的多模態學習方法面臨著巨大挑戰.本節首先指出不均衡多模態數據凸顯的表示強弱不一致和對齊關聯不一致兩大挑戰,之后具體介紹針對這些挑戰目前有關可靠多模態學習方法的最新研究進展.
開放環境下,噪音、自身缺陷等因素會導致模態的不充分,進而產生模態間的差異性.如圖6 所示,圖文對出現不同程度的不匹配現象.

Fig.6 The inconsistent multi-modal data,in which the image-text pairs have inconsistency problem圖6 表示強弱不一致的數據.圖文對呈現不同程度的不匹配問題
可見,數據的各模態所有擁有的信息呈現差異性,具有強弱之分.又如身份識別中指紋信息更豐富,而受遮擋的人臉信息較難區分;病理檢測中核磁共振圖像能夠提供更有效的病理結構,而X 光檢測提供信息較為局限.因此,針對表示強弱不一致的多模態數據,目前研究主要分為3 類:(1) 模態表示不一致的異常點檢測.較之單模態異常點檢測,多模態異常點檢測更為復雜,擁有額外的模態不一致屬性的異常點,需設計更魯棒的多模態不一致度量.為此,第3.2.1 節和第3.2.2 節將給出具體介紹;(2) 模態表示不一致的輔助學習.模態信息差異導致強弱之分,而強模態的收集代價通常比弱模態更加昂貴,為了有效減少數據收集開銷,需利用強模態在訓練階段輔助弱模態建模,進而在測試階段僅需弱模態即可預測.為此,第3.2.3 節和第3.2.4 節將具體加以介紹;(3) 模態表示不一致的加權融合.更一般的場景是不同樣本的模態強弱也不盡相同,模態強弱存在自適應性,需自主地學習各樣本不同模態的權重,進行加權融合.為此,第3.2.5 節和第3.2.6 節將具體給出介紹.
此外,傳統多模態學習中模態的對齊關聯是事先給定的,樣本擁有全量的多模態數據.然而,考慮到深度學習通常需要大量的數據進行訓練,而擁有大規模標注對齊的多模態數據十分困難.現實應用中多模態數據出現對齊關系不一致現象,如圖7 所示:(1) 樣本模態出現缺失問題,即僅少量樣本擁有全量模態;(2) 樣本僅擁有非平行模態信息,即對齊關聯缺失.

Fig.7 The non-parallel multi-modal data,in which the data exists modality or alignment missing圖7 對齊關聯不一致的數據.數據出現模態缺失或對齊關系缺失
針對對齊關系不一致的多模態數據,目前的研究方法主要分為兩類:(1) 缺失多模態學習.此類方法主要考慮如何利用現有的多模態數據進行跨模態補齊,并進行后續聚類、分類操作.第3.3.1 節和第3.3.2 節將具體加以介紹;(2) 非平行多模態學習.此類方法主要考慮如何利用潛在一致的標記信息建立模態間隱含關聯,進行輔助學習、跨模態映射.第3.3.3 節和第3.3.4 節將具體給出介紹.
3.2.1 MVAD
文獻[21]提出概率隱變量模型MVAD(multi-view anomaly detection)來檢測模態不一致的異常點.MVAD 假設所有一致的樣本是由單個隱向量生成,而異常點則由不同隱向量生成.通過狄利克雷過程先驗(Dirichlet process priors)可以推斷每個樣本隱向量的個數,進而獲得每個樣本異常的概率.如圖8 所示,對于多模態樣本X的生成過程如下所示.
Step 1.刻畫參數α~Gamma(a,b);
Step 2.對每個樣本n=1,2,...,N
(a) 刻畫混合權重θn~Stick(γ);
(b) 對每個隱向量:j=1,2,...,∞:刻畫一個隱向量znj~N(0,(αr)-1I)
(c) 對每個視圖:d=1,2,...,D
刻畫一個隱向量分配snd~Discrete(θn)

Fig.8 The illustration of MVAD,which aims to detect inconsistent outliers[21]圖8 MVAD 框架[21].該方法利用概率隱變量模型檢測模態不一致異常點
其中,Stick()γ是折棍子過程(stick-breaking)[36],可以利用參數γ為狄利克雷過程生成混合權重,r是對隱向量表示的關聯預測.α共享于觀測值和隱向量預測.圖8 陰影部分和非陰影部分分別表示觀測值和隱變量.整體框架可以看成魯棒概率典型性相關分析對模態不一致異常點檢測的擴展,可運用隨機EM 算法進行貝葉斯推斷.
3.2.2 DRUMN
文獻[37]基于迭代訓練錯誤率提出一種魯棒無監督多模態深度網絡DRUMN(deep robust unsupervised multi-modal network).傳統的基于模態權重檢測多模態異常點的方法存在兩個弊端:(1) 檢測閾值需預先設定且固定不變,不能隨學習過程自適應調節;(2) 考慮模態兩兩配對檢測,閾值隨模態個數的增多而呈指數增長.為了解決上述問題,DRUMN 考慮自適應地為各模態樣本及模態對加權.其首先采用能量模型RBM(restricted Boltzmann machine)[38]作為特征學習網絡.具體表示為



其中,C()· 表示互信息函數,且模態不一致樣本較大.最終的優化函數表示為

總體上,DRUMN 利用各模態的自編碼(auto-encoder)網絡結構處理模態缺失樣本,同時用能量模型自適應地估計樣本權重處理模態不一致的樣本,進而減小多模態異常點對訓練帶來的干擾.
3.2.3 ICo-training
針對強弱模態輔助學習,文獻[16]證明,模態不充分條件下,Co-training 適用的理論分析:兩個模態預測置信度的差異性較大,Co-training 在模態信息不充分的條件下仍然能夠通過利用無標記數據提升學習器性能,并提出一種基于大間隔算法ICo-training.
Step 1.無放回地從無標記數據U構造大小為u的數據池U';
Step 2.分別運用兩個模態X1和X2的有標記數據訓練兩個學習器h1和h2;
Step 3.每個模態用訓練好的學習器在U'中本模態無標記樣本中挑選p個最置信的正例和n個最置信的負例,挑選最置信的樣本需要預測概率大于設定的閾值;
Step 4.標上偽標記加到L中重訓練.
不難發現,隨著學習器性能的變化,設定的閾值也應發生變化.為此,文獻[16]進一步提出了基于迭代間隔的ICo-training 算法,迭代的閾值表示為

3.2.4 ARM
但上述方法仍需手動設定閾值參數來挑選樣本.為此,文獻[20]提出了ARM(auxiliary regularized machine)方法,旨在訓練階段利用強模態學習器輔助弱模態進行有效的特征抽取.ARM 利用先驗知識,將模態分為強模態和弱模態兩個模態,并分別建立學習器,同時利用強模態的預測和弱模態的鄰接矩陣構造流形正則項,起到強模態輔助弱模態的作用.ARM 模型表示如下:

3.2.5 RMVC
在模態不充分場景下,傳統多模態聚類會產生性能退化現象.為此,文獻[40]提出了可靠多模態聚類方法RMVC(reliable multi-view clustering),自適應地為不同候選聚類結果學習相應的權重,并最大化最優單模態在最壞聚類設定下的信息增益,以此提高多模態集成聚類的性能.該方法先提出χ2距離,度量不同聚類指示矩陣(K1和K2可不相等)的差異:


其中,α服從單純型,為待優化的潛在聚類結果.是預先獲得的單模態聚類結果,Yi是運行m個多模態聚類算法獲得的m個聚類結果.Y0等價于所有單模態聚類結果中最優的聚類結果.分開看,這一項可確定每種多模態聚類效果的權重αi.而最大化-相當于對m個多模態聚類的集成學習,可以看出,最終的聚類結果與Yi密切相關,文獻[40]證明了如下結論:若最優聚類結果屬于Yi,那么優化得到的聚類結果肯定優于單模態的聚類結果.
3.2.6 CMML
針對分類任務,文獻[41]提出了半監督多模態學習方法CMML(comprehensive multi-modal learning),其利用注意力機制自適應地為每個樣本的不同模態學習相應的權重,并提出差異性度量和魯棒一致性度量來體現模態間的互補性,并進行自適應加權融合.充分性度量表示為

其中,fj(·)是每個模態的學習器,這里表示為深度網絡,表示第i個樣本的第j個模態的權重,h(·)是額外的注意力神經網絡,如兩層淺層全連接網絡.
差異性度量可表示為



該方法借用圖像、文本領域常用的注意力機制,自適應地為每個模態學習相應的權重進行加權融合,從而有效緩解模態不均衡帶來的弱相關問題.
3.3.1 PVC
在模態缺失情況下,若直接應用現有的多模態方法,則必須丟棄模態缺失的樣本或先補全缺失模態特征,這會丟失有效信息或引入額外噪聲.為此,文獻[17]提出了PVC(partial view clustering)方法對模態缺失樣本進行聚類.不同于傳統多模態方法優化投影矩陣將不同模態投影到同維度子空間表示,PVC 基于字典學習將子空間表示也作為優化變量投影回各模態的原始表示空間,再利用優化得到的子空間表示進行聚類:

3.3.2 SLIM
考慮利用對齊的無缺失模態樣本信息輔助缺失模態進行學習,文獻[43]提出半監督多模態學習方法SLIM(semi-supervised learning with incomplete modalities).SLIM 有效地利用數據預測的潛在一致性,利用預測概率補全各模態的相似性矩陣,從而在統一的框架中為每個模態學習單獨的學習器和所有未標記樣本的聚類學習器,進而可以同時進行分類和聚類任務:

kb∈R是當前預測的偏差,1 是一個全1 向量,⊙表示對應元素的點乘算子,是指示矩陣,其中,表示第i個示例的第k個模態上完整,否則,在多類情況下,xi的標簽yi擴展為一個C維的向量,其中,表示第i個示例為第j個標簽,否則,類似地,F∈RN×C表示所有示例的預測標記,ηk是第k個模態的完整樣本的個數.Mk∈RN×N是第k個模態的相似度矩陣.表示第i個樣本和第j個樣本的第k個模態完整,否則為0.其中,第3 項進一步采用平方根損失函數代替方程中的最小二乘函數,減少了噪音數據的影響.亦即,此項等價于一個加權正則化的最小二乘形式,其中,每個模態的權重為進而可以通過考慮所有模態的不同噪聲水平來校準每個模態.最終,SLIM 利用模態的一致性來補全各模態缺失的相似性矩陣,從而獲得潛在一致的預測矩陣F.
3.3.3 DeVise
針對模態對齊關聯缺失問題,文獻[18]提出一種啟發式輔助學習方法 DeVise(deep visual-semantic embedding model).具體地,DeVise 在訓練圖片模型時隨機抽樣文本模態的異類樣本構造三元組損失函數以輔助圖片深度網絡訓練,利用文本基模型獲得的特征嵌入輔助圖片縮小類內距離,擴大類間距離.最終可以利用文本模態樣本增廣訓練數據,從而減少圖片訓練樣本的數量.具體公式如下:

其中,margin是人為定義的距離參數,elabel是標記的語義表示,eimage是圖片的特征嵌入表示,M是映射矩陣,etext是文本模態的特征表示.值得注意的是,該方法無需模態間的對齊關聯,僅利用標記一致性進行樣本挑選,適用于分類等任務,而針對面向模態樣本對齊的跨模態檢索等任務則效果甚微.
3.3.4 SCML
針對模態對齊關聯缺失下的跨模態檢索問題,文獻[44]提出SCML(sequential cross-modal learning),該方法基于共享預測模型的序列化訓練方式進行多模態模型聯合訓練,進而利用共享模型挖掘跨模態潛在一致的特征表示.
如圖9 所示,該方法基于共享預測模型進行序列化訓練,通過保證共享模型性能不下降而獲得模態間潛在一致的特征嵌入.SCML 首先訓練單模態模型P1(S)和共享模型S,再固定共享模型S 訓練單模態模型P2,此步固定S 旨在防止S 對P1 學到知識的遺忘.而后,僅利用少量的P1 和P2 數據訓練元學習器M,這一步是為了利用元學習器更新共享S,進一步獲得潛在一致的語義表示.值得注意的是,SCML 訓練共享模型使得各模態預測性能不下降這一思路,以此獲得跨模態潛在一致的映射關聯,但這并不是樣本級別的映射關聯,因此該方法在NDCG 指標中性能較好,而在Rank 指標中性能較差.

Fig.9 The illustration of SCML[44]圖9 SCML 框架[44]
本節主要介紹了針對不均衡多模態數據所提出的可靠多模態學習方法.考慮模態表示強弱不一致的方法主要思考如何有效度量模態的不一致性,并考慮利用性能優異的模態進行輔助學習.而考慮模態對齊關聯不一致的方法主要考慮如何緩解模態缺失的影響,補齊模態缺失數據.而面向關聯缺失的方法主要思考如何學習并利用模態間潛在一致的關聯性,如標記關聯.但目前仍有諸多挑戰有待解決:(1) 模態不充分性度量[45].目前,強弱模態是靠訓練數據的性能或者先驗知識來確定,且絕大多數方法局限于兩模態.如何更有效地界定模態的不充分性,并度量更細粒度的樣本級別的模態不充分性還有待研究;(2) 模態缺失數據處理.目前,對于模態缺失問題的處理實質上是對樣本缺失模態僅作為單模態來處理,如何利用樣本無缺失的模態對缺失的模態進行有效操作還有待研究;(3) 非平行多模態學習.目前,針對模態關聯缺失的方法大多為啟發式方法,如何有效地擴展為僅利用少量對齊數據進行對齊標簽傳播還有待研究.
多模態學習近些年受到廣泛關注并擁有諸多實際應用.傳統多模態學習方法面向真實不均衡多模態數據會出現性能退化甚至低于單模態性能,這通常歸結于模態表示強弱的不一致和模態對齊關聯的不一致問題.為此,可靠多模態學習被提了出來,針對上述兩個挑戰的可靠多模態學習體現較之傳統多模態學習具有更優異的性能.未來,我們認為還存在如下幾方面的挑戰:(1) 針對表示不一致的可解釋性研究.目前的方法大多局限于基于各模態最終的特征嵌入進行不一致的度量及后續處理,缺乏考慮導致模態間不一致的因素,如局部區域信息的不一致性.如何利用多示例學習細粒度刻畫各模態樣本,并結合諸如圖模型解釋模態不一致具有巨大的研究前景和廣闊的應用價值;(2) 針對關聯不一致的隱關聯學習.目前的方法大多還是啟發式方法,在模態對齊映射學習過程中可能引入額外的噪聲,如何利用少量的對齊模態數據初始化模態間的映射函數,并利用非平行數據結合對偶學習或循環生成網絡進一步加以訓練值得研究;(3) 動態環境下的多模態學習.當前多模態學習大多是靜態的,即給定訓練集訓練模型并在測試集中加以驗證,而現實環境是動態變化的,流式數據具有分布變化、特征增廣、新類檢測等問題,如何將現有的多模態學習擴展到動態環境下值得研究.