潘夢竹,李千目,邱 天
南京理工大學 計算機科學與工程學院,南京210094
為傳遞關于對象的全部信息,在文字、圖像、視頻等多種媒介中記錄了相同對象的不同層面的信息。在表示學習領域,“模態”是一種特殊的方法或機制,用于對信息進行編碼。所以,以上所列舉的各種媒介都是指模態,對于包含多種模態數據的表達學習,則可以稱之為多模態表示學習。
由于多模態數據從不同的視角來描述物體,往往具有相輔相成的特點,因此其所能提供的信息要多于單模態數據。因此,利用多個模態所提供的綜合語義具有重要的意義。多模態表示學習包括對多模態數據的表示(或特征)的學習,當開發預測模型時,這些表示(或特征)可以幫助提取有用的信息。由于機器學習和深度學習的表現非常依賴于數據表示能力,所以多模態表示學習是一種極具應用前景的研究領域。
因為不同模態的特征向量一開始就位于不同的空間,相似的語義向量表示就不一樣,這就是所謂的“異質差異”,會阻礙后續機器學習模型更好地利用多模態數據。如圖1所示,一種流行方法是把不同類型的特征映射到一個公共子空間,在該子空間中,若多模態數據語義相似,那么在該子空間的向量表示也類似[1]。因此,多模態表達學習的目標減少公共語義子空間中的分布差異,并且盡可能不損壞語義的完整性。

圖1 公共子空間示意圖Fig.1 Schematic diagram of common subspace
近年來,由于強大的表示能力,深度學習廣泛應用于計算機視覺、自然語言處理和語音識別等領域[2]。另外,深度學習的一個重要優點是,它可以通過一般的學習流程從訓練集包含的有限特征中推斷新的特征。在此基礎上,深度多模態表示學習作為單模態表示學習的進一步延伸,近年來得到了普遍關注。多模態深度學習旨在建立能夠處理和關聯來自多模態信息的模型。從早期的自然語言處理、視聽語音識別研究到如今對語言和視覺模型的廣泛關注,多模態深度表示學習是一個充滿前景的多學科領域,是未來研究的熱點。
本文綜合分析了深度多模態表示學習的發展,并指出了今后的發展趨勢。本文的重點是在多模態應用場景中,如何有效地減少異質差異,并使其具有一定的語義完整性。雖然已經有許多學者提出了大量的表示學習方法以探索不同模態間的相關性、獨立性和共享性,以提高深度學習預測和泛化性能。然而,多模態表示學習研究還處于初級階段,依然存在大量的科學問題尚需解決。并且,不同的學者研究多模態表示學習的角度不同,所提出的表示學習方法也各有側重。迄今為止,多模態表示學習仍缺乏統一的認知,多模態表示學習研究的體系結構和評價指標尚不完全明確。根據不同模態的底層結構,如圖2所示,本文將表示方法分為兩種框架:聯合表示、協調表示。此外,基于廣泛的文獻調查和分析,還提出了兩大類多視角表征學習:多模態表示融合、多模態表征對齊,這兩種策略都試圖利用包含在多個模態中的互補知識來全面表示數據。之后,本文總結了兩類多模態表征學習的一些典型模型,包括深度玻爾茲曼機(DBM)、多模態自動編碼器、生成對抗網絡(GAN)、注意力機制和深度跨模態嵌入模型、深度典型相關分析(DCCA)。
本章先簡單介紹聯合表示和協調表示這兩個框架的概念和優缺點,以及多模態表示融合和多模態表示對齊的內涵和主要方法,第二、三章節會詳細闡述圍繞多模態表示融合和多模態表示對齊的主要架構和擴展模型。
由于不同模態的特征結構、語義信息和表示能力不同,模型對不同模態特征不具有兼容性。聯合表示作為一種融合多模態特征的方法,旨在將模態的單峰表示同時投射到多峰空間中。聯合表示獨立編碼每個模態特征,并將所有模態特征投影到一個共享子空間中,從中提取表示融合特征的單個向量,如圖2(a)所示。聯合表示的公式如下:

圖2 關于深度多模態表示的兩種框架Fig.2 Two frameworks for deep multimodal representation

其中,f為單峰表示函數,只輸出唯一的向量表示,常見的模型包括深度神經網絡、受限玻爾茲曼機器或遞歸神經網絡等,x1,x2,…,xn為模態的多峰表示。
聯合表示由于無需明確協調模態,對多種異質模態的模型兼具適應性。除此之外,共享子空間的模態一般是固定的,模態知識的轉移過程也基本固定。然而,聯合表示的主要缺點是它不能推斷出每個模態的獨立表示。
協調表示作為多模態學習中另一種主流方法,旨在為每種模態學習單獨地表示,并通過添加約束來協調它們,如圖2(b)所示。由于不同模態包含的信息結構和濃度不同,每個模態均具有獨有的特定特征,分離表示能最大化保留其獨立性。協調表示公式如下所示:
f(x1)~g(x2) (2)其中,每個模態特征通過相應的投影函數f投影到多模態空間g。從多模態空間角度來看,盡管每個模態的投影過程相互無關,但在空間中可以利用如最小化余弦距離[3]、最大化相關性[4]等方法,使模態之間相互協調。
協調表示在每種模態中保留獨特且有用的特定模態特征[5],且不同的模態編碼網絡相互分離,推斷過程獨立無關,因此很適合跨模態遷移學習的場景。不過協調表示的缺點是,在絕大多數情況下,想要同時學習兩種以上模態的表示是困難的。
多模態表示融合指的是利用多個模態中包含的互補知識,將多個模態的數據集成到單個表示中,綜合表示數據。給定兩個模態的數據集X和Y,多模態表示融合公式如下:

其中,h表示集成的單個表示,?為具體的映射函數。
早期的多模態深度學習研究主要是面向如支持向量機[6]和樸素貝葉斯[7]的淺層分類器。隨著深度學習在各種任務中取得顯著效果,其強大的非線性表示能力被用于多模態表示。Ngiam等人[8]訓練了一個端到端深度圖神經網絡以在推理時重建缺失的模態。他們在訓練時結合不同模態的相關數據,學習到了更具代表性的模態特征。但Ngiam的方法在模態融合時只使用了簡單的連接,以致聯合表示只能學習淺層知識,忽略了模態間的連接關系。Srivastava等人[9]用數學推理驗證了上述問題,改用深度玻爾茲曼機從圖像和文本模態生成/映射數據。最近,基于注意力機制[10]和多模態自動編碼器[11]的模型被提出,模型首先學習每個模態各自的隱含層特征,然后將它們集成到單個表示中去,最大化保留共有和獨有的特征。
多模態表示對齊指的是通過函數變化,將模態的原始空間轉換為具有特定約束的多模態對齊空間。給定兩個模態的數據集X和Y,多模態表示對齊公式如下:

其中,每個模態通過一個嵌入函數f將原始空間映射到一個對齊空間g,?表示對齊符號。采用L2范數度量數據在原始空間和對齊空間的距離,公式如式(5)所示:

其中,xi和yi表示原始空間中的第i對表示。
Li等人[12]通過擴展這種對齊約束提出了交叉模態因子分析方法(CFA),優化公式如式(6)所示:

其中,rx和ry是正則化項,Wx和Wy為正交變換矩陣。
基于相似性的對齊旨在度量原始向量與映射向量間的相似性。Frome等人[3]提出了一種深層視覺語義嵌入模型,通過最大化視覺輸出和正確標簽表示之間的點積與視覺輸出和其他隨機選擇的文本概念之間的點積的差,來學習對齊空間,優化公式如式(7)所示:

其中,vimg是給定圖像的嵌入向量,tl是文本標簽的嵌入向量,tj是其他文本項的嵌入向量,S(·)為向量相似性度量函數。
此外,Karpath和Li[13]開發了一個深度跨模態對齊模型,該模型通過多模態嵌入空間和基于相似性的結構化目標,將句子片段和它們描述的圖像區域關聯起來。
基于相關性的對齊旨在最大化多個不同模態之間的變量相關性。Hotelling[14]基于典型相關分析方法(CCA)找到線性投影wx和wy,使不同模態的對應樣本在投影空間中相關性最大,優化公式如式(8)所示:

其中,corr(·)表示和之間的樣本對應函數。通過最大化投影空間中模態特征的相關性,得出兩組特征變量的基向量,并將基向量應用于兩個模態數據,獲得深度嵌入向量。
本章將介紹具有代表性的多模態數據融合深度學習模型,根據所使用的深度學習架構,把它們分為四類:深度玻爾茲曼機器和生成對抗網絡、多模態自動編碼器和注意力機制,以證明深度多模態融合表示的表達能力。
在深度表示學習領域,最流行的基于圖形模型的表示方法是深度玻爾茲曼機(DBM)[15],它由受限玻爾茲曼機(RBM)[16]堆疊而成的。受限玻爾茲曼機器(RBM)是一種對稱全連接的兩層神經網絡結構,可以從數據集中學習概率分布。該模型由可見層v與隱藏層h組成,其中每個節點的狀態為二值變量,即?i,j,vi∈{0,1},hj∈{0,1}。假設RBM有n個可見節點和m個隱藏節點,對于一組給定狀態(v,h),尋求最小化能量函數:

式中,θ是RBM模型參數。因此,基于能量函數,可以得到(v,h)聯合概率密度分布定義如下:

其中,Z(θ)為歸一化因子即所有可能情況下的能量和,概率的形成就是某一個狀態的能量除以總的可能狀態能量和。
深度玻爾茲曼機(DBM)是一個包含可見層v和一組隱藏層序列{h(1),h(2),…,h(L)}的生成網絡,以沒有偏置參數的兩個隱藏層DBM為例,DBM的能量函數為:

其中,{h(1),h(2)}表示兩層隱藏單元的狀態,θ={W(1),W(2)}表示兩層單元連接權值。
Srivastava和Salakhutdinov[9]已將多模態深度信念網絡擴展到多模態DBM。多模態DBM可以利用隱藏單元的二進制層將兩個或更多的無向圖結合起來,從而從多個模態中學習聯合表示。因為模型是無向的,所以在聯合訓練之后,每個模態的初級表達都可以互相影響。
將DBM模型應用于圖像和文本跨模態檢索的工作中,該模型可以從多種模態輸入數據中學習一個統一的向量表示,它通過學習多模態數據在同一個空間中的概率密度分布來實現特征融合,根據學習到的統一向量表示,模型可以根據多模態數據的概率密度分布來重建某一缺失的模態數據。
多模態DBM已被廣泛用于多模態表示學習,Pang和Ngo[17]提議學習一種聯合密度模型,用于在深度多模態波爾茲曼機器上對用戶生成的視頻進行情感預測。這種多模態DBM被用來模擬視覺、聽覺和文本特征的聯合分布。在這里,高斯RBM用于建模視覺和聽覺特征的分布,并應用復制的softmax主題模型用于挖掘文本特征。
而在最近的研究中,Choi等人[18]基于多模態DBM提出新穎的框架,使用多模態方法幫助用戶搜索字體數據集,共同學習字體的視覺特征和生成標簽之間的相關性。利用DBM的無監督生成特性,提出的框架不僅可以重構相關字體的標簽,還可以擴展原始標簽之外的概念,以實現更好的字體搜索輔助。
Liu等人[19]基于DBM提出了一個學習興趣社交網絡中帖子的多模態聯合表示框架,框架使用特定的CNN和訓練好的Word2Vec模型[20]分別提取帖子的圖像特征和文本特征,最后使用多模態DBM模型融合圖像和文本特征得到以最后隱藏層的激活概率為期望的聯合表示。獲得帖子的聯合表示后,通過實驗證明了針對不同的推薦任務(如帖子的類別預測、帖子推薦等),該方法相比于其他基于多峰的推薦方法更加有效。
使用多模態DBM學習多模態表示的一個優點是生成性,它可以使用簡單方法處理一整個模態數據缺失的問題。如果有一種模態數據存在,該模型還可以用來產生其他模態的數據。它還可以使用未標記的數據以無監督的方式訓練。DBM最大的缺陷就是很難對其進行訓練,這不僅耗費大量的計算量,學習過程算法復雜度過高,而且還要求采用接近變分的訓練方法。因此很難有效地應用在大規模的推理問題中。
生成對抗網絡(GAN)是一種新興的深度學習技術,是一種無需標簽就能學習數據表示的無監督方法,極大地減少了對對手動評注的依賴性。此外,它還能根據訓練數據的分布生成新的高質量樣本。在Goodfellow等人[21]提出后,生成對抗學習已經在不同的單峰應用中得到了成功的運用。最近,生成對抗學習策略進一步拓展到多模態場景,例如文本到圖像合成、視覺字幕、跨模態檢索[22]、跨模態翻譯[23]、多模態特征融合[24]。在本節中,本文將簡要介紹GAN的基本概念并探討其在多模態表示學習中的作用。
一般情況下,生成對抗網絡包括生成網絡G作為生成器,判別網絡D作為判別器,兩者相互競爭。生成器根據訓練集的數據特征,在判別器的引導下,盡可能地將隨機噪聲分布與訓練數據的實際分布相擬合,以產生與訓練集相似的對象。而判別器則是為了區別輸入的數據是否為生成器所產生的假樣本,并將其反饋到生成器中兩種網絡進行交互訓練,直至生成網絡產生的數據能以假亂真。通常,兩個網絡都是通過深度神經網絡實現的。

GAN的訓練優化目標是式(12)的解,其中函數V(G,D)表示的是生成樣本和真實樣本的差異,是判別器D的交叉熵損失。在訓練過程中,G和D將在迭代范式中更新,在第一步中,生成器固定的情況下,通過最大化交叉熵損失V(G,D)來更新判別器D的參數。在第二步中,生成器要在判別器最大化交叉熵損失V(G,D)的情況下,最小化這個交叉熵損失。
最近,生成對抗學習策略已擴展到多模態表示案例,受多模態深度學習(MDL)和生成對抗網絡(GAN)近期成功的啟發,Sahu等人[25]提出了一個對抗激勵學習期望的有條件分配的培訓制度。對于更有挑戰性的生成任務,如情緒識別,目標是一個言論的情感。該模型可以學習更復雜的行為,比如根據不同句子的發音相似度和極性來將它們聯系起來。作者提出的GAN-Fusion網絡如圖3所示,假設zs、zv和zt分別是潛在語音、視頻和文本向量,首先自動融合zs和zv以給出ztr。同時,將zt與一些噪聲一起通過生成器G,得到zg。生成器試圖匹配ztr和zg,鑒別器試圖區分ztr和zg這兩個輸入源。GAN-Fusion采用對抗網絡,根據互補模態提供的信息,學習給定目標模態的規范化潛在空間。對多模態機器翻譯和情感識別任務來說,GAN-Fusion這個輕量級自適應網絡可以更好地模擬來自其他模態的上下文。

圖3 GAN-Fusion模塊Fig.3 GAN-Fusion module
在處理大規模城市場景中跨模態數據有限的語義分割問題時,在缺乏足夠且注釋良好的訓練圖像的情況下,常用的深度神經網絡(DNN)方法在多模態中混合不同屬性和從復雜場景中穩健地學習表示的能力有限。Hong等人[26]提出了一種基于GAN驅動的跨模態網絡,稱為SM-GANs,使得在城市場景上的大規模語義分割效果能夠達到更高的精度水平。網絡包括兩個新穎的即插即用單元,(1)自生成對抗網絡(self-GAN)模塊用于穩健地捕獲樣本圖像的“指紋”屬性[27],以抵抗對抗性擾動;(2)mutual-GAN模塊負責將多模態訓練對放到數據均勻分布的聯合特征空間中,從而得到更好的模態融合,產生更有效和穩健的信息傳輸。給出兩個模態的第l層輸入特征,分別用zi,l和zj,l來表示,其在第l+1層上的表示如下:

其中,fx,y表示第y層中第x個模態的前向傳播函數(生成器)。然后,判別器Di,j用于強制多模態輸出分布一致。mutual-GAN的架構如圖4所示。
在跨模態翻譯領域,以文本到圖像的合成為例,關鍵挑戰是如何學習到重要的視覺細節的文本特征表達,并使用這些特征來合成對應的圖片。為了解決這個問題,Reed等人[28]提出了一種端到端架構來訓練文本編碼器。如圖5所示,在該模型中,文本輸入被編碼為向量T,然后將文本向量T與噪聲向量Z一起翻譯成圖像,然后判別器將判斷文本向量T與圖像編碼V是否兼容。為了獲得文本描述的視覺判別向量表示,優化目標是結構化損失[29]。
Hinz等人[30]在AttnGAN[31]的基礎上提出OP-GAN模型,該模型添加以對象為中心的修改,顯式地對圖像中的各個對象建模。特征在于,生成器包含三個不同分辨率(16×16,64×64和128×128)的對象路徑,以更高的分辨率進一步細化目標特征。相應地,在三種空間分辨率下使用三種判別器,每個判別器都擁有一個全局路徑和一個對象路徑,并行提取特征。另外,文章還介紹一種新的評估指標,語義對象準確性(SOA),區別于其他大多數評價指標只判斷圖像質量,SOA更關注圖像與其標題之間的一致性。作者在MS-COCO數據集上驗證了提出的模型在所有指標上都優于基準AttnGAN。
2021年,Google提出的跨模態對比生成對抗網絡(XMC-GAN)[32]應用于文本合成圖像任務,該方法為了最大化文本和圖像之間的互信息,將對比學習分別應用于模態內和模態間數據中,并通過跨模態的對比損失使判別器能夠學習樣本中更為關鍵和突出的特征。更重要的是,不同于以往的多級方法(例如OP-GAN就是多階段模型,需要對象邊界框),XMC-GAN僅需要一階段的訓練就可以達到優越的性能,因此模型復雜度相對簡單且不容易造成模態崩潰。并且XMC-GAN圖像的保真度更高,描繪的物體更清晰,場景更連貫,這也適用于更多的隨機樣本。實驗證明XMC-GAN在多個代表數據集上合成的圖像比其他方法的質量更好,且在專家評估和定量指標等各方面都具有顯著的改進。
GAN是一種無監督的生成模型,不僅可以應用于無監督學習或半監督學習領域,還可以產生高質量的新樣本。相比于變分自編碼器中變分方法優化對數似然的下界,需要引入決定性偏置(deterministic bias),而GAN沒有引入任何決定性偏置,這往往導致了GANs生成的實例比VAE更清晰。與深度玻爾茲曼機相比,GAN生成實例的過程只需要模型運行一次,而無需迭代多次。但是GAN不是適合處理類似文本的離散形式數據,并且在訓練容易出現不穩定、梯度消失的問題[33],盡管現在已經有一些方法能夠解決這些問題,但是提高GAN訓練穩定性仍然是一個難題。
自動編碼器[34]是以無監督方式學習特征表示的生成模型,包括編碼器和解碼器兩個結構。編碼器的目標是學習輸入特征良好的隱藏空間表示,解碼器的目標則根據隱藏空間表示重構出原始的輸入特征,并最小化重構損失。因此自動編碼器可以看作一種數據壓縮技術以緊湊的形式獲取和傳輸潛在變量數據。傳統的自動編碼器模型中,自編碼器取輸入向量x∈[0,1]d,首先通過參數化為θ={W,b}的確定性映射y=fθ(x)=s(Wx+b),將其映射到隱藏表示y∈[0,1]h。由此產生的潛在表示y被映射回輸入空間z=gθ(y)=s(W′y+b′)中的一個“重構”向量z∈[0,1]d。因此,每個訓練樣本x(i)被映射到一個對應的y(i)和一個重建z(i)。對模型參數進行優化,使平均重構誤差最小:

自動編碼器的訓練過程中,一些參數的選擇比如隱藏層維度大小對結果有很大的影響,因為自動編碼器最大的特點在于中間影隱藏層的神經元數量很少,起到作用像瓶口一樣,能夠把輸入進行過濾,以高度壓縮的形式進行特征提取,用很少變量表示輸入數據特征,當然隱藏層變量維度不是越小越好,維度太小了重構后的結果可能就和原始輸入差別太大,而維度越大,重構結果一般也就越好。
Ngiam等人使用堆疊式去噪自動編碼器[35]將自動編碼器擴展到多模態設置。他們在增強并有噪聲的音頻和視頻數據集上訓練了一個雙模深度自動編碼器實現多模態表示融合。如圖6所示,首先為音頻和視頻模態各自訓練一個深度自動編碼器,然后使用獨立的自動編碼器層融合各自的表示,捕獲跨模態相關性。根據得到的共享表示,即使輸入只有單一模態,也可以實現每個模態的重構。該模型的優化目標是使兩種模態的重構誤差之和最小。

圖6 雙模自動編碼器模型Fig.6 Bimodal autoencoder model
多模態自動編碼器的學習表示過程可以歸納為兩個階段。第一階段:基于無監督學習提取特定于模態的特征,保留模態內語義關系;第二階段:采用特定的監督學習發現模態間語義相關性。例如,Feng等人[36]提出了對應自動編碼器(Corr-AE)的模型并應用在跨模態檢索領域。該模型為每種模態學習幾個獨立的隱空間表示,通過優化同一模態不同隱空間表示的學習誤差和不同模態間的相關學習誤差,捕獲不同模態間的語義關系。在重構損失最小化的基礎上,盡可能學習相關性最高的共同信息表示。但是Corr-AE構建的基于自編碼器的網絡并不能充分利用復雜的跨媒體相關。
Silberer等人[37]將自動編碼器應用到文本和視覺模態下的語義表示任務中,使用堆棧式自動編碼器(SAE)[38]從文本和可視化輸入中學習更高層次的嵌入。模型的優化目標在考慮重構損失的同時,還加入了預測分類損失,展開堆疊的自動編碼器,并進一步在雙峰潛在空間層上添加softmax輸出層,該層輸出關于輸入對象標簽(例如,船)的預測,確保融合表示能最大化區別不同的分類標簽。
Shen等人[39]提出了專注多模態自編碼器(AMAE)方法應用于音樂推薦任務,該方法設計了一個兩階段的模型訓練過程,在第一階段,通過訓練自動編碼器處理原始內容特征,特別設計了模態間的聯合分布,保證編碼多模態表示的一致性和互補性。第二階段,使用一個注意模塊來集成有可變權重的特定模態的全局特征和上下文特征,得到每個模態的集成表示后,將它們與用戶潛在向量連接起來,并通過與音樂潛在因子的點積進行預測,對整個模型進行優化,得到預測結果。實驗驗證了AMAE方法利用多模態社交媒體內容在音樂推薦中的有效性。
Huang等人[40]在RGB-D圖像顯著區域預測任務中使用了深度多模態自動編碼器融合模型。該模型包括顏色通道網絡、視差通道網絡、特征連接網絡和特征學習網絡,能夠深度挖掘顏色和視差信息之間的互補關系,順序增強預測的顯著性圖,具有很高的泛化效果。特別是,所提出的深度自動編碼器獲得了人、物體、面部和其他主要線索的高顯著性值。
2014年,Kingma等人[41]提出變分自編碼器,它區別于用具體數值表示潛在空間變量的傳統方法,而是使用概率模型描述潛在空間的變量的生成網絡結構,并繼而廣泛應用在數據表示生成領域。
例如,Khattar等人[42]提出了一個端到端的多模態變分自編碼器(MVAE),該方法使用特定的變分自編碼器分別學習文本和圖像的特征表示,再將文本和圖像的特征表示融合后作為假新聞檢測器的輸入來判斷對應新聞的真假。MVAE通過聯合訓練雙峰變分自編碼器和新聞二元分類器,既能發現跨文本和圖像模態之間的關聯,又能提到假新聞檢測正確率,并在測試指標F1和準確率上超過了當時的SOTA方法。
Yu等人[43]基于變分自編碼器的考慮類別特定多模態分布的隨時重構方法,通過在高斯先驗分布中引入特定的類別信息,對缺失數據的潛在變量進行類別信息插補,從而可以實現任意時刻的缺失信息重建。提出的方法不僅在分類和重建任務上都比自編碼器和純變分自編碼器達到了更優越的性能,在內存效率和計算時間方面也發揮了優勢。由于該方法不需要為每個類別使用任何先前的3D模型(643布爾值),而是使用潛在變量(64維浮點數)進行先驗分布,因此與使用先前3D模型的情況相比,它僅使用0.78%的內存。為了找到最接近的模態,可以在計算歐氏距離后使用任何排序算法;它只需要O(NlgN)。
自編碼器的優點是在對高維數據進行降維的同時保留高維數據的特征信息和主要語義信息。作為深度生成模型,因為可以從隱空間中重構輸入,最小化重構輸入與原始輸入的距離,因此學習到的隱空間表示具有很高的置信度。同時,自編碼器通過無監督的方式訓練,并能生成大量數據,很適合音頻和視頻等缺少高質量標記數據的領域。然而,自編碼器網絡訓練會出現一定的信息損失,會影響在特定任務中性能,如何添加額外的約束仍是需要研究的問題。
注意力機制允許模型專注于局部信息,比如圖像的某個區域,隨著任務變化,注意力區域也會隨著變化。通過注意力機制,不僅可以提高性能,而且可以更好地解釋特征表示。這種機制模仿人類關注最顯著的信息的感知機制。注意力決策過程并非一次使用所有信息,而是聚焦于局部特定的部分。最近,注意力機制在許多應用中都取得了重大突破。
根據在選擇特征時是否使用了鍵值key,可以將注意力機制分為兩類key-based attention和keyless attention。Key-based注意力使用鍵來搜索顯著的本局部特征。以機器翻譯為例,如圖7所示。假設要對一組輸入{ai,i=1,2,…,L}使用注意力機制計算顯著內容,這里就需要一個查詢向量q(即鍵值)并計算其和每個輸入ai的相關性數值,該相關性數值可以通過式(18)中列出的三個不同打分函數計算得出,對這個數值進行歸一化后便是查詢向量q在每個輸入ai上的注意力分布{wi,i=1,2,…,L},其中每個數值與原始輸入一一對應。根據這些注意力分布就可以有選擇地從輸入中提取顯著內容ct,計算方法如式(16)、(17)。


圖7 注意力機制Fig.7 Attention mechanism
Key-based attention廣泛地用于視覺描述應用程序,其中通常使用編碼器-解碼器網絡。它為衡量模態內或模態間特征的重要性提供了一種有效方法。為了識別視覺對象,以圖像為例,簡單地將圖像的全局信息投影到單一的特征向量會損失細粒度特征,通過動態自適應選擇圖像中最顯著的局部區域,可以提高系統的性能和抗噪能力。圖7注意力機制不僅可以提取模態內最重要的特征,也可以在融合多種模態時充分利用相關信息。
在融合多模態特征時,自適應地衡量不同模態的貢獻是一個關鍵問題。與簡單拼接或固定權值的融合方法不同,Hori等人[44]提出了一種多模態注意模型融合圖像、運動和音頻這三種模態特征進行視頻描述。基于注意力的特征融合會根據解碼器的狀態和特征向量生成模態級的注意力權重,多模態注意權值可以根據解碼器狀態和特征向量的變化而變化。這使得解碼器網絡在預測描述中的每個后續文本輸出時,能夠注意到一組不同的特征和/或模態。
在注意力機制已經廣泛應用于音視頻領域,并取得了顯著的性能的背景下,作者針對音頻和圖片中包含大量多余的細粒度信息,使用完全成對的注意力機制會增加許多不必要的計算消耗,以及模型的復雜度和數據的特征序列長度往往二次相關等問題。Nagrani等人[45]提出了稱為“注意力瓶頸”的固定長度的融合單元,如圖8所示,這樣可以限制融合單元層內的跨模態交互。由于融合單元的長度遠小于各模態數據的特征長度,因此為了交互模態間的必要信息,特定模態的特征表示模型會盡量壓縮精簡自身的數據信息,從而達到更好的融合效果,并大大降低了復雜度。但是限制在于融合層是一個超參數,可能需要針對不同的任務和數據集進行專門的調優。目前也只探索完全監督的融合,未來的工作需要解決自我監督學習框架的擴展。

圖8 注意力瓶頸示意圖Fig.8 Attention bottleneck diagram
在分類或回歸任務中,由于結構是一步生成的,在注意模塊中使用鍵值是不現實的。注意力應用在局部特征上,無需任何鍵。計算函數可以用流來表示:

由于keyless attention的本質是從原始輸入中選擇顯著的線索,因此對處理存在噪聲、語義分歧、語義重復等問題的多模態特征融合任務有明顯的優勢。注意力機制可以簡單地評估模態各部分之間的關系,將模態之間互補的信息提取出來,用于生成一個完整的單一向量表示,可以緩解語義歧義。
最近,人們開發了一種新的學習策略多注意力機制,核心思想是在同一個輸入數據上應用多個注意力模塊,這些注意力模塊會從不同角度提取不同的特征。Zadeh等人[46]提出多注意循環網絡(MARN)利用多注意機塊(MAB)發現不同模態之間隨著時間的不同互動,并將它們存儲在一種稱為長短期混合記憶(LSTHM)的循環組件的混合記憶中。在每個時間步,將所有模態的隱藏向量拼接單個向量,然后使用多注意力模塊(MAB)從拼接的向量中提取不同的加權向量,每一個加權向量都反映了不同的跨模態關系。之后,再將所有的加權向量融合為一個向量,此向量表示在此刻不同模態之間的共享隱藏向量。
另外,Yang等人[47]提出了一種用于面部動作單元(AU)檢測任務的新型自適應多模態融合(AMF)方法,該方法通過以特征評分模塊為條件地進行重采樣,從而學習到不同模態中最相關的特征表示。特征評分模塊允許對從多種模態中學習到的特征的質量進行打分,因此,AMF能夠自適應地選擇更具辨別力的特征,從而提高對缺失或損壞模態的魯棒性。
Dai等人[48]提出了多尺度通道注意力模塊(MSCAM)解決不同尺度特征難以融合的問題,該模塊主要特征在于,使用全局平均池化和點卷積分別獲取全局特征和局部特征的通道注意力權重。之后根據不同的網絡場景,提出了基于MS-CAM通用的注意力特征融合方法(AFF),使得網絡可以在不同尺度的輸入特征之間進行軟選擇或加權平均,從而實現更好的融合性能。
Wang等人[49]提出了一種新的細粒度多模態融合網絡(FMFN),以完全融合文本特征和視覺特征用于假新聞檢測。利用縮放點積注意將文本單詞嵌入與圖像的多個視覺特征向量融合,具體做法是利用可捕獲全局信息的點積注意塊對視覺特征和文本特征進行增強,得到一定數量增強的視覺特征和文本特征。然后,利用兩個縮放的點積注意塊分別對增強視覺特征和增強文本特征進行細化,捕獲視覺特征和文本特征之間的依賴關系。與其他基于注意機制的融合方法相比,FMFN在特征融合方面更具細粒度。原因是,對于給定具有多個視覺特征的圖像,使用代表不同視覺特征的多個特征向量與文本特征融合,充分利用特征之間的相關性,從而獲得文本特征與視覺特征更好的融合效果。
注意機制的一個優點是能夠選擇顯著的、有區別的局部特征,這不僅可以提高多模態表示的性能,而且還可以帶來更好的可解釋性。此外,通過選擇顯著的線索,該技術還可以幫助解決噪音等問題,并幫助將互補語義融合到多模態表示中。另外,多模態表示融合的各個架構的介紹以及擴展的深度學習模型的任務和改進如表1所示。

表1 架構和擴展模型Table 1 Architectures and extended models
本章將先從基于相關性的角度回顧多模態表示對齊技術:深度典型相關分析(DCCA),它屬于典型相關分析(CCA)的深度擴展模型;然后從基于相似性的對齊角度回顧深度多模態表示學習技術:深度跨模態嵌入模型、注意力機制等。
典型相關分析(CCA)是一種用于測量變量對之間相關性來反映兩組指標整體相關性的方法。在多模態表示學習場景中,對于給定的兩組數據X={x1,x2,…,xn}∈?n×dx和Y={y1,y2,…,yn}∈?n×dy,其中每對(xi,yi)是一個包含兩種模態的樣本,CCA需要找到兩組連接向量a和b,用于將多模態數據降維到共享的子空間,并最大化降維后新向量aTx和bTx之間的相關性[59]。
在降維之前,需要將原始數據標準化,因此X和Y均值都為0,目標函數為式(21),其中ρ整體是相關系數,C是協方差矩陣:

通過固定分母,優化分子,目標函數可以轉化為:

基本的CCA致命的缺點是無法應用于非線性表示的數據。為了解決這個問題,提出了非線性擴展核典型相關分析KCCA[60],KCCA的核心思想是先將數據映射到高維表示后,再計算求得數據之間的線性關系,但是,KCCA的可擴展性較差[61],由于核函數提出的不可知性,隨著訓練樣本的增加,其計算復雜度和內存消耗也會大幅增加,準確率也會受到影響。
借鑒神經網絡解決非線性問題的能力,近年來已經提出了多種基于CCA的神經網絡模型,Andrew等人[4]提出了DCCA(圖9)來學習兩個模態{X,Y}之間的非線性數據映射。DCCA先將兩個模態的輸入特征投影到線性空間,通過計算兩個線性投影向量的相關性求出一個統一向量。在DCCA網絡中,對于第一種模態數據,DCCA從f1(x)=sW1,b1(x)學習深度表示,s為非線性函數,其中,W表示相鄰兩層之間的連接權重,b表示相關偏置。參數表示為此外,第二種模態的表示f2(y)的計算方式同理。DCCA的優化目標就和CCA一樣,只是將原來的輸入特征集用深度神經網絡訓練一遍,然后再用CCA求出投影向量。corr(f1(X,θ1),f2(Y,θ2))是優化目標,其中θ1和θ2是兩種模態的參數集合。那么:

圖9 DCCA的框架Fig.9 Framework of DCCA

為了求出參數,通常利用反向傳播的理論。因此,可以通過批梯度下降法訓練數據集估計參數
深度典型相關分析及其擴展在多模態數據的學習表示任務中發揮了重大作用。但是DCCA的網絡結構和損失函數設計較差,主要是由于它的網絡結構和損失函數設計較淺,DCCA只考慮了與全連接網絡的兩條路徑的兩兩相關。最近,基于DCCA和重建目標的啟發,Wang等人[62]進一步結合自動編碼器提出了深度典型相關自動編碼器(DCCAE)。DCCAE除了學習的兩個表示是高度線性相關之外,該模型還通過自動編碼器最小化每個模態的重建誤差。通過加入權衡參數,總的梯度是DCCA和自動編碼器的梯度之和,由此可以優化學習表示誤差與自編碼器重構誤差之間的典型相關性組合。
Yu等人[63]提出基于類別的深度典型相關分析模型(C-DCCA),通過場地照片和文本之間的相關性實現精確的場景識別和相同類別的場景搜索。該模型主要使用由三個全連接層組成的sub-DNN將視覺特征和文本特征映射到一個公共空間,以便于比較不同模態的特征。之后,將圖片和文本的新特征按照場景類別進行分組,使用CCA目標函數增強公共空間的相關性。這里的相關性包括來自同一場景的特征之間的成對相關性和同類別的不同場景特征之間的基于類別的相關性。該方法與其他基于典型相關分析的方法相比,在跨模態檢索任務上取得了顯著的改進。
Liu等人[64]將DCCA進行了擴展并應用于情緒識別任務,重點在于不同的模態特征由不同神經網絡進行變換后,再通過CCA的傳統約束進行規則化。之后使用加權融合和基于注意力的融合方法結合規范化后的多模態特征。通過與多峰深度自編碼器(BDAE)和其他傳統情緒識別方法的對比實驗,驗證了DCCA的識別準確率都更高,說明在DCCA變換后的協同超空間中,情緒得到了更好的表征,也更容易分類。
Deshmukh等人[65]提出用于雙峰生物特征系統的DCCA框架和用于多峰生物特征系統的深度多集典型相關分析框架(DMCCA)。DMCCA的目標是最大化平均集合間的相關性。作者將提出的框架與PCA、LDA、CCA、KCCA和DCA等方法進行實驗比較,驗證了提出的框架性能優于所有這些技術,顯著提高了多模態生物識別系統的識別性能。說明DMCCA框架描述了不同模態特征之間的深層次關系,以最大化相同形態的特征集之間的相似性,并能夠消除冗余特征來表示判別特征。
與基于跨模態相似性方法相比,DCCA的一個優點是它的無監督學習能力。基于神經網絡的方法可以處理復雜數據間的非線性關系。因此,DCCA非常適合處理多模態學習任務。但是,DCCA的缺點是訓練開銷大,目標優化具有挑戰性。
深度交叉模態嵌入模型在跨模態語義學習任務中越來越流行。Frome等人[3]提出了一種深層視覺語義嵌入模型(DeViSE)解決圖片分類任務中缺少語義相關性的問題,該模型由提前訓練的skip-gram模型和圖像識別模型組成(如圖10),DeViSE首先使用預訓練的語言處理模型學習文本單詞中包含語義的密集向量表示,然后將其作為監督信號訓練深層視覺語義模型。這樣,視覺網絡就具有了相關性的語義聯系。

圖10 DeViSE模型Fig.10 DeViSE model
DeViSE結合了余弦相似度和鉸鏈秩損失作為損失函數,因為模型希望視覺輸出特征和匹配的標簽之間產生更大的余弦相似性,使用的損失函數定義如下:

對于輸入的圖像,核心視覺模型的輸出為v(image),transformation模塊線性映射參數矩陣是M,tlabel是skip-gram語言模型的輸出,表示輸入圖像的文本標簽,tj是其他文本的嵌入。
此外,Karpathy等人[13]也應用了該框架,以捕獲語句單詞和圖像顯著區域之間的細粒度交叉模型對齊,以生成圖像的區域級描述。由于沒有給定單詞和相關圖像區域之間的對應關系,所以訓練缺乏必要的監督信號。為了解決這個問題,他們在跨模態嵌入空間中計算句子片段和圖像顯著區域之間的對齊關系。先使用RCNN模型進行圖像分割和雙向RNN進行語句分割,之后分別計算每個句子片段和圖片區域的點積得到相似性分數,計算方式定義如下:

其中,gp和gw分別是圖像p和句子w中的片段集,針對每個句子片段找到與之點積值最大的圖像區域,得到圖像區域和句子片段最匹配的對應關系。最后損失函數可以定義為式(26),這鼓勵對齊的圖像和句子具有更高的相似性分數。

大多數當前的視覺語義嵌入方法學習的是將實例映射到共享空間中的單個點,不能有效地處理具有多種可能含義的多義實例。因此Yale等人[66]介紹了多義實例嵌入網絡(PIE-Nets),具體來說,網絡通過使用多頭自注意模塊關注輸入實例的局部信息的不同組合(例如區域、幀、單詞),獲得關于實例K個不同的局部引導表示[67]。然后,通過殘差學習[68]將每個局部表示與全局表示結合起來,提取每個實例的K個嵌入輸出。之后,再將兩個PIE-Nets(每個模態一個)連接起來,并使用多實例學習目標(MIL)[69]對它們進行聯合訓練。當兩個實例部分關聯時,利用一對多實例嵌入,MIL目標放松學習約束,只要求K×K嵌入對中的一個是良好對齊即可,使得模型對部分跨域關聯更穩健。實驗在圖像-文本和視頻-文本跨模態檢索場景中演示了提出的方法,顯示了與幾個基線方法相比更好的效果。
Wehrmann等人[70]提出了一種基于自適應跨模態嵌入的圖像-文本對齊方法(ADAPT)。ADAPT的設計目的是利用基本模態實例的全局嵌入來調整目標模態實例的中間表示。例如算法可以利用文本特征的尺度和位移投影來過濾和移動圖像特征向量,生成一個有引導的圖像嵌入向量。這類似于注意力模塊的工作,但計算效率更高。此外,在該模型中引入的中心凹模塊允許模型專注于相關的高分辨率圖像區域,并使用它們構建更好的全局嵌入向量,已被證明是有效和高效的替代堆疊注意模塊。ADAPT方法在基于文本的圖像查詢任務和圖像注釋任務上都比其他的基線方法有較大的優勢。
另外,Li等人[71]提出了基于局部保留的深度跨通道嵌入網絡(LPDCMENs)方法解決零樣本遙感場景分類(ZSRSSC)問題,為緩解兩種混合空間(視覺空間和語義空間)的數據不一致以及保留類內局部性,由此提出了一個由視覺圖像映射子網絡(V-CNN)和神經網絡的語義表示映射子網絡(S-NN)組成的嵌入模型,分別將圖像場景和語義表示映射到潛在空間中執行類別匹配。通過實驗證明了該方法具有分類未知類別遙感圖像場景的推理能力,并在分類性能上明顯優于現有的方法。
跨模態嵌入模型的優點是可以更好地學習一個嵌入空間,為基于神經網絡的聯合嵌入模型提供了靈活性,能夠解決多種遷移性問題;并且可以很自然地結合多模態的數據進行學習。但是模型的表現極大地依賴于數據特征的提取能力,這很大程度上決定了模型性能的上限。
為了對齊多種模態之間語義空間,注意力機制被認為是一種行之有效的方法,因為它可以高效地發現給定數據中有價值的特征區域,因此注意力機制已被廣泛應用于語音識別、跨模態檢索、情緒識別等多模態任務中。
Lee等人[72]提出了堆疊交叉注意機制網絡(SCAN)實現圖片文本匹配任務,之前的研究一般是檢測圖像中的目標區域,統計各個區域與單詞的相似度來計算圖片和文本整體相似度,但并沒考慮到不同詞或區域的重要性。SCAN將句中的單詞和圖片中的區域映射到一個聯合嵌入空間中,以計算整體圖像和句子之間的相似度。首先通過自下而上的目標檢測提取圖片區域的特征,同時,根據句中上下文提取各個單詞的特征。然后用SCAN方法對齊各個元素,最終對比相似度。圖片I中包含m個區域,句子T中包含n個詞,計算圖片和句子的相似度矩陣,si,j表示第i個區域和第j個詞之間的余弦距離:

與之前研究中計算區域與單詞的相似度方法不同的是,SCAN用加權混合詞特征的方法計算出第i個圖像區域對于句意的貢獻其中αi,j為注意力權重,它描述了區域i與單詞j之間的相關性,從上述的距離si,j求得:


其中,[x]+=max(x,0),S是相似函數。另外,是小批量隨機梯度下降中的硬負樣本,負樣本與實例間的聯合嵌入空間中距離應比正樣本與實例間的距離更大,那么通過閾值α,鉸鏈損失為零。
另外,Peng等人[73]提出了多級自適應視覺文本對齊(MAVA)方法。首先,提出跨媒體多路徑細粒度網絡,不僅可以提取局部細粒度塊作為判別的圖像區域和關鍵詞,所提取的區域和單詞之間還包含互補的視覺關系和文本關系。MAVA進一步應用了一種自適應對齊策略來學習不同模態之間的相關性,具體從全局、局部、關系三個級別進行自適應對齊。其中計算圖像區域和句子語義相似性的方法和SCAN中的方法相似,區別在于計算局部和關系級別的相似性時,使用閾值自適應地過濾并丟棄未對齊的跨模態元素,而SCAN只利用局部注意力信息,忽略了關系級相關性提供的豐富互補信息,將所有文本關鍵詞都不過濾到對齊建模中,這導致跨媒體對齊不全面和不準確。但是MAVA結合三種級別的對齊方式,可以充分考慮圖像和句子中語境信息,學習更精確的跨模態細粒度對齊關系。
為了擬合視覺形式和文本形式之間的語義鴻溝,Qu等人[74]提出了一種新的上下文感知的多視圖聚合網絡(CAMERA),用于從多個視圖中總結上下文增強的視覺區域信息。主要設計了一個自適應門控自我注意模塊(AGSA),通過控制內部信息流,使之能夠自適應地捕獲上下文信息來提取視覺區域和單詞的表征。然后引入了一個具有多樣性正則化的匯總模塊,從不同的角度將區域級特征聚合為圖像級特征。最后設計了一種多視角匹配方案,將多視角圖像特征與相應的文本特征進行匹配。該工作在兩個基準數據集上進行了大量的實驗,證明了CAMERA模型用于上下文建模和多視圖視覺理解具有很大的優越性。
Messina等人[75]提出了變壓器編碼器推理和對齊網絡(TERAN),TERAN使用Transformer Encoder(TE)[10]這個簡單高效的自注意力模塊將視覺信息和文本信息投影到相同的維度空間,并采用類似SCAN中執行圖片區域和單詞的細粒度匹配的方法來計算圖片和句子的全局相似度矩陣。但是不同之處在于TERAN在圖片和句子的相似度矩陣上執行最大和池化操作,即計算相似度矩陣每行的最大值并求和。以這種方式獲取圖片和句子的全局相似度,并成功地輸出細粒度單詞區域對齊。
人類語言通常是多模態的,它包含自然語句、聲音情緒、面部表情和手勢行為等諸多信息。人類語言可以被看作一種時間序列的數據,然而在建模的時候因為每種模態序列的采樣率不同,原始的數據不對齊難以被模型利用,并且跨模態數據之間的長期依賴關系很難被捕捉。為解決上述問題。Tsai等人[76]引入了多模態轉換器(MulT),在沒有明確對齊數據的情況下,以端到端的方式捕捉到多模態序列數據之間的相關信號。模型使用6個跨模態轉換器結構對三種模態(視頻、文本、音頻)建模,并學習跨模態數據中有價值的關聯信息。具體來說,每一個跨模態轉換器通過學習跨兩種模態的單向特征映射,即將一個模態的低級特征轉化為一組鍵/值對去強化另一個模態。最后連接目標模態相同的跨模態轉換器的輸出,構建基于上下文的語義嵌入。
Liu等人[77]提出了一種用于多模態情感識別的門控雙向對齊網絡(GBAN)方法。該方法具體在于,先通過兩個獨立的CNN-LSTM編碼器分別從語音和文本中提取特征;再使用基于注意的雙向對齊網絡捕捉語音和文本之間的時間相關性;獲取基于文本對齊的語音表示as和基于語音對齊的文本表示at;由于as和at都從另一個模態中獲取額外的信息,所以基于對齊的表示是顯著優于BiLSTM層的最后一個隱藏狀態表征的;最后通過群門控融合層自動學習每個表示的貢獻,能夠有效地以可解釋的方式融合多種表示。GBAN方法在情感識別任務的分類準確性證明了雙向對齊網絡可為情感分類提供更具辨析性的表示。
上述例子都證明注意力機制在對齊多模態數據或處理多模態數據不對齊問題上都有卓越的表現力,因為注意力機制可以一步到位獲取全局與局部的聯系,不會像RNN網絡那樣對長期依賴的捕捉會受到序列長度的限制,而且注意力機制每步的結果不依賴于上一步,可以實現并行的模式,對處理多模態序列數據有著天然的優勢。另外,表2中總結了多模態表示對齊的各個架構的介紹以及擴展的深度學習模型的任務和改進。

表2 架構和擴展模型Table 2 Architectures and extended models
本文從縮小不同模態異質性差距的角度,對不同應用場景下的基于深度學習的多模態表示學習進行了全面的調查。根據多模態特征融合后的基礎結構和表示能力,深度多模態表示學習方法可以分為聯合表示和協調表示。此外,本文總結歸納了兩大類多模態表示學習:多模態表示融合和多模態表示對齊,并在表3中以分層類別的形式展示了這兩個場景的示例。這兩種策略都試圖利用包含在多個模態中的互補知識來全面表示數據。本文總結了這兩類多模態表示學習的一些深度模型,包括深度玻爾茲曼機、生成對抗網絡、自動編碼器、深度典型相關分析、深度跨模態嵌入模型和注意力機制等及其相應的變體。對于每個模型,本文還介紹了其基本結構、應用場景和關鍵問題。

表3 架構分類和示例模型Table 3 Architecture classification and example models
多模態表示學習模型的學習目標是在盡可能保持原始模態語義完整的條件下,推斷出多模態聯合語義子空間中的集成分布。多模態表示融合旨在利用多個模態中包含的互補知識,將多個模態的數據集成到單個表示中,最大化保留共有和獨有的特征;多模態表示對齊指的是通過函數變化,將模態的原始空間轉換為具有特定約束的多模態對齊空間,捕捉不同模態之間的相似或相關性。多模態的互補知識通常獨立存在于某個模態中,在學習互補知識的同時,很容易引入大量單模或多模噪聲信息,造成語義沖突和重復,致使模型產生過擬合。因此,深度挖掘模態關聯關系、互補信息,去除冗余和噪音是多模態表示學習始終存在的一個難點,也是未來多模態表示學習發展的一個重要趨勢。深度多模態表示學習模型在一定程度上缺乏可解釋性,其中,一種直觀的解決方法是將推理能力與多模態表示學習模型相結合,讓多模態表示學習模型具備從多模態數據中發現因果結構并進行定量推斷,主動選擇可以自我解釋的知識,賦予機器智能認知自我推理的能力。
從構建語義關系角度來看,多模態圖神經網絡[88]是未來有前景的一個研究方向。圖神經網絡結合對抗方法在模態內具有更高的語義關系構建能力,未來可以在可擴展性和異構性方面對多模態圖神經網絡表示學習進一步探索。隨著基于深度學習多模態表示學習技術的快速發展,對多模態數據集的質量和數量要求越來越高。但受限于人工標注的時間和成本,當前獲取高質量的多模態標注數據集非常耗時。所以,一旦了解了模態間的語義關系,可以利用深度生成模型生成大量標注數據,應用于如圖像生成和圖像字幕等無監督學習場景中,解決樣本數量不足的問題。
另一個解決多模態樣本不足的方案是遷移學習[89],現已廣泛應用于多模態表示學習領域,并有效地提高了多模態表示學習模型的表現。圖像領域中的特征提取模型和文本領域中的詞嵌入模型都可以直接遷移到其他數據集上使用。但在音頻和視頻領域,遷移策略還不夠方便有效,很容易出現過擬合現象。此外,不同模態融合策略會生成不同的均勻和多模態分布,準確性和效率參差不齊。毫無疑問,針對不同場景選擇不同方案的正確融合仍然是未來面臨的一項重大挑戰。
針對跨模態任務,無監督或弱監督學習有助于挖掘多模態數據背后的潛在知識,提取關聯特征。無監督學習已被廣泛用于無標注數據集的降維和特征提取,弱監督學習則更擅長發現不同模態間的關聯關系。例如,給定一個圖像及其文本描述,盡管圖片中的片段和單詞之間的對應關系完全未知,但這些隱藏的關系可以通過弱監督學習發現。未來一個有前景的潛在研究方向是視頻分析,讓動作、音頻、語言等不同的模態在時間軸上保持一致。