孫影影,賈振堂,朱昊宇
上海電力大學 電子與信息工程學院,上海 200090
每一種信息的來源都可以稱為一種模態,模態是指人接受信息的方式,人有聽覺、視覺、嗅覺、觸覺等多種感知方式來認識事物,當某一種模態信息缺失時,能否準確地認知事物是人們關注的重點。由于多媒體數據通常是多種信息的傳遞媒介,例如一段視頻中會同時含有文字信息、視覺信息和聽覺信息,多模態學習已成為多媒體內容分析與理解的主要手段。隨著深度學習的發展,諸如圖像、文本、聲音、視頻等多媒體數據的急劇增長,催生出對圖像文本對、圖像聲音對等多模態問題的研究。多模態學習由來自不同模態的信息組成,一般都是包含兩個或兩個以上的模態,旨在聯合表示不同模態的數據,捕捉不同模態之間的內在關聯,實現各個模態的信息相互轉化,即使在某些模態缺失的情況下能夠填充在傳遞過程中缺少的信息。多模態深度學習給機器學習帶來了巨大的機遇與挑戰,文獻[1]將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類,并對各問題進行子分類和論述,同時列舉了為解決各問題產生的神經網絡模型。
通過多模態學習能夠處理和關聯來自多種模式信息的模型,對于許多實際問題,深度多模態學習常常為涉及多模式數據的問題提供了很多改進的性能。例如,手勢識別旨在理解人體的動態手勢,是人機交互領域極其重要的交互方式之一,由于視頻樣本中手勢的短期、中期以及長期時空特征性,文獻[2]提出了一種基于淺三維稠密網的多模態手勢識別方法,所提出的方法在手勢識別公開數據集大規模離散手勢數據集上進行了評估,并取得了目前最好效果。多模態學習區別于傳統機器學習方法的特點可體現在表1中分析[3]。

表1 多模態學習與傳統機器學習方法比較
多模態研究支持計算機視覺領域的許多關鍵應用,如圖像字幕、跨模態檢索。由于許多多模態數據具有顯著的弱配對特性,即模態之間沒有樣本到樣本的對應關系,而是一種模態中的樣本類別對應另一種模態中的樣本類別。這為跨模式的檢索學習提供了巨大的挑戰[4]。本文的目的是針對深度多模態學習的幾個應用方面進行的介紹,進而指出多模態學習的本質問題。由于近些年來在主要會議和期刊上發表此類文章的數量的不斷增加,更加堅信了多模態深度學習的廣大應用前景。如圖1為深度多模態學習論文的發表數量,涉及到計算機科學、工程方面的文章。

圖1 多模態學習論文的發表情況
從圖1的增長趨勢可以看出,近年來有關多模態學習的論文數量增長較快,并有持續增長的趨勢。重要的原因是多模態涉及到的領域的普遍化,例如,在圖像配準問題的處理上,由于圖像灰度特性的非線性變化,如何對多模態圖像有效測量,就需要依靠多模態深度學習來分析圖像特征[5];醫療上綜合反映研究對象的生物學信息仍然是一種迫切的需求和重大的挑戰,多模態核磁共振圖像聯合分析為揭開腦結構變化和腦功能變化的關系提供了可能,另外這種聯合分析提供的全面醫學影像信息對探索腦工作原理具有重要作用[6];在航天領域研究太陽射電頻譜時,由于頻率的多樣性,需要將不同頻率信道捕獲的太陽射電頻譜看作不同的模態,學習這些不同頻率信道的太陽射電頻譜也是多模態學習的范疇[7]。多模態深度學習作為機器學習的最新發展,其研究成果在軍事、農業、醫學、安防等諸多場景都具有重要的應用前景。作為一種能讓機器擁有更多人類智能特性的學習方法,多模態深度學習定能在之后的一個時期獲得長足的發展。
1956 年,心理學家Frank Rosenblatt 首次提出了可以模擬人類感知能力的機器,并稱之為感知機(Perceptron),感知機是有單層計算單元的神經網絡。由于單層感知機的局限性,后來有了多層感知機,但由于多層感知機對隱藏層權值的訓練存在問題,有很長一段時期神經網絡的發展進入了瓶頸[8]。最經典的發展就是反向傳播神經網絡(Back Propagation algorithm,BP),這是一種監督學習算法,為以后的多模態深度學習打下了堅實的基礎。2006年,Hinton提出多層人工神經網絡模型有很強的學習能力,深度學習模型可以學習到原始數據更本質的表示,且對于深度神經網絡很難訓練到最優問題,提出了逐層訓練的方法[9]。
多模態學習作為深度學習的一種,最早始于1970年,經歷了幾個發展階段,在2010年后全面步入深度學習階段。最早的多模態研究應用之一是視聽語音識別,這一點在McGurk 效應中首次得到證明,大多數受試者都將帶有語音ba 和視覺ga 視為da,這是由于在語音感知過程中聽覺和視覺之間的相互作用而產生的結果[10],這些結果促使許多研究人員將他們的研究領域擴展到視覺信息上。于是在進行聲音識別過程中,研究人員開始聯合視頻和聲音兩個模態,結果比在原來的只有單個聲音模態輸入的系統上實現了較大的飛躍,多模態機器學習開始表現出其優秀的學習能力。
另一種重要的多模態應用是對多媒體數據內容的檢索,從1990 年開始,隨著信息領域的發展,多媒體數據所占的比例越來越大,網絡信息不再只是單純的文字信息,圖形圖像、視頻、聲音等多媒體信息在因特網中所占比重越來越大[11]。但多媒體數據的檢索技術還遠遠跟不上多媒體數據的迅速產生,這在一定程度上影響了多媒體信息檢索技術的應用和推廣。于是研究人員開始關注對多媒體內容的檢索,基于內容的檢索已經成為多媒體領域研究的熱點。
第三類應用是在21世紀初圍繞著新興的多模式交互領域建立起來的,目的是了解人類的多模態行為。在計算機視覺領域,單項生物特征識別技術已經不能滿足客戶的要求了,多模態的解決辦法被業內專家提出,并成為眾多計算機視覺公司逐步去落實的事情[12]。例如虹膜識別、識別距離與人臉識別技術同時工作,兩種技術實現了真正意義上的融合。由于在自動人臉檢測、面部標志檢測和面部表情方面取得了很大的進步,情感識別和情感計算領域在2010年初開始蓬勃發展。
最具代表性的應用程序之一是圖像描述,它類似于給定一幅圖片來獲取它的文字表述。圖像描述自動生成是一個融合計算機視覺、自然語言處理和機器學習的綜合性問題,圖像描述自動生成的主要挑戰是如何評估預測描述的質量,該任務不僅需要利用模型去理解圖片的內容并且還需要用自然語言去表達它們之間的關系[13]。例如,通過攝像頭獲取到的圖像或視頻,結合圖像描述以及語音生成技術,可以獲得對眼前事物的準確描述。
多模態學習依據模態判別的標準不同可以有多種多樣的應用。例如在太陽射電爆發分類的多模式深度學習一文中,把從不同頻率信道捕獲的太陽射電頻譜看作不同的模態,學習這些不同頻率信道的太陽射電頻譜也是多模態學習的范疇[7]。多模式機器學習旨在建立能夠從多種模式中處理和關聯信息的模型。由于數據的異質性,不同模態之間存在鴻溝,阻礙了信息間的直接交互,多模態機器學習的研究給研究者帶來了一些獨特的挑戰。本文主要介紹多模態學習的幾個主要應用研究領域,僅關注三種模式:自然語言、視覺信號以及語音信號。多模態學習的應用涉及許多方面,目前比較熱門的研究方向包括計算機視覺領域,醫療領域以及自動駕駛汽車等。
多模態研究中應用較成熟的是視聽語音識別,一種融合了語音和視覺模式的深度多模學習方法。在視聽語音識別中,說話人的錄音和視頻都可以在培訓時使用。針對視聽雙通道的語音識別,文獻[14]建立了基于隱馬爾科夫(HMM)的視聽融合模型,并對模型進行訓練和識別,實現了視聽雙通道的語音識別系統。文獻[15]最先聯合聲音和視頻對兩個獨立的網絡分別進行音頻和視覺特征的訓練,利用隨機梯度下降算法對網絡進行優化。并引入了雙線性DNN 模型,如圖2 所示。融合發生在最后一個隱藏層,可以通過雙線性DNN 模型捕捉模態中的非線性特征之間的相關性。然后保持固定的特征空間,而在這個融合空間中訓練一個深的或淺的Softmax網絡,直到達到目標。

圖2 雙線性DNN
結果顯示使用雙線性DNN模型對兩種模態進行訓練比單一模態達到的效果好,語音識別準確度提高,但針對噪聲影響較大的語音效果不好。又由于噪聲因素不可避免,文獻[16]以噪聲環境下的自動語音識別為研究背景,建立視聽信息決策層的多模態融合模型,在隱馬爾科夫(HMM)統計模型的基礎上,通過多模態融合處理來降低或消除音頻噪聲,通過HMM的訓練步驟估計模型的參數,由關聯處理最終進行融合判決,仿真結果表明應用多模態視聽信息融合能有效克服噪聲干擾,提高識別準確度。
多模態的研究可用于學習多模態數據的情感分析,可以幫助更好地理解對某些事件的態度或觀點,情感分析中的多模態數據處理一直是一項具有挑戰性的任務。首先,與傳統的單一情態情感分析相比,多模態情感分析中包含著不同的表現形式,因此,情感分析方法應該有效地彌合不同模式之間的差距。
傳統的情感分析方法往往不能同時考慮圖片影響、特殊符號信息以及上下文信息,而導致情感分析方法準確率不高的問題,文獻[17]提出了一種基于轉移變量的圖文融合微博情感分析方法,通過處理句子的情感從屬和主題從屬,引入圖片因素為情感濃度來影響文本的情感分布,最后計算微博的整體情感傾向。實驗結果表明,與傳統情感分析模型相比,本模型測試數據集的準確率更高。由于微博文本具有長度受限、寫作不規范、風格隨意、主題發散等特點,針對這個問題,文獻[18]提出了一種基于依存關系的情感詞識別方法,通過對情感詞相關依存關系的統計和分析,構建情感詞識別模版以識別微博語料中的網絡情感詞,再利用基于點互信息量方法計算情感詞的傾向性,從而構建網絡情感詞典。
為了挖掘不同模式下的互補信息和非冗余信息,文獻[19]提出了基于視覺關注模型、語義關注模型和多模態關注模型三種模型的后期融合方案,即融合到一個多模態情感分析的整體框架中,運用了一種結合視覺注意機制的長短期記憶網絡(Long Short-Term Memory,LSTM),用于捕捉圖像與文本之間的關聯,以達到正確獲取社會圖像情感的目的,模型結構如圖3。實驗在Getty image、Twitter和Flickr三個大型數據集上對該模型的性能進行了一系列實驗,結果表明,提出的方法在三個數據集上的性能優于目前最新的方法。所提出的融合模型有效地將不同的數據模式結合在一起,從而實現較理想的情感分類性能。

圖3 圖文情感識別模型
多模態的研究可用于多媒體數據標注,多媒體數據由文本、圖像、視頻、音頻、時間序列等多種形式組成。有時模態數據可能會存在缺乏標注數據、樣本含大量噪聲以及數據收集質量不可靠等問題,可通過不同模態間的知識遷移提高質量較差模態的性能。文獻[19]提出一種基于注意力機制的LSTM 網絡,利用語義一致性,捕捉視頻的顯著結構,探索多模態表示之間的關系來完成視頻標注,但針對復雜視頻信息效果不好;文獻[20]在利用注意力機制的基礎上,基于語言知識選擇性地關注視覺屬性的標注方法,該方法將神經網絡中的隱藏狀態映射到潛在嵌入空間,從而獲得語言與視覺屬性的對應關系;后來文獻[21]提出一種包含屬性的LSTM和RNN網絡來發現圖像視覺屬性與語義表達之間的復雜關系,還關注了句子和視頻的對應關系。文獻[22]提出了一種跨模態知識遷移網絡,利用源域和目標域的模式作為橋梁,將知識同時遷移到兩種模態,而層共享相關子網絡保留固有的跨模態語義相關性以進一步適應跨模式檢索任務。事實上,不同模態的多媒體內容從各自的形式描述給定的標簽,并相互補充,探索異類數據分析和多媒體注釋的先進技術變得至關重要。基于這一思想,文獻[23]提出了一種新的異構多媒體協同標注多模態相關學習方法,即統一空間學習,將異構媒體數據投影到一個統一的空間中,所提出的投影空間如圖4所示。

圖4 統一空間映射模型
將多媒體標注任務轉化為半監督學習框架,學習不同媒體類型的不同投影矩陣。對于一個新的媒體樣本,可以很容易地將其嵌入到統一的空間中,然后將其相鄰的相關標簽分配給該樣本[24]。通過對圖像、音頻片段、視頻和三維模型數據集的實驗結果表明,不同的媒體內容相互協調,共同為給定的語義標簽提供了一個更為互補的輪廓,可以學習到異構媒體數據的更有效表示[25]。
多模態的研究可學習圖像和文本之間的共享表示特征,用于多模態的匹配和分類,匹配即特征嵌入問題,分類即預測類標簽。與目前僅關注多模式匹配或分類的方法不同,文獻[23]提出了一個統一的網絡來共同學習圖像和文本之間的多模態匹配和分類。所提出的多模態匹配和分類網絡模型涉及視覺和語言之間,它可以無縫集成匹配和分類組件。其中實現兩個組件的融合是關鍵,這就涉及到多模態融合問題。多模態信息的融合能獲得更全面的特征,提高模型魯棒性,并且保證模型在某些模態缺失時仍能有效工作[26]。
針對多模態融合問題,包括網絡結構上的改進以及算法的優化兩大方面:在網絡結構方面,常用的是帶注意力機制的遞歸神經網絡,再利用注意力機制將文本與圖像特征融合[27]。但是這種網絡結構往往不能高度集中地表示數據,于是有了一種新型端到端的深度融合卷積神經網絡,將二維與三維數據輸入網絡進行特征提取和融合,進而獲得高度集中的特征表示,可應用于人臉表情識別[28]。在算法優化方面:新型高效的融合方法是哈希算法,它將弱監督方式提取出的多模態特征統一整合為二進制編碼,從而使用核函數配合SVM 進行分類[29]。文獻[23]不僅提出了一個統一的網絡結構,還提出了一種結合匹配和分類損失的多級訓練算法,它可以使匹配和分類組件在一個統一的模型中更加兼容。通過四個眾所周知的基實驗表明,所提出的網絡模型具有較好的魯棒性,優于匹配或分類單獨作用時的效果,對與匹配或分類相關的多模態任務有很好的推廣應用前景。
多模態研究還可用于不同模態之間的對齊表示,可在不同模式之間傳遞所學的知識。對齊旨在挖掘不同模態之間的對應關系,從而促使學習到的多模態表示更加精確,并且也為多媒體檢索提供更細致的檢索線索[30]。在多模態的對齊學習中,常用最大邊距學習方式結合局部對齊和全局對齊方法學習共同嵌入表示空間[29]。在跨模態檢索方法中,模態與模態之間存在一定的數據相關性,基于判別性字典學習的跨模態檢索方法可以增強來自不同類別的模態內數據的辨別能力,運用判別性字典來解釋每種模態,通過標簽對齊方法進一步增強跨模態數據的區分性和相關性[31]。
對齊的跨模態表示將對計算機視覺產生很大的影響,因為它們是機器感知理解模式之間關系的基本組成部分。在實際學習詞、句子、圖像以及圖像區域的特征對齊表示時,提出了層次化多模態LSTM 的密集視覺-語義嵌入方法,可以有效地學習詞、句子、圖像以及圖像區域的對齊表示[32]。文獻[33]設計了一個跨模態網絡模型,它可以接受圖像、聲音或句子作為輸入,并產生一個跨模式共享的通用表示。通過實驗表明,深度跨模態表示法比以往的聚類CCA 和線性回歸都有很大的優勢。因為所提出的網絡能夠學習高層次的特性,更容易跨模式對齊。但是當模態之間不匹配或者匹配程度低時,不容易學習它們的對齊表示,就需要設計一種深層跨模態對齊網絡多次進行訓練學習以盡可能消除模態間的不匹配問題[34]。
表示學習的目的是將被研究對象中所蘊含的語義信息抽象為實值向量,研究對象包括結構化數據以及圖像、視頻、語音、文本等非結構化數據[30]。最初基于模態相關性約束,出現了一種面向多模態表達的緊致哈希編碼方法,該方法首先基于模態內和模態間的相關性約束,提出了一種新的深度學習模型生成哈希編碼[35]。但是由于數據不是連續的,會造成部分模態數據的缺失問題,又發展了一種基于自適應相似結構正則化的部分多模態稀疏編碼模型,能很好地解決數據稀疏造成的模態缺失問題[36]。
多模態學習的研究起源于人們日常生活中的許多實際問題,目的是幫助人們解決復雜度更高的問題。多模態學習應用可以很廣泛,涉及計算機視覺領域、醫療領域、天文學探測方面以及自動駕駛汽車等[37]。從以上多模態深度學習的幾個應用領域看,深度多模式學習的研究已取得較大的成果,有巨大的發展潛力。從最近幾年的多模態應用方面的文章看,多模態學習有極好的發展前景,應用實際生活中具有重要的現實意義。越來越多的文章致力于從圖像、聲音、視頻和文本等熱門方向著手來尋求各個模態之間的互聯想,逐漸形成一個以神經網絡為基礎的完善的理論體系結構,通過一系列基準實驗證明了該結構的可實現性[38]。第4章將針對多模態學習的具體實現細節加以說明。
從多模態在第3章的幾個典型應用可以發現,來自不同模態的信息要想達到較好的實驗效果,它們區分單一模態的關鍵在于如何構建一個共享表示空間,該共享表示空間可以融合來自兩個或多個模態的特征,從而可以找出各個模態之間的對應關系[39]。研究多模態學習的目的就是通過建立共享空間表示,學習不同模態之間的關系,最后實現模態之間的互聯想。這樣,同一現象的多個模態信息可以相互補充,當某一模態數據缺失時,多模態學習仍能達到很好的效果。
多模態學習有重要的現實意義,但是目前針對多模態學習的研究仍然十分有限。對于多模態學習,比較熱門的研究方向包括多模態的表示學習、不同模態之間的相互轉化、多模態融合、多模態對齊和共同學習等等。盡管多模態應用廣泛,但其本質問題是在不同模態之間實現某種關聯。下面主要介紹建立一個共享表示空間的兩個關鍵過程:多模態融合和多模態對齊,并對多模態學習中常用的數據集進行介紹。
在多模態學習的早期就已經開始了對多模態融合的研究,這是多模態學習研究最多的方面之一,它的工作可以追溯到25 年前[40]。首先,多模態融合從技術上講,是將來自多種模態的信息集成在一起的概念,目的是通過分類方法來預測一個類。例如在醫學領域,醫生就診更多根據圖像在局部區域高層語義特征(如是否病變、病變類型等)的差異,粗粒度地判斷圖像的相似程度,針對現有的醫學圖像特征表達忽略了醫學圖像特有的高層語義特征,致使醫學圖像聚類效果不佳的問題,文獻[41]提出了一種多模態醫學圖像聚類方法,就融合了醫學圖像紋理特征和特有形態學特征,并通過實驗驗證了該方法的有效性。可見多種模態的信息相互融合可以實現信息補充,提升預測結果的精度,提高預測模型的魯棒性,使最后的結果更可靠。
一般的融合分為特征融合和決策融合,特征融合指網絡一起提取的表達融合,之后接一個分類層;決策融合指模型組合,融合網絡計算的分類得分。在此主要介紹特征融合,特征融合即輸入兩個模態的特征向量,輸出融合后的向量,最常用的方法是拼接、按位乘、按位加。特征融合能有效提高某些算法的準確度,例如,針對單模態行人檢測在光照條件較差、目標部分遮擋、目標多尺度時檢測效果較差的問題,文獻[42]提出了一種基于可見和紅外雙模態特征金字塔融合的行人檢測算法,實驗結果表明在KAIST 數據集上的檢測效果超過了目前該數據集上的最佳模型。從特征融合的結構上分,可分為早期融合、后期融合,后來又有了中間融合[43]。三種融合結構的特點如表2所示。

表2 融合結構特點
早期融合主要用于分類,在進行特征提取后立即集成,通常只是簡單連接它們的表示,廣泛出現在多模態學習任務中;晚期融合用于回歸,一般在每個模塊之后再執行集成,可以有效地處理數據的異步性,但實現程度較早期融合較難;中間融合用于分類回歸,它結合了早、晚期融合的優點,同時模型復雜度和實現難度也增加了[44]。
從融合方法上看,又可分為基于核融合、基于圖像模型和基于神經網絡的方法,其中基于神經網絡的融合方法是比較流行的方法。文獻[45]把多模態表示分為聯合表示和協同表示,聯合表示是將多個單模信號合并到同一個表示空間,學習各個模態間的共享表示;協同表示是在信號投影之前強制執行一定相似性約束來協調它們[46]。
以圖像、文本的融合為例,(Xi,Yi)表示經過預處理后得到的圖像和文本特征,i=1~N。假設所提取的特征向量的維數相同,最簡單的方法是采用直接疊加的方式將它們的特征向量加在一起,然后采用卷積運算來學習自適應權值,但是并沒有改變原始的基網絡[47]。在融合過程中,將得到的這兩個分支中的嵌入圖像、文本特征經過正則化處理分別表示為S(Xi)和S(Yi)。融合后的視覺特征f(Xi),文本特征g(Yi)可以由下式計算:


匹配損失函數目的減少匹配對距離,增加非匹配對的距離,較小的匹配距離表示圖像文本對存在某種關聯[48]。所采用的直接融合只適應于維數相同的情況,但是針對神經網絡維數不同的問題,通常處理方法是將某一模態的維數進行PCA降維處理至與另一模態相同的維數,然后再進行相同的融合操作[49]。僅僅通過上面計算余弦相似度來設置匹配函數是不夠的,為了保持潛在空間中的相似性約束,通常需要在匹配損失上加約束函數。例如,文獻[50]是基于一個類似于有效雙向秩損失函數重新定義了匹配損失。為了利用更有代表性的非匹配對,該文在每一小批中選出了最具代表性的K類最不同的候選對象。直觀地,這個損失函數是為了減小匹配對的距離和增加非匹配對的距離而設定的。損失函數的計算公式如下:

m為邊緣參數,用來平衡兩個三重因子,其中的d(f(Xi),g(Yi))表示匹配對的距離,d(f(Xi),g(Yiˉ,k)) ,d(f(Xiˉ,k),g(Yi))表示非匹配對的距離。將這一損失函數最小化將產生一個理想的潛在空間,其中匹配對的距離應小于任何不匹配對之間的距離。為了使用損失函數得到的結果直觀的表示,使用了t-SNE 算法可視化特征嵌入f(Xi)和g(Yi),就可以得到圖像文字特征的可視化表示。可視化結果表明:相匹配的圖像文本在可視圖中距離較近,不匹配的圖像文本距離較遠,該文所用的嵌入模型能夠有效學習到圖像文本的對齊表示,也即融合效果較好。
在多模態學習中,除模態之間的融合外,模態對齊也是多模態學習的核心問題[51]。多模態的對齊負責對來自同一個實例的不同模態信息的子分支元素尋找對應關系。這個對應關系可以是時間維度的,例如電影畫面、語音、字幕的自動對齊;對齊又可以是空間維度的,比如圖片語義分割:嘗試將圖片的每個像素對應到某一種類型標簽,實現視覺和詞匯對齊。多模態對齊指的是分別處理多個單模信號,但在信號投影之前通過強制執行一定相似性約束來協調它們,即多模態表示中的協調表示,如圖5為模態對齊示意圖。每種模式都有相應的投影函數,它們在一定相似性約束下互相對應。

圖5 模態對齊結構示意圖
目前針對多模態對齊,常見的兩種分類為:隱式對齊和顯式對齊[52]。隱式對齊一般是另一個任務的中間步驟,例如在基于文字的圖像檢索中,指單詞和圖像區域之間的對齊步驟,它確定了兩種類型的隱式對齊模型;顯示對齊是顯式地將感興趣的子模式之間的對齊[33]。它主要介紹如何實現不同子模式的對齊表示,以圖像和聲音兩種模態作為研究對象,對于超過兩種模態之間的對齊,采用兩兩對齊的方式以實現多模態對齊。
在實際中,僅僅依靠相似度判別對齊實現的效果并不可靠,希望多模態的對齊表示既有一致性又有區分性,即判別對齊的準確度較高。目前有兩種方法來解決這個問題:模型傳遞對齊和按等級對齊[53]。模型傳遞對齊是利用有區別的視覺模型來教學生模型一個有對齊的表示方法。以圖像Xi和聲音Yi兩種模態作為研究對象,例如Xi代表一個圖像,Yi代表圖像對應的聲音。用fX(Xi)和fY(Yi)分別表示圖像和聲音模態的特征表示。假設g(Xi)是某一特定模態類概率的教師模型,它可以估定特定模態的概率,由于各個模式是同步的,可以用另一種模式fY(Yi)來預測教師模型g(Xi)的概率問題,使用KL散度作為損失函數計算公式如下:

這一目標本身將使對齊能夠出現在g(Xi)所預測的類別級別上。為了使內部表示出現對齊,需要限制網絡上層跨模態的共享參數來實現,網絡的上層參數在前期是特定于單個模態的,添加限制條件后上層參數將被各個模態共享,通過約束上層參數來轉化為對齊表示[54]。為使對齊的區分效果更好,通常用按等級對齊方式的排序損失函數來獲得有區分的對齊表示,該函數表示為:

其中,Δ代表邊緣超參數,ψ是一個相似函數,j是迭代負例子。這一損失函數區別于前面僅僅靠余弦相似度判別對齊的好處在于,各自對齊的例子在表示空間中更加緊密的推到一起,達到一定的邊緣設置參數。最后在三個基準實驗上,在給定一個模式查詢的情況下,在所有模式中都找到了相似的示例,驗證了提出的對齊模型在視覺、聲音和文本方面學到了更好的對齊[33]。
多模態深度學習具有極大的發展潛力,大量的研究在對現有的模型不斷地進行改善和創新。除了尋求一切算法結構模型上的突破之外,不斷更新完善數據集,提高多模態深度學習模型運算速度,提高輸出預測準確率,對多模態學習的發展至關重要[55]。在本章列舉常見的多模態任務相應的數據集,多模態學習區分單一模態在數據集上也有很大不同,下面介紹幾種多模態常用的數據集。最初為了對會議室環境下說話人進行更好的研究,便于運用語音視頻處理技術,需要大量的語音視頻數據庫。在這一領域收集的第一個里程碑數據集之一是AMI會議語料庫,這是到目前為止信息量最多,功能最全面的音視頻語料會議庫,其中包含100多個小時的會議視頻記錄,每場會議由4到5個人組成,所有這些都經過了完整的轉錄和注釋,以便人們更好地進行會議室環境下視頻處理和語義分割等方面的研究[56]。另一個重要的數據集是信號語料庫,主要研究說話者和聽者之間的動態關系[57]。
這些數據集通常以人為中心的視覺理解,以及包括情感識別在內的變體,群體行為分析等[58]。例如:對于字母識別,avletters是最常用的數據庫之一,包含來自10個揚聲器的錄音,每個字母重復3次,分辨率為376×288像素和25 幀[59]。后來又進行了改進,avletters2 解決了avletters 的一些問題,例如低分辨率或揚聲器數量有限[60]。具體來說,avletters2 增加了發聲次數,每個揚聲器重復 3 到 7 次和分辨率 1 920×1 080 像素和 50 幀。Pascal數據集:它包含來自20個類別的1 000幅圖像(每類50 幅),其中一幅圖像由5 個不同的句子描述[61]。Flowers數據集:包含102個類,共有8 189幅圖像。在訓練階段使用2 040 幅圖像,其余6 149 幅圖像用于測試[62]。CUB-Bird 數據集:它包含來自200 個類別的11 788 張鳥類圖像,其中5 994 張圖像用于培訓,5 794張圖像用于測試[63]。表3為常用的多模態數據集。

表3 多模態數據集
關于目前的多模態深度學習,未來的發展趨勢主要從以下幾點說起:(1)探索如何應用神經網絡研究多模態學習,還需要進一步研究形成一個以神經網絡為基礎的完善的理論體系結構,這取決于神經網絡的理論體系的成熟發展;(2)與多模態相關的數據集也應該進一步完善,將直接決定深度學習模型的運算速度,輸出預測準確率的高低,對多模態學習的發展也至關重要;(3)不同模態特征在融合過程中會受到噪聲影響,使融合后信息不準確,并且在包含時序關系的多模態學習中,每種模態可能遭受噪聲干擾的時刻也可能不同,因此在融合方式方面看是否還有更適合的方法;(4)現階段的對齊方法顯示對齊的數據信息量較少,且不同模態間信息甚至無法匹配使模型性能嚴重下降,在未來的工作中,還需設計同時進行度量學習和對齊的方法提高相關模型的性能。
隨著深度學習的快速發展,人們獲取信息的方式的不斷更新,由于信息數據的廣泛性,數據庫也不可能包含所需的全部信息,因此建立模態之間的相互聯想能力格外重要,即使在數據信息不足,同樣能夠根據模態間的映射關系獲取對事件的正確認知[64]。當然多模態應用很廣,比較熱門的研究方向用在自動駕駛汽車、多媒體應用和醫療領域等[65]。在這篇文章中,回顧了在深度多模式學習在視聽語音識別、協同標注、匹配和分類以及對齊表示學習上的幾個熱門應用,對它們的具體實現過程作了簡要概述,所提出的試聽語音自動識別模型、統一空間映射模型、統一的多模式匹配和分類網絡模型和跨模態對齊模型都有較好的實驗效果。多模態學習是一個充滿活力的多學科領域,具有日益重要和巨大的潛力。不可否認,將多種模式納入學習問題會對網絡結構、數據處理、目標函數設置等方面產生各種各樣的影響,這在很大程度上是一個有很大挑戰的領域,必然會出現許多新的創新,也期待著多模態學習領域這個方向更加蓬勃發展。