以圖像視頻為中心的跨媒體分析與推理

2021-11-30 05:18:26黃慶明王樹徽許倩倩李亮蔣樹強

智能系統學報 2021年5期

黃慶明，王樹徽，許倩倩，李亮，蔣樹強

（1. 中國科學院大學計算機科學與技術學院，北京 100049; 2. 中國科學院計算技術研究所智能信息處理實驗室，北京 100190）

人類通過多模態協同的方式對世界進行感知與認知。視覺是生物獲取環境信息的一種主要方式，Hubel 和Wiesel通過生物學實驗發現，高級生物通過不同復雜度的組織細胞對視覺信息進行逐步提取與整合，實現視覺場景解構與結構化感知[1]。受上述研究啟發， Marr[2]建立了完整的、可實現的視覺計算理論框架。在語言方面，Chomsky[3]提出了研究人類語言機能的研究范式，并為計算機模擬語言生成奠定了理論基礎。心理學實驗表明，視覺與聽覺之間存在復雜的相互作用關系，即麥格克效應[4]。人類大腦的信息處理機制以圖、文、聲等多模態協同方式進行。基于人腦強大的多模態信息抽象能力，人類的認知過程體現為將多模態信息進行層級漸進的符號概念轉化和符號推理。物理符號系統假說認為智能是用計算機和心理學方法進行宏觀的人腦功能模擬[5]。信息加工心理學將心理過程看作是符號序列的信息加工過程[6]。心物同形論認為認知是對物理現實到人類知覺現實的復雜同型轉換過程，而這一理論被大量借鑒到視覺計算領域[7]。最新的人腦結構研究表明，人類大腦當中通過各種結構的連接組成功能區域來實現從連接到認知的轉換[8]。上述感知與認知理論框架是發展人工智能理論與方法研究的重要依據。

隨著信息技術的不斷發展，人類社會已全面進入網絡互聯時代。網絡用戶群體數量的不斷增長，以及手機、攝像頭等具有強大環境感知能力的終端設備的不斷普及，使得對物理世界與網絡世界的記錄越來越翔實，并呈現跨模態、跨數據源的復雜關聯特性，即不同模態、不同來源的圖像、視頻、文本、音頻通過多源互補方式刻畫同一對象與事件信息。如何對體量巨大的跨媒體數據進行有效管理與利用，是應對重大變化的信息新環境的迫切需要，也是發展新一代人工智能亟待突破的瓶頸問題。

在海量跨媒體內容當中，超過90%的內容通過圖像、視頻等視覺方式呈現，以圖像視頻為中心的跨媒體分析推理技術近年來引發了學術界和工業界的廣泛關注和深入研究[9]。跨媒體分析推理的研究目標是在對視覺、語言等不同模態信息的語義貫通理解基礎上，實現“舉一反三”的類人智能推理，是促使人工智能從感知進階到認知并走向類人智能的關鍵，也是信息科學、計算科學、神經科學、認知科學交叉的國際前沿科學問題。傳統跨媒體處理方式是通過單一模態分析方法，如圖像視頻處理，自然語言處理，語音識別等，對特定模態通道的語義進行獨立分析，然后進行結果融合。這一方式導致了對跨媒體內容的語義理解局限粗淺，難以從其中獲取充分全面的知識，無法應對開放復雜的跨媒體內容演化和多元化的跨媒體應用場景。近年來由于直播、短視頻推薦等新應用的出現和流行，數據的爆炸增長和內容的良莠不齊對網絡跨媒體數據管理與內容服務造成了巨大挑戰。

針對以圖像視頻為代表的海量網絡跨媒體內容，借鑒高級生物的感知與認知機理，團隊對跨媒體內容統一表征與符號化表征、跨媒體深度關聯理解、類人跨媒體智能推理等關鍵技術開展研究；基于上述關鍵技術，研究團隊著力于解決發展新一代人工智能的知識匱乏共性難題，開展大規模跨媒體知識圖譜的構建及人機協同標注技術研究，為跨媒體感知進階到認知建立理論支撐，進一步為多模態分類、跨媒體檢索、事件發現與預測等跨媒體內容管理與服務熱點應用領域提供了可行思路。

1 研究總體框架

跨媒體由不同來源、不同模態的信息以交織融合的方式產生與演化。跨媒體不同模態信息的異構性為跨媒體統一計算帶來了“異構鴻溝”難題。另一方面，相比于傳統單一媒體，跨媒體內容中蘊含更為豐富的語義信息，然而跨媒體數據到語義知識之間存在較大的“語義鴻溝”，導致對跨媒體理解的粗淺和片面。針對海量跨媒體的形式異構、內容復雜、動態演化等特點，研究組針對以圖像視頻為中心的跨媒體分析推理理論與方法開展了深入研究，建立了跨媒體分析推理研究的通用框架與范式，如圖1所示。具體而言，研究組通過符號化與統一表征、深度關聯理解、類人智能推理等方式構建了從數據到知識的歸納通路，通過粗粒度圖譜構建、細粒度圖譜構建和人機協同知識標注平臺實現從知識到數據的演繹通路，最后在跨媒體歸納推理和演繹推理技術框架上，構建跨媒體分析推理引擎技術原型系統，為內容管理與服務提供技術支撐。

圖1 以圖像視頻為中心的跨媒體分析推理技術框架Fig.1 Cross-media analysis and reasoning framework centered on images and videos

2 跨媒體統一表征與符號化表征

網絡跨媒體內容中包含大量的視覺及圖文聯合表達信息，對這些信息的統一表征是實現跨媒體統一計算的基礎性問題，而將跨媒體信息進行符號化轉換則是支撐跨媒體推理和認知的關鍵。然而，盡管近年來圖像分類與檢測技術取得了一定進展，但對跨媒體當中的視覺信息的符號化轉換精度仍處在較低水平。進一步深入分析，針對視覺模態與文本模態的符號化表征方式之間存在的顯著差異，也為跨媒體統一計算與符號化表征造成了本質困難。

為此，研究組近年來開展了如下的研究工作。針對視覺內容的局部、淺層表征在描述性、顯著性和判別性不足等難題，借鑒生物視覺感知理論，對視覺表征進行視覺空間擴展和縱向特征層級融合。引入視覺內容上下文，模擬生物神經元信息傳遞規律，建模視覺基元間相關性和信息傳遞關系，建立了視覺內容的通用符號表征體系。模擬生物視覺層級信息傳遞過程，提出視覺層級表征的遞進式融合方法，實現了動態復雜時空環境下的多尺度視覺目標高效聚焦與跟蹤。針對圖像和文本內容的異構性問題，提出跨媒體符號化統一表示及調和統一表示方法，實現了圖文模態當中從局部到整體的內容語義對齊表示。

2.1 多尺度顯著性視覺表征

針對視覺內容匹配與檢索的需求，提出了描述性視覺單詞和視覺短語的通用提取算法框架。對視覺單詞的空間近鄰關系統計矩陣上的隨機游走穩態結果進行挖掘，得到視覺場景中語義顯著的單詞集合與頻繁共現的視覺詞對。如圖2所示，本文方法通過視覺單詞及其多尺度組合刻畫視覺物體和場景，具有可比擬文本詞和短語的強描述能力。

圖2 描述性視覺單詞和視覺短語的通用提取算法框架Fig.2 Descriptive visual words visual phrases generation framework

所提方法可用于檢索排序等任務，實現了視覺單詞表征能力的階躍，與傳統視覺單詞相比具有顯著精度優勢，檢索的平均精度均值(mean average precision, MAP)相對提高19.5%，重排序精度相對提高12.4%，處理速度快11倍以上[10]。

2.2 視覺目標與多模態符號表征

針對復雜的圖文內容，提出一種圖像和文本的多粒度符號信息建模表示方法，將圖像利用物體檢測技術提取到包含顯著物體的圖像區域并編碼成視覺符號表征，實現圖像?文本的聯合自注意統一表征，并分別將圖像和文本映射到隱含聯合表示空間。使用Wordpiece Token得到文本詞匯、短語、句子符號表示，并使用自注意機制分別學習圖像和文本內小塊的關聯，進一步聚合小塊的信息得到圖像和文本的隱含空間表示。其中建模自注意機制的層包括多頭自注意力子層和對每個位置的前饋網絡子層。使用難例挖掘配合優化三元組損失和體現數據高階結構特性的三角損失學習圖像和文本到隱含空間的映射函數。基于該算法進行了圖像文本匹配檢索的實驗，在FLICKR30K數據集上性能超過當時最佳算法，在MSCOCO數據集上性能和最優算法相當，并且檢索速度更快[11]。

2.3 跨媒體調和學習與統一表征

跨媒體數據對象之間存在復雜的關聯關系。考慮到異構媒體數據內容和結構的復雜關聯，本項目突破傳統數據擬合學習的桎梏，提出了一種基于高斯過程隱變量模型的非線性關聯學習框架，通過跨模態數據的相似度信息來表示數據間的拓撲結構，并通過設計合理的正則約束，使得跨模態觀測空間的拓撲關系能夠被有效通過隱含子空間進行保持，從而實現了拓撲保持的跨模態表示學習；此外，所提方法還能夠利用跨媒體對象間的語義關系作為先驗知識來指導跨模態表示的學習，實現了異構數據間的有效關聯建模；在海量跨模態數據庫上的多視角分類和跨模態檢索等任務上的算法評測結果表明所提方法具有較好的性能表現。

如圖3所示，進一步，通過深入挖掘跨模態對象間的內在聯系，對跨模態數據間的不同關聯結構構建了一種調和約束，以隱含一致表示的拓撲表示為橋梁，建立了跨模態高斯隱變量模型的參數空間，更好地實現了異構信息間的共享機制，在4個標準數據集上進行的大量實驗結果表明了所提非線性非參數跨模態實體關聯方法相比于傳統線性、參數化及深層非線性的跨模態統一表征方法具有更好的模型容量，能夠更有效和精確地對跨模態數據對象的深層高階非線性關系進行刻畫[12]。

圖3 基于高斯過程隱變量模型的跨媒體調和學習Fig.3 Harmonized multimodal learning with gaussian process latent variable models

3 跨媒體深度關聯理解

與傳統單模態內容理解方式不同，跨媒體依賴于對不同模態內容的綜合理解。同時，由于模態互補性、異構性和信息不均衡性，針對特定模態的獨立語義分析容易造成對跨媒體理解的粗淺、片面等現象。為此，研究組針對全局、層次化、細粒度的跨媒體語義理解和語義保持的內容轉換生成等跨媒體深度語義關聯理解技術開展系統深入的研究，目標是從復雜跨媒體內容中獲取全面、深入的語義信息，并進一步實現跨模態內容的演繹生成，這也是使機器具備類人跨模態信息轉換的重要技術。

3.1 海量高維數據場的全局語義映射

針對海量網絡圖像視頻缺乏高質量語義標注及部分標簽低質沖突等難題，借鑒格式塔心物同型論，在圖像視頻數據上構建數據場(特征關聯拓撲圖)，并在數據的不完全語義信息上構建語義場，進而建立數據拓撲結構與語義向量結構之間的數據?語義場同型化映射框架。

從散度場角度，基于數據場多層拓撲信息擴散建模思想，提出了可擴展半監督誘導式多核學習方法，融合多種互補視覺特征提高學習能力。通過多核融合的近似近鄰搜索來確定有信息量的緊湊無標注訓練數據子集。通過無標注域的條件期望一致性實現在無標注數據的語義標簽擴散，學習過程快速有效。所提方法具有良好的理論收斂特性，相比于傳統方法具有更低的算法復雜度，在處理圖像分類和個性化圖像重排序時具有更好的性能表現，需要的用戶交互更少。所提方法[13]是利用無標注網絡數據進行半(弱)監督視覺學習的早期工作之一。

從旋度場角度，提出了針對海量無序標注的群體語義修正模型，從旋度場角度對標注不一致性進行建模和因子化。基于成對比較的隨機圖霍奇排序，構建Erd?s-Rényi隨機圖和隨機正規圖逼近，從不完整及不平衡的數據、視頻的質量分值和用戶判斷不一致性中得到成對比較數據的霍奇分解，實現了群體不一致標注的精確修正。在不同的群體標注數據量下，證明了兩種隨機圖設計都具有良好的采樣近似特性。在大規模直播視頻質量評估任務上驗證了所提方法的有效性，該方法也適用于標注質量難以控制的網絡眾包信息處理。該項研究為群體語義標注的組織實施方式提供了指導，為將群體智能引入到圖像視頻理解領域提供了理論保證和關鍵技術[14]。

3.2 層次化、細粒度語義理解

借鑒人類的層次化、概念化、實體化漸進認知過程，建模層次化語義關聯結構，建立面向極多類數據的層次化視覺特征與層次分類聯合學習框架，實現了從粗粒度語義到細粒度語義的漸進圖像視頻語義理解。

1) 提出了局部到整體的視覺語義層次化表示方法，對視覺表現和語義概念間的概率隸屬關系進行建模。通過組稀疏編碼，獲得更加準確的圖像層面的稀疏表示，利用混合范數正則化學習具有結構稀疏特性的判別性視覺概念隸屬度分布。在不同概念層級上進行投影和距離計算，實現了一種新的圖像語義度量。所提視覺語義描述符合人類語義理解習慣，具有天然的可解釋性，適用于包括大規模語義圖像搜索，圖像標注和語義圖像重排序等在內的主流視覺應用場景[15]。

2) 提出了層次化語義類別指導的視覺特征學習方法。對于在層次化類別結構當中的每個中間節點，同時學習一個判別性字典和分類模型，不同層次上的字典通過挖掘不同粒度的判別性視覺特性學習得到。低層細粒度類別的字典集成了其祖先節點的字典，在低層的類別通過所構建的字典中的多尺度視覺共同描述。在主流大規模極多類數據集上的實驗表明所提方法在當時取得了最高的識別精度，在處理極多類分類問題時達到更好的精度?效率折衷。研究成果[16]被CVPR大會主席、IJCV副主編等多名國際重量級學者重點引用。

3.3 跨媒體內容轉換生成

跨媒體內容轉換生成是在不同模態的深入理解基礎上，在語義保持的約束下進行不同模態的內容轉換生成，如從視覺到文本的內容轉換生成(圖像/視頻概述[17-18])，從多模態到視覺的內容轉換生成(圖像內容生成[19])。

在從視覺到文本的內容轉換方面，視頻自然語言描述任務是在對視覺內容理解的基礎上，生成對視覺內容的自然語言描述，是一種更深層次的跨媒體內容理解任務。當前的方法通常是引入跨模態注意力機制，動態地整合輸入信息進行建模，最終生成與源輸入語義對應的語言描述或者圖像內容。然而，現有方法忽略了不同模態內容的結構信息，從而導致了語言描述結果不精確且效率低下等難題。

為克服這一問題，在自然語言描述方面，利用句法信息的先驗知識來指導視頻描述中多模態特征的融合，可設計一種語法指導的分層注意力模型。引入了一種分層注意力機制，同時利用語義和句法線索來整合2D圖像特征、3D運動特征和句子上下文特征。該模型包含一個內容注意力模塊和一個句法注意力模塊，兩者分別從時序的維度和模態的維度對上述特征進行聚合。如圖4所示，整個內容轉換過程包含3個部分：特征編碼器、分層注意力模塊、描述生成器。在大規模公開數據集上的實驗表明，合理利用2D圖像和3D運動特征有利于視覺單詞的生成，而有效利用句子上下文特征有利于非視覺單詞的生成[17]。

圖4 句法指導的視頻概述生成模型框架Fig.4 Syntax-guided video caption generation framework

此外，在視頻描述任務中，具有最好性能的處理方式為基于注意力的模型，它們通過將顯著的視覺成分和句子進行準確關聯。然而，現有的研究遵循一般化的視覺信息處理過程，即在等間隔采樣的視頻幀上進行視覺表觀特征提取和運動信息特征提取，從而不可避免地遇到視覺信息表征冗余，對內容噪聲敏感和不必要的運算開銷等難題。

為此，提出一個即插即用的選幀網絡Pick-Net，在視頻概述過程對包含更多信息量的視頻幀進行選擇。如圖5所示，基于標準的編碼器?解碼器結構，設計了一種基于強化學習的序列化網絡訓練過程，其中每次幀選擇的獎勵被設計為最大化視覺多樣性和最小化句子生成與真實句子之間的差異性。得到正向獎勵的幀選擇候選結果將被選擇，并且編碼器?解碼器的隱含表示將被更新用于未來的處理過程。這個過程一直持續直到整個視頻序列處理完畢。相應地，一個緊湊的幀子集能夠被有效選擇來對視覺信息進行表征并且無性能損失地進行視頻概述。實驗結果表明所提方法在僅僅選擇6～8幀的情況下就能獲得與傳統方法相近的視頻概述結果[18]。

圖5 基于幀選擇的高效視頻概述方法Fig.5 Efficient video captioning based on PickNet

在從文本到視覺的內容轉換生成方面，其核心難點問題在于文本信息的信息量遠遠小于視覺模態的信息量，且文本與視覺模態的異構性也為這一任務帶來了更大的挑戰。

針對上述問題，提出一種增量推理的生成對抗網絡，通過推理目標圖像中視覺的增量和指令中知識信息的增量之間的一致性，來保證生成結果的正確性。如圖6所示，該模型包括3個模塊，分別是指令編碼器、圖像生成器和推理判別器。對于指令編碼器，分別采用單詞級別和指令級別的GRU網絡作為編碼器去對當前指令和歷史指令進行分析，得到知識信息的表示。對于生成器，采用多層感知機將上述的表示投影到語義增量的特征圖，然后將其與原始圖像的特征圖進行合成。之后這個合成的表示和原始圖像通過圖像解碼器來生成目標圖像，其中原始圖像作為一種具有指示作用的輔助。最后，利用推理編碼器來推理歷史視覺信息，保持視覺增量和當前指令的一致性。其中視覺增量從原始圖像和目標圖像的特征圖中提取。通過采用多模態條件判別器對上述的一致性進行衡量，保證了生成圖像的邏輯合理性。通過將圖像中的視覺增量和用戶意圖的語義增量進行連接，解決了文本與圖片交互生成的問題[19]。

圖6 基于增量推理的圖片內容生成對抗網絡Fig.6 Generative adversarial network with linguistic instruction by increment reasoning

4 類人跨媒體智能推理

推理的本質是基于某些前提條件找到結論的過程，是人類有別于其他生物的高級思維能力。從計算與人工智能角度而言，實現機器推理的關鍵是在現有數據表征結構(符號、向量、矩陣)基礎上，對數據對象之間的關聯性進行人類可解釋的挖掘、補全與推斷。然而，實現機器的類人推理目前仍存在較大困難。首先，機器對多模態信息的符號化轉換未能達到人類水平，從而為后續的推理任務帶來阻礙。進一步來看，機器對信息的處理方式與生物神經系統存在本質區別，機器以單向的前饋或反饋機制為主要方式，而人類認知系統中的信息處理通路與交互反饋更加復雜。最后，人類所具有的舉一反三甚至直覺頓悟等能力目前機器尚不具備。

基于上述現狀，研究組近年來對類人跨媒體智能推理技術開展了初步的研究。具體而言，跨媒體機器推理的“類人”特性可體現為機器推理的可解釋性、推理過程的人機可協同性以及主動交互性等。其中，可解釋性推理著力于解決現有數據驅動方法機理難以解釋且難以泛化的固有缺陷，實現表征、組件和結果的可解釋性，提高人機互信水平；人機協同群智推理是在海量用戶產生噪聲知識的基礎上，通過數據學習和知識指導實現潛在實體對象關聯的推斷與補全，提高跨媒體知識量和稠密度；主動交互式推理是在人機之間充分的多模態信息交換基礎上，完成各類語義標注、內容轉換生成、事件預測等任務。

4.1 可解釋跨媒體推理

目前，大多數視頻事件分析算法都是基于端到端的深度模型，具有黑盒屬性(black-box)，阻礙了算法的實際應用。一種可解釋性視頻事件分析的方法是基于概念表征進行事件分析。但是現有基于概念表征的視頻事件識別方法僅利用簡單的池化方法處理視頻幀的概念表征以獲取整個視頻的概念表示，未充分考慮概念的時序存在模式、概念間的關系以及概念與事件間的關系。基于此，如圖7所示。

圖7 概念挖掘網絡Fig.7 Concept knowledge mining network

本文利用場景、物體、動作概念檢測器獲取初始概念表征，提出概念知識挖掘網絡，研究概念與事件間的依存關系，從而獲取豐富且完備的視頻概念表征，進行可解釋性的視頻事件識別。概念知識挖掘網絡主要包含初始概念表征的提取，域內概念知識挖掘和域間概念知識挖掘以及概念表示融合模塊。時序概念感受野動態挖掘網絡的核心模塊是時序動態卷積。時序動態卷積包括系數生成和結果融合兩個模塊，系數生成模塊可以根據具有不同感受野的卷積核的輸出結果生成加權系數，用于融合不同時序感受野下的概念表征，從而得到完備的視頻概念表征。實驗結果表明，所提算法[20]在FCVID、ActivityNet等主流大型事件識別數據集上均取得較好的事件識別性能，同時所提算法也可以對事件識別結果進行可解釋性分析。

在跨媒體問答任務當中，針對現有隱式推理方法缺乏可解釋性，而顯式推理方法需要額外的標注信息的問題，從統計建模的角度出發，分析兩類方法優化過程的主要差異。分析結果表明隱式推理方法缺乏足夠解釋性的根本原因是缺少對推理過程的直接建模。如圖8所示，考慮到自然監督條件下缺少回答程序的標注，假設問題文本之下存在一組隱變量z代表推理過程，并重構優化問題為優化問題、答案以及推理過程隱變量的聯合分布，對推理過程進行直接建模。通過變分推斷方式對優化問題進行求解，并采用基于變分自編碼器的方法對分解得到的模塊進行建模，模型的每個部分都是從原始的聯合分布建模推導得到，保證了建模過程可解釋性。將本研究推導得到的模型與現有的3種使用不同融合策略的隱式推理方法進行結合，在真實數據集以及合成數據集上進行實驗，都取得了性能的提升，并且在推理過程可視化方面較基線更可解釋[21]。

圖8 過程可解釋的跨媒體問答模型Fig.8 Interpretable visual question answering

4.2 人機協同群智推理

隨著互聯網的迅速發展，人們可接觸到的數據量日益增長。為緩解信息過載問題、改善用戶體驗，推薦系統得到廣泛應用。然而，傳統推薦方法的性能易受到數據稀疏性和冷啟動問題的制約。為此，將知識圖譜作為輔助信息的推薦算法得到大量關注。現有結合知識圖譜的推薦算法大多使用實數向量在歐氏空間中進行建模，然而，實數向量的內積不具備內在的反對稱性且表達能力有限。為此，研究組提出了基于四元數的協同知識圖譜推薦網絡[22]，其框架如圖9所示，將用戶?項目交互矩陣及知識圖譜構建為協同知識圖譜，利用四元數及其漢密爾頓乘積實現三元組旋轉匹配的語義規則，并實現結合注意力機制的偏好傳播與聚合方法，從而進一步提高個性化推薦的精準程度。

圖9 基于四元數的知識圖譜推薦方法Fig.9 Quaternion-based knowledge graph network for recommendation

具體而言，利用四元數漢密爾頓乘積可建模旋轉的性質，設計三元組旋轉匹配的語義規則。為進一步提升推薦效果，可以采用結合注意力機制的偏好傳播與聚合方法。沿協同知識圖譜關系路徑，利用每個實體的鄰居實體信息輔助偏好的學習，使網絡更適用于推薦任務。利用三元組的可信度分數度量每個實體和其鄰居實體連接的強弱程度，進而求取該路徑的注意力分數。基于每個實體本身的嵌入和其鄰居嵌入得到每個實體的最終嵌入。

4.3 主動、交互式推理

對于跨模態相關的任務，現有模型往往都需要較大規模的標注數據集來訓練模型，且要求數據集內的視覺內容足夠豐富，文本描述足夠詳細，以使得模型能夠很好地感知跨模態信息并將其關聯理解。但是，數據的標注需要消耗很大的人力物力以及時間，而跨模態數據又因為涉及不同模態的理解，對標注的要求高于純視覺任務(分類、分割等)，標注跨模態數據集更是代價極大。為了解決這個問題，可將跨模態任務和主動學習相結合進行推理[23]。

為此，提出一種面向圖像描述生成任務的結構化語義對抗主動學習框架，利用主動學習挑選值得標注的、更有指導意義的數據，從而在減少標注的花費的同時，又能夠使模型推理學習到最有價值的數據。

具體如圖10所示，基于跨模態的結構化語義框架和對抗學習的主動學習模型，將視覺圖像中的關鍵物體、物體狀態和物體間聯系表示為一個結構化的特征表示，進而判斷樣本的語義豐富度。該模型由3部分組成：結構化語義構建模塊、多任務學習模塊和標注狀態判別器。結構化語義構建模塊提取關鍵物體的區域特征，并將其編碼為結構化的語義表示；之后，多任務學習模塊計算了基于詞級的快照損失和基于句級的重建損失，并以此更新模型；最后，狀態判別器使用對抗學習機制判別樣本的標注狀態，并以此選取有價值的樣本。作為模型關鍵部分的狀態判別器中引入了對抗學習的機制。通過已標注樣本和未標注樣本在判別器內的對抗學習，使得結構化表示變得更加可分、更加充分，同時使得判別器判別有價值樣本的能力更加強大。

圖10 圖像概述生成的結構化語義對抗主動學習Fig.10 Adversarial active learning for image captioning

用自然語言預測視頻中潛在的未來事件是一項嶄新且具有挑戰性的交互推理任務，可廣泛應用于安全輔助駕駛、視頻監控(安防)、和人機交互等重要場合。該任務要求能夠推理未來事件的不確定性和多樣性，產生合理且多樣化的預測和描述。對于這種跨模態交互推理，提出了隱含隨機變量采樣的跨模態多樣性表示學習網絡[24]。通過引入隨機隱變量因子顯式地捕獲視頻中未來事件的隨機性和多樣性，對異質模態數據之間的復雜關聯關系進行建模，以此生成合理的且多樣化的自然語言語句來描述潛在的未來事件。引入隱變量因子分別對事件宏觀主旨以及視覺注意力進行建模。一方面，對應多種潛在的事件主旨，生成多樣性的語言描述;另一方面，在特定事件主旨下，模型使用隨機性注意力機制，針對性地改變視頻關注點，更精準地定位視頻中的線索內容。這兩個關鍵點使得提出的算法能夠全面地且精準地對視頻未來事件進行預測和描述。

如圖11所示，引入一種宏觀的隱變量因子，并使其符合特定的高斯分布，以對預測事件的宏觀特性(主旨、表達風格)進行表征和決策。技術效果：在對視頻進行預測性描述時，模型首先對此宏觀的隱變量因子進行隨機采樣，進而根據不同采樣值生成多樣性的語言描述，對應多種潛在的事件；還引入一種微觀的隱變量因子，構建一種隨機性的注意力機制。此注意力機制模擬視覺關注點的隨機性變化，根據事件宏觀特征(主旨)針對性地挖掘可見視頻中的細節線索。技術效果：在對視頻進行預測性描述時，模型對此微觀的隱變量因子進行采樣，進而根據不同采樣值改變視頻內容的關注點。

圖11 跨模態推理網絡生成過程示意Fig.11 Generation process of the proposed structured stochastic recurring network

5 跨媒體知識圖譜構建與演化

隨著移動互聯網滲透到社會生活的各方面，各大網絡平臺跨媒體數據呈現爆炸性增長和快速演化態勢。然而，從碎片化數據難以直接提取系統完備的跨媒體知識，相關領域仍然面臨跨媒體知識匱乏的困境。相比于傳統的知識圖譜構建任務，跨媒體知識工程面臨更加嚴峻的技術挑戰：1)跨媒體知識圖譜的構建依賴于不同模態實體的有效獲取，雖然目前計算機已經能夠識別各類視覺物體和文字實體，但距離通用的實體檢測仍具有較高的技術難度，其主要難點在于對于新增實體無法有效識別；2) 不同模態的實體之間的關系種類與層級繁多，依賴全自動的數據關聯分析技術雖然能夠在短期內擴充圖譜的知識條目規模，但總體而言存在知識重復、冗余、質量較低且系統智能演化緩慢的不足，而另一方面單純依賴人工標注的方式構建的跨媒體知識圖譜存在標注緩慢、效率低下等問題，難以有效適應跨媒體內容的動態演化。

為了應對上述挑戰，研究組以電影知識為核心，構建了人機協同的跨媒體知識加工和演化更新基本技術框架。具體而言，所構建的跨媒體知識圖譜包含兩個層面的知識：1) 粗粒度知識，圍繞特定的電影刻畫了大量的屬性知識和時空共現信息，如演員、導演、海報、評論、相關報道、影視主題曲等；1) 細粒度知識，針對某個電影內容，刻畫電影鏡頭中的人物、表情、動作、關系、交互方式、字幕語義等知識。通過粗粒度和細粒度兩個層級的知識標注，形成了以電影為主題的多層次多粒度跨媒體知識，從而為后續的跨媒體分析推理提供支撐。

5.1 粗粒度電影知識圖譜

跨媒體知識工程旨在通過收集分布在互聯網各影片平臺中的跨媒體數據，從而構建節點規模億級的電影粗粒度知識圖譜數據庫，并通過開放網絡接口的方式實現高效的知識共享服務。

為保證知識圖譜的體量與數據質量，圖譜中數據主要來自國內外主流的視頻網站、影片數據庫、視頻評論網站，例如IMDB、Amazon、Metacritic、AllMovie、Rotten Tomatoes、豆瓣、微博、嗶哩嗶哩、維基百科等。其中主要包含以下數據類型：

1)文本：影片基本信息、演員信息、角色臺詞、專業影評、用戶評論、新聞；

2)圖片：劇照、演員頭像、演員其他照片等；

3)視頻：精彩片段、幕后花絮、視頻報道等；

4)音頻：電影片頭曲、主題曲、插曲等；

5)關系：劇照中的角色關系、影片劇集關系、用戶觀影記錄等。

構建電影粗粒度知識圖譜的技術框架如圖12所示，主要包括數據源調研、數據采集、數據存儲與服務接口、數據演示等5部分，其中技術難點主要包括數據對齊和數據結構設計。

圖12 粗粒度跨媒體知識圖譜構建系統Fig.12 Coarse-grained cross-media knowledge graph construction system

一方面，未對齊的數據不僅會產生冗余、低信息量的節點，更可能降低圖譜中知識的可靠性。具體而言，同一影片在不同平臺的名稱并不一定相同，例如《肖申克的救贖》《月黑風高》《刺激1995》均可以代表同一部電影作品；在一個平臺中，相同的名稱可能對應不同的影片，例如在IMDB中通過關鍵詞“Terminator”將會同時檢索到電影《終結者》及于1991年和2001年發行的兩部影片。為保證數據高度對齊，同時考慮到IMDB的權威性與完備性，擬優先獲取來自兩類平臺的數據：

1)IMDB頁面中包含的外部鏈接，例如IMDB電影頁面包含的Amazon商品頁面、Metacritic電影主頁等，如圖13(a)所示。

2)外部鏈接中包含IMDB電影頁面的平臺，例如豆瓣、維基百科等，如圖13(b)所示。

圖13 爬取的兩類網站Fig.13 Two types of websites crawled

另一方面，不合理的數據結構不僅會降低知識檢索的效率，更導致大量孤立節點，降低圖譜知識密度。在知識圖譜中，存在節點、關系和屬性3種數據存儲方式。如圖14所示，將具有唯一性的數據存儲為節點，如影片、演員、編劇角色、公司、新聞、專業影評、用戶評論、劇照、主題曲、花絮彩蛋等；將重復性很高的數據存儲為屬性，如性別、年齡、影片時長、發行年份、電影分類、評分等；將具有重要語義信息的數據存儲為關系，如導演了、參演了、評論了、獲得獎項、想看過再看等。通過設置合理的數據存儲方式，一方面可減少語義信息較少的冗余節點，另一方面可減少相鄰節點過少的孤立節點，從而提高圖譜中有效知識的密度。

圖14 電影粗粒度知識圖譜節點關系示意Fig.14 Diagram of node relationship of coarse-grained film knowledge graph

跨媒體知識工程的發展前景為實現跨媒體知識的自主進化和泛化。一方面，針對跨媒體數據快速更新演化的特點，如何及時準確地提取跨媒體信息，實現跨媒體知識的自主增長與進化，成為亟待解決的問題；另一方面，針對圖譜中知識缺失問題，需設計高效的跨媒體知識補全算法，通過有效的知識泛化提高圖譜中跨媒體知識的密度。

5.2 細粒度電影知識圖譜與人機協同知識標注

結合跨媒體分析推理技術需求，開展構建細粒度跨媒體知識圖譜，并針對電影知識圖譜構建任務目標，建立了如圖15所示的人機協同知識標注系統。由于電影包含了豐富的圖、文、聲多模態信息，故選擇電影視頻(包括電影、紀錄片等不同類型)作為跨媒體知識圖譜構建的基礎數據。該跨媒體分析推理引擎中包含完備的電影視頻語義概念抽取的技術，包括視頻事件識別、動作識別、語音識別、表情識別、人臉識別、OCR、場景分類、物體檢測、字幕解析等算法模塊，對已經進行鏡頭分割與聚合的視頻數據進行語義粗標注。在電影粗標注的基礎上，搭建了群智標注平臺(如圖15所示)，引入人類智慧對標注結果進行定期的糾錯和更新，并利用修正過的視頻語義概念信息對事件識別、動作識別、場景分類等語義粗標注模型進行進一步更新和優化，改善語義粗標注算法在后續標注當中的準確率。目前，已完成了264部中文電影的知識標注，知識圖譜的規模達到節點2 707 350，邊(事實) 4 159 220的規模。

圖15 人機協同細粒度圖譜標注系統Fig.15 Fine-grained knowledge graph labeling system with human-computer collaboration

在后續研究工作當中，將進一步對500部英文電影和紀錄片進行知識標注，并不斷完善和優化跨媒體分析推理引擎。

5.3 跨媒體分析推理引擎

基于上述關鍵技術研究成果，以億級跨媒體數據的跨媒體統一表征索引與檢索為基礎，構建跨媒體分析推理引擎。該計算引擎的目標主要有3個層面：1) 驗證跨媒體知識對跨媒體分析推理的支撐作用；2)通過跨媒體分析推理進一步提高跨媒體知識生產效率；3) 通過跨媒體分析推理各技術子系統的集成，進一步突出可解釋、可泛化分析推理的技術特色。目前該跨媒體分析推理引擎主要包含如下幾個部分：

1) 跨媒體統一表征與檢索，實現億級以上跨媒體數據的統一可度量表征、高效索引與檢索；

2) 跨媒體問答引擎，包括人問機答和機問人答兩部分，為圖譜演化、內容服務提供支持；

3) 跨媒體遷移引擎，針對內容監測與內容服務的多元化應用場景，利用無標注或者少量標注跨媒體數據進行遷移與泛化學習，滿足各類開放域應用需求。

視頻計算引擎，針對各類網絡視頻內容，實現內容識別預警，跨模態的內容搜索定位和視頻事件的推理預測，為視頻內容監測與服務提供技術支撐。

6 結束語

本文介紹了研究組近年來以圖像視頻為中心的跨媒體分析與推理方面的研究工作，提出了統一表征、關聯理解、類人推理等方法，開展構建跨媒體知識圖譜和支撐知識圖譜構建的各類技術平臺，初步建立了數據驅動與知識指導相結合的跨媒體分析推理技術框架。可服務于跨媒體內容管理與服務等應用場景。

從跨媒體分析推理技術的發展前景來看，跨媒體知識的自主高效演化與可解釋、可泛化的類人跨媒體分析推理將繼續成為未來相關領域的前沿熱點研究問題，也是通向強人工智能的關鍵瓶頸。為此，結合領域前沿研究趨勢，研究組針對跨媒體分析與推理的核心難題進行集中研究與攻關，擬從以下幾個方面具體開展未來工作：

1) 現有技術已能從不同模態數據當中檢測出不同類型的實體，如人物、物體、地標建筑、事件、主題等，然而，相比于實體數量，跨媒體知識圖譜中的關系知識表示數量規模仍有待提高(平均每個實體包含的關系知識三元組不超過5條)。為從根本上提高跨媒體連接知識的稠密度，研究組擬對多模態實體提純、鏈接與多模態關系的發現、補全等前沿技術問題進行定義并構建相應的數據集，并在此基礎之上形成相關的技術突破。

2) 針對跨媒體知識演化更新緩慢的難題，深入開展深度人機協作的跨媒體分析推理技術，并在跨媒體知識圖譜構建當中構建相應的原型系統。擬從個體協作和群體協作兩個層面開展相應研究。在人機個體協作方面，針對跨媒體事件語義理解、內容轉換與生成等復雜跨媒體任務特點，以主動學習和問答交互式學習為技術主線，開發人機問答博弈系統，建立人問機答和機問人答相互博弈演化的跨媒體知識更新框架。在人機群體協作，深入研究群智挖掘與推薦技術，實現“標一當百”的跨媒體群智計算，并將其應用在跨媒體知識工程當中。

3) 突破現有跨媒體知識圖譜當中由于大量時空偶發貢獻造成的虛假或不合理關聯信息，進一步開展跨媒體事理關系圖譜的構建，刻畫深層次跨媒體事理知識。

4) 深入研究機理、過程、結果可信的魯棒跨媒體分析推理理論方法。結合符號主義與聯結主義，研究數據去偏置的因果學習和因果辨識與組合推理等關鍵技術，實現公平、可信、可泛化的跨媒體分析推理技術框架。