基于人工智能的跨媒體感知與分析技術研究*

2020-03-25 07:34:46張正強張家亮周世杰劉建新

通信技術 2020年1期

李斌，張正強，張家亮，周世杰，劉建新

（1.成都三零凱天通信實業有限公司，四川成都 610041；2.電子科技大學，四川成都 610054）

0 引言

隨著新媒體技術的飛速發展，媒體廣泛存在于互聯網、廣播電視以及視頻監控等各個領域。跨媒體既表現為包括文本、語音、圖像以及視頻等混合介質形態，又表現為跨越不同媒介的傳播和表達方式，還表現為覆蓋網絡空間和物理空間的媒體融合的復雜關聯關系[1]。如何從形態多樣、分布廣泛、關系復雜的海量跨媒體資源中快速獲取和準確表達有價值的知識，已成為亟待解決的問題。

為搶抓人工智能發展的重大戰略機遇，加快建設創新型國家和世界科技強國，國務院在2017年發布了《新一代人工智能發展規劃》（國發〔2017〕35號）[2]，其中16次提到跨媒體相關內容，包括“跨媒體協同”“跨媒體智能”“跨媒體感知計算”等，充分表明跨媒體感知與分析已經成為新一代人工智能應用的重要領域。人工智能技術為跨越文本、語音、圖像以及視頻的媒體知識表征，跨越時間和空間的媒體分析推理，為形成涵蓋數十億實體規模的多源、多學科和多數據類型的跨媒體智能應用指出了方向。

1 跨媒體智能感知與分析技術

1.1 跨媒體智能感知技術

1.1.1 并行文本數據采集與感知

文本數據源大規模并行采集技術針對全球的開放數據源，包括主流媒體與自媒體（如國內的微信、微博、知乎，國外的Twitter、Facebook等）的多語種文本數據進行分布式、實時化和增量化采集。

1.1.2 多通道視頻數據爬取與感知

多通道分布式爬取技術針對種子地址URL進行多通道建立，包括登錄驗證、DNS解析緩存、打碼、解析以及下載等，實現互聯網海量視圖像數據的分布式集群采集。大規模視頻流拉取技術對主流視頻監控廠商的終端接入方式、流媒體格式及解碼技術等進行研究，實現在線視頻碼流拉取與解碼。

1.1.3 跨媒體數據知識統一表征

深度神經網絡在大數據分析中不斷取得突破性成功，給跨媒體關聯表征帶來了新思路。針對不同的跨媒體數據表現形式，構建基于規則的知識圖譜，使用統一的結構化數據進行表征學習，通過深度神經網絡提取出高度抽象的特征，并基于此抽象特征進行跨媒體智能感知與分析任務。

1.2 跨媒體智能分析技術

1.2.1 文本語義分析

文本、語音以及音樂等時序數據通過深度神經網絡模型，利用文本數值化表達、文本關鍵詞提取、上下文關聯信息獲取、全文信息化檢索、多語種語音識別和習慣性表達等，抽象形成基于神經網絡的文本大數據，從而實現高效的語義識別。

1.2.2 視頻內容理解

在不斷累積的訓練樣本數據中抽取關鍵幀，將長視頻分割為短視頻或圖像，對深度學習目標檢測算法進行訓練，形成視圖像智能識別模型引擎，然后通過視頻內容分段、內容歸類、同主題跟蹤等技術自動識別視圖像數據，并生成視頻內容類型屬性（如色情、暴恐、政治有害等不良內容）[3]。

1.2.3 目標及場景識別

深層神經網絡模型具有強大的特征提取能力、表達能力和泛化能力，可實現非約束場景下監控視頻中的目標搜索和場景識別。以最常見的人臉識別為例，提取人臉的面部拓撲幾何關系和深層特征表達，有效應對化妝整形、俯拍角度、戴口罩以及戴墨鏡等局部遮擋和有效目標偏小、光照不足、分辨率低帶來的環境干擾。

1.2.4 融合糾錯的媒體要素標記

基于深度神經網絡的卷積層級網絡結構和回復式網絡結構，充分挖掘媒體內部、媒體之間的多級關聯關系，同時利用多任務學習框架平衡媒體內語義類別約束和媒體間成對相似性約束學習過程，發現媒體中存在的中斷、突變、跳轉以及翻轉等錯誤，對跨媒體的媒體要素標記進行融合糾錯。

2 技術體系設計

傳統的多媒體處理技術已無法應對暴恐、欺詐、虛假新聞以及政治有害等不良內容通過文本、視頻和圖像進行肆意傳播。為應對現實應用中產生的海量多媒體數據，迫切需要一種跨媒體技術體系能夠使用相同的特征感知、處理和應用不同的媒體數據，并應用于輿情分析、新聞追蹤、情報獲取、預警預報以及遠程教育等領域[3-4]。

整合文本和視圖像感知與分析、跨媒體數據知識表征、跨媒體智能描述與檢索、跨媒體知識挖掘與推理等技術，使技術體系具有跨媒體知識特征標記和關聯展示能力、多種直觀可視化呈現智能分析結果能力，核心在于跨媒體智能感知與分析平臺設計[5]，如圖1所示。平臺從架構方面設計，至下而上劃分為基礎設施層、跨媒體數據感知層、跨媒體數據分析層和應用展示層4層。平臺從功能上設計，劃分為網絡空間媒體感知子系統、物理空間媒體感知子系統、跨媒體一體化智能分析子系統和跨媒體統一展示子系統4大子系統。

圖1 跨媒體智能感知與分析平臺設計

（1）網絡空間媒體感知子系統：實現對網絡空間尤其是互聯網新媒體數據的獲取和感知，包括針對不同信息源（如網站、APP、微信、微博等）的多通道建立和數據爬取，以及網絡、存儲、計算等硬件資源利用，并完成數據知識表征工作。

（2）物理空間媒體感知子系統：實現對物理空間尤其是視頻監控系統數據的獲取和感知，包括監控視頻、門禁報警、車輛定位等基礎設施數據接入，以及視頻特征提取、視頻結構化、軌跡生成等數據預處理任務。

（3）跨媒體一體化智能分析子系統：實現對網絡空間和物理空間跨媒體數據的知識圖譜構建和智能分析推理，包括多模型視圖像識別引擎、視頻指紋庫、領域知識庫、相似度計算、場景關聯分析和視頻碼流分析等任務。

（4）跨媒體統一展示子系統：直接面向用戶實現跨媒體數據的各類應用，包括態勢呈現、內容歸類、同主題跟蹤、目標搜索、視頻解碼大屏幕顯示以及人機交互界面等任務。

3 基于人工智能的技術實現

3.1 多通道網絡數據爬取與感知

基于遠程字典服務（Remote Dictionary Server，Redis）作為基礎數據的分布式應用，擴展跨媒體數據內容獲取的廣度和深度，與分布式并行爬取技術進行融合，將數據采集從單純的網頁來源擴展到網站、APP、公眾號、監控視頻以及車輛軌跡等多通道訂閱/發布。

面向頻道的信息采集與感知。Redis可以實現客戶端通過訂閱需要的頻道獲取對應信息，一旦有新的信息出現，就會自動通過該頻道發送到指定位置，適用于對實時性、完整性要求較高的媒體數據感知，如廣播電臺、有線電視以及視頻監控等領域，如圖2所示。

面向模式的信息爬取與感知。Redis可以通過模式匹配，不僅僅爬取已訂閱頻道的信息，更能夠爬取與已訂閱頻道直接或間接關聯的對應信息，還可以定制不同的爬取深度和廣度，適用于分布廣泛、信息零散的媒體數據感知，如網站、自媒體以及網購平臺等媒體數據感知，如圖3所示。

圖2 面向頻道的采集與感知

圖3 面向模式的爬取與感知

3.2 基于長短時記憶網絡的文本、語音數據分析

對于文本、語音等具有單一時間維度的多媒體數據，不僅需要提取時間維度上的特征，還要深度挖掘時序數據的上下文輸入和依賴關系。雙向長短時記憶網絡（Bidirectional Long Short Term Memory，BiLSTM）是一種變種的長短時記憶（Long Short Term Memory，LSTM）網絡模型。作為特殊的回復式神經網絡，它通過前向LSTM與后向LSTM模塊進行雙向表達，能長時間記住上下文輸入信息，實現長期記憶和后續任務預測。BiLSTM模型已在無約束手寫識別、語音識別以及機器翻譯等諸多領域取得重大成功，模型結構如圖4所示。

設t時刻時序數據的向量表達為xt，前向和后向LSTM層的輸出分別記為h_ ft,h_bt,則雙向表達層在t時刻對時序數據xt的表達為yt=[h_ ft；h_bt]。

經過T個時刻對時序數據的特征提取，BiLSTM模型挖掘這段時間范圍內上下文輸入的相互依賴關系，捕獲前后時序媒體數據的相關性特征，并從兩個方向上排除噪聲對神經網絡模型的影響，提取出對跨媒體感知與分析至關重要的高層抽象特征。

圖4 用于時序數據識別的BiLSTM模型

3.3 基于卷積神經網絡的圖像、視頻數據分析

對于圖像、視頻等具有二維/三維特征的多媒體數據，建立相應的卷積神經網絡（Convolutional Neural Network，CNN）模型，通過局部特征感知全局特征，提取圖像視頻的高層抽象表達。采用3D卷積方法提取圖像和短視頻特征，長視頻需要進行片段分割后處理，利用3D卷積網絡提取出特征向量，送入LSTM進行序列識別，循環執行直至所有的圖像、短視頻全部識別完成，最終輸出視圖像分類結果[6]。CNN模型已在機器視覺、視圖像處理領域有十分出色的表現，如圖5所示。

圖5 用于視圖像分類的卷積神經網絡模型

設x為某一張圖像或一段短視頻，wj與bj為卷積層的權值參數，f為一特定激活函數，當x經過卷積層時，將會執行卷積數學運算：

卷積數學運算提取的特征進一步執行池化操作，pooling為取最大值max()或平均average()等選擇函數，最后獲得圖片的平移不變性：

經過多輪卷積層和池化層處理后，由1～2個全連接層和Softmax函數給出最后的分類結果。

3.4 基于知識圖譜的跨媒體實體統一表征

通過跨媒體智能描述技術將語音、視頻和軌跡等多媒體數據統一成實體世界中語義一致的文本數據，在文本描述基礎上構建知識圖譜，然后進一步分析知識圖譜中的實體與屬性，從而完成跨媒體知識挖掘與推理[4]。構建知識圖譜需要把跨媒體數據從不同的數據源中抽取出來。結構化數據可以直接使用，非結構化數據需要通過自然語言處理技術進行結構化后使用。知識圖譜構建的主要流程包括命名實體識別、關系抽取、實體統一表征以及指代消解等。

實體統一表征作為其中的關鍵環節，可以有效控制實體的種類和數量，還可以降低知識圖譜的稀疏性。采用神經網絡注意力機制抽取文本描述的實體，完成命名和屬性設置，并使用BiLSTM進行編碼，再通過遞歸神經網絡視圖像分類結果，提取文本中的實體關系，計算多個實體的語義匹配度來判斷兩個實體是否表示同一個對象，并決定生成獨立實體或合并相似實體，從而實現實體統一表征。實現流程如圖6所示。

圖6 跨媒體實體統一表征流程

4 結語

高文院士在《轉向跨媒體智能》一文中提到“跨媒體智能是新一代人工智能的重要組成部分”[7]，本文基于人工智能的深度學習方法符合人類大腦對跨媒體數據的認知規律，設計出一種覆蓋物理空間和網絡空間的跨媒體感知和分析技術體系，能夠在海量多變的跨媒體數據中自動提取有價值的知識，研究成果已經在網絡大數據情報分析平臺、網絡視聽節目監測平臺、重點場所違規行為預警系統等方面得到應用。實踐證明，深度神經網絡在特征提取以及多種媒體數據感知與分析方面具有強大的能力，跨媒體智能引擎也將會在網絡空間內容安全與態勢分析、跨時空協同感知和綜合推理等領域發揮更加重要的作用。