祁 冰
(海南工商職業學院 海南 海口 570228)
隨著科技數碼產品的普及和網絡信息時代的發展,人們可以利用數碼產品輕松拍攝、制作視頻,分享到網絡上,使得網絡視頻呈爆炸式的增長。在數量龐大的視頻內容面前,人們需要從中挑選自己感興趣的視頻內容,就像搜索文本信息一樣,搜索視頻資源的需求與日俱增,視頻檢索技術也隨之發展。以往的視頻檢索工作主要集中在輸入一個視頻,返回與輸入視頻相似的視頻結果,即輸入視頻,返回視頻。然而,按照人們日常的信息檢索習慣應當是在搜索框輸入描述性的文字,返回視頻結果,這種跨模態的檢索方式才更加便捷實用。視頻檢索的關鍵問題應當是如何為視頻提供準確的文字描述,便于人們能像檢索文字一樣來檢索視頻。隨著深度學習的發展,視頻描述技術已經有了顯著提高[1],本文主要圍繞視頻描述技術的發展及其關鍵技術來探究視頻描述的發展前景。
視頻描述技術涉及視頻和文本兩個模態的轉換,得益于計算機視覺和自然語言處理技術的發展,其大體經歷了4個發展階。第1階段是傳統的人工方法,在觀看完視頻內容后,人為視頻添加文字描述,這種方法雖然簡單,但是低效,很難適應大數據時代的視頻描述需求。第2階段是基于模板的方法,即利用目標檢測技術檢測出視頻的主體、動作、對象等信息,套用主語、謂語、賓語之類的語法模板來生成文字描述,雖然基于模板的方法可以自動為視頻添加描述,然而它不能很好地描述有復雜內容及有較大時間長度的視頻,而且受語法模板的限制,生成的文字描述種類單一,缺乏多樣性。第3階段是基于統計的方法,基于統計的方法先用最大后驗概率求出視頻中的中間語義標簽,而后用統計機器翻譯將中間語義標簽轉換為人類能理解的文字描述,這為后期基于深度學習的方法奠定了基礎,基于深度學習的方法基本沿用了基于統計的方法的技術框架,但由于提取標簽和機器翻譯分步工作且聯系不緊密,導致最終生成的文字描述準確度不高。第4階段是基于深度學習的視頻描述方法,基于深度學習的方法架構也主要分為兩部分,即視覺模型和語言模型,視覺模型對視頻進行編碼,將學習到的視頻內容轉換成特征向量,語言模型將這些特征向量與詞語結合來生成描述性文字。基于深度學習的方法面臨的最大挑戰是理解視頻的主體對象、對象之間的交互活動以及活動的細節,并能按照時空順序準確地用與內容匹配的自然語言描述出來。
基于深度學習的視頻描述方法主要分為3種[2]:基于視覺的方法、基于對齊的方法和基于語言的方法。大多數的研究采用基于視覺的方法。該方法主要采用端到端的編碼解碼器結構將視覺信息轉化為文本信息,框架見圖1,即包含兩個階段的工作:先編碼,后解碼。編碼就是把視頻的視覺特征提取出來轉換成向量,這些向量可以是固定長度的,也可以是動態的;解碼就是將這些向量轉換成描述文字。目前分別采用CNN(Convolutional Neural Networks,卷積神經網絡)、RNN(Recurrent Neural Network,循環神經網絡)、LSTM(Long-Short Term Memory RNN,長短時記憶循環神經網絡)、GRU(Gated Recurrent Unit,門循環單元)及深度強化網絡等網絡模型的組合來負責這兩部分的工作,不同模型的組合方式主要分為下面3類[3]。

圖1 端到端的視頻描述框架
(1)CNN+RNN組合,其中CNN負責編碼,RNN或RNN的變種LSTM、GRU負責解碼,這是當前應用最為廣泛的框架。
(2)RNN+RNN組合,用RNN來進行編碼解碼工作。
(3)深度強化網絡,這是在視頻描述方面最新引入的方法,LSTM負責編碼,HRL(Hierarchical Reinforcement Learning,分層式強化學習)負責解碼。
下面將分別從編碼和解碼兩個部分采用的不同架構來分析基于深度學習的視頻描述生成過程。
3D-CNN模型(3D Convolutional Neural Network,三維卷積模型):視頻與圖像在視覺特征提取時最大的區別在于視頻具有時序信息,為了結合視頻的時序特征,可以選擇3D-CNN作為編碼器,在視頻片段中提取多個幀來生成視頻特征。
CNN分類器模型:為了得到更豐富的視覺特征,有研究者研究出3個單類標、多類標和多種屬性的卷積分類器,將這3類分類器提取到的信息結合在一起,從而得到了更為豐富的圖像特征。
MeanPool模型:當遇到訓練數據集大小受限和模型缺少捕獲視頻和文本間關系的問題時,有研究者使用圖像描述集預訓練模型,在視頻描述集上調試模型參數,采用平均值特征的方式來提取視頻特征。在提取視頻特征時,每隔10幀隨機選取1幀輸入到CNN中,提取該幀的圖像特征,之后將這些特征加在一起求平均值作為視頻的整體特征,取得了較好的效果。
多維度CNN架構:對每個視頻幀提取不同比例大小的區域,輸入到CNN網絡中提取特征,最后通過最大池化層提取視頻特征。
LSTM模型:每個時刻輸入視頻幀的圖像特征表示,即用 LSTM網絡提取視頻的時序特征。
加入注意力機制的3D-CNN:考慮到了時序上的局部和全局特征信息。先通過3D-CNN模型提取短時序上的信息,再加權提取全局時序的視頻特征,作為注意力信息加入到LSTM解碼器中生成描述句。
LSTM模型:為了讓生成的句子前后關聯,將編碼器生成的圖像特征輸入到LSTM的第一個單元中,生成一個輸出詞,之后每個時刻都輸入上一個時刻的輸出詞,輸出當前時刻的輸出詞,最后連成句子。這種方法將前一時刻的輸出與當前時刻的輸出相關聯,達到效果更好。
Bi-LSTM模型:Bi-LSTM模型與LSTM模型的不同之處在于,它能完整地學到每個輸入序列的過去及未來信息,其輸出的文本信息更全面更豐富。
G-LSTM架構:在每個時刻輸入融合圖文的注意力信息預測描述詞,采用典范對應分析方法CCA得到圖像和文本的嵌套表示作為注意力信息[2]。
H-RNN架構:由句子生成器和段落生成器組成的層次結構框架,它在時間和空間兩個方面加入注意力機制。先用一個GRU層將輸入的視頻特征生成一個短句。另一個循環層使用上下文和從句子生成器獲得的句子向量生成段落。因此,段落生成器捕獲句子之間的依賴關系,并生成相關句子的段落。
深度學習的發展離不開數據集,視頻描述數據集的發展是推動該領域發展的原動力。當下流行的視頻描述數據集主要有以下3種。
MSVD數據集:發布于2011年,包含不同的人、動物、場景等,包含1970條YouTube視頻片段,其中1200條視頻用于訓練,100條用于驗證,670用于測試。每段視頻長約10 s,每段視頻被標注了約40條英文句子,數據集見圖2。

圖2 MSVD數據集
MSR-VTT數據集:發布于2016年,包含體育、音樂、游戲等20個不同類別,包含1萬個網絡視頻片段,其中6513條視頻用于訓練,497條用于驗證,2990條用于測試。每個視頻片段都被標注了大概20條英文句子。
VaTEX數據集:發布于2019年,覆蓋了600種人類活動和不同的視頻內容,包含超過 41250個視頻片段,其中25991條視頻用于訓練,3000條用于驗證,6000條用于公開測試,6278條用于神秘測試。每段視頻有10個英文描述和10個中文描述,其中測試視頻不提供標注。
為了測量生成的文字描述與原視頻之間的對應關系和描述準確率,主要有4種評價指標來衡量它們[4]。最常用的第1種是BLEU(Bilingual Evaluation Understudy,雙語評估替補),其主要應用于機器翻譯領域,它可以匹配生成的句子和自然句子,匹配程度越高,BLEU值越高。第2種是ROUGE(Recall-Oriented Understudy of Gisting Evaluation,基于召回率的摘要評估),是基于召回率的自動摘要評價方法,跟BLEU較為相似,不同之處是它將模型生成的摘要與參考摘要的n元組貢獻統計量作為評判依據,有4個版本,其中ROUGE-N和ROUGE-L更多用于視頻描述中。第3種是METEOR(Metric for Evaluation of Translation with Explicit Ordering,帶顯式順序的翻譯評估指標),它基于單精度的加權調和平均數和單字召回率,相較于單純基于精度的BLEU,它的準確率更高。第4種是CIDEr(Consensus-based Image Description Evaluation,基于一致性的圖像描述評價),它也是對BLEU方法的改進,用為句子中的非關鍵信息降權的方法來提升準確率。
盡管視頻描述技術已經取得了巨大的進步,但其生成結果與人工生成的結果仍舊存在較大差距,具體原因如下。
(1)機器提取到的視頻的視覺特征往往是低層次,對一些如對象、動作等高層次的語義特征的提取還有所欠缺。
(2)在語句生成部分,大多數技術還依賴一些設定好的符合語法規則的語言模板,而人類的語言卻是靈活多變的。
(3)大多數視頻描述技術依舊缺乏處理視頻時間維度的能力,處理長視頻時性能低下。
(4)還缺乏視頻描述專有的評價指標,現有的評價指標都是從機器翻譯及圖像描述領域借用的。
本文從跨模態的視頻檢索需求出發,主要研究了基于深度學習的視頻描述方法,理清了視頻描述方法發展的過程,概述了目前視頻描述技術取得的成就,簡要介紹了用于視頻描述訓練的不同數據集和幾種用于衡量不同視頻描述模型性能的評價指標,最后探討了現有視頻描述技術存在的問題,為今后的研究工作指明方向。