融合深度學習和視覺文本的視頻描述方法

2021-07-29 02:07:42付燕，馬鈺，葉鷗

科學技術與工程 2021年14期

付燕，馬鈺，葉鷗

(西安科技大學計算機科學與技術學院，西安 710054)

視頻是人類社會活動中最常用的信息載體，其中蘊含了豐富的信息[1]。隨著互聯網技術的發展及數碼設備的普及，視頻數據增長迅速，對視頻內容的文本描述已成為一項艱難的人工工作。因此，如何通過計算機自動提取視頻所表達的信息，已成為視頻描述領域的研究熱點。視頻描述是一種對視覺內容高層語義理解的任務，旨在實現對視覺內容的高層語義認知與自然表達，涉及計算機視覺、機器學習、自然語義理解等研究領域[2]。視頻描述在視力缺陷人群的輔助、視頻檢索、智能人機交互及機器人開發等方面都有廣闊的應用前景[3]。

早期視頻描述主要分為基于模板[4-5]和基于檢索[6]這2種方法。基于模板的方法先檢測視頻中的物體、屬性以及物體關系等內容，然后利用預定義的句子模板生成視頻的文本描述。但是這種方法受到句子模板的限制，生成的文本描述多樣性受限。基于檢索的方法采用信息檢索的方式生成文本描述。雖然這種方法能夠得到與人工描述密切相關的文本，但是所得到的語句依賴于數據庫的文本集合，并且不能生成新的文本描述。

近年來，隨著深度學習的發展，受益于卷積神經網絡[7](convolutional neural networks，CNN)在計算機視覺領域的發展，以及循環神經網絡(recurrent neural network，RNN)在自然語言領域的進步，基于CNN和RNN的組合方法已廣泛用于視頻描述中[8-14]。其中S2VT模型[10]受到學者們的廣泛關注。該模型的訓練過程是端到端的，而且可以處理變長輸入輸出并能學習輸入序列中的任意時間結構。但是該模型忽略了視頻序列間的時序信息。為解決這個問題，Zhang等[11]提出了一種任務驅動的動態融合方法，可以根據模型的狀態自適應地選擇不同的融合模式，提升了視頻描述的準確性；文獻[12]首次將注意力機制嵌入到視頻的文本生成描述中,可使視頻的文本生成模型在生成文字序列時,能夠決定視頻特征的權值,提高了模型的性能；Li等[13]提出了一種基于殘余注意力的長短期記憶(long short-term memory，LSTM)網絡方法。該模型不僅利用現有的注意力機制，還考慮了句子內部信息的重要性；文獻[14]提出了一種基于共同注意力模型的遞歸神經網絡。該模型整合了注意力機制對視覺和文本特征進行了編碼，在一定程度上提升了視頻描述的正確性。但實驗中發現以上研究方法仍存在一些問題：①使用VGG(visual geometry group)等二維卷積神經網絡提取視頻特征時只包含的視頻的空間信息，忽略了視頻序列之間的運動信息，且在提取細節特征時精度不高；②使用的語言模型結構較為簡單，網絡的性能還有提升的空間；③對視頻主題等對視頻內容至關重要的視覺文本沒有加以利用。

針對上述問題，提出一種融合深度網絡和視覺文本的視頻描述研究方法。為了增強視頻的細節信息，本文將通道注意力和空間注意力引入3D殘差模塊形成全新的深度網絡體系結構提取視頻的時序信息和運動信息；除檢測物體的存在及其相對方向外，視頻主題是另一個重要信息，將其與模型結合使用以提高字幕生成系統的效率。

1 融合深度網絡和視覺文本的視頻描述模型

提出一種融合深度網絡和視覺文本的視頻描述模型。①首先在編碼階段，將注意力模塊與3D深度殘差網絡相結合，通過通道和空間兩個獨立維度的注意力模塊，提取視頻特征；②解碼階段利用雙層LSTM深度網絡的時序性特征，輸出表述視頻高層語義的文本描述；③為有效利用視覺文本信息豐富視頻文本生成的語義描述，利用基于神經網絡的主題模型提取出視頻中的主題作為輔助信息融合進模型中，實化視頻文本的生成描述，該方法的總體思路如圖1所示。

1.1 基于注意力3D殘差網絡的視頻特征提取

在早期的序列學習任務中，所有的輸入信息都被編碼成為固定長度。隨著輸入序列長度不斷增加，模型的效果越來越差[1]。注意力機制的引入能夠提升模型在序列學習任務上的性能，使得機器在處理視頻的時候賦予模型在視頻關鍵區域獲得更高的權重[15]，為此，采用注意力機制來改進深度殘差網絡，該網絡能夠依據注意力機制來描述信息重要程度，加強特征映射表達能力，即關注重要特征和抑制不必要的特征，從而降低無關目標與噪聲的影響，以提高模型生成文本描述的質量。

圖1 融合深度網絡和視覺文本的視頻描述模型Fig.1 Video captioning model combining deep networks and visual texts

1.1.1 網絡架構

注意力3D殘差網絡主體架構是由注意力模塊和3D殘差塊相結合，構成注意力3D殘差模塊單元，這有利于堆疊成深度模型來提高網絡性能。注意力3D殘差網絡是通過堆疊多個3D注意力殘差模塊構建的，使用ResNet-34作為基本的網絡架構，避免了梯度消失的問題，還可以加速網絡的收斂。3D ResNet-34網絡采用32個卷積層即16個注意力3D殘差模塊堆疊，所以將模塊數固定為16，每個3D注意力殘差模塊是通過向3D ResNets對應模塊添加通道和空間注意力機制而生成的。3D卷積過程可以定義為

(1)

特征圖3D卷積后依次通過通道注意力模塊和空間注意力模塊，最后以相加的方法輸出，如圖2所示。給定一個中間特征圖F∈RC×H×W作為輸入，其中C表示通道數，H和W分別表示特征圖的高度和寬度，依次計算出一維通道注意圖MC∈RC×1×1和二維空間注意圖MS∈R1×H×W。注意力過程可以表示為[15]

(2)

q″t=MS(q′t)?q′t

(3)

式中：?表示元素逐乘；q′t為通道注意力的輸出；q″t為最終細化后的輸出。為了進一步加速和穩定訓練，在整個生成網絡上創建額外的跳躍連接，將輸入特征跳躍接入后續激活層，補償特征損失。

圖2 3D注意力殘差網絡整體架構Fig.2 The overall architecture of the 3D attention residual network

1.1.2 注意力模塊

注意力模塊是通過在通道和空間兩個維度上進行建立的。由于特征映射間存在信息關聯，可以得到相應的通道注意力映射。通過對中間特征圖F∈RC×H×W中的每個通道信號進行加權來提高網絡的學習能力，通道注意力集中在給定輸入圖像的有意義部分。為了更好地計算通道注意力，需要降低輸入特征映射的空間維數，通過平均池化的方法聯結空間信息，如圖3所示。

MLP表示多層感知器圖3 通道注意力機制示意圖Fig.3 The schematic diagram of channel attention mechanism

為有效捕獲通道注意圖，首先獲得每個通道上平均像素值來表示該通道，將平均像素值送入一個兩層的全連接層，最后通過一個sigmoid函數得到通道注意力映射。通道注意力公式為

(5)

式(5)中：σ和δ分別表示sigmoid函數和ReLU函數；多層感知器(multi-layer perceptron，MLP)為兩層的全連接網絡；W0和W1為MLP的權重。

與通道注意力不同，空間注意力能注意到有效信息部分的位置。利用特征圖內部空間之間的關系來推斷空間注意力圖，圖4描繪了空間注意力圖的特定計算過程。

圖4 空間注意力機制示意圖Fig.4 The schematic diagram of spatial attention mechanism

將通道注意力模塊輸出的特征圖作為本模塊的輸入特征圖，為有效計算空間注意力特征圖，首先擠壓特征圖的通道信息以生成二維空間描述符，這是通過使用全局平均池化(Avgpool)實現的，然后使用卷積層來推斷空間注意力圖。空間注意力表達式為

MS(F)=σ{f7×7[Avgpool(F′)]}=

σ[f7×7(F′)]

(6)

式(6)中：σ表示sigmoid函數；f7×7為內核大小為7×7的卷積運算。

1.2 視覺文本的檢測

為有效描述視頻，需要從視頻中提取盡可能多的信息，除檢測視頻中對象的存在，視頻的主題也是重要信息之一。采用文獻[16]的方法提取出視頻中的主題作為視覺文本融合進模型中。文獻[16]通過從圖像中存在的各種語義相關對象中獲取線索，將圖像與主題向量相關聯，建立基于神經網絡的主題模型來處理提取的圖像特征并生成主題向量，如圖5所示。因此，將每個視頻均勻采樣10個視頻幀，將其輸入到在MSCOCO數據集上預訓練好的基于神經網絡的主題模型中，將其重復的詞語刪去并保留重復率高的主題詞語作為視覺文本將其融入進模型中。

圖5 視頻中提取主題原理圖Fig.5 Extract the theme schematic from the video

1.3 生成文本描述

大多數語言模型是以LSTM為基礎進行解碼的，將視頻特征{x1,x2,…,xn}作為LSTM的輸入。以第t幀為例，激活記憶單元，獲得第t幀的LSTM單元各個狀態的值，可表示為

it=σ(Wyiyi+Whiht-1+bi)

(7)

ft=σ(Wyfyi+Whfht-1+bf)

(8)

ot=σ(Wyoyi+Whoht-1+bo)

(9)

(10)

(11)

ht=ot×tanhCt

(12)

本文模型的解碼器一共包含兩層LSTM，第1層LSTM通過隱藏狀態對視頻的特征和詞向量進行建模，其輸出與視覺文本進行融合作為第2層LSTM的輸入，第2層LSTM通過學習視頻幀序列與詞向量序列之間的映射關系，完成視覺特征和文本的關聯建模。在解碼階段，將視頻特征x={x1,x2,…,xn}輸入到LSTM單元中，其輸出經過softmax層(包含權重值ws和偏差bs)生成下一個時間節點上的單詞y={y1,y2,…,ym}，通過隱藏狀態構造概率分布，其計算公式為

P(y1,y2,…,ym|x1,x2,…,xn)=

(13)

式(13)中：p(yt|hn+t-1,yt-1)為整個單詞表在softmax層對應的輸出概率，其中hn+t-1和yt-1是根據LSTM計算得出的。

使用“SOS”和“EOS”標記作為LSTM生成單詞開始詞和結束詞，通過式(14)來調整模型參數。

(14)

式(14)中：θ泛指LSTM內部參數。通過第2層LSTM的softmax函數選取模型每一時刻的輸出中概率最大的詞連接成為文本描述,作為輸出結果。

2 實驗結果與分析

為驗證算法的準確性，所設計的實驗包括基準數據集與監控場景下的視頻語義描述。選擇MSVD和MSR-VTT作為基準數據集來驗證算法的準確性，通過將本文算法與文獻[8]、S2VT[10]、TDDF(task driven dynamic fusion)[11]、Res-ATT[13]方法進行對比來驗證。

2.1 數據集和參數設置

分別在煤礦井下監控和兩個公共數據集上進行對比實驗。將煤礦井下監控視頻制作成大小統一的視頻數據，人工對視頻標注標簽，每個視頻時長在10 s，對每個視頻生成3句場景描述的句子。目前在視頻描述數據中公開的有MSR-VTT(microsoft research-video to text)數據庫和MSVD(microsoft video description corpus)數據庫。MSR-VTT數據集是從商業視頻搜索引擎收集的，包含10 000個視頻片段，被分為訓練，驗證和測試集3部分。MSVD包含1 970段YouTube視頻片段，視頻主要來自于日常場景，每個視頻時長在10～25 s，每段視頻被標注了大概40條英文句子。隨機選擇1 200個視頻作為訓練集，100個視頻作為驗證集，670個視頻作為測試集。

使用ResNet-34作為基本的網絡架構，輸入為RGB通道彩色視頻幀并隨機裁剪成128×128的視頻幀塊，批量大小設定為16。使用pytorch訓練模型，采用cuda 與cuDNN進行加速。實驗采用AdaMax優化器訓練3D注意力殘差網絡，在優化其中將模型中的β1和β2分別設置為0.9和0.999，開始學習率設置為0.001，隨著訓練過程不斷降低學習率。

2.2 評價方法

選擇目前主流的試驗評價標準BLEU(bilingual evaluation understudy)[17]和METEOR(metric for evaluation of translation with explicit ordering )[18]。BLEU通常使用在機器翻譯中，有多種變體，與人類判斷有較好的相關性。該評價的思想是以獨立于位置的方法，來衡量和候選短語n-gram之間的相似性。METEOR是基于召回率提出的，是對候選句子和參考句子之間位置對應關系的評估。基于召回率的標準與基于精度的標準相比，其結果與人工判斷的結果具有較高的相關性。

2.3 實驗結果與分析

2.3.1 在公共數據集下

表1為2個公共數據集下使用不同提取特征網絡的比較結果。結果表明，使用單通道注意子模塊的準確性要優于使用單個空間注意子模塊，并且兩者都比原始網絡高。同時添加通道注意圖和空間注意圖可以進一步提高性能。這是因為注意力機制在長范圍相關性上的優勢，將注意力模塊與深度殘差網絡相結合，對于輸入的特征圖而言，分別進行通道維度和空間維度的注意力模塊操作，可以得到精細化的特征輸出圖。

從表2可以看出，在MSVD和MSR-VTT數據集中，模型在BLEU-4和METEOR評價標準上都得到了較高的分數，評價標準取得的分數越高，說明該模型越好。這是因為用于特征提取的3D注意力殘差網絡，通過一維通道注意力與二維空間注意力增強視頻特征映射，包含了豐富的時序特征和運動特征，降低無關目標與噪聲的影響，增加了相似視頻的區分度。豐富的視頻主題信息作為視頻的重要組成部分，將其作為補充信息融入解碼階段，進一步優化了模型的描述效果。

表1 MSVD、MSR-VTT下不同提取特征網絡模型的對比Table 1 Comparison of different extracted feature network models under MSVD,MSR-VTT

表2 MSVD、MSR-VTT數據集實驗結果比較Table 2 Comparison of experimental results of MSVD,MSR-VTT data set

本文模型對數據集的3組視頻文本描述結果如圖6所示。選取的視頻主要來源于MSVD數據集。由圖6可知，本文模型在公共數據集下除了能夠比較準確描述出視頻的內容外，還能在語法結構上突出語言的豐富性，這體現了本文模型較好的語言效果。

圖6 公共數據集下的視頻描述Fig.6 The video description under the public data set

2.3.2 在煤礦監控視頻數據集下

在提取煤礦井下視頻特征時，分別使用3D殘差網絡、3D殘差通道注意力網絡、3D殘差空間注意力網絡和本文模型相比。從表3可以看出，在煤礦井下監控視頻中，本文模型較傳統的3D深度殘差網絡模型，在BLEU評價指標下提升了2.1%，METEOR指標提升了2%。這是因為將注意力模塊與深度殘差網絡相結合，對于輸入的特征圖而言，分別進行通道維度和空間維度的注意力模塊操作，最終得到精細化的特征輸出圖，該模塊不會改變特征圖的大小，但是能夠自適應調整通道上特征的權重和捕獲空間維度上像素之間的相關性，從而降低無關目標與噪聲的影響，更有利于從煤礦視頻中提取特征。

從表4可知，在BLEU評價指標下，本文模型較S2VT方法提升6.4%，較文獻[8]方法提升了3.9%。此外，在METEOR評價指標上也存在著顯著的提升。由實驗結果可知，本文方法在煤礦井下監控視頻中更具競爭力，各指標都有一定的提升。

表3 煤礦數據集下不同提取特征網絡模型的對比Table 3 Comparison of different extracted feature network models under coal mine data sets

表4 煤礦井下監控視頻實驗結果比較Table 4 Comparison of experimental results of monitoring video in coal mine

從圖7可以看出，煤礦井下監控視頻通常含有字幕信息，這對于準確描述視頻信息起著至關重要的作用。生成的描述結果表明，本文模型能夠較準確地描述視頻中物體之間的關系。本文方法通過對語言模型進行補充，將LSTM語言模型和視頻提取的字幕相組合生成描述，極大豐富了視頻的語義，為以后檢索煤礦井下監控視頻提供了一定的幫助。

圖7 煤礦井下監控視頻描述Fig.7 Video description of underground monitoring in coal mine

3 結論

將深度網絡和視覺文本融合起來對視頻進行試述，得到以下結論。

(1)本文方法在提取視頻特征時，提出一種新的網絡體系：注意力3D殘差網絡，該網絡通過一維通道注意力與二維空間注意力增強視頻特征映射，降低無關目標與噪聲的影響，提高模型生成描述的質量。分別在煤礦井下監控視頻集和兩個公共數據集進行實驗，結果表明，使用注意力3D殘差網絡描述視頻比較傳統的3D深度殘差網絡模型更好。

(2)為有效利用視覺文本信息豐富視頻生成的語義描述，利用基于神經網絡的主題模型將代表視頻主題的詞語作為輔助信息融合進模型中，通過本文方法與之前4個基線模型進行對比，結果顯示了本文模型在BLEU和METEOR這兩個指標上的得分都有所提高，能夠更加準確的利用自然語言描述視頻高層語義信息。