楊金福 劉玉斌 宋 琳 閆 雪
①(北京工業(yè)大學信息學部 北京 100124)
②(計算智能與智能系統北京市重點實驗室 北京 100124)
視頻數據可以對已發(fā)生的事情進行2次描述,在情景記錄、現場重建等工作中發(fā)揮重要作用。通過人工方式在海量視頻中查找目標內容,成本較高且效率低下。跨模態(tài)視頻片段檢索旨在通過不同模態(tài)的知識協同,在視頻中快速找到目標內容,受到越來越多的研究人員關注。
近年來,跨模態(tài)視頻片段檢索研究取得了較大的進展,涌現了許多令人印象深刻的方法。按照檢索方式主要分為基于匹配的方法[1–7]和基于視頻-文本特征關系的方法[8–12],前者關注候選視頻片段與文本特征的匹配過程,而后者則是關注視頻和文本特征的跨模態(tài)交互過程。
基于匹配的方法,通常使用滑動窗口法預先生成足夠多的候選視頻片段,然后分別與查詢文本比對并計算得分。Gao等人[1]使用3維卷積神經網絡(Convolutional 3D networks, C3D)[13]提取候選視頻片段特征,使用長短記憶網絡(Long-Short Term Memory, LSTM)[14]提取查詢文本特征,然后利用加法、乘法和全連接運算將兩種模態(tài)的特征融合,用全連接網絡計算每個候選視頻片段的得分。為了充分學習模態(tài)內的特征關系,Ge等人[2]在計算得分時考慮了候選視頻片段中的活動信息以及查詢文本中的主謂關系,使用加法、乘法和拼接操作融合不同模態(tài)的特征,并利用多層感知機預測候選視頻片段的得分。Liu等人[3]設計了一個文本-視頻注意力網絡用于學習模態(tài)間的特征關系,將視頻特征和查詢文本特征投影到公共的特征空間,結合視頻信息給每個單詞分配不同的權重,然后與視頻特征拼接,使用多層感知機預測候選視頻片段的得分。Zhang等人[4]根據候選視頻片段的起止時刻對視頻特征編碼,設計了一種時間鄰近卷積來學習視頻片段間的上下文信息,并使用哈達瑪積運算將其與查詢文本特征融合后,通過卷積網絡計算候選視頻片段的得分。Ning等人[6]考慮到查詢文本指向的內容可能出現在候選視頻片段之外問題,提出一種利用注意力機制將視頻的全局內容編碼到每一幀中的方法。
與上述匹配的方法不同,基于視頻-文本特征關系的方法直接預測視頻片段的起止時刻。Yuan等人[8]設計了一個多模態(tài)協同注意力網絡,交替地使用文本特征和視頻特征給對方添加注意力,利用全連接網絡預測視頻片段的邊界。Ghosh等人[9]為了提高檢索的速度,將視頻和文本兩種模態(tài)的特征在通道維度拼接,使用雙向LSTM預測視頻片段的起止時刻。Sun等人[10]采用全局-局部的兩階段融合策略進行視頻和文本的特征融合,利用兩個門控循環(huán)單元(Gated Recurrent Unit, GRU)[15]分別預測視頻片段的起始時刻和終止時刻。為了學習對象間的特征關系,Rodriguez-Opazo等人[11]設計了一個時空圖模型,對視頻中存在的對象建模,使用全連接網絡生成檢索結果。其中,時空圖模型具有3個語言節(jié)點和3個視覺節(jié)點,語言節(jié)點包含一個多頭注意力機制[16],用于學習3種文本關系:主語-謂語、主語-賓語和謂語-賓語關系,視覺節(jié)點分別用于處理人、物體和活動之間的關系。
上述方法的提出推動了跨模態(tài)檢索領域的不斷發(fā)展,也驗證了注意力機制在跨模態(tài)視頻片段檢索任務中的有效性。借助注意力機制的隱藏層,現有方法可以學習模態(tài)內或模態(tài)間特征的隱式關系。然而,這些方法缺少對特征顯式關系的學習,使得模型的性能無法得到充分的發(fā)揮,缺乏直觀地解釋特征的顯式關系和表達特征的差異信息。基于此,本文提出一種新的基于顯著特征增強的跨模態(tài)視頻片段檢索方法(Significant Features Enhancement Network, SFEN),通過增強視頻的顯著特征,提升神經網絡對視頻語義的理解能力。
本文研究所設計的模型結構如圖1所示,主要包含3個模塊:(1) 時間相鄰網絡(Temporal Adjacent Network, TAN): 學習視頻片段的空間關系;(2)輕量化殘差通道注意力(Weak Residual Channel Attention, RCA-W):學習視頻模態(tài)特征的顯式關系;(3) 特征融合與視頻時刻定位: 融合視頻與文本的信息,完成目標視頻片段的定位。接下來將對3個模型進行詳細介紹。

圖1 模型整體結構

其中,i∈[0,n ?1]代 表視頻片段的起始時刻,j ∈[1,n]代表視頻片段的終止時刻。由于起始時刻小于終止時刻,所以TAN特征圖的左下角為無效區(qū)域并以0填充。當輸入視頻時長為5τ,選取n=5時,根據流程可以構建維度為5 ×5×d的TAN特征圖,如圖2所示。

圖2 TAN特征圖構建示意圖(n=5)
注意力被解釋為一種將計算資源分配給具備最大信息量區(qū)域的機制,可以學習特征的依賴關系,在深度學習中有廣泛的使用。Hu等人[17]提出了擠壓和激勵模塊(Squeeze-and-Excitation, SE),使神經網絡能夠學習通道間的特征關系。Woo等人[18]提出了卷積注意力(Convolutional Block Attention Module, CBAM),在SE的基礎上加入了空間注意力,學習特征的空間關系。Zhang等人[19]提出了殘差通道注意力(Residual Channel Attention,RCA),在傳統的通道注意力上添加殘差連接,以自適應地學習通道的特征關系。Wang等人[20]提出了有效通道注意力(Efficient Channel Attention,ECA),可以無降維地學習局部跨通道交互關系。Wang等人[21]提出了非局部神經網絡(Non-local neural networks, Non-local),可以捕獲長距離的特征依賴關系。上述注意力機制在模型中額外引入了隱藏層,幫助神經網絡學習特征的隱式關系,在目標檢測、實例分割等任務中取得了較好的效果。在視頻任務中,出于對模型實時性的考慮,本文提出了一種輕量化殘差通道注意力RCA-W,在僅增加少量推理時間的情況下,可以學習視頻特征的顯式關系,提升神經網絡對視頻語義的理解能力。
RCA-W采用殘差網絡(Residual Network,ResNet)[22]的恒等映射結構學習特征關系,形式上定義為

其中,xi ∈{x1,x2,...,xn×n},yi ∈{y1,y2,...,yn×n}分別表示輸入和輸出特征圖的通道信息,F=xi·σ(W xi+b)表 示包含注意力機制的前饋路徑,W是路徑的權值,b是偏移值,σ是權值分配函數,F+xi表示xi通過恒等映射路徑與非線性層的輸出直接相加。在式(2)中,xi與F的維度必須相同,否則需要使用線性投影進行尺寸匹配

考慮到W,b和σ會增加計算量,影響模型的實時性。于是令W=1(·),b=0(·),σ=softmax(·),得到




交并比(Intersection over Union, IoU)是一種常用的評價方式,在模型的訓練和性能評測中應用廣泛。在視頻片段檢索任務中,IoU計算的是“候選視頻片段A”和“真實視頻片段Agt”交集與并集的比值

已有研究表明使用傳統的IoU參與模型訓練時,存在收斂慢和回歸不準確的問題,計算交并比應當考慮多方面的幾何因素[23–25]。這些工作從不同的角度分析了IoU算法的瓶頸并進行了改進,在目標檢測、語義分割等任務中取得了較好的結果。然而,在視頻片段檢索任務中仍然缺少一種更適用的交并比計算方式。受到上述工作的啟發(fā),本文提出一種中心交并比(Center Intersection over Union,CIoU),用于輔助完成模型的訓練任務。CIoU在IoU算法的基礎上考慮了視頻片段中心時刻的位置因素


圖3 使用CIoU選取候選片段的示意圖
損失函數由視頻片段定位損失和中心時刻回歸損失組成。定位損失參考文獻[4]的方法,將預測片段定位到滿足IoU閾值的區(qū)間。對于每個候選視頻片段,與真實片段計算CIoU值oi,使用非極大抑制算法確保作為正樣本的候選片段僅與單個描述文本匹配。根據閾值omin和omax,計算這些候選視頻片段的得分yi

以yi作為監(jiān)督訓練的標簽,與模型前向推理的得分pi計算交叉熵損失,作為視頻片段的定位損失

其中,N為候選片段的個數。接著,計算得分排名前k的預測片段與真實片段中心偏差的二范數,得到中心時刻回歸損失

完整的損失函數為兩項加權之和

本文在跨模態(tài)視頻片段檢索任務常用的數據集TACoS[26]和ActivityNet Captions[27]上對所提方法進行評估,以便與目前主流的方法進行比較。
TACoS[26]數據集在MPII Compositive[28]數據集的基礎上進行構建,該數據集的主要特點是具有固定場景和固定視角,內容為廚房的烹飪行為,存在大量的人體動作。數據集共有127個視頻樣本,包括訓練集、驗證集和測試集,分別包含75,27和25個時長不同的視頻。每個視頻劃分了若干個視頻片段,與之對應的標注文件標明了視頻片段在完整視頻中的起止時間、幀數和文本描述。TACoS數據集用于訓練、驗證和測試的視頻片段數量分別為10146,4589和4083。描述文本的平均長度為6.2個單詞,視頻平均時長287.1 s,每個視頻的平均活動次數21.4次。
ActivityNet Captions[27]數據集包含約20000個未剪輯的視頻和100000個描述文本,總時長超過了600 h。將數據集劃分為訓練集、驗證集和測試集3部分,分別有10022, 4924和5043個不同的視頻。這些視頻包括了50000多個視頻片段和等同數目的描述文本,平均時長為2 min,帶有文本描述的視頻片段平均為36 s,是跨模態(tài)視頻片段檢索任務中最大的數據集。
為了公平地評估算法性能,同當前的主流評價方法,使用召回率對模型進行評估:{Rank@n,IoU =m}, 即計算前n項預測結果在閾值IoU =m下的召回率,其中m∈{0.1,0.3,0.5,0.7}。
(1) TAN特征圖:在TACoS[26]上實驗時,選取n=128 ,構建維度為1 28×128×512的TAN特征圖;在ActivityNet Captions[27]上實驗時,由于訓練集的平均時長相對較短,所以選取n=64,構建維度為6 4×64×512的TAN特征圖。
(2) 標簽閾值:為了公平驗證使用CIoU選取的訓練樣本更有利于模型訓練,樣本的監(jiān)督訓練標簽采用與基于匹配的方法相同的閾值生成,即在TACoS[26]上的實驗設定omin和omax分別為0.3和0.7,在ActivityNet Captions[27]上的實驗設定omin和omax分別為0.5和1.0。
(3) 超參數:實驗涉及k,α和β3個超參數。模型訓練時,計算前k個預測片段與真實片段中心偏差的二范數,作為中心時刻回歸損失,在TACoS和ActivityNet Captions上分別設置為1和4;α和β用于調整視頻片段定位損失和中心時刻回歸損失的權重,在TACoS上分別設置為1.0和0.8,在ActivityNet Captions上分別設置為1.0和0.6。詳細的超參數選取流程見5.6節(jié)。
在TACoS[26]上實驗時,使用文獻[29]提供的數據集特征,其中視頻特征維度為 1 28×4096,使用1維卷積將視頻基礎特征的通道調整至512,構建維度為 128×128×512的TAN特征圖。使用Global Vector[30]模型對描述文本進行詞嵌入,得到300維的詞向量,然后使用3層神經元個數為512的LSTM提取文本特征。用于生成得分圖的全卷積網絡包含8層卷積,前7層為 3 ×3卷積,最后一層為1×1卷積。模型的學習率和訓練批次大小分別為0.001和8。
在ActivityNet Captions[27]上實驗時,使用文獻[30]提供的視頻特征和文本標注,其中視頻特征維度為6 4×2048。由于ActivityNet Captions[27]中視頻的時長相對較短,所以構建TAN特征圖時,把128×128 的維度縮減至6 4×64,通道維度使用1維卷積調整為512。訓練時,初始學習率設置為0.00025,在第4次迭代時衰減至原來的1/2,其余實驗設置保持不變。
本文在TACoS[26]和ActivityNet Captions[27]數據集上進行了實驗,并與主流的跨模態(tài)視頻片段檢索方法進行了對比。如表1和表2所示,有基于匹配的:時間回歸模型(Cross-modal Temporal Regression Localizer, CTRL)[1]、運動感知模型(Activity Concepts based Localizer, ACL)[2]、語言-時間注意力模型(Language-Temporal Attention Network,LTAN)[3]、2維相鄰卷積模型(2D Temporal Adjacent Networks, 2D-TAN)[4]、記憶注意力模型(Attentive Cross-modal Retrieval Network,ACRN)[5]、交互聚合模型(Interaction-Integrated Network, IIN-C3D)[6],基于視頻-文本特征關系的:協同注意力回歸模型(Attention Based Location Regression, ABLR)[8]、全局-局部兩階段融合模型(Multi-Agent Boundary-Aware Network,MABAN)[10]、時空關系模型(Discovering Object Relationship Network, DORi)[11]和分段提議模型(Query-guided Segment Proposal Network,QSPN)[12],以及跨模態(tài)哈希方法(Cross-Modal Hashing Network, CMHN)[31]。

表1 SFEN在TACoS數據集上的召回率

表2 SFEN在ActivityNet Captions數據集上的召回率
首先與基于匹配的方法進行對比,該類方法從預先生成的候選視頻片段中挑選得分最高的作為檢索結果,使得檢索的準確度受到了候選視頻片段生成算法的影響,而本方法SFEN可以對檢索結果的中心時刻進行調整,此外,本方法還增加了對視頻特征的顯式關系學習,因此優(yōu)于該類方法。其次與基于視頻-文本特征關系的方法進行對比,結果表明本文方法更優(yōu),分析其原因,此類方法通過注意力的隱藏層,學習的是模態(tài)內的隱式關系,而本文方法通過所提的輕量化殘差通道注意力,還可以學習模態(tài)內的顯式關系。CMHN[31]方法雖然基于哈希學習,將候選視頻片段和查詢文本編碼成哈希向量投影到漢明空間中,使用漢明距離計算相關度,但其本質仍屬于基于匹配的方法,同樣受到了候選視頻片段生成算法的影響,因此本文方法表現更好。
本節(jié)評估了中心交并比CIoU、注意力RCA-W和中心回歸損失R對模型的影響。如表3所示,使用CIoU訓練的模型具有更好的表現,尤其在IoU=0.7的評估條件下,召回率提升了超過2個百分點。如圖4所示,為了與傳統的IoU策略對比,訓練時將CIoU的λ分別設定為1~5的整數,在多個評估條件下計算模型的召回率。圖4綠色曲線表示使用傳統IoU策略訓練的模型,通過對比可以看出使用CIoU訓練的模型具有更高的召回率,特別是當λ=4時取得了最好的表現。接著,分析RCA-W對模型的影響,如表3所示,使用RCA-W的模型在所有評估指標上均有提升,這是因為RCA-W使模型具備學習視頻特征顯式關系的能力,可以更好地學習視頻語義信息。為了驗證RCA-W的輕量性,本文對所提方法的時間復雜度和計算量進行了分析,結果如表4所示,其中K為卷積核的大小,Cin和Cout分別為輸入通道和輸出通道的維度,N為卷積的運算次數,Z為卷積層的個數。此外,當評估指標相對松懈時,中心回歸損失R對模型性能的提升也產生了一定效果。

表4 SFEN的時間復雜度和計算量

圖4 CIoU與IoU的對比實驗圖(Rank@1)

表3 SFEN的消融實驗結果
本文以TACoS數據集為例,將所提的RCA-W與前文探討的Non-local[21], SE[17], RCA[19]和ECA[20]注意力模型進行了對比實驗。如表5所示,RCA-W在召回率、推理時間、模型大小和所需計算量均優(yōu)于上述模型。首先與Non-local[21]對比,本文的方法更優(yōu),分析其原因,Non-local通過計算特征圖中兩個位置之間的交互捕捉遠程依賴,相當于構建了一個與特征圖尺寸相同的卷積核,捕捉了全部候選視頻片段之間的空間特征,但是這種方式更適用于圖像分類、目標檢測等任務,在視頻片段檢索中,感受野過大可能融合較多不相關的視頻信息,使模型訓練更加困難。與SE[17]相比,本文方法優(yōu)于SE,原因是SE雖然也關注了通道維度間的特征關系學習,但其側重于通道特征的隱式關系,而本文方法更注重通道中顯著特征的表達,關注特征的顯式關系。同樣與RCA[19]對比,本文方法表現更好的原因是RCA會在TAN特征圖上進行一個全局平均池化,使視頻片段融合整個視頻的信息,當視頻的時間序列較長時,這種方式會產生和Non-local同樣的問題,增加模型的訓練難度。此外本文方法表現也好于ECA[20],因為ECA是通過每個通道及其相鄰區(qū)域來捕獲局部跨通道交互信息,而本文方法不僅關注了相鄰通道間的空間信息,還關注了通道內的特征關系。此外,通過圖5可以看出,使用RCA-W學習視頻特征顯式關系的模型在收斂速度上也優(yōu)于其他方法。

圖5 不同的注意力對模型召回率的影響(IoU=0.5)

表5 SFEN使用不同的注意力模型在TACoS數據集上的對比結果
為了探究不同的超參數對模型的影響,本文在TACoS和ActivityNet Captions數據集上進行了超參數實驗,通過計算 IoU = 0.5 下的召回率,對k,α和β進行分析。
首先分析k對模型的影響,由于訓練過程需要計算得分排名前k的預測片段與真實片段中心偏差的二范數,故將k從1開始選取并依次增加,直至模型的召回率無法提升。在兩個數據集上的實驗結果如圖6所示,其中橫坐標表示k值,縱坐標表示模型的召回率。可以看出,在TACoS和ActivityNet Captions數據集上,k分別取1和4時模型取得了最好的表現,而當k>5時,模型在兩個數據集上的召回率均出現了持續(xù)的下降,說明當k過大時,可能會導致訓練的不穩(wěn)定,影響檢索性能。

圖6 超參數k 對模型召回率的影響(IoU=0.5)
為了探究視頻片段定位損失和中心時刻回歸損失的不同組合對模型的影響,使用網格搜索法對α和β的選取進行研究。受到GPU的限制,本文將α和β固定在[ 0.4, 0.6, 0.8, 1.0, 1.2]內,在兩個數據集上分別進行網格搜索實驗。如圖7所示,當分別固定α和β并增大另一方時,引起了召回率先升高后降低的波動,說明兩項損失均對檢索結果產生了一定影響。當模型取得最好的表現時,α和β在TACoS數據集上分別取為1.0和0.8,而在ActivityNet Captions數據集上取為1.0和0.6。上述結果表明,在兩個數據集上的參數選取過程具有大致相同的趨勢。
本文將所提方法在TACoS[26]數據集上的部分實驗結果進行了可視化,并與基準方法2D-TAN[4]和真實值進行了對比,結果如圖8所示,本文方法的預測結果更接近真實值。

圖 7 超參數α 和β 對模型召回率的影響(Rank@1 IoU=0.5)

圖8 在TACoS上的部分可視化結果
針對現有方法對視頻特征關系表達不足的問題,本文提出一種基于顯著特征增強的跨模態(tài)視頻片段檢索方法,以TAN網絡作為主干框架,學習視頻片段的空間關系,然后使用RCA-W學習特征間的顯式關系,提升了神經網絡對視頻語義的理解能力。在通用數據集TACoS和ActivityNet Captions上與當前主流的跨模態(tài)視頻檢索方法進行了對比,本文方法取得了最好的表現。此外,利用消融實驗將所提的RCA-W與多個注意力模塊分別從召回率、模型大小、推理時間和計算量4個方面進行了比較,證明了所提方法的優(yōu)越性。雖然本文的方法在公開的數據集上取得了較好的性能,但是要應用在現實場景中還需進一步探索,下一步將圍繞如何提升模型的泛化性能進行研究。