張維維 劉大銘* 高 向
(1、寧夏大學(xué) 寧夏 銀川750021 2、中國(guó)長(zhǎng)江三峽集團(tuán)有限公司,北京100038)
現(xiàn)在的行為識(shí)別大多以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),但是卷積神經(jīng)網(wǎng)絡(luò)在行為識(shí)別有兩個(gè)問題。第一,卷積神經(jīng)網(wǎng)絡(luò)只能提取短時(shí)時(shí)序信息,對(duì)于長(zhǎng)時(shí)時(shí)序信息,卷積神經(jīng)網(wǎng)絡(luò)無法提取。但視頻的長(zhǎng)時(shí)時(shí)序信息很大程度上影響了行為識(shí)別的準(zhǔn)確率。許多研究者對(duì)此作了改進(jìn),例如文獻(xiàn)[1,2,3]中,在待識(shí)別視頻中固定一段間隔,然后通過稠密采樣來提取長(zhǎng)時(shí)時(shí)序信息。這種方法雖然可行,但是如果視頻長(zhǎng)度較長(zhǎng),該方法會(huì)需要大量的計(jì)算故該方法很難被推廣應(yīng)用。第二,基于視頻的行為識(shí)別算是新興的研究方向,用于行為識(shí)別的公開數(shù)據(jù)集數(shù)量不多,種類也有限。這種狀況一方面是由于視頻的收集困難,另一方面也由于視頻標(biāo)注方面的問題。但是用于視頻行為識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)必須基于大量的數(shù)據(jù)訓(xùn)練才能優(yōu)化網(wǎng)絡(luò),數(shù)據(jù)集的缺少不僅會(huì)影響識(shí)別網(wǎng)絡(luò)的訓(xùn)練,而且可能會(huì)給網(wǎng)絡(luò)帶來過擬合[4]的問題。所以,研究人員采用分割稀疏采樣原理得出了時(shí)間分割網(wǎng)絡(luò)。
時(shí)間分割網(wǎng)絡(luò):
研究人員提出了分割稀疏采樣的思路,采樣原理如圖1。首先把視頻等分為K 個(gè)片段,在每個(gè)短片段采樣一段視頻用于輸入,即為分割稀疏采樣。

圖1 分割稀疏采樣原理
如圖2 所示,針對(duì)每個(gè)短片段,TSN 采用雙流CNN 中的時(shí)間流CNN 捕捉視頻時(shí)序結(jié)構(gòu)信息和空間流CNN 捕捉圖像外觀信息,為每個(gè)短片段先分別生成一個(gè)只針對(duì)短片段的時(shí)間流CNN 和空間流CNN 預(yù)測(cè),然后采用一個(gè)聚合函數(shù)分別對(duì)各個(gè)短片段的時(shí)間流CNN 和空間流CNN 預(yù)測(cè)進(jìn)行聚合,最后將時(shí)間流和空間流的聚合結(jié)果的加權(quán)輸出作為整個(gè)視頻的預(yù)測(cè)結(jié)果。

圖2 時(shí)間分割網(wǎng)絡(luò)結(jié)構(gòu)
具體來說,對(duì)于待輸入的視頻V,首先要將其等分為K 個(gè)片段{S1,S2,…,SK},然后在每個(gè)片段SK中隨機(jī)選取一個(gè)短片段TK,則K 個(gè)部分的所有短片段組成{T1,T2,…,Tk}作為行為識(shí)別網(wǎng)絡(luò)的輸入,如公式1 所示。

其中,F(xiàn)(TK,W)為卷積網(wǎng)絡(luò)函數(shù),卷積網(wǎng)絡(luò)的參數(shù)為W,作用于短片段TK上,得到該片段的預(yù)測(cè)結(jié)果。G 為聚合函數(shù),聚合各個(gè)短片段的預(yù)測(cè)結(jié)果。H 為預(yù)測(cè)函數(shù),可以得到預(yù)測(cè)結(jié)果屬于每個(gè)行為分類的概率。
公式2、公式3 是整個(gè)網(wǎng)絡(luò)的聚合函數(shù)和損失函數(shù)。

其中,c 表示人體行為類別的個(gè)數(shù),yi表示類別i 的真實(shí)分類,gi表示聚合函數(shù)G 的第j 個(gè)值。
訓(xùn)練時(shí)間分割網(wǎng)絡(luò)時(shí),損失函數(shù)L 關(guān)于參數(shù)W 的梯度可以表示為,

從式4 能夠得到,如果我們采用隨機(jī)梯度下降法(SGD)[5]來訓(xùn)練參數(shù)模型W,那么聚合函數(shù)G 就是對(duì)每個(gè)短片段的預(yù)測(cè)分別求導(dǎo),很大程度減少了計(jì)算成本。

圖3 多尺度滑動(dòng)窗口示意圖
多時(shí)間尺度特征提取的原理如圖3 所示。
和經(jīng)過處理的視頻一樣,若視頻長(zhǎng)度為M秒,采樣M個(gè)視頻片段{T1,T2,…,TM},將每個(gè)片段TM作用于時(shí)間分割網(wǎng)絡(luò),就可以得到每個(gè)行為類別的預(yù)測(cè)結(jié)果F(TM)。選擇滑動(dòng)窗口的長(zhǎng)度為l(l∈{1,2,4,8,16}),針對(duì)M 個(gè)預(yù)測(cè)結(jié)果,長(zhǎng)度為l 的滑動(dòng)窗口以0.5 步長(zhǎng)滑過。若滑動(dòng)窗口在第s 秒開始作用,則其包含的時(shí)間片段為{Ts+1,Ts+2,…,Ts+l},其預(yù)測(cè)結(jié)果分別為{F(Ts+1),F(xiàn)(Ts+2),…,F(xiàn)(Ts+l)}。所以,該時(shí)間窗口的預(yù)測(cè)結(jié)果Ws,l如公式5所示。

經(jīng)過上述方法,我們得到Nl個(gè)滑動(dòng)窗口,每個(gè)窗口的大小均為l,Nl的計(jì)算方式如公式6 所示,再用Top-K 池化來作用于這Nl個(gè)滑動(dòng)窗口的預(yù)測(cè)結(jié)果,得到最后的聚合值Gl作為大小為l 的滑動(dòng)窗口的最終預(yù)測(cè)結(jié)果。其中,K 的取值如公式7。

如上所述,整個(gè)視頻的最終預(yù)測(cè)結(jié)果由不同長(zhǎng)度滑動(dòng)窗口的預(yù)測(cè)結(jié)果取平均值得到,本論文滑動(dòng)窗口的大小為l∈{1,2,4,8,16},最終的結(jié)果P 如下式所示

網(wǎng)絡(luò)訓(xùn)練完成后,本文采取3 個(gè)數(shù)據(jù)組的識(shí)別率平均值作為整個(gè)的識(shí)別效果。在本文中,準(zhǔn)確率(accuracy)如公9 所示,

我們?cè)诖R(shí)別的視頻中隨機(jī)采取視頻短片段,將其時(shí)空特征融合后得到輸入整個(gè)識(shí)別網(wǎng)絡(luò),這樣得到的就是以不同的采樣間隔得到的時(shí)空特征,實(shí)驗(yàn)結(jié)果如表1 所示。

表1 基礎(chǔ)雙流卷積神經(jīng)網(wǎng)絡(luò)和多時(shí)間尺度的雙流卷及網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率
由表1 可得,與基礎(chǔ)的雙流卷積神經(jīng)網(wǎng)絡(luò)相比,基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)不論在UCF101 還是HMDB51 數(shù)據(jù)集都取得了不錯(cuò)的效果,在兩個(gè)數(shù)據(jù)集上的識(shí)別率都有提升。
如表2 和3 所示,將本文的基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)和其他各種行為識(shí)別做識(shí)別率的比較,數(shù)據(jù)集還是采用UCF101 和HMDB51 數(shù)據(jù)集。

表2 不同視頻行為識(shí)別方法在UCF101 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率
Karpathy 采用Slow Fusion 的方法提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)于長(zhǎng)時(shí)時(shí)序的提取能力,以便更充分地利用網(wǎng)絡(luò)的時(shí)間信息,提高網(wǎng)絡(luò)的識(shí)別效率。在Slow Fusion[6]中,作者還第一次提出采用不同分辨率的識(shí)別框架去提高識(shí)別率,其中低分辨率的特征采用context stream 來提取,高分辨率的特征用fovea stream 來學(xué)習(xí)。由表2 可知,該網(wǎng)絡(luò)實(shí)現(xiàn)了65.4%的識(shí)別效率。
而本文提出的基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)不僅充分利用了視頻內(nèi)容的時(shí)間、空間信息,還運(yùn)用不同尺度的滑動(dòng)窗口作用于提取到的預(yù)測(cè)結(jié)果,有利于未經(jīng)處理視頻的識(shí)別效率,使得整體的識(shí)別效率達(dá)到了96.95%。

表3 不同行為識(shí)別方法在HMDB51 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率
Simonyan 采用了雙流卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別框架,利用空間流卷積網(wǎng)絡(luò)提取視頻內(nèi)容的空間特征,利用時(shí)間流卷積網(wǎng)絡(luò)訓(xùn)練視頻內(nèi)容的時(shí)間特征,所不同的是,他在兩個(gè)流最后一層都訓(xùn)練softmax 層,得到兩個(gè)訓(xùn)練好的softmax 層后再融合識(shí)別,該方法在做平均或者支持向量機(jī)訓(xùn)練分別得到了58.0%和59.4%的識(shí)別率。
而本文中使用的基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)因?yàn)槎喑叨然瑒?dòng)窗口的作用,整個(gè)識(shí)別網(wǎng)絡(luò)能更好的提取不同時(shí)間尺度下的信息,有效提高視頻識(shí)別的準(zhǔn)確率,本文的基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)模型在HMDB51 數(shù)據(jù)集上得到了74.6%的識(shí)別率。
為了解決基礎(chǔ)的雙流卷積神經(jīng)網(wǎng)絡(luò)對(duì)于長(zhǎng)時(shí)時(shí)序信息的提取能力不足的問題,本文首先引入了時(shí)間分割網(wǎng)絡(luò),該網(wǎng)絡(luò)采用分割稀疏采樣原理,解決了雙流卷積網(wǎng)絡(luò)只能覆蓋較小視頻內(nèi)容的問題。然后基于時(shí)間分割網(wǎng)絡(luò)又提出了多時(shí)間尺度的特征提取原理,著重對(duì)有效視頻幀占比小、視頻未經(jīng)處理等的問題有顯著效果。本文對(duì)比分析了原始的雙流卷積網(wǎng)絡(luò)和本文提出的基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別效果,然后分別在UCF101 和HMDB51 數(shù)據(jù)集上比較分析了本文的識(shí)別網(wǎng)絡(luò)和其他識(shí)別網(wǎng)絡(luò)的識(shí)別率。綜上,本文的基于多時(shí)間尺度的雙流卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取不同時(shí)間尺度下的時(shí)空信息,能夠有效識(shí)別大多數(shù)的行為種類,大大提升了視頻的識(shí)別率。