999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視頻時(shí)空特征的行為識(shí)別方法

2023-02-24 05:01:34倪苒巖
計(jì)算機(jī)應(yīng)用 2023年2期
關(guān)鍵詞:特征方法

倪苒巖,張 軼

(四川大學(xué) 計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

隨著科技不斷發(fā)展,視頻已經(jīng)成為互聯(lián)網(wǎng)信息傳播的主流手段。在這種情況下,準(zhǔn)確有效地識(shí)別視頻中的人類行為尤為重要。人體行為識(shí)別是利用計(jì)算機(jī)視覺技術(shù)進(jìn)行視頻內(nèi)容處理的一個(gè)重要研究方向,在安全性、人機(jī)交互和視頻檢索等方面具有重要的研究和應(yīng)用價(jià)值[1]。與單個(gè)圖像相比,視頻中蘊(yùn)含著更豐富的信息,包括不同視頻幀之間的時(shí)序相關(guān)性和相鄰幀之間的運(yùn)動(dòng)位移。因此,時(shí)間建模是高效視頻行為識(shí)別成功的關(guān)鍵。隨著深度學(xué)習(xí)的蓬勃發(fā)展,二維(Two-Dimensional,2D)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像分類任務(wù)中取得了巨大成功[2],行為識(shí)別也從傳統(tǒng)的基于手工特征的方法轉(zhuǎn)變?yōu)榛谏疃葘W(xué)習(xí)的方法。隨著大規(guī)模數(shù)據(jù)集[3]和更強(qiáng)大的模型[4]的引入,基于深度網(wǎng)絡(luò)的方法已成為視頻行為識(shí)別任務(wù)的主流。然而,雖然傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)對(duì)于視頻幀中空間信息的提取非常有效,但忽略了時(shí)間信息的提取,不能直接應(yīng)用于時(shí)間序列信號(hào)(例如視頻)的特征表示。為了彌補(bǔ)傳統(tǒng)的二維網(wǎng)絡(luò)無法提取視頻中的時(shí)間信息的不足,研究者們嘗試使用各種方法來表示時(shí)空特征,并取得了不錯(cuò)的成果。這些主流的行為識(shí)別方法大致可分為采用雙流結(jié)構(gòu)的二維卷積神經(jīng)網(wǎng)絡(luò)、三維卷積神經(jīng)網(wǎng)絡(luò)及其變體和嵌入時(shí)間建模模塊的二維網(wǎng)絡(luò)3 類。

典型的雙流網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合了空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)。換句話說,它可以分為兩個(gè)流——以RGB(Red-Green-Blue)幀為輸入的空間流和以光流為輸入的時(shí)間流。兩個(gè)流都使用深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),前者處理RGB 幀,后者處理光流信號(hào),最終將二者結(jié)果進(jìn)行融合。因此,雙流網(wǎng)絡(luò)可以有效結(jié)合外觀和運(yùn)動(dòng)信息。Simonya 等[5]使用雙流體系結(jié)構(gòu)來進(jìn)行動(dòng)作識(shí)別,實(shí)驗(yàn)結(jié)果表明,該雙流結(jié)構(gòu)能夠有效地集成視頻的外觀和時(shí)序信息。然而,稠密的光流是從視頻序列中的相鄰幀之間計(jì)算出來的,計(jì)算量十分繁重。隨著行為識(shí)別數(shù)據(jù)集越來越大,提取視頻數(shù)據(jù)的光流圖也愈發(fā)耗時(shí)。此外,雙流網(wǎng)絡(luò)需要分別訓(xùn)練空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò),無法實(shí)現(xiàn)端到端的識(shí)別。

相較于雙流網(wǎng)絡(luò),三維卷積網(wǎng)絡(luò)無需進(jìn)行光流計(jì)算,可以實(shí)現(xiàn)端到端的識(shí)別。Tran 等[6]提出了三維卷積(Convolution 3D,C3D)模型,該模型可以同時(shí)捕獲整個(gè)視頻的外觀和時(shí)間信息,避免了對(duì)光流的需求。不幸的是,三維卷積也有致命的缺陷。與使用二維卷積的模型相比,由于三維卷積的參數(shù)量呈指數(shù)增長(zhǎng),訓(xùn)練十分困難。因此,三維卷積的方法對(duì)計(jì)算資源有著巨大的需求,并且在小型數(shù)據(jù)集上容易出現(xiàn)過擬合的問題。因此,三維網(wǎng)絡(luò)通常需要部署在較為先進(jìn)的硬件平臺(tái)上。

針對(duì)雙流模型需要分別訓(xùn)練空間流和時(shí)間流網(wǎng)絡(luò)以及預(yù)先提取光流圖,而三維卷積網(wǎng)絡(luò)參數(shù)量巨大,對(duì)硬件平臺(tái)要求很高的問題,很多學(xué)者開始研究更高效的方法來實(shí)現(xiàn)對(duì)時(shí)空信息的建模,比如在原有二維卷積網(wǎng)絡(luò)的架構(gòu)上添加其他功能模塊。Lin 等[7]沿時(shí)間維度移動(dòng)部分通道,以促進(jìn)相鄰幀之間的信息交換,而無需添加額外參數(shù)。雖然它的計(jì)算量得到了很好的控制,但在捕獲顯式運(yùn)動(dòng)信息方面仍然很弱。

為了增強(qiáng)模型的時(shí)空特征學(xué)習(xí)能力,本文提出了一種深度架構(gòu)來解決上述問題,該方法能同時(shí)高效提取短期和長(zhǎng)期的時(shí)間特征。首先,本文設(shè)計(jì)了一種基于注意力機(jī)制的運(yùn)動(dòng)信息編碼器來在特征層級(jí)上提取短期的運(yùn)動(dòng)信息,這里提到的運(yùn)動(dòng)特征類似于光流信號(hào)。其次,提出了一個(gè)輕量級(jí)的時(shí)空建模模塊,用于代替三維卷積核對(duì)視頻的時(shí)空信息進(jìn)行長(zhǎng)期建模。本文將傳統(tǒng)的三維濾波器替換為通道方向的一維時(shí)間卷積和二維空間卷積來編碼全局時(shí)間線索。此外,本文方法還在時(shí)間維度上對(duì)特征進(jìn)行移位操作來完成對(duì)相鄰幀信息的交換。本文將上述時(shí)空提取模塊和運(yùn)動(dòng)提取模塊進(jìn)行結(jié)合并嵌入到殘差結(jié)構(gòu)中,實(shí)現(xiàn)端到端的行為識(shí)別網(wǎng)絡(luò)模型的構(gòu)建。通過對(duì)上述模塊的整合,本文方法可以實(shí)現(xiàn)對(duì)行為特征的提取和識(shí)別,并且無需預(yù)先提取光流圖和使用三維卷積。本文所提行為識(shí)別方法在識(shí)別精度、計(jì)算成本和網(wǎng)絡(luò)規(guī)模方面都有著充足的優(yōu)勢(shì)。

1 相關(guān)工作

基于視頻的人體行為識(shí)別的主要流程是先對(duì)視頻中蘊(yùn)含的時(shí)空特征進(jìn)行提取,然后將提取的特征輸入分類器中,完成對(duì)行為的分類。特征提取是其中最重要的步驟。使用深度學(xué)習(xí)的方法進(jìn)行特征的提取是目前的主流方向。

1.1 雙流卷積神經(jīng)網(wǎng)絡(luò)

視頻中蘊(yùn)含著豐富的時(shí)間和空間信息。時(shí)間信息代表視頻幀之間的位移和運(yùn)動(dòng)關(guān)系,空間信息包括視頻幀中的場(chǎng)景和外觀信息。2014 年,雙流架構(gòu)第一次被提出,雙流法將單幀RGB 視頻幀和多張堆疊光流圖分別作為空間和時(shí)間網(wǎng)絡(luò)分支的輸入,最后將空間流分支網(wǎng)絡(luò)和時(shí)間流分支網(wǎng)絡(luò)輸出的分類結(jié)果融合,得到最終的分類結(jié)果。針對(duì)傳統(tǒng)的雙流網(wǎng)絡(luò)缺乏長(zhǎng)時(shí)間的建模能力的問題,Wang 等[8]在2016 年提出了基于長(zhǎng)時(shí)建模的時(shí)間分段網(wǎng)絡(luò)TSN(Temporal Segment Network)模型,該模型首次提出了稀疏采樣的方法,首先對(duì)視頻進(jìn)行均勻分段得到若干視頻片段;然后在每一個(gè)視頻片段中隨機(jī)采樣單幀視頻幀輸入網(wǎng)絡(luò),每一幀圖像的預(yù)測(cè)結(jié)果代表單個(gè)視頻片段的預(yù)測(cè)結(jié)果;最后對(duì)所有視頻片段的分類結(jié)果進(jìn)行統(tǒng)計(jì),將出現(xiàn)次數(shù)最多動(dòng)作類別作為視頻的最終分類結(jié)果。Lan 等[9]認(rèn)為時(shí)間分段網(wǎng)絡(luò)稀疏采樣后得到的不同的視頻剪輯的權(quán)重應(yīng)該不同,因此對(duì)TSN 的段共識(shí)策略進(jìn)行了改進(jìn),從而提出了深度局部視頻特征(Deep lOcal Video Feature,DOVF)網(wǎng)絡(luò),給每個(gè)視頻片段分配不同的權(quán)重,提高了行為識(shí)別的準(zhǔn)確率。Lin 等[10]認(rèn)為不同類別的動(dòng)作之間存在粒度差異,并基于雙流結(jié)構(gòu)提出了一種由粗粒度到細(xì)粒度的方法,該方法使用更為精細(xì)的特征減少異步信息,從而進(jìn)一步提高了行為識(shí)別的精度。除此之外,還有相當(dāng)多的國內(nèi)外學(xué)者對(duì)雙流網(wǎng)絡(luò)進(jìn)行研究,均獲得了不同程度的進(jìn)展?;陔p流架構(gòu)的視頻人體行為識(shí)別方法可以獲得較高的準(zhǔn)確率,但這類方法需要預(yù)先提取視頻數(shù)據(jù)集的光流圖,且兩個(gè)分支網(wǎng)絡(luò)需要進(jìn)行分別訓(xùn)練,流程復(fù)雜且無法實(shí)現(xiàn)實(shí)時(shí)的端到端識(shí)別。

1.2 三維卷積神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的二維卷積網(wǎng)絡(luò)只能提取空間維度的特征,而忽略了視頻中時(shí)間特征的學(xué)習(xí)和提取,三維卷積網(wǎng)絡(luò)能夠同時(shí)提取視頻中的時(shí)間信息和空間信息。因此,另一種行為識(shí)別的主流方法就是三維卷積。2010 年,Ji 等[11]第一次將三維卷積應(yīng)用到視頻人體行為識(shí)別領(lǐng)域,通過三維的濾波器直接對(duì)視頻幀序列進(jìn)行卷積操作,可以同時(shí)獲取時(shí)間和空間維度上的行為特征。Tran 等[6]通過一系列的實(shí)驗(yàn)探索,找到了最優(yōu)的三維卷積核大小,進(jìn)而提出了C3D 模型。在C3D 的基礎(chǔ)上,Tran 等[12]提出了一種三維殘差網(wǎng)絡(luò)(Three-Dimensional Residual Network,Res3D)模型,Res3D 減少了C3D 模型的參數(shù)量,并提高了識(shí)別的準(zhǔn)確率。Cai 等[13]在Res3D 模型的基礎(chǔ)上添加了注意力機(jī)制,使得網(wǎng)絡(luò)更注重顯著的行為特征。盡管三維卷積的方法取得了不錯(cuò)的效果,但是,三維卷積神經(jīng)網(wǎng)絡(luò)由于它大量的參數(shù),容易產(chǎn)生過度擬合和緩慢收斂的問題而極難訓(xùn)練,使得難于部署在普通的硬件平臺(tái)上,也限制了基于三維卷積網(wǎng)絡(luò)的方法的應(yīng)用。

1.3 配備時(shí)間建模模塊的二維網(wǎng)絡(luò)

為了解決雙流網(wǎng)絡(luò)無法實(shí)現(xiàn)端到端的識(shí)別,并且光流的提取需要消耗大量的時(shí)間的問題,以及三維卷積網(wǎng)絡(luò)由于含大量的參數(shù),在小型數(shù)據(jù)集上容易產(chǎn)生過擬合的問題,大量的研究工作致力于探索高效的端到端的行為識(shí)別方法,即使用二維(2D)卷積網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),并嵌入時(shí)間建模的模塊。文獻(xiàn)[14]引入了長(zhǎng)期特征提取模塊用于快速的視頻處理,該方法的創(chuàng)新性在于實(shí)現(xiàn)了對(duì)長(zhǎng)期時(shí)間信息的融合;Lee等[15]提出了一個(gè)時(shí)間信息提取模塊,能夠?qū)崿F(xiàn)5 個(gè)固定方向的搜索操作以對(duì)時(shí)空信息進(jìn)行編碼;Lin 等[7]設(shè)計(jì)了一個(gè)通用而高效的、沿著時(shí)間軸通道移位的模塊,提高了幀間信息交互的過程,主要優(yōu)點(diǎn)是既保持了跟二維網(wǎng)絡(luò)相當(dāng)?shù)膹?fù)雜度,又達(dá)到了三維網(wǎng)絡(luò)的效果。這類方法使用二維卷積網(wǎng)絡(luò)對(duì)人體動(dòng)作進(jìn)行端到端的識(shí)別,避免了雙流網(wǎng)絡(luò)繁重的光流運(yùn)算,使用相較于三維網(wǎng)絡(luò)更少的參數(shù)量達(dá)到了較好的識(shí)別性能,在這些工作的啟發(fā)下,本文采用了二維卷積網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),并嵌入不同的時(shí)間建模模塊實(shí)現(xiàn)視頻中運(yùn)動(dòng)信息和時(shí)空信息的編碼。

1.4 殘差網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)具有非常強(qiáng)的表達(dá)能力,經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)能夠?qū)?shù)據(jù)特征逐層抽象,最終提取出完成任務(wù)所需要的特征,然后使用一個(gè)簡(jiǎn)單的分類器,就可以完成最終任務(wù)。從理論上來說,更深的神經(jīng)網(wǎng)絡(luò)在非線性激活函數(shù)的加持下,擁有更大的假設(shè)空間和更強(qiáng)的學(xué)習(xí)能力;但是在實(shí)際應(yīng)用中,網(wǎng)絡(luò)層數(shù)越深,訓(xùn)練便越發(fā)困難。殘差網(wǎng)絡(luò)(Residual Network,ResNet)很好地解決了這個(gè)問題,ResNet 由微軟研究院的He 等[16]提出,通過使用殘差連接成功訓(xùn)練出了152層的神經(jīng)網(wǎng)絡(luò),其主要思想是在網(wǎng)絡(luò)中增加了直連通道,在ImageNet[17]等圖像分類數(shù)據(jù)集上取得了非常好的結(jié)果,同等層數(shù)的前提下殘差網(wǎng)絡(luò)也收斂得更快。這使得神經(jīng)網(wǎng)絡(luò)可以采用更深的設(shè)計(jì)。

本文設(shè)計(jì)使用了可以嵌入殘差網(wǎng)絡(luò)中的時(shí)間建模模塊,探索視頻中不同層次的時(shí)間信息,并將其加入殘差網(wǎng)絡(luò)中,實(shí)現(xiàn)端到端的行為識(shí)別。

2 行為識(shí)別算法設(shè)計(jì)

2.1 網(wǎng)絡(luò)整體框架

本文構(gòu)建的網(wǎng)絡(luò)是一個(gè)二維結(jié)構(gòu),無需任何三維卷積或光流計(jì)算,網(wǎng)絡(luò)整體架構(gòu)如圖1 所示,在ResNet-50(ResNet with 50 Layers)的瓶頸層加入時(shí)間移位操作[7],并以加入移位模塊的ResNet-50 作為基礎(chǔ)網(wǎng)絡(luò),通過引入時(shí)空信息提取模塊和基于注意力機(jī)制的運(yùn)動(dòng)信息提取模塊,更好地融合局部時(shí)空信息與全局時(shí)空信息,實(shí)現(xiàn)對(duì)視頻中人體的行為的識(shí)別。具體地說,運(yùn)動(dòng)信息提取模塊被嵌入每個(gè)瓶頸層(置于第一個(gè)1×1 卷積層之后),用于建模局部運(yùn)動(dòng)信息;時(shí)空信息提取模塊被放置在每個(gè)瓶頸層的3×3 卷積后,用于建模遠(yuǎn)程時(shí)間信息。

圖1 本文網(wǎng)絡(luò)整體架構(gòu)Fig.1 Overall architecture of the proposed network

模型以RGB 視頻幀作為輸入,由于在一段視頻中,連續(xù)幀之間的變化幅度很小,如果使用每幀圖像作為輸入會(huì)帶來很大的計(jì)算成本,因此,本文借鑒了TSN[8]的稀疏采樣方法,實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)間視頻的建模,充分利用整個(gè)視頻的時(shí)空信息。具體流程為:首先將視頻均分成k個(gè)子片段,每一個(gè)子片段具有等長(zhǎng)度;然后在每個(gè)片段中隨機(jī)找出一幀圖像,從整個(gè)視頻中采樣k幀圖像,使得所采樣的視頻幀覆蓋整個(gè)視頻段;最后使用段共識(shí)函數(shù)結(jié)合多個(gè)視頻幀的類別得分,得到它們之間對(duì)于類別預(yù)測(cè)的共識(shí)。整個(gè)算法的流程如下。

算法1 基于視頻時(shí)空特征的人體行為識(shí)別方法流程。

輸入 待識(shí)別視頻樣本V,在訓(xùn)練集上訓(xùn)練完畢的模型權(quán)重文件;

輸出 該視頻樣本屬于每一類的概率值P。

1)對(duì)輸入視頻V進(jìn)行稀疏采樣操作,得到視頻幀集合S∈{S1,S2,…,Sk},k代表采樣幀數(shù);

2)加載模型的權(quán)重;

3)將處理后的視頻幀集合S輸入到帶有運(yùn)動(dòng)提取模塊和時(shí)空提取模塊的骨干網(wǎng)絡(luò)中進(jìn)行特征提?。?/p>

4)將經(jīng)過骨干網(wǎng)絡(luò)后得到k個(gè)幀級(jí)特征,送入全連接層,得到k個(gè)屬于每個(gè)片段的分類概率;

5)對(duì)k個(gè)分類結(jié)果進(jìn)行平均操作,獲取視頻級(jí)分類概率P。

本文方法采用帶有時(shí)間移位模塊[7]的ResNet-50 作為基礎(chǔ)網(wǎng)絡(luò),具體表現(xiàn)為對(duì)ResNet-50 中的每個(gè)殘差塊加入時(shí)間移位操作[7],時(shí)間移位操作在卷積運(yùn)算之前沿時(shí)間軸移動(dòng)輸入特征通道的一部分。如圖2 所示,在不同時(shí)間點(diǎn)提取的特征由每行的不同顏色標(biāo)識(shí)。沿時(shí)間軸,將特征通道的1/8 向前移動(dòng),將另1/8 部分向后移動(dòng),同時(shí)保持其余的3/4 不變。時(shí)間移位操作通過對(duì)過去幀、當(dāng)前幀和未來幀的加權(quán)相加,可以促進(jìn)相鄰幀之間的信息交換,并且移位操作不會(huì)給網(wǎng)絡(luò)模型增加額外的計(jì)算量,可以在零計(jì)算成本的基礎(chǔ)上有效提升網(wǎng)絡(luò)的性能。因此本文將帶有時(shí)間移位模塊的殘差網(wǎng)絡(luò)(ResNet-50)作為基礎(chǔ)網(wǎng)絡(luò),但僅僅進(jìn)行時(shí)間移位操作的網(wǎng)絡(luò)在顯式的時(shí)間建模方面還存在著不足,本文方法在基礎(chǔ)網(wǎng)絡(luò)中加入顯式的運(yùn)動(dòng)信息編碼模塊和時(shí)空信息提取模塊,可以進(jìn)一步提升行為識(shí)別的準(zhǔn)確率。

圖2 對(duì)特征的時(shí)間移位操作Fig.2 Temporal shift operation on features

接下來將著重介紹以下兩個(gè)部分:基于注意力機(jī)制的運(yùn)動(dòng)提取模塊和(2+1)維的時(shí)空信息提取模塊。上述兩個(gè)模塊可以插入到現(xiàn)有的二維卷積神經(jīng)網(wǎng)絡(luò)中,通過時(shí)空特征和運(yùn)動(dòng)特征建模提高模型的性能。

2.2 基于注意力機(jī)制的運(yùn)動(dòng)信息提取模塊

運(yùn)動(dòng)信息是指兩個(gè)連續(xù)幀的運(yùn)動(dòng)位移,反映動(dòng)作的發(fā)生。通過引入運(yùn)動(dòng)信息可以提高行為識(shí)別的準(zhǔn)確率。目前主流的方法以提取相鄰幀間的密集光流圖作為網(wǎng)絡(luò)的輸入的形式描述像素級(jí)的運(yùn)動(dòng)信息,雖然這些方法被證明是有效的,但從圖像序列中計(jì)算光流非常耗時(shí),并且無法實(shí)現(xiàn)端到端的行為識(shí)別。為了解決這一問題,本文采用了一種運(yùn)動(dòng)注意力模型,從將運(yùn)動(dòng)建模從像素級(jí)擴(kuò)展到廣泛的特征級(jí)別,并且將運(yùn)動(dòng)信息的編碼和時(shí)空信息的提取融合到一個(gè)統(tǒng)一的框架中,實(shí)現(xiàn)端到端的識(shí)別,使得網(wǎng)絡(luò)可以更加注意發(fā)生了運(yùn)動(dòng)位移的動(dòng)作信息?;谧⒁饬C(jī)制的運(yùn)動(dòng)編碼模塊的結(jié)構(gòu)如圖3 所示。

圖3 基于注意力機(jī)制的運(yùn)動(dòng)信息提取模塊結(jié)構(gòu)Fig.3 Structure of motion extraction module based on attention mechanism

本模塊受圖像分類領(lǐng)域的注意力模塊SENet(Squeezeand-Excitation Network)[18]的啟發(fā),SENet 以壓縮和解壓的方式利用了兩個(gè)全連接層,然后使用Sigmoid 激活函數(shù)激勵(lì)通道級(jí)別的特征,通過顯式地建模通道間相互依賴關(guān)系,增強(qiáng)了圖像識(shí)別任務(wù)通道特征的學(xué)習(xí)。然而,它獨(dú)立地處理每幀圖像,不考慮幀間的時(shí)間依賴關(guān)系。本文的運(yùn)動(dòng)注意力模塊能夠激勵(lì)相鄰幀間的運(yùn)動(dòng)特征,假設(shè)該模塊的輸入特征為X∈[N,T,C,H,W],N代表批尺寸大小,T代表特征的時(shí)間維度,C代表通道數(shù),H和W代表了空間維度上的長(zhǎng)和寬。首先,采用1×1 的二維卷積將輸入特征的空間通道數(shù)壓縮至原來的1/16 以降低計(jì)算成本,得到特征X1∈R[N,T,C/16,H,W];然后,從每?jī)蓚€(gè)連續(xù)的特征圖中生成特征級(jí)的運(yùn)動(dòng)信息。以生成時(shí)刻t的運(yùn)動(dòng)特征X(t)為例,首先對(duì)時(shí)刻t+1 的特征應(yīng)用二維的通道級(jí)卷積,然后減去時(shí)刻t的特征,獲得近似的t時(shí)刻的運(yùn)動(dòng)特征表示,公式如下:

其中:X(t) ∈RN×1×C/16×H×W代表在時(shí)刻t時(shí)的運(yùn)動(dòng)特征;C1表示3×3 的二維卷積層。本文對(duì)每?jī)蓚€(gè)相鄰特征圖都執(zhí)行上述操作,得到t-1 個(gè)運(yùn)動(dòng)特征表示,并將運(yùn)動(dòng)特征連接起來,得到完整的運(yùn)動(dòng)特征表示。為了使得運(yùn)動(dòng)特征的時(shí)間維度大小與輸入特征相同,本文簡(jiǎn)單地用0 來表示最后一個(gè)時(shí)間步長(zhǎng)的運(yùn)動(dòng)信息,最終的運(yùn)動(dòng)特征F可以表示為:[X(0),X(1),…,X(t-1),0]。因?yàn)檫\(yùn)動(dòng)編碼模塊的目標(biāo)是激勵(lì)運(yùn)動(dòng)敏感的通道,使網(wǎng)絡(luò)更加注意運(yùn)動(dòng)信息,而無需考慮詳細(xì)的空間布局。因此,可以通過空間平均池化處理運(yùn)動(dòng)特征,如下所示:

其中F'∈RN×T×C/16×1×1,(i,j)代表特征圖空間上的每一個(gè)像素點(diǎn)。接著,使用1×1 的二維卷積將運(yùn)動(dòng)特征的通道數(shù)恢復(fù)到原來的大小。處理后的特征為F*∈RN×T×C×1×1。運(yùn)動(dòng)注意力權(quán)重M可以通過使用sigmoid 激活函數(shù)獲得:

本模塊的目的是激發(fā)與運(yùn)動(dòng)信息相關(guān)的通道,因此,將輸入特征X與運(yùn)動(dòng)注意力權(quán)重M相乘即可得到運(yùn)動(dòng)敏感的特征,最后使用殘差殘差連接來保留原始背景信息,同時(shí)增強(qiáng)運(yùn)動(dòng)信息,公式如下:

其中:X' 是輸入特征,X是此模塊的輸出,維度為[N,T,C,H,W],操作符⊙代表通道級(jí)相乘。

2.3 時(shí)空信息提取模塊

與三維卷積的效果相同,本文提出的時(shí)空模塊能夠同時(shí)獲取時(shí)間和空間維度的信息,但與三維卷積相比,本文設(shè)計(jì)的時(shí)空信息提取模塊大幅降低了模型的計(jì)算量。圖4 展示了該模塊的具體結(jié)構(gòu)。

圖4 時(shí)空信息提取模塊結(jié)構(gòu)Fig.4 Structure of spatio-temporal information extraction module

假設(shè)輸入特征Y的形狀為[N,T,C,H,W],其中N代表輸入特征Y的批尺寸,T代表時(shí)間維度,C代表通道數(shù),H和W代表了空間維度上的長(zhǎng)和寬。首先,通過使用卷積核大小為1×1 的二維卷積對(duì)輸入特征的通道數(shù)進(jìn)行壓縮,以降低后續(xù)運(yùn)算計(jì)算量,本文將特征的通道數(shù)減少為1,得到特征Y1∈RN×T×1×H×W。

接下來,Y1的形狀被重構(gòu)成Y2∈RNHW×1×T,然后在時(shí)間維度T上應(yīng)用一維的時(shí)間卷積來融合時(shí)間信息。時(shí)間卷積C2的卷積核大小為3,本文用它來描述通道級(jí)的時(shí)間信息:

其中Y3∈RNHW×1×T。繼續(xù)將Y3的形狀重構(gòu)為Y4∈RN×T×1×H×W,并通過卷積核大小為3×3 的二維卷積對(duì)局部空間信息進(jìn)行建模,得到特征Y5:

其中Y5∈RN×T×1×H×W。最后再次使用1×1 的二維卷積來完成對(duì)通道數(shù)的解壓,將特征的通道數(shù)恢復(fù)到原來的大小,得到特征Y6∈RN×T×C×H×W。本文方法將整個(gè)操作置入殘差結(jié)構(gòu)中,最終輸出表示為:

由式(7),本文使用殘差連接,既保留了原始輸入特征的表達(dá),又實(shí)現(xiàn)了對(duì)時(shí)空信息的提取和增強(qiáng)。本文設(shè)計(jì)的時(shí)空模塊將大小為3×3×3 的三維卷積核解耦成大小為3×3 的二維卷積和大小為3 的一維卷積,并在進(jìn)行時(shí)間和空間卷積運(yùn)算前對(duì)特征通道數(shù)進(jìn)行了壓縮,因此,相較于直接使用三維卷積的模型而言參數(shù)量更小,通過引入十分有限的額外計(jì)算成本提取了豐富的時(shí)空特征。本文將此模塊嵌入到ResNet-50 架構(gòu)的每一個(gè)瓶頸層中,可以實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)時(shí)空特征的提取。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

本文選擇在UCF101[19]、HMDB51[20]和Something-Something-V1[21]三個(gè)經(jīng)典的行為識(shí)別數(shù)據(jù)集上驗(yàn)證所提算法的有效性。

UCF101 數(shù)據(jù)集[19]發(fā)布于2012 年,是行為識(shí)別領(lǐng)域最經(jīng)典的數(shù)據(jù)集之一,包含13 320 個(gè)來源于YouTube 的視頻序列,總共擁有101 個(gè)行為類別。由于類別眾多、樣本多樣性較強(qiáng)、識(shí)別難度較高,UCF101 成為目前人體行為識(shí)別領(lǐng)域中眾多研究者們的常用數(shù)據(jù)集。

HMDB51 數(shù)據(jù)集[20]發(fā)布于2011 年,包含6 766 段視頻樣本集,總共擁有51 個(gè)行為類別,由于該數(shù)據(jù)集規(guī)模較小、視頻大部分為在真實(shí)場(chǎng)景中拍攝得到,包括大量面部和肢體動(dòng)作以及不同的交互行為,被很多研究者青睞。

Something-Something-V1 數(shù)據(jù)集[21]是一個(gè)大規(guī)模的標(biāo)記視頻數(shù)據(jù)集,記錄了人類在日常生活中的行為。它包括108 499 個(gè)視頻,有174 個(gè)動(dòng)作類別,包括86 017 個(gè)訓(xùn)練集樣本、11 522 個(gè)驗(yàn)證集樣本和27 157 個(gè)測(cè)試集樣本。相較于前兩個(gè)數(shù)據(jù)集,Something-Something-V1 包含更多具有時(shí)序相關(guān)性的動(dòng)作,如從左向右推動(dòng)物品和從右向左推動(dòng)物品等,這類時(shí)序性相關(guān)的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)的時(shí)間建模能力要求較高,能很好地驗(yàn)證本文所提出的時(shí)間建模方法的有效性,識(shí)別難度也較大,具有很大的挑戰(zhàn)性。圖5 給出了Something-Something-V1 數(shù)據(jù)集中的某個(gè)動(dòng)作示例,這個(gè)動(dòng)作的標(biāo)簽為“關(guān)閉洗碗機(jī)”。但如果顛倒視頻幀的順序,這個(gè)動(dòng)作就會(huì)變?yōu)椤按蜷_洗碗機(jī)”。因此,不能僅通過單個(gè)視頻幀判斷動(dòng)作的類別,需要利用一定的時(shí)間信息,在此數(shù)據(jù)集上的結(jié)果可以很好地反映模型的時(shí)間建模能力。

圖5 Something-Something-V1數(shù)據(jù)集上的動(dòng)作示例Fig.5 Action example in Something-Something-V1 dataset

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)在Ubuntu16.04 系統(tǒng)下進(jìn)行,硬件平臺(tái)是NVIDIA RTX 3090,程序基于PyTorch 深度學(xué)習(xí)框架設(shè)計(jì)實(shí)現(xiàn),CUDA(Computer Unified Device Architecture)版本為10.1。使用mmaction 開源視頻動(dòng)作分析庫對(duì)行為識(shí)別數(shù)據(jù)集進(jìn)行提幀操作,然后對(duì)每個(gè)提取完圖像幀的視頻隨機(jī)采樣8 幀或16 幀作為網(wǎng)絡(luò)的輸入(對(duì)于UCF101 和HMDB51 數(shù)據(jù)集,由于數(shù)據(jù)集較小,采樣16 幀,對(duì)Something-Something-V1數(shù)據(jù)集采樣8 幀進(jìn)行了實(shí)驗(yàn))。在訓(xùn)練過程中,采用角點(diǎn)裁剪和尺度抖動(dòng)兩種方法進(jìn)行數(shù)據(jù)增強(qiáng),以增加訓(xùn)練樣本的多樣性,最后將每個(gè)裁剪區(qū)域的大小調(diào)整為224×224。對(duì)于UCF101 和HMDB51 數(shù)據(jù)集,由于數(shù)據(jù)集較小容易產(chǎn)生過擬合,本文首先將模型在Kinetics 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并使用預(yù)訓(xùn)練的權(quán)重初始化網(wǎng)絡(luò),采用隨機(jī)梯度下降法優(yōu)化整個(gè)網(wǎng)絡(luò)模型。對(duì)UCF101 和HMDB51 數(shù)據(jù)集的訓(xùn)練參數(shù)設(shè)置為:30 個(gè)訓(xùn)練周期,初始學(xué)習(xí)率為0.001(在第10 和第20 個(gè)周期學(xué)習(xí)率依次衰減為原來的1/10),批尺寸大小設(shè)置為10。對(duì)于Something-Something-V1 數(shù)據(jù)集,使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50 模型進(jìn)行初始化,批尺寸大小設(shè)置為22,初始學(xué)習(xí)率設(shè)為0.01(總共60 個(gè)epoch,在第20、40、50 個(gè)epoch 學(xué)習(xí)率依次衰減為原來的1/10)。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 實(shí)驗(yàn)結(jié)果對(duì)比及分析

本節(jié)在UCF101、HMDB51 與Something-Something-V1 數(shù)據(jù)集上,將本文方法與當(dāng)前行為識(shí)別領(lǐng)域主流[5-8]和近期的方法[22-34]進(jìn)行比較,結(jié)果如表1 所示。實(shí)驗(yàn)對(duì)比結(jié)果表明,在UCF101 數(shù)據(jù)集,本文方法結(jié)果最佳,準(zhǔn)確率高達(dá)96.5%,分別高出經(jīng)典的雙流網(wǎng)絡(luò)[5]、C3D[6]網(wǎng)絡(luò)和使用雙流結(jié)構(gòu)的時(shí)間分段網(wǎng)絡(luò)(TSN)7.7、14.2 和2.5 個(gè)百分點(diǎn);且相較于雙流架構(gòu),無需預(yù)先提取光流圖,相較于三維架構(gòu),大幅減少了模型參數(shù)量。

表1 不同方法在三個(gè)數(shù)據(jù)集上的比較Tab.1 Comparison of different methods on three datasets

本文方法在HMDB51 數(shù)據(jù)集上同樣也優(yōu)于經(jīng)典的雙流網(wǎng)絡(luò)和三維網(wǎng)絡(luò)和最近的2D 網(wǎng)絡(luò),達(dá)到73.1%的識(shí)別率。與前兩個(gè)數(shù)據(jù)集不同,Something-Something-V1 是一個(gè)時(shí)序性很強(qiáng)的數(shù)據(jù)集,包含大量帶有方向性的動(dòng)作,一些對(duì)稱動(dòng)作不能僅僅基于單幀來識(shí)別(例如,“從左向右推動(dòng)某物”與“從右向左推動(dòng)某物”等)。因此,Something-Something-V1 數(shù)據(jù)集對(duì)于模型的時(shí)空建模能力要求很高,本文方法在Something-Something-V1 上的準(zhǔn)確率為46.6%,相較于沒有時(shí)間建模模塊的TSN[8],準(zhǔn)確率提高了27.1 個(gè)百分點(diǎn),證明了時(shí)間建模的重要性;相較于三維卷積網(wǎng)絡(luò)中熱門的I3D(Inflated Three-Dimensional)網(wǎng)絡(luò)方法[32],本文方法的準(zhǔn)確率提高了5 個(gè)百分點(diǎn);相較于配備了時(shí)間移位模塊的TSM(Temporal Shift Module)[7]與ECO(Efficient Convolutional Network)[14]、TRN(Temporal Relation Network)[33]和TANet(Temporal Adaptive Network)[34],準(zhǔn)確率也分別提高了1、7、12.2 和0.1 個(gè)百分點(diǎn),證明了本文方法的優(yōu)越性。

為了從多個(gè)角度衡量本文方法,表2 列出了本文方法在Something-Something-V1 數(shù)據(jù)集上的采樣幀數(shù)、參數(shù)量、浮點(diǎn)運(yùn)算量(GFLOPS(Giga Floating-point Operations Per Second))及準(zhǔn)確率與其他方法的比較。

表2 不同方法在Something-Something-V1數(shù)據(jù)集的采樣幀數(shù)、參數(shù)量、浮點(diǎn)運(yùn)算量及準(zhǔn)確率對(duì)比Tab.2 Comparison of sampling frames,parameters,F(xiàn)LOPs and accuracy among different methods on Something-Something-V1 dataset

從表2 中可以看出,本文方法相較于不具備時(shí)間移位模塊的TSN 方法[8]來說,參數(shù)量和浮點(diǎn)運(yùn)算量有所增加,但識(shí)別準(zhǔn)確率也大幅度提高,識(shí)別精度是TSN 模型的2.4 倍;與I3D網(wǎng)絡(luò)[32]相比,本文方法所需采樣幀數(shù)更少,參數(shù)量和浮點(diǎn)運(yùn)算量也更小,精度更高。與當(dāng)前先進(jìn)的二維模型TSM[7]和TANet[34]相比,參數(shù)量和浮點(diǎn)運(yùn)算量大致相當(dāng),但本文方法的識(shí)別精度更優(yōu)??偟膩碚f,本文方法在計(jì)算精度和計(jì)算量上達(dá)到了較好的平衡。

3.3.2 消融實(shí)驗(yàn)

為了驗(yàn)證所提方法每個(gè)模塊的有效性,本文在Something-Something-V1 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),探索每個(gè)模塊對(duì)于行為識(shí)別準(zhǔn)確率的影響。由于Something-Something-V1 數(shù)據(jù)集包含眾多具有方向性的動(dòng)作,識(shí)別難度較大,對(duì)模型的時(shí)序建模能力要求很高,因此本文采用此數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),更能體現(xiàn)模塊的有效性。為了公平地進(jìn)行比較,所有實(shí)驗(yàn)均采樣8 幀作為網(wǎng)絡(luò)的輸入,采用帶有時(shí)間移位模塊的ResNet-50作為基礎(chǔ)網(wǎng)絡(luò)(Baseline)。如表3 所示,本文比較了每個(gè)單獨(dú)模塊和所有子模塊組合的性能,與基礎(chǔ)網(wǎng)絡(luò)相比,運(yùn)動(dòng)信息提取模塊和時(shí)空信息提取模塊使得準(zhǔn)確率分別提高了0.4 和0.3 個(gè)百分點(diǎn),當(dāng)兩個(gè)模塊組合在一起,準(zhǔn)確率得到進(jìn)一步提高,比基礎(chǔ)網(wǎng)絡(luò)提高了1 個(gè)百分點(diǎn),證明本文提出的時(shí)空信息提取模塊和運(yùn)動(dòng)信息提取模塊能相互補(bǔ)充,使網(wǎng)絡(luò)更注意視頻中的時(shí)序特征,在僅采樣8幀為輸入的情況下在Something-Something-V1數(shù)據(jù)集上獲得了46.6%的準(zhǔn)確率。

表3 不同模塊對(duì)網(wǎng)絡(luò)的影響Tab.3 Influence of different modules on network

3.3.3 混淆矩陣

混淆矩陣也稱誤差矩陣,是表示精度評(píng)價(jià)的一種標(biāo)準(zhǔn)格式,圖6 展示了本文方法在UCF101、HMDB51 和Something-Something-V1 數(shù)據(jù)集上評(píng)估后的混淆矩陣。由于上述3 個(gè)數(shù)據(jù)集動(dòng)作類別數(shù)目較大,因此以數(shù)字代替類別標(biāo)簽,如圖6(a)使用數(shù)字0~100 代表UCF101 的101 個(gè)視頻行為類別,圖6(b)使用數(shù)字0~50 代表HMDB51 的51 個(gè)行為類別,圖6(c)使用數(shù)字0~173 代表Something-Something-V1 的174 個(gè)行為類別。矩陣對(duì)角線上的值表示該類別視頻樣本被正確分類的比例,因此落在對(duì)角線上的預(yù)測(cè)類別越多,識(shí)別性能就越好。

圖6 本文方法基于UCF101、HMDB51和Something-Something-V1的混淆矩陣Fig.6 Confusion matrices of the proposed method based on UCF101,HMDB51,and Something-Something-V1 dataset

由圖6(a)可以看出本文方法在UCF101 數(shù)據(jù)集上,幾乎所有類別的視頻都能被正確預(yù)測(cè)。由于HMDB51數(shù)據(jù)集背景信息復(fù)雜,相似行為較多,而Something-Something-V1 數(shù)據(jù)集視頻數(shù)量十分龐大,且視頻中的動(dòng)作時(shí)序性很強(qiáng),這兩個(gè)數(shù)據(jù)集都具有很大的挑戰(zhàn)性,但總的來說本文方法在這兩個(gè)數(shù)據(jù)集上也取得了不錯(cuò)的識(shí)別效果,從圖6(b)和圖6(c)可以看出大部分的預(yù)測(cè)結(jié)果都能正確落在混淆矩陣的對(duì)角線上。

4 可視化效果

圖7 為本文方法在UCF101 數(shù)據(jù)集上使用GradCAM 工具[35]生成的部分可視化結(jié)果。為簡(jiǎn)單起見,本文采樣8 幀作為網(wǎng)絡(luò)的輸入,并在中間幀中生成激活映射。

圖7 在UCF101數(shù)據(jù)集上的部分可視化結(jié)果Fig.7 Some visualization results on UCF101 dataset

從圖7 可以看到,本文方法的網(wǎng)絡(luò)主要關(guān)注人的運(yùn)動(dòng)或者手部交互動(dòng)作,如在畫眉這個(gè)動(dòng)作中,網(wǎng)絡(luò)重點(diǎn)關(guān)注了眉毛與畫眉的手部。與TSN 模型相比,本文方法能夠更精確地關(guān)注動(dòng)作中的與運(yùn)動(dòng)位移相關(guān)的區(qū)域,而TSN 缺乏對(duì)運(yùn)動(dòng)相關(guān)區(qū)域的精確關(guān)注,這依賴于本文方法的網(wǎng)絡(luò)模型強(qiáng)大的時(shí)間建模能力。

5 結(jié)語

為了同時(shí)提取視頻中的時(shí)空和運(yùn)動(dòng)信息,本文提出了一種基于視頻時(shí)空特征的行為識(shí)別方法。首先,在ResNet-50的殘差塊中加入時(shí)間移位操作,以促進(jìn)相鄰幀間的信息交換。然后使用運(yùn)動(dòng)信息提取模塊捕獲局部運(yùn)動(dòng)特征,使用時(shí)空信息模塊提取全局時(shí)空特征,并將上述模塊集成到統(tǒng)一的框架中。本文在公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)并與其他主流方法進(jìn)行了比較,結(jié)果證明了本文提出的方法在保持低計(jì)算成本的同時(shí)達(dá)到了高精度的識(shí)別效果。

同時(shí)本文方法也存在一些不足:本文所提出的創(chuàng)新模塊的泛化性能還有待進(jìn)一步探索;視頻幀的采樣方案借鑒了TSN 的稀疏采樣策略,可以進(jìn)行創(chuàng)新。在未來的工作中,將在更多的骨干網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),驗(yàn)證所提出的模塊的泛化能力;同時(shí)在視頻幀的采樣方面探索更好的方案,以追求更優(yōu)的精度及更少的耗時(shí)。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91久久偷偷做嫩草影院精品| 色老头综合网| 亚洲资源在线视频| 欧美国产在线看| 免费 国产 无码久久久| 欧美国产日韩在线观看| 国产迷奸在线看| 凹凸精品免费精品视频| 狠狠亚洲婷婷综合色香| 亚洲国产成人超福利久久精品| 无遮挡国产高潮视频免费观看| 日韩性网站| av一区二区无码在线| 国产成人精品第一区二区| 国产精品深爱在线| av在线人妻熟妇| 欧美激情首页| 国产激情影院| 午夜丁香婷婷| 国产精品九九视频| 国产在线观看一区精品| 久久久久人妻一区精品| 福利国产微拍广场一区视频在线 | 精品无码人妻一区二区| 日韩中文字幕免费在线观看 | 日韩精品一区二区三区中文无码| 无码高潮喷水专区久久| 国产91在线|日本| 亚洲乱码在线播放| 国产精品第一区| 欧美无遮挡国产欧美另类| 婷婷开心中文字幕| 中文字幕乱码二三区免费| 中国一级特黄大片在线观看| 日本不卡在线| 青青青国产视频手机| 91丨九色丨首页在线播放 | 青青青国产视频| 欧美性精品| 先锋资源久久| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲av日韩综合一区尤物| 澳门av无码| 久久青草免费91观看| 久久狠狠色噜噜狠狠狠狠97视色| 国产精品七七在线播放| 国内精品视频| 国产在线观看第二页| 国产精品美人久久久久久AV| 国产一区二区三区夜色| 久久免费成人| 亚洲精品第五页| 精品久久久久久成人AV| 18禁色诱爆乳网站| 香蕉伊思人视频| 日本精品αv中文字幕| 国产在线拍偷自揄观看视频网站| 91在线无码精品秘九色APP | 99视频国产精品| 亚洲黄色视频在线观看一区| 亚洲欧洲国产成人综合不卡| 国产三级a| 色婷婷亚洲十月十月色天| 99久久婷婷国产综合精| 中国黄色一级视频| 精品人妻AV区| 国产永久在线观看| 香蕉久久永久视频| 青青青国产精品国产精品美女| 国产精品成人免费视频99| 国产在线精品网址你懂的| 欧美在线国产| 乱系列中文字幕在线视频| 香蕉网久久| 一区二区三区四区在线| 亚洲网综合| 美女扒开下面流白浆在线试听| 国产v精品成人免费视频71pao| 亚洲天堂视频在线免费观看| 天堂岛国av无码免费无禁网站| 亚洲色图综合在线| 麻豆a级片|