999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的人體行為識(shí)別檢測綜述

2021-08-11 06:46:12梁起明楊凱凱郭少哲張友善
科學(xué)技術(shù)與工程 2021年20期
關(guān)鍵詞:檢測

李 永, 梁起明, 楊凱凱, 郭少哲, 張友善

(1.武警工程大學(xué)信息工程學(xué)院, 西安 710086; 2.武警工程大學(xué)研究生大隊(duì), 西安 710086)

由于人機(jī)交互、智能安防等領(lǐng)域迫切的應(yīng)用需求,人體行為識(shí)別檢測近年來成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一。依據(jù)任務(wù)的性質(zhì)劃分,行為識(shí)別檢測主要包括行為識(shí)別和行為檢測兩大部分。行為識(shí)別的主要任務(wù)是在已剪切視頻中對(duì)正在進(jìn)行的行為進(jìn)行分類。行為檢測的主要任務(wù)是在視頻序列中檢測出行為發(fā)生的時(shí)空位置,并對(duì)行為進(jìn)行分類,主要包括時(shí)序行為檢測和時(shí)空行為檢測[1]。具體來講,時(shí)序行為檢測是指在包含背景片段的視頻中準(zhǔn)確定位行為發(fā)生的起止時(shí)間,并對(duì)行為進(jìn)行識(shí)別;時(shí)空行為檢測是指在包含背景片段的視頻中準(zhǔn)確定位行為發(fā)生的起止時(shí)間、在畫面中標(biāo)定行為主體的位置,并進(jìn)行行為識(shí)別。

目前,對(duì)行為識(shí)別檢測的總結(jié)和綜述主要聚焦在行為識(shí)別領(lǐng)域,對(duì)行為檢測的關(guān)注度較低。文獻(xiàn)[2]對(duì)早期的行為識(shí)別數(shù)據(jù)集以及基準(zhǔn)進(jìn)行了總結(jié),并介紹了2013年以前行為識(shí)別領(lǐng)域面臨的困難和挑戰(zhàn)。文獻(xiàn)[3]重點(diǎn)對(duì)基于手動(dòng)提取特征表示的行為識(shí)別方法進(jìn)行了詳細(xì)的綜述。文獻(xiàn)[4]對(duì)基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法的行為識(shí)別進(jìn)行了概述,重點(diǎn)對(duì)基于不同輸入內(nèi)容與不同深度網(wǎng)絡(luò)的行為識(shí)別方法進(jìn)行了詳細(xì)的總結(jié)和比較。文獻(xiàn)[5]對(duì)基于手工特征及基于深度學(xué)習(xí)的行為識(shí)別方法進(jìn)行了系統(tǒng)的總結(jié),指出當(dāng)前各種算法的缺陷和不足,并從性能和應(yīng)用兩個(gè)方面對(duì)基于深度學(xué)習(xí)的人體行為識(shí)別方法進(jìn)行了展望。文獻(xiàn)[1]對(duì)行為識(shí)別檢測的研究現(xiàn)狀進(jìn)行了詳細(xì)的總結(jié)。

前人在行為識(shí)別檢測領(lǐng)域的研究論述對(duì)行為檢測的關(guān)注度不足,也沒有包括目前最先進(jìn)的行為識(shí)別、行為檢測方法。為此,聚焦行為識(shí)別和行為檢測兩個(gè)領(lǐng)域,分別綜述了行為識(shí)別以及行為檢測的各種方法,對(duì)行為識(shí)別檢測常用的各種數(shù)據(jù)集進(jìn)行了總結(jié)介紹,并分析了行為識(shí)別檢測各種算法的特點(diǎn)。

1 行為識(shí)別

行為識(shí)別屬于計(jì)算機(jī)視覺領(lǐng)域中的模式分類問題,主要包括視頻預(yù)處理、行為表達(dá)和行為分類3個(gè)步驟[6]。表1為UCF-101和HMDB51數(shù)據(jù)集中各種算法的準(zhǔn)確度[7-21]。

表1 行為識(shí)別算法在UCF-101和HMDB51數(shù)據(jù)集準(zhǔn)確度

1.1 行為識(shí)別數(shù)據(jù)集介紹

自2004年KTH[22]數(shù)據(jù)集發(fā)布后,許多優(yōu)秀的行為識(shí)別數(shù)據(jù)集雨后春筍般涌現(xiàn),表2簡要介紹了其中具有代表性的幾種。目前行為識(shí)別領(lǐng)域應(yīng)用最廣的數(shù)據(jù)集為UCF-101[23]及HMDB51[24]。UCF數(shù)據(jù)集由美國中佛羅里達(dá)大學(xué)(University of Central Florida)發(fā)布,其中UCF101是應(yīng)用最廣的數(shù)據(jù)集,囊括收集自YouTube的101個(gè)動(dòng)作類別的13 320個(gè)視頻片段,每個(gè)類別分為25組,每組包含4~7個(gè)剪切后的視頻片段。UCF101涵蓋視頻種類多,場景豐富,具備優(yōu)良的挑戰(zhàn)性。

表2 行為識(shí)別常用數(shù)據(jù)集

HMDB51由布朗大學(xué)發(fā)布,擁有收集自電影、YouTube和谷歌視頻等的51個(gè)動(dòng)作類別的6 849個(gè)視頻片段,每個(gè)類別包含至少101個(gè)剪輯片段。行為識(shí)別領(lǐng)域?qū)CF-101以及HMDB51的高關(guān)注度促進(jìn)了相關(guān)準(zhǔn)確度的提升,目前UCF-101和HMDB51數(shù)據(jù)集的識(shí)別最高準(zhǔn)確度分別達(dá)到了98.69%和85.1%。但是UCF-101和HMDB51數(shù)據(jù)集的數(shù)據(jù)規(guī)模相對(duì)而言已經(jīng)偏小,無法滿足算法進(jìn)步的需求。

在UCF-101及HMDB51之后,規(guī)模更大的數(shù)據(jù)Kinetics-400[25]的應(yīng)用也十分廣泛。Kinetics數(shù)據(jù)集2017年作為ActivityNet視頻理解競賽的數(shù)據(jù)集之一發(fā)布,擁有收集自YouTube的400個(gè)動(dòng)作類別的306 245個(gè)視頻片段,每個(gè)視頻片段長度約10 s。Kinetics-400之后,DeepMind又對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充,分別于2018、2019年發(fā)布了Kinetics-600[26]和Kinetics-700[27]。對(duì)UCF-101和HMDB51等數(shù)據(jù)集研究的深入并不代表著現(xiàn)行行為識(shí)別算法具備足夠的泛化能力,能夠應(yīng)對(duì)各種實(shí)際場景的挑戰(zhàn),因此,行為識(shí)別數(shù)據(jù)集也慢慢向著種類更多、場景更復(fù)雜的方向發(fā)展。表2為行為識(shí)別常用數(shù)據(jù)集的基本情況[28-39]。

1.2 基于手動(dòng)提取特征的行為識(shí)別

傳統(tǒng)的行為識(shí)別方法主要是基于手動(dòng)提取特征的方法,其流程圖如圖1所示[3]。傳統(tǒng)方式采用的特征提取方式主要包括全局特征提取和局部特征提取。全局特征提取中主要包括輪廓剪影和人體關(guān)節(jié)點(diǎn)兩種方法。Bobick等[40]在背景減除法的基礎(chǔ)上建立運(yùn)動(dòng)能量圖實(shí)現(xiàn)行為的分類;文獻(xiàn)[41-42]通過確定關(guān)節(jié)點(diǎn)的坐標(biāo)建立人體三維輪廓進(jìn)行特征提取。局部特征提取主要包括時(shí)空興趣點(diǎn)采樣和軌跡跟蹤這兩種特征提取方法。Willems等[43]提出了基于Harris3D的時(shí)空興趣點(diǎn)檢測方法;Wang等[9,44]提出了的稠密軌跡提取相關(guān)算法DT(dense trajectories)和IDT(improved dense trajectories)。

圖1 基于手動(dòng)提取特征的行為識(shí)別流程[3]

1.3 基于深度學(xué)習(xí)的行為識(shí)別

根據(jù)特征提取的方式不同,目前基于深度學(xué)習(xí)的行為識(shí)別常用方法大致可以分為:雙流卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)模型、時(shí)空模型和時(shí)序模型。雙流CNN模型主要通過兩條并行的通路分別提取時(shí)空信息,采用合適的通道融合方式實(shí)現(xiàn)行為的分類。時(shí)空模型主要采用3D卷積來同時(shí)提取行為的時(shí)空信息,近幾年部分學(xué)者采用合適的視頻預(yù)處理方式使得時(shí)空模型也可以通過簡單的2D卷積來實(shí)現(xiàn)行為的分類。時(shí)序模型主要依賴循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體來提取行為中的時(shí)序信息,通過卷積神經(jīng)網(wǎng)絡(luò)來提取空間信息。

1.3.1 雙流CNN模型

對(duì)于視頻行為的分析,不僅需要了解某一時(shí)刻的靜態(tài)單幀,也需要“結(jié)合上下文”獲取視頻的時(shí)序信息。雙流神經(jīng)網(wǎng)絡(luò)使用時(shí)間流對(duì)視頻的靜態(tài)圖像幀進(jìn)行處理,使用空間流對(duì)幀間密集光流進(jìn)行識(shí)別,而后對(duì)識(shí)別結(jié)果進(jìn)行融合,實(shí)現(xiàn)對(duì)行為的分類。這一思想在2014年由Simonyan等[10]提出,圖2[10]為分離空間和時(shí)間識(shí)別流,采用光流圖進(jìn)行訓(xùn)練有效地降低了訓(xùn)練時(shí)間,每個(gè)支流都采用AlexNet[45]進(jìn)行處理,而后通過softmax層進(jìn)行分類得分融合,實(shí)現(xiàn)了對(duì)行為的識(shí)別。

聚焦雙流的融合,F(xiàn)eichtenhofer等[14]發(fā)現(xiàn)可以在卷積層而不是在softmax層融合時(shí)空網(wǎng)絡(luò),這樣可以節(jié)省大量參數(shù);在類預(yù)測層上進(jìn)行額外融合可以提高準(zhǔn)確性,在最后的卷積層上進(jìn)行融合可以取得最佳效果。He等[46]提出了的殘差網(wǎng)絡(luò)(residual network, ResNet)在圖像分類和目標(biāo)檢測方面表現(xiàn)出優(yōu)良的性能;Feichtenhofer等[47]首次將ResNet引入雙流神經(jīng)網(wǎng)絡(luò)中用于行為識(shí)別,在雙流架構(gòu)間注入殘差連接,以允許兩個(gè)流之間進(jìn)行時(shí)空交互。Ng等[48]在雙流神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入長短期記憶網(wǎng)絡(luò)(long short-term menory, LSTM)[49]進(jìn)行改進(jìn),使用LSTM對(duì)雙流CNN的輸出進(jìn)行融合,與最大池化不同,使用遞歸神經(jīng)網(wǎng)絡(luò)來明確考慮CNN激活的序列,通過LSTM的記憶單元有效地表達(dá)幀的前后順序,實(shí)現(xiàn)了對(duì)長視頻中動(dòng)作的識(shí)別。

上述方法雖然實(shí)現(xiàn)了對(duì)于長視頻的識(shí)別,但是需要處理的數(shù)據(jù)量過大。為此Wang等[17]采用稀疏時(shí)間采樣策略和基于視頻監(jiān)督的策略即時(shí)域分割網(wǎng)絡(luò)(temporal segment network, TSN),實(shí)現(xiàn)了對(duì)長期運(yùn)動(dòng)的識(shí)別,并大幅降低了數(shù)據(jù)量。

雙流神經(jīng)網(wǎng)絡(luò)雖然能夠有效地融合視頻行為的時(shí)域和空域信息,提升識(shí)別的準(zhǔn)確性,但是一個(gè)嚴(yán)重的弊端是在進(jìn)行數(shù)據(jù)處理之前必須獲取視頻的RGB幀和光流圖像,這個(gè)過程需要耗費(fèi)大量的時(shí)間和算力,導(dǎo)致雙流神經(jīng)網(wǎng)絡(luò)的實(shí)用性不強(qiáng)。因此Zhu等[15]在雙流神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),通過在時(shí)間流建立被稱為MotionNet的網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生與傳統(tǒng)方法相近的光流,然后以一種端到端的方式調(diào)整這個(gè)堆疊時(shí)間流CNN來實(shí)現(xiàn)預(yù)測輸入幀動(dòng)作類別的目標(biāo),由此雙流神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了端到端的行為識(shí)別。

Feichtenhofer等[50]受到雙流CNN模型的啟發(fā)設(shè)計(jì)了輕量級(jí)的雙流網(wǎng)絡(luò)Slowfast, Slowfast在空間流以低幀速率進(jìn)行卷積運(yùn)算來獲取空間信息,在時(shí)間流通過高幀速率進(jìn)行卷積運(yùn)算來獲取時(shí)序信。最終通過橫向連接進(jìn)行通道融合,避免光流的參與實(shí)現(xiàn)了行為的分類。

Qiu等[19]提出了一種新的基于局部和全局?jǐn)U散(local and global diffusion,LGD)的時(shí)空表示學(xué)習(xí)框架。這種結(jié)構(gòu)由基本的LGD模塊構(gòu)成,其中每一個(gè)模塊通過兩個(gè)特征互相傳播來同時(shí)更新局部和全局特征。這種傳播操作有效地結(jié)合了局部和全局兩方面的信息,從而獲得了更加強(qiáng)大的視頻特征表達(dá)能力。

雙流CNN模型目前還很難應(yīng)用于端到端的行為識(shí)別,但是采用雙流CNN來提取時(shí)空特征的思想啟發(fā)了行為識(shí)別和行為檢測相關(guān)算法的創(chuàng)新,促進(jìn)了行為識(shí)別檢測的發(fā)展。

1.3.2 時(shí)空模型

在2D CNN中,卷積只能應(yīng)用于2D特征圖,難以處理包含時(shí)序特征的視頻數(shù)據(jù)。Ji等[41]首先將3D卷積應(yīng)用到視頻行為分析中,實(shí)現(xiàn)了從視頻中提取空間與時(shí)序特征。Tran等[7]在3D卷積的基礎(chǔ)上進(jìn)行整合,提出建立C3D(convolutional 3D),通過3D卷積和3D池化同時(shí)在時(shí)間和空間中進(jìn)行時(shí)空特征提取。C3D實(shí)現(xiàn)了使用大規(guī)模視頻數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)視頻的時(shí)空特征,有效提升了相關(guān)算法的泛化能力。

Diba等[13]提出了一種模型遷移的方法,引入一種新的時(shí)域?qū)印皶r(shí)間過渡層”(temporal transition layer,TTL)為可變時(shí)域卷積核深度建模,而后將TTL嵌入到的3D CNN中,并將DenseNet[51]結(jié)構(gòu)從2D擴(kuò)展到3D,形成DenseNet3D,從而構(gòu)建起新的網(wǎng)絡(luò)Temporal 3D ConvNets(T3D)。實(shí)驗(yàn)結(jié)果顯示,T3D可以有效利用視頻中的時(shí)間線索進(jìn)行行為分類,在一定程度上提升了識(shí)別的準(zhǔn)確度。

針對(duì)3D卷積網(wǎng)絡(luò)參數(shù)量大的問題,Qiu等[11]對(duì)殘差網(wǎng)進(jìn)行改進(jìn),提出了Pseudo-3D Residual Net (P3D ResNet)。P3D ResNet在每個(gè)瓶頸結(jié)構(gòu)塊中使用1×3×3卷積層和3×1×1卷積層進(jìn)行組合,以并行或串行的方式替代原有的3×3×3卷積層,形成新的P3D塊。而后將P3D塊進(jìn)行適當(dāng)?shù)慕M合,構(gòu)建起類似殘差網(wǎng)絡(luò)的結(jié)構(gòu)偽3D殘差網(wǎng)(P3D ResNet)。最終實(shí)驗(yàn)證明,P3D ResNet在行為識(shí)別方面有明顯的提升。

在圖像分類的領(lǐng)域中,通過ImageNet獲取的訓(xùn)練模型可以很好地應(yīng)用到其他領(lǐng)域和任務(wù)中;在行為識(shí)別領(lǐng)域也可以采用類似的方法來降低訓(xùn)練的工作量。為了能夠在3D卷積網(wǎng)絡(luò)上使用預(yù)訓(xùn)練參數(shù),Carreira等[18]在成熟的2D卷積網(wǎng)絡(luò)Inception-v1[52]的基礎(chǔ)上進(jìn)行改進(jìn),將該網(wǎng)絡(luò)的卷積核池化核全部擴(kuò)充至三維。將3D模型在ImageNet上進(jìn)行隱式預(yù)訓(xùn)練,在Kinetics獲取3D卷積的預(yù)訓(xùn)練模型。最終結(jié)果顯示,經(jīng)過Kinetics預(yù)訓(xùn)練過的I3D模型在行為識(shí)別領(lǐng)域有較大的提升。

3D卷積較2D卷積計(jì)算更復(fù)雜、運(yùn)算量也更大,為此眾多學(xué)者提出了各種方法,但卻沒有實(shí)質(zhì)性地解決3D卷積的問題。Lin等[53]創(chuàng)造性地提出了時(shí)序遷移模塊(temporal shift module, TSM),通過在時(shí)序維度將相鄰幀之間進(jìn)行遷移拼接,采用2D卷積的方式同時(shí)提取時(shí)空信息,實(shí)現(xiàn)了3D卷積的效果,有效解決了3D卷積在參數(shù)和計(jì)算中存在的問題。而后,在TSM的基礎(chǔ)上,Shao等[54]進(jìn)一步改進(jìn),提出了時(shí)間交錯(cuò)網(wǎng)絡(luò)(temporal interlacing network, TIN)強(qiáng)化了時(shí)空信息的融合;Fan等[55]提出了可學(xué)習(xí)的3D遷移網(wǎng)絡(luò)RubkisNet,將遷移拼接操作拓展到空間領(lǐng)域,引入可學(xué)習(xí)的時(shí)空遷移操作,更大范圍獲取了時(shí)空信息。

另外,Li等[56]通過建立時(shí)序激勵(lì)聚集模塊(temporal excitation and aggregation block, TEA) 分別提取了相鄰幀信息與多幀全局信息,有效地進(jìn)行了時(shí)序信息建模,有效降低網(wǎng)絡(luò)的復(fù)雜度,同樣有效避免了3D卷積神經(jīng)網(wǎng)絡(luò)的弊端。

時(shí)空模型目前通過特殊的數(shù)據(jù)預(yù)處理方式,僅通過2D卷積就可以實(shí)現(xiàn)對(duì)行為的準(zhǔn)確分類。這樣的設(shè)計(jì)使得行為識(shí)別變得更加簡便,可以通過終端部署實(shí)現(xiàn)相應(yīng)的行為識(shí)別功能。基于時(shí)空模型的行為識(shí)別是當(dāng)前研究的突出方向,相關(guān)算法一定程度滿足了準(zhǔn)確性和實(shí)時(shí)性的要求。

1.3.3 時(shí)序模型

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的突出優(yōu)點(diǎn)是可以根據(jù)歷史信息來輔助當(dāng)前的決策,具體是指一個(gè)序列當(dāng)前的輸出與之前的輸出也有關(guān),網(wǎng)絡(luò)會(huì)對(duì)之前的信息進(jìn)行記憶并應(yīng)用于當(dāng)前的輸出中。但是受限于梯度發(fā)散或梯度消失,RNN只能保留較短時(shí)間的記憶,LSTM[49]很好地解決了上述問題。LSTM的記憶特性使得其廣泛應(yīng)用于自然語言處理,能夠有效聯(lián)系上下文進(jìn)行學(xué)習(xí)分析;同樣LSTM也可以通過記憶特性處理時(shí)序信息,在行為識(shí)別領(lǐng)域也可以發(fā)揮強(qiáng)大的作用。Donahue等[8]基于LSTM建立了長時(shí)循環(huán)卷積神經(jīng)網(wǎng)絡(luò),通過CNN提取視頻中的空間特征,而后將全連接層的輸出通過LSTM進(jìn)行時(shí)序?qū)W習(xí),由此實(shí)現(xiàn)對(duì)行為進(jìn)行分類。

LSTM部門之間是依賴于類似前饋式神經(jīng)網(wǎng)絡(luò)來計(jì)算的,故又稱為全連接LSTM(FC-LSTM)。這種FC-LSTM可以很方便地處理時(shí)序數(shù)據(jù),但是對(duì)于空間數(shù)據(jù)來說,由于其具備很強(qiáng)的局部特征,而FC-LSTM無法刻畫局部特征,將會(huì)帶來嚴(yán)重的冗余性。文獻(xiàn)[8]引入convLSTM[57]替換傳統(tǒng)的LSTM,實(shí)現(xiàn)了時(shí)空信息的融合。結(jié)果表明,與傳統(tǒng)的FC-LSTM模型相比,convLSTM模型能夠以較少的參數(shù)生成更好的視頻表示,避免了過擬合,在一定程度上提升了識(shí)別的準(zhǔn)確度。

Li等[12]將convLSTM與Attention LSTM進(jìn)行了融合,構(gòu)建了新的網(wǎng)絡(luò)結(jié)構(gòu)VideoLSTM。VideoLSTM引入卷積以充分利用圖像中的空間相關(guān)性,引入淺卷積神經(jīng)網(wǎng)絡(luò),允許運(yùn)動(dòng)信息生成基于運(yùn)動(dòng)的注意圖,僅依靠視頻級(jí)的動(dòng)作類別標(biāo)簽,利用注意圖對(duì)動(dòng)作進(jìn)行時(shí)空定位。結(jié)果表明,VideoLSTM可以在UCF-101數(shù)據(jù)集上取得88.9%的識(shí)別準(zhǔn)確率,在HMDB-51數(shù)據(jù)集上取得56.4%的識(shí)別準(zhǔn)確率。然而,LSTM和GRU對(duì)時(shí)序信息的處理能力有限,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)過于復(fù)雜時(shí),往往難以有效進(jìn)行時(shí)序信息建模,這就導(dǎo)致目前基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為識(shí)別發(fā)展面臨瓶頸。

2 行為檢測

2.1 行為檢測數(shù)據(jù)集介紹

時(shí)序行為檢測常用的數(shù)據(jù)集主要是THUMOS14、MEXaction2和ActivityNet。THUMOS 14由THUMOS Challenge 2014大賽發(fā)布,包括行為識(shí)別子數(shù)據(jù)集和時(shí)序行為檢測子數(shù)據(jù)集。時(shí)序行為檢測子數(shù)據(jù)集的訓(xùn)練集來自UCF101數(shù)據(jù)集,共包含20個(gè)類型;驗(yàn)證集包括20個(gè)類型的200個(gè)視頻;背景數(shù)據(jù)集包含與UCF101數(shù)據(jù)集動(dòng)作場景相近的2 500個(gè)背景視頻,但沒有收錄UCF101數(shù)據(jù)集中的任一實(shí)例;測試集包含1 574個(gè)未經(jīng)剪切的長視頻。

時(shí)空行為檢測數(shù)據(jù)集中常用的是J-HMDB和UCF101-24。J-HMDB是HMDB數(shù)據(jù)集的子集,共有21個(gè)類型的動(dòng)作,每個(gè)動(dòng)作類型包含36~55個(gè)剪輯,每個(gè)剪輯包含15~40幀,一共包含928個(gè)短視頻。UCF101-24是UCF101的子集,共包括24個(gè)行為類別的3 207個(gè)視頻片段,并提供了相應(yīng)的時(shí)空標(biāo)注。此外,每個(gè)視頻中可能有多個(gè)行為實(shí)例,它們具有相同的類標(biāo)簽,但是具有不同的空間和時(shí)間邊界。這樣的特性使得行為檢測更具挑戰(zhàn)性。

2.2 時(shí)序行為檢測

時(shí)序行為檢測區(qū)別于行為識(shí)別,不僅需要對(duì)行為本身進(jìn)行分類,也需要在視頻中定位行為發(fā)生的時(shí)間段,具體來講,就是在未經(jīng)剪切的長視頻中準(zhǔn)確定位行為發(fā)生的起止時(shí)間,并判定行為的類別。表3[58-65]、表4[66-77]分別為時(shí)序行為檢測常用算法在ActivityNet-1.3數(shù)據(jù)集和THUMOS′14數(shù)據(jù)集中的準(zhǔn)確度,其中mAP@k表示交并比等于k(0

表3 ActivityNet-1.3數(shù)據(jù)集各算法比較

表4 THUMOS′14數(shù)據(jù)集各算法比較

2.2.1 基于局部特征的檢測方法

與行為識(shí)別類似,傳統(tǒng)的時(shí)序行為檢測方法使用局部描述子和線性分類器來生成目標(biāo)片段[78]。此類方法首先在時(shí)序上生成候選片段,然后對(duì)每段構(gòu)建局部時(shí)空特征表達(dá)并根據(jù)該片段于Ground Truth的tIoU(temporal IoU)的大小確定樣本標(biāo)簽,而后訓(xùn)練分類器實(shí)現(xiàn)行為檢測[1]。

動(dòng)作定位的主要難點(diǎn)是動(dòng)作發(fā)生的不確定性和對(duì)不同尺度信息的利用。Yuan等[79]為解決這一問題,提出了兩項(xiàng)創(chuàng)新。首先,基于IDT特征提出了一種分?jǐn)?shù)分布金字塔特征(pyramid of score distribution feature,PSDF)來捕捉以每個(gè)檢測窗口為中心的多分辨率運(yùn)動(dòng)信息。其次,通過將PSDF與最新的LSTM相結(jié)合,應(yīng)用Elman-Net和LSTM對(duì)定位任務(wù)進(jìn)行了優(yōu)化,在時(shí)序行為檢測時(shí)獲得額外的性能增益。但是由于IDT特征的提取過于復(fù)雜,因此該種方法的實(shí)際應(yīng)用價(jià)值不大。Hou等[80]提出了一種新的全自動(dòng)子動(dòng)作發(fā)現(xiàn)算法,實(shí)現(xiàn)了實(shí)時(shí)的時(shí)序行為檢測。使用支持向量機(jī)對(duì)相鄰的子動(dòng)作進(jìn)行劃分,使用層次聚集聚類來合并相似的候選子動(dòng)作,通過迭代過程來調(diào)整子動(dòng)作分區(qū)。使用子動(dòng)作檢測器進(jìn)行檢測,獲取一系列的檢測分?jǐn)?shù)。而后通過同時(shí)考慮子動(dòng)作得分和子動(dòng)作之間的距離來選擇子動(dòng)作檢測的最佳組合,實(shí)現(xiàn)動(dòng)作檢測。

2.2.2 基于深度學(xué)習(xí)的檢測方法

時(shí)序行為檢測的另一種主要方法是使用各種各樣的深度網(wǎng)絡(luò)來實(shí)現(xiàn)。Shou等[67]受到R-CNN的影響,開發(fā)出了一種用于時(shí)序行為檢測的高效神經(jīng)網(wǎng)絡(luò)分段CNN(Segment-CNN,S-CNN)。S-CNN通過滑動(dòng)窗口機(jī)制將長視頻劃分為不同長度的片段,而后采用3D-CNN判斷不同的片段是否存在動(dòng)作場景。該算法可以生成高召回率的預(yù)選框,但同時(shí)計(jì)算量也很大。

Shou等[68]在C3D網(wǎng)絡(luò)基礎(chǔ)上,借鑒了FCN[81]的思想,提出了經(jīng)典的卷積-反卷積網(wǎng)絡(luò)(convolutional-de-convolutional,CDC)。C3D網(wǎng)絡(luò)能夠很好地學(xué)習(xí)時(shí)空的高級(jí)語義抽象,但是丟失了時(shí)間上的細(xì)粒度,作者提出用CDC filter在空間上卷積,在時(shí)間上反卷積,解決了時(shí)間定位的精度問題。但是CDC通過逐幀預(yù)測實(shí)現(xiàn)行為檢測,因此,當(dāng)視頻片段較長時(shí),CDC只能通過犧牲效率來維持準(zhǔn)確性。Xu等[58]受到目標(biāo)檢測方法Faster R-CNN[82]的啟發(fā),提出了區(qū)域卷積3D網(wǎng)絡(luò)(Region Convolutional 3D Network,R-C3D),可以快速檢測任意長度的視頻。R-C3D是用于行為檢測的第一個(gè)端到端時(shí)序候選分類網(wǎng)絡(luò),有比較好的效果,在THUMOS2014數(shù)據(jù)集上交并比(intersection over union,IoU)等于0.5時(shí)的mAP達(dá)到了28.9%。

同樣受到Faster R-CNN的影響,Chao等[60]提出了一種改進(jìn)的時(shí)序行為檢測方法TAL-Net。在Faster R-CNN的基礎(chǔ)上對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行了重新設(shè)計(jì),主要包括:Faster R-CNN采用共享的特征表示來評(píng)估不同尺度的錨,但這可能導(dǎo)致特征的感受野與錨的跨度之間不匹配,TAL-Net使用多塔網(wǎng)絡(luò)和擴(kuò)張的時(shí)間卷積確保了匹配關(guān)系。Faster R-CNN無法通過時(shí)間上下文獲取定位和分類的關(guān)鍵信息,TALNet通過擴(kuò)展提案生成和動(dòng)作分類中的接受字段來顯式編碼時(shí)間上下文,使用晚融合機(jī)制融合RGB和光流的特征。實(shí)驗(yàn)表明,TAL-Net在IoU=0.5時(shí)可以在THUMOS2014數(shù)據(jù)集上實(shí)現(xiàn)42%的mAP,在準(zhǔn)確度上有較大的提升

上述的諸多行為檢測網(wǎng)絡(luò)僅僅單獨(dú)處理每個(gè)動(dòng)作,而在學(xué)習(xí)過程中不會(huì)明確利用它們之間的關(guān)系。但是有意義的動(dòng)作始終在視頻中包含多個(gè)候選區(qū)域,候選區(qū)域之間的關(guān)系實(shí)際上在動(dòng)作定位中起著重要作用。Zeng等[63]使用圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)[83]探索候選區(qū)域之間的關(guān)系,構(gòu)建了新的網(wǎng)絡(luò)模型P-GCN,解決了上述問題。P-GCN在THUMOS2014數(shù)據(jù)集上IoU=0.5時(shí)的mAP達(dá)到了49.1%,是目前最好的成績。

Liu等[84]提出了建立多粒度生成器(multi-granularity generator, MGG)來進(jìn)行時(shí)序行為檢測,通過類似雙流CNN的結(jié)構(gòu),在兩條通路分別判定行為的起止時(shí)間以及進(jìn)行逐幀評(píng)估。Gao等[85]在金字塔網(wǎng)絡(luò)的基礎(chǔ)上提出關(guān)系感知金字塔(relation-aware pyramid,RapNet),有效獲取全局特征信息,并定位了不同長度的行為片段。Lin等[86]建立了一種新穎的稠密邊界動(dòng)作生成器(dense boundary generator,DBG),同樣采用類似雙流CNN的方式分別提取RGB特征和光流特征,建立動(dòng)作感知完備性回歸分支和時(shí)間邊界分類分支實(shí)現(xiàn)對(duì)行為的快速檢測。

2.3 時(shí)空行為檢測

時(shí)空行為檢測的目的是在視頻序列中判斷行為的起止時(shí)間、空間位置以及行為類型,也就是在時(shí)序行為檢測的基礎(chǔ)上在視頻畫面中準(zhǔn)確標(biāo)記出行為的主體。該任務(wù)主要面臨的挑戰(zhàn)在于視頻數(shù)據(jù)的分辨率不足、視角變化多、行為時(shí)長分布廣、同一個(gè)視野中行人干擾多等[1]。表5為時(shí)空行為檢測算法在J-HMDB-21和UCF101-24數(shù)據(jù)集中的準(zhǔn)確度[71-75]。

表5 時(shí)空行為檢測算法性能比較

Puscas等[87]采用無監(jiān)督的樣本采集方法,使用DT算法在不同幀上匹配和跟蹤候選區(qū)域。以連續(xù)

兩幀之間的光流信息作為權(quán)值參考,使用簡單的投票機(jī)制來連接幀級(jí)的行為模式,構(gòu)成時(shí)空行為模式,被稱為時(shí)空管道。這些候選的時(shí)空管道,可以用于訓(xùn)練行為檢測器。

上述方法沒有有效地利用行為的時(shí)序特征,容易造成檢測的結(jié)果偏模糊。Kalogeiton等[88]在SSD框架的基礎(chǔ)上搭建起動(dòng)作管檢測器(action tubelet detector,ACT)。ACT考慮到多個(gè)視頻幀的連續(xù)性特征,從而減少了行為預(yù)測的模糊性,同時(shí)提高定位準(zhǔn)確度。Gu等[89]采用I3D進(jìn)行上下文時(shí)序建模,使用Faster R-CNN進(jìn)行端到端的定位和動(dòng)作分類。采用雙流的方法,通過RGB流獲得候選區(qū)域,將RGB連同堆疊在5個(gè)連續(xù)幀上的光流特征輸入?yún)^(qū)域分類器,將conv4特征圖與平均池融合來聯(lián)合訓(xùn)練RGB流和光流流。實(shí)驗(yàn)表明,該種方法具備良好的性能。

受到人類視覺認(rèn)知系統(tǒng)的啟發(fā),Kpüklü等[90]提出了一個(gè)用于時(shí)空行為檢測的統(tǒng)一的CNN架構(gòu)YOWO(you only watch once)。如圖3所示,YOWO包括3D-CNN分支、2D-CNN分支、通道融合與注意機(jī)制(channel fusion and attention mechanism, CFAM)部分和邊界框回歸部分,其中H、W為張量的高和寬,C、W分別為張量的通道和深度。YOWO在3D-CNN分支使用3D-ResNet-101[91]來提取時(shí)空特征,在2D-CNN分支使用DarkNet-19[92]來提取關(guān)鍵幀的二維特征,解決空間定位問題。3D-CNN分支和2D-CNN分支的輸出具有相同的尺寸,便于在CFAM進(jìn)行特征映射的融合,最終在邊界框回歸部分采用與YOLO[92]相同的邊界框回歸準(zhǔn)則進(jìn)行輸出。

圖3 YOWO網(wǎng)絡(luò)結(jié)構(gòu)圖[90]

僅依靠自身,3D-CNN和2D-CNN都無法獨(dú)立解決時(shí)空定位任務(wù)。但是,如果它們同時(shí)運(yùn)行,則有可能彼此受益。YOWO在UCF101-24數(shù)據(jù)集上的frame-mAP指標(biāo)達(dá)到87.2%,在J-HMDB-21數(shù)據(jù)集上則達(dá)到了74.4%,明顯優(yōu)于其他算法。同時(shí)YOWO在處理過程中避免了光流的參與,提升了模型的速度,實(shí)現(xiàn)了端到端的快速時(shí)空行為檢測。

Mo等[93]在YOWO的基礎(chǔ)上提出了使用Linknet在2D卷積和3D卷積結(jié)構(gòu)之間引入連接,采用類似YOLOv2的DIYAnchorBox來實(shí)現(xiàn)行為主體的精確定位,建立了YOWOv2網(wǎng)絡(luò),有效降低了模型的復(fù)雜度,進(jìn)一步了提升網(wǎng)絡(luò)的準(zhǔn)確度。

3 算法總結(jié)

在實(shí)際場景中,行為檢測的應(yīng)用價(jià)值要大于行為識(shí)別。但就目前的發(fā)展趨勢來看,行為檢測需要完成的任務(wù)更多、數(shù)據(jù)集更大,因此行為檢測的難度要遠(yuǎn)大于行為識(shí)別。行為識(shí)別是行為檢測的基礎(chǔ),行為識(shí)別的發(fā)展可以促進(jìn)行為檢測的進(jìn)步,行為識(shí)別常用的雙流法、3D卷積等思想為行為檢測算法的發(fā)展提供了借鑒。

在行為識(shí)別領(lǐng)域,主流的算法包括雙流網(wǎng)絡(luò)、3D卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。雙流網(wǎng)絡(luò)通過兩條路徑分別提取視頻行為的時(shí)空信息,而后采用恰當(dāng)?shù)姆绞竭M(jìn)行融合,有效地提升了識(shí)別的準(zhǔn)確性,但也必然導(dǎo)致運(yùn)算量的增加。3D卷積神經(jīng)網(wǎng)絡(luò)使用三維卷積的方式同時(shí)提取時(shí)空信息,在運(yùn)算速度上較雙流網(wǎng)絡(luò)快一些,但是在識(shí)別的準(zhǔn)確性方面不及雙流網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)序信息的提取方面存在先天優(yōu)勢,再利用卷積神經(jīng)網(wǎng)絡(luò)提取行為的空間信息即可以實(shí)現(xiàn)對(duì)行為的識(shí)別,但是目前在準(zhǔn)確性方面的表現(xiàn)明顯要弱于其他主流方法。行為檢測起步較行為識(shí)別要晚,但是在行為識(shí)別算法的影響下發(fā)展較快。行為檢測在視頻領(lǐng)域的作用類似于目標(biāo)檢測在圖片領(lǐng)域的作用,因此行為檢測的很多算法受到了目標(biāo)檢測的影響。從總體上來看,行為檢測的很多算法剛剛處于起步狀態(tài),無論在實(shí)時(shí)性還是準(zhǔn)確性上仍有大幅的提升空間。

3.1 當(dāng)前主要困難

3.1.1 硬件條件要求高

行為識(shí)別和行為檢測仍然面臨很多問題,主要集中在硬件計(jì)算能力和神經(jīng)網(wǎng)絡(luò)性能方面。目前最先進(jìn)的行為識(shí)別算法也需要依靠頂尖級(jí)的中央處理器(central processing unit, CPU)、圖形處理器(graphics processing unit,GPU)來提供算力支撐,普通計(jì)算機(jī)無法運(yùn)行相關(guān)算法,這就導(dǎo)致行為識(shí)別無法做到大規(guī)模推廣部署。隨著行為識(shí)別和行為檢測的發(fā)展,為了有效地學(xué)習(xí)視頻中的特征,相應(yīng)的數(shù)據(jù)集規(guī)模不斷被擴(kuò)充,目前部分開源數(shù)據(jù)集動(dòng)輒上百GB甚至達(dá)到幾TB,對(duì)硬件的存儲(chǔ)空間以及讀寫能力都提出更高要求。

3.1.2 數(shù)據(jù)收集困難

行為識(shí)別以及行為檢測主要通過監(jiān)督學(xué)習(xí)來實(shí)現(xiàn)對(duì)特征的有效提取,這就必然導(dǎo)致在學(xué)習(xí)的過程中需要大量帶有標(biāo)簽的視頻片段作為數(shù)據(jù)支撐,然而在實(shí)際研究過程中,對(duì)于視頻數(shù)據(jù)的收集、處理以及標(biāo)記都需要耗費(fèi)大量時(shí)間精力,這就導(dǎo)致行為識(shí)別以及行為檢測在獲取數(shù)據(jù)過程中將面臨不小的困難。

就時(shí)序行為檢測而言,為了在包含背景信息的視頻中準(zhǔn)確定位行為發(fā)生的時(shí)間段,需要使用較行為識(shí)別更長的視頻數(shù)據(jù)進(jìn)行訓(xùn)練驗(yàn)證,導(dǎo)致時(shí)序行為檢測的數(shù)據(jù)集過于龐大。例如用于時(shí)序行為檢測的數(shù)據(jù)集ActivityNet僅提視頻的相應(yīng)YouTube鏈接,并沒有完整的數(shù)據(jù)集可供研究人員下載。對(duì)時(shí)空行為檢測而言,行為的檢測需要?jiǎng)討B(tài)把握行為主體的位置,相對(duì)于靜態(tài)的目標(biāo)檢測而言難度更大。為了進(jìn)行時(shí)空行為定位,時(shí)空行為檢測需要對(duì)獲取的視頻數(shù)據(jù)進(jìn)行有效標(biāo)定,這就導(dǎo)致相應(yīng)數(shù)據(jù)的處理較行為識(shí)別更加復(fù)雜,所以當(dāng)前在時(shí)空行為檢測領(lǐng)域可供使用的數(shù)據(jù)集十分稀缺。

3.1.3 行為特征判斷困難

人類可以做出的行為千變?nèi)f化,在不同的場景、面對(duì)不同的對(duì)象、做出動(dòng)作的快慢等等細(xì)微的差別都會(huì)影響行為的類別。例如,人與人之間簡單的拍打動(dòng)作,動(dòng)作發(fā)生的快慢將直接決定動(dòng)作本身是否具備暴力屬性,而快慢的程度卻無法采用任何定量標(biāo)準(zhǔn)來簡單判斷,在特征提取時(shí)視頻中細(xì)節(jié)性的變化都會(huì)對(duì)行為的分類產(chǎn)生干擾。同時(shí),背景信息所產(chǎn)生的光照變化、遮擋以及噪聲問題也會(huì)對(duì)特征的提取產(chǎn)生不利影響。總而言之,行為識(shí)別以及行為檢測對(duì)特征提取的敏感度很高,特征提取比較困難。

3.2 未來研究方向

3.2.1 擴(kuò)充數(shù)據(jù)集

行為識(shí)別在常用的數(shù)據(jù)集如HMDB51和UCF101已經(jīng)可以達(dá)到90%左右的準(zhǔn)確度,目前已經(jīng)難以滿足算法進(jìn)步的需求。下一步需要采用場景更加豐富、更具挑戰(zhàn)性的數(shù)據(jù)集來支持算法性能的進(jìn)一步提升,逐步滿足實(shí)際應(yīng)用實(shí)時(shí)性和準(zhǔn)確性的要求。行為檢測在較小數(shù)據(jù)集上可以達(dá)到70%左右的準(zhǔn)確度,效果有待提升。目前亟需擴(kuò)充行為檢測數(shù)據(jù)集,提升標(biāo)定的動(dòng)作種類,下一步需要結(jié)合目標(biāo)檢測和行為識(shí)別的先進(jìn)思想,創(chuàng)新網(wǎng)絡(luò)算法,重點(diǎn)提升檢測的準(zhǔn)確性,為后續(xù)的實(shí)際應(yīng)用準(zhǔn)備。

3.2.2 模型輕量化

現(xiàn)有的算法對(duì)于硬件的要求過高,難以實(shí)現(xiàn)有效地推廣部署,因此模型的輕量化是后續(xù)研究的重點(diǎn)方向。例如Slowfast網(wǎng)絡(luò)、TSM網(wǎng)絡(luò)、YOWO網(wǎng)絡(luò),這些網(wǎng)絡(luò)很大程度降低了網(wǎng)絡(luò)的復(fù)雜度和計(jì)算量,有助于后續(xù)網(wǎng)絡(luò)的部署應(yīng)用。

4 結(jié)論

行為識(shí)別檢測廣闊的應(yīng)用前景使其成為計(jì)算機(jī)視覺領(lǐng)域的熱門研究方向。在前人工作的基礎(chǔ)上分別綜述了行為識(shí)別和行為檢測領(lǐng)域的各種方法。對(duì)行為識(shí)別檢測常用的數(shù)據(jù)集進(jìn)行了介紹和分析,對(duì)目前主流的各種算法進(jìn)行了總結(jié)。通過以上工作可以看出:行為識(shí)別檢測目前仍然處于實(shí)驗(yàn)階段,無法有效地投入到實(shí)際場景中進(jìn)行應(yīng)用,發(fā)展前景仍舊十分廣闊。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數(shù)的乘除法”檢測題
“有理數(shù)”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 日本一区二区三区精品国产| 国产欧美精品一区二区| 呦女精品网站| 亚洲有码在线播放| 欧美成人二区| 人人澡人人爽欧美一区| 亚洲成aⅴ人片在线影院八| 久久综合九九亚洲一区 | 日韩不卡免费视频| 久996视频精品免费观看| 亚洲人成亚洲精品| 91视频青青草| 色婷婷视频在线| 国产成人a在线观看视频| 亚洲精品高清视频| 四虎国产永久在线观看| 日本三区视频| 99精品在线视频观看| 99免费在线观看视频| 欧美第九页| 亚洲国产亚综合在线区| 无码AV日韩一二三区| 天天综合网色| a级毛片网| 国产精品亚洲专区一区| 免费xxxxx在线观看网站| 国产办公室秘书无码精品| 青青青国产视频手机| 永久免费无码成人网站| 日本亚洲成高清一区二区三区| 影音先锋亚洲无码| 高清国产在线| 在线人成精品免费视频| 伊人久久婷婷五月综合97色| 国产欧美视频综合二区| 欧美激情第一区| 狠狠操夜夜爽| 欧美日韩亚洲综合在线观看| 国产主播在线一区| 成人夜夜嗨| 日韩黄色在线| 午夜成人在线视频| 亚洲经典在线中文字幕| 精久久久久无码区中文字幕| 亚洲系列无码专区偷窥无码| 日本一区高清| 国产精品尤物铁牛tv| 女人av社区男人的天堂| 日韩色图区| 国产精品流白浆在线观看| 亚洲av无码成人专区| 国产成人乱无码视频| 国产精品亚洲综合久久小说| 国产玖玖视频| 欧美综合一区二区三区| 免费A级毛片无码免费视频| 91精品专区| 五月婷婷亚洲综合| 欧美精品1区2区| 亚洲第一极品精品无码| 国产男人天堂| 亚洲成网777777国产精品| 国产SUV精品一区二区| 亚洲精品va| 国产福利免费视频| 67194亚洲无码| 国产福利免费在线观看| 在线观看免费人成视频色快速| 香蕉久人久人青草青草| 日韩激情成人| 国产精品福利导航| 欧美专区日韩专区| 日韩激情成人| 一边摸一边做爽的视频17国产 | 无码一区18禁| 国产高清免费午夜在线视频| 日本精品中文字幕在线不卡| 亚洲成人免费在线| 日本人真淫视频一区二区三区| 免费av一区二区三区在线| 午夜国产大片免费观看| 国产欧美日韩资源在线观看|