999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的人體動作識別綜述

2021-03-11 06:20:34錢慧芳易劍平付云虎
計算機與生活 2021年3期
關鍵詞:動作特征模型

錢慧芳,易劍平,付云虎

西安工程大學 電子信息學院,西安710048

隨著互聯網技術的發展和視頻獲取設備的普及,視頻已成為信息的主要載體。視頻數據的數量呈爆炸式增長,如何分析和理解視頻的內容顯得越來越重要。人體動作識別作為視頻理解(video understanding)的重要課題之一,已經成為了計算機視覺領域研究的焦點。動作識別通過對預先分割好的時域序列進行時空信息建模,從而學習視頻中所包含的表象(appearance)和運動(motion)信息,以此來建立視頻內容與動作類別之間的映射關系,使得計算機能夠有效地勝任視頻理解的任務。動作識別在運動分析、智能監控、人機交互、視頻信息檢索等方面都具有廣泛的應用前景。

卷積神經網絡(convolutional neural network,CNN)[1]在圖像分類任務中的成功應用為視頻分類任務提供了大量的參考。然而,相比于圖像分類任務而言,視頻中的動作識別多出一個待處理的時序維度。因此,如何捕獲視頻幀之間所包含時序信息是動作識別的重點。本任務主要的難點在于:

(1)不確定因素

動作數據集中往往存在光照不均、背景變化、相機抖動等問題,在人-物交互的這一類型的視頻中,會存在物體形變的現象,在人-人交互這一類視頻中,還會存在目標遮擋的現象。這些不確定因素的干擾,會嚴重影響模型的性能,這也是導致動作識別未能實用化的重要原因。

(2)動作邊界的不確定性

針對未修剪的視頻而言,一段視頻可能包含多個動作,一些動作持續時間較短,而有些動作持續時間較長,且速度變化快,難以在時序上對動作的邊界進行精準的定位,模糊的動作邊界將很大程度上影響識別的精度。

(3)動作類間差距較小

在細粒度視頻動作數據集上,會存在動作類間差異性小的問題,即不同類別的動作之間只存在細微的差距。然而,要精確地區分這些動作往往是比較困難的,要求模型能夠編碼更深層次的時間特征,這對于現有的模型而言,極具挑戰性。

目前,動作識別方法主要包括兩類:基于傳統手工特征的方法和基于深度學習的方法。傳統的動作識別方法依據特征的提取方式不同可以分為基于人體關節點[2-5]、基于時空興趣點[6-8]和基于密集軌跡[9-10]的特征提取方法。這類方法需要將手工提取到的特征編碼成高維的特征向量,然后利用特征向量訓練分類器以進行動作識別。然而,在特征向量的提取和編碼的過程中,往往會導致較高的時空復雜度,這將嚴重影響到算法的性能。隨著卷積神經網絡在圖像分類任務中的成功應用,其精度已經明顯超過了傳統手工方法,動作識別也從傳統手工特征的方法轉移到基于深度學習的方法。

本文從2D CNN、3D CNN、時空分解網絡三個主流基線介紹了動作識別領域的最新成果;全面歸納了動作識別領域常用的數據集,并細致地探討了各種數據集的特點、在動作識別中的應用以及改進的建議;著重分析了預訓練技術對模型性能的影響;從動作識別最新的研究動態出發,探討了其未來的發展方向。

1 基于深度學習的動作識別方法

得益于大規模數據集和更強大模型的提出,基于深度學習的方法已經成為動作識別任務的主流。如圖1所示,基于深度學習的動作識別方法以一種端到端的形式,通過網絡自主地學習視頻中的行為表征來完成分類。目前,根據主干網絡的特點而言,基于深度學習的動作識別網絡主要包括:(1)2D CNN;(2)3D CNN;(3)時空分解網絡。

Fig.1 Action recognition method based on deep learning圖1 基于深度學習的動作識別方法

1.1 基于2D CNN

基于2D CNN 的動作識別方法主要經歷了兩個研究階段:第一階段,在雙流網絡的基礎上展開研究;第二階段,在2D CNN的基礎上,通過有效地構建時間特征提取模塊以捕獲時間的上下文信息,從而避免光流的輸入。

第一階段:針對單流的2D CNN無法建模時間信息的問題,Simonyan等[11]提出了雙流網絡,網絡的架構如圖2所示。雙流網絡由空間流網絡(spatial stream)和時間流(temporal stream)網絡組成。空間流網絡以單幀RGB圖像作為輸入,用于建模外觀特征;時間流網絡以堆疊的光流圖像作為輸入,用于建模運動特征。訓練時,空間流網絡和時間流網絡單獨地訓練。測試時,通過平均所有采樣的視頻幀匯總兩個流的softmax得分,從而得到視頻級預測結果。

傳統雙流網絡的缺點在于:(1)由于光流僅表示相鄰幀之間的運動信息,因此雙流網絡對時間上下文的訪問十分有限,這不利于建模一些時間跨度較大的動作;(2)雙流網絡只是簡單地融合了空間流網絡和時間流網絡分類器的預測,當視頻中的場景或者運動極其相似時,容易由某一個網絡的誤判而導致整個視頻級預測的錯誤。

為了解決上述(1)中雙流網絡對于長時間結構建模能力較弱的問題,Ng 等[12]提出采用長短期記憶網絡(long short-term memory,LSTM)[13]聚合視頻幀序列的CNN 底層輸出。相比于傳統的雙流網絡,LSTM 能夠更加有效地表達視頻幀在時間序列上的依賴關系,從而實現對長時間序列進行建模。然而,其對于視頻幀之間底層的時間信息建模是不夠的,會造成時序信息的丟失,并且LSTM的引入會導致大量的計算開銷,不利于網絡后期的優化。因此,Wang等[14]提出了時域分段網絡(temporal segment networks,TSN),網絡架構如圖3 所示。TSN 在雙流網絡的基礎上引入了稀疏采樣策略,首先將輸入視頻分割成若干片段,然后從各片段中隨機地采樣一幀,各幀獨立地通過CNN提取時空特征。利用段共識函數將各個片段的輸出進行組合,以獲得片段之間有關類別假設的共識。最后,融合空間流和時間流的類別分數,以得到視頻級預測的結果。

Fig.2 Architecture of two-stream圖2 雙流架構

Fig.3 Architecture of temporal segment networks圖3 TSN的網絡架構

TSN 的稀疏采樣策略確保輸入幀覆蓋了視頻中的各個時間段,這種視頻級監督的方法使得網絡具備提取全局時空特征的能力,有效地解決了傳統的雙流網絡缺乏長時間結構建模能力的問題。然而,隨機采樣的片段并不是都包含與動作識別有關的信息,因此Lan等[15]在TSN的基礎上提出了一種自學習加權融合的方法,每個片段的權重由網絡自主學習得到,有效地解決了TSN的權重分配不合理的問題。

為了解決上述(2)中分類器級融合所導致的誤分類問題,有兩種常見的改進方案:①改變雙流網絡的融合方式;②改變雙流網絡的特征編碼方式,將幀級特征編碼成視頻級特征。

針對方案①,Feichtenhofer 等[16]提出采用卷積網絡融合雙流特征的方法,通過CNN 學習空間線索和時間線索的對應關系,實現了分類器級融合到特征級融合的轉變。Wang等[17]提出采用時空金字塔(spatiotemporal pyramid network)網絡來融合時空特征。時空金字塔結構支持長期的時間融合和視覺注意力機制[18],并采用時空緊湊雙線性(spatiotemporal compact bilinear,STCB)模塊來實現時空信息的交互,在盡可能地保留時空信息的同時,最大限度地實現空間和時間信息的交互。

針對方案②,Diba 等[19]采用時間線性編碼(temporal linear encoding,TLE)的方式聚合時空特征。TLE從不同幀或片段的長時間結構中捕獲時空信息,將視頻編碼成一個緊湊的視頻級特征表示。此外,Zhu 等[20]提出一種端到端的深度金字塔池(deep networks with temporal pyramid pooling,DTPP)網絡。DTPP 采用多尺度池將由空間和時間線索組成的幀級特征以金字塔的形式編碼成固定大小的視頻級表示,使得該模型能夠捕獲視頻中全局性、多尺度的時間結構。相比于傳統的雙流網絡,TLE和DTPP旨在學習視頻級特征表示,而不是幀級特征,以期望解決雙流網絡的部分觀察訓練所導致的誤分類問題。

上述網絡都是建立在雙流網絡的基礎上,因此都需要預計算光流。然而光流的預計算和存儲都十分昂貴,并且光流會導致設備延遲,這也會限制它在實時性檢測方面的表現。因此,如何有效地設計時間特征提取模塊以捕獲時間的上下文,從而避免光流的輸入,一直是動作識別領域研究的熱點。

第二階段:為了避免光流的提取,一種思路是從光流算法的原理出發,通過設計卷積模塊去隱式地模擬光流的提取過程,從而達到建模時間特征的目的。例如,Zhu 等[21]提出了一種隱式的雙流網絡(hidden two-stream convolutional network,Hidden Two-Stream)。它可以隱式地去捕捉相鄰幀之間的運動信息,而不需要預計算光流,在節省了存儲空間的同時,也加快了算法運行的速度。Sun 等[22]提出了一種光流引導特征(optical flow guided feature,OFF),通過計算特征圖水平和垂直方向的空間梯度和不同特征圖之間的時間梯度,來提取不同層級的光流引導特征,使得CNN 可以直接捕獲不同幀之間的時間信息。此外,Lee 等[23]提出了一種運動特征網絡(motion feature network,MFNet),用于建模連續幀之間的時空信息。MFNet 由編碼空間信息的外觀塊和編碼時間信息的運動塊組成。其中,運動塊以相鄰時間的特征圖作為輸入,采用運動濾波器代替空間特征圖之間的移位操作,用于模擬光流的計算過程。

另一種思路是對時間通道上的信息進行有效的處理,以捕獲特征圖之間的時間線索。例如,Lin等[24]提出一種時間移位模塊(temporal shift module,TSM)用于處理時序信息。TSM的網絡結構如圖4所示,其通過時間域上的通道移位操作將相鄰特征圖上的時間信息混合在一起,時間感受野被相應地擴大了兩倍,用于模擬時間內核大小為3 的一維卷積,從而達到建模時間特征的目的。同時利用2D卷積通道間融合能力進行原始的時間融合,使得2D CNN具備捕獲時間線索的能力,且不會帶來額外的計算成本。

為了解決2D CNN 在長視頻內建模復雜的運動特征能力較弱的問題,Hussein 等[25]提出時間感受層(timeception layer)的概念。時間感受層采用Inception網絡[26]的多尺度卷積的思想,通過對原始輸入采用深度可分的時間卷積來捕獲長期時間的依賴關系。同時借助分組卷積的思想,采用各組通道分別建模的方式來降低跨信道關聯的復雜性。時間感受層參數復雜度較小,使得編碼長時間步長的時間模式成為可能。

1.2 基于3D CNN

Fig.4 Architecture of TSM framework圖4 TSM框架的結構

視頻序列中的動作是三維的時空信號,采用三維卷積對時空信號進行建模,為動作識別提供了一種自然且有效的方式。Ji 等[27]首次提出采用三維卷積提取視頻的時空特征。該架構從視頻中相鄰幀之間獲取灰度、梯度和光流通道信息,然后對每一個通道分別進行卷積和下采樣操作,最后將所有通道的信息組合起來得到最終的特征表示。

Tran等[28]在此基礎上提出了C3D,C3D的網絡架構如圖5所示。其中,C3D包含了5個卷積層、5個最大值池化層、2 個全連接層和1 個softmax 分類層。C3D 采用三維卷積對時空信號進行建模,得到了相比于2D CNN更緊湊的特征表示。然而,C3D網絡通過重復堆疊三維卷積塊用于獲取較大的時間感受野,因此具有以下缺點:(1)3D 卷積會引入大量的參數,這極大地增加了網絡的時空復雜度,從而導致內存消耗和計算量劇增的后果。(2)3D卷積將時間和空間維度上的信息混合在一起,導致了優化的困難和過擬合的風險。

針對C3D的局限性,主要有兩種解決方案:①基于2D CNN 的良好實踐,進行有效的網絡架構探索;②對現有的模型進行精簡、量化和壓縮,以實現高效的網絡部署。

針對方案①,受殘差網絡(ResNet)[29]在圖像分類領域中表現出色的啟發,Tran等[30]將C3D架構拓展到深度殘差網絡中,提出了Res3D網絡。通過改變各卷積層濾波器的個數來保持網絡架構的參數一致,從而探討了輸入幀的采樣頻率、空間分辨率以及卷積的類型對模型性能的影響。同時,Res3D的參數量和計算復雜度是C3D 的1/2,在Sport-1M 數據集[31]上的top-1 和top-5 分別提升了4.5 個百分點和2.6 個百分點。Liu等[32]將TSN和Res3D相結合,提出了時域三維卷積網絡(temporal convolutional 3D network,T-C3D)。T-C3D 引入了TSN 的視頻級監督方法,同時確保各片段的3D CNN共享權值,既有利于得到全局的時空特征,又不產生額外的參數。此外,采用注意力池作為段共識函數,使得網絡能夠高效地區分各個輸入片段的重要性,大大提升了模型的性能。Wang 等[33]在Res3D的基礎上,通過在相鄰殘差塊之間部署一支額外的跳躍連接,不僅充分融合了淺層和深層的時空特征,而且有效地緩解了3D CNN隨著網絡加深容易產生的梯度消失和過擬合問題,進一步提升了Res3D 的性能。Qian 等[34]則通過自定義殘差網絡的跳躍連接系數,探討了五種凸策略對殘差學習的影響。實驗表明,當跳躍連接系數呈正態分布時,網絡的泛化能力相較于傳統的殘差網絡,有明顯的提升。

Fig.5 Architecture of C3D圖5 C3D的網絡架構

Diba 等[35]將三維卷積和池化操作引入到Dense-Net[36]中,并提出一種時域過渡層(temporal transition layer,TTL),構建了T3D(temporal 3D ConvNet)網絡。TTL由若干個可變的時間深度三維卷積構成,采用多尺度時間卷積用于捕獲短期、中期和長期的時間信息,相比于固定的內核時間深度,TTL能夠提取更加豐富的時序特征。

Carreira 等[37]采用三維卷積和池化操作擴展了Inception網絡,提出了I3D(inflated 3D ConvNet),I3D網絡的輸入采用了更大的時空分辨率,并提出了一種新的初始化3D CNN的方法,即通過將ImageNet[38]初始化的2D濾波器的權重沿時間維度擴展,同時除以擴展的次數以確保濾波器的維度響應相同。同時,在Kinetics[39]數據集上進行預訓練,在UCF101[40]和HMDB51[41]數據集上進行微調,分別得到了98.0%和80.7%的準確率。然而,由于I3D 采用了大量的輸入幀和光流圖像進行訓練和測試,因此對于硬件配置的要求極高。

不同于上述網絡在短剪輯(16幀)中學習時空特征,Varol 等[42]針對局部三維卷積難以在動作持續時間較長的輸入中建模時空特征的問題,提出了LTC(long-term temporal convolutions)網絡。其主要思想是通過減小輸入幀的空間分辨率從而增大其時間分辨率,以此來維持參數上的平衡,驗證了長時間輸入對動作識別模型性能的影響。Gao 等[43]根據人體質心的運動軌跡的周期性定義了原子行為,并針對不同原子行為的特征向量存在維度差異的問題,采用了空間金字塔池化結構,將幀級特征編碼成固定大小的視頻級表示,有效地解決了傳統的3D CNN相對固定的局部采樣可能存在的信息冗余問題。

針對方案②,Wang 等[44]在Res3D 的基礎上通過SMART塊構建了外觀關系網絡(appearance and relation networks,ARTNet)。SMART塊將時空學習模塊分離為用于空間建模的外觀分支和用于時間建模的關系分支。外觀分支是基于單幀中像素和濾波器響應的線性組合來實現的,而關系分支是基于多幀像素和濾波器響應之間的乘法交互[45]來實現的。采用SMART 塊替換ResNet-18 基本的殘差單元,得到了相比于C3D ResNet-34更好的特征表示。

為了降低時空融合的復雜性,Zhou 等[46]提出了一種混合的二維、三維卷積管(mixed 2D/3D convolutional tube,MiCT),其架構如圖6 所示。MiCT 通過2D 卷積和3D 卷積共享空間信息,利用2D 卷積并通過跨域殘差連接的方式來促進3D時空特征的學習。MiCT使得在時空融合之前,每個時空層次上的特征映射更深入,從而促使網絡能夠在較少的時空融合中獲得更好的性能。與逐層堆疊的3D CNN 相比,MiCT將2D 卷積和3D 卷積集成在一起,不僅增強特征學習,而且大大降低了時空融合的復雜性。此外,Zolfaghari 等[47]提出ECO(efficient convolutional network)架構,ECO 網絡包括兩部分:一部分是底層的2D CNN,用于建模空間特征;另一部分是2D CNN和3D CNN 的并行分支,用于處理底層2D CNN 的輸出,建模時空特征。并行的2D CNN分支能夠簡化處理以及確保靜態圖像特征獲得必要的重視,3D CNN則主要負責處理更為復雜的動作。在推理階段,ECO 只采用了一組經過中心裁剪的視頻幀進行預測,因此對內存的消耗較低。然而,ECO犧牲了低層次的時間建模以提高效率,但在時間融合發生之前,許多有用的信息在特征提取過程中丟失。

Fig.6 Architecture of MiCT圖6 MiCT的網絡架構

針對視頻信號的時空特征演化存在差異性的問題,Feichtenhofer 等[48]提出SFN 網絡(SlowFast networks),網絡架構如圖7所示。慢路徑以低幀率速度運行,用于捕獲稀疏視頻幀提供的空間語義信息;快路徑以高幀率運行,用于捕獲精細時間分辨率下快速變化的動作信息。同時,快路徑和慢路徑通過橫向連接實現信息交互。快路徑通過降低輸入幀的空間分辨率、去除顏色信息等方式,使得其更加注重時序維度上的信息。此外,通過減少快路徑的通道容量以此來降低模型的復雜度。實驗表明,SFN網絡對于建模幅度大、變化快的動作更具優勢。

Fig.7 Architecture of SlowFast圖7 SlowFast的網絡架構

3D CNN采用三維卷積同時捕獲時空信息,且一次能夠處理多個輸入幀,因此算法的運行速度較快。然而,三維卷積會引入大量的參數,從而造成較高的計算成本和內存開銷。目前基于3D CNN 的方法大都結合了雙流網絡的思想,采用光流圖像作為輸入用來增強模型的性能。得益于大型數據集的提出以及預訓練技術的支持,基于3D CNN的動作識別方法的性能已經超過了基于2D CNN的動作識別方法。

1.3 基于時空分解網絡

時空分解網絡主要包括解耦時空濾波器的時空分解卷積以及分離時空特征通道的通道分離卷積。其主要思想都是通過將時空特征進行分開建模,以達到減少參數和易于優化的目的。

Sun 等[49]提出了時空分解網絡(factorized spatiotemporal convolutional network,FstCN),通過將三維卷積解耦為空間上二維卷積和時間上的一維卷積,不僅減少了參數量,而且可以采用ImageNet 上預訓練的模型對空間二維卷積進行初始化,從而大大縮短了網絡訓練的時間。在此基礎上,Qiu 等[50]提出了偽三維殘差網絡(pseudo 3D residual networks,P3D),通過在1×3×3和3×1×1卷積的兩端引入了瓶頸架構,用于減小和恢復輸入特征圖的維度,從而進一步減少了參數量。如圖8所示,采用級聯、串行、級聯和串行三種跳躍連接模式,用于表示空間和時間濾波器之間存在的直接影響或間接影響,構建了三種偽三維殘差單元。通過引入瓶頸塊架構和時空分解卷積,使得P3D可以嵌入到ResNet-152 中,極大地拓展了網絡的深度。Du等[51]提出的“R(2+1)D”,進一步驗證了通過解耦后的網絡模型相比于Res3D,具有更小的損失,更有利于優化。Xie等[52]則通過時空分解卷積改造了I3D網絡,提出S3D 網絡。通過時空解耦的S3D 的網絡相比于I3D網絡,具有更少的參數和更小的計算復雜度。同時,在Kinetics數據集和Something-something[53]數據集上top-1準確率分別提升了1.1個百分點和1.5個百分點,進一步驗證了時空分解卷積更有利于分配參數空間,且具有更優秀的時空建模能力。

Fig.8 Pseudo 3D residual units圖8 偽3D殘差單元

此外,Li 等[54]提出了一種協同時空模塊(collaborative spatiotemporal,Cost),通過對可學習的參數施加權重共享約束,協同編碼時空特征。其主要思想是對三個正交視圖(H-W、T-H、T-W)分別執行1×3×3、3×3×1、3×1×3的二維卷積,分別學習空間外觀和時間運動線索,最終得到的三個特征圖采用加權求和的方法進行聚合。通過共享不同視圖的濾波器參數,Cost可以協同學習空間和時間特征并維持與單視圖二維卷積相同的參數數量。此外,基于在不同視圖中學習到的系數,可以量化空間和時間特征的貢獻,使得模型的可解釋性更強。

與上述方法通過解耦時空濾波器來降低網絡參數的方式不同的是,采用通道分組卷積能夠有效地減少時空交互的次數,從而降低網絡的時間復雜度。Luo等[55]提出一種分組時空聚合(grouped spatialtemporal aggregation,GST)的方法。GST將特征通道并行分解為空間組和時間組,空間組采用二維卷積用于捕獲外觀線索,時間組采用三維卷積用于捕獲時間線索。GST 以一種非對稱的通道分解方式,通過可視化正則化層每個通道的比例因子,可以定性地分析不同階段時間特征和空間特征的重要性,從而了解到空間和時間線索是如何從底層特征編碼到高層特征的。

考慮到時空特征和運動特征的互補性,Jiang等[56]提出了一種時空和運動編碼(spatiotemporal and motion encoding,STM)。STM 包括編碼現時空特征的通道式時空模塊和高效編碼運動特征的通道式運動模塊。通道式時空模塊通過重組輸入通道,采用二維的空間卷積和一維的時間卷積以實現分離建模時空特征;通道式運動模塊在時間維度上對相鄰的特征圖進行特征差分,用于提取相鄰幀之間的特征級運動模式。STM 通過引入時空分解卷積,以極小的計算開銷得到了與光流相媲美的運動特征描述,極大地減少了內存的消耗。

1.4 其他網絡

針對動作視頻數據集存在信息幀冗余的問題,Zhu 等[57]提出了關鍵卷(key volume)提取框架,該框架與網絡訓練過程中的正向和反向傳播階段相結合,通過正向傳播為每一個類別標識關鍵卷;并在反向傳播過程中,利用提取的關鍵卷更新參數,使得網絡能夠自主學習輸入卷的重要性。Kar等[58]提出了一種自適應掃描池(adaptive scan pooling,Adascan),Adascan 能夠判別輸入視頻幀對于動作識別的重要性,同時在學習過程中丟棄大部分非信息性幀,在減少冗余信息的同時能夠減少網絡的計算開銷,從而提高模型的性能。針對短視頻而言,采用剪輯平均的方式進行預測被認為是合理的。然而,在未修剪的視頻中存在大量的與動作識別無關的片段,此時若采用剪輯平均的方式進行預測,則大量的無關片段會參與到預測過程中,這將嚴重影響到模型的性能。因此,Korbar等[59]基于注意力機制提出了一種輕量級的clips-sampling 模型,該模型可以有效地識別出視頻中最突出的時間段,并針對最突出的時間段進行分類,從而有效地降低計算的代價。

此外,基于深度圖以及骨骼信息的動作識別方法也取得了一定的進展。例如:Li 等[60]并行地采用VGG-16 網絡和密集軌跡算法提取深度運動圖中的靜態特征和RGB視頻幀序列中的運動特征,然后采用Fisher特征編碼方式將提取的靜態和動態特征編碼成Fisher 向量,最后將靜態和動態特征向量串聯,并采用支持向量機對其進行分類。采用深度運動圖的方式,能夠提取到豐富的深度信息和紋理信息,從而實現其與運動特征的互補,有助于提高精度。Ge 等[61]將輸入幀的骨骼序列表示成行為矩陣,并針對固定尺寸的卷積核無法捕獲相距較遠的骨骼關節點之間特征信息的問題,提出了采用多尺度卷積的思想去提取不同層級的語義特征,從而更好地實現行為分類。

跨模態監督在未修剪動作識別中也有著一定的進展。例如,Nagrani 等[62]通過電影視頻中語音與臺詞之間的對應關系構建了一個動作識別的分類器,然后采用該模型對大規模視頻數據集進行弱監督標注,使用這種標注數據訓練的模型在動作識別中表現良好。Gao等[63]提出了一種更輕的輸入模態,即圖像-音頻對。在此基礎上,提出了一種基于注意力機制的長短期記憶網絡,該網絡在迭代的過程中能夠從未修剪的視頻中挑選出與動作識別高度相關的圖像-音頻對,減少了長期的時間冗余,從而實現高效的動作識別。

2 相關數據集

動作視頻數據集主要包括以場景為主和以時間為主兩類。兩類數據集的相關介紹如表1和表2所示。

Table 1 Scene-related action video datasets表1 場景相關的動作視頻數據集

Table 2 Temporal-related action video datasets表2 時間相關的動作視頻數據集

如圖9所示,場景相關的動作數據集包含較多與動作識別有關的場景信息,因此依靠單幀去建模空間特征就可以完成識別任務。其中KTH[64]、Weizman[65]、IXMAS[66]三種實驗室數據集包含表演者在受限場景下執行的一系列簡單動作。三種數據集包含的動作都比較規范,對于動作識別任務的挑戰性較小。其中,KTH 數據集包含尺度、衣著和光照的變化,但背景和拍攝視角相對固定,因此該數據集相對簡單,同時其視頻實例數對于主流的動作識別模型的訓練而言還算豐富,可用于評估基于2D CNN的動作識別方法,但不適用于3D CNN 的動作識別方法。IXMAS數據集除了視頻數據之外,還包括人體骨骼和體積元等信息,可用于基于人體骨架點的動作識別方法。Weizman數據集的視頻實例數偏少,容易導致深度模型的過擬合,不太適用于深度學習算法,但可從遷移學習的角度對其進行處理。此外,該數據集還提供了利用背景建模算法得到的前景掩碼圖像,如圖9所示。因此,該數據集比較適用于傳統的機器學習算法,例如模板匹配算法或K臨近算法。總體而言,三類實驗室數據集都不需要額外的數據預處理工作就可以很好地完成識別任務,并且視頻的拍攝視角相對固定,不存在相機抖動的因素,因此同樣適用于基于光流的動作識別方法。但三種數據集的整體分辨率偏低,因此在基于超分辨的動作識別方法中具有潛在的應用價值。

Fig.9 Sample images and foreground mask of Weizman dataset圖9 Weizman數據集的動作示例及前景掩碼圖

與三種實驗室數據集不同的是,Hollywood2[67]和Olympic sports[68]數據集來自于真實的場景,不再局限于受限的環境。其中,Hollywood2 從電影劇本中自動進行動作注釋,避免了手動注釋的困難。但是,電影鏡頭往往不是表示的單一動作,許多動作混合在一起可能會帶來噪聲干擾,同時由于鏡頭切換,視頻存在光照變化、遮擋、背景不連續等問題,因此會對模型的訓練造成一定的影響,在模型的魯棒性方面有著極大的考驗。Olympic sports數據集最大的特點是存在相機抖動的問題,因此該數據集不適用于傳統的光流算法。這兩種數據集的共同特點就是包含相機抖動、場景變換、遮擋等問題。因此,在該數據集上使用深度學習算法時,可以采用改進的密集軌跡算法[10](improved dense trajectory,iDT)去估計相機運動,或使用深度圖、骨架點等方法,減少雜亂的背景所帶來的干擾信息,進一步提升模型的性能。

UCF101 和HMDB51 是兩種最常見的動作視頻數據集,一般被作為動作識別的目標數據集,用于評估模型的性能。UCF101[40]數據集的示例圖如圖10所示。HMDB51[41]數據集和UCF101 數據集在動作的組成類別上比較相似,但HMDB51 數據集規模更小,且包含更多的相機運動、光照變化、復雜背景等因素的影響,因此其識別率相較于前者偏低,更具挑戰性。在HMDB51 數據集上進行分類任務時,數據預處理顯得尤為關鍵,而目前這方面的工作很少。可以借鑒iDT算法的思想來估計相機運動,同時采用高效的前景提取算法,以消除復雜背景以及光照變化對模型訓練產生的影響。然后,采用預訓練技術來減緩由于訓練數據不足而可能產生的過擬合現象。

Fig.10 Sample images of UCF101 dataset圖10 UCF101數據集示例圖

Sport-1M[31]和Kinetics[39]數據集包含大量的標注實例,是時空特征學習的極佳來源,因此這兩種數據集被廣泛應用于預訓練和消融實驗環節。HACS Clips[69]最近才被提出,其包含約1 550 000個視頻剪輯,是迄今為止規模最大的動作視頻數據集,并且其采用了高效的注釋方式,動作類別的標注噪聲相對較少,因此在未來遷移學習任務中,HACS Clips 非常具有潛力,有望成為預訓練以及動作識別的新基準。

時間相關的動作視頻數據集更加關注運動本身,且動作類間差異性小,例如如圖11 所示,Something數據集中的從左向右移動物體和從右向左移動物體,僅僅依靠單幀無法出色地完成推理工作,因此在該類數據集上進行的動作識別任務極具挑戰性。Charades[70]、Epic-Kitchens[71]以及Something[53]數據集主要包括日常生活中人與物的一系列交互動作。其中,Charades 數據集既包含原始視頻數據,又包含物體類的標簽信息,可采用基于物體的動作識別方法對其進行分類;Epic-Kitchens 還包含了部分音頻數據,因此其在多模態動作識別上具有一定的應用價值。Something v1 與Something v2 數據集的組成類別一致,但Something v2 與Something v1 相比,具有更少的標注噪聲,更多的實例數,更大的像素分辨率等特點。因此,其識別率較前者平均高出15 個百分點,處理起來更簡單。在以上三種數據集上進行動作識別任務時,應該更加關注時序信息建模,在設計時空特征學習的模型時,可以采用與文獻[72-73]相結合的方式,進一步提升時序特征學習能力。

Fig.11 Sample images of Something dataset圖11 Something數據集示例圖

Diving-48[74]包含了48 種細粒度的跳水動作,視頻的真實標簽由跳水比賽的信息板中轉錄。該數據集不同子動作之間具有相似的靜態視覺屬性和動態視覺屬性,旨在體現時間層次上進行動作表征的重要性。其中,48 種跳水動作由5 種起跳、3 種飛行、2種入水動作組合而成。由于跳水動作可能在3 個階段中的任何一個階段存在差異,因此需要對長期的時間動力學信息進行建模,這對于當前的動作識別系統是一項極具挑戰性的任務。同時,跳水視頻一般是通過側面攝像機錄制,因此存在身體部位遮擋的問題,基于骨架的方法不再適用。但跳水動作都包含3個固定的環節,即起跳、飛行和入水,且3個環節持續時間大致相同。因此,可以借鑒TSN 的分段稀疏采樣的思想,確保輸入幀覆蓋整個跳水動作的各個環節,增強模型長時間結構建模的能力。同時,對于長期時間結構建模,可以采用LSTM捕獲視頻幀序列長期的時間依賴關系。

與上述數據集類似于圖像分類的標注機制不同的是,AVA[75]數據集以人體為中心,為同一場景下執行不同動作的人劃分不同的標簽,如圖12 所示。同時,AVA數據集中也存在大量的共現動作對,即活動主體可能同時執行至少兩個動作,這為復雜活動建模提供了可能。Moment in time數據集[76]的動作類別可由多個主體完成,視覺差異較大,同時該數據集的部分動作需要依賴音頻才能做出識別,這也增加了該數據集的挑戰性。Jester數據集[77]主要包含了人體手勢動作,該數據集包含的噪聲較少,背景相對單一,處理難度小。但該數據集不適用隨機翻轉的數據增強技術,因為會導致部分動作出現混淆,例如向上/向下移動兩根手指。

Fig.12 Sample images of AVA dataset圖12 AVA數據集示例圖

FineGym[78]數據集從3個語義層級和兩個時間層級對視頻剪輯進行標注,語義層級包括事件(event)、集合(set)和元素(element),時間層級包括動作(action)和子動作(sub-action)。其中,事件主要包括4 種女子體操項目:自由體操、平衡木、跳馬和高低杠。集合是在事件的基礎上將動作細分成若干類子動作,例如平衡木包括手翻類、跳步類、轉體類動作。最后,元素對集合內的子動作進行進一步劃分,例如:轉體類動作包括轉體、直體和屈體,空翻包括前空翻和后空翻。FineGym 專注于細粒度的動作識別,元素級(element-level)動作的類內、類間差距都極小,這要求模型能夠更加細微地去捕獲動作之間的微小差距。FineGym 有望推動動作識別領域向更深層次的方向發展。此外,FineGym為運動分析和體操運動項目的自動打分系統提供了一定的數據基礎。

3 預訓練對模型性能的影響

3.1 常見的預訓練策略

由于雙流網絡中空間流網絡的輸入是單幀RGB圖像,因此可以使用ImageNet 上預訓練的模型進行初始化。然而,時間流網絡的輸入為多幀光流圖像,其分布與RGB 圖像不同,無法直接使用ImageNet 預訓練的網絡模型。為了進一步提升網絡初始化的效率,Wang 等[79]提出了跨模態預訓練(cross modality pre-training),其本質是利用RGB 模型對時間流網絡進行初始化。首先,通過線性變換將光流場的分布離散化為0~255,使得光流場的分布與RGB 圖像相同。然后對RGB 模型3 個通道的權重進行平均,并通過時間網絡輸入的通道數復制這個平均值。采用跨模態預訓練,TSN的時間流網絡在UCF101數據集上的精度從81.7%增加到86.6%,跨模態預訓練為雙流風格的網絡提供了一種非常高效的初始化方式。

3.2 預訓練技術對模型性能的影響

當目標數據集沒有足夠的訓練樣本時,預訓練是一種有效的深度卷積初始化方式。預訓練技術的優點主要包括:(1)經過預訓練之后,模型具備一定的學習時空特征的能力,當對目標數據集進行微調時,可以使得模型快速適應目標數據集,從而加快模型收斂的速度;(2)預訓練技術可以有效地緩解由缺乏訓練數據所導致的過擬合問題。動作識別中常見的預訓練數據集的相關介紹如表3所示。

Table 3 Pre-training datasets表3 預訓練數據集

預訓練對模型性能的影響如表4 所示。相比于不進行預訓練,R(2+1)D-RGB、R(2+1)D-Flow、R(2+1)D-Two-Stream(R(2+1)D-T-S)通過Sport-1M數據集預訓練,在Kinetics數據集上的top-1準確率分別提升了2.3個百分點、1.0個百分點和1.5個百分點,top-5的準確率分別提升了1.4 個百分點、0.9 個百分點和1.0 個百分點。RGB-I3D、Flow-I3D、Two-Stream I3D 在ImageNet上進行預訓練之后,在Kinetics數據集上的top-1 準確率分別提升了2.7 個百分點、1.9 個百分點和2.6 個百分點,top-5 準確率分別提升了1.3 個百分點、1.5 個百分點和1.3 個百分點。結果表明:預訓練技術能夠在一定程度上提升動作識別模型的性能。

Table 4 Impact of pre-training on accuracy表4 預訓練對準確率的影響 %

如表5所示,動作識別模型性能的提升與預訓練數據集的規模和類型存在聯系。例如:T-C3D在Kinetics上進行預訓練與在Sport-1M上進行預訓練相比,在UCF101 上的平均準確率從89.5%提升到92.5%。R(2+1)D-RGB、R(2+1)D-Flow、R(2+1)D-T-S 在Sport-1M上進行預訓練,在UCF101和HMDB51上微調,分別得到了93.6%、93.3%、95.0%和66.6%、70.1%、72.7%的準確率。同時,將預訓練數據集更換為Kinetics,在UCF101和HMDB51上的準確率分別提升了3.2個百分點、2.2個百分點、2.3個百分點和7.9個百分點、6.3個百分點、6.0個百分點。結果表明:Kinetics比Sport-1M 更適合作為網絡的預訓練數據集,這與Kinetics數據集的全面性和相似性有關。

Table 5 Impact of type of pre-training datasets on accuracy表5 預訓練數據集的類型對準確率的影響%

此外,T-S R(2+1)D-34在Sport-1M上進行預訓練后,在目標數據集上的平均準確率分別為97.3%和78.7%,采用HACS Clips 預訓練后,在目標數據集上的平均準確率分別提升了0.7個百分點和1.1個百分點。同樣,Two-Stream I3D 在HACS Clips 上預訓練相比于在ImageNet+Kinetics 上預訓練,在目標數據集上的平均準確率分別提升了0.2個百分點和0.6個百分點。這是因為HACS Clips相比于Kinetics具有更多的標注實例,因此進一步證實了數據集規模越大,對于動作識別模型性能的提升更加明顯。同時,TSN的空間流網絡通過在ImageNet上預訓練,在UCF101上的準確率為86.4%,通過Kinetics預訓練后,準確率提升了4.7個百分點。結果表明:對于動作識別中的預訓練環節,選擇動作視頻數據集比選擇靜態圖像數據集在模型性能的提升方面更有幫助。進一步證實了模型性能的提升與預訓練數據集和目標數據集的相似性有關。

4 未來研究方向

近年來,從傳統的手工特征方法到深度學習方法,從小規模數據集到大規模數據集,從對網絡的淺層探索到設計專門用于時空特征提取的網絡,視頻中的人體動作識別取得了重大的進展。然而,人體動作識別仍有許多值得進一步研究的方向:

(1)細粒度動作識別

2019—2020年,在CVPR、ICCV等頂會中,Something、Charades、Jester、AVA、Epic-Kitchens 等細粒度動作視頻數據集所占的比重越來越大,表明動作識別正在由粗粒度向細粒度轉變。相比于粗粒度動作識別,細粒度動作識別更加注重運動本身和時間的上下文信息,并且要求模型能夠區分動作之間存在的微小差距。此外,其在實際應用中的局限性更少,例如運動分析和動作打分。然而,目前大多數的深度學習模型在細粒度數據集上的表現未達到先進的水平。在未來,可以采用強監督的方式,使用邊界框和局部標注信息,采用注意力機制的方式去獲取動作的顯著特征,從而提高細粒度動作的分類精度。或采用弱監督的方式,通過定位出能判別出動作類別的關鍵部位,利用判別行特征作為輔助來完成分類。

(2)小樣本學習

大多數基于深度學習的動作識別方法需要大量的訓練樣本才能使模型達到收斂。然而,當動作識別應用于某一個特定的場景時,往往沒有足夠多的訓練樣本,訓練樣本的缺少可能會導致深度學習模型的過擬合問題,這將嚴重影響到模型的泛化能力。目前,小樣本學習已取得一定的進展,例如Ji 等[80]提出的動作基因組的概念,將動作分解為時空場景圖的形式,用于捕獲對象之間及其關系之間的變化,使得主流的動作識別模型在小樣本學習中獲得了較大的性能提升。此外,Cao等[81]設計了一種時序校正模塊,通過時序校正有效地利用了視頻數據中的時間順序信息,提高了數據利用的效率。在小樣本學習方面,可以從多模態信息利用的角度緩解小樣本學習中標注數據少的問題,例如增加深度圖、骨架圖等信息。同時,可以引入新的視頻數據增強技術,以及采用生成對抗式網絡,在特征層面做數據增強,提升模型的魯棒性。

(3)更精簡的模型

目前,大多數的深度學習模型仍具有參數多、時間復雜度高的特點,這就導致算法對內存的消耗較高且運行速度較慢,不能滿足實時性和高效性的要求,也無法在移動設備上運行。目前,為了同時保證效率和準確率,大多數輕量級模型都建立在2D CNN的基礎上,通過部署不帶參數或參數較少的時序特征提取模塊使得2D CNN具備時空特征學習的能力,例如TSM[24]、GST[55]等。同時,隨著ResNext[82]和Shuffle-Net[83]在圖像分類領域的成功應用,在未來的研究中,可以借助通道分組卷積或深度可分離卷積的思想去設計時序特征提取模塊,從而在保證時空交互的同時,有效地減少網絡的參數。此外,采用知識蒸餾的方式,將復雜、學習能力強的網絡學習到的知識,即輸入輸出的映射關系,轉移到參數少、學習能力弱的網絡,能間接起到模型壓縮的效果。

(4)無監督學習

視頻數據中包含大量的動態結構信息,是無監督學習的極佳素材。無監督的視頻學習主要包括時間自編碼器的方法,例如PredNet[84]、PredRNN[85]和PredRNN++[86],但是尚未證實其在大規模遷移學習中的表現。最近在文獻[87]中提到,通過訓練深度視頻嵌入,以最大化不同視頻之間的距離,最小化相同視頻之間的距離。這種在大量的動作視頻中學習到的視覺表示可以顯著地提高動作識別的精度,但是要在大規模數據集上訓練強大的視頻嵌入視覺特征,往往是比較困難的。在未來,可以借助文獻[35]中的思路,通過兩個網絡之間正負標簽的對應關系去學習視頻表示,從而實現跨網絡的監督轉移。

(5)自適應網絡

動作視頻數據集的分辨率表現出強烈的差異性,處理不同的數據集應該采用不同的輸入方式。然而,目前的動作識別模型大多采用固定的時空分辨率,這種相對固定的輸入方式對于網絡的訓練而言可能不是最佳的。在未來,在進行廣泛架構探索的同時,也應該關注輸入模式的探索,例如分析采樣的輸入幀序列的特點,動態調整其時空分辨率,若輸入幀與動作類別高度相關,則增大其分辨率,反之則減小其分辨率,這樣有助于減少冗余和提高效率。此外,通過注意力機制,自適應進行網絡架構的探索,也是未來值得研究的方向。

(6)視頻超分辨動作識別

在現實場景中,由于光照不均或監控設備受限等因素的影響,最終呈現的視頻內容往往是低質量的,低質量的視頻內容呈現出視頻分辨率低、噪聲以及運動模糊等特點,容易導致模型對動作造成誤判,大大降低動作識別模型的性能。在未來,可以通過設計模塊進行幀內的空間相關性以及幀間的時間相關性抽取,然后借鑒圖像超分辨技術的思想,將抽取到的特征進行通道間融合與放大,實現視頻幀序列的超分辨。最后,基于視頻超分辨的結果,再對其進行時空特征的學習。視頻超分辨技術能夠有效地提升動作識別模型在復雜場景下的性能,是動作識別走向實用化的過程中,非常具有潛力的研究方向。

5 結束語

本文從2D CNN、3D CNN 以及時空分解網絡三個角度介紹了人體動作識別的最新研究進展,并著重探討了各類方法的優缺點。然后,從以場景為主和以時間為主兩方面介紹了動作識別中常用的數據集,并著重分析了各類數據集的特點及在動作識別中的應用。隨后,從預訓練的角度,探討了預訓練技術以及預訓練數據集的規模和類型對動作識別模型的影響,結果表明模型性能的提升與預訓練數據集的全面性和相似性有關。最后,從動作識別的最新動態出發,探討了其未來研究的方向。

猜你喜歡
動作特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
動作描寫不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产一区二区精品福利| 欧美日韩在线观看一区二区三区| 日本欧美在线观看| 午夜福利在线观看成人| 国产精品免费久久久久影院无码| 欧美一级夜夜爽www| 久久动漫精品| 国产区人妖精品人妖精品视频| 成人在线亚洲| 精品三级网站| 亚洲色欲色欲www在线观看| 国产毛片片精品天天看视频| 国产综合色在线视频播放线视| 亚洲高清中文字幕在线看不卡| 伊在人亚洲香蕉精品播放| 无码国产偷倩在线播放老年人 | 老汉色老汉首页a亚洲| 在线观看无码av五月花| 日日碰狠狠添天天爽| 午夜福利无码一区二区| 久久精品免费国产大片| 免费日韩在线视频| 91精品啪在线观看国产| 日韩二区三区| 久久永久免费人妻精品| 日韩av在线直播| 亚洲综合日韩精品| 精品一区二区三区波多野结衣| 最近最新中文字幕在线第一页 | 国产va欧美va在线观看| 亚洲永久色| 欧美精品在线免费| 亚洲黄色片免费看| 久久99国产综合精品1| 精品天海翼一区二区| 国产精品免费p区| 一级毛片a女人刺激视频免费| 亚洲国产综合自在线另类| 在线色国产| 日韩高清一区 | 9丨情侣偷在线精品国产| 亚洲色无码专线精品观看| 天天操精品| 亚洲第一成年网| 永久免费无码日韩视频| 3D动漫精品啪啪一区二区下载| 国产91精选在线观看| 乱人伦视频中文字幕在线| 蜜桃视频一区二区| 激情无码字幕综合| 二级毛片免费观看全程| 亚洲视频免费播放| 国产成人久久综合777777麻豆| 国产成人综合网在线观看| 亚洲成人动漫在线观看| 国产成人精品一区二区免费看京| 日本三级黄在线观看| 久久综合婷婷| 日韩在线视频网站| 制服丝袜国产精品| 欧美区一区| 国产欧美精品一区二区 | 国产精品无码AV中文| 国产永久在线视频| 无套av在线| 国产亚洲欧美另类一区二区| 成人在线不卡| 亚洲午夜国产片在线观看| 亚洲网综合| 91无码视频在线观看| 国产福利不卡视频| 青草精品视频| 欧美日韩亚洲国产主播第一区| 中文字幕av一区二区三区欲色| 3D动漫精品啪啪一区二区下载| 日韩高清在线观看不卡一区二区| 欧美日韩第二页| 免费国产好深啊好涨好硬视频| 一级一级特黄女人精品毛片| 中文无码精品a∨在线观看| 激情综合五月网| 亚洲大学生视频在线播放|