視頻中人體行為識別的時序建模算法的分析

2021-04-13 08:46:36李韻鄧曉軍李濤哲賀迅宇

電腦知識與技術(shù) 2021年5期

李韻鄧曉軍李濤哲賀迅宇

摘要：目前人體行為識別是視頻分析領(lǐng)域的研究熱點，準(zhǔn)確有效的人體行為識別的關(guān)鍵是動作時序建模和特征表示。該文歸納了人體行為識別常用的數(shù)據(jù)集，對人體行為識別表示方法進(jìn)行了全面的回顧，并介紹了人體行為識別研究的最新方法，包括RGB和深度數(shù)據(jù)中手工設(shè)計的動作特征的進(jìn)展，基于深度學(xué)習(xí)的時序表示方法的最新進(jìn)展及當(dāng)前研究的熱點。最后總結(jié)了目前待解決的問題，對未來行為識別可能的發(fā)展方向進(jìn)行了論述。

關(guān)鍵詞：人體行為識別;深度學(xué)習(xí);動作特征表示;數(shù)據(jù)驅(qū)動;視頻分析

1引言

人體行為識別具有廣泛的應(yīng)用，例如智能視頻監(jiān)控、視頻存儲和檢索、醫(yī)療康復(fù)、人機交互等。人體行為識別根據(jù)采集到的視頻時間序列數(shù)據(jù)來分析，在計算機視覺和機器學(xué)習(xí)領(lǐng)域，這也是一個具有挑戰(zhàn)性的問題。目前，人體行為識別中有許多關(guān)鍵問題尚未解決。

視頻是時域上有序圖像的集合，其獨有的時域相關(guān)性可以縮小很多視覺問題的搜索空間，魯棒的人體動作建模和特征表示是人體行為識別的關(guān)鍵，也是視頻領(lǐng)域和機器學(xué)習(xí)中的經(jīng)典問題，圖1是動作識別的原理框圖。近年來，已經(jīng)提出了多種時序建模方法，包括基于關(guān)鍵點跟蹤的軌跡特征，基于時空變化的局部和全局特征提取，基于深度信息的運動變化等。傳統(tǒng)的表示依賴人工設(shè)計，通用性差，近年新興的深度學(xué)習(xí)則能實現(xiàn)一定程度的自動學(xué)習(xí)，許多研究人員也將深度學(xué)習(xí)應(yīng)用于視頻領(lǐng)域人體行為識別。然而視頻的特征學(xué)習(xí)研究剛起步，大部分算法移植自圖像領(lǐng)域，尚不能有效利用視頻特有的時域相關(guān)性先驗。豐富的視頻數(shù)據(jù)使得行為分析有更好的擴展性和靈活度，對這些人體行為識別方法進(jìn)行調(diào)查是非常有意義的。

本文從數(shù)據(jù)集開始介紹，總結(jié)了許多近期的工作，將動作分類方法概括為基于手工特征的方法和基于特征學(xué)習(xí)的方法，這些方法可以應(yīng)用于不同類型的數(shù)據(jù)。

2 數(shù)據(jù)集

在計算機視覺領(lǐng)域中，有許多數(shù)據(jù)集可用于評估人體行為識別算法性能。最先開始人體行為識別主要是識別一些比較簡單的視頻，這樣的視頻稱為實驗室拍攝的視頻，如跑步、拍手等，這類數(shù)據(jù)的背景都比較干凈，代表數(shù)據(jù)庫有KTH，Weizmann等;Hollywood和UCF Sports數(shù)據(jù)庫是基于電影或者電視節(jié)目，因為電影都是由專業(yè)的設(shè)備拍攝的，所以視頻質(zhì)量都比較高;HMDB51、UCF101等數(shù)據(jù)庫是對網(wǎng)絡(luò)端的視頻進(jìn)行識別，這類數(shù)據(jù)的差異性非常大，通常是用戶根據(jù)自己的手持設(shè)備拍攝進(jìn)行上傳的，因此這類數(shù)據(jù)的復(fù)雜程度往往是最高的。

基于深度學(xué)習(xí)的方法比基于手工特征的方法具有更好的識別性能，通過將深度學(xué)習(xí)方法用于動作特征學(xué)習(xí)，行為識別精度得到了顯著提高。在這些RGB數(shù)據(jù)集中，HMDB51和UCF 101最常用于評估所提出的方法，幾乎所有基于深度學(xué)習(xí)的最新方法的研究都使用這兩個數(shù)據(jù)集來驗證算法的有效性，UCF101數(shù)據(jù)集的識別精度已超過98%，但是HMDB51尚未達(dá)到等效精度，表1列出了人體行為常用二維數(shù)據(jù)集，注意到Kinetics數(shù)據(jù)集是用于人體行為識別的新的且更具挑戰(zhàn)性的數(shù)據(jù)集。

二維數(shù)據(jù)并不能很好地解決人體行為存在的自遮擋等問題，而三維數(shù)據(jù)對自遮擋的信息得到了補充，但這使得數(shù)據(jù)集變得復(fù)雜，處理也變得相對困難。由于計算機硬件的發(fā)展，微軟Kinect等設(shè)備的出現(xiàn)，使得三維數(shù)據(jù)更容易采集和處理，表2列出了常用的三維數(shù)據(jù)集。

與RGB數(shù)據(jù)集相比，基于深度學(xué)習(xí)的方法在RGBD和骨架數(shù)據(jù)集上的應(yīng)用較少，造成這種情況的主要原因之一是這些數(shù)據(jù)集規(guī)模較小。然而，隨著大規(guī)模且具有挑戰(zhàn)性的RGBD和骨架數(shù)據(jù)集的發(fā)展，例如NTURGB + D數(shù)據(jù)集，基于深度學(xué)習(xí)的深度和骨架數(shù)據(jù)方法已成為人體行為識別領(lǐng)域的主要研究主題。

3傳統(tǒng)方法

傳統(tǒng)方法主要是人工提取特征，旨在捕獲視頻中表示動作的人體運動和時空變化，RGB數(shù)據(jù)和深度數(shù)據(jù)有各自的特性和優(yōu)勢，不同數(shù)據(jù)有不同的建模方法。

3.1基于RGB數(shù)據(jù)

基于時空體積的方法是應(yīng)用模板匹配技術(shù)，這些方法的關(guān)鍵是使用時空模板并基于該模板執(zhí)行有效的匹配。這是最早的人體行為識別方法，主要方法有二維全局特征提取，MEI（運動能量圖像）和MHI（運動歷史圖像）使用幀差法檢查像素點運動并分別通過二值化和灰度化生成，包含有關(guān)視頻上下文的有用信息。Blank等人提出MEI模板的體積擴展，通過視頻序列中的剪影信息得到3D時空體（STV），如圖2所示。當(dāng)相機固定時，這些方法可以使用背景差分得到人體剪影來獲取人體輪廓等形狀信息，然而在復(fù)雜的場景和相機運動的情況下，難以獲得準(zhǔn)確的剪影和輪廓，并且在人體被遮擋時不能識別出準(zhǔn)確的外觀信息。而局部特征不依賴底層的人體定位和跟蹤，對人體外觀變化和遮擋等問題也不是很敏感，因此在行為識別中局部表示方法更多。

基于STIP的方法從視頻中提取局部特征點來表示動作，STIP中的“興趣點”的檢測發(fā)生在視頻運動突變時，所以當(dāng)人體進(jìn)行直線或勻速運動時這些特征點就很難被檢測出來。Laptev將Harris空間興趣點擴展到3D Harris，檢測時空的局部結(jié)構(gòu)，局部特征提供旋轉(zhuǎn)不變性，在光照變化下保持穩(wěn)定，并且比其他方法具有更強的遮擋力，但是在背景運動和相機運動的情況下，基于局部時空特征的方法會生成許多背景特征點，并且物體的運動估計會產(chǎn)生較大的誤差。

時空特征點在時間延伸下可能并不位于相同的空間位置，因此提取到的特征并不一定描述興趣區(qū)域，而軌跡特征追蹤給定坐標(biāo)圖像沿時間的變化，使用人體骨架的關(guān)鍵點的跟蹤路徑來表示動作。基于軌跡的經(jīng)典行為識別方法是Wang等人提出的改進(jìn)的密集軌跡（iDT），運動描述子（主要指HOF和MBH）能更準(zhǔn)確的描述動作，使描述子更準(zhǔn)確地描述人體運動。這種方法可以克服視角的變化，然而需要精確的二維或三維人體骨架模型及關(guān)鍵點的精確跟蹤，同時人體動作建模和跟蹤仍然是計算機視覺領(lǐng)域的一個難題。

3.2基于深度圖像與骨骼數(shù)據(jù)

與基于RGB視頻的人體行為識別不同，骨骼數(shù)據(jù)僅包含人體關(guān)鍵點的2D或3D坐標(biāo)提供了高度抽象的信息，并且沒有環(huán)境噪聲（例如光照、衣著），使得行為識別算法能夠?qū)Ｗ⒂趧幼鞯聂敯籼卣鳌ｋS著深度傳感器在行為識別中的應(yīng)用，使用深度數(shù)據(jù)已經(jīng)展現(xiàn)了良好的行為識別性能。

基于深度序列的方法主要使用人體深度圖中的運動變化來描述動作。Yang等人提出的深度運動圖（DMM），從正面、側(cè)面和俯視面投影來壓縮時空深度結(jié)構(gòu)，形成三個運動歷史圖，然后用HOG特征表示這些運動歷史記錄圖，并將生成的特征連接起來描述動作。基于骨架的行為識別方法是使用深度數(shù)據(jù)進(jìn)行研究的另一個活躍領(lǐng)域，其方法利用視頻幀之間人體關(guān)節(jié)的變化來描述動作。Xia等人從Kinect深度圖中提取3D骨骼關(guān)節(jié)位置，如圖3所示，并使用該3D關(guān)節(jié)點直方圖表示人體姿勢，從不同角度獲得關(guān)節(jié)點之間的對應(yīng)關(guān)系提取更多的魯棒特征。基于深度信息的方法比基于RGB的方法能夠?qū)崿F(xiàn)實時的動作識別和更好的識別性能，盡管深度數(shù)據(jù)可以更準(zhǔn)確地描述人體的運動特征，但RGB的數(shù)據(jù)外觀信息豐富，因此一些研究人員還嘗試使用多特征融合對人體行為進(jìn)行建模。

Chaaraoui等人嘗試融合關(guān)節(jié)特征和深度信息特征，降低因遮擋和視角變化而錯誤提取骨架特征。基于數(shù)據(jù)融合的方法試圖保持多種數(shù)據(jù)模式間的特性來獲得更好的特征表示，大多數(shù)基于多模態(tài)數(shù)據(jù)融合的方法可以提供更優(yōu)的識別結(jié)果，但同時這意味著需要處理更大的數(shù)據(jù)量，使得算法的計算復(fù)雜度增加，多模態(tài)數(shù)據(jù)的有效組合仍然是人體行為識別和深度學(xué)習(xí)中的未解決問題。

4深度學(xué)習(xí)方法

深度學(xué)習(xí)在多層神經(jīng)網(wǎng)絡(luò)的支持下，逐層地把視頻從原始的像素空間變換到高層特征空間，能自動學(xué)習(xí)視頻表示，不需要人工介入，從效果來講，一般優(yōu)于傳統(tǒng)方法，在人體行為識別領(lǐng)域，深度學(xué)習(xí)方法已得到廣泛應(yīng)用。

4.1 RGB數(shù)據(jù)驅(qū)動方法

在人體行為識別的研究中，關(guān)鍵且具有挑戰(zhàn)性的一個問題是如何表示視頻時間維度上的特征，基于RGB視頻數(shù)據(jù)的深度學(xué)習(xí)方法根據(jù)時序建模方式的不同可分為基于雙流結(jié)構(gòu)的方法，基于3D卷積的方法和基于LSTM的方法。

Tran等人[7]探討了一個新的3D CNN結(jié)構(gòu)，直觀來講視頻信號與二維圖像不同，是一種三維的信號，因此簡單的做法就是把二維CNN進(jìn)行三維的擴展，它從視頻中同時學(xué)習(xí)空間和時間信息，效果優(yōu)于二維CNN。而大多3D卷積是基于片段的方法，并沒有考慮視頻級的時空特征變化，Zhang等人提出了視頻級四維卷積神經(jīng)網(wǎng)絡(luò)（V4D），利用四維卷積來建模長距離的時空變化，同時利用殘差結(jié)構(gòu)來保存三維時空特征。

雙流網(wǎng)絡(luò)的輸入是單幀圖像和多光流幀圖像堆疊，在雙流網(wǎng)絡(luò)中光流根據(jù)圖像序列計算得到，相比之下，3D卷積網(wǎng)絡(luò)將視頻視為三維時空結(jié)構(gòu)，并使用3D卷積方法學(xué)習(xí)人體行為特征，從結(jié)果上來看，雙流網(wǎng)絡(luò)的效果更好一些，然而光流需要消耗大量的計算資源。有許多研究嘗試改善這兩種網(wǎng)絡(luò)結(jié)構(gòu)的性能。雙流卷積網(wǎng)絡(luò)的一些代表性擴展包括，Wang等人詳細(xì)討論了雙流網(wǎng)絡(luò)的輸入、卷積網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略，引入分段和稀疏采樣的思想，提出時序分割網(wǎng)絡(luò)（TSN），如圖4所示，進(jìn)一步改善了雙流網(wǎng)絡(luò)的結(jié)果。Feichtenhofer等人提出了SlowFast網(wǎng)絡(luò)結(jié)構(gòu)，Slow路徑以低幀率運行捕獲空間語義信息，F(xiàn)ast路徑以高時間分辨率捕獲快速變化的運動信息，這種快慢結(jié)合的雙路徑通過側(cè)向連接（lateral connection）進(jìn)行融合，考慮了時間維度上不同速度對時空信息捕捉的影響。

上述基于卷積神經(jīng)網(wǎng)絡(luò)的模型一次僅能處理有限少量的視頻幀，而LSTM可以很好地對長序列結(jié)構(gòu)建模，基于LSTM的方法則將視頻視為幀的有序序列，并通過每個幀的特征變化來表示人體行為。Ng等人用LSTM將卷積網(wǎng)絡(luò)輸出的幀級特征聚合成視頻級，獲取更全局的視頻時序信息。由于3DCNN輸入是固定的片段，不能像LSTM一樣建模全視頻，復(fù)雜度也較高，但是卻相比單純CNN與LSTM的組合效果更好，時間卷積很好地捕捉了視頻中的時序信息，將3DCNN與LSTM組合也是一個很好的策略。

4.2 深度數(shù)據(jù)驅(qū)動方法

深度學(xué)習(xí)方法可以從各種形式的數(shù)據(jù)中學(xué)習(xí)人體動作特征，傳統(tǒng)的RGB數(shù)據(jù)容易受環(huán)境、衣著等無關(guān)行為的因素影響，深度數(shù)據(jù)給行為分析研究帶來不少便利。

傳統(tǒng)的DMM無法很好地展現(xiàn)三維運動特性且傾向于忽略外觀信息，Wang等人使用時間秩池將深度視頻中的3D運動信息緊湊地編碼為常規(guī)體素集（3DV）建模三維空間和運動特征，然后將3DV抽象為一個點集，并端到端地輸入點云網(wǎng)絡(luò)中以進(jìn)行3D動作識別。人體3D骨架數(shù)據(jù)是自然的拓?fù)鋱D，而不是基于RNN或CNN方法處理的序列向量或偽圖像，因此最近很多研究將有效表示圖形結(jié)構(gòu)數(shù)據(jù)的圖卷積網(wǎng)絡(luò)（GCN）應(yīng)用到骨架行為識別任務(wù)。Yan等人首次提出了時空圖卷積網(wǎng)絡(luò) （ST-GCN），使用面向圖的卷積網(wǎng)絡(luò)（GCN）來建模帶有圖的骨架關(guān)節(jié)之間的基本關(guān)系，如圖5所示，其中每個節(jié)點對應(yīng)于人體的一個關(guān)節(jié)，將人體連通性和時間作為圖的邊。

然而，深度傳感器的準(zhǔn)確性和成本意味著基于深度和基于骨架的行為識別方法目前僅適用于有限范圍內(nèi)和特定環(huán)境中。如基于結(jié)構(gòu)光和基于TOF的深度傳感器很容易受到光線的影響，在室外環(huán)境中誤差較大且精度較低。此外，還有其他可用于測量深度的傳感器，例如激光掃描儀，但是這些設(shè)備價格昂貴，不適合用于視頻監(jiān)控和家居監(jiān)控。

4.3 無監(jiān)督方法

除了上述數(shù)據(jù)驅(qū)動的監(jiān)督方法外，還有一些比較優(yōu)秀的新方法延伸到視頻領(lǐng)域，特別是一些無監(jiān)督方法的出現(xiàn)。無處不在的視頻中含有豐富的動態(tài)結(jié)構(gòu)信息，很自然想到將視頻數(shù)據(jù)作為強大的無監(jiān)督學(xué)習(xí)信號進(jìn)行視覺表示，然而大規(guī)模視頻數(shù)據(jù)的實現(xiàn)仍是人工智能的重大挑戰(zhàn)。Zhuang等人提出了視頻實例嵌入（VIE）框架，如圖6所示，在視頻中學(xué)習(xí)視覺嵌入，使得在嵌入空間相似視頻距離近，而無關(guān)視頻距離遠(yuǎn)，在大規(guī)模視頻數(shù)據(jù)上進(jìn)行訓(xùn)練時VIE可以為行為識別和圖像分類提供強大的表示，他們得出同時具有靜態(tài)和動態(tài)處理路徑的兩路徑模型是最佳的。

視頻領(lǐng)域的弱監(jiān)督/無監(jiān)督學(xué)習(xí)才剛剛開始，由于無須人工標(biāo)注或少量標(biāo)注，具有很大應(yīng)用價值，是未來非常值得研究的方向之一。但是由于效果沒有標(biāo)注的監(jiān)督方法好，未來會有很多新方法延伸到視頻分析領(lǐng)域，以解決目前存在的問題。

5 結(jié)束語

在行為識別研究中，選擇合適的數(shù)據(jù)來捕獲動作至關(guān)重要，對于動作特征學(xué)習(xí)問題，基于深度學(xué)習(xí)的方法具有出色的性能，但諸如人體姿勢的多樣性和復(fù)雜性、遮擋和背景雜亂之類的混雜因素，意味著真實場景中的人體行為識別仍然具有挑戰(zhàn)性，除了要解決以上難題，行為定位和多模態(tài)信息融合也是未來發(fā)展方向。視頻本身有一個很好的特性就是多模態(tài)，有圖像有運動，乃至于還有一些文本信息，怎樣用一些文字信息與RGB結(jié)合起來做自監(jiān)督或者弱監(jiān)督的學(xué)習(xí)是發(fā)展趨勢。同時不同應(yīng)用場景具體的應(yīng)用框架都不是很成熟，一個具體的應(yīng)用場景開發(fā)一款比較成熟的框架也是一個比較重要的研究方向。

參考文獻(xiàn)

[1] 陳煜平，邱衛(wèi)根.基于視覺的人體行為識別算法研究綜述[J].計算機應(yīng)用研究，2019，36（7）：1927-1934.

[2] Gorelick L，Blank M，Shechtman E，et al.Actions as space-time shapes[J].IEEE transactions on pattern analysis and machine intelligence，2007，29（12）：2247-2253.

[3] Laptev I.On space-time interest points[J].International journal of computer vision，2005，64（2-3）：107-123.

【通聯(lián)編輯：朱寶貴】