汪威 胡旭曉 吳躍成 丁楠楠 王佳



摘? 要:在自動扶梯場景下的視頻人體動作識別中,視頻數(shù)據(jù)源不穩(wěn)定,如遮擋、多視角、光照、低分辨率、動態(tài)背景以及背景混亂等均導(dǎo)致動作分類及檢測不準(zhǔn)確。針對這些問題,提出使用基于改進(jìn)的SlowFast網(wǎng)絡(luò)的人體動作識別方法,以更好地捕獲視頻連續(xù)幀中隱藏的時間和空間信息。通過與R(2+1)D卷積網(wǎng)絡(luò)模型的識別準(zhǔn)確率進(jìn)行對比,改進(jìn)的SlowFast網(wǎng)絡(luò)模型在視頻中的動作分類和檢測方面都表現(xiàn)了很好的性能,能夠有效地解決自動扶梯場景下的人體動作識別問題。
關(guān)鍵詞:人體動作識別;單流三維卷積神經(jīng)網(wǎng)絡(luò);慢速路徑;快速路徑;改進(jìn)的SlowFast
中圖分類號:TP249? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:2096-1472(2021)-09-24-03
Abstract: In human motion recognition in escalator scene video, the instability of the video data source, such as occlusion, multiple viewing angles, illumination, low resolution, dynamic background, and background confusion, leads to inaccurate motion classification and detection. Aiming at these problems, this paper proposes to use a human motion recognition method based on the improved SlowFast network to better capture the temporal and spatial information hidden in the continuous video frames. Compared with the recognition accuracy of the R (2+1) D convolutional network model, the improved SlowFast network model has achieved better performance in motion classification and detection in videos, and can effectively solve the problem of Human body motion recognition in escalator scene.
Keywords: human motion recognition; single stream 3-D convolutional neural network; slow path; fast path; improved SlowFast
1? ?引言(Introduction)
自動扶梯是空間開放性運(yùn)輸工具,活動空間相對較大,導(dǎo)致傷害的因素比較多[1]。臺階是持續(xù)運(yùn)動的,乘客進(jìn)入或者離開臺階區(qū)域時運(yùn)行狀態(tài)的改變?nèi)菀资蛊湔玖⒉环€(wěn),發(fā)生跌倒危險;在乘客越界后自動扶梯與墻壁交叉處產(chǎn)生的“剪切”將嚴(yán)重威脅乘客安全[2];此外,乘客逆行、攜帶大件物品等都容易發(fā)生意外傷害。自動扶梯人體動作識別的主要目標(biāo)是判斷一段視頻中人的動作的類別,主要識別判斷危險動作類別,比如身體部位越過安全線、頭部外探、下蹲、跌倒、逆行、手提行李箱等大件物品等,保障乘客的人身與財產(chǎn)安全。近年來,基于深度學(xué)習(xí)網(wǎng)絡(luò)模型的端到端方法實(shí)現(xiàn)了特征提取和分類的無縫連接[3]。本文基于深度學(xué)習(xí)的方法實(shí)現(xiàn)自動扶梯視頻中的人體動作識別,對自動扶梯乘客危險動作進(jìn)行實(shí)時監(jiān)測預(yù)警。
2? 單流三維卷積神經(jīng)網(wǎng)絡(luò)(Single stream 3D convolution neural network)
2.1? ?三維卷積
單流三維卷積神經(jīng)網(wǎng)絡(luò)使用時間卷積來識別視頻中人類行為,利用在大規(guī)模監(jiān)控視頻數(shù)據(jù)集上訓(xùn)練的深度三維卷積網(wǎng)絡(luò)進(jìn)行時空特征學(xué)習(xí)。三維卷積網(wǎng)絡(luò)比二維卷積網(wǎng)絡(luò)更適于時空特征學(xué)習(xí),在所有層中均具有3×3×3卷積核的同類架構(gòu)是三維卷積網(wǎng)絡(luò)性能最佳的架構(gòu)之一[4]。與二維卷積網(wǎng)絡(luò)相比,由于三維卷積和三維池化操作,三維卷積網(wǎng)絡(luò)能夠?qū)r間信息進(jìn)行建模。在三維卷積網(wǎng)絡(luò)中,卷積和池化操作是在時間上進(jìn)行的,而在二維卷積網(wǎng)絡(luò)中,卷積和池化操作僅在空間上進(jìn)行。二維卷積網(wǎng)絡(luò)在每次卷積操作之后立即丟失輸入信號的時間信息,只有三維卷積才能保留輸入信號的時間信息,從而產(chǎn)生輸出量。
2.2? ?R(2+1)D卷積
將三維卷積濾波器分解為單獨(dú)的空間和時間分量會顯著提高準(zhǔn)確性。基于三維卷積,研究設(shè)計了一個新的時空卷積塊“R(2+1)D”[5],它將3D卷積顯式分解為兩個獨(dú)立且連續(xù)的運(yùn)算,即2D空間卷積和1D時間卷積。用一個大小為的卷積濾波器和一個大小為的時間卷積濾波器組成的(2+1)D塊替換了大小為的卷積濾波器。第一個優(yōu)點(diǎn)是這兩個操作之間的附加非線性整流。與在相同數(shù)量的參數(shù)下使用完整3D卷積的網(wǎng)絡(luò)相比,這有效地使非線性數(shù)量增加了一倍,從而使網(wǎng)絡(luò)模型能夠表示更復(fù)雜的函數(shù)。第二個潛在的好處是分解有助于優(yōu)化。
3? 改進(jìn)的SlowFast網(wǎng)絡(luò)(Improved SlowFast network)
3.1? ?網(wǎng)絡(luò)原理
一種著名的視頻識別體系結(jié)構(gòu)是雙流設(shè)計[6],但其提出的觀念并沒有探索時間軸的影響,其兩個流采用相同的主干結(jié)構(gòu)。
運(yùn)動是方向的時空對應(yīng)物,但并非所有的時空方向都具有相同的可能性。慢動作比快動作更有可能運(yùn)動,如果所有時空方向的可能性都不相同,那么就沒有理由像基于時空卷積的視頻識別方法中所說明的那樣,對空間和時間進(jìn)行對稱處理。對于人體動作識別,SlowFast網(wǎng)絡(luò)[7]不額外捕獲光流或近似光流特征,而是用幀的刷新速度來區(qū)分空間和時間關(guān)系,分別處理空間結(jié)構(gòu)和時間事件。視頻場景中的幀通常包含兩個不同的部分:不怎么變化或者緩慢變化的靜態(tài)區(qū)域和正在發(fā)生變化的動態(tài)區(qū)域。在視覺內(nèi)容的范疇空間語義往往發(fā)展緩慢,例如,揮手在揮手動作的跨度上不會改變自己作為“手”的身份,一個人即使可以從走路切換到跑步,也始終處于“人”的范疇。因此,動作分析中語義的識別,如顏色、紋理、光線等可以相對緩慢地刷新。另一方面,正在執(zhí)行的動作可以比主體身份變化快得多,例如拍手、揮手、顫抖、走路或跳躍,于是我們迅速地去刷新動作幀,但是不改變執(zhí)行動作人的身份信息。利用快速刷新幀(高時間分辨率)對潛在的快速變化運(yùn)動進(jìn)行有效建模是一種理想的方法。
3.2? ?網(wǎng)絡(luò)結(jié)構(gòu)
SlowFast網(wǎng)絡(luò)可以描述為在兩個不同幀率下運(yùn)行的單一流架構(gòu),可以進(jìn)行端到端的網(wǎng)絡(luò)訓(xùn)練。其網(wǎng)絡(luò)結(jié)構(gòu)原理圖如圖1所示。
SlowFast網(wǎng)絡(luò)主要包含兩個網(wǎng)絡(luò)分支:一個低幀,低時序分辨率的慢速路徑;一個高幀,高時序分辨率的快速路徑。快速路徑的時序分辨率為慢速路徑的倍數(shù),通道數(shù)為慢速路徑的倍數(shù)(如1/8)。最后,進(jìn)行橫向連接融合兩個路徑。
(1)慢速路徑(Slow pathway)
慢速路徑輸入為低幀率數(shù)據(jù),主要捕獲空間語義信息,以低幀率和緩慢的刷新速度運(yùn)行。慢速路徑可以是任何卷積模型,其輸入源視頻剪輯作為一個時空量。慢速路徑在輸入幀上有一個大的時間步伐,原始輸入視頻幀,以步伐進(jìn)行采集,采集到幀圖像送入慢速通道訓(xùn)練。
(2)快速路徑(Fast pathway)
快速路徑輸入為高幀率數(shù)據(jù),主要捕獲時序動作信息,以高幀率和快速的刷新速度運(yùn)行。盡管快速路徑在時間維度刷新很快,但是在整個網(wǎng)絡(luò)中,其只占用了20%的計算量,通道數(shù)很少,是一個輕量級子網(wǎng)絡(luò)。快速路徑對空間信息的捕獲能力較弱,但能捕獲到對動作識別有用的信息。快速路徑與慢速路徑平行,是另一個卷積模型。快速路徑在時序方向使用步伐比較小的方式進(jìn)行采樣,步伐表示為,這里,表示快速路徑與慢速路徑幀率的比值。這兩條路徑在同一輸入視頻源上進(jìn)行剪輯操作(但步伐不一樣)。快速路徑采樣幀,比慢速路徑密度大。
(3)橫向連接(Lateral connections)
兩條路徑的信息是融合的,在融合之前,其中一條路徑并不會意識到另一條路徑所習(xí)得的信息。每一個“階段”在兩條路徑之間附加一個橫向連接[8],對于ResNets[9],這些橫向連接的部分分別位于pool1、res2、res3與res4層之后。兩種路徑的時間維度是不一樣的,需要對它們進(jìn)行一個轉(zhuǎn)換后才能進(jìn)行匹配,使用單向連接的方式,融合快速路徑的特征到慢速路徑。最后,對于每個路徑的輸出,將兩個混合的特征向量串聯(lián)起來作為全連通分類器層的輸入。
3.3? ?網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)
(1)進(jìn)一步減少輕量級快速路徑的空間容量
快速路徑在空間維度上沒有特殊處理。因此,其空間建模能力應(yīng)低于慢速路徑,需要減少快速路徑對空間的捕獲能力,同時增加其對時間的捕獲能力。結(jié)合降低輸入空間分辨率和去除顏色信息等方式,最大化降低快速路徑的空間容量來實(shí)現(xiàn)輕量化。
(2)對時態(tài)卷積的優(yōu)化應(yīng)用
在慢速路徑中,從conv1層到res3層本質(zhì)上都是使用二維卷積核。通過實(shí)驗(yàn)發(fā)現(xiàn),如果在早期的網(wǎng)絡(luò)層使用帶時序的卷積核會降低準(zhǔn)確率。當(dāng)目標(biāo)移動比較快、時間步長比較大時,如果時間感受野比較小,就沒有辦法把動作連貫起來,除非空間感受野足夠大,否則在一個時間感受野內(nèi)幾乎沒有相關(guān)性。因此,我們只在res4層和res5層中使用非退化的時態(tài)卷積。
4? ?實(shí)驗(yàn)與結(jié)果分析(Experiment and result analysis)
4.1? ?數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
按照UCF101[10]公共數(shù)據(jù)集,將一個人體動作類的剪輯分為25 個組,每個組包含4—7 個剪輯,每一組剪輯具有一些共同的特征,例如背景或乘客。針對身體部位越過安全線、頭部外探、下蹲、跌倒、逆行、手提行李箱等大件物品等危險動作類別,采集動作序列視頻數(shù)據(jù)作為自動扶梯人體動作模型庫標(biāo)準(zhǔn),劃分出訓(xùn)練集和測試集。
利用樓梯場景下人體動作數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,進(jìn)一步提高訓(xùn)練模型針對我們預(yù)設(shè)幾種人體動作的識別準(zhǔn)確率。其中樓梯場景下的人體動作類別與自動扶梯場景下需進(jìn)行識別的人體動作類別一致。部分自動扶梯場景下人體動作數(shù)據(jù)集視頻幀如圖2所示。
此次實(shí)驗(yàn)在Ubuntu 16.04操作系統(tǒng)下進(jìn)行,處理器型號為Intel i7-9750H,顯卡型號為NVIDIA GTX1660ti,深度學(xué)習(xí)平臺使用PyTorch框架搭建。網(wǎng)絡(luò)訓(xùn)練的初始學(xué)習(xí)率設(shè)置為0.01,每進(jìn)行10 次迭代學(xué)習(xí)率除以10;網(wǎng)絡(luò)訓(xùn)練的周期設(shè)置為300,一次訓(xùn)練所選取的樣本數(shù)設(shè)置為16。以原始圖像數(shù)據(jù)的方式加載數(shù)據(jù),把視頻先切割成每幀圖片,然后加載訓(xùn)練。使用訓(xùn)練集進(jìn)行訓(xùn)練,并使用測試集進(jìn)行測試。
4.2? ?實(shí)驗(yàn)過程
針對R(2+1)D網(wǎng)絡(luò)訓(xùn)練,將網(wǎng)絡(luò)設(shè)置為18 層,輸入的視頻幀被縮放為128×170的大小,然后通過隨機(jī)裁剪大小為112×112的窗口方式來生成每個剪輯。在訓(xùn)練時,從視頻中隨機(jī)采樣 個連續(xù)幀,并對視頻進(jìn)行時間抖動。批量歸一化應(yīng)用于所有卷積層。
針對SlowFast網(wǎng)絡(luò)訓(xùn)練,慢速路徑的主干網(wǎng)絡(luò)選擇3D ResNet-50結(jié)構(gòu),從輸入的64 幀圖像中,使用時間步長稀疏采樣的方式,采集幀圖像作為慢速路徑的輸入。快速路徑的時間步長以及采樣 幀圖像,在整個網(wǎng)絡(luò)的時序維度上都沒有進(jìn)行下采樣,盡可能保持時間逼真度。橫向連接從快速路徑到慢速路徑使用一個卷積層進(jìn)行融合。慢速路徑的特征形狀表示為,快速路徑的特征形狀表示為。慢速路徑的特征形狀不進(jìn)行改變,主要調(diào)整快速路徑輸出特征的形狀,讓其能和慢速路徑進(jìn)行匹配。
4.3? ?實(shí)驗(yàn)結(jié)果與對比分析
針對網(wǎng)絡(luò)訓(xùn)練所得到的網(wǎng)絡(luò)模型,R(2+1)D網(wǎng)絡(luò)模型與改進(jìn)的SlowFast網(wǎng)絡(luò)模型的最終訓(xùn)練效果比較如表1所示。
使用R(2+1)D模型的RGB網(wǎng)絡(luò)流在自動扶梯數(shù)據(jù)集上達(dá)到了80.65%的識別準(zhǔn)確率。以視頻切割幀的方式進(jìn)行模型訓(xùn)練的部分識別測試結(jié)果截圖,如圖3所示。
R(2+1)D模型以視頻切割幀的方式進(jìn)行模型訓(xùn)練的部分錯誤識別測試結(jié)果截圖,如圖4所示。
使用改進(jìn)的SlowFast網(wǎng)絡(luò)模型在自動扶梯數(shù)據(jù)集上達(dá)到了93.4%的識別準(zhǔn)確率。以視頻切割幀的方式進(jìn)行模型訓(xùn)練的部分識別測試結(jié)果截圖,如圖5所示。
針對不同的人做同一類動作,即使同一個人做同一類動作,由于個體差異、動作快慢、環(huán)境及背景等不同,以及不同類的動作可能表現(xiàn)出很相似的特征[3],R(2+1)D模型在視頻中的表現(xiàn)可能會產(chǎn)生很大誤差。通過實(shí)驗(yàn)對比,改進(jìn)的SlowFast網(wǎng)絡(luò)對于動作的類內(nèi)差異性和類間相似性表現(xiàn)出了相對于R(2+1)D模型更加優(yōu)異的性能,大大提高了識別準(zhǔn)確率,并且達(dá)到了更好的實(shí)時性要求。
5? ?結(jié)論(Conclusion)
本文根據(jù)自動扶梯場景下人體危險動作類別識別監(jiān)測的需要,考慮到時間軸這一特殊的維度,研究設(shè)計了一種架構(gòu),該架構(gòu)對比了沿時間軸的速度,它可為視頻動作分類和檢測提供更優(yōu)異的準(zhǔn)確性與更好的識別速度。通過與R(2+1)D
網(wǎng)絡(luò)模型的對比分析,改進(jìn)的SlowFast網(wǎng)絡(luò)能有效地解決自動扶梯場景下的人體動作識別問題,并且能夠滿足實(shí)時性要求,一定程度上促進(jìn)了對視頻識別的進(jìn)一步研究。
參考文獻(xiàn)(References)
[1] 楊冠寶.基于全景視覺的自動扶梯節(jié)能及智能監(jiān)控系統(tǒng)[D].杭州:浙江工業(yè)大學(xué),2011.
[2] 陳旻.淺析自動扶梯及自動人行道中的“剪切”危險[J].機(jī)電技術(shù),2009,32(04):104-107.
[3] 羅會蘭,童康,孔繁勝.基于深度學(xué)習(xí)的視頻中人體動作識別進(jìn)展綜述[J].電子學(xué)報,2019,47(05):1162-1173.
[4] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3d convolutional networks[C]// MORTENSEN E, FIDLER S. 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015:4489-4497.
[5] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]// MORTENSEN E. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:6450-6459.
[6] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Advances in Neural Information Processing Systems, 2014, 1(4):568-576.
[7] FEICHTENHOFER C, FAN H, MALIK J, et al. SlowFast networks for video recognition[C]// MORTENSEN E. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South):IEEE, 2019:6201-6210.
[8] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// MORTENSEN E. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017:936-944.
[9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// MORTENSEN E, SAENKO K. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA: IEEE, 2016:770-778.
[10] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[J]. Computer Science, 2012, 3(12):2-9.
作者簡介:
汪? 威(1997-),男,碩士生.研究領(lǐng)域:圖像處理,計算機(jī)視覺.
胡旭曉(1965-),男,博士,教授.研究領(lǐng)域:圖像處理,機(jī)器視覺.
吳躍成(1966-),男,博士,副教授.研究領(lǐng)域:人機(jī)交互.
丁楠楠(1996-),男,碩士生.研究領(lǐng)域:圖像處理.
王? ?佳(1998-),女,碩士生.研究領(lǐng)域:故障診斷算法研究.