李紅 臧晶



摘 ?要:人體行為識別是計算機視覺領域研究的一個熱點,為了提高視頻中的人體行為識別的準確率,提出了一種基于3D卷積神經網絡的行為識別方法,首先構建3D CNN模型,通過三維卷積核,來提取視頻中人體行為的時-空域信息,最終并在UCF-101數據集上進行訓練與測試,證明了該方法具有較好的識別效果。
關鍵詞:人體行為識別 ?3D卷積神經網絡 ?UCF-101數據集
中圖分類號:TP391.41 ? 文獻標識碼:A 文章編號:1672-3791(2019)10(b)-0023-02
作為智能視頻分析領域中必不可少的一部分,人體行為識別技術成為計算機視覺領域中研究的熱點,在人體交互、安全監控、安全防護和公共場所等多個領域具有廣泛的應用前景。
1 ?卷積神經網絡
卷積神經網絡由低隱藏層和高層兩部分構成,低隱藏層即特征提取層,是由若各個卷積層和下采樣層交替構成,用來提取局部特征。CNN的高層是由全連接層、輸出層以及邏輯回歸分類器構成。
1.1 卷積層
卷積層每個輸出矩陣的大小是(N-m+1),詳細運算過程如式(1)所示。
其中,Xil,j中的l表示第l個卷積層,i表示第i個卷積輸出矩陣的某個值,j表示對應的輸出矩陣的編號,f表示非線性函數。
1.2 池化層
池化層采用局部求均值的方式進行降維[1]。詳細運算過程如式(2)所示。
其中,Xil,j為進行池化過程后局部的一個輸出項,它是由上一層大小為n×n的局部小矩陣進行均值運算得到的。
2 ?基于3D卷積神經網絡的行為識別模型
3D卷積神經網絡的是由8個卷積層、5個池化層、兩個全連接層和一個softmax分類層組成的,該文采用大小為 3×3×3的卷積核,步長均為1×1×1。所有池化層都采用最大池化,除第一個池化層外,所有池化層的池化核大小均設為2×2×2,步長也為2×2×2。第一個池化層的池化核大小和步長均設為2×2×1。這是為了避免時間維度上過早地縮短為1。經過兩個全連接層之后,每個連接層的輸出節點為4096個,再經過了softmax分類器后得到最終的分類結果(見圖1)。
3 ?實驗結果與分析
3.1 數據集
該文在UCF-101人體行為數據集上進行實驗,UCF-101包含身體動作、人與人之間的交互動作、體育運動等101個動作類別,總共計13320個視頻片段,該文選取了數據集中的27類動作類別進行實驗。
3.2 實驗過程
3D卷積神經網絡接收的輸入為視頻,輸出為視頻的類別,每幀視頻尺寸需要重新調整為128×171,對于UCF101數據集來說,這個分辨率大約是原始視頻幀的0.5倍,在訓練期間進一步調整為112×112,每個視頻隨機抽取一個連續的16幀堆疊的片段來作為輸入。3D卷積神經網絡使用一個形狀為16×112×112×3的四維張量來表示一個視頻剪輯,意思就是說每個輸入的視頻剪輯是16個大小為 112×112且有3個RGB通道的圖像幀序列。
3.3 實驗結果
通過圖2、圖3、表1的實驗結果可以看出,3D CNN的總體平均識別率達到了54.8%。識別準確率比2D CNN總體高了8.6%。由于快走和慢跑的相似度比較高,所以識別率還有待提高。
4 ?結語
該文構建了3D卷積神經網絡模型,使用3D卷積神經網絡來對原始視頻數據進行預處理并作為網絡的輸入。并在UCF-101數據集上進行訓練與測試,最終完成視頻中的人體行為的識別。與二維卷積神經網絡相比,3D CNN可以提取時間和空間特征,使得視頻中的人體行為識別更加準確。
參考文獻
[1] 鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖像圖形學報,2014,19(2):175-184.
[2] 張穎,袁和金.基于3D卷積神經網絡的人體行為識別方法[J].軟件導刊,2017,167(1):9-11.
[3] Du T,Bourdev L,Fergus R,et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision(ICCV)[C].2015.