基于深度學習的人體行為識別技術研究

2019-12-10 08:06:15李紅臧晶

科技資訊 2019年29期

關鍵詞：實驗

李紅臧晶

摘 ?要：人體行為識別是計算機視覺領域研究的一個熱點，為了提高視頻中的人體行為識別的準確率，提出了一種基于3D卷積神經網絡的行為識別方法，首先構建3D CNN模型，通過三維卷積核，來提取視頻中人體行為的時-空域信息，最終并在UCF-101數據集上進行訓練與測試，證明了該方法具有較好的識別效果。

關鍵詞：人體行為識別 ?3D卷積神經網絡 ?UCF-101數據集

中圖分類號：TP391.41 ? 文獻標識碼：A 文章編號：1672-3791（2019）10（b）-0023-02

作為智能視頻分析領域中必不可少的一部分，人體行為識別技術成為計算機視覺領域中研究的熱點，在人體交互、安全監控、安全防護和公共場所等多個領域具有廣泛的應用前景。

1 ?卷積神經網絡

卷積神經網絡由低隱藏層和高層兩部分構成，低隱藏層即特征提取層，是由若各個卷積層和下采樣層交替構成，用來提取局部特征。CNN的高層是由全連接層、輸出層以及邏輯回歸分類器構成。

1.1 卷積層

卷積層每個輸出矩陣的大小是（N-m+1），詳細運算過程如式（1）所示。

其中，Xil，j中的l表示第l個卷積層，i表示第i個卷積輸出矩陣的某個值，j表示對應的輸出矩陣的編號，f表示非線性函數。

1.2 池化層

池化層采用局部求均值的方式進行降維[1]。詳細運算過程如式（2）所示。

其中，Xil，j為進行池化過程后局部的一個輸出項，它是由上一層大小為n×n的局部小矩陣進行均值運算得到的。

2 ?基于3D卷積神經網絡的行為識別模型

3D卷積神經網絡的是由8個卷積層、5個池化層、兩個全連接層和一個softmax分類層組成的，該文采用大小為 3×3×3的卷積核，步長均為1×1×1。所有池化層都采用最大池化，除第一個池化層外，所有池化層的池化核大小均設為2×2×2，步長也為2×2×2。第一個池化層的池化核大小和步長均設為2×2×1。這是為了避免時間維度上過早地縮短為1。經過兩個全連接層之后，每個連接層的輸出節點為4096個，再經過了softmax分類器后得到最終的分類結果（見圖1）。

3 ?實驗結果與分析

3.1 數據集

該文在UCF-101人體行為數據集上進行實驗，UCF-101包含身體動作、人與人之間的交互動作、體育運動等101個動作類別，總共計13320個視頻片段，該文選取了數據集中的27類動作類別進行實驗。

3.2 實驗過程

3D卷積神經網絡接收的輸入為視頻，輸出為視頻的類別，每幀視頻尺寸需要重新調整為128×171，對于UCF101數據集來說，這個分辨率大約是原始視頻幀的0.5倍，在訓練期間進一步調整為112×112，每個視頻隨機抽取一個連續的16幀堆疊的片段來作為輸入。3D卷積神經網絡使用一個形狀為16×112×112×3的四維張量來表示一個視頻剪輯，意思就是說每個輸入的視頻剪輯是16個大小為 112×112且有3個RGB通道的圖像幀序列。

3.3 實驗結果

通過圖2、圖3、表1的實驗結果可以看出，3D CNN的總體平均識別率達到了54.8%。識別準確率比2D CNN總體高了8.6%。由于快走和慢跑的相似度比較高，所以識別率還有待提高。

4 ?結語

該文構建了3D卷積神經網絡模型，使用3D卷積神經網絡來對原始視頻數據進行預處理并作為網絡的輸入。并在UCF-101數據集上進行訓練與測試，最終完成視頻中的人體行為的識別。與二維卷積神經網絡相比，3D CNN可以提取時間和空間特征，使得視頻中的人體行為識別更加準確。

參考文獻

[1] 鄭胤，陳權崎，章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖像圖形學報，2014，19（2）：175-184.

[2] 張穎，袁和金.基于3D卷積神經網絡的人體行為識別方法[J].軟件導刊，2017，167（1）：9-11.

[3] Du T，Bourdev L，Fergus R，et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision（ICCV）[C].2015.