張穎 袁和金



摘要:
為了提高視頻中人體行為識別的準確率,更好地利用視頻中的原始信息,提取出更具有代表性的特征,提出一種基于3D卷積神經網絡的人體行為識別方法。該方法構建了一個深層三維卷積神經網絡模型,使用三維卷積核進行卷積操作,提取視頻中人體行為的時域和空域特征,通過多層卷積操作對底層特征進行再組合,得到抽象的高維特征。在KTH數據集上的實驗結果表明,該方法有較好的識別效果。
關鍵詞關鍵詞:
人體行為識別;3D卷積神經網絡;深度學習
DOIDOI:10.11907/rjdk.172515
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2017)011000903
0引言
智能視頻分析一直是具有重要學術價值的研究領域,人體行為識別作為該領域必不可少的一部分,成為新的研究熱點,在智能視頻監控、高級人機交互、體育運動分析和基于內容的視頻檢索等方面有著廣闊的應用前景。
目前主流的人體行為識別方法大多使用人工設計的特征對視頻中的人體運動進行表征,如輪廓、剪影、HOG、Harris、SIFT以及這些特征在三維上的擴展等。人工設計特征是一種利用人類智慧和先驗知識,將這些知識應用到目標和行為識別技術中的很好方式[1]。但這種方式需要人工發掘能夠表現運動的特征,而人工選擇的特征有時較難表現出動作的本質特征,對識別結果影響較大。
深度學習作為機器學習的重要發展,能夠自動學習合適的表示特征,因而在眾多領域得到了廣泛應用。其典型應用之一的卷積神經網絡(Convolutional Neural Networks,CNN),它繼承了深度神經網絡強大的特征提取能力,模擬人腦認知過程的多層次模型結構,建立特征層次結構以獲得更有效的特征,通過局部感知、權值共享等減少訓練參數,在圖像處理方面有著突出表現。卷積神經網絡最早由Fuksushima[2]提出,之后,LeCun等對神經網絡結構等進行了大規模改進,先后出現了如LeNet5[3]、AlexNet[4]、VGGNet[5]、GoogleNet[6]和ResNet[7]等一系列具有良好性能的卷積神經網絡結構,這些網絡在被應用到各類不同的圖像識別任務中時有不錯的表現。
視頻作為相互關聯的圖像在時間維度上的連續序列,同樣可以通過卷積神經網絡進行處理。為了利用CNN的良好特性識別視頻中的人體行為,本文構建了3DCNN模型,通過三維卷積操作對視頻中的人體行為進行時域和空域的特征提取。
1卷積神經網絡
卷積神經網絡主要由特征提取和分類器兩部分組成,其中特征提取部分由多個卷積層和下采樣層交疊組成,分類器一般使用一層或兩層全連接神經網絡。圖像數據無需過多預處理直接作為網絡輸入,經過多個特征提取階段后連接分類器得到輸出。
(1)卷積層。卷積層包括一系列可學習的卷積核,卷積核有一個很小的感受域,局部感受區域以一定步長在輸入圖像上滑動并卷積,計算像素的點積加偏置后,通過一個激活函數產生一個激活映射輸出,通過卷積操作提取圖像的局部特征得到特征圖,遍歷整個原始圖像之后得到的所有輸出組成特征圖。
(2)下采樣層。原始圖像經過卷積操作幾乎不損失信息,如果將卷積操作后得到的特征直接進行分類,將產生很大的計算量。另外,原始圖像中豐富的細節信息容易使網絡出現過擬合現象。通過下采樣可以逐步減小特征圖規模,計算量也隨之減少,分類變得較為容易,也使特征具有平移、縮放不變性。通常的做法是在卷積層之間加入池化層,具體方法包括平均池化、最大池化、隨機池化等。
23D卷積神經網絡
3D卷積神經網的輸入是多個連續幀堆疊在一起的立方體,可以在3個尺度上同時提取特征。通過三維卷積核,可以對連續的多個幀進行特征提取,特征立方體可以連接到上一層中的多個連續幀,從而捕獲一段時間內的運動信息。
(1)3D 卷積層。3D卷積神經網中的卷積核是三維立方體,在網絡當中,卷積層中的每個特征立方體都可與上一層中多個鄰近的連續幀相連,進行卷積操作。三維卷積過程如圖1所示,一個特征立方體某一位置的值是通過卷積上一層的多個連續幀同一位置的局部感受得到的。
第k層隱含層第m個特征立方體位置 (x, y, z) 處神經元的輸出值計算公式如下:
vxyzkm=f(bkm+Pk-1p=0Qk-1q=0Rk-1r=0wpqrkmnu(x+p)(y+q)(z+r)(k-1)n) (1)
式中,v為第k層(x, y, z)處的輸出,u為第k-1層隱含層到第k層的輸入,第k層卷積核大小為Pk ×Qk×Rk,f(·)是激活函數,bkm為該特征立方體共享的偏置,n為k-1層與當前特征立方體連接的特征立方體索引;wpqrkmn為第k層第m個特征圖位置(p, q, r)上的神經元和k-1層第n個特征圖之間的權值。
(2)3D下采樣層。在將視頻序列輸入3D卷積神經網中時,如果想要表達完整的動作信息,就要持續采集較長的連續幀,使數據量急劇增加。所以同時在時間、空間維度上進行三維下采樣,逐步縮小特征圖規模,減少卷積層之間的連接,也能起到降低訓練難度、提高訓練準確率的目的。同2D卷積神經網一樣,常用的下采樣方法也有最大池化、平均池化、隨機池化等。三維最大池化公式如下:
vx,y,z=max0≤i≤S1,0≤j≤S2,0≤k≤S3(ux×s+i,y×t+j,z×r+k)(2)
式中,u為池化層三維輸入向量,v為池化后得到的輸出,s、t、r分別為3個方向的采樣步長。采樣后特征圖尺寸減少,計算量也會大大減少,同時網絡對時間域和空間域上的變化更加魯棒。
33D卷積神經網絡框架構建
本文構建的3D卷積神經網絡框架如圖2所示,1個輸入層、5個3D卷積層和5個3D池化層互相交錯穿插,最終連接兩個全連接層后得到分類結果。endprint
第一層為輸入層。由連續15個相鄰視頻幀的灰度圖像組成,尺寸為120×160。C1~C5為卷積層,每層的卷積核均為3×3×3,卷積核數量由16~256依次遞增,以便從低級的特征組合產生更多類型的高層特征;S1~S5層為下采樣層,使用最大池化方法,降低特征圖分辨率,縮小特征圖規模,減小計算量,提高對輸入圖像畸變的容忍能力。其中S2、S4層使用2×2×2的窗口同時對時間維度和空間維度進行下采樣,其它層使用1×2×2的窗口,只在空間維度上進行下采樣。D1層是全連接層,包含256個神經元。S5層輸出的特征立方體與D1層的256個神經元相連。D2層是第二個全連接層同時也是輸出層,神經元個數為6,與目標類別數目相同。D2層每個神經元與D1層256個神經元全連接,最后由分類器softmax回歸進行分類,得出能夠標記行為類別的輸出。
4實驗結果及分析
4.1數據集
本文在KTH人體行為數據集上進行實驗。KTH數據庫包括在4個不同場景下25個人完成的6類動作(walking、jogging、running、boxing、hand waving和hand clapping),共計600個視頻,每個視頻中相同行為進行了3~4次,總共可提取出2 391段視頻樣本,包含了尺度變化、衣著變化和光照變化。本文選取數據集25人中的16人作為訓練樣本,9人作為測試樣本。
4.2實驗過程
實驗首先將數據集中的人體行為視頻處理為灰度模式,提取一個動作序列中的15幀關鍵幀作為本文構建的3D卷積神經網的原始視頻輸入,每幀大小為120×160。其中,卷積層使用的卷積核大小為3×3×3,D卷積層C1~C5和全連接層D1使用ReLU作為激活函數,輸出層D2使用Softmax作為激活函數,優化函數使用SGD(隨機梯度下降)函數,學習率為0.01,損失函數使用多類交叉熵函數。訓練迭代50次,每訓練10個樣本進行一次梯度計算。
4.3結果及分析
圖3顯示了在本文構建的3D CNN模型下,KTH數據集上訓練次數和人體行為識別準確率的關系曲線。可以看出本文構建的模型在進行30輪左右的訓練后開始收斂,訓練好的網絡擁有較好的人體行為識別效果。
圖3訓練次數與人體行為識別準確率關系曲線
表1給出了KTH數據集上一些常用的人體行為識別方法的識別準確率[810]。本文構建的3D卷積神經網模型識別準確率為91.67%,高于Ji[8]構建的3D CNN模型。Ji構建的3D卷積神經網模型只有2層卷積層,每層卷積核數較少,較少的卷積核只能提取出少量特征,而較少的卷積層層數,則使網絡無法提取出更為抽象的高層特征。本文構建的網絡模型,使用了多層卷積層,卷積核數依次增加,后面的卷積層可以通過對前面卷積層提取出的特征進行組合,得到更加抽象的特征。
另外可以看出,使用HOG、光流、SIFT等人工設計特征的模型相對準確率較高,其原因是這類方法通常需要對視頻進行充分的預處理,然后進行特征提取,而在復雜環境下,視頻中難以提取到足以描述復雜行為的準確特征。而本文方法不依賴于人工設計的各種特征,輸入網絡的是原始視頻數據,利用深度神經網絡強大的自學習能力,從大量訓練樣本中自行習得人體行為特征。隨著層數加深,學習到的特征會更加抽象,更加能夠從本質上描述不同的人體行為,同樣取得了較好的識別效果。
5結語
本文構建了識別視頻中人體行為的3D卷積神經網,通過3D卷積神經網對視頻中的人體行為進行識別。使用3D卷積神經網可以將原始視頻數據進行簡單預處理后直接作為網絡輸入,同傳統的人工提取行為特征的方法相比,避免了傳統行為識別算法中復雜的特征提取和數據重建過程,能夠充分利用原始視頻數據信息,捕捉深層次特征;同2D卷積神經網絡相比,3D卷積核可以同時在時間維度上進行特征提取,讓網絡自行學習時間維度上的特征,使得人體行為識別更加準確。該模型在KTH數據集上有較好表現。
參考文獻參考文獻:
[1]鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014,19(2):175184.
[2]FUKUSHIMA K.Neocognitron:a hierarchical neural network capable of visual pattern recognition[J]. Neural Networks, 1988(2):119130.
[3]Y LECUN, L BOTTOU, Y BENGIO, et al. Gradientbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998,86(11):22782324.
[4]ALEX KRIZHEVSKY, ILYA SUTSKEVER, GEOFFREY E HINTON. ImageNet classification with deep convolutional neural networks[C].NIPS12 Proceedings of the 25th International Conference on Neural Information Processing Systems,2012:10971105.
[5]K SIMONYAN,A ZISSERMAN. Very deep convolutional networks for largescale image recognition[J]. Computer Science, 2014.
[6]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C].Computer Vision and Pattern Recognition(CVPR), 2015:19.
[7]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C].Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on.2016:770778.
[8]SHUIWANG JI,WEI XU,MING YANG,et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,5(1):221231.
[9]WANG H, ULLAH M M, KLSER A, et al. Evaluation of local spatiotemporal features for action recognition[C]. British Machine Vision Conference, BMVC ,2009:710.
[10]謝飛,龔聲蓉,劉純平,等.基于局部和全局特征視覺單詞的人物行為識別[J].計算機科學,2015,42(11):293298.
責任編輯(責任編輯:黃健)endprint