齊妙 徐慧 李森 張宇 孫慧



摘要: 針對視頻行為識別任務,提出一種基于雙流網絡的行為識別方法. 首先,該網絡采用稀疏采樣的策略,避免相鄰幀的冗余信息對識別效果產生影響; 其次,利用卷積神經網絡預測光流圖,提高光流圖的獲取效率,并降低計算量; 最后,使用殘差網絡提取完成的視頻信息,同時簡化神經網絡的訓練過程. 為驗證雙流行為識別網絡的有效性,在兩個經典數據集上進行對比實驗,實驗結果表明,該雙流行為識別網絡識別效果較好,可應用于智能視頻監控、 人機交互、 公共安全等領域.
關鍵詞: 行為識別; 卷積神經網絡; 雙流網絡; 稀疏采樣
中圖分類號: TP391.41? 文獻標志碼: A? 文章編號: 1671-5489(2023)02-0347-06
An Action Recognition Method Based on Two-Stream Network
QI Miao1,2,XU Hui1,LI Sen1,ZHANG Yu1,SUN Hui2
(1. College of Information Science and Technology,Northeast Normal University,Changchun 130117,China;
2. Institute of Technology,Changchun Humanities and Sciences College,Changchun 130117,China)
Abstract: Aiming at the task of video action recognition,we proposed an action recognition method based on two-stream network. Firstly,
a sparse sampling strategy was adopted to avoid the redundant information of adjacent frames from affecting the recognition effect. Secondly,the convolutional neur
al network was used to predict the optical flow map, improve the acquisition efficiency of? the optical flow map and reduce the amount of calculation. Finally,the
residual network was used to extract the completed video information and simplify the training process of neural networks simultaneously. In order
to verify the effectiveness of the? two-stream action recognition network,we carried out comparative experiments on two classical data sets. The
experimental results show that the proposed two-stream action recognition network has good recognition effect and? can be applied to intelligent video surveillance,
human-computer interaction,public security and other fields.
Keywords: action recognition; convolutional neural network; two-stream network; sparse sampling
收稿日期: 2022-01-18.
第一作者簡介: 齊 妙(1981—),女,滿族,博士,副教授,從事機器視覺的研究,E-mail: qim
801@nenu.edu.cn. 通信作者簡介: 孫 慧(1979—),女,漢族,碩士,教授,從事模式識別的研究,E-mail: 289368876@qq.com.
基金項目: 國家自然科學基金青年科學基金(批準號: 61907007)和吉林省科技廳工業領域項目(批準號: 20200401086GX; 20200401081GX).
卷積神經網絡是深度學習的模型之一,在人工智能領域廣泛應用,其可完全自動地逐層提取圖像中的高階特征,計算預測值與真實值之間的差距,通過反向傳播修改參數,訓練網絡向更能獲取高階特征的方向優化,該過程完全無需人為參與. 因此,利用卷積神經網絡幫助行為識別可提高行為識別的效率,無需手動提取特征,能處理更多的參數. 隨著卷積神經網絡在數據集ImageNet上取得的成果,卷積神經網絡已逐漸被應用到行為識別領域,一些基于經典的行為識別算法包括C3D網絡[1]、雙流網絡[2]和長短期記憶網絡[3]的識別算法等. 行為識別任務相比于圖像識別任務,需要關聯前后幀間的信息,因此行為的時序維度信息對行為識別是十分重要. Simonyan等[2]提出了雙流卷積神經網絡用于行為識別,不僅提高了行為識別任務的精度,而且定義了一個新的、 高效的行為識別框架,可采用雙流結構分別處理行為的空間信息和時序信息[3]. Feichtenhofer等[4]提出了融合的雙流卷積神經網絡,嘗試多種融合方法并在不同的層對空間信息與時序信息進行融合實驗,使空間信息與時序信息在最終層之前融合. Carreira等[5]提出了I3D卷積神經網絡,將原始的雙流卷積神經網絡結構中的2D卷積擴展為3D卷積.
但現有的多數雙流網絡的空間信息均來自視頻的單幀圖像,時域信息來自短時間內的幀間光流. 因此,缺乏對長期信息的學習,并且在提取光流圖時,存在計算量大、 耗時長的缺點. 為克服上述問題,本文提出一種新的雙流行為識別網絡. 在獲取空間信息上,采用稀疏采樣的方法,使獲得的視頻信息更全面,并保留了視頻信息的完整性; 在獲取時間信息上,使用FlowNet[6]提取光流,在一定程度上可減少空間的復雜度,通過卷積神經網絡預測的方式減少光流圖提取的時間,同時可減少背景因素的干擾. 最后,利用支持向量機(support vector machine,SVM)融合時間和空間信息進行行為識別.
1 雙流網絡結構設計
為提高雙流網絡的識別精度,本文對傳統雙流網絡進行改進,設計一種新的雙流行為識別網絡. 雙流網絡的結構如圖1所示. 由圖1可見,在視頻圖像序列輸入的過程中,首先采用稀疏采樣的方法,將視頻分成3個部分,并從每個片段中隨機選擇一幀RGB圖像幀; 然后每個片段將使用FlowNet方法提取到的視頻光流圖像作為時域網絡的輸入,再將RGB幀和光流圖輸入到ResNet101網絡中進行特征提取; 最后,對空間網絡和時域網絡兩個分支利用SVM方法進行融合. 這樣設計網絡的優點如下: 1) 使雙流網絡獲得更完整的視頻信息; 2) 提高光流圖的獲取效率; 3) 保證視頻信息的完整性,提高網絡的識別準確度.
1.1 空間網絡
單個RGB圖像通常在特定時間點呈靜態,并且缺少有關前一幀和后一幀的上下文信息,因此本文采用稀疏采樣的方式,提取整段視頻的特征信息,以獲得更全面的信息,提高網絡識別率. 首先,將視頻分成k個部分并在視頻分割后隨機采樣一些幀將其作為輸入,應用于空間流分支的卷積神經網絡; 然后融合來自每個采樣段的信息,以獲得完整的視頻預測結果.
1.2 時域網絡
光流是用相鄰幀之間的相關性和圖像序列中像素的時間變化,通過查找前一幀和當前幀之間的對應關系計算相鄰幀之間關系的一種物體運動信息方法. 隨著深度神經網絡技術在計算機視覺領域的成功應用,越來越多的研究人員開始嘗試用深度學習技術預測光流圖. FlowNet[6]將光流圖預測問題視為可監督學習問題,其計算速度與其他提取光流方法的速度相比有較大提高,因此本文使用FlowNet方法提取光流圖. 該網絡輸入兩個RGB圖像幀,先輸入到收縮網絡,再經過放大網絡,輸出的則是預測出的光流圖. FlowNet結構如圖2所示.
收縮部分由多個卷積層構成,視頻幀通過收縮部分提取特征圖,但會縮小圖像,因此需要通過擴展層將其擴展到原始圖像大小,以進行光流預測. 所以提取到的特征圖最后再通過放大網絡,將特征圖擴展到原始圖像大小,整個網絡結構類似于全卷積網絡由卷積層和反卷積層構成. 放大部分主要由逆卷積層組成,而逆卷積層又由逆池化層和一個卷積層組成. 對特征圖執行逆卷積操作,并把它與之前收縮部分對應的特征圖以及一個上采樣的光流預測連接起來. 在解碼過程中,不僅輸入縮放網絡的輸出,同時還輸入預測的光流圖和對應的特征圖. 這樣可以獲得深層的抽象信息,使獲得的特征信息更豐富. 通過逆卷積操作,最終得到預測的光流圖,如圖3所示.
1.3 雙流網絡的融合
為有效地學習到多幀圖像之間的靜態特征以及光流圖像的運動特征,本文在雙流網絡結構中對空間分支和時間分支進行融合,由如圖4所示的雙流網絡結構可見,兩支網絡均使用ResNet101網絡,輸入的數據分別通過多個卷積層進行特征提取,兩支網絡都有Softmax層,最后將各自Softmax層的分數輸出,使用SVM分類器進行融合得到最終的分類結果. SVM是一種常見的二分類模型,SVM分類模型的輸入是兩支網絡Softmax層的分類值,輸出是最終的動作識別結果. 使用SVM對空間網絡和時域網絡的分類結果融合,能進一步提升人體行為識別的精度.
2 實驗結果與分析
使用兩個標準的數據集UCF101(university of central Florida)[7]和HMDB51(human motion database)[8]驗證本文方法的有效性. 數據集UCF101包括101種動作類型,每種動作類型包含25個組,每組有4~7個視頻. 數據集HMDB51包含51種動作類型,共6 849個視頻,每個動作至少包含51個分辨率為320×240的視頻.
2.1 實驗設置
實驗配置為: CPU的型號是Intel Core i7-9700K,GPU的型號是NVIDIA GeForce GTX1080. 深度學習的操作系統為Windows10,Pytorch為深度學習的訓練框架,使用CUDA8.0和Cudnn7.0.5的版本,編譯器是Pycharm.
在實驗過程中,采用ResNet101網絡模型構建本文的雙流網絡. 表1列出了ResNet101網絡結構,其中不同的行表示不同的卷積層,括號表示殘差單元,括號中的數字,例如(1×1,64),分別表示卷積核的寬度、 高度和特征圖的數量.
2.2 實驗結果分析
1) 為驗證雙流網絡中各分支的有效性,本文進行了消融實驗,識別結果列于表2.
由表2可見:
① 本文提出的雙流網絡對數據集UCF101和HMDB51的識別準確率分別為90.6%和64.1%,表明本文提出的兩個空間分支結構都有意義,因為其均可有效捕獲外觀特性和相鄰幀之間的關系;② 相比于只采用單一分支的模型,時空網絡的結合可極大提高動作識別的準確性,如空間網絡和時域網絡在數據集UCF101上分別獲得了86.7%和87.1%的識別準確率,但當使用雙流網絡后,在數據集UCF101上獲得90.6%的識別準確率,相比于僅采用單一分支進行識別準確率分別提高了3.9%和3.5%;③ 時域網絡比空間網絡的識別效果更好,表明運動信息對動作識別更重要;④ 使用SVM融合方法高于使用平均融合方法的準確率.
2) 本文將提出的雙流網絡與一些先進的視頻動作識別方法進行對比,結果表明,本文提出的雙流網絡可獲得更好的性能. 這是因為采用稀疏采樣的方法獲取空間信息使得網絡獲取視頻的信息更豐富,同時使用卷積神經網絡預測光流圖的方法更準確快捷,從而在一定程度上提高了雙流網絡的識別效果. 因此,本文雙流網絡可確保同時提取到視頻中的外觀特征和運動特征,而且可捕獲到連續幀的關系信息. 表3列出了本文方法與其他行為識別網絡方法精度的對比實驗結果. 由表3可見,本文方法在數據集UCF101上的識別效果均優于其他方法,而在數據集HMDB51上的效果低于Two-Stream+LSTM[3]方法和Dynamic ImageNets+IDT[9]方法,這是因為FlowNet在處理位移較小的動作時,預測效果會降低,導致時域網絡的識別效果降低,而HMDB51數據存在一些位移較小的動作,因此導致最終的雙流網絡識別效果低于上述兩種方法. 但IDT的性能仍然非常有競爭力,許多深度學習方法也與IDT相結合以實現更高的準確性,而表現較好的行為識別方法都是基于深度卷積神經網絡的算法. 本文算法與原始雙流網絡以及其他行為識別方法相比,準確性有極大提高,同時本文的網絡結構更符合端到端的設計. 在真實測試中,需要手工設計特征和處理數據的步驟相對較少. 與基于雙流模型的其他算法相比,借助稀疏采樣的方法可有效獲取視頻的長期信息,當前的網絡融合方法仍然是初級的,但與其他雙流算法相比效果更好.
3) 本文還與輕量化模型[15-16]和自監督模型進行了性能比較[17-18]. DMC-Net[15]是一個輕量級的生成器網絡,其減少了運動向量中的噪聲,并捕獲了精細的運動細節,生成的運動線索更具鑒別性. DistInit[16]提出了一種圖像到視頻的蒸餾框架,利用訓練好的圖片模型遷移知識到視頻模型中,將其作為初始化提升識別效果,其教師模塊可利用豐富注釋的圖像數據集中編碼的關于對象、 場景和潛在的其他語義(如屬性、 姿勢)的大量知識. 由表3可見,輕量化模型在識別精度上低于本文和非輕量化模型,但在數據集UCF101上展現了比本文更高的精度. 文獻[17]提出了一種新的魯棒的人體動作識別特征描述符,該描述符涉及多個特征并具有多樣性的特點,但該方法在HMDB51上的精度低于本文方法約10%; 文獻[18]提出了從視頻和音頻中學習視聽表示的一種自監督學習方法,該研究表明,優化跨模態辨別對于從視頻和音頻中學習良好的表示很重要,在對動作識別任務進行微調時獲得了極具競爭力的性能.
綜上所述,針對視頻行為識別任務,本文提出了一種基于雙流網絡的行為識別方法. 首先對視頻進行稀疏采樣,以獲得更全面的視頻特征信息; 然后使用FlowNet方法更準確、 快速地獲取光流圖,同時在網絡結構中采用了ResNet101網絡,加快了收斂訓練的過程. 實驗結果驗證了本文方法的有效性和優越性.
參考文獻
[1] TRAN D,BOURDEV L,FERGUS R,et al. Learning Spa
tiotemporal Features with 3D Cnvolutional Networks [C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE,2015: 4489-4497.
[2] SIMONYAN K,ZISSERMAN A. Two-Stream Convolutional Network
s for Action Recognition in Videos [EB/OL]. (2014-11-12)[2021-11-01]. https://arxiv.org/abs/1406.2199.
[3] GAMMULLE H,DENMAN S,SRIDHARAN S,et al. Two Stream LST
M: A Deep Fusion Framework for Human Action Recognition [C]//Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE,2017: 177-186.
[4] FEICHTENHOFER C,PINZ A,ZISSERMAN A. Convolutional Two
-Stream Network Fusion for Video Action Recognition [C]//Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2016: 1933-1947.
[5] CARREIRA J,ZISSERMAN A,QUO V. Action Recognition? A New Model and the Kinetics Dataset [C]//Proceedings of IEEE Conference on Co
mputer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2017: 6299-6308.
[6] ILG E,MAYER N,SAIKIA T,et al. Flownet 2.0: Evolution of Optical Flow Es
timation with Deep Networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2017: 2462-2470.
[7] SOOMRO K,ZAMIR A R,SHAH M. UCF101: A Dataset of 10
1 Human Action Classes from Videos in the Wild [EB/OL]. (2012-12-03)[2021-11-05]. https://arxiv.org/abs/1212.0402.
[8] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Vide
o Database for Human Motion Recognition [C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE,2011: 2556-2563.
[9] BILEN H,FERNANDO B,GAVVES E,et al. Dynamic Image
Networks for Action Recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2016: 3034-3042.
[10] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al. Long-Term Recurrent Convolutional Networks for Visual Recognition and Description [C
]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2015: 2625-2634.
[11] CAI Z W,WANG L M,PENG X J,et al. Multi-view Super
Vector for Action Recognition [C]//ProceedinSgs of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2014: 596-603.
[12] JI S W,XU W,YANG M,et al. 3D Convolutional Neural Netwo
rks for Human Action Recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012(35): 221-231.
[13] PENG X J,WANG L M,WANG X X,et al. Bag of Visual Words and
Fusion Methods for Action Recognition: Comprehensive Study and Good Practice [J]. Computer Vision & Image Understanding,2016,150(9): 109-125.
[14] QIU Z F,YAO T,MEI T. Learning Spatio-Temporal Representation with Pseudo-3d
Residual Networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2017: 5533-5541.
[15] SHOU Z,LIN X D,KALANTIDIS Y,et al. DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition [
C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2019: 1268-1277.
[16] GIRDHAR R,TRAN D,TORRESANI L,et al. DistInit: Learni
ng Video Representations without a Single Labeled Video [C]//IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE,2019: 852-861.
[17] PATEL C I,LABANA D,PANDYA S,et al. Histogram of
Oriented Gradient-Based Fusion of Features for Human Action Recognition in Action Video Sequences [J]. Sensors,2020,20(24): 7299-1-7299-32.
[18] MORGADO P,VASCONCELOS N,MISRA I. Audio-Visual Instance
Discrimination with Cross-Modal Agreement [C]//Proceedings of the IEEE Confe
rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE,2021: 12475-12486.
(責任編輯: 韓 嘯)