王璇 王雄 張向陽 楊一 賈浩強
(1.中國煤礦機械裝備有限責任公司 北京市 100011)
(2.中國礦業大學(北京)機電與信息工程學院 北京市 100083)
人體行為識別是通過分析理解視頻數據或圖像數據中人員行為在空間上和時間上表達的特征,從而推斷行為類別的一種技術,廣泛用于視頻監控和人機交互等領域。與圖像識別不同,人體行為識別提取的特征不僅描述了視頻圖像中人員的外觀,還包括了人體姿勢的變化,將二維空間特征擴展到三維甚至更高維的時空特征。
目前行為識別主要應用于特征提取的神經網絡框架為卷積神經網絡(CNN)及其優化變種(如3D卷積神經網絡)。這些方法都對輸入視頻質量有較高要求,且視頻背景不能過于復雜。然而,考慮到實際各個應用環境和人體行為的復雜性,當前的主流神經網絡模型在提取視頻行為的特征并加以描述時存在信息利用不全面的問題,從而導致識別的準確度達不到相較于圖像其他應用場景的高度。近年來,一種用于在非歐氏空間的圖結構中提取特征的神經網絡—圖卷積神經網絡(GCN),開辟了新的特征提取方法。時空圖卷積網絡(ST-GCN),首次將圖神經網絡應用于基于圖的動態骨架建模,并使用GCN直接在拓撲圖上進行卷積,使特征的提取更加全面準確。因此,本文提出了基于OpenPose提取人體骨架數據拓撲圖以及構建多流圖卷積神經網絡(3S-GCN)的識別人員行為的方法。
基于OpenPose+3S-AGCN的行為識別模型的整體框架原理為:首先,對于輸入視頻,通過OpenPose的人體關鍵點提取算法獲得人體骨架關節點,構造人體骨架拓撲圖,從而得到包含人體行為信息的特征圖,達到降低噪聲干擾的目的。……