宣 琦,李甫憲
(浙江工業大學 信息工程學院,浙江 杭州 310023)
隨著多媒體工具的普及與發展,產生了大量的視頻數據,對視頻中的人體行為進行識別逐漸成為計算機視覺領域的研究熱點。對人體行為進行有效且精準地識別是許多智能服務的基礎,如智能人機交互[1]、安防視頻監控[2]、視頻檢索[3]等。在行為識別問題中,近年來大多數方法都采用2D卷積神經網絡的變體——3D卷積神經網絡作為基礎,對從視頻中等間隔采樣得到的序列圖像進行特征提取而后進行分類[4-5]。相對于2D卷積神經網絡,3D卷積神經網絡能夠同時提取單張二維圖像中的空間信息以及序列圖像中的時間信息,結果表明結合利用時間維度信息能夠有效地提升人體行為識別的準確率。盡管在許多學者提出的以不同方式利用時間維度信息方面取得了較大的進展[6-8],但仍存在不足的地方,即簡單的3D卷積神經網絡在每一個卷積層進行特征提取的時候,都采用具有固定時間長度的3D卷積核進行特征計算,使其無法利用視頻中的不同時間長度的時間信息,從而影響了最終模型的分類性能。
為此,筆者提出了多時長特征融合模塊,該模塊能夠有效地提取不同時間長度的動態行為信息,將這些特征信息融合后進行下一步的特征提取。同時,基于該模塊設計了一個多時長特征融合的密集連接3D卷積神經網絡,該網絡能夠有效地對人體行為進行識別。此外,提出了一種從2D神經網絡到3D神經網絡的遷移學習策略,使得模型訓練時間大大縮短,同時分類性能取得一定提升。……