查寬

摘要:深度卷積神經網絡在靜態圖像識別領域應用范疇不斷拓展,但在行為視頻建模運動上不占優勢,運動信息是行為最顯著的特征,本文提出應用時空域深度卷積神經網絡的建議,并進行實驗探究與分析。結果表明,該網絡能實現對行為視頻的精確分類,同時和最近幾年中發展起到的幾種算法相比較,體現出一定優越性。
關鍵詞:時空域;深度卷積神經網絡
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-1578(2019)02-0267-01
以視頻資料為載體對人類行為方式進行學習,是一類難度相對較大的機器視覺任務,最近幾年受到研究人員的重視。靜態圖像識別只需對一張圖像中的靜態特點進行學習,行為識別目的是對幀與幀間的運動特點進行學習,以上學習過程需要分析空間域中相鄰像素間的相關性,以及時間域上相鄰幀之間的關系,這是時空域深度卷積神經網絡提出與應用的直接動力,基于此本文展開較為詳細的探究與分析。
1.時空域深度卷積神經網絡
在三維空間中,當個體運動軌跡被映射到攝像機的二維底片上時,三維運動信息將會被轉換為相鄰幀間的二維圖像,人們通常采用探究二維空間上的變換關系去學習三維空間上呈現出的運動信息。針對相鄰幀x與Y,其間存在的變化關系可以用Y=LX表示,L代表變換矩陣,其均可應用正交矩陣去表示…。因為離散傅里葉變換的基函數屬于復數,故此可以將x與Y投射至傅里葉基函數對上,進而確定D。基于此,可對空域深度卷積神經網絡結構做出如下規劃:先把與每個幀相對應的卷積核(或濾波器)分為二組,經訓練活動后,組間基本上會建設傅里葉基函數對,在該層面上形成的濾波器響應又被叫做特征映射,后續層把與之相匹配的不同幀特征映射兩兩求積與求和,進而同步獲得建模運動信息和靜態圖像內容特征,最后把獲得的特征進行空域池化處理,以減少或規避圖像形變引起的噪音。
2.行為識別模型
2.1行為矩陣c:不同類型行為信息對應的數量,T:測試序列的長度,0:輸出的向量,h.:模型的輸出,概率最高的類型被作為最后的分類結果。
3.實驗方法
為檢測本文算法在行為識別方面的有效性,提出在MSR-Action3D數據庫上進行測試的建議。實驗過程中應用留一法,把部分樣本排除后進行訓練,繼而對排除的樣本進行檢測。Ubuntul6.04為實驗應用的系統環境,Tensor Flow為算法運行的框架。
MSR-Action3D數據庫屬于一個深度行為序列數據庫,含有20個類型的行為,各個行為由10個對象分別運行三次,每一視頻序列的幀率為15幀/s,深度圖的分辨率為640×640。納入本次研究的樣本共有23760幀,400個行為樣本。數據庫中的行為涵蓋了肢體的各種運動組合,當某一動作由單側肢體完成時,實驗者會在實驗過程中交替應用不同側肢發出相應的行為信息。此外,該數據可還提供了與深度圖像相對應的行為點序列樣本,每個行為點的信息由(u,v,d,c)四部分構成,u、v對應屏幕坐標,d表示深度,c對應的是可信指數。每個幀中的行為向量含有20個點,不同動作序列的長度有別。為方便計算,本次研究應用固定采樣數法采集初始樣本,進而促進每個動作序列所包含幀數的統一性。為規避卷尺計算期間樣本尺度過小而造成不能計算的問題,可采用行列元素復制方法對輸入樣本特征圖進行適量拓展。拓展方法的應用,有益于為實驗研究提供更多的行為向量中不同幀之間的相鄰關系。本次研究討論了Multi-layer Perception、Deep LSTM十Co-occurrence、Hierarchi-cal RNN在數據庫中準確率,分別為74.5%、82.2%、81.0%。在對以上測試結果進行分析后,發現不同方法的準確率無明顯差異,這可能是由訓練資源不充分造成的,若能為數據庫分析搭建更高性能的服務器作為訓練平臺,那么將會獲得更為優秀的結果。此外,訓練過程中為保證卷積參數所需內存空間在可接受范疇中,若采用大量刪減識別模型參數的方法,會造成最后的識別效果偏低,故而在后續的研究工作中,應關注怎樣在拓展卷積尺度的基礎上,達到不明顯增加卷積元素數目的效果。
4.結語
為對人體行為的失控特征信息有更明確認識,可以行為樣本序列為基礎,采用建設行為矩陣的方式去表示樣本的時空信息,同時建設了卷積神經網絡模型。該方法的應用不僅能獲得行為樣本的時空信息,也能有效學習不同鄰接行為之間的相互關系。實驗結果提示,該方法在MSR-Action3D數據庫上體現出較好的應用效果,可在圖像序列間相互關系的視覺任務執行期間推廣。