◆馬翠紅 王 毅 毛志強
(華北理工大學電氣工程學院 河北 063210)
傳統的人體動作識別主要是基于手工特征[1-2]的方法,然而由于傳統方法進行特征提取的步驟煩瑣且難以提取到深層特征,因此使得行為識別準確率難以提升。近年來,隨著深度學習被廣泛應用于圖片分類、人臉識別和目標檢測等識別領域,其在人體動作特征提取上也表現出了很好的效果。2014年,Karpathy等[3]第一次利用深度卷積網絡以連續的RGB視頻幀為輸入,進行人體行為識別,然而并沒有很好地利用時間域特征;Simonyan等人[4]提出了雙流卷積網絡結構,分別提取視頻序列中的時間域特征和空間域特征,識別效果雖然有了明顯提升,然而由于該網絡結構使用的是傳統Softmax和SVM進行人體識別,使得識別準確率并不高。
在L-Softmax[5]和A-Softmax[6]的基礎上,Wang F等人[7]提出了一種加性余量 Softmax(Additive Margin Softmax,AM-Softmax)方法用于人臉識別,對傳統的Softmax loss函數進行改進,使得人臉特征具有更大的類間距和更小的類內距。受文獻[7]的啟發,本文將AM-Softmax思想用于人體動作識別中,取得很好地識別效果。
在文獻[4]的基礎上,本文對其網絡結構進行改進,將雙流網絡結構進行時間流到空間流的單向連接,再將全連接層的輸出特征進行融合,然后采用AM-Softmax對時空融合特征進行深層驗證,從而最大化類間距離、最小化類內距離;最后采用線性SVM對特征進行分類,從而實現人體動作識別。

圖1 總體架構設計
利用卷積神經網絡(CNN)提取視頻中的時間信息一直是人體動作識別的難點。卷積神經網絡比較適用于提取單一靜態圖片特征,對于視頻的時間信息不是很敏感。文獻[4]提出了時空雙流深度學習策略,用來分別提取視頻的空間信息和時間信息,最后進行雙流信息融合。與傳統的視頻人體動作識別方法相比,該方法有效的融合了視頻中的時間信息。但是仍存在以下問題:雙流結構提取的時空特征僅在最后的Softmax層進行融合,沒有考慮到時空特征在卷積層和全連接層之間的關聯性;該模型采用的是傳統的Softmax-loss函數,對類內距離小、類間距離大的相似動作識別效果并不好。
本文提出的Two-stream Fusion&AM-Softmax網絡模型如圖1所示。該網絡模型主要包含四個部分:時空雙流融合網絡、時空特征融合、AM-Softmax深度驗證、線性SVM實現動作分類識別。
為了充分利用視頻序列中的表觀信息和運動信息,建立起時空特征之間的關聯性,提出了一種時空雙流融合卷積神經網絡結構,其具體網絡結構參數設置如圖2所示。本文構建的雙流基礎網絡模型采用的是牛津大學視覺幾何組(Visual Geometry Group,VGG)開發的VGG-M-2048模型。

圖2 雙流融合卷積網絡結構
空間流卷積神經網絡實際上是一種圖片分類結構,以連續的單個多尺度RGB視頻幀為輸入,提取靜態圖片中的人體表觀特征。時間流卷積神經網絡是以連續的光流圖為輸入,提取光流圖中的人體運動信息。光流圖可以理解為空間運動物體在連續視頻幀之間的像素點運動的“瞬時速度”,能夠更加直觀的表征人體動作。本文采用OpenCV視覺庫中的稠密光流幀提取方法,分別獲取視頻中水平方向和垂直方向的光流幀,然后以20個光流圖構成一個光流組(flow_x和flow_y)作為時間流卷積神經網絡的輸入。
時空融合雙流網絡指的是利用空間流提取到表觀信息與時間流提取的運動信息的關聯性判斷人體動作。例如揮拳和散步,空間流卷積神經網絡識別出靜態圖像中手和腳的位置,然后時間流可以識別出手和腳的周期性動作,從而根據時空雙流提取到的深度特征識別出人體動作。在時空雙流卷積網絡內部,采用一種時間流到空間流的單向連接,將時間流提取到的運動特征輸入到空間流,將之與表觀信息進行關聯性,從而提取到更深層次的動作特征。
最后,將雙流網絡結構提取到的時空特征進行融合,作為后續AM-Softmax算法的輸入。雖然在雙流卷積網絡內部各層進行了單向連接,時間流提取到的運動特征在空間流各層也進行了關聯性學習,但是由于運動特征是重要的人體動作信息,仍會從時間流的全連接層輸出出來再與空間流的輸出特征進行融合,從而視頻序列中的運動特征會作為網絡模型的主導特征進行人體動作識別。
之前提出的L-Softmax、A-Softmax引入了角間距概念,用于改進傳統的softmax loss函數,能夠使得類別特征之間具有更大的類間距和更小的類內距。
Softmax loss函數經常會被用到卷積神經網絡中,雖然簡單實用,但是它在人體動作識別中并不能引導網絡學習區分性較高的特征。傳統的Softmaxloss函數如下式所示:

式中,fj表示最終全連接層的類別輸出向量f的第j個元素,N為訓練樣本的個數。
由于f是全連接層的激活函數W的輸出,所以fyi可以表示為,則最終的損失函數可以表示為:


因此,L-Softmax loss函數可寫為:

接下來,文獻[6]提出了一種A-Softmax loss函數,以二分類作為例。為了將1特征x正確分類,修改后的softmax loss函數要求,即。在此基礎上增加一個參數,此時要正確分類,需要使,即。這樣就增加了判決的約束,使得學習的特征更具區分性,因此可以得到A-Softmax loss函數如下式所示:

為了能夠保證上式可以在CNN中進行前后向反饋,上式可改寫為:


文獻[7]在L-Softmaxloss、A-Softmaxloss函數基礎上提出了一種更加直觀、更易解釋的AdditiveMarginSoftmax(AM-Softmax)算法用于人臉識別,并取得了很不錯的效果。
L-Softmax和A-Softmax都是引入了一個參數因子m將權重W和輸出向量f的余弦距離變為,通過m來調節特征間的距離。AM-Softmax將式(5)、(8)改寫為:

因此,最后的AM-Softmax loss函數寫為:
在215名參加城鄉居民合作醫療保險的高血壓患者中,CHE的發生率為13%,其中,農村戶口患者CHE發生率為74%; 發生CHE的logistic回歸模型,以患者的社會人口經濟學特征、疾病嚴重程度、醫療費用支出等作為解釋變量。結果如表4,其中,患者家庭CHE發生的概率隨著收入水平的增加而逐漸降低,門診自付費用每增加一元,其CHE發生的概率將增加0.12%。另外,喪偶狀況下的患者發生CHE的概率大于對照組。

式中,s是一個縮放因子。
本文受其啟發,將AM-Softmax loss函數應用到了人體動作識別,對動作深度特征進行處理,使其能夠將各類動作特征的類間距更大,類內距更小。如圖3所示。

圖3 原始Softmax和AM-Softmax比較
本文實驗環境選擇在深度學習框架Tensorflow上進行,采用小批量隨機梯度下降法進行網絡訓練。時空雙流融合卷積神經網絡采用VGG-M-2048模型提取時空特征,以16幀為一組的連續RGB視頻幀為空間輸入,尺寸大小為224*224,時間流卷積神經網絡輸入大小為224*224*2L,在原光流圖上隨機位置裁剪連續光流幀。
本次實驗數據集采用KTH數據集,該數據集包括了4種場景下25個不同行人的6種行為視頻:正常行走(Walk)、慢跑(Jog)、跑(Run)、揮拳(Box)、雙手揮手(Wave)、鼓掌(Clap)。如圖(4)所示。實驗過程中,為了增加識別準確率可信度,本文將KTH數據集隨機劃分成3組,取其3組測試平均準確率作為評估模型效果的指標。
實驗過程中,為了得到更加可靠的識別準確率,本文將KTH數據集隨機劃分成3組,并取其3組測試平均準確率作為評估模型效果的指標。
通過時空雙流融合VGG-M-2048模型提取連續RGB視頻幀與連續光流圖的時空特征,在雙流VGG-M-2048模型內部卷積層之間采用時間流到空間流的單向連接方式,進行運動特征與表觀特征的關聯性學習。實驗過程中,在雙流結構全連接層的不同位置進行時空特征融合,其識別準確率如表1所示。

圖4 KTH樣本數據集

表1 不同全連接層輸出特征識別準確率的比較(%)
從表1中可以發現,隨著時空特征融合位置層次的加深,其動作識別準確率也在不斷提高,但在空間流的fc6層與時間流的fc7層進行融合時,識別效果最好。文獻[4]和文獻[8]提出的雙流CNN模型在UCF-101數據集上均證明了這一結論。
為了驗證本文算法提出的AM-Softmax Loss函數對動作識別效果提升的作用,在KTH數據集上對比了不同的Softmax Loss設計方案對網絡的影響,如表2所示。實驗結果表明,傳統的Softmax Loss函數在動作識別上并未取得很好的識別效果,然而本文采用的在L-Softmax、A-Softmax基礎上進行改進的AM-Softmax取得了很好的識別效果,識別準確率可達97.5%。

表2 不同Softmax Loss方案對網絡的影響
最后,將本文方法與其他主流的動作識別算法在KTH數據集上進行比較,如表3所示。

表3 不同算法在KTH上的比較結果(%)
從表3中可以發現,本文提出的基于時空雙流融合網絡與AM-Softmax的動作識別效果明顯優于其他算法,說明在卷積層進行時空特征融合,使表觀特征與運動特征進行關聯性學習,能夠提高動作識別準確率。
本文從人體動作類內類間距離差異的角度出發,提出了一種基于時空雙流融合網絡與AM-Softmax的動作識別方法。通過時空雙流卷積神經網絡分別提取視頻序列中的表觀特征和運動特征,且在卷積層內部采用時空單向連接將時空特征進行關聯性學習;然后將雙流結構的S-fc6層與T-fc7層特征進行融合;最后采用AM-Softmax Loss函數對時空融合特征進行優化,利用線性SVM實現人體動作識別。在KTH數據集上的實驗結果表明:在卷積層采用單向時空連接進行時空特征關聯性學習有利于人體動作表征能力的提升;將空間流的fc6層與時間流的fc7層進行特征融合,會有更高的識別準確率;采用AM-Softmax Loss函數優化時空融合特征,能夠最大化類間距離、最小化類內距離,有利于人體動作分類。