胡 韜
美國、歐洲對人體行為識別已開展了深入的研究,國內的研究機構比如中科院、浙江大學對人體行為識別也積極地開展了研究。人體行為識別中已有各種算法,而把深度學習技術應用于人體行為識別于近幾年來才慢慢開展。深度學習在人體行為識別中進展迅速并且有著不錯的表現,長時遞歸卷積神經網絡、雙數據流卷積神經網絡在不同的數據集中都能表現良好,并且所用的特征提取方法代替了原先低效、復雜的人工特征提取。因此,深度學習在人體行為識別有著巨大的研究價值和潛力。
在人體行為識別中有兩個常用的簡單數據集:Weizmann 數據集和KTH 數據集。這兩個數據收集人體行為數據,將數據分成樣本集和標簽集。Weizmann 數據集發布于2005 年,標簽集中共包含10 種人體行為,分別為走路、跑步、前跳、跑步、彎腰、揮單手、揮雙手、原位置跳、連續跳和單腳跳,數據集一共90 個視頻,視頻的分辨率為180×44。KTH 數據集發布于2004 年,由25 個實驗員在4 個場景中完成,標簽集中共有6 種人體行為,分別為拳擊,拍手,揮手,慢跑和走路,一共包含600 個視頻,視頻的分辨率為160×120。
在深度學習特征提取方法之前,大量采用了人工特征提取方法,即人基于自己的經驗從視頻中找出所需要的特征。2013 年,iDT 算法逐漸被廣泛接受和使用,其準確率和效率遠遠高于傳統的人工特征提取方法,但其計算過程較復雜。而深度學習的算法在某些方面表現更優,深度學習神經網絡一般由以下3 種結構組成:卷積神經網絡、循環神經網絡和全連接神經網絡,通過這三種不同的結構可以組合出無數種神經網絡,適用于不同的特征提取情況。在組合出神經網絡模型的結構以后,我們通過已有的數據訓練神經網絡,正向傳播得到預測值,通過預測值和真實值之間的差距,反向傳播不斷調整神經網絡中的參數,直到參數達到最佳值,保存模型和最佳值,用于特征提取。
雙通道深度卷積神經網絡模仿人類大腦視覺皮層的信息處理,人類大腦視覺皮層的信息處理有兩個通道:一個通道用于對目標物體的感知,另一個通道用于處理物體的動作信息的處理。雙通道深度卷積神經網絡采用了雙通道來獲取視頻信息,空間通道用于獲取物體的靜態特征,時間通道用于獲取物體的動態特征,最后綜合空間和時間通道信息來綜合分析和判斷。
雙通道深度卷積神經網絡通過兩個通道來獲取信息,空間通道處理視頻中每一幀的圖像信息,時間通道處理光流圖像信息,最后將兩個通道的信息融合來分析最終結果,如圖1。時間通道處理光流圖像信息基于高精度光流估算算法,該算法有以下假設:像素值連續假設,即視頻中同一像素點在位置發生變化以后,像素點的值不發生變化;光滑性假設:位移場在物體的邊緣處保持連續。在以上假設的基礎上,我們可以用能量方程和歐拉-拉格朗日定理對光流圖像信息進行提取。在提取水平和豎直方向的光流值后,將光流值存入一張RBG 圖片的三個通道值,得到一張彩色圖片,即實現光流信息的表達。

圖1
雙通道深度卷積神經網絡空間通道結構基于VGGNet 卷積神經網絡,一共有13 個卷積層和三個全連接層,具體如下:
輸入層的圖像采用224×224 的彩色三通道RGB圖像,并隨即調整圖像的順序。
第一復合卷積層共包含兩個卷積層和一個池化層,兩個卷積層的卷積核的大小都為3×3,兩個卷積核的個數都是64,步長為1。池化層采用最大池化,池化層的窗口大小為2×2,步長為2。
第二復合卷積層包含兩個卷積層和一個池化層,兩個卷積層的卷積核的大小都為3×3,兩個卷積核的個數都是128,步長為1。池化層采用最大池化,池化層的窗口大小為2×2,步長為2。
第三復合卷積層包含三個卷積層和一個池化層,三個卷積層的卷積核的大小都為3×3,三個卷積核的個數都是256,步長為1。池化層采用最大池化,池化層的窗口大小為2×2,步長為2。
第四復合卷積層包含三個卷積層和一個池化層,三個卷積層的卷積核的大小都為3×3,三個卷積核的個數都是512,步長為1。池化層采用最大池化,池化層的窗口大小為2×2,步長為2。

圖2
第五復合卷積層包含三個卷積層和一個池化層,三個卷積層的卷積核的大小都為3×3,三個卷積核的個數都是512,步長為1。池化層采用最大池化,池化層的窗口大小為2×2,步長為2。
全連接層共包含三個全連接層,第一個全接連層包含4 096 個神經元,第二個全連接層也包含4 096 個神經元,第三個全連接層的神經元個數根據識別類別個數確定。前兩個全連接層都采用dropout 策略,以防止過擬合。
最后一個輸出層采用softmax 分類器,對各個類別的概率進行計算。
雙通道深度卷積神經網絡空間通道結構如圖2所示。雙通道深度卷積神經網絡時間通道結構和空間通道的網絡結構類似,在全連接層的神經元個數有所不同,神經元的個數從4 096 改成1 024。空間通道和時間通道的激活函數都采用Relu 函數。
雙通道深度卷積神經網絡空間通道和時間通道的層數都較深,有16 層,但因為卷積核的個數有限,總共的參數并不多,因此訓練的收斂時間較快。通道中用到連續卷積層,這樣能夠提高準確率,突出圖像特征。模型中大量采用了小卷積的網絡結構,該結構不僅能夠加強網絡的特征提取能力,還能夠大量減少參數的個數。
本文從4 個方面闡述了深度學習在人體行為識別中的應用:深度學習在人體行為識別的應用現狀、兩大重要的人體行為識別數據集、深度學習特征提取方法和雙通道深度卷積神經網絡。重點闡述了雙通道深度卷積神經網絡的原理、結構和具體設計。