周風余 尹建芹,2 楊 陽 張海婷 袁憲鋒
基于時序深度置信網絡的在線人體動作識別
周風余1尹建芹1,2楊陽1張海婷1袁憲鋒1
在線人體動作識別是人體動作識別的最終目標,但由于如何分割動作序列是一個待解決的難點問題,因此目前大多數人體動作識別方法僅關注在分割好的動作序列中進行動作識別,未關注在線人體動作識別問題.本文針對這一問題,提出了一種可以完成在線人體動作識別的時序深度置信網絡(Temporal deep belief network,TDBN)模型.該模型充分利用動作序列前后幀提供的上下文信息,解決了目前深度置信網絡模型僅能識別靜態圖像的問題,不僅大大提高了動作識別的準確率,而且由于該模型不需要人為對動作序列進行分割,可以從動作進行中的任意時刻開始識別,實現了真正意義上的在線動作識別,為實際應用打下了較好的理論基礎.
人體動作識別,時序深度置信網絡,條件限制玻爾茲曼機,在線動作識別
引用格式周風余,尹建芹,楊陽,張海婷,袁憲鋒.基于時序深度置信網絡的在線人體動作識別.自動化學報,2016,42(7): 1030-1039
人體動作識別在人機交互、機器人、智能家居、視頻監控和體育運動分析等領域都有著巨大的應用需求[1],已成為機器視覺領域一個重要的研究方向.在過去的幾十年中,由于受到技術條件的限制,國內外學者主要基于普通攝像機獲取的人體動作視頻開展動作識別研究,雖然在相關理論及方法上取得一定進展,但由于普通攝像機獲得的是2D信息,且對光照敏感,因此動作識別的準確率并不高.近年來,隨著深度攝像機、微軟的Kinect等低成本3D運動捕捉設備的出現,很容易獲取帶有深度信息的3D深度圖和骨架圖,極大促進了基于3D信息的動作識別研究.
現階段人體動作識別的研究往往采用分割好的視頻片斷進行動作識別.Li等[2]利用深度圖對動作進行識別,提出了一種3D點袋方法(A bag of 3D points)用于深度序列圖中的動作識別,實驗證明,深度圖中1%的點就可以決定識別準確度的90%以上.Yang等[3]基于文獻[2]的工作對MSR Action3D數據庫中的深度動作序列圖進行了識別,驗證了深度動作圖的子序列(子序列長度為30~35幀)基本上可以得到比較好的識別結果.Ofli等[4]提出了一種新的動作特征表示方式—最富信息節點序列(Sequences of the most informative joints,SMIJ),即在每一個時間點,自動選取幾個關節點代表此時姿態,此方法對特定數據庫中的動作進行了有效的區分.Theodorakopoulos等[5]將動作序列在多維特征空間內進行坐標轉換以得到魯棒、便于計算的特征表示方式,并在多個數據庫上驗證了其方法的有效性.王斌等[6]提出了判別稀疏編碼視頻表示算法,并有效地提高了動作的識別精度.田國會等[7]引入了動態時間規整(Dynamic time warping,DTW)算法對基于關節點信息的人體行為進行識別,得到了較好的識別效果.
近年來,隨著深度神經網絡在各方面的成功應用[8],其在動作識別應用領域也取得了良好的效果[9].Liu等[10]采用基于深度學習的超分算法,解決了在視頻質量較差情況下的動作識別.Baccouche等[11]提出了LSTM-RNN(Long-short term memory recurrent neural network)用于動作識別,通過將卷積神經網絡(Convolutional neural network,CNN)擴充到3D以自動編碼動作中的時空信息,用遞歸神經網絡(Recurrent neural network,RNN)來建模序列的時間演化信息.文獻[11]所用的LSTM-RNN采用1個隱含層,因此只能建模單向關系,而動作中涉及復雜的雙向關系,Lefebvre等[12]則在手勢識別中采用前向隱含層和后向隱含層兩個隱含層來建模雙向關系.文獻[11—12]中涉及的RNN僅用于設計分類器,Du等[13]提出了一種建模時序上下文信息的層次RNN結構,自動實現動作特征的提取及動作識別.
上述研究成果表明,基于3D信息的人體動作識別可以獲得較高的準確率,是一種較好的動作識別表示方式,但是現階段的研究成果大多是考慮的離線人體動作識別,即在分割好的動作序列基礎上進行人體動作識別.而實際應用中,確定視頻動作的分割點隱含了動作的識別,從而大多數應用不可能允許視頻按照動作類別預先進行分割.因此,動作識別的在線性同樣是衡量人體動作識別效果的一個重要指標,也是制約人體動作識別應用的一個關鍵問題.由此可見,如何對連續動作序列進行在線識別顯得尤為重要.而在線識別時無法對動作序列進行人工分割,大大增加了動作識別的難度.為此,本文提出了一種可以用于在線識別的動作識別方法.
另一方面,深度學習方法在動作識別方面的應用取得了巨大進展,而尋求能夠自動完成特征提取及識別的方案已經成為了當前該研究方面的一個主要目標.盡管Du等[13]等提供了一種基于RNN的自動特征提取與識別方法,但需要將序列分割成一系列的子部分,并以此為基礎基于RNN自動提取特征.而限制玻爾茲曼機(Restricted Boltzmann machines,RBM)本身具有良好的自動特征提取性能,且Taylor等[14]在RBM的基礎上提出了一種可以處理時間序列的模型—條件限制玻爾茲曼機(Conditional restricted Boltzmann machine,CRBM),為解決動作序列識別問題提供了借鑒.為此,本文提出了一種基于條件限制玻爾茲曼機的可以處理時序數據的時序深度置信網絡(Temporal deep belief network,TDBN)模型,大量的實驗表明該網絡模型可以對3D關節點動作序列進行較好的在線識別.
1.1條件限制玻爾茲曼機
限制玻爾茲曼機可以對靜態數據進行建模,但是無法處理具有時間關聯的數據.Taylor等[14]在RBM的基礎上提出了一種可以處理時間序列的模型—條件限制玻爾茲曼機,其結構圖如圖1所示,其包含兩層結構:可觀測層與隱含層.圖1中虛線框內為RBM.CRBM在RBM基礎上增加了兩種連接:前n時刻可觀測層與當前時刻可觀測層之間的自回歸連接;前n時刻可觀測層與當前時刻隱含層之間的連接.

圖1 條件限制玻爾茲曼機結構Fig.1 The structure of conditional restricted Boltzmann machines
CRBM 可以看作是增加了固定額外輸入的RBM,其固定額外輸入是可觀測層的前n時刻數據,由此增加了前n時刻與當前時刻的時間關聯.雖然增加了額外輸入,但是CRBM可觀測層和隱含層的計算并不比RBM更復雜,在給定可觀測層和前n時刻可觀測層的數據后,隱含層的激活概率是可以確定的;同樣,在給定隱含層和前n時刻可觀測層的數據后,可觀測層的激活狀態之間是條件獨立的.
1.2時序深度置信網絡
本文借鑒CRBM的思想,在深度置信網絡(Deep belief network,DBN)的基礎上提出了一種時序深度置信網絡,在動作識別中加入了前后幀的上下文關系.TDBN的網絡結構如圖2所示,包括輸入層、隱含層和輸出層.圖2虛線框內部分是典型的DBN結構,TDBN在DBN的基礎上,將其中的RBM結構變為CRBM結構,為了易于觀察,圖2中第一隱含層與第二隱含層增加的連接沒有畫出來.

圖2 時序深度置信網絡結構Fig.2 The structure of the temporal deep belief network
為了便于處理人體動作序列中的時間關聯信息,TDBN將經典DBN中的RBM結構變為CRBM結構.以圖2中的兩個隱含層為例,輸入層與第一隱含層、第一隱含層與第二隱含層分別加入兩類連接:前n時刻可觀測層與當前時刻可觀測層之間的自回歸連接;前n時刻可觀測層與當前時刻第一隱含層之間的連接.由加入的連接可以推出,可觀測層的激活狀態是由當前時刻的隱含層狀態及前n時刻的輸入層數據決定的;隱含層的激活狀態是由當前時刻的輸入數據及前n時刻的輸入數據決定的,n是可以調整的參數,是模型的階數.由圖2可以看出,通過加入上述前n時刻的連接,以模型階數為單位,可以建模動作中的時序信息,從而可以方便地實現以模型階數為單位的在線人體動作識別.
TDBN學習過程包括初始化、預處理、預訓練和全局微調4個部分.初始化主要是對算法中的各個參數進行設置,包括隱含層層數、各個隱含層節點數、模型階數、各個CRBM迭代次數、BP算法迭代次數等.算法的核心部分是預訓練和全局微調,預訓練采用的是無監督學習方法,很大程度上避免了普通BP算法容易收斂到局部最小值的問題,從而得到更優的初始化參數;全局微調采用的是有監督學習方法,是一個調優過程,采用BP算法對預訓練后的參數進行微調.下面給出本文提出的TDBN的學習過程.
2.1預處理
本文實驗數據來源于MIT數據庫和MSR Action 3D數據庫,在進行識別以前,對數據進行了預處理:包括降采樣、降維及數據分組.由于所用數據的幀頻分別是120fps和15fps,相鄰幀數據存在較大冗余.為了提高識別速度,本文在預訓練之前,首先對人體動作序列進行了降采樣處理:在視頻序列中抽取特定的幀進行動作表示.實驗表明,MIT數據每8幀保留1幀,MSR Action 3D每4幀保留1幀同樣可獲得較高的識別準確率.在后續步驟中,采用該方法對所用的視頻數據進行降采樣處理.
由于待處理的數據屬于高維數據,如圖3,圖中給出的是MIT數據庫關節示意圖,每幀有18個關節點,每個關節點有6個坐標維度,共計108個維度.由于人體在運動過程中很多關節點的相對位置和角度是一個定值,因此維度存在嚴重冗余.為提高人體動作的識別效率及識別效果,對MIT數據采用主成分分析進行降維處理,去除動作中保持不變的維度后,維度從108降為49.

圖3MIT數據庫關節示意圖Fig.3 Illustration of the skeleton of MIT
完成數據降維后,進行數據分組,包括兩個步驟:1)將每個連續的n+1幀作為一個數據單元存放在一起;按照該方法處理后,除了前n幀和后n幀,中間的每一幀都被使用了n+1次;2)將每一個數據單元與其動作標記隨機打亂順序,并分為一定大小的數據塊(本文每個數據塊包含了100個數據單元).由于TDBN的學習只與一個數據塊中的n+1幀有關,所以將數據打亂不會影響識別的正確性.
2.2預訓練
與DBN類似,TDBN的預訓練也是為了得到較好的全局微調初始化參數.訓練過程中,TDBN可以看作是層疊的CRBM,即將圖2中的輸入層與第一隱含層、第一隱含層與第二隱含層作為兩個CRBM進行預訓練.CRBM的學習過程就是權重和偏移的更新過程,CRBM的學習過程流程如圖4所示,主要包括初始化、正向計算、反向計算、更新權重和偏移量、迭代次數判斷5個部分.初始化是對權重、偏移量、學習率、衰減參數等進行設置;正向計算是由可觀測層計算隱含層的過程,在給定可觀測層和前n時刻可觀測層的數據后,隱含層的激活概率是可以確定的;反向計算是由隱含層計算當前時刻可觀測層的過程,在給定隱含層和前n時刻可觀測層的數據后,可觀測層的激活狀態也是可以確定的;完成正向計算和反向計算之后,就可以對權重和偏移量進行更新;最后是迭代次數的判斷,如果沒有達到設定的迭代次數(epoch)則跳轉到正向計算,繼續學習,如果達到,學習過程結束.

圖4CRBM學習過程流程圖Fig.4 Flowchart of the learning of CRBM
CRBM學習過程與RBM的類似,所用方法都是對比散度(Contrastive divergence,CD)算法[15].假設t,t-1,···,t-n時刻輸入數據,即可觀測層已知,那么隱含層節點狀態在t時刻是條件獨立的,CRBM的權重學習仍然可以采用CD算法.與RBM學習過程的區別僅在于,更新可觀測層和隱含層時,需要將前n時刻的輸入數據當作動態偏移,這樣可以實現一個直接的連接.RBM的權重學習公式為

其中,vi是可觀測單元,hj是隱藏單元,wij是連接可觀測單元i和隱藏單元j的權重,〈·〉表示隨機變量的期望.根據式(1),可得到隱含層動態偏移的學習公式


2.3全局微調
預訓練完成之后,CRBM中的權重和偏移反應了數據結構中包含的信息,為了得到一個更好的結果,還需要對權重和偏移進行全局微調.本文將TDBN作為分類模型,采用BP算法,通過有監督學習對分類模型參數進行微調,其學習流程如圖5所示,包括初始化、計算訓練誤差、計算測試誤差、更新權重和偏移、判斷迭代次數5個部分.

圖5 全局微調流程圖Fig.5 Flowchart of the global weights adjustment
初始化參數包括權重、偏移、學習率和全局更新次數等,權重和偏移的初始化包括載入預訓練過的參數和對未經預訓練的最頂層的權重和偏移進行隨機賦值.由于最頂層的權重和偏移是隨機數,因此算法初始化階段,權重及偏移更新只在最頂層進行,全局更新次數是指從第幾次開始對全部的參數進行更新.計算誤差是一個前向傳遞過程,計算訓練誤差是為了更新權重和偏移,計算測試誤差是為了得到識別結果.最后是迭代次數的判斷,如果達到迭代次數則結束;如果沒有則繼續運行.
TDBN全局微調與DBN不同之處是增加了與前n時刻輸入相關的參數.假設在t時刻,t,t-1,···,t-n時刻的輸入數據是已知的,隱含層的激活狀態也可以得到.與DBN不同的是,前n時刻的輸入作為隱含層的一個動態偏移量,以輸入層與第一隱含層為例,其中增加的兩類連接的權重學習公式為


其中,ε是權重的學習率.由于模型在更新權重和偏移時,僅與動作序列中當前時刻及其前n時刻的數據有關,因此輸入數據時可以把當前幀與前n幀作為整體,每n+1幀為一個數據單元,并且從n+1幀數據開始更新.為了提高TDBN的學習速度,本文預先把數據分成100(n+1)的數據塊,訓練模型時將數據塊逐個輸入即可.
3.1基于MIT數據庫的動作識別
MIT數據庫[18]有7種不同的行走姿勢,包括蹲伏行走(Crouch)、慢跑(Jog)、跛行(Limp)、正常行走(Normal)、右側行走(Sideright)、搖擺行走(Sway)和蹣跚行走(Waddle),每種姿勢的行走速度有慢速、正常和快速3種,共計21個動作序列.本文實驗選取7個正常行走速度的動作序列,每個序列長度在13344~20384幀之間,其中包含有10~12個動作子序列,共計77個子序列,每個子序列長度在200~1950幀之間.其中一半作為訓練集,一半作為測試集.本實驗采用的TDBN模型有2個隱含層,網絡節點分別為49-150-150-7,階數n 取3.在識別過程中并不需要顯示每1幀的識別結果,而是綜合了連續多幀的識別結果.實驗中對連續的10幀、20幀、30幀和整個序列的識別結果分別進行統計,統計方法是每1幀結果累計,取次數出現最多的類別作為連續多幀的識別結果.每一組實驗均進行了10次,取其平均值為最終識別結果,MIT數據庫的識別結果如圖6所示,包括1幀、10幀、20幀、30幀和整個序列的識別結果.

圖6MIT數據庫的識別結果Fig.6 Recognition results on MIT datasets
由圖6可以看出,隨著連續幀數的增加,識別率不斷提高,連續30幀的識別率已達到100%.圖7 為MIT數據庫1幀識別結果的混淆矩陣,其中右側行走識別率最高,達到了99.93%;蹣跚行走識別率最低,為94.72%.這是因為右側行走與其他動作姿態差別明顯,而蹣跚行走與其他動作姿態相似度較大的緣故.

圖7MIT數據庫的混淆矩陣Fig.7 Confusion matrix of MIT dataset
圖7中,C代表蹲伏行走,J代表慢跑,L代表跛行,N代表正常行走,SR代表右側行走,S代表搖擺行走,W代表蹣跚行走.另外,實驗還對TDBN中訓練得到的權重進行了統計,圖8為其中CRBM的權重分布示意圖,圖8(a)為輸入層和第一隱含層組成的第一個CRBM的權重分布示意圖,圖8(b)為第二個CRBM的權重分布示意圖.其中,w為輸入層單元和隱含層單元之間的權重,bi為輸入層的偏移量,bj為隱含層的偏移量,At-1,At-2,At-3分別為t-1,t-2,t-3時刻輸入層單元與t時刻輸入層單元連接的自回歸權重,Bt-1,Bt-2,Bt-3為t-1,t-2,t-3時刻輸入層單元與t時刻隱含層單元連接的權重.
3.2基于MSR Action 3D數據庫的動作識別
MSR Action 3D數據庫是從文獻[2]中得到的,有抬高揮動胳膊(High arm wave)、水平揮動胳膊(Horizontal arm wave)、捶打(Hammer)、沖拳(Forward punch)等20種不同的動作,分別錄制于10個不同的人,每一個人每一個動作重復2~3次,共有467個序列,22797幀,動作記錄的頻率為15Hz.圖9為其中抬高揮動胳膊的動作示例,圖中取了13幀.

圖8CRBM的權重分布示意圖Fig.8 Illustration of the distribution of the weights of CRBM
圖10為MSR Action 3D數據庫中關節示意圖,與MIT數據庫相比,MSR Action 3D數據庫中數據多了左右手和頭部節點,肩膀中心用了一個節點表示.動作序列中的一幀是20個節點的x,y,z坐標值,因此每一幀的維度為60.x,y,z坐標值表示方法的優點是直觀、易于理解和數據處理,缺點是識別不同人的動作時,由于關節點之間骨骼長度不像MIT數據是一個常量,因此對識別結果會有一定影響.

圖9 MSR Action 3D數據庫動作示意圖Fig.9 Illustration of the action of MSR Action 3D

圖10 MSR Action 3D數據庫關節示意圖Fig.10 Illustration of the Skeleton of MSR Action 3D
實驗中,將MSR Action 3D數據庫20個不同動作分為三組(AS1,AS2,AS3),每組8個動作[2].為了與現有算法結果進行比較,基于這些數據采用了三種測試方法對算法性能進行評估,測試1(表示為ASi1,i=1,2,3)取1/3數據進行訓練,剩余2/3進行測試;測試2(表示為ASi2,i=1,2,3)取2/3數據進行訓練,剩余1/3進行測試;測試3采用一半數據訓練,一半數據進行測試.本文研究目的是針對家庭環境對人的行為動作的識別,其特點是人物基本固定,學習目標比較單一,因此本文未進行文獻[2]中的交叉人物測試.實驗采用的TDBN模型有兩個隱含層,階數n=3.MSR Action 3D作為通用的動作數據庫,目前絕大部分的識別方法都是基于整個序列的,為此本文首先將TDBN采用測試1和測試2對整個序列的識別效果與文獻[2-3,19]的結果進行比較,另外,由于CRBM和TDBN的關系,我們也測試了CRBM在數據庫中的結果,相關結果如表1所示.然后,利用測試3的設置與State-of-the-art的結果進行比較,如表2所示.文獻[20]探討了采用不同幀數對識別結果的影響,其中僅使用了前5幀對動作進行識別,本文也將前5幀的識別結果與之進行了比較,如表3所示.

表1 測試1和測試2中整個序列的識別結果(%)Table 1 Results of the sequences(%)

表2 測試3中本文算法與其他算法的比較(%)Table 2 Comparisons between our method and others(%)

表3 前5幀的識別結果(%)Table 3 Recognition results of the first 5 sequences(%)
由表1和表2可以看出,測試2的效果最好,遠超過其他方法,測試1的效果接近其他方法.這個結論也正符合了深度學習方法的鮮明特點,訓練越充分,其分類效果越好.需要特別說明的是,文獻[2-3,19]中的方法均是在動作完全完成后才進行的識別,并沒有考慮在線動作識別.文獻[20]雖然探討了識別精度和實時性之間的平衡關系,但在他的實驗中有5個動作的識別率并不是特別理想:Hammer(0%)、Hand catch(0%)、High throw (14.3%)、Draw circle(20%)、Draw X(35.7%).圖11為本文AS1組測試2的各個動作識別結果,在圖中,為了表示方便,采用Haw代表Horizontal arm wave,H代表Hammer,Fp代表Forward punch,Ht代表High throw,Hc代表Hand clap,B代表Bends,Ts代表Tennis serve,Pt代表Pickup and throw,所有動作的總體識別率達到了99.33%.由圖11可以看出,雖然對7個動作的識別結果有高有低,但是不會出現文獻[19]那樣識別率特別低的情況.另外,最重要的是本文提出的方法考慮了在線識別問題,表4給出的是利用TDBN方法得到的1幀、5幀和整個動作序列的識別結果.由表4中可以看出,識別率隨著所用幀數和訓練數據的增加有明顯的提高.

圖11MSR Action 3D數據庫AS12的混淆矩陣Fig.11 Confusion matrix of MSR Action 3D of AS12
3.3不同階TDBN動作識別時間及準確率測試
本文提出的時序深度置信網絡模型TDBN,由于無需對動作序列進行手工分割,且可以在動作的任意時刻進行識別,克服了目前識別方法只有在動作完成后才能得到識別結果的不足,真正實現了在線動作識別.對于TDBN的運行效率及TDBN性能在不同階數下的影響進行測試,在MSR Action 3D所有數據上進行了實驗.表5給出了不同階數下的動作識別時間,隨著階次的增加,計算量增加,相應的識別時間也在增加.表5中的識別時間是對n+1幀數據的識別時間,并不是整個動作的識別時間,因為整個動作的實時識別與動作幀頻有關系,只要表5中識別時間小于降采樣后幀頻的倒數就可以實現實時識別,并隨時可以得到識別結果.表6為不同階數TDBN的識別率,由于TDBN加入了前后幀之間的上下文信息,識別率隨著階數的不同而不同,實驗表明,當模型階數為3時,動作識別率相對較高.

表4 全部實驗識別結果(%)Table 4 All recognition results(%)

表5 不同階數的識別時間(ms)Table 5 Recognition time with different orders(ms)

表6 不同階數的識別率(%)Table 6 Recognition rates with different orders(%)
本文針對傳統DBN無法處理時序數據的問題,首次提出了時序深度置信網絡(TDBN),該網絡模型充分利用動作序列前后幀提供的上下文信息,不僅提高了識別準確率,而且由于TDBN無需對動作序列進行手工分割,可以在動作的任意時刻進行識別,并且每次僅需處理序列中的幾幀數據就可得到識別結果,不僅大大提高了動作識別的實時性,同時使得算法可以完成在線的人體動作識別.該方法的提出為人體動作識別的實際應用打下了較好的理論基礎.
References
1 Tong Li-Na,Hou Zeng-Guang,Peng Liang,Wang Wei-Qun,Chen Yi-Xiong,Tan Min.Multi-channel sEMG time series analysis based human motion recognition method.Acta Automatica Sinica,2014,40(5):810-821(佟麗娜,侯增廣,彭亮,王衛群,陳翼雄,譚民.基于多路sEMG時序分析的人體運動模式識別方法.自動化學報,2014,40(5):810-821)
2 Li W Q,Zhang Z Y,Liu Z C.Action recognition based on a bag of 3D points.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.San Francisco,CA:IEEE,2010. 9-14
3 Yang X D,Zhang C Y,Tian Y L.Recognizing actions using depth motion maps-based histograms of oriented gradients. In:Proceedings of the 20th ACM International Conference on Multimedia.Nara,Japan:ACM,2012.1057-1060
4 Ofli F,Chaudhry R,Kurillo G,Vidal R,Bajcsy R.Sequence of the most informative joints(SMIJ):a new representation for human skeletal action recognition.Journal of Visual Communication&Image Representation,2014,25(1):24-38
5 Theodorakopoulos I,Kastaniotis D,Economou G,Fotopoulos S.Pose-based human action recognition via sparse representation in dissimilarity space.Journal of Visual Communication and Image Representation,2014,25(1):12-23
6 Wang Bin,Wang Yuan-Yuan,Xiao Wen-Hua,Wang Wei,Zhang Mao-Jun.Human action recognition based on discriminative sparse coding video representation.Robot,2012,34(6):745-750(王斌,王媛媛,肖文華,王煒,張茂軍.基于判別稀疏編碼視頻表示的人體動作識別.機器人,2012,34(6):745-750)
7 Tian Guo-Hui,Yin Jian-Qin,Han Xu,Yu Jing.A novel human activity recognition method using joint points information.Robot,2014,34(3):285-292(田國會,尹建芹,韓旭,于靜.一種基于關節點信息的人體行為識別新方法.機器人,2014,34(3):285-292)
8 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續型深度信念網的設計與應用.自動化學報,2015,41(12):2138-2146)
9 ZhaoSC,LiuYB,HanYH,HongRC.Pooling the convolutional layers in deep convnets for action recognition[Online],available:http://120.52.73.77/ arxiv.org/pdf/1511.02126v1.pdf,November 1,2015.
10 Liu C,Xu W S,Wu Q D,Yang G L.Learning motion and content-dependent features with convolutions for action recognition.Multimedia Tools and Applications,2015,http://dx.doi.org/10.1007/s11042-015-2550-4.
11 Baccouche M,Mamalet F,Wolf C,Garcia C,Baskurt A.Sequential deep learning for human action recognition.Human Behavior Understanding.Berlin:Springer,2011.29-39
12 Lefebvre G,Berlemont S,Mamalet F,Garcia C.BLSTMRNN based 3d gesture classification.Artificial Neural Networks and Machine Learning.Berlin: Springer,2013. 381-388
13 Du Y,Wang W,Wang L.Hierarchical recurrent neural network for skeleton based action recognition.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.1110-1118
14 Taylor G W,Hinton G E,Roweis S.Modeling human motion using binary latent variables.In:Proceedings of Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2007.1345-1352
15 Hinton G E,Osindero S.A fast learning algorithm for deep belief nets.Neural Computation,2006,18:1527-1554
16 Bengio Y,Lamblin P,Popovici D,Larochelle H.Personal communications with Will Zou.learning optimization Greedy layerwise training of deep networks.In:Proceedings of Advances in Neural Information Processing Systems. Cambridge,MA:MIT Press,2007.
17 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536
18 Hsu E,Pulli K,Popovi′c J.Style translation for human motion.ACM Transactions on Graphics,2005,24(3):1082-1089
19 Xia L,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints.In:Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence,USA:IEEE,2012.20-27
20 Ellis C,Masood S Z,Tappen M F,LaViola J J Jr,Sukthankar R.Exploring the trade-off between accuracy and observational latency in action recognition.International Journal of Computer Vision,2013,101(3):420-436
21 Chen C,Liu K,Kehtarnavaz N.Real-time human action recognition based on depth motion maps.Journal of Real-Time Image Processing,2016,12(1):155-163
22 Gowayyed M A,Torki M,Hussein M E,El-Saban M.Histogram of oriented displacements(HOD):describing trajectories of human joints for action recognition.In:Proceedings of the 2013 International Joint Conference on Artificial Intelligence.Beijing,China,AAAI Press,2013.1351-1357
23 Vemulapalli R,Arrate F,Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.588-595

周風余山東大學控制科學與工程學院教授.2008年獲得天津大學電氣與自動化工程學院博士學位.主要研究方向為智能機器人技術.
E-mail:zhoufengyu@sdu.edu.cn
(ZHOUFeng-YuProfessoratthe School of Control Science and Engineering,Shandong University.He received his Ph.D.degree from Tianjin University in 2008.His main research interest is technology of intelligent robot.)

尹建芹濟南大學信息科學與工程學院副教授.2013年獲得山東大學控制科學與工程學院博士學位.主要研究方向為圖像處理與機器學習.本文通信作者.
E-mail:iseyinjq@ujn.edu.cn
(YIN Jian-QinAssociate professor at the School of Information Science and Technology,Jinan University.She received her Ph.D.degree from the School of Control Science and Engineering,Shandong University in 2013. Her research interest covers image processing and machine learning.Corresponding author of this paper.)

楊陽山東大學信息科學與工程學院講師.2009年獲得山東大學信息科學與工程學院博士學位.主要研究方向為圖像處理與目標跟蹤.
E-mail:yangyang@mail.sdu.edu.cn

(YANGYangLectureratthe SchoolofInformationScienceand Technology,Shandong University.He received his Ph.D.degree from the School of Information Science and Technology,Shandong University in 2009.His research interest covers image processing and object tracking.)張海婷山東大學控制科學與工程學院碩士研究生.2011年獲得山東大學工學學士學位.主要研究方向為深度學習與圖像處理.E-mail:546597163@qq.com (ZHANG Hai-TingMaster student at the School of Control Science and Engineering,Shandong University. She received her bachelor degree from Shandong University in 2011.Her research interest covers deep learning and image processing.)

袁憲鋒山東大學控制科學與工程學院博士研究生.2011年獲得山東大學工學學士學位.主要研究方向為機器學習與服務機器人.
E-mail:yuanxianfengsdu@126.com
(YUAN Xian-FengPh.D.candidate at the School of Control Science and Engineering,Shandong University. He received his bachelor degree from Shandong University in 2011.His research interest covers machine learning and service robot.)
Online Recognition of Human Actions Based on Temporal Deep Belief Neural Network
ZHOU Feng-Yu1YIN Jian-Qin1,2YANG Yang1ZHANG Hai-Ting1YUAN Xian-Feng1
Online human action recognition is the ultimate goal of human action recognition.However,how to segment the action sequence is a difficult problem to be solved.So far,most human action recognition algorithms are only concerned with the action recognition within a segmented action sequences.In order to solve this problem,a deep belief network(DBN)model is proposed which can handle sequential time series data.This model makes full use of the action sequences and frames to provide contextual information so that it can handle video data.Moreover,this model not only greatly improves the action recognition accuracy,but also realizes online action recognition.So it lays a good theoretical foundation for practical applications.
Human action recognition,temporal deep belief network(TDBN),conditional restricted Boltzmann machine (CRBM),online action recognition
10.16383/j.aas.2016.c150629
Zhou Feng-Yu,Yin Jian-Qin,Yang Yang,Zhang Hai-Ting,Yuan Xian-Feng.Online recognition of human actions based on temporal deep belief neural network.Acta Automatica Sinica,2016,42(7):1030-1039
2015-10-20錄用日期2016-02-14
Manuscript received October 20,2015;accepted February 14,2016
國家自然科學基金(61375084,61203341),山東省自然科學基金重點項目(ZR2015QZ08)資助
Supported by National Natural Science Foundation of China (61375084,61203341),Key Program of Natural Science Foundation of Shandong Province(ZR2015QZ08)
本文責任編委俞棟
Recommended by Associate Editor YU Dong
1.山東大學控制科學與工程學院濟南2500612.濟南大學信息科學與工程學院山東省網絡環境智能計算技術重點實驗室濟南250022
1.School of Control Science and Engineering,Shandong University,Jinan 2500612.Shandong Provincial Key Laboratory of Network Based Intelligent Computing,School of Information Science and Engineering,University of Jinan,Jinan 250022