尹坤陽,潘 偉,謝立東,徐素霞
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門361005)
一種基于深度學(xué)習(xí)的人體交互行為分層識(shí)別方法
尹坤陽,潘偉,謝立東,徐素霞*
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門361005)
摘要:本文把人體交互行為分解為由簡(jiǎn)單到復(fù)雜的4個(gè)層次:姿態(tài)、原子動(dòng)作、復(fù)雜動(dòng)作和交互行為,并提出了一種分層漸進(jìn)的人體交互行為識(shí)別方法.該方法共有3層:第1層通過訓(xùn)練棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)把原始視頻中的人體行為識(shí)別為姿態(tài)序列;第2層構(gòu)建原子動(dòng)作的隱馬爾科夫模型(hidden Markov model,HMM),并利用估值定界法識(shí)別第1層輸出的姿態(tài)序列中包含的原子動(dòng)作;第3層以第2層輸出的原子動(dòng)作序列為輸入,采用基于上下文無關(guān)文法(context-free grammar,CFG)的描述方法識(shí)別原子動(dòng)作序列中的復(fù)雜動(dòng)作和交互行為.實(shí)驗(yàn)結(jié)果表明,該方法能有效地識(shí)別人體交互行為.
關(guān)鍵詞:人體行為識(shí)別;深度學(xué)習(xí);隱馬爾科夫模型(HMM);上下文無關(guān)文法(CFG);Kinect
人體行為識(shí)別在計(jì)算機(jī)視覺領(lǐng)域中占有重要地位,它在視頻監(jiān)控、醫(yī)療監(jiān)護(hù)、人機(jī)交互和運(yùn)動(dòng)分析等諸多領(lǐng)域有著廣泛的應(yīng)用[1].在過去的幾十年中,研究者們提出了大量的行為識(shí)別方法,這些方法可以分為2類:單層行為識(shí)別方法和分層行為識(shí)別方法[2].
單層行為識(shí)別方法又可分為時(shí)空法[3]和序列法[4].時(shí)空法把輸入視頻當(dāng)作一個(gè)三維的時(shí)空體(XYT),而序列法把輸入視頻視為特……