基于多特征的深度圖像序列人體行為識別

2018-06-20 07:50:18宋相法

計算機技術(shù)與發(fā)展 2018年6期

關(guān)鍵詞：深度特征

宋相法，姚旭

(河南大學計算機與信息工程學院，河南開封 475004)

0 引言

人體行為識別是計算機視覺領(lǐng)域中的重點研究問題之一，可廣泛應(yīng)用于視覺監(jiān)控、人機交互、智能家居等領(lǐng)域，受到了研究人員的廣泛關(guān)注[1-5]。在過去的數(shù)十年間，基于可見光攝像機獲取的彩色圖像序列人體行為識別研究取得了很大進展[1-2]，但是它們對光照變化、紋理和顏色等因素比較敏感，當環(huán)境、光照條件發(fā)生變化時，識別精度會大幅度降低，因此，人體行為識別極具挑戰(zhàn)性[2]。

最近，微軟Kinect深度攝像機獲取的深度圖像在計算機視覺和機器人等領(lǐng)域取得了廣泛應(yīng)用[2]。相比可見光攝像機獲取的彩色圖像，深度攝相機獲取的深度圖像可以提供一個光照不變的具有深度幾何結(jié)構(gòu)的前景信息，同時具有紋理與顏色不變性等優(yōu)勢[2]。所以，研究人員開始對深度圖像序列人體行為識別進行研究。例如，文獻[6]采用行為圖譜對行為進行建模，然后使用3維詞袋提取姿態(tài)特征，最后利用隱馬爾可夫模型識別人體行為；文獻[7]提出了基于深度運動圖和梯度方向直方圖(histograms of oriented gradients,HOG)特征[8]的人體行為識別方法；文獻[9]利用時空深度長方體相似性特征進行人體行為識別；文獻[10]利用深度圖像序列中的四維法向量特征進行人體行為識別；文獻[11]提出了基于法向量描述子和超向量編碼的深度圖像序列人體行為識別方法；文獻[12]提出了基于二值距離采樣深度特征的人體行為識別方法；文獻[13]提出了基于深度運動圖和局部二值模式特征的人體行為識別方法；文獻[14]提出了基于時空金字塔立方體匹配的人體行為識別方法；文獻[15]提出了基于深度稠密時空興趣點的人體動作識別方法。

對于深度圖像序列，可以提取出各種不同類型的特征，所以在實際應(yīng)用中，通過提取某種單一類型的特征很難全面地描述和刻畫人體行為信息。采用多特征進行融合，可以增強信息互補性，提高人體行為識別結(jié)果。根據(jù)以上分析，文中提出了一種基于多特征的深度圖像序列人體行為識別方法。該方法首先提取超法向量特征和基于深度運動圖的梯度方向直方圖特征，然后使用核極限學習機(kernel extreme learning machine,KEML)[16]作為分類器，采用對數(shù)意見匯集規(guī)則[17]融合方法得到人體行為識別結(jié)果。

1 特征提取

1.1 基于深度運動圖的梯度方向直方圖特征提取

為了加快計算速度，沒有設(shè)定閾值，而是直接將絕對值累加，如下：

(1)

其中，i代表幀索引。

通過式1分別在3個平面上得到深度運動圖DMMf，DMMs和DMMt，然后去除深度運動圖中處于邊緣的全零行和全零列，最后得到人體行為的有效區(qū)域，如圖1所示。

圖1 DMM框架(golf swing行為)

1.2 超法向量特征提取

超法向量特征是由文獻[11]提出的一種表示深度圖像序列人體行為特征的方法，能夠捕獲局部運動信息。該方法首先計算出每一深度圖像幀中每個像素點的法向量描述子，然后采用Fisher向量[18]一個簡化的非概率方法對法向量描述子進行編碼，從而獲得超法向量特征。

深度圖像序列可用下面的函數(shù)形式來表達：

R3→R1:z=Φ(x,y,t)

(2)

它構(gòu)成了4維空間中的一個曲面F，該曲面上的點(x,y,t,z)滿足式3：

F(x,y,t,z)=Φ(x,y,t)-z=0

(3)

其中，x,y,z為空間坐標；t為時間。

曲面F上的點F(x,y,t,z)處的法向量n表達為：

(4)

點F(x,y,t,z)處的法向量描述子p由其時空鄰域中的L個點的法向量級聯(lián)而成，表達為：

(5)

令P={p1,p2,…,pN}∈RM是從深度圖像序列中提取出的法向量描述子，D∈RM×K是視覺字典，則pi在D上的稀疏編碼[19]的數(shù)學表達式為：

(6)

其中，dk為D中的視覺單詞；αi∈RK為pi在D上的稀疏編碼系數(shù)，α=[α1,α2,…,αN]∈RK×N；λ為正則參數(shù)，利用SPAMS工具箱[19]求解式6中的D和α。

對于每個單詞dk，首先利用空間平均池化方法計算量化誤差，如式7所示：

(7)

其中，uk(t)表示第k個單詞在第t幀中的池化誤差。

然后利用時間最大池化方法計算整卷中的量化誤差[11]，如式8所示：

(8)

其中，uk,i表示uk的第i個分量，uk是第k個單詞在整卷中的表示。把K個向量uk級聯(lián)起來得到最終向量U，如式9所示：

(9)

為了使所提取的特征能反映人體行為的時空屬性，采用自適應(yīng)時空金字塔方法[11]把圖像序列劃分成若干塊，然后從每一塊中提取特征向量Ui，最后把Ui級聯(lián)起來得到深度圖像序列的超法向量特征，如式10所示：

(10)

其中，V為圖像序列被劃分的塊數(shù)。

2 多特征融合的核極限學習機行為識別

由于基于深度運動圖的梯度方向直方圖特征和超法向量特征分別從整體和局部兩個角度來刻畫和描述人體行為信息，具有良好的信息互補性；同時，核極限學習機有效地避免了極限學習機(extreme learning machine,EML)[20]固有的隨機性和支持向量機模型求解的復雜性，而且具有更快的學習速度和更好的泛化性能[16]，已初步用于人體行為識別[13,21]。因此，采用多特征融合的核極限學習機進行行為識別，可有效提高行為識別的性能。

2.1 核極限學習機

極限學習機是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)模型，利用求解線性方程組的方法求出網(wǎng)絡(luò)模型的輸出權(quán)值，訓練速度快，泛化能力強。核極限學習機通過引入核函數(shù)，解決了ELM算法隨機初始化的問題，并且具有更強的魯棒性。

(11)

其中，h(·)為一個非線性激勵函數(shù)；wl∈Rn為連接第l個隱節(jié)點和輸入節(jié)點之間的權(quán)重向量；βl為連接第l個隱節(jié)點到輸出節(jié)點的輸出權(quán)重；el為第l個隱節(jié)點的偏置。

式11共有n個方程，因此可以改寫為：

Hβ=Y

(12)

(13)

根據(jù)輸入(x1,x2,…,xn)和H得出式12的最小平方解：

(14)

得到

(15)

其中，H?為矩陣H的Moore-Penrose逆矩陣，H?=HT(HHT)-1。

在HHT的對角線上的每個元素加一個正數(shù)1/ρ可以得到更好的穩(wěn)定性，因此，ELM的輸出表達式可直接表示為：

(16)

如果特征映射函數(shù)h(x)未知，則ELM的核矩陣可以定義為：

ΩELM=HHT:ΩELMj,k=h(xj)·h(xk)=K(xj,xk)

(17)

因此，KELM的輸出表達式可表示為：

(18)

樣本x的標記由具有最大值輸出節(jié)點的索引值決定，即

(19)

這里f(x)c為f(x)=[f(x)1,f(x)2,…,f(x)C]。

2.2 融合策略

從深度圖像序列中提取超法向量特征和深度運動圖的梯度方向直方圖特征分別作為核極限學習機分類器的輸入，然后利用對數(shù)意見匯集規(guī)則融合兩類特征的識別結(jié)果實現(xiàn)人體行為的識別。由于核極限學習機分類器的輸出為輸入所屬類別的精度估計值，根據(jù)文獻[22]可以將核極限學習機分類器的輸出映射為類后驗概率，用一個Sigmoid函數(shù)作為連接函數(shù)將核極限學習機分類器的輸出f(x)映射到[0,1]，以實現(xiàn)其后驗概率輸出。后驗概率輸出形式如下：

(20)

其中，參數(shù)A和B控制Sigmoid函數(shù)的形態(tài)，簡單起見，令A=-1，B=0。

在對數(shù)意見匯集規(guī)則中，用于估計全體隸屬度函數(shù)的后驗概率pq(yc|x)形式如下：

(21)

或者

(22)

樣本x所屬類別標號y*如下式所示：

(23)

3 實驗結(jié)果和分析

為了驗證該方法的有效性，在深度圖像序列人體行為數(shù)據(jù)集MSR Action3D (http://research.microsoft.com/en-us/um/people/zliu/ActionRecoRsrc/default.htm)上進行了實驗。MSR Action3D數(shù)據(jù)集中共包含20種人體行為，例如horizontal arm wave、hammer、hand catch、forward punch等，每種行為由10個表演者重復表演3次，部分樣例如圖2所示。

圖2 MSR Action3D數(shù)據(jù)庫上的部分樣例

為了保證比較的公平性，實驗設(shè)置與文獻[9-14]相同，數(shù)據(jù)集中的一半為訓練集，另一半為測試集。采用文獻[11]在提出超法向量特征時所建議的參數(shù)設(shè)置，其中字典D的大小k取值為100，正則參數(shù)λ的取值為0.15。

表1 實驗結(jié)果對比

表1給出了文中算法的識別結(jié)果，同時也給出了單一DMM-HOG特征和單一SNV特征采用極限學習機分類器進行識別的結(jié)果，以及其他算法的識別結(jié)果。

由表1可知，識別精度由基于DMM-HOG特征的92.00%和基于SNV特征的94.90%提高到了文中算法的96.36%；文中算法的識別精度也高于其他7種算法，進一步證明了其有效性。

混淆矩陣可以揭示出數(shù)據(jù)的真實類別和預測類別之間的關(guān)系，常用來評價算法的性能。圖3給出了文中算法在MSR Action3D數(shù)據(jù)集上的混淆矩陣。由圖3可知，在20類行為中，識別精度達到100%的有16類；識別錯誤率主要發(fā)生在hand catch和high throw以及draw x 和hammer之間，是由于這些行為比較相似造成的。

圖3 文中算法在MSR Action3D數(shù)據(jù)庫上的混淆矩陣

4 結(jié)束語

針對利用單特征對深度圖像序列人體行為進行識別導致性能較低的問題，提出了基于超法向量特征和深度運動圖HOG特征的深度圖像序列人體行為識別方法。在MSR Action3D數(shù)據(jù)集上的實驗結(jié)果證明了該方法的優(yōu)越性。

參考文獻：

[1] 胡瓊,秦磊,黃慶明.基于視覺的人體動作識別綜述[J].計算機學報,2013,36(12):2512-2524.

[2] HAN Jungong,SHAO Ling,XU Dong,et al.Enhanced computer vision with microsoft kinect sensor:a review[J].IEEE Transactions on Cybernetics,2013,43(5):1318-1334.

[3] 陳萬軍,張二虎.基于深度信息的人體動作識別研究綜述[J].西安理工大學學報,2015,31(3):253-264.

[4] 黃菲菲,曹江濤,姬曉飛.基于多通道信息融合的雙人交互動作識別算法[J].計算機技術(shù)與發(fā)展,2016,26(3):58-62.

[5] 單言虎,張彰,黃凱奇.人的視覺行為識別研究回顧、現(xiàn)狀及展望[J].計算機研究與發(fā)展,2016,53(1):93-112.

[6] LI Wanqing，ZHANG Zhengyou，LIU Zicheng．Action recognition based on a bag of 3D points[C]//IEEE computer society conference on computer vision and pattern recognition workshops.San Francisco,CA,USA:IEEE,2010:9-14.

[7] YANG Xiaodong,ZHANG Chenyang,TIAN Yingli.Recognizing actions using depth motion maps based histograms of oriented gradients[C]//Proceedings of ACM conference on multimedia.Nara,Japan:ACM,2012:1057-1060.

[8] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2005:886-893.

[9] LU Xia,AGGARWAL J K.Spatio-temporal depth cuboid similarity feature for action recognition using depth camera[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2013:2834-2841.

[10] OREIFEJ O, LIU Zicheng. HON4D:histogram of oriented 4D normals for action recognition from depth sequences[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2013:716-723.

[11] YANG Xiaodong,TIAN Yingli.Super normal vector for action recognition using depth sequences[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Columbus,OH,USA:IEEE,2014:804-811.

[12] LU Cewu, JIA Jiaya, TANG Chi-Keung.Range sample depth feature for action recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2014:772-779.

[13] CHEN Chen,JAFARI R,KEHTARNAVAZ N.Action recognition from depth sequences using depth motion maps-based local binary patterns[C]//Proceedings of the IEEE winter conference on applications of computer vision.Waikoloa,HI,USA:IEEE,2015:1092-1099.

[14] LIANG Bin,ZHENG Lihong.Spatio-temporal pyramid cuboid matching for action recognition using depth maps[C]//Proceedings of the IEEE conference on image processing.Quebec City,QC,Canada:IEEE,2015:2070-2074.

[15] 宋健明,張樺,高贊,等.基于深度稠密時空興趣點的人體動作描述算法[J].模式識別與人工智能,2015,28(10):939-945.

[16] HUANG Guangbin,ZHOU Hongming,DING Xiaojian,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man and Cybernetics,Part B,2012,42(2):513-529.

[17] BENEDIKTSSON J A,SVEINSSON J R.Multisource remote sensing data classification based on consensus and pruning[J].IEEE Transactions on Geoscience and Remote Sensing,2003,41(4):932-936.

[19] MAIRAL J,BACH F,PONCE J,et al.Online learning for matrix factorization and sparse coding[J].Journal of Machine Learning Research,2010,11:19-60.

[20] HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1-3):489-501.

[21] IOSIFIDIS A, TEFAS A, PITAS I. Regularized extreme learning machine for multi-view semi-supervised action recognition[J].Neurocomputing,2014,145:250-262.

[22] PLATT J C.Probabilistic outputs for support vector machines and comparison to regularized likelihood methods[C]//Proceedings of advances in large margin classifiers.Cambridge,MA,USA:MIT Press,1999:61-74.