基于多層運動歷史圖像的飛行時間相機人體運動識別

2014-05-30 11:41:46張旭東胡良梅段琳琳

電子與信息學報 2014年5期

張旭東楊靜胡良梅段琳琳

張旭東*楊靜胡良梅段琳琳

(合肥工業(yè)大學計算機與信息學院合肥 230009)

該文利用飛行時間(Time-Of-Fligh, TOF)相機提供的距離圖像，在運動歷史圖像的基礎上提出一種基于多層運動歷史圖像的人體運動識別方法。計算距離輪廓序列的運動能量圖作為整體運動信息，同時根據距離變化量，計算前向、后向的多層運動歷史圖像作為局部運動信息，共同組成多層運動歷史圖像。為了解決Hu矩對不連續(xù)或具有噪聲的形狀較為敏感的問題，引入R變換對每層運動歷史圖像進行特征提取，串聯形成特征向量送入SVM進行分類識別。實驗結果表明，該識別方法可以有效識別人體運動。

人體運動識別；距離圖像；多層運動歷史圖像；R變換

1 引言

人體運動識別是計算機視覺領域的一個重要研究課題，在視頻監(jiān)控、虛擬現實、人機交互等方面有廣闊的應用前景。基于視頻的人體運動識別的關鍵是如何從視頻中提取可靠的特征表征人體動作。利用2D相機獲取運動人體信息是過去幾十年的研究重點。然而，2D相機自身的局限性使已有的2D相機運動識別方法[1]僅適用于運動平行于相機的情況，由于人體運動從本質上來說是3D的，距離信息的丟失使2D相機的運動表征方法識別能力大大降低。同時，2D相機運動識別易受光照和人體膚色等的影響。

隨著相機和視頻技術的發(fā)展，可以采用基于飛行時間(Time-Of-Flight, TOF)的3D相機[2]獲取具有3維信息的距離圖像。距離圖像可以提供垂直于相機的運動信息，以較小的計算代價更加精確地描述和識別人體運動[3]。這樣，由于2D相機將3維運動投影到2維圖像平面上而產生的距離模糊就不復存在了。

本文方法歸屬上述3種方法中的第2種。利用TOF相機的距離信息，結合傳統(tǒng)MHI和文獻[11]的3DMHI，提出多層運動歷史圖像(Multi-Layered Motion History Images, MLMHI)的人體運動描述方法。MLMHI由運動能量圖和前向、后向多層運動歷史圖像組成，包含了沿著距離方向變化的運動歷史，能夠體現運動的整體信息和局部信息，從而更加精確地描述人體運動。然后引入R變換對每層運動歷史圖像進行特征提取，串聯形成特征向量送入SVM分類器中進行分類。

2 運動人體檢測

運動人體檢測是人體運動識別的基礎。受光照、陰影等影響，利用2D相機進行運動人體檢測仍然是具有挑戰(zhàn)性的工作。本文利用距離信息，結合背景差分法[13]進行運動人體檢測，以克服上述缺點。具體表達式如式(1)所示：

式中為檢測到的運動人體的距離圖像；為當前幀的距離圖像；為預先設定的距離閾值；為背景幀的距離圖像。為了構造背景模型，假設背景是靜止的，采用平均背景法。記錄沒有運動人體時的背景距離圖像序列，計算多幅背景距離圖像的平均值作為背景距離圖像。圖1所示為提取出的運動人體的距離輪廓圖像，這里取1.2。

3 多層運動歷史圖像及R變換

3.1 傳統(tǒng)運動歷史圖像

3.2 多層運動歷史圖像

3.3 R變換

文獻[15]驗證了在標準大小的圖像中，R變換具有平移和尺度不變性。對每層MLMHI進行R變換，得到180維的特征向量。這樣，每個運動序列共得到900維的特征向量。

4 實驗結果與分析

本文分別在自己建立的數據庫與MSR Daily 3D運動數據庫[12]上進行了實驗并與其他方法進行了比較。采用支持向量機[16]進行運動數據的訓練與測試。實驗中使用LibSVM工具包，并且分別選用線性核函數與RBF核函數。同時采用10次10倍交叉驗證法，即數據被隨機劃分為10份，輪流將其中9份作為訓練數據，1份作為測試數據，取這10次結果的平均值作為這次劃分的結果，再將這種隨機劃分做10次，取10次劃分的實驗結果平均值作為最終的識別率。

4.1自建的運動數據庫對比實驗

本文利用基于TOF原理的PMD相機[17,18]建立自己的數據庫。數據庫中包含以下6種動作：喝水(drink)、鼓掌(clap)，坐下(sd)，起立(su)，走近(come)，走遠(go)。如圖2所示，所有動作都垂直朝向PMD相機。每種動作由10個人分別完成，每人做15遍。PMD相機幀率為25 fps，每個運動序列約為75幀。實驗中，時間窗口長度選擇70幀。

4.1.1 3DMHI分類結果文獻[11]提出的3DMHI包括MHI，前向運動歷史fDMHI和后向運動歷史bDMHI。在本文數據庫上進行實驗，圖3所示為喝水動作的3DMHI及其R變換。圖4所示為線性核函數的識別結果，可以看到，3DMHI+R變換的平均識別率比3DMHI+Hu矩的平均識別率高，R變換的引入在一定程度上提高了識別率。

4.1.2 MLMHI分類結果圖5所示為喝水動作的MLMHI。從圖中可以看出，在運動歷史的距離變化量上進行分層可以更好地表征運動的3維特性，既能突出其在距離方向上變化量較小的局部信息，又能體現其距離變化較大的局部信息。利用線性核函數的識別結果如圖6所示。表1為3DMHI和MLMHI兩種方法在不同核函數下的識別結果對比。從表1可以看到，本文提出的MLMHI比3DMHI識別率有明顯的提高，識別效果更好。

圖2 數據庫中的6種運動

表1 MLMHI與3DMHI的對比(%)

圖3 喝水動作的3DMHI及R變換示意圖

圖4 3DMHI在線性核函數下識別結果

圖5 喝水動作的MLMHI 從左到右依次為MEI,,,,

圖6 MLMHI在線性核函數下的識別結果

4.2 MSR Daily 3D運動數據庫對比實驗

MSR Daily 3D運動數據庫是由微軟研究小組用Kinect相機建立的數據庫。共包含16種運動：“drink”，“eat”，“read book”，“call cellphone”，“write on a paper”，“use laptop”，“use vacuum cleaner”，“cheer up”，“sit still”，“toss paper”，“play game”，“l(fā)ay down”，“walk”，“play guitar”，“stand up”，“sit down”。每種運動由10個人完成，每人做2遍：一遍站立完成，一遍坐在沙發(fā)上完成，涵蓋了起居室可能發(fā)生的日常行為。數據庫中已經用距離閾值法去除了復雜的背景。

由于數據庫中的每種運動視頻幀數從50到300不等，為了得到最佳的時間窗口長度，在每種運動中選取幀數為80到300的序列分別進行實驗。若視頻中的幀數小于所選幀數，則選擇其視頻中的全部幀。在不同時間窗口長度下的識別率如圖7所示，由圖7可知在幀數為270左右時識別效果最佳，其分類混淆矩陣如圖8所示，平均識別率為83.125%。由實驗可知，對于不同的數據庫，運動識別率有所不同，本文建立的數據庫較為簡單，只包含了6種動作，因此識別率相較于MSR Daily 3D運動數據庫要高。

為了驗證本文方法對哪類動作更有效，根據前后距離變化大小將MSR Daily 3D運動數據庫中的動作分為AS1和AS2兩類，分別對其進行識別，選擇時間窗口長度為270時，在R變換和線性核函數下的分類混淆矩陣如圖9和圖10所示。本文方法對“l(fā)ay down”和“walk”等前后距離變化較大的動作識別率較高，而對“sit sitll”，“play game”等距離幾乎沒有變化的動作識別率略差，這是由于前后距離變化較小時不能獲取更多有用的距離信息。

最后，將本文的識別結果與使用MSR Daily 3D運動數據庫的其它方法進行了對比，并且將文獻[11]提出的3DMHI在此數據庫上進行了實驗，如表2所示。本文方法比文獻[11]的3DMHI方法識別率有明顯的提高。文獻[4]和文獻[7]用關節(jié)點位置作為特征，受噪聲的影響和人體與其它物體交互的影響較大，平均識別率較低。文獻[12]同樣采用關節(jié)點位置作為特征，但考慮到數據庫中有多種運動是人體與環(huán)境中其它物體的交互，又設計了基于關節(jié)點周圍3D點云的局部占有信息(LOP)作為特征，同時提出了傅里葉時序金字塔FTP特征描述方法。由于文獻[12]對人物交互做了單獨處理，使得關節(jié)點位置特征與LOP的聯合特征平均識別率高達85.75%。對比可知，本文方法優(yōu)于單獨使用關節(jié)點位置的方法，但識別率略低于文獻[12]中聯合特征的方法。

圖7 MLMHI在不同時間窗口長度下的識別率

圖8 幀數為270時R+線性核函數的分類混淆矩陣

圖9 AS1分類混淆矩陣

圖10 AS2分類混淆矩陣

表2本文方法與各方法的識別率(%)

方法LOP特征[12]DTW[4]關節(jié)點位置特征[12]NBNN[7]3DMHI+Hu[11]FTPF[12]LOP+關節(jié)點位置特征[12]MLMHI+R(本文方法) 識別率42.554.068.07073.1378.085.7583.12

5 結束語

本文對利用TOF相機提供的距離圖像進行人體運動識別開展了研究。在傳統(tǒng)運動歷史圖像的基礎上，提出了多層運動歷史圖像的人體運動描述方法，多層運動歷史圖像由運動能量圖、前向多層運動歷史圖像和后向多層運動歷史圖像組成。然后引入R變換對每層運動歷史圖像進行特征提取。分別在我們自建的數據庫和MSR Daily 3D運動數據庫上進行了實驗。結果表明，本文提出的MLMHI及引入R變換進行特征提取的方法，優(yōu)于同類方法及只使用關節(jié)點位置進行識別的方法，但略差于聯合特征的方法。因此，將本文方法與關節(jié)點位置特征相結合，進一步提高識別率，是本文下一步的研究重點。

[1] Weinland D, Ronfard R, and Boyer E. A survey of vision-based methods for action representation, segmentation and recognition[J]., 2011, 115(2): 224-241.

[2] Lange R. 3D time-of-flight distance measurement with custom solid-state image sensors in CMOS/CCD- technology[D]. [Ph.D. dissertation], University of Siegen, 2000.

[3] Chen L, Wei H, and Ferryman J M. A survey of human motion analysis using depth imagery[J]., 2013, 34(15): 1995-2006.

[4] Müller M and R?der T. Motion templates for automatic classification and retrieval of motion capture data[C]. Proceedings of the 2006 ACM SIGGRAPH/Eurographics Symposium on Computer Animation. Eurographics Association, Switzerland, 2006: 137-146.

[5] Xia L, Chen C C, and Aggarwal J K. View invariant human action recognition using histograms of 3D joints[C]. 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Providence, 2012: 20-27.

[6] Yang X and Tian Y L. Eigenjoints-based action recognition using naive-bayes-nearest-neighbor[C]. 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Providence, 2012: 14-19.

[7] Seidenari L, Varano V, Berretti S,.. Weakly Aligned Multi-part Bag-of-Poses for Action Recognition from Depth Cameras[M]. Springer Berlin Heidelberg: New Trends in Image Analysis and Processing, 2013: 446-455.

[8] Shotton J, Sharp T, Kipman A,.. Real-time human pose recognition in parts from single depth images[J]., 2013, 56(1): 116-124.

[9] Li W, Zhang Z, and Liu Z. Action recognition based on a bag of 3D points[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), San Francisco, CA, 2010: 9-14.

[10] Yang X, Zhang C, and Tian Y L. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]. Proceedings of the 20th ACM International Conference on Multimedia, New York, 2012: 1057-1060.

[11] Ni B, Wang G, and Moulin P. RGBD-HuDaAct: a color- depth video database for human daily activity recognition[C]. 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), Barcelona, 2012: 1147-1153.

[12] Wang J, Liu Z, Wu Y,.. Mining actionlet ensemble for action recognition with depth cameras[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, 2012: 1290-1297.

[13] Haritaoglu I, Harwood D, and Davis L S. W4: real-time surveillance of people and their activities[J]., 2000, 22(8): 809-830.

[14] Bobick A F and Davis J W. The recognition of human movement using temporal templates[J]., 2001, 23(3): 257-267.

[15] Wang Y, Huang K, and Tan T. Human activity recognition based on R transform[C]. IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, MN, 2007: 1-8.

[16] 高雋. 人工神經網絡原理及仿真實例[M]. 北京: 機械工業(yè)出版社, 2003: 76-86.

[17] Schwarte R. Smart Pixel-photonic Mixer Device (PMD)[C]. Proceedings of International Conference on Mechatronics and Machine Vision, 1998: 259-264.

[18] 張旭東, 沈玉亮, 胡良梅, 等. 改進的PMD距離圖像超分辨率重建算法[J]. 中國圖象圖形學報, 2012, 17(4): 480-486.

Zhang X D, Shen Y L, Hu L M,.. Improved super- resolution reconstruction algorithm for PMD range image[J]., 2012, 17(4): 480-486.

張旭東：男，1966年生，博士，教授，碩士生導師，研究方向為機器視覺、傳感器技術、智能信息處理以及相關應用系統(tǒng)的開發(fā).

楊靜：女，1990年生，碩士生，研究方向為智能信息處理.

胡良梅：女，1974年生，博士，副教授，碩士生導師，研究方向為信息融合、圖像處理、圖像理解、模式識別、智能信息處理.

Human Activity Recognition Using Multi-layered Motion HistoryImages with Time-Of-Fligh (TOF) Camera

Zhang Xu-dong Yang Jing Hu Liang-mei Duan Lin-lin

(,,230009,)

A new method extended from motion history image called Multi-Layered Mmotion History Images (MLMHI) is proposed to the representation and recognition of human activity using depth images provided by Time-Of-Fligh (TOF) camera. Firstly, the motion-energy image of the depth silhouettes is computed as the global motion information. Then, the forward-MLMHI and backward-MLMHI is computed as the local motion information based on the variable of depth. The global and local motion information constitute the MLMHI lastly. Since the Hu moments are sensitive to disjoint shapes and noise, R transform is employed to extract features from every layered-MHI and concatenated to form a feature vector. The feature vector is used as the input of Support Vector Machine (SVM) for recognition. Experimental results demonstrate the effectiveness of the proposed method.

Human activity recognition; Depth image; Multi-Layered Motion History Images (MLMHI); R transform

TP391

1009-5896(2014)05-1139-06

10.3724/SP.J.1146.2013.01003

張旭東 xudong@hfut.edu.cn

2013-07-10收到，2013-09-29改回

國家自然科學基金(61273237, 61271121)和安徽省自然科學基金(11040606M149)資助課題