劉亞瑞, 楊文璐
(上海海事大學 信息工程學院,上海 201306)
基于Kinect和變形雅可比-傅里葉矩的手勢識別*
劉亞瑞, 楊文璐
(上海海事大學 信息工程學院,上海 201306)
為了使人機交互變得更加自然,提出利用Kinect體感器獲取手勢深度圖像;利用變形雅可比—傅里葉矩對手勢圖像進行特征提取;利用最小歐氏距離分類器進行建模、分類,實現手勢識別。用Kinect體感器獲取手部深度數據流,深度數據結合閾值分割法,可以有效地實現手勢的分割。變形雅可比—傅里葉矩是一種不變矩,不變矩具有灰度、平移、旋轉和尺度不變性,適合用于多畸變不變圖像的特征提取。實驗對5種手勢進行了測試,平均識別率為95.2 %,實驗結果表明:該方法具有較高的識別率。
Kinect; 變形雅可比—傅里葉矩; 手勢識別; 自然人機交互
在智能計算機的快速發展下,傳統的人機交互方式已經不能滿足人類的需求,人類從而提出了自然交互界面(natural interactive interface)。自然人機交互主要通過手勢、語音和姿勢來實現。其中,通過視覺通道讓計算機感知人的意圖和行為是自然人機交互的重要追求目標,而手勢是一種最直觀的表達方式,所以,在自然人機交互的研究中手勢識別技術顯得非常重要。
手勢識別技術主要包括基于數據手套的手勢識別技術和基于視覺的手勢識別技術,其中,基于數據手套的手勢識別結構復雜、成本昂貴,極大地限制了自然人機交互的進行[1,2]。基于視覺的手勢識別技術[3,4]需要進行手勢分割,在復雜背景下手勢分割易受周圍環境(如背景、光照等)的影響。
在手勢識別方面的研究,已經有了一些研究成果,但是他們的研究都存在一些不足。Liu N等人做出的手勢識別系統可以識別出26個字母[5,6],缺點是系統復雜;Apivan Tuntakurn等人用Kinect體感器自帶的骨骼流建立了手勢識別醫學軟件[7],但是該系統具有局限性,要求人的身體必須全部在Kinect體感器視野范圍內;Li Y在特定手勢識別中采用角點檢測和凸性檢測來識別手勢,缺點是識別率易受周圍環境的影響,無法識別復雜背景下的手勢[8~11]。
基于前述研究的不足,本文提出了一種新的手勢識別的方法。使用Kinect體感器來獲取圖像,然后利用變形雅可比—傅里葉矩[12,13]進行特征提取,可以比較準確地識別出人手表示的數字。
1.1 手勢識別流程
手勢識別的具體流程如圖1所示。

圖1 手勢識別流程圖Fig 1 Flow chart of gesture recognition
1.2 深度圖像變為彩色圖像
手勢分割是將手從圖片背景中完整地分離出來。本文通過使用Kinect體感器來獲取圖像并進行手勢分割。Kinect體感器可以獲取彩色數據流、深度數據流和骨骼數據流。深度數據是指Kinect體感器視野范圍內的物體到Kinect體感器的三維空間距離。
深度數據流提供了一個結構,該結構中每個像素用16位表示,高13位表示人體到Kinect體感器的距離(mm),低3位表示Kinect體感器追蹤到的玩家索引,將每個像素值右移3位即可得到真實距離。當測試者站在體感器前方,將手放在身體的前方時,可以獲取到手到Kinect體感器的距離。
使用深度數據流可以獲取深度圖像,同時通過變換可以將深度圖像變為彩色圖像。本文中利用深度信息,將深度圖像變為黑白兩種顏色的圖像。圖像變換過程中,用到深度數據,根據深度值的不同著以不同的顏色。本方法中根據深度值的不同,分別著黑白兩種顏色。距離Kinect體感器800~900 mm處的像素點著為黑色,其余的像素點著以白色。深度圖像就可以變為黑白兩種顏色的圖像,如圖2所示

圖2 圖像變換Fig 2 Image transformation
1.3 手勢分割
首先將Kinect體感器放在水平桌面上,使測試者坐在距離Kinect體感器1 m處的椅子上;然后使用閾值分割法,實現手勢的分割。本實驗使用800 mm和900 mm作為閾值。手距離Kinect體感器的距離為L,當 800 圖3 手勢圖片Fig 3 Gestures images 1.4 圖像預處理 首先將分割后的RGB圖像變為灰度圖像,如圖4(a)所示。分割后的手勢圖像中存在一些孤立的噪聲點,孤立噪聲點的存在對特征提取和識別會產生很大的影響。需要將噪聲點去除,降低噪聲點對圖像的影響。本文選用中值濾波,中值濾波不僅可以去除噪聲,而且可以保持圖像的邊緣特性,不會使圖像產生顯著的模糊,中值濾波后的圖像如圖4(b)所示。 最后對圖像進行邊緣檢測。因為邊緣檢測可以大幅度地減少數據量,有利于后面進行特征提取。本文中邊緣檢測用的是Canny算子,邊緣檢測后的圖像如圖4(c)所示。 圖4 圖像預處理Fig 4 Image preprocessing 2.1 變形雅可比—傅里葉矩的定義 2003年,阿木古楞等人提出了雅可比—傅里葉矩的理論,此矩具有灰度、尺度、平移和旋轉等多畸變不變性,適合用于多畸變不變圖像的特征提取。但是此矩是定義在極坐標下的,相關計算需要進行極坐標變換,需要大量的計算。后來,阿木古楞等人又提出了變形雅可比—傅里葉矩,此矩定義在笛卡爾坐標系中[3]。 在笛卡爾坐標系中,對于二維數字圖像f(x,y)求積分可以用求和來代替,變形雅可比—傅里葉矩為 (1) 式中 (2) (3) (4) (5) (6) 2.2 特征提取 本文提出使用變形雅可比—傅里葉矩進行特征提取,利用式(1)算出每個圖片的66階不變矩,如圖4(c)的66階不變矩如圖5(a)所示。 從66階不變矩的數據中可以看出,數據具有局部對稱性,當將數據中共軛的數值去掉后就可以得到36階不變矩。如圖5(b)所示。 圖5 圖4(c)的不變矩Fig 5 Invariant moment of fig 4 計算出每種手勢的不變矩的均值和方差,36階不變矩的均值如圖6(a)所示,36階不變矩的方差如圖6(b)所示。 圖6 特征值參數Fig 6 Eigenvalue parameter 首先,用Kinect體感器采集10個人的手勢,每個人做5種手勢,分別表示數字1~5,每種手勢采集40張圖片,其中,20張做訓練樣本,20張用于測試。這樣每種手勢有200張圖片做訓練樣本。 采集好手勢圖片后求出每張圖片的不變矩,然后求出這200張圖片不變矩的均值和方差。保存5種不變矩的均值和方差,作為參數用于測試。 本文用最小歐氏距離(見式(7))作為分類依據 (7) 式中 n的取值為36和66 ,當選擇計算66階矩時,n=66,計算36階矩時,n=36。X表示被測試手勢圖片的不變矩,M表示手勢j所對應的不變矩的均值,Y表示手勢j所對應的不變矩的方差。求出最小距離下的j(等于1,2,3,4,5),j表示被測試手勢所表示的數字為j。 為了驗證特征提取的有效性,選取了5種手勢,分別代表數字1~5,如圖7所示從左到右依次表示手勢1~5。 圖7 手勢1~5Fig 7 Gestures 1~5 測試部分每種手勢用200張圖片來做試驗。選用36階不變矩模型的平均識別率為95.2 %,平均用時為1.36 s;選用66階不變矩模型的平均識別率為91.2 %,平均用時為2.08 s。每種手勢的識別率見表1和表2。 表1 36階矩的識別率Tab 1 Recognition rate of 36 order moment 表2 66階矩的識別率Tab 2 Recognition rate of 66 order moment 識別結果表明:用變形雅可比—傅里葉矩進行特征提取和使用歐氏距離作為分類器進行手勢識別是可行的。本文使用了較少的特征值,擁有較高的識別率。此方法簡單、準確、分類速度快,具有研究意義。 表1和表2相比較可以看出,選用變形雅可比—傅里葉矩36階矩比選用變形雅可比—傅里葉矩66階矩進行特征提取識別效果更好,所以,最后選用了36階矩進行特征提取。 本文使用Kinect體感器獲取深度數據,結合閾值分割法進行手勢分割,降低了光照和背景對手勢分割的影響。使用變形雅可比—傅里葉矩提取手勢的特征,用歐氏距離作為分類器進行分類。識別結果表明:此方法是可行的,且計算簡單,分類速度快。 下一步將采集多種手勢進行識別,希望可以識別出更多的手勢,使人機交互變得更加自然。同時會結合現實,將本文中的方法應用到實際應用中,如虛擬現實、人機交互等。 [1] Wachs J P,Kolsch M,Stern H,et al.Vision-based hand gesture application[J] .Communications of the ACM,2011,54(2):60-71. [2] Kenn H,Megen F V,Sugar R.A glove-based gesture interface for wearable computing applications[C]∥Applied Wearable Computing(IFAWC),2007:1-10. [3] Bisas K K,Basu S K.Gesture recognition using Micosoft Kinec-t[C]∥2011 the 5th International Conference on Automation,Robotics and Applications(ICARA),Wellington,New Zealand:IEEE,2011:100-103. [4] Silanon K,Suvonvorn N.Hand motion analysis for Thaialphabet recognition using HMM[J].International Journal of Information and Electronics Engineering,2011,1(1):65-71. [5] Liu N,Lovel B,kootsookos P.Evaluation of HMM training algorithms for letter hand gesture recognition[C]∥Proceedings of 2003 IEEE the 3th International Symposium on Signal Processing and Information Technology,America,2003:648-651. [6] Zhang Zhengyou.Microsoft kinect sensor and its effect[J].IEEE Journal of Multimedia,2012,19(2):4-10. [7] Tuntankurn A,Thongvigitmanee S S,Sa Ing V,et al.Natural interactive 3D medical image viewer based on finger and arm gestures[C]∥2013 the 6th Biomedical Engineering International Conference(BMEICON),IEEE,2013:1-5. [8] 陳啟軍,朱振嬌,顧 爽.基于傅里葉描述子和HMM 的手勢識別[J].控制工程,2012(19):634-638. [9] Tomer Leyvand,Casey Meekhof,Wei Yichen,et al.Kinect identity technology and experience[J].Computer Society,2011,44(4):94-96. [10] Li Y.Hand gesture recognition using Kinect[C]∥2012 IEEE International Conference on Software Engineering and Service Scie-nce(ICSESS),Beijing,China:IEEE,2012:195-199. [11] Zhao Haiyong,Liu Zhijing,Zhang Hao.Recognizing human activities using non-linear SVM decision tree[J].Intelligent Computing and Information Sicence,2011,134(7):82-92. [12] 阿木古楞,楊性愉,平子良.用變形雅可比(p=4,q=3)—傅里葉矩進行圖像描述[J].光電子·激光,2003,14(9):981-985. [13] 阿木古楞,白云莉,哈斯蘇榮.用不變矩實現花粉顯微圖像的歸一化[J].光電子·激光,2008,11(19):1538-1541. Hand gesture recognition based on Kinect and Pseudo-Jacobi-Fourier moments* LIU Ya-rui, YANG Wen-lu (College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China) In order to make the human-computer interaction becomes more natural,Pseudo-jacobi-Fourier Moments is used for features extraction of gestures image,and combining with Euclidean distance classifier for modeling,classify and hand gesture recognition.Use kinect sensor to obtain hand depth data flow,using depth data combined with threshold segmentation method,can effectively implement gesture segmentation.Pseudo-Jacobi-Fourier is a kind of invariant moment which has gray,rotation and scale invariance,which is suitable for feature extraction of multi-distorted invariant image.Experiments on five kind of gestures are tested,and the average recognition rate is 95.2 %,experimental result demonstrates that the method has high recognition rate. Kinect ; Pseudo-Jacobi-Fourier moments; hand gesture recognition; natural human computer interaction 10.13873/J.1000—9787(2016)07—0048—03 2015—10—21 上海市科學技術委員會資助項目(12441903500) TP 391 A 1000—9787(2016)07—0048—03 劉亞瑞(1989-)男,山東菏澤人,碩士研究生,主要研究方向為通信理論與技術,模式識別。

2 特征提取



3 參數訓練和分類

4 識別結果與分析



5 結束語