朱正偉 祝 磊 饒 鵬
1(常州大學信息科學與工程學院 江蘇 常州 213164)2(常州光電技術研究所 江蘇 常州 213164)
手勢識別交互技術是人機交互(HCI)研究的主要焦點之一。目前,對于手勢識別(HGR)的研究方法也比較多樣化,這些方法可以根據所使用的傳感器的不同進行分類[1]。一般分為基于數據手套的手勢識別和基于計算機視覺的手勢識別,后者使人機交互更加自然,已經成為手勢識別研究的重點。本文提出了一種基于Kinect深度傳感器的手勢識別系統,無需在用戶身上穿戴任何外接設備。
基于Kinect深度傳感器的手勢識別研究大致分為手勢分割、跟蹤定位和特征提取三個過程。Pisharady等[2]針對在復雜背景下手勢分割不準確的問題,提出了一個多類手姿態的手勢識別系統,并取得了較理想的效果。Chen等[3]利用系統當前環境對對象物體進行追蹤,通過Kinect捕獲的圖像深度信息來對前景進行提取,并快速捕捉到目標物體。Yang等[4]利用HOG描述符來表示手勢,闡述了傳統RGB相機所捕獲到的圖像的局部結構特征。Ji等[5]開發了一種RGB視頻序列描述符,將HOG的概念推廣到了3D中。除了使用RGB攝像頭之外,Wu等[6]將HOG描述符運用到了深度圖像中。Oreifej等[7]提出了一種基于HON4D特征來描述序列深度圖,可以同時捕獲手部形狀及其運動信息。Wang等[8]則為深度序列提出了隨機占用模式(ROP)特征。
目前,絕大部分的手勢識別系統主要使用K最近鄰算法(K-NNs)、支持向量機(SVM)、神經網絡和有限狀態機(FSM)等[9]。特別是隱馬爾科夫模型(HMMs),每個觀測都可以被視為一個混合模型,給捕捉數據提供一個強大的概率框架,可以直接用來識別手勢[10]。值得注意的是,在標準HMM中,模型觀測狀態符合混合高斯分布,經常使用極大似然估計(MLE)來對參數進行評估,這樣導致模型的訓練量較大。為了解決過度擬合的問題,Saon等[11]提出了一種結合貝葉斯壓縮感知的隱馬爾科夫模型(BS-HMM),并將其應用到語音識別中。
本文利用手勢圖像的深度信息,將分布序列引入到BS-HMM中,每個分布均由k個連續的幀圖像組成作為觀測,利用巴氏距離研究每個觀測序列概率分布。在該系統中,將巴式距離結合BS-HMM對各類手勢進行建模,然后通過最大期望算法(EM)來訓練參數,這樣做的優點如下:(1)系統學習了基于深度圖像特征的隱藏狀態,所建模型要比基于HMM的手勢識別系統更加規范。(2)將巴式距離融入到了BS-HMM中(稱為BDBS-HMM),給處理深度圖像特征提供了一種更直觀的方式。

Φiwt)TRi(Zt-Φiwt))]
(1)
式中:Ri是一個狀態依賴精度矩陣,wt是先驗值N(0,Ai-1)中的一個感知權值,λi={Ai,Φi,Ri}是狀態參數。通過整合感知權值wt,得到序列特征Z的邊界似然,公式如下:


該系統使用深度傳感器Microsoft Kinect獲取一系列包含幾何信息的深度圖像。然后,利用骨架信息對手部進行跟蹤,通過深度閾值可以很容易地將背景分離出來[13]。根據手部的位置裁剪深度圖像,并將大小調整為50×50像素,然后對深度圖像進行標準化處理。為了細化圖像紋理,通過直方圖均衡化來提高圖像對比度,同時,采用中值濾波的方法對每個圖像進行降噪[14],在本文中,使用的是5×5中值濾波器。

BS-HMM對一系列的數據點進行建模,為了得到序列分布模型,本文提出了BDBS-HMM,將巴氏距離引入到了BS-HMM中,巴氏距離DB用來測量概率分布的差異,其定義公式如下:
(3)

p(μl,∑l|wl,λi)∝
(4)
每個觀測分布hl都是由BDBS-HMM參數λ={πi,aij,Ai,Φi,Ri}生成。

E{logp(H,S|λ)|H,λold}=∑Sp(S|H,λold)logp(H,S|λ)
(5)
式中:λold是當前參數值,第二項主要是為了式(6)的計算。
(6)



通過識別手勢行為動作來對所提出方法的有效性進行評價,F-measures(F值)來評估識別效果,評價標準包括準確率(Precision)、召回率(Recall)和F1分數(F1 Score)[15]。本次實驗是在兩個數據庫上進行,數據庫的原深度視頻信息都是通過微軟Kinect設備捕捉。第一個是MSRGesture3D數據庫,包含了12個動態美國手語手勢,共336個視頻,每個視頻幀數在30~60之間[16],圖1(a)是一個MSRGesture3D數據庫的手勢深度圖像示例。第二個數據庫包含了在實際環境條件下的自記錄數據。本文的數據庫共有100個視頻和上、下、左、右、旋轉、禁止、停止、來、縮放和確定等10類手勢,每個視頻的幀數為60。圖1(b)是本文數據庫的手勢深度圖像示例,由于MSRGesture3D中的大多數手勢視頻都是經過分割處理的,所以只顯示手腕以上部分,但是,本文數據庫中的視頻并沒有被很好地分割,因此需要使用手勢定位來對數據庫進行預處理。在實驗過程中,一半文件用于手勢訓練,另一半文件用于手勢測試。

(a)

(b)圖1 MSRGesture3D數據庫和本文數據庫手勢深度圖
為了證實提出的BDBS-HMM的效率,本文選擇使用標準HMM作為參照,由于HMM通常會導致模型過度擬合,所以選擇使用BS-HMM作為另一個參照。本研究共進行了兩個實驗,實驗一研究了HMM、BS-HMM、和BDBS-HMM在不同混合分量下的識別效果。實驗二檢測了訓練過程中BS-HMM和BDBS-HMM基向量的相似性,同時也研究了主動相關決策(ARD)參數。在這兩個實驗中,對HOG和HON4D兩個特征集也進行了研究。為了公平比較,HMM、BS-HMM和BDBS-HMM都使用相同的特征集。通過64分量標準HMM初始化BS-HMM和BDBS-HMM的基向量,每個實驗隨機劃分進行20次得出平均結果。
首先,將HMM、BS-HMM和BDBS-HMM分為兩個隱狀態,每個狀態下,混合分量設置為2個、4個、8個和16個,表1和表2分別表示使用MSRGesture3D數據集和本文的數據集獲得的實驗結果。實驗結果表明,在大多數情況下,本文提出的BDBS-HMM效果要比HMM和BS-HMM要好。在這里,BS- HMM和BDBS-HMM都使用64分量HMM初始化。

表1 使用MSRGesture3D數據庫手勢識別率 %

表2 使用本文數據庫手勢識別率 %
接下來,對本文提出的BDBS-HMM和BS-HMM進行更詳細的比較。理論上講,混合分量中的基向量集在訓練學習過程中會更加獨立,以訓練過程中的前五次迭代為例,圖2為余弦相似度和ARD參數與迭代次數關系圖。ARD的值表示感知權值的精度,BS-HMM與BDBS-HMM二者算法的比較驗證了它們的收斂速度是相似的。表3使用了MSRGesture3D的數據庫,比較了BS-HMM和BDBS-HMM的平均F值,實驗結果表明,本文提出的BDBS-HMM要優于BS-HMM。

表3 BS-HMM與BDBS-HMM的Precision、Recall和F1 Score比較


(a) 使用BS-HMM得到的結果


(b) 本文所提出的BDBS-HMM得到的結果圖2 余弦相似度和ARD參數與迭代次數關系圖
本文提出了一種基于深度信息的手勢識別系統,該系統的主要創新之處在于其較好的處理概率特征的能力。為了處理序列分布形式特征,將巴氏距離引入到BS-HMM中,通過極大似然法對提出的BDBS-HMM參數進行預估。同時也考慮到了模型正規化,使用EM算法推導出參數的遞歸解,并將所提出的BDBS-HMM與使用標準HMM和BS-HMM的手勢識別效果進行比較,實驗結果表明了在使用MSRGesture3D數據庫的情況下所提出的BDBS-HMM的優越性。