趙磊+周亦敏



摘要:手勢識別是一種多維空間應用,而傳統DTW算法只能解決一維問題,對其進行拓展,演化為不同維度運用,得到一種全新基于改進的新型算法DTWIMP,它能計算兩個N維時間序列之間的距離。以歐氏距離為元素組成矩陣,根據Bellman最優化原理得到最優規整路徑,結合預先錄入的手勢模版,實現動態手勢識別。
關鍵詞關鍵詞:DTW;DTWIMP;歐氏距離;Bellman最優化;手勢識別
DOIDOI:10.11907/rjdk.171904
中圖分類號:TP3-0
文獻標識碼:A文章編號文章編號:16727800(2017)011001204
0引言
計算機視覺技術飛速發展,人機交互技術(Human Computer Interaction,HCI)顯得愈發重要。人機交互最終目標是人與計算機能以更直觀、自然的方式進行交流,所謂自然交互方式是指將人與人交流的手段引入HCI。對此國內外學者開展了大量研究,包括人臉與人體識別、面部表情、體態交互技術研究。手勢作為人機交互領域重要一環,具有直觀性、自然性特點,在交互式游戲、家電控制、手語識別、模擬訓練及機器人控制領域得到了廣泛應用。
使用傳感器(深度攝像機或LeapMotion)捕獲手勢運動軌跡[1]。對于靜態手勢只需關心空間中手的位置與形狀;對于動態手勢實質上需識別手勢軌跡,重點在于如何準確在手勢時間序列上檢測到手勢起始點與終止點,規避手勢交互中回程問題。本文對一維DTW加以拓展與改進,通過實驗驗證其在動態手勢識別中的重要作用。
1DTW算法分析與改進
動態時間規整(Dynamic Time Warping,DTW)算法是一種動態規劃技術,對非線性時間歸一化后進行模式匹配[2]。該算法是種彈性匹配算法,用以解決兩個時間序列在時間軸上長度不規整問題。
DTW算法可實現對于不同長度時間序列相似性的判斷,傳統DTW算法都是針對一維特征輸入情況,由于手勢輸入特征是多維的,需要能夠計算2個N維時間序列之間距離的算法,為此本文提出基于改進的DTWIMP算法,原理如下:
假定有兩個不同時間序列X={x1,x2,…,xx}T與Y={y1,y2,…,yy}T,其中xi,yj是N維的向量,該時間序列長度分別為X與Y,構造規整路徑Z={z1,z2,…,zz}T。因此規整路徑序列Z的長度定義如下:
3實驗分析驗證
3.1模板相似度分析
獲取模板距離后,可根據相似度公式分別計算出當前輸入序列與各手勢模板之間相似度(見圖6)。橫軸代表手勢模板類型,不同線型代表當前輸入序列與模板相似度。以手勢O為例,定義輸入序列與模板序列之間相似度為Likehoods,可得輸入序列與手勢模板O之間相似度最大,Likehoodsmax=0.365,而該輸入序列與其他模板手勢相似度明顯低于該值,表明該輸入序列最可能的分類標簽是手勢O。其余手勢相似度曲線可由類似分析得到結論。
圖6測試序列與參考模板相似度
3.2模型平均正確分類比率分析
評估DTWIMP算法對應不同訓練樣本的分類性能,對于MCI系統而言極其重要,因為如果使用3組訓練樣本與使用30組樣本能達到同樣分類性能,則數據采集及訓練階段將會節省大量時間。
ACCR(Average Correct Classification Ratio)代表平均分類正確率,為了驗證每種手勢樣本訓練數據集大小對DTWIMP算法分類性能影響(如3組樣本訓練集得到分類器性能與20組樣本訓練集得到分類器性能肯定不同)。設計如下實驗:選取10名參與者,對同一種手勢分別進行η(3≤η≤20)次樣本數據實驗,因估計模板閾值至少需要3組訓練樣本,所以最小取值3而非1。為避免選取實驗樣本出現“極好”情況(隨機挑選訓練數據得到最好模板),η的取值應重復10次,分別記錄每一次ACCR值,盡量保證訓練樣本質量在同一水平,記錄ACCR平均值來驗證算法性能(見圖7)。
圖7分類正確率與樣本數量關系
從上述數據可以看出,DTWIMP算法在訓練集大小為3時,ACCR達到了74.55%正確率,在訓練集大小為20時,達到了94.18%的正確率。ACCR總體趨勢是大小與訓練集樣本數量呈正比趨勢,訓練集大小達到12時,ACCR值超過90%(虛線);訓練集大小超過12后,ACCR提升并不明顯。
實驗發現,η的每次重復實驗中,10名參與者標準偏差非常大,這表明DTWIMP分類性能很大程度取決于訓練樣本質量,例如某些參與者使用3組樣本數據得到了ACCR值大于90%的結果,而另一些參與者使用3組不同質量樣本集卻得到了ACCR值小于70%的結果。說明樣本集質量好壞對于分類算法結果具有重要影響。從圖7可以看出,實際手勢模板訓練中,綜合算法魯棒性及節約時間考慮,每種手勢樣本集大小不少于12即可得到90%以上分類正確率。
3.3算法改進前后實時性對比
DTWIMP算法對全局規整進行邊界約束,減少模板匹配所需計算次數,節省規整時間,提高了算法實時性[10]。以本文6種手勢樣本為例,分別重復進行50次預測實驗,記錄算法改進前后50次預測時間,圖8為改進前后手勢O預測時間對比。
圖8算法改進前后手勢O預測時間對比
通過計算,6種手勢算法改進前平均耗時37.75ms,改進后平均耗時25.75ms,驗證了經過路徑約束后,算法實時提高31.79%(見表1)。
4結語
DTWIMP算法為多元狀態空間動態手勢提供了強大分類能力,實驗結果證明該算法對于預定義的幾種手勢(在數據預分割與有限訓練數據集條件下)有著優秀分類性能,同時該算法對于連續數據流中包含無關空手勢的情況也取得了合適的分類結果。endprint
本文基于傳統動態時間規劃算法提出了多維狀態空間DTWIMP算法,對全局規劃路徑進行限制,通過改進后DTWIMP算法對手勢特征輸入進行訓練,輔以相應濾波、預處理、后處理,并通過KFolds折交叉驗證模型健壯性。實驗結果證明,較之基于顏色空間、手型等識別方法,該方法對于復雜背景具有良好適應性與魯棒性,識別速度與識別準確率均有提高。另外,本文只研究了動態手勢,但很多場景下靜態手勢識別也非常重要,因此如何提取手型特征將是一個難點
參考文獻參考文獻:
[1]余旭.基于Kinect傳感器的動態手勢識別[D].重慶:西南大學,2014.
[2]楊潔,康寧.動態時間規整DTW算法的研究[J].科技與創新,2016(4):1112.
[3]WANG L, ZHANG Y, FENG J. On the euclidean distance of images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2005,27(8):13341339.
[4]徐波,于勁松,李行善.基于路徑約束的動態時間規整方法研究[J].系統工程與電子技術,2004,26(1):103105.
[5]吳宇瓊,楊巧梅.Bellman最優模型的應用[J].北方經貿,2007(8):142144.
[6]HERNANDEZVELA A, BAUTISTA M A, PEREZSALA X, et al. BoVDW: bagofvisualanddepthwords for gesture recognition[C].International Conference on Pattern Recognition,2012:449452.
[7]F CHANG, HC CHEN, HC LIU. Double kfolds in SVM[C]. Blumenau:Innovative Mobile and Internet Services in Ubiquitous Computing (IMIS),2015.
[8]高岳林,徐成賢.邊界約束非凸二次規劃問題的分枝定界方法[J].運籌學學報,2001,5(4):8189.
[9]曲智國,高穎慧,王平,等.基于空頻域聯合閾值分割的輪廓檢測方法[J].計算機科學,2012,39(10):286289.
[10]柯映林,賈明.帶邊界約束的B樣條曲面逼近[J].計算機輔助設計與圖形學學報,2003,15(12):15491553.
責任編輯(責任編輯:何麗)endprint