鄭 韡 沈旭昆
(北京航空航天大學(xué) 虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100191)
基于連續(xù)數(shù)據(jù)流的動(dòng)態(tài)手勢(shì)識(shí)別算法
鄭 韡 沈旭昆
(北京航空航天大學(xué) 虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100191)
為識(shí)別用戶做出的動(dòng)態(tài)手勢(shì)序列,基于數(shù)據(jù)手套采集的連續(xù)數(shù)據(jù)流,運(yùn)用奇異值分解消除數(shù)據(jù)噪點(diǎn),提取手勢(shì)的特征信息,并利用關(guān)節(jié)彎曲的生理學(xué)特性與用戶解耦合,將各種動(dòng)作片段抽象成用戶無關(guān)的手勢(shì)模板,從而唯一定義手勢(shì)特征并屏蔽不同用戶的手勢(shì)差異,再基于Hill Climbing思想把連續(xù)數(shù)據(jù)流分割成有序的動(dòng)作序列,并按時(shí)序?qū)λ衅卧陬A(yù)先構(gòu)造的層次樹上實(shí)時(shí)搜索,根據(jù)歐式距離度量序列與手勢(shì)模板的相似性.該算法對(duì)手勢(shì)序列的分割準(zhǔn)確,對(duì)多用戶具有良好的適應(yīng)性,其有效性在使用5DT數(shù)據(jù)手套搭建的兩組動(dòng)態(tài)手勢(shì)識(shí)別的實(shí)驗(yàn)中得以驗(yàn)證.
連續(xù)數(shù)據(jù)流;奇異值分解;動(dòng)態(tài)手勢(shì)識(shí)別
在虛擬現(xiàn)實(shí)的人機(jī)交互環(huán)境中,用戶借助大量自然的輸入設(shè)備(如觸力覺設(shè)備、定位設(shè)備等)與計(jì)算機(jī)交互,計(jì)算機(jī)通過分析它們的數(shù)據(jù)理解用戶的動(dòng)作指令,實(shí)時(shí)做出反饋,從而讓用戶獲得自然、真實(shí)的類人際交互的沉浸感和體驗(yàn).對(duì)這類傳感器數(shù)據(jù)的分析、處理過程和傳統(tǒng)的數(shù)據(jù)庫(kù)查詢[1]操作存在很大的差異性,后者的數(shù)據(jù)穩(wěn)定,基于精確匹配就能完成全局?jǐn)?shù)據(jù)庫(kù)的搜索,而傳感器數(shù)據(jù)由于是連續(xù)到達(dá)、不斷變化的[2],它有著以下幾個(gè)方面的特點(diǎn):①連續(xù)性.傳感器以連續(xù)的數(shù)據(jù)流形式輸出,數(shù)據(jù)不斷變化和更新,因此給查詢、匹配操作帶來了挑戰(zhàn).②高維度.通常測(cè)量實(shí)驗(yàn)需要部署大量傳感器,數(shù)據(jù)輸出維度高,采樣密度大,對(duì)存儲(chǔ)帶寬和容量要求高,導(dǎo)致基于大數(shù)據(jù)量的實(shí)時(shí)查詢難以保證.③干擾性.連續(xù)性的數(shù)據(jù)流中存在大量冗余、無效信息,從中分割源數(shù)據(jù)并提取有用的信息元比較困難.
目前基于連續(xù)數(shù)據(jù)流的工作主要集中在網(wǎng)絡(luò)流量監(jiān)控、數(shù)據(jù)挖掘等[3]領(lǐng)域,在人機(jī)交互以及智能機(jī)器人領(lǐng)域,連續(xù)數(shù)據(jù)流被用來做手勢(shì)動(dòng)作的識(shí)別[4],通常需要先變換數(shù)據(jù)完成空間壓縮,并選取合適的度量方法如Minkowski,Manhattan,Canberra[5]等,最后進(jìn)行目標(biāo)的匹配和分類.主要的降維方法是采用離散傅里葉變換(DFT,Discrete Fouriet Transform)、小波變換(DWT,Discrete Wavelet Transform)[6]以及主成分分析法(PCA,Principal Component Analysis)等,基于線性變換提取特征信息,缺點(diǎn)在于上述不能保證尋找到一個(gè)最低維度的子空間用于包含最大的特征點(diǎn),無法適用于實(shí)時(shí)性要求高的精確匹配操作.匹配算法主要基于隱馬爾科夫(HMM,Hidden Markov Model)[7]、模糊識(shí)別[8]、神經(jīng)網(wǎng)絡(luò)(NN,Neural Network)[9]和支持向量機(jī)(SVM,Support Vector Machine)[10]等,其基本思想是利用大量樣本訓(xùn)練分類器,從而根據(jù)標(biāo)簽對(duì)樣本分類,雖然這些方法識(shí)別率很高,但由于需要一個(gè)長(zhǎng)時(shí)間的樣本訓(xùn)練階段,建立的手勢(shì)庫(kù)和佩戴用戶耦合緊密,在更換用戶的情況下需要重建手勢(shì)庫(kù),過程復(fù)雜漫長(zhǎng),無法適應(yīng)多用戶協(xié)同工作的環(huán)境.
本文針對(duì)數(shù)據(jù)手套采集的連續(xù)數(shù)據(jù)流的特點(diǎn),提出一種全新的動(dòng)態(tài)手勢(shì)的識(shí)別算法,既保證了識(shí)別的實(shí)時(shí)性和精確性,又能夠方便適應(yīng)于多用戶的協(xié)調(diào)環(huán)境.
1)采取奇異值分解法(SVD,Singular Value Decomposition)壓縮數(shù)據(jù)空間,同時(shí)最大化保留原始數(shù)據(jù)的特征信息,這種能量最優(yōu)化的分解方法,在數(shù)據(jù)壓縮和特征保留之間做了平衡,既保證了實(shí)時(shí)性又實(shí)現(xiàn)了匹配的精確性,從而滿足對(duì)高維度數(shù)據(jù)實(shí)時(shí)精確匹配的要求.
2)基于Hill Climbing思想從數(shù)據(jù)流中提取出動(dòng)作片段信息,利用關(guān)節(jié)彎曲范圍的生理特性將動(dòng)作元的冗余數(shù)據(jù)剔除,并與用戶生理信息解耦合,抽象成一種通用的手勢(shì)模板,從而適應(yīng)在多用戶協(xié)同工作環(huán)境中,無需重建手勢(shì)庫(kù)即能對(duì)當(dāng)前用戶的動(dòng)態(tài)手勢(shì)做出準(zhǔn)確識(shí)別.
動(dòng)態(tài)手勢(shì)是不固定時(shí)長(zhǎng)的一串動(dòng)作序列,可以理解為一系列離散的動(dòng)作片段按照先后次序排列構(gòu)成,每個(gè)動(dòng)作片段可以看成一種靜態(tài)手勢(shì).
為了識(shí)別動(dòng)態(tài)手勢(shì)序列,將識(shí)別過程拆分成2部分,首先從連續(xù)數(shù)據(jù)流中分割出獨(dú)立的動(dòng)作片段,其次用一種相似性度量方法對(duì)它們進(jìn)行匹配識(shí)別.用戶做出的某種動(dòng)態(tài)手勢(shì)可以用G=(g1,g2,…,gn)描述,其中 g1,g2,…稱為一個(gè)個(gè)獨(dú)立的動(dòng)作元片段,通過定位每個(gè)動(dòng)作元的起始點(diǎn)和結(jié)束點(diǎn),將他們分離,并對(duì)這些動(dòng)作元進(jìn)行數(shù)據(jù)壓縮,抽取與用戶無關(guān)的特征信息,抽象成手勢(shì)模板,最后利用相似性度量方法,通過遍歷預(yù)先構(gòu)造的搜索樹,查詢匹配的手勢(shì).
整個(gè)識(shí)別流程包含手勢(shì)庫(kù)搭建和實(shí)時(shí)手勢(shì)識(shí)別2個(gè)模塊,如圖1所示.

圖1 動(dòng)態(tài)手勢(shì)識(shí)別的2個(gè)階段
和傳統(tǒng)的輸入設(shè)備相比,數(shù)據(jù)手套能夠提供更多的描述手指和手掌姿態(tài)的自由度,從而完整的定義佩戴用戶當(dāng)前所做的手型,并記錄下時(shí)間戳.雖然這組數(shù)據(jù)詳細(xì)描述了用戶的手勢(shì)信息,但是它不可避免的帶有以下缺點(diǎn):
1)數(shù)據(jù)和用戶耦合.用戶手型存在的個(gè)體性的生理差異(如尺寸長(zhǎng)短、關(guān)節(jié)比例等),導(dǎo)致不同用戶做同樣的手勢(shì),傳感器數(shù)據(jù)并不相同.
2)傳感器值敏感.傳感器的采樣頻率高(>75 Hz),精度高(>8位有效數(shù)字),同一用戶重復(fù)做相同的手勢(shì),前后獲得的數(shù)據(jù)也可能差異很大,導(dǎo)致數(shù)據(jù)冗余.
3)數(shù)據(jù)維度高.手的生理構(gòu)造復(fù)雜,關(guān)節(jié)運(yùn)動(dòng)靈活,數(shù)據(jù)手套通常需要14~22個(gè)傳感器才能準(zhǔn)確描述手型的姿勢(shì).
4)噪點(diǎn)擾動(dòng)大.傳感器記錄的時(shí)間段涵蓋了手臂抖動(dòng)、不同手勢(shì)間的過渡動(dòng)作,這些無效信息需要進(jìn)行過濾.
為此需要進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮和特征提取以保證算法的實(shí)時(shí)性.奇異值分解法(SVD)被廣泛應(yīng)用于信號(hào)處理、模式識(shí)別等領(lǐng)域.根據(jù)奇異值分解的性質(zhì),任意一個(gè)矩陣Gm×n,總存在m階對(duì)角陣 U=[u1,u2,…,um]和 n 階對(duì)角陣 V=[v1,v2,…,vn],使得

其中 σ1≥σ2≥…≥σp≥0 是 Gm×n的奇異值.
根據(jù)分解矩陣和原始矩陣的能量關(guān)系,存在如下定理:

由定理1可以推出SVD分解后的矩陣能量,描述為


基于上述理論,SVD把數(shù)據(jù)集的特征值按照重要性排列,經(jīng)過矩陣變換舍棄不重要的特征向量,完成數(shù)據(jù)降維,并把剩余的特征向量按照能量關(guān)系張成特征子空間,采取最優(yōu)分布原則,從而最大化的保留了原始數(shù)據(jù)的核心特征信息.
假定用戶佩戴一副有m個(gè)傳感器的數(shù)據(jù)手套,重復(fù)做一種手勢(shì)n次,以m作為行向量,n為列向量,將數(shù)據(jù)表示成矩陣形式Gm×n,為了最大限度的記錄當(dāng)前用戶手勢(shì)的全部信息,需要多次采樣,該原始矩陣的n值通常很大.
對(duì)原始矩陣Gm×n進(jìn)行SVD分解,對(duì)得到的m階對(duì)角陣U提取左側(cè)的r列向量SrU,r?n,過程如圖2所示.

圖2 SVD從原始矩陣中提取最大子空間
由于通常情況下采集的樣本數(shù)n遠(yuǎn)大于傳感器數(shù)量m,又根據(jù)能量最優(yōu)原理子空間最大程度的保留了原始矩陣的變化量.于是,經(jīng)過SVD分解后,高維的原始矩陣在完成空間維數(shù)壓縮的同時(shí)保留了手型的關(guān)鍵信息,該r維子空間稱為手勢(shì)的數(shù)據(jù)描述文檔.
盡管不同用戶做同樣的手勢(shì),測(cè)得的數(shù)據(jù)不盡相同,但是人手的關(guān)節(jié)彎曲有一定的范圍和限度,在定義一種初始狀態(tài)的情況下(例如定義握拳為初始狀態(tài)),不同的手勢(shì)和初始狀態(tài)的差量(即關(guān)節(jié)的彎曲變化區(qū)間)能夠唯一的描述該手勢(shì),避免直接使用手勢(shì)對(duì)應(yīng)的關(guān)節(jié)彎曲角度量,因而這種描述和特定用戶無關(guān),它是一種通用的手勢(shì)模板.
通過上述方法剔除和用戶耦合的數(shù)據(jù),抽象出一種通用的手勢(shì)描述模板,能屏蔽用戶在生理構(gòu)造上的差異性,從而避免繁瑣的標(biāo)定步驟,并且模板庫(kù)的更新和維護(hù)能夠?qū)崟r(shí)進(jìn)行,極大的簡(jiǎn)化了用戶操作流程,從而適應(yīng)多人協(xié)同的工作環(huán)境.圖3詳細(xì)說明了構(gòu)建抽象手勢(shì)模板的具體過程.

圖3 抽象手勢(shì)模板的搭建過程
1)計(jì)算差值.


2)傳感器值是連續(xù)線性變化的,在t時(shí)間段,不斷刷新當(dāng)前的最大值和最小值,獲得手勢(shì)的動(dòng)態(tài)運(yùn)動(dòng)范圍,把歸一化到0~1區(qū)間:

3)由于數(shù)據(jù)流是連續(xù)的,選取合適的離散因子k進(jìn)行離散化處理,獲得不同關(guān)節(jié)彎曲范圍的分布圖.

4)傳感器的測(cè)量值是無符號(hào)的,需要額外加上方向信息,根據(jù)手勢(shì)的差值,如下定義正、反兩個(gè)運(yùn)動(dòng)方向:

將式(7)定義的方向信息加入Di中:

由于G描述了手勢(shì)St相對(duì)初始狀態(tài)St0的運(yùn)動(dòng)增量和方向,而不是具體的關(guān)節(jié)彎曲角度,因此G與特定用戶的手型無關(guān),它是該手勢(shì)的一種抽象表述,圖4是某個(gè)手勢(shì)片段的原始數(shù)據(jù)流轉(zhuǎn)成手勢(shì)模板的文本描述示意圖.

圖4 原始數(shù)據(jù)流和手勢(shì)模板的文本描述
由于不同用戶做同樣一組手勢(shì)的時(shí)間不盡相同,原始的動(dòng)態(tài)手勢(shì)是一串不固定長(zhǎng)度的數(shù)據(jù)流信息,需要將其表示成由動(dòng)作片段構(gòu)成的序列,即分割成獨(dú)立的靜態(tài)手勢(shì)的集合,由于片段間的時(shí)間間隙不確定,本文采用基于Hill Climbing啟發(fā)式的思想,對(duì)這些動(dòng)作片段的始末點(diǎn)進(jìn)行檢測(cè)并實(shí)時(shí)提取.
Hill Climbing廣泛應(yīng)用于尋求局部最優(yōu)解,采用啟發(fā)式方法,利用反饋信息幫助生成解的決策.初始狀態(tài)算法隨機(jī)選取一個(gè)節(jié)點(diǎn),搜索從該節(jié)點(diǎn)開始,和周圍鄰居節(jié)點(diǎn)的值進(jìn)行比較.如果當(dāng)前節(jié)點(diǎn)是最大的,那么返回當(dāng)前節(jié)點(diǎn),作為最大值(即山峰最高點(diǎn));反之就用最高的鄰居節(jié)點(diǎn)替換當(dāng)前節(jié)點(diǎn),從而實(shí)現(xiàn)向山峰的高處攀爬的目的,如此循環(huán)直到達(dá)到最高點(diǎn),從而輸出局部最優(yōu)解.
本文用Gm×t表示一段時(shí)長(zhǎng)為t的動(dòng)態(tài)手勢(shì),含有m 個(gè)傳感器,數(shù)據(jù)庫(kù)(g1,g2,…,gn)表示已知的n種抽象手勢(shì)模板,S(Gm×t,gi)度量當(dāng)前數(shù)據(jù)流和某種手勢(shì)模板的相似性.在Gm×t中檢測(cè)已知的手勢(shì)片段時(shí),將待檢測(cè)項(xiàng)與整串?dāng)?shù)據(jù)比較,一旦串中出現(xiàn)待檢測(cè)項(xiàng)的開始點(diǎn)時(shí),兩者的相似性開始逐步累加,直到相似性出現(xiàn)拐點(diǎn)時(shí)說明檢測(cè)到動(dòng)作片段的結(jié)束點(diǎn).記錄下全局過程中的每個(gè)相似性變量,并把它們放入備選集中,最后從中輸出一個(gè)全局最大值,這個(gè)值代表的數(shù)據(jù)串的始末點(diǎn)就是與待檢測(cè)項(xiàng)最為匹配的部分,從而將手勢(shì)轉(zhuǎn)化為一組動(dòng)作元序列.
圖5顯示了在時(shí)長(zhǎng)約為3 s的一段數(shù)據(jù)流中提取3個(gè)靜態(tài)手勢(shì)的示意圖,該串原始數(shù)據(jù)代表由手語L,V,I構(gòu)成的動(dòng)作序列.開始時(shí)段,由于手語Y的拇指關(guān)節(jié)的彎曲度和L很相似,造成Y的相似度較高,當(dāng)測(cè)到差異性關(guān)節(jié)點(diǎn)時(shí),Y的相似性開始急劇減少,L則穩(wěn)固上升.在0~10時(shí)間段的檢測(cè)中,可以判定存在手語L而排除Y.在10~25時(shí)段,字母U和V的手勢(shì)非常相似,因此算法檢測(cè)出2個(gè)局部最優(yōu)解,最終通過全局最優(yōu)判斷是手勢(shì)V.

圖5 從連續(xù)數(shù)據(jù)流中提取手勢(shì)片段
計(jì)算機(jī)要判別用戶的手勢(shì),其實(shí)質(zhì)是將n個(gè)數(shù)據(jù)映射為手勢(shì)庫(kù)中的一種,為此,逐次將這些動(dòng)作元與模板進(jìn)行相似性度量,即可確定動(dòng)態(tài)手勢(shì)的種類.
為提高搜索速度,將手勢(shì)庫(kù)按照不同姿態(tài)進(jìn)行分類.根據(jù)操作對(duì)象的形狀和動(dòng)作性質(zhì)的不同,可以對(duì)手指相應(yīng)關(guān)節(jié)的變化做層次劃分,圖6示意了一種通用的姿態(tài)分類方法[11].

圖6 手勢(shì)的層次分類圖
例如在抓取手勢(shì)中,食指和無名指的部分關(guān)節(jié)(指尖關(guān)節(jié)DIP、跟關(guān)節(jié)MIP)會(huì)產(chǎn)生顯著變化,而在觸碰手勢(shì)中通常變化幅度不大,通過對(duì)不同關(guān)節(jié)進(jìn)行組合,根據(jù)它們的變化趨勢(shì)對(duì)應(yīng)到手勢(shì)分類中,構(gòu)建一棵層次搜索樹.由于相似手型基本都集中在某一個(gè)父節(jié)點(diǎn)之下,遍歷時(shí)采取深度優(yōu)先搜索,并根據(jù)搜索的葉子節(jié)點(diǎn)的上下限是否越界進(jìn)行判定,能夠?qū)崟r(shí)的定位到所要匹配的手勢(shì)模板.
由于手勢(shì)模板是由大量樣本聚合而成,因此利用歐式距離:

進(jìn)行模板匹配時(shí),必須設(shè)定一個(gè)閾值θ,以保證存在一個(gè)允許的擾動(dòng)區(qū)間,并根據(jù)如下規(guī)則對(duì)手勢(shì)進(jìn)行判定:

其中,mi代表手勢(shì)模板;gi代表動(dòng)作元片段.對(duì)于Gm×t序列的每個(gè)片段均做如上的匹配,當(dāng)且僅當(dāng)動(dòng)作序列的時(shí)序一致并且相應(yīng)的匹配均落在預(yù)定的閾值范圍內(nèi)時(shí),可以判定當(dāng)前的動(dòng)態(tài)手勢(shì).
當(dāng)手勢(shì)庫(kù)涵蓋待檢測(cè)的動(dòng)態(tài)手勢(shì)的全部動(dòng)作片段時(shí),算法輸出最佳匹配項(xiàng);當(dāng)出現(xiàn)動(dòng)作元不在手勢(shì)庫(kù)的情況時(shí),一般的識(shí)別算法如神經(jīng)網(wǎng)絡(luò),由于樣本類別未知而無法對(duì)其進(jìn)行歸類.本算法利用k最近鄰法,計(jì)算它與手勢(shì)庫(kù)中每個(gè)模板的相似度,找出k個(gè)最相似的匹配項(xiàng),根據(jù)加權(quán)距離判斷所屬類別,從而輸出最為相似的手型作為識(shí)別結(jié)果.
為了驗(yàn)證本文所述算法的可行性和效果,按照?qǐng)D7的結(jié)構(gòu)框架搭建了一個(gè)動(dòng)態(tài)手勢(shì)識(shí)別系統(tǒng).

圖7 手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)框架
采用5DT Data Glove Ultra 14型號(hào)的數(shù)據(jù)手套[12]作為輸入.該手套使用14個(gè)光學(xué)光纖傳感器測(cè)量每個(gè)手指關(guān)節(jié)(基部關(guān)節(jié)PIP、中間關(guān)節(jié)MCP)的彎曲角度,輸出8位有效數(shù)值,采樣頻率75 Hz(約0.01 s采樣一次).為了提高交互性,引入了基于骨骼驅(qū)動(dòng)[13]的虛擬手模型,圖8演示了利用傳感器值驅(qū)動(dòng)虛手模型按照用戶的動(dòng)作實(shí)時(shí)運(yùn)動(dòng)的效果.

圖8 數(shù)據(jù)手套驅(qū)動(dòng)虛擬手運(yùn)動(dòng)的視覺效果
使用搭建的系統(tǒng),本文完成了2組實(shí)驗(yàn).實(shí)驗(yàn)1中選取美國(guó)啞語(ASL)[14]的26個(gè)字母手語作為基本手勢(shì)庫(kù),讓用戶A和B兩人分別做26個(gè)字母的手勢(shì),每種手勢(shì)重復(fù)10遍,用這些樣本構(gòu)建手語字母的模板庫(kù),并使用該模板庫(kù)來識(shí)別用戶C(沒有采集他的手勢(shì)樣本)所作出的單詞手勢(shì)(單詞手勢(shì)是一系列的字母順序組合而成).該用戶一共做了10個(gè)單詞的動(dòng)態(tài)手勢(shì),采樣20次,表1是對(duì)這10個(gè)單詞的動(dòng)作序列的平均識(shí)別率.

表1 單詞識(shí)別率
這些單詞涵蓋了字母表的所有字母,對(duì)這些字母的平均識(shí)別率如圖9所示.傳統(tǒng)的模板匹配和神經(jīng)網(wǎng)絡(luò)算法在對(duì)樣本以外的數(shù)據(jù)(用戶C)進(jìn)行分類時(shí),由于缺乏構(gòu)建訓(xùn)練樣本手勢(shì)庫(kù)的數(shù)據(jù),無法對(duì)其中的某些手勢(shì)進(jìn)行相似性度量,進(jìn)而不能對(duì)其進(jìn)行準(zhǔn)確分類,導(dǎo)致了識(shí)別率的不穩(wěn)定現(xiàn)象.比較而言,SVD算法在構(gòu)建手勢(shì)庫(kù)的過程中,提取訓(xùn)練樣本的特征信息,同時(shí)消除和特定樣本耦合的數(shù)據(jù),在極大壓縮空間數(shù)據(jù)的同時(shí),保證了手勢(shì)庫(kù)的通用性,從而提高了算法分類的準(zhǔn)確性和穩(wěn)定性.

圖9 ASL手語識(shí)別率
實(shí)驗(yàn)2參照?qǐng)D6的手勢(shì)分類,重建了一組動(dòng)作集.在手勢(shì)庫(kù)搭建階段,讓用戶A在約3 s的時(shí)間內(nèi)依次做如下動(dòng)作,構(gòu)成一段連續(xù)的動(dòng)作序列:①食指觸碰;②食指和中指同時(shí)按壓;③拿捏小球(使用食指和拇指);④拿捏細(xì)棒(使用食指和拇指);⑤握住大球體;⑥抓取粗棒.利用該用戶的數(shù)據(jù)構(gòu)建如上6種手勢(shì)的手勢(shì)庫(kù).在識(shí)別階段,實(shí)驗(yàn)采集了8位用戶(包括構(gòu)建動(dòng)作集的用戶A)做上述動(dòng)作序列的原始數(shù)據(jù),其中5男3女,身高分布在1.65~1.88 m 之間,手型大小、比例各不相同,以中指指端到手腕測(cè)量數(shù)據(jù)為例,長(zhǎng)度值分布在17.1~20.3 cm之間,導(dǎo)致相同手勢(shì)所對(duì)應(yīng)的傳感器值存在較大差異性.圖10顯示了采集過程中8位用戶食指第1關(guān)節(jié)的數(shù)據(jù)值變化趨勢(shì).

圖10 多用戶的傳感器原始值變化曲線圖
實(shí)驗(yàn)2利用用戶A的數(shù)據(jù)所構(gòu)建的動(dòng)作集來識(shí)別這8位用戶的動(dòng)作序列,測(cè)得的識(shí)別率如圖11所示.圖11a對(duì)比了神經(jīng)網(wǎng)絡(luò)和SVD算法的識(shí)別率,圖11b~圖11h顯示了多用戶情況下,由于神經(jīng)網(wǎng)絡(luò)算法的手勢(shì)集依賴于特定用戶,更換用戶后沒有相應(yīng)的訓(xùn)練樣本,識(shí)別算法已失效.SVD算法構(gòu)建的抽象手勢(shì)模板則能夠屏蔽不用測(cè)試者之間的手型差異,在無需重建手勢(shì)庫(kù)的情況下,對(duì)

圖11 采用A的手勢(shì)集對(duì)多用戶進(jìn)行手勢(shì)識(shí)別
多用戶保持穩(wěn)定的識(shí)別率.由此得出,本算法所構(gòu)建的手勢(shì)庫(kù)適應(yīng)于正常人群的手勢(shì)識(shí)別.
上述實(shí)驗(yàn)分別測(cè)試了2組手勢(shì)集,本文所提出的識(shí)別方法能夠?qū)⒂脩舻倪B續(xù)動(dòng)作準(zhǔn)確的分割成一系列的動(dòng)作序列,它利用Hill Climbing思想實(shí)時(shí)提取動(dòng)作元,使用預(yù)先構(gòu)建的抽象手勢(shì)集對(duì)不同用戶的手勢(shì)序列進(jìn)行識(shí)別,無需標(biāo)定,過程簡(jiǎn)單,識(shí)別效果穩(wěn)定.
對(duì)數(shù)據(jù)手套采集的連續(xù)數(shù)據(jù)流進(jìn)行動(dòng)態(tài)手勢(shì)識(shí)別,是將這些原始值經(jīng)過數(shù)據(jù)壓縮、特征提取、手勢(shì)抽象、數(shù)據(jù)分割,轉(zhuǎn)化成動(dòng)作元構(gòu)成的序列,并利用模板庫(kù)按序匹配,最終輸出動(dòng)態(tài)手勢(shì)的識(shí)別結(jié)果.
本文所述的方法成功應(yīng)用于5DT數(shù)據(jù)手套搭建的手勢(shì)識(shí)別系統(tǒng),在完全滿足實(shí)時(shí)性的基礎(chǔ)上,能夠適應(yīng)多用戶的佩戴使用,無需標(biāo)定,操作方便,提供的識(shí)別率準(zhǔn)確穩(wěn)定.
(References)
[1]Agrawal R,F(xiàn)aloutsos C,Swami A.Efficient similarity search in sequence databases[C]//FODO 1993 Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms.London:Springer-Verlag,1993:69-84
[2]Babu S,Widom J.Continuous queries over data streams[J].ACM SIGMOD Record,2001,30(3):109-120
[3]Gehrke J,Korn F,Srivastava D.On computing correlated aggregates over continuous data streams[C]//2001 ACM SIGMOD InternationalConference on ManagementofData.NY:Association for Computing Machinery,2001
[4]Mitra S.Gesture recognition:a survey[J].IEEE Transactions on Systems,Man,and Cybernetics,PartC:Applicationsand Reviews,2007,37(3):311-324
[5]Emran S M,Ye N.Robustness of canberra metric in computer intrusion detection[C]//Proceedings of the 2001 IEEE Workshop on Information Assurance and Security.NY:United States Military Academy,West Point,2001
[6]Chan Kinpong,Waichee Fu A.Efficient time series matching by wavelets[C]//Proceedings-International Conference on Data Engineering.Los Alamitos,CA:Institute of Electrical and Electronics Engineers Computer Society,1999:126-133
[7]Ju Zhaojie,Liu Honghai,Zhu Xiangyang,et al.Dynamic grasp recognition using time clustering,gaussian mixture models and hidden markov models[C]//Intelligent Robotics and Applications-First International Conference,ICIRA 2008,Proceedings.Heidelberg:Springer-Verlag,2008,23(10):669-678
[8]Bedregal B C,Costa A C R,Dimuro G P.Fuzzy rule-based hand gesture recognition,artificial intelligence in theory and practice[C]//IFIP International Federation for Information Processing.Boston,MA:World Computer Congress,2006,217:285-294
[9]Vamplew P,Adams A.Recognition and anticipation of hand motions using a recurrent neural network[C]//IEEE International Conference on Neural Networks.Piscataway,NJ:IEEE,1995,6:2904-2907
[10]Zollner R,Rogalla O,Dillmann R,et al.Dynamic grasp recognition within the framework of programming by demonstration[C]//Robot and Human Communication-Proceedings of the IEEE International Workshop.Piscataway,NJ:IEEE,2001:418-423
[11]Frolov V,Deml B,Hannig G.Geture recognition with hidden Markov models to enable multimodal haptic feedback[C]//Proceedings of the 6th international conference on Haptics:Perception,Devices and Scenarios.Berlin,Heidelberg:Springer-Verlag,2008,5024:786-795
[12]Fifth Dimension Technologies Corporation.5DT data glove ultra manual[M/CD].Irvine,CA:Fifth Dimension Technologies,2004:42-56
[13]Lewis J P,Cordner M,F(xiàn)ong N.Pose space deformations:a unified approach to shape interpolation and skeleton-driven deformation[C]//Proceedings ofthe ACM SIGGRAPH Conference on Computer Graphics.NY:ACM Press,2000:165-172
[14]Costello E.Random House Webster's concise American sign language dictionary[M].NY:Random House,1999:3-25
Algorithm based on continuous data stream for dynamic gesture recognition
Zheng WeiShen Xukun
(The State Key Laboratory of Virtual Reality Technology and Systems,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)
For the purpose of recognizing the sequence of dynamic gesture made by operator,a method was presented based on continuous data streams sampled from data glove,which used singular value decomposition(SVD)to eliminating noise and extracting features.The characteristics of physiology about joint bend was applied making user-dependent information be culled.A set of gesture template which across different users was set up.The template which gives a complete description of gesture’s feature and generalizes it is therefore user-independent.Based on Hill Climbing heuristic,these streams were separated into action sequences,then a similarity measurement using Euclidian distance was adopted in real time between all segments and templates on a hierarchy search tree built in advance.The sequences segmented by this method are accuracy and suitable for multi users.The effectiveness of this approach for identifying dynamic gesture was verified by two empirical experiments which using 5DT data glove.
continuous data stream;singular value decomposition(SVD);dynamic gesture recognition
TP 391.4
A
1001-5965(2012)02-0273-07
2010-10-27;< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:
時(shí)間:2012-02-21 11:46;
CNKI:11-2625/V.20120221.1146.020
www.cnki.net/kcms/detail/11.2625.V.20120221.1146.020.html
國(guó)家高科技研究發(fā)展計(jì)劃重點(diǎn)資助項(xiàng)目(2009AA012103)
鄭 韡(1985-),男,安徽銅陵人,碩士生,zhengwei@vrlab.buaa.edu.cn.
(編 輯:文麗芳)