曹海婷,戎海龍,焦竹青+,馬正華
(1.常州大學 信息科學與工程學院,江蘇 常州 213164;2.常州大學 城市軌道交通學院,江蘇 常州 213164)
手勢識別技術目前主要有基于視覺的手勢識別[1]和基于佩戴式的手勢識別[2]。對于動態(tài)手勢的識別,單一傳感器有著自身局限性,多傳感器已廣泛使用[3,4]。其中SEMG和ACC這兩類傳感器,以其低成本、便攜式和捕捉手勢動作信息方面的優(yōu)勢,已經(jīng)用于手語手勢研究[5]和步態(tài)行為研究[6]等。
動態(tài)手勢識別中特征參數(shù)的選取對識別系統(tǒng)的性能和計算復雜度有較大的影響,目前對SEMG和對ACC信號提取的特征過于單一[7,8],雖然計算量小速度相對較快,但算法本身不是很完善,會限制其在實際中的應用。文獻[3]采用基于信息增益的特征選擇算法選取最佳特征子集,雖然識別效果較好但是此方法需要綜合考慮所選的算法是否適合所選的分類器,存在著不確定性。Liu JH等[9]進行決策級融合,有較好的抗干擾性但對預處理以及特征參數(shù)有較高的要求。
為了提高系統(tǒng)性能以及識別效果,本文對SEMG和ACC傳感器進行特征水平上的融合,提出一種基于多特征組合的動態(tài)手勢動作分類方法,探究不同特征組合對手勢識別效果的影響。為了對短時間肌肉收縮動態(tài)手勢的分割有較好的連續(xù)性,采用樣本熵算法對活動段進行分割;對兩類傳感器提取不同種類的特征并進行多種組合,采用實驗對比分析的方法選擇最優(yōu)的特征組合;對比隨機森林、決策樹、支持向量機和HMM這4種不同的分類器,最終選取HMM模型進行手勢識別。
本研究多傳感器手勢動作的識別框架如圖1所示,由信號采集、活動段分割、特征提取并融合以及分類識別4部分構成。這節(jié)重點介紹活動段分割、特征提取并融合以及分類識別。

圖1 動態(tài)手勢動作識別框架
活動段分割的目的是從SEMG及ACC信號中分割出有效手勢活動段,從連續(xù)信號中自動確定活動段的起始點。如何從連續(xù)手勢信號中分割出有效手勢目前還沒有比較完善的方法,SEMG信號能代表肌肉活動水平,當手勢運動從一個動作到另一個動作時,相應肌肉會出現(xiàn)短暫放松,因此采用SEMG信號的幅值變化信息可以用于兩類傳感器的數(shù)據(jù)分割[10],ACC信號流同步于SEMG信號。此外相對于ACC的活動段提取方法,SEMG傳感器檢測手勢是否處于活動段的方法更為成熟。實驗研究發(fā)現(xiàn),相比于振幅包絡,移動平均法等分割方法,樣本熵對手勢分割具有更好的效果,對運動插入噪聲的抑制效果較好。樣本熵用于手勢分割具體以下步驟:
(1)利用式(1)計算SEMG信號4通道在i時刻的平均值。根據(jù)實驗選擇移動窗內(nèi)的窗口長度n=64,即對SEMG信號進行64點滑動窗分幀,重疊窗口長度為32
(1)
(2)然后計算每幀的樣本熵值E,樣本熵值的具體計算方法參考文獻[11]。之后設定自適應閾值Th1和Th2。當某時刻E值大于Th1,并且接續(xù)5個值都大于Th1,則此時刻是活動段的起點;當某時刻E值小于Th2,并且接續(xù)的5個點都小于Th2,則此時刻是活動段的終點。設置接續(xù)點是為了防止短暫性間隔而導致將一個手勢識別成兩段的情況,根據(jù)實驗設置接續(xù)點為5時效果最佳。此外起始值Th1大于終止值Th2,較高的Th1能夠防止無意抖動導致識別為有意義手勢,較低的Th2能夠防止動作運動中幅度值較低發(fā)生斷裂。
當有效手勢被完整分割后,要用有效的特征向量對動作進行描述。SEMG信號能夠反映手的形態(tài)以及手腕屈伸等信息,對運動尺度較小的手勢區(qū)分能力好;ACC信號能夠反映手臂的動作軌跡以及位置等信息,能夠較好地區(qū)分出運動尺度較大的動作。由于肌電和加速度計數(shù)據(jù)表示不同的物理意義,特征提取之后也常常具有不可比性,因此要對肌電和加速度計數(shù)據(jù)進行歸一化處理,根據(jù)實驗本文選擇以最大值最小值尺度變換方式線性歸一化至-1到1。
1.2.1 手形特征提取
手形是指手掌、手腕以及手指的狀態(tài),SEMG信號數(shù)據(jù)能夠描述手形狀態(tài)。目前對于SEMG信號通常提取時域、頻域和時頻域特征,但對于選取何種特征還沒有理論最優(yōu)方法,一般情況下嘗試采用各種特征提取方法,然后選擇滿足系統(tǒng)需要的最優(yōu)特征。但是已經(jīng)有研究證明與時頻域特征相比,頻域特征通常效果不佳[12]。因此選取絕對平均值(MAV)、4階自回歸(AR)系數(shù)以及小波變換(WT)作為手形特征。
(1)不同動作之間由于肌肉活動力量不同,SEMG信號的幅度值會有所不同,MAV能夠反映SEMG的幅值變化。MAV用式(2)表示,其中移動窗口長度N=64,重疊窗口長度為32,u(i)表示SEMG的第i個數(shù)據(jù)采集點
(2)
(2)SEMG信號是一種非平穩(wěn)的生物電信號,但是在較短時間內(nèi)能看作是平穩(wěn)信號,可以用AR模型對信號進行分析。AR模型表示見式(3)
(3)
其中,al表示AR中第l個系數(shù),p表示AR的階數(shù)。根據(jù)已經(jīng)以往實驗分析,當p=4時識別效果是最佳的,p太大會導致計算量過高,p太小會導致分辨效果不佳。

(4)
采用離散小波變換方法對SEMG信號進行多尺度分解,提取尺度水平為4的dB4小波基函數(shù)。對4尺度小波基函數(shù)提取1個近似系數(shù)(A4)和4個細節(jié)系數(shù)(D1~D4)特征,然后計算每個系數(shù)的奇異值,這樣就產(chǎn)生5維的特征矢量。
1.2.2 運動軌跡特征提取
運動軌跡是指手勢動作中手臂的運動狀態(tài),ACC數(shù)據(jù)能夠描述運動軌跡狀態(tài)。選取均值(M)、方差(V)以及快速傅里葉變換(FFT)作為運動軌跡特征。
(1)M可以描述ACC的幅值變換,能夠表征手臂的朝向和手勢姿態(tài)。M用式(5)表示,其中移動窗口長度N=64,重疊窗口長度為32,a(i)表示各軸ACC的第i個數(shù)據(jù)采集點
(5)
(2)V能夠描述信號隨時間變化強度,能夠表征手臂運動的劇烈程度,用式(6)表示
(6)
(3)FFT是一種典型信號處理方法,能夠?qū)⑿盘枏目臻g域變換到頻率域。序列a(i)可以分解為偶數(shù)序列a1(i)和奇數(shù)序列a2(i)之和,見式(7)
a(i)=a1(i)+a2(i)
(7)
其中,a1(i)、a2(i)長度都是M/2,那么FFT變換可以表示為式(8)

(8)
本文提取各軸ACC數(shù)據(jù)的128點FFT的前3階系數(shù),即M=128。
1.2.3 特征級融合
特征級融合按特征向量的產(chǎn)生方式分為特征選擇和特征組合兩種方法。本文采用特征組合方法,將手形和軌跡特征組合在一起構造串行聯(lián)合特征矢量。特征級融合能夠減少一個分類器的使用,節(jié)省時間。
特征組合后用分類器進行識別,利用MATLAB軟件進行仿真實驗,得到識別率以及運行所用的時間。對比所有的識別率以及運行時間,選出最優(yōu)的特征組合,使得用時較短識別率高。
為了獲得較高識別率,采用了HMM的分類算法。HMM模型是一種雙重隨機過程:一個是馬爾可夫鏈,描述了隱藏狀態(tài)的轉移;另一個是可觀察的觀察值序列,描述了隱藏狀態(tài)與觀察狀態(tài)之間的統(tǒng)計對應關系[14]。
1.3.1 HMM模型訓練
HMM模型訓練是對參數(shù)λ={π,A,B}進行估計的過程,常采用Baum-Welch算法,通過不斷迭代去調(diào)整參數(shù)λ,讓參數(shù)λ不斷趨于收斂,使得輸出P(O|λ)概率達到最大化[15]。
Baum-Welch算法是一種迭代算法,視觀測序列(離散或連續(xù))的不同,算法會有不同的形式。本文是對連續(xù)手勢進行識別,選取連續(xù)的觀測序列B,通常采用高斯混合模型(GMM),即
(9)
(10)

(11)
采用多個觀測數(shù)據(jù)對模型參數(shù)進行重估,因此選取遍歷式HMM模型(ergodic hidden Markov model,EHMM),這種模型可以從一個狀態(tài)轉移到另一種狀態(tài),并且觀測序列之間可以被認為是獨立的,從而獲得多觀測序列的重估值λ,并存儲參數(shù)λ。
1.3.2 手勢識別

此公式表示在t-1時刻時狀態(tài)轉移路徑為q1q2…qt-1,t時刻時狀態(tài)序列是Si,則此時會得到最大值概率P,即t時刻的δt(i)對應的序列就是所求的最優(yōu)狀態(tài)序列。
本研究利用慣用手(右手)進行手勢運動,采用4通道的SEMG和1個三軸ACC傳感器進行數(shù)據(jù)采集。安放位置如圖2所示,三軸ACC傳感器安放于前臂靠近腕部的背面,用于捕捉手部的運動軌跡信息,4通道的SEMG傳感器分別安放于前臂指伸肌、伸指總肌、橈側腕長伸肌和尺側腕屈肌,用于檢測手的形態(tài)運動信息。本實驗肌電數(shù)據(jù)是由加拿大Thought Technology公司研制的型號是SA7500表面肌電儀采集,采樣率最大是2048 Hz,最小是256 Hz,AD分辨率是14 bit,采用的是差分電極;三軸加速度計數(shù)據(jù)是由荷蘭Xsens公司生產(chǎn)的MEMS慣性傳感器采集,采樣率是256 Hz。實驗選取兩類傳感器采樣率都為256 Hz。

圖2 右手傳感器安放位置
手勢運行環(huán)境是在MATLAB R2012a環(huán)境下完成的,計算機處理器是Inter(R) Core(TM) i3-4170 CPU @ 3.70 GHz,安裝內(nèi)存是4.00 GB(3.48 GB可用)。
研究過程自定義了5種靜態(tài)手形和5種運動軌跡,如圖3所示,靜態(tài)手形包括:V(T),八(E),伸掌(S),握拳(W),OK(O);運動軌跡包括:九(NI),六(SI),叉(FI),圓(CI),右下(LI)。實驗選取10種動態(tài)手勢,分別為:TNI、SSI、EFI、WCI、OLI、SNI、WSI、OFI、TCI和ELI。
針對選取的10類動態(tài)手勢,實驗選取5名受試者,3名男生和2名女生,年齡是25到27歲之間。所有受試者慣用右手,無任何神經(jīng)肌肉系統(tǒng)疾病史,具有手勢運動工作經(jīng)驗。實驗中每名受試者自然站立,左手自然下垂,在一周內(nèi)分6次采集數(shù)據(jù),每次采集10種動態(tài)手勢,每個動態(tài)手勢重復20遍。這樣,用于實驗分析的數(shù)據(jù)集包含了6000個動態(tài)手勢樣本。實驗過程中對每類動態(tài)手勢隨機選取40個樣本作為訓練集,另外對每類手勢選35個樣本作為測試集。

圖3 手形和軌跡
(1)特征組合分類:本文以受試者1為例,將提取的SEMG和ACC信號特征進行了7種不同的組合,在相同的HMM分類器下得到的10種手勢的分類結果見表1,其中表格第一行代表特征組合序號,第二行代表不同特征組合,第一列代表10種手勢代號。表2給出了不同特征組合的對比實驗結果,其中時間表示提取手勢特征所耗的時間。
結合表1和表2可以看出,首先,分類精度并非和特征組合的個數(shù)成正比,如特征組合D2與D4分類準確率相似,特征組合D6比D1分類精度高,特征組合D3比D6和D1分類精度高,特征組合D7比D5分類精度低。其次,不同特征組合下,存在個別手勢的分類精度不和特征組合的效果成正比,可能是手勢和軌跡差異性導致的,但是手勢整體的分類精度和特征組合的效果是成正比的。最后,從表中還可看出,含有AR,MAV,F(xiàn)FT的特征組合要比其它特征組合分類效果好一些,說明這種特征組合在一定程度上具有互補性。
從表2可以看出,在特征提取算法上,含WT特征組合所用時間高于其它特征組合提取時間,這是由WT性質(zhì)所決定的;在手勢識別效果上,WT對靜態(tài)手勢識別效果好,但是含WT的特征組合對相同手勢不同軌跡的動態(tài)手勢識別易歸為一類,整體識別效果并不好。對比所有特征組合識別所耗時間以及平均識別率,特征組合D5的識別效果最佳。
(2)分類器對比實驗:為了探索不同特征組合在不同分類器下的識別結果,設計了HMM模型與常用分類器隨機森林(RF)、決策樹(DT)以及支持向量機(SVM)的對比實驗,仍以受試者1為例,根據(jù)實驗情況選擇HMM的狀態(tài)數(shù)為6,混合高斯函數(shù)個數(shù)為2;選擇DT的決策樹算法是CART算法,SVM的核函數(shù)為徑向基核函數(shù),RF的決策樹數(shù)目是500。結果如圖4所示。
從圖4中可以看出,RF、DT、SVM、HMM這4種分類器最佳特征組合分別是D1、D5、D6、D5,且此特征組合下對10種手勢的平均識別率分別為90.20%、82.04%、87.68%和94.11%,說明上面實驗得出的最佳特征組合并非適用于所有分類器。
利用不同分類器得出的最佳特征組合對5位受試者進行手勢識別,實驗訓練并測試相同受試者數(shù)據(jù),識別結果如圖5所示。從圖中可以看出,對于所有受試者,分類器的準確率是穩(wěn)定一致的。實驗結果表明,DT分類效果最差,其次是SVM和RF,HMM分類效果最佳。此結果說明在最優(yōu)特征組合下HMM模型識別效果最佳。

表1 不同特征組合的平均識別率/%

表2 不同特征組合的對比實驗結果

圖4 不同特征組合下分類器的平均識別率

圖5 最優(yōu)特征組合下分類器的分類結果
表3是以HMM作為分類器使用最優(yōu)特征組合D5,得到的5位受試者在不同手勢下的識別率,其中A代表平均識別率,S代表標準偏差。從表中橫向可以看出,S3受試者平均識別率最高,為94.42%,S5受試者平均識別率最低,為93.89%。可能的原因有兩個,第一是由于每一次動態(tài)手勢的手形和運動軌跡不完全相同,會有一定的隨意性,因而在一定程度上降低了識別率;第二是不同受試者的SEMG傳感器放置位置略有不同,并且IMU傳感器的方向可能稍有不同。如果對手勢動作以及傳感器安放位置進行規(guī)范,識別率會進一步提高。

表3 動態(tài)手勢識別率/%
從表3中縱向可以看出,手勢ELI整體識別效果最差,為92.81%,其次是手勢EFI,為92.83%,這是由于手勢ELI和EFI手形相同軌跡相似,在特征上具有一定的相似性,分類時兩種手勢有時會相互錯分。手勢TNI識別效果最好,這是因為手形和運動軌跡整體效果較好,特征識別上具有較強的可分性??v觀表格數(shù)據(jù),整體識別率達到了(94.11±1.32)%以上。
為了提高動態(tài)手勢識別的分類精度,本文提出了基于多特征組合與HMM相結合的方法。在特征提取上,對不同特征進行串行組合,通過大量的實驗分析對比,確定了最佳特征組合。在分類器選取上,通過對比分析HMM、RF、DT和SVM分類器對動態(tài)手勢的影響,最終確定HMM分類器識別效果好。實驗結果表明,本文方法能有效提高手勢的識別率,具有較好的魯棒性。
然而,在人機交互手勢應用中,本實驗并沒有嚴格規(guī)范手勢動作,有一定隨意性,信號受到不同受試者身體條件影響,后期會加以規(guī)范,調(diào)查影響,提高識別率。為了實現(xiàn)手勢在日常生活的使用,未來要進一步減少識別時間,這是ACC和SEMG傳感器用于實際的關鍵。
參考文獻:
[1]Dong C,Ming CL,Yin ZZ.American sign language alphabet recognition using Microsoft kinect[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops.IEEE,2015:44-52.
[2]Matthew R Williams,Robert F Kirsch.Evaluation of head orientation and neck muscle EMG signals as three-dimensional command sources[J].Journal of Neuroengineering and Rehabilitation,2015,12(1):25-40.
[3]Wu J,Sun L,Jafari R.A wearable system for recognizing American sign language in real-time using IMU and surface EMG sensors[J].IEEE J Biomed Health Inform,2016,20(5):1-10.
[4]Wei SJ,Chen X,Yang XD,et al.A component-based voca-bulary-extensible sign language gesture recognition framework[J].Sensors,2016,16(4):1-16.
[5]Li Y,Chen X,Zhang X,et al.A sign-component based framework for Chinese sign language recognition using accele-rometer and sEMG data[J].IEEE Transactions on Biomedical Engineering,2012,59(10):2695-2704.
[6]WU Hao.Fall recognition based on surface EMG and acceleration signal[D].Hangzhou:Hangzhou Dianzi University,2016(in Chinese).[武昊.基于表面肌電信號與加速度信號的跌倒檢測研究[D].杭州:杭州電子科技大學,2016.]
[7]Su RL,Chen X,Cao S,et al.Random forest-based recognition of isolated sign language subwords using data from accele-rometers and surface electromyographic sensors[J].Sensors,2016,16(1):1-15.
[8]Lu ZY,Chen X,Li Q,et al.A hand gesture recognition framework and wearable gesture-based interaction prototype for mobile devices[J].IEEE Transactions on Human-Machine Systems,2014,44(2):293-299.
[9]Liu JH,Chen WZ,Li MY,et al.Continuous recognition of multifunctional finger and wrist movements in amputee subjects based on sEMG and accelerometry[J].The Open Biomedical Engineering Journal,2016,10(1):101-110.
[10]YANG Xidong.Research of Chinese sign language recognition technology based on the fusion of surface electromyography and inertial sensors[D].Beijing:University of Science and Technology of China,2016:10-13(in Chinese).[楊喜東.融合表面肌電和運動傳感器信息的中國手語手勢識別技術研究[D].北京:中國科學技術大學,2016:10-13.]
[11]CHENG Juan,CHEN Xun,PENG Hu.An onset detection method for action surface electromyograph based on sample entropy[J].Acta Electronica Sinica,2016,44(2):479-484(in Chinese).[成娟,陳勛,彭虎.基于樣本熵的肌電信號起始點檢測研究[J].電子學報,2016,44(2):479-484.]
[12]Phinyomark A,Phukpattaranont P,Limsakul C.Feature reduction and selection for EMG signal classification[J].Expert Systems with Applications,2012,39(8):7420-7431.
[13]YU Yaping,SUN Lining,ZHANG Fengfeng,et al.sEMG pattern recognition based on multi feature fusion of wavelet transform[J].Chinese Journal of Sensors and Actuators,2016,29(4):512-518(in Chinese).[于亞萍,孫立寧,張峰峰,等.基于小波變換的多特征融合sEMG模式識別[J].傳感技術學報,2016,29(4):512-518.]
[14]Liu JC,Zhang L,Chen X,et al.Facial landmark automatic identification from three dimensional (3D) data by using hidden Markov model(HMM)[J].International Journal of Industrial Ergonomics,2017,57(1):10-22.
[15]LI Xinde,PAN Jindong,DEZERT Jean.A target recognition algorithm for sequential aircraft based on DSmT and HMM[J].Acta Automatica Sinica,2014,40(12):2862-2876(in Chinese).[李新德,潘錦東,DEZERT Jean.一種基于DSmT和HMM的序列飛機目標識別算法[J].自動化學報,2014,40(12):2862-2876.]