楊鐘亮,陳育苗
(1. 東華大學 機械工程學院, 上海 201620; 2. 東華大學 服裝·藝術設計學院,上海 200051)
1872年達爾文[1]指出非口語線索是人類信息交流的基礎。體態語言主要通過非口語線索傳達情感狀態,占人類信息交流的55%[2]。其中,表情、頭部運動和姿勢是體態語言情感表達的主要形式[3]。
近年來,體態語言的情感識別已成為人機交互的研究熱點[3]。大量的研究集中在如何有效識別高興、悲傷、吃驚、恐懼、憤怒和厭惡這6種基本情感[4]。除基本情感外,人的情感還包括如同意、不同意,思考與興趣等社會態度,在日常生活中的發生頻率遠遠高于6種基本情感[5]。其中“同意”與“不同意”被視為最常見的社會態度之一,由點頭與搖頭這2種典型的頭部體態語言表達[6]。同表情與姿勢相比,頭部運動能夠靈活、準確和自發地傳遞人的情感與態度,幾乎完全是潛意識的[7]。本文針對頭部體態語言表達的“同意”與“不同意”情感態度進行識別。常用的方法主要基于計算機視覺[8],但識別結果依賴圖像和視頻的質量,易受相機視角、背景與光照等環境因素的影響[9]。
由于表面肌電(surface electromyography,sEMG)在一定的程度上能反映神經肌肉的活動[10],近年來被視為人機交互的一種新興輸入源[11],已在手勢[12]與表情[13]等體態語言識別中取得了一定進展。與計算機視覺的方法相比,該方法具有感知動作直接、檢測動作敏感等優點,受到角度與距離的影響較小,能提供非視覺線索[9,12]。然而,有關頭部體態語言sEMG識別的文獻很少,可能的原因在于頭部體態語言的表達與頸部肌肉活動密切相關,但頭-頸運動系統具有高度復雜性[14],有關頸部肌肉正常活動與肌力變化缺乏系統研究[15]。
針對上述問題,本文提出基于貪心遺傳算法(greedy genetic algorithm,GGA)優化的Elamn神經網絡(GGA-Elman)的頭部體態語言sEMG識別方法。通過實驗分析頭夾肌、胸鎖乳突肌和斜方肌在表達“同意”與“不同意”時sEMG信號的幅值變化;利用Wilcoxon秩和檢驗提取時域指標的特征值,進而采用GGA-Elman網絡建立了識別模型,并與標準Elman模型以及BP模型進行性能比較,驗證本文方法的有效性。
本文方法的概念框架如圖1所示。其中,表達頭部體態語言的頸部肌肉sEMG特征提取與識別算法的選取,對模型的準確性和可靠性起關鍵作用。
基于電生理學原理,提取完成一次點頭與搖頭動作時,頸部肌肉sEMG的均方根值(root means quare,RMS)作為時域指標,RMS能夠在時間維度上反映sEMG振幅的變化特征,常被用于實時、無損傷地反映肌肉活動狀態[10],算法如下:
(1)
式中:EMG(t)為第t時刻EMG信號的采樣值,T為一個采樣時間段中的時間長度。本文采用RMS的最大值RMSMAX、值平均RMSMEAN以及方差RMSVAR作為特征值。它們的計算量小,可以在采樣的間隙完成特征提取,近似反映統計特征隨時間的變化規律[16]。

圖1 模型的概念框架Fig.1 Conceptual framework of the model
通過Wilcoxon秩和檢驗,比較執行點頭與搖頭的頭夾肌、胸鎖乳突肌和斜方肌的各3項RMS指標的差異性是否具有統計學意義,從中提取能夠表征“同意”與“不同意”體態語言的特征,作為構建識別模型的輸入值向量。Wilcoxon秩和檢驗是用秩和作為統計量進行假設檢驗的非參數統計方法,算法原理詳見文獻[17],基本步驟為:
1 )建立假設。H0:差值的總體中位數Md= 0;H1:Md≠ 0;α= 0.05。
2 )求差值并編秩。按差數的絕對值大小由小到大編秩,再由差值的符號給秩次加符號。
3) 求樣本數最小組的秩和作為檢驗統計量T。
4 )以樣本含量較小組的個體數n1、2組樣本含量之差n2-n1及T值查檢驗界值表。
5 )確定p值并做出統計推斷。
當樣本含量n>50時,用正態近似法作z檢驗;當相同秩次較多時,用校正公式計算z值如下:
(2)
式中:τj為第j個相同秩次的個數。
Elman神經網絡是一種典型的局部回歸網絡,它在前饋式網絡的隱藏層中增加了一個承接層,賦予其動態記憶功能,使其具備適應時變特性的能力,具有識別率高、魯棒性好等優點。一方面,考慮到sEMG信號的動態特性及個體差異;另一方面,Elman網絡存在局部極小問題,初始值的選擇影響算法的收斂速度。因此,本文提出基于GGA-Elman網絡構建體態語言的sEMG識別模型,模型結構主要由Elman神經網絡和GGA算法組成,如圖2所示,力求得到最優網絡權值,提高識別效果。

圖2 算法流程圖Fig.2 Algorithm flow chart
1.3.1 Elman神經網絡結構
本文的Elman神經網絡非線性狀態空間的表達式為
(3)
式中:輸入向量u為r維RMS特征;y為二維輸出值,映射“同意”與“不同意”態度;t為迭代次數;x為k維隱藏層節點單元向量;xb為k維反饋向量。W1為承接層與隱藏層的連接權值;W2為輸入層到隱藏層的連接權值;W3為隱藏層到輸出層的連接權值;f(·)與g (·)分別為隱藏層和輸出層神經元的活化函數,f(·)采用Sigmoid函數,g(·)采用TanH函數。使用梯度下降算法,由式(3)得

1.3.2 GGA算法優化
遺傳算法(genetic algorithm,GA)是模擬生物進化過程和機理演化而來的隨機化搜索最優解的方法。貪心算法是一種常用的求解最優化問題的簡單、迅速的方法。為解決GA在運算過程中早熟收斂和封閉競爭問題,用貪心算法作為遺傳操作的確定性選擇原則,以一系列局部最優解得到近似整體最優解,即GGA算法[18-19]。本文采用GGA優化Elman網絡的初始權值,算法的基本步驟如下:
1 )參數設定,包括個體編碼串長度L、群體大小M、終止遺傳代數G、貪心交叉算子Pc和貪心變異算子Pm。
2 )個體二進制編碼,生成初始種群。
3 )通過適應度函數計算個體適應度值。
4) 若最優個體適應度值達到期望誤差,停止遺傳,轉7);否則,轉5)。
5 )通過貪心選擇、貪心交叉與貪心變異等遺傳操作[19-20],產生下一代種群。
6 )第G代內最優個體的適應度值達到期望誤差,算法終止;否則轉3)。
7 )把最優個體賦予本文Elman網絡W1、W2與W3的初始權值。
1.3.3 模型的評價指標
采用均方誤差(mean squared error,MSE)、相關系數R和準確率(accuracy rate,AR)來評價模型的識別效果,它們的計算公式如下:
式中:P(ij)是樣本i中個體j的預測值,Qj是個體j的期望。MSE越小,模型的精度越高。
式中:cov(P,Q)為協方差,σP、σQ分別為P和Q的標準方差。一般認為R達到0.85以上,模型的泛化能力較好。
AR=c/C×100%
式中:c為正確識別的樣本數,C為總樣本數。
根據前導實驗方法,招募了8名男性被試,保證頸部均無骨骼肌肉損傷與疾病。他們的基本信息如表1所示。實驗選取了脊柱兩側的頭夾肌、胸鎖乳突肌和斜方肌上部作為目標肌肉[21],采集sEMG信號,這些肌肉與頭部伸、側屈與旋轉運動相關。

表1 被試信息的描述性統計
硬件使用FlexComp Infinity 10通道生物反饋儀和MyoScan EMG傳感器,采樣率為2 048樣本/s,輸入范圍:0~2 000 μV;軟件為BioNeuro Infiniti V5.1。頸部兩側分別對稱使用3通道sEMG傳感器,根據頭夾肌、胸鎖乳突肌和斜方肌的解剖位置,去除皮膚表面的油脂和角質,將50 mm×30 mm的一次性電極片沿肌腹方向,以中心相隔30~40 mm距離粘貼。
首先,告知實驗目的與要求,被試依次簽訂自愿參加實驗協議。其次,設置6通道sEMG傳感器,請被試完成自發表達“同意”態度時的點頭動作20次,同時采集sEMG信號。
以防肌肉疲勞,休息15 min,期間停止sEMG信號采集。休息結束后,請該被試完成自發表達“不同意”時的搖頭動作20次,同時采集sEMG信號,如圖3所示。下1名被試重復上述實驗步驟。

圖3 搖頭動作的sEMG采集Fig.3 sEMG collected from nod
實驗最終采集了點頭與搖頭動作各160次。通過BioNeuro Infiniti軟件對sEMG原始信號進行濾波與降噪等預處理。截取被試每次表達“同意”與“不同意”情感態度的點頭與搖頭動作的肌電圖,如圖4、5所示。


圖4 一次點頭動作的肌電圖Fig.4 Electromyography of once nod


圖5 一次搖頭動作的肌電圖Fig.5 Electromyography of once head shaking
表2為18組sEMG時域指標進行Wilcoxon秩和檢驗后z值和p值的計算結果。其中,點頭與搖頭的配對樣本在通道A(左側頭夾肌)與通道B(右側頭夾肌)的RMSMAX、RMSMEAN與RMSVAR指標上,p= 0.000,p< α,應拒絕零假設H0,表明它們之間均具有顯著性差異;通道E(左側胸鎖乳突肌)、通道F(右側胸鎖乳突肌)的RMSMAX與RMSMEAN也具有顯著性差異。然而,通道E與通道F的RMSVAR對應的p值分別為0.093與0.136,通道C(左側斜方肌)與通道D(右側斜方肌)所有RMS指標的p> 0.05。實驗結果表明,斜方肌的RMS指標不能充分表征點頭與搖頭動作表達的“同意”與“不同意”情感態度,胸鎖乳突肌RMS的最大值與均值能夠表征點頭與搖頭動作,但離散程度相似,而頭夾肌的RMS指標的配對樣本差異性最顯著。

表2 sEMG指標的Wilcoxon秩和檢驗
根據p< 0.05的規則,最終提取通道A與B的RMSMAX、RMSMEAN與RMSVAR,通道E的RMSMAX與RMSMEAN,通道F的RMSMAX與RMSMEAN,作為本文模型的特征向量。
在Windows 7系統上構建GGA-Elman神經網絡結構。Elman網絡的輸入層為上述10個RMS特征向量;隱藏層數為1,隱藏層節點數為21,神經元采用Sigmoid作為活化函數;輸出層為“同意”與“不同意”2個類別,采用TanH作為活化函數;設最大迭代次數為1 000。W1與W2的權值個數分別為210個,W3的權值個數為42,設定GGA的L= 462、M= 50、G= 100、Pc= 0.9、Pm= 0.1,期望誤差為0.001。選取總體樣本的80%作為訓練集,20%作為測試集,隨機排列并編號。
GGA經過7代遺傳,最優個體適應度值為0.000 74,小于期望誤差,算法停止,如圖6所示。

圖6 最優個體適應度值的變化情況Fig.6 Change of the optimal individual fitness value
將GGA優化得到最優初始權值賦予Elman網絡,經過1 000次迭代后網絡成功收斂。計算訓練集輸出值與期望值的MSE為0.001 3,R為0.999 4,對“同意”與“不同意”的AR均達到100%;模型對測試集64個樣本輸出值與期望值的MSE= 0.001 8,R= 0.999 1,AR = 100%。實驗結果表明該模型的學習效果極佳,泛化性極好。
為比較GGA-Elman模型的識別效果,采用標準Elman和BP神經網絡建模,輸入層、輸出層和隱藏層的設置與GGA-Elman網絡相同。3個模型的訓練與測試效果如表3所示。對訓練集的識別上,Elman模型的MSE與R均優于BP神經網絡,兩者對表達“同意”與“不同意”態度的點頭與搖頭動作的識別率均達到100%。對測試集的識別上,Elman模型的性能高于BP模型,但它們對“同意”均有一次未能有效識別,且是同一個樣本。相比之下,GGA-Elman模型對該樣本卻能有效識別,MSE與R均優于這2個模型,對測試集的識別率高出3.22%以上,在本文頭部體態語言的sEM識別中表現出優越性。

表3 不同算法建模效果比較
為了準確地識別頭部體態語言表達的“同意”與“不同意”情感態度,首先從點頭與搖頭的頸部夾肌、胸鎖乳突肌和斜方肌活動中采集sEMG信號,通過Wilcoxon秩和檢驗,提取了具有顯著性差異的時域指標作為輸入向量;然后,基于GGA-Elman網絡構建了sEMG識別模型,該模型能準確地識別表達“同意”與“不同意”時的點頭與搖頭動作;最后,與標準Elman神經網絡與BP神經網絡模型進行性能比較。實驗結果表明,本文提出的GGA-Elman模型的性能均高于Elman和BP模型,能有效提高正確識別率,驗證了方法的可靠性。今后的工作將開發穿戴式肌電傳感器,進一步擴大的樣本數量,提高模型的通用性和實際應用價值。
參考文獻:
[1]DARWIN C. The expression of the emotions in man and animals[M]. 3rd ed. New York: Oxford University Press, 1998: 28-68.
[2]MEHRABIAN A. Nonverbal communication[M]. Chicago: Aldine-Atherton, 1972: 1-15.
[3]FRAGOPANAGOS N, TAYLOR J G. Emotion recognition in human-computer interaction[J]. Neural Networks, 2005, 18(4): 389-405.
[4]EKMAN P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3/4): 169-200.
[5]COHEN S. A computerized scale for monitoring levels of agreement during a conversation[J]. University of Pennsylvania Working Papers in Linguistics, 2003, 8(1): 57-70.
[6]BOUSMALIS K, MEHU M, PANTIC M. Towards the automatic detection of spontaneous agreement and disagreement based on nonverbal behavior: a survey of related cues, databases, and tools[J]. Image and Vision Computing, 2013, 31(2): 203-221.
[7]VINCIARELLI A, PANTIC M, BOURLARD H. Social signal processing: survey of an emerging domain[J]. Image and Vision Computing, 2009, 27(12): 1743-1759.
[8]MURPHY-CHUTORIAN E, TRIVEDI M M. Head pose estimation in computer vision: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4): 607-626.
[9]ZHAO Yisu. Human emotion recognition from body language of the head using soft computing techniques[D]. Ottawa, Canada: University of Ottawa, 2012: 14-30.
[10]王健. sEMG 信號分析及其應用研究進展[J]. 體育科學, 2000, 20(4): 56-60.
WANG Jian. Some advances in the research of sEMG signal analysis and its application[J]. Sport Science, 2000, 20(4): 56-60.
[11]AHSAN M R, IBRAHIMY M I, KHALIFA O O. EMG signal classification for human computer interaction: a review[J]. European Journal of Scientific Research, 2009, 33(3): 480-501.
[12]張旭. 基于表面肌電信號的人體動作識別與交互[D]. 合肥:中國科學技術大學, 2010: 8-13.
ZHANG Xu. Body gesture recognition and interaction based on surface electromyogram[D]. Hefei: University of Seience and Teehnology of China, 2010: 8-13.
[13]FRIDLUND A J, SCHWARTZ G E, FOWLER S C. Pattern recognition of self-reported emotional state from multiple-site facial EMG activity during affective imagery[J]. Psychophysiology, 1984, 21(6): 622-637.
[14]KAMIBAYASHI L K, RICHMOND F J R. Morphometry of human neck muscles[J]. Spine, 1998, 23(12): 1314-1323.
[15]陳謙. sEMG 技術在頸部肌肉活動評價中的應用[J]. 北京體育大學學報, 2008, 31(2): 226-228.
CHEN Qian. Surface electromyography utilized in neck muscle activity evaluation[J]. Journal of Beijing Sport University, 2008, 31(2): 226-228.
[16]吳劍鋒. 基于肌電信號的人體下肢運動信息獲取技術研究 [D]. 杭州: 浙江大學, 2008: 48-49.
WU Jianfeng. Research on human lower-limb motion information acquisition technology based on EMG[D]. Hangzhou: Zhejiang University, 2008: 48-49.
[17]楊鐘亮. 基于主客觀聯合測評的動態人機接觸面工效學研究[D]. 杭州: 浙江大學, 2012: 68-70..
YANG Zhongliang. Ergonomics study of dynamic human-product contact surface based on subjective and objective evaluation[D]. Hangzhou: Zhejiang University, 2012: 68-70.
[18]LEE Z J, SU S F, LEE C Y. Efficiently solving general weapon-target assignment problem by genetic algorithms with greedy eugenics[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2003, 33(1): 113-121.
[19]張海兵, 徐誠, 李世永. 貪心遺傳算法及其在武器目標分配問題中的應用[J]. 彈道學報, 2007, 19(2): 40-43.
ZHANG Haibing, XU Bing, LI Shiyong. GGA and its application to weapon target assignment[J]. Journal of Ballistics, 2007, 19(2): 40-43.
[20]魏英姿, 趙明揚, 張鳳, 等. 貪心遺傳算法求解組合優化問題[J]. 機械科學與技術, 2005, 24(1): 10-13.
WEI Yingzi, ZHAO Mingyang, ZHANG Feng, et al. An effcient greedy genetic algorithm for combination optimization problems[J]. Mechanical Science and Technology, 2005, 24(1): 10-13.
[21]陳謙, 楊紅春, 王健. 不同負荷水平頸部肌肉等長收縮的平均肌電變化特征[J]. 浙江體育科學, 2010, 32(5): 91-95.
CHEN Qian, YANG Hongchun, WANG Jian. The changes of AEM G of Neck muscles under isometric contraction at different load levels[J] Zhejiang Sport Science, 2010, 32(5): 91-95.