王 眾,章學良,劉亞群,周俊宇,單東升
中國電子科技集團公司 第十四研究所,南京210039
在人與人交流的過程中,識別和理解對方的情感狀態,并做出相應反應,是人類情感智能的核心,也是人類智能中不可或缺的部分。美國心理學家Albert曾指出:一個人情感的表達,面部動作占比55%,語音語調占比38%,而所使用的言詞僅僅只占7%而已。因此,面部動作識別的研究,對理解人類情感表達具有極其重要的意義[1-2]。
腦電傳感器廣泛應用于腦電信號檢測,解析人腦控制意圖。一般情況下,腦電傳感器采集的信號中會夾雜大量由面部動作產生的肌電信號,這些信號往往會作為偽信號濾除[3-4]。本文提出一種基于腦電傳感器進行面部動作識別的方案,將這些被剔除的信號再次利用起來。通過對夾雜的肌電信號采集與處理,實現面部動作識別。
傳統的面部動作識別方案,有基于可見光圖像的方案、基于深度相機的方案和基于肌電傳感器的方案。
該方案的系統工作流程圖可見圖1。它主要由圖像的獲取、圖像的預處理、面部動作特征提取和分類識別等四部分組成。

圖1 可見光圖像方案的系統工作流程圖
“獲取圖像”完成面部動作的圖像序列采集,一般通過高清攝像頭完成;“圖像預處理”完成人臉位置確定、去除噪聲和其他干擾、人臉追蹤、直方圖均衡化、圖像銳化、圖像平滑、濾波等,突出人臉動作特征;“面部動作特征提取”完成從人臉圖像序列中,提取能夠表征面部動作本質的特定信息,比如眨眼、咬牙床等;“分類識別”完成特征分類,識別出所做的面部動作,一般使用臨近算法、神經網絡、支持向量機等[5]。
該方案目前使用范圍較廣,但由于在不同環境下的光學誤差較大,導致識別的準確率不高[6]。
該方案通過深度相機提取人臉可見光圖像及深度信息,在實時視頻流中追蹤熱點并提取特征點坐標,實現面部動作的檢測和識別。與可見光圖像的識別方案有一定的相似之處,不同的是深度相機可以獲得圖像深度信息[7],提升了弱光下識別的準確率。方案的系統工作流程圖見圖2。

圖2 深度相機方案的系統工作流程圖
肌電是肌肉收縮時產生的微小電信號。當面部產生動作時,面部肌肉的運動能產生肌電信號。該信號的特征反應了面部的特定動作。肌電傳感器方案的系統框圖可見圖3,該方案的使用示意圖可見圖4。

圖3 肌電傳感器方案的系統框圖

圖4 肌電傳感器方案的使用示意圖
肌電具有信號強、頻率范圍窄、隨機性強等特點,幅值為100~5 000μV,頻率為10~300 Hz。目前對肌電的分析方法主要有時域分析、頻譜分析、時頻分析、神經網絡、混沌法和分形分析[8]?;诩‰妭鞲衅鞯姆桨笇Ρ瓤梢姽鈭D像、深度相機圖像方案,準確率有較大程度的提升,但需要在面部穿戴肌電傳感器,會給使用者帶來較差的體驗感。
腦電傳感器具有靈敏度高、動態范圍大的特點。能有效處理腦電信號的微弱性、混疊性和低信噪比等問題。腦電傳感器佩戴的位置示意圖如圖5所示。其中,F3、F4位于前額,C3、C4位于中央頂部,T3、T4位于頭部兩側,O1、O2位于頭部枕區。

圖5 腦電傳感器佩戴位置示意圖
通常情況下,腦電傳感器采集的人體頭部生物電中包含了腦電和肌電,其中肌電包含了豐富的與面部動作相關的信息。醫學研究表明,當使用者眨眼時,額區F(F3,F4)處的肌肉活動會增強[9-10];當使用者牙床咬緊時,咬肌的肌肉活動明顯增大,會間接影響頭頂中央區C(C3,C4)處的肌肉活動[10-11]。因此,腦電傳感器的這四個通道中,會產生大量由面部動作產生的肌電信號。然而,這類肌電信號,在實際應用中,往往會被作為干擾濾除。因此,針對傳統面部動作識別方法的不足,結合腦電傳感器的優勢,提出了利用腦電中夾雜的肌電信號進行面部動作識別。
系統主要包括腦電帽、腦電信號采集與預處理設備和數據處理計算機構成。系統的組成圖可見圖6。

圖6 系統組成圖
腦電信號采集與預處理設備有八個采集通道。其中F3、F4、C3、C4這四個通道中包含了豐富的面部動作信息[12-13]。通過對采集到原始信號進行削波、平滑、歸一化等預處理后,形成標準的腦電信息流,送往數據處理計算機。該信息流包含了肌電信號和腦電信號,肌電信號幅度為100~5 000μV,腦電信號為5~100μV[14],一般情況下,腦電信號遠小于肌電信號,因此,不會對肌電信號的解析產生影響。由于信號幅度是反映面部動作的主要特征,本文選取這四個通道信號的峰峰值作為分類特征值,使用SVM作為分類算法。
系統的使用過程分為兩個階段:訓練階段和應用階段。通過實驗驗證,不同使用者相同面部動作下的肌電信號特征差別較大,但同一使用者不同時間的肌電信號特征一致性非常好。因此,系統首先通過訓練階段,形成針對不同使用者的面部動作識別模型。然后再由不同使用者在應用階段調用對應模型。試驗結果表明,一名使用者可在3 min以內完成訓練,形成的識別模型可長期使用。
系統使用的腦電信號采集與預處理設備包含記錄系統放大器、主動電極,設備實物圖可見圖7。其中主動電極是一種新型電極,相對于傳統電極,主動電極可以將信號在采集時即進行處理,具有更高的信噪比、共模抑制比和輸入阻抗,并且可以有效抑制運動噪聲。選取額區F(F3,F4)及中央區C(C3,C4)放置電極,以Cz為參考電極,控制頭皮阻抗小于200 kΩ,采樣率設定為1 kHz。

圖7 腦電信號采集與預處理設備
數據采集的對象是1名身體健康的使用者,在安靜的屏蔽室內進行。使用者端坐在舒適的座椅上,與屏幕水平距離約為70 cm。根據屏幕提示,做出五種面部動作,包含眨左眼、眨右眼、咬左牙床、咬右牙床、兩邊牙床一起咬,如圖8所示。

圖8 使用者進行數據采集試驗
具體試驗過程包括如下三個步驟:
步驟1 t=0~1 s時,屏幕中出現一種面部動作提示指令(五種動作指令依次出現),以提醒使用者試驗即將開始,需集中注意力,等待聽到開始的命令。
步驟2 t=1~4 s時,電腦發出短暫的蜂鳴聲,以提示使用者試驗開始。使用者根據屏幕提示做出相應的面部動作后,即刻保持靜默狀態。
步驟3 t=4~7 s時,屏幕中提示休息,使用者休息3 s。
每個面部動作各進行五個試次,每次試驗共包含25個試次。最終形成五組,每組五個試驗樣本數據,用于后續數據處理與分析。
本文提出的面部動作識別算法是基于高斯核的支持向量機學習模型。該方法建立了較為穩定的特征描述子,能有效解決面部動作識別中的肌電信號分類問題,可實現小樣本下面部動作的高精度識別與分類。
支持向量機(SVM)是一種具有高性能的監督學習模型,能根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折中,以求獲得最好的推廣能力。它在很大程度上解決了“維度災難”和“過學習”等傳統分類難題[15]。SVM分類示意圖如圖9所示。

圖9 SVM最優分類示意圖
假設樣本集(xi,yi)是線性可分的,樣本集中的xi代表樣本,yi代表樣本類別,yi∈{-1,1}。樣本xi相應的判別函數為:
g(x)=wTx+b
線性分類超平面可由向量w和偏移量b描述。對判別函數歸一化|g(x)|=1,使得分類間隔為2/||w||,當||w||的值特別小時,分類間隔會特別大。尋求的目標是所有樣本都能被準確分類,也就是yi(w xi+b)-1≥0,i=1,2,…,n,則求取最優超平面的問題[16]轉換成求,并且滿足yi(w xi+b)-1≥0,i=1,2,…,n。滿足等號成立的那些樣本叫作支持向量。
系統通過腦電信號采集與預處理設備采集的四路信號形成五種面部動作分類,其中兩路為眼部運動產生的肌電,另兩路為由牙床咬合產生的肌電。這些信號都會作為腦電信號的一部分傳遞給數據處理計算機進行解析。
通過對這些肌電信號分析發現,當使用者面部出現不同動作時,對應采集通道中的響應信號分別具有不同的幅度特征。如圖10所示,當使用者眨左眼時,對應的F3通道信號幅度上升;當使用者眨右眼時,對應的F4通道信號幅度上升;當使用者咬左牙床時,C3通道信號幅度上升;同樣,咬右牙床時C4通道信號幅度上升。
數據分析表明面部動作與肌電信號的幅度密切相關,因此,系統將信號的峰峰值作為主要特征,采用高斯核支持向量機進行面部動作分類。具體算法中,以通道F3的峰峰值和通道F4的峰峰值作為兩個特征屬性,以通道C3的峰峰值、通道C4的峰峰值以及通道C3和C4的相關一致性作為三個特征屬性,分別創建眼部肌電支持向量機和面頰肌電支持向量機。其中,眼部肌電通過兩個特征區分兩類狀態,面頰肌電通過三個特征區分三類狀態。五種面部動作的區分是線性不可分的,因此采用非線性支持向量機。本文采用高斯核支持向量機,高斯核(Gaussian RBF)[17]的核函數如下:

高斯核的誤差懲罰常數C取100,高斯核寬度σ取1.0。
按照前文定義的方法采集了25組訓練數據,指定五個標簽,對25組樣本進行分類學習,訓練出兩個支持向量機學習器,實現面部動作的五種分類。經實際驗證,準確率達95%以上。圖11為五種面部動作及靜默狀態下的項目應用截圖。四個柱狀體反映了四個通道的峰峰值,從圖中可以看出,這五種面部動作產生的信號特征非常明顯,而且區分度很大。項目實際應用證明了采用少量的訓練樣本即可獲得高準確率的分類結果。
使用腦電傳感器對面部動作進行識別,能實現面部動作的高精度分類,而且還具備良好的體驗感。它實現了計算機對人面部動作的理解,是一種先進的人機交互方式??蓱糜谛睦韺W、機器人、智能監控、虛擬現實以及合成動畫等領域,具有很大的潛在應用價值[18-19]。同時,它也提升了腦電傳感器的應用價值,能與腦電信號特征提取和分類進行數據融合,形成多模態的生理信號特征識別與分類的能力,實現更為廣闊的應用。

圖10 不同面部動作下的肌電信號響應曲線

圖11 基于SVM的面部動作識別與分類結果