李琳,考希賓,萬紅
(兵器工業衛生研究所 中國兵器工業集團人-機-環境重點實驗室,西安 710065)
在醫療機構里,看護機器人能夠代替護士對病人進行體貼的照顧,還能時刻陪伴病人[2]。這些應用對類人機器人的交流能力提出了更高的要求。在人與人的交流過程中,正確辨別對方的情緒是使得交談更加順利有效的重要前提[3]。為了實現機器人與人類的自主情感交互,我們需要機器人能夠自動正確識別人類的各種情緒。
情緒是人們表達對外界事物看法最直觀的方式,它與人的思想和行為有緊密的聯系,是對多種感受、思想和行為的綜合而產生的心理和生理狀態,在人與人的交流過程中能夠傳遞重要的信息[3]。情緒識別在智能人機交互、機器人領域是十分值得探究的前沿熱點方向。目前,情緒識別研究多數基于人的面部表情[4-5]、語音[6-8]和生理信號[9-12]來進行。本研究著重于基于語音和生理信號的情緒識別,旨在同時應用語音和EEG信號,利用兩種信號的互補特性,從外在表現和生理反應兩方面進行情緒識別研究。
本研究的意義在于:
(1)分析語音和EEG兩類數據源的情緒識別結果,從數據源固有特性方面探究其對情緒識別研究的重要意義。(2)使用多核學習算法進行語音和EEG信號數據融合的情緒識別研究,探究異構數據融合進行情緒識別的新方法和新途徑。
目前對情緒的描述方法主要有兩種,分別為離散法和連續法。這兩個模型的示意圖見圖1和圖2。

圖2 三維情緒描述模型
基于語音的情緒識別研究最早可追溯到1983年,人們開始使用一些聲學方面的統計特征來對不同情感進行分類[15-16]。
語音信號特征包含了不同情緒類型信息。常見的用于語音情緒識別的特征可分為三類,分別為韻律特征、音質特征和譜特征。韻律特征有能量[7-8]、幅值[6]、音調[3,6-8]等;音質特征包括共振峰、聲門系數等;譜特征有Mel倒譜系數(MFCC)[3,7]、線性預測系數(LPC)、線性預測倒譜系數(LPCC)[3]和功率譜[6]等。
冷,還是冷,這徹骨的寒冷真是讓易非怕了。她睜開眼睛盯著黑乎乎的屋頂,想著田有園的話,他讓她原諒陳留,都已經結束了,我的人生,他的那一頁都已經翻過去了,還談什么原諒不原諒呢?都結束了,就意味著沒有交集了,沒有交集了,愛與恨、原諒不原諒又有什么關系呢?那就像是對待電影里的一個人物,恨與愛已沒有任何意義,易非都懶得去想。
最常用的基于語音進行情緒識別的分類器包括:SVM[3],高斯混合模型(GMM)[8,13]、隱馬爾可夫模型(HMM)[13],多層感知器(MLP),隨機森林(RF),堆疊上下文和投票法[14]等。常用的回歸算法有局部線性重構(LLR),魯棒回歸(RR)[7]和支持向量回歸機(SVR)[7]等。
基于EEG的情緒識別研究較語音情緒識別起步晚,但得到了快速的發展。EEG信號的特征主要有三類,分別為時域、頻域以及時頻域的特征。時域特征有事件相關電位、統計特征、Hjorth參數、非平穩性指標、分形維數和高階交叉等;頻域特征有各頻帶功率和高階譜等;時頻域特征包括Hilber-Huang譜和離散小波變換等[9]。
EEG情緒識別常用的分類算法有SVM、反向傳播算法(BP算法)、k-NN等。與語音情緒識別相同,使用SVM進行EEG情緒識別的分類精度較高。Y.P.Lin等人通過對人在聽到四種不同類型音樂時(高興、生氣、悲傷和滿意)的腦電波進行采集,使用多層感知器和SVM分別對其進行分類。結果顯示,使用SVM的分類精度較高,最高分類精度為82.29%[17]。
本研究內容與目標有以下兩個方面:
(1)對已有純凈語音信號和EEG信號的情緒識別結果進行分析;嘗試從不同數據的固有特性方面分析原因,理解不同數據類型對情緒識別研究的重要意義。
(2)對語音信號和EEG信號特征進行直接組合,另外,使用多核學習算法對兩類數據進行融合,對使用兩種方法進行融合的數據分別進行情緒識別分類,探索多源數據融合在情緒識別研究中的新方法。
所用數據為18名中國大學生(9男9女)的語音與EEG數據。18位被試平均年齡為22歲。
3.2.1 SVM
支持向量機(Support Vector Machine,SVM)最初由Vapnik[18]于1995年提出,其主要思想是建立一個超平面作為決策曲面,使兩類數據之間的隔離邊緣被最大化。其示意圖如圖3所示。本研究使用SVM進行情緒識別的分類。

圖3 SVM線性二分類問題
3.2.2 多核學習
多核學習方法(Multi-Kernel Learning)是核機器學習領域的一個前沿熱點研究方向。對于非線性數據的分類,核方法被廣泛應用。但在一些復雜情況下(比如數據異構或不規則,樣本量過大或者分布不平坦),單個核函數的核機器不能有效解決這些問題,無法滿足其應用,因此,對于多源數據采取不同核函數,把多個核函數組合起來并訓練每個核的權重,這便是多核學習方法。
線性合成核是對多個核函數進行線性組合而得到的,其具體流程如圖4所示。

圖4 多核線性組合合成核流程圖
分類結果如表1所示。從表中能夠得到,自然語音的識別精度低于純凈語音;純凈語音的識別精度最高可達74.68%,EEG的識別精度最高可達89.87%。均值來看,使用純凈語音和EEG融合的識別精度最高,為74.75%。

表1 情緒識別分類結果表
雖然數據結果具有個體差異性,但整體的規律是EEG信號的情緒識別精度普遍高于語音信號,尤其是使用SVM-RBF算法。以上結果說明, EEG信號能夠更好地進行情緒識別。EEG信號能夠真實反應外界環境發生變化時人類生理狀態的變化,特別是當人們接受某種有效刺激后,其EEG信號會快速發生變化,這一變化很難人為進行改變控制,且人們不能對EEG信號進行偽裝,只要刺激有效,就能檢測到信號的差異。而語音信號則不同,一方面,人們能夠對語音中的情緒進行人為偽裝,即人們使用語音所表達的情緒不一定是其真實情緒;另一方面,有些人不善于表達情緒,則使用其語音進行情緒識別結果并不會很好。
研究中對純凈語音信號和EEG信號分別進行了情緒識別,由于這兩類信號在對情緒的表征方面各有優缺點而又相互互補,我們將這兩類信號的特征值進行融合并對其進行了情緒分類。
表1表明,進行特征融合后的分類精度均比兩類數據各自的分類精度高,平均最高能夠達到20%以上。
以上結果表明,多源數據特征融合進行情緒識別的分類效果好于對單一數據進行分類。說明單一數據源在進行情緒識別分析中由于數據的固有特性會影響分類效果,而多源數據融合進行識別則將能夠對不同數據的缺陷進行互補,更加全面且精確地反映各類情緒變化。
EEG信號的情緒識別效果整體較語音信號好。由于EEG信號能夠反映外界環境發生變化時人類生理狀態的變化,特別是當人們接受某種有效刺激后,其EEG信號會快速發生變化,這一變化很難人為進行改變控制。而語音信號則不同,一方面,人們可以人為偽裝語音中的情緒表達,另一方面,有些人不善于表達情緒狀態,其語音中的情緒信息不夠精確。
多源數據特征融合進行情緒識別的分類效果好于使用單一數據的分類效果。在數據融合方法中,多核學習算法的分類效果較單核分類器好。多核學習算法對不同種類的數據使用不同的核函數,可以有選擇地使用適合各個數據類型的核函數,因此多核學習算法有較強的多源數據分類性能。
在未來的研究中,我們組將實現機器人與人的情感交互。針對本論文的研究結論,在進行人機情感交互研究中,首先需要對噪聲進行處理,獲得盡量純凈的語音信號;其次是選擇最佳的多核學習算法進行多種數據的融合,以達到更加精準的情緒識別結果,進行更加有效的人機情感交互。