陳景霞, 劉 洋, 張鵬偉, 雪 雯
(陜西科技大學 電子信息與人工智能學院, 陜西 西安 710021)
情感在我們日常生活中的方方面面都起著重要的作用.隨著人工智能的出現,1995年情感計算這一概念首次被Picard教授[1]提出,經過幾十年的發展,如今情感人工智能已經變成21項新興技術之一.就目前來看,情感計算還面臨著情感相關信息獲取困難,情感識別精度不高等諸多挑戰.
人類的情感涉及主觀經歷、生理反應和行為反應,通過表情、言語和肢體動作等多種模態進行表達.因此,情感識別也包含了多種模態,即行為模式識別和生理模式識別[2].行為識別是通過攝像頭等設備采集人的面部表情和聲音等外部信息進行情感識別,而生理模式識別是通過傳感器采集人的腦電、眼電和肌電等信息進行情感識別.生理信號相比于外部行為信號具有不易偽裝,更真實可靠等特點,因而用生理信號進行情感識別更加客觀有效.
近年來,腦電波(electroencephalogram,EEG)已經越來越多地用于情感識別并取得了很大的進展.陳景霞等[3]曾提出了一種基于深度卷積神經網絡的EEG情感識別方法,在效價和喚醒度上的情感二分類的性能都比傳統分類器有較大提升.Qiu等[4]提出了一種自監督的神經網絡GCC捕獲EEG腦網絡拓撲特征,該方法的分類精度最高可達到81.1%.Xing等[5]提出了一種多通道腦電情感識別框架,利用腦電特征序列的上下文相關性提高分類精度,該方法在DEAP數據集進行情感二分類實驗效價維度準確率可達81.1%,喚醒度維度可達74.38%.
上述基于腦電等單一模態的情感識別方法雖然取得了較大的進展,但單一模態的生理信息很容易受到各種噪聲的影響,很難完整的反映情感狀態,識別精度不高,所以使用多種模態信息來進行情感識別是很有必要的.早期的多模態情感識別大多是通過手工特征提取和傳統機器學習分類器進行,近年來隨著深度學習的不斷發展,越來越多的研究人員將其應用在多模態情感識別領域.
例如,Lu等[6]使用一種多模態情感識別框架分別在特征級和決策級對EEG數據和眼動數據進行融合,并通過實驗證明了多模態情感識別準確率相較于單一模態得到顯著提高.Qiu等[7]提出了一種相關注意網絡(CAN)的多模態情感識別模型,通過計算不同門控遞歸單元的相關性及引入注意力機制,將EEG和眼動兩個模態數據進行特征融合和深度學習,實驗結果表明,該方法在SEED數據集上情感三分類的平均準確率為94.03%.Tzirakis等[8]提出了一種端對端的多模態情感識別模型,在語音和視頻兩種模態進行訓練,在效價和喚醒度兩個維度上都取得了很好的效果.Tan等[9]提出了一種用于人機交互(HRI)系統的多模態情感識別方法,將EEG數據和面部表情數據進行融合,最終識別準確率達到了83.33%.Wu等[10]提出一種關鍵子網絡選擇算法來研究腦功能特征,通過深度典型相關分析將腦電和其他生理信號相結合來進行情感識別,最終識別平均準確率可達到95.08%.Zhao等[11]提出了基于雙向LSTM和注意力機制的表情-腦電情感識別模型,采用雙線性卷積網絡融合表情和腦電兩個模態的特征,然后通過帶有注意力網絡的雙向LSTM進行情感識別,在DEAP數據集效價和喚醒度上的準確率分別為86.2%和86.8%.
盡管近年來研究者們提出了諸多多模態情感識別的研究方法,但依然存在兩個方面的問題需要改善:一是不同模態數據之間差異較大,如何選擇更有效的模態特征并將不同模態間的特征進行有效的融合.二是如何構建更加有效的深度模型來學習更具判別性的情感相關特征以提升情感分類精度.為解決這兩大問題,本文從不同模態的特征選擇、特征融合及深度模型構建這三個方面提出了新的方法.
多模態特征融合分為數據級融合、特征級融合、決策級融合和模型級融合四種方式[12].其中,特征級融合分別提取不同單一模態的特征,使用貝葉斯決策理論、注意力機制等方法在特征層面進行融合,能夠更好的實現不同特征間的交互,從而得到更多不同模態間的互補信息.本文從特征層面對多模態信息使用注意力機制進行融合,并構建基于注意力機制的雙向門控循環單元(Bi-directional Gated Recurrent Unit,BiGRU)模型,其具體結構如圖1所示,對融合特征進行深度學習與情感分類.

圖1 Mul-AT-BiGRU模型
1.1.1 多模態特征選擇和提取
本文采用三種在單一模態中情感分類性能較好的EEG特征:微分熵(Differential Entropy,DE)特征、功率譜密度(Power Spectral Density,PSD)特征及眼動特征進行多模態融合研究,這三種特征的特點及提取方法如下:
腦電DE特征提取:微分熵定義了連續隨機變量的熵,腦電DE特征重點分析腦電信號頻率和能量等信息.Duan等[13]發現DE特征更適合于情感識別任務且能夠很好的反映EEG信號的能量變化.通常,EEG信號可以分為五個不同的頻帶,即:θ(1-4 Hz)、θ(4-8 Hz)、α(8-13 Hz)、β(13-30 Hz)、γ(30-50 Hz).DE特征的提取將EEG信號特征由原始的時域轉到頻域,然后在以上各頻帶提取信號DE特征.
腦電PSD特征提取:功率譜密度定義了在時間序列上的信號數值隨頻率分布的規律,腦電PSD特征重點分析腦電活動隨時間變化的特性,且PSD特征提取對信號穩定性沒有太多要求,對腦電這一非平穩信號十分友好.本文作者在之前的研究中[14]已經驗證了PSD特征在情感識別中具有較高的分類性能.本實驗在上述5個頻帶提取PSD特征,獲得結果作為多模態EEG信號的另一種特征.
眼動特征提取:除了EEG信號外,眼動數據可以反映吸引人注意力的因素,觀察人的無意識行為.Bradley等[15]對眼動信號和情感之間的關系的研究表明,當處于不同的情感狀態下,人的眼球運動和瞳孔直徑等會發生不同的變化,具體提取的眼動特征細節如表1所示.

表1 眼動特征
1.1.2 基于注意力機制的多模態特征融合
并非所有模態特征在情感分類中都具有同等的相關性,為了優先考慮更重要的模態,本文使用在自然語言處理中應用廣泛的AT融合注意力網絡[16],將腦電數據的DE特征、PSD特征及眼動特征進行融合.該網絡的具體結構如圖1特征融合層所示.在將三種模態特征輸入該注意力網絡之前,使用了一個全連接層將其連接.使用X表示全連接層輸出數據,輸入層中Xd表示DE特征,Xp表示PSD特征,Xe表示眼動特征.然后將全連接層的輸出作為注意力網絡的輸入,注意力網絡中進行的計算如下:
PF=tanh(WF·X)
(1)
(2)
(3)
式(1)~(3)中:αfuse表示注意權重特征向量,WF、ωF是注意力模型在訓練中的投影參數,F表示模型輸出即融合后的多模態特征向量.
在腦電和眼動這兩種生理數據的采集過程中,都是基于時間線對數據進行采集,因此數據在時序上存在密切的上下文聯系,本文采用循環神經網絡(Recurrent Neural Network,RNN)對腦電和眼電時序特征進行建模.GRU是一種特殊的RNN,它適合學習預測時間序列中間隔較長的事件以及數據間的依賴信息.具體來說,它解決了傳統RNN梯度消失的問題,同時能夠對長期依賴進行建模.為了更好的學習時間前后上下文之間的聯系和簡化計算,本文使用雙向GRU模型對融合后的多模態特征進行深層特征提取與情感分類,其具體結構如圖2所示,該模型同時受到先序信息所帶來的正向反饋和后序信息所帶來的逆向反饋,且更多的控制單元門的使用能夠更好的避免過擬合,并且更多信息的結合也更有利于提升模型的分類精度.使用x=[x1,x2,…,xt,…,xN]來表示GRU單元的輸入矩陣,其中N表示輸入樣本總數,t的取值介于0-N之間.每個GRU單元計算公式如下:
(4)
zt=σ(Wz[ht-1·xt])
(5)
rt=σ(Wr·[ht-1·xt])
(6)
(7)
(8)


圖2 BiGRU模型結構
為了進一步提高分類精度,本文在雙向GRU的基礎上加入了注意力機制來強化輸入序列的主要特征,具體結構如圖1中的深層特征提取層所示.該注意力網絡將上層雙向GRU單元的輸出作為該單元輸入,具體計算過程如下:
Pt=tanh(Wh[t]·H)
(9)
αt=soft max(ω[t]T·Pt)
(10)
(11)
式(9)~(11)中:H表示雙向GRU的輸出,αt表示注意力權重向量,Wh[t]和ωh[t]是注意力模型在訓練中的投影參數,rt為注意力層的輸出向量.最終,帶有注意力機制的雙向GRU層輸出如下:
(12)
經過上述特征選擇、特征融合和深層特征提取之后,使用SoftMax層進行最終的情感分類,具體計算如下:
(13)
(14)
為了防止過擬合,該模型還加入了Dropout層.模型采用的是AdaGrad優化器,該優化器能夠根據參數來調整學習率,有較好的魯棒性.該模型的損失函數采用交叉熵函數,計算方式如下:
(15)

本文基于EEG多模態情感數據集SEED-IV[17]展開實驗以驗證所提出的Mul-AT-BiGRU模型的有效性.該數據集是由上海交通大學BCMI實驗室相關團隊開發,包含EEG和眼動信號這兩種生理信號,它記錄了15個被試在不同時間觀看72個能誘發快樂、悲傷、恐懼、中性這四種不同情感的電影片段的腦電信號和眼動信號.72個電影片段被分成3次實驗,每次實驗包含4種不同情感的電影片段各6個,共24個.
本實驗需要從SEED-IV數據集中提取腦電和眼動兩種模態的三種不同特征:腦電DE特征、PSD特征和眼動特征.對于腦電特征來說,首先將數據集中62通道的EEG數據降采樣到200 Hz,為避免噪聲和消除偽跡,使用1~75 Hz的帶通濾波器進行數據過濾,最后得到總時長為63 s的EEG信號.之后分別在五個頻帶使用窗長為4 s的短時傅里葉變換提取DE及PSD兩種特征,最終,每個被試每次實驗經過降采樣和帶通濾波處理后的腦電DE和PSD特征的數據格式都為62(channels)×851(samples)×5(frequency bands).為了更好的學習通道間的特征,數據格式最終處理為4 225(samples)×62(channels)的數據格式.
對于眼動特征的提取,就是根據不同的眼動參數提取眼動的各種特征,如表1所示.最終,對于每個被試每次實驗提取到的眼動特征,其數據格式為31(channels)×851(samples),單模態實驗將其作為所提模型的輸入進行深層特征提取;在多模態實驗中,為了將眼動特征和腦電特征五個頻帶分別進行對齊,將眼動特征擴充一個頻帶維度,其格式轉換為31(channels)×851(samples)×5(frequency bands),其中每個頻帶都是復制同樣的31×851的眼動特征.為了跟腦電特征格式保持一致,最終將眼動特征的格式轉化為4 225(samples)×31(channels),其標簽同樣處理為由{0,1,2,3}組成的大小為4 225×1的數組,這樣就將兩種模態數據的樣本數對齊.然后,將對齊的腦電和眼動數據在通道維度上進行Concat連接操作,得到最原始的多模態融合特征,其數據格式為4 225(samples)×93(channels).接下來基于上述三種特征進行情感四分類實驗.
實驗在GeForce GTX3090 GPU上基于tensorflow1.18框架實現.實驗首先驗證了Mul-AT-BiGRU模型在多模態任務上的有效性,然后驗證該模型在分類精度上較單層GRU、兩層同向堆疊GRU有較大提升.本文還通過交叉被試實驗驗證了所提模型的泛化能力.
首先,為了驗證多模態融合特征的優勢,分別將腦電的DE特征和PSD特征、眼動特征和三者經過AT-fusion融合后的特征輸入基于多注意力機制的雙向GRU網絡進行情感四分類實驗.實驗首先在15個被試內進行,每個被試進行一次實驗,每次實驗取每個被試三次實驗的所有數據,其中30%作為測試集,其余70%數據作為訓練集.經過參數調優后將模型的batch-size設置為32,epoch在單模態下設置為500,多模態下epoch設置為100,初始學習率設置為0.000 1,dropout系數設置為0.5.模型的結構如圖1所示,單模態和多模態分類對比結果如圖3所示,被試內分類具體結果如表2所示.

表2 被試內Mul-AT-BiGRU模型分類結果
由表2可知,Mul-AT-BiGRU模型在多模態特征測試集平均分類準確率為95.19%,最高的分類準確率達到了98.41%.此外,從圖3可以看出,對于每一名被試,多特征融合后的分類精度明顯高于其他三種單一模態特征.多模態融合特征的分類精度相比于眼動、腦電PSD、腦電DE三種單一模態特征分別提升20.22%、20.04%和17.5%.可見,多模態融合特征能夠捕獲不同模態的信息進行相互補充,從而獲得更多的情感相關的信息.

圖3 Mul-AT-BiGRU模型測試集分類結果統計圖
圖4為第15名被試在單一模態腦電DE特征上的訓練曲線圖.通過觀察可以得知,在訓練過程中,隨著迭代輪數epoch的增加,訓練準確率acc整體不斷向1趨近,最終在0.93附近達到收斂.平均誤差loss雖然出現過幾次驟然上升又急速下降的情況,但整體呈現下降并不斷向0趨近的走向.epoch從0增至300期間,訓練準確率acc以螺旋梯度上升的方式,從0.26升至0.88,之后隨著迭代輪數的增加,逐漸向1收斂;而在此期間,平均誤差loss以螺旋梯度下降的方式,從1.55降低至0.28,隨后隨著迭代輪數的增加,逐漸向0收斂.在整個迭代過程中,loss在不斷收斂的同時,也在不間斷的發生震蕩,在此期間出現了四次幅度較大的變化,同時也伴隨著acc發生大幅度變化.產生這一現象的原因可能是由于在參數訓練過程中,模型產生了局部最優解.在模型經歷了大幅度的振蕩,隨著迭代次數的增加,AdaGrad優化器不斷將參數進行矯正,訓練數據不斷更新,最終隨著epoch的增加,兩條曲線都趨于平穩,直至擬合完成.

圖4 sub15 DE特征訓練過程示意圖
其他單模態特征的訓練曲線類似于圖4腦電DE特征訓練曲線,隨著迭代輪數的增加,loss逐漸向0趨近,acc逐漸向1趨近.
圖5為第15名被試在多模態融合特征上的訓練過程曲線.由圖可知,此次訓練共經過了100多個epoch的迭代,平均訓練誤差loss整體呈下降的趨勢并無限向0趨近,訓練準確率acc整體呈上升趨勢并不斷向1靠近.在訓練期間,隨著epoch的增大,loss首先以螺旋梯度下降的速度逐漸向0逼近,隨著訓練擬合到一定程度,loss下降速度變緩,最終收斂至0附近;而acc首先以螺旋梯度上升的速度逐漸向1逼近,隨著訓練擬合到一定程度,acc上升速度變緩,最終收斂至1附近.
相比于單模態特征數據,多模態特征數據收斂速度更快而且震蕩幅度較小,出現該現象的原因是單模態特征進行訓練時,網絡輸入是原始的特征數據,網絡訓練所需時間更長,擬合速度相對緩慢;而多模態特征進行訓練時,特征已經經過注意力機制的調整和學習,故而網絡訓練時間更短,擬合速度也就更快.

圖5 sub15 多模態特征訓練過程示意圖
為了驗證所提Mul-AT-BiGRU模型結構的優勢,本文做了兩種所提模型的變種,分別叫做Mul-AT-GRU和Mul-AT-stackGRU.其中Mul-AT-GRU在循環網絡層使用單層GRU,Mul-AT-stackGRU在循環網絡層使用雙層同向堆疊的GRU.兩個模型中其余參數設置和Mul-AT-BiGRU相同,實驗結果如表3所示.

表3 不同Mul-AT-BiGRU變種模型分類性能對比
由表3可知,與Mul-AT-GRU和Mul-AT- stackGRU相比,Mul-AT-BiGRU的分類精度分別提高了7.29%和4.71%.實驗結果表明,所提模型的性能更優,這也證明了所提模型在結構上的優越性.從Mul-AT-GRU和Mul-AT-stackGRU的結果可以看出,兩層堆疊的GRU比單層GRU分類效果更好,原因是隨著網絡層數的加深,網絡能夠學習到更多的特征參數用于優化網絡.所提Mul-AT-BiGRU模型比使用堆疊GRU效果更好的原因是所提模型中雙向GRU的使用能更好的學習時間前后的依賴關系,從而更好的優化模型參數.
為了驗證模型的泛化能力,本文采用十折被試交叉驗證來評估所提方法在被試間的情感識別準確率.具體來說,將15個被試數據分成十個大小相同的組,保證數據之間沒有交叉,每次實驗取其中一份數據作為訓練集,其余數據作為測試集,以上過程重復十次,直到所有被試數據都經過測試.此次實驗過程中,調優以后的參數設置如下:epoch設置為200,batch-size設置為32,學習率設置為0.000 1,dropout系數設置為0.5.圖6顯示了在此次十折交叉驗證中單模態和多模態對比結果,表4為十折交叉驗證每一折具體分類結果.

圖6 Mul-AT-BiGRU模型十折交叉驗證結果統計圖

表4 Mul-AT-BiGRU模型十折交叉被試驗證結果
由表4可知,本文提出的Mul-AT-BiGRU模型在被試間進行十折交叉驗證的平均分類準確率達到了62.77%,且經過特征融合后的分類精度明顯優于單一模態特征.可見本文所提模型不僅在被試內有著很高的分類準確率,在被試間也有著較高的分類精度,同時也驗證了本文所提模型在被試間的泛化性.
為了證明模型在交叉被試實驗中的有效性,將5種現有的方法和本文提出的方法針對多模態特征的情感分類結果進行對比,結果如表5所示.

表5 Mul-AT-BiGRU和其他模型分類性能對比
由表5可以看出,本文所提方法較傳統的機器學習分類算法SVM提升24.51%,較其它四種深度學習方法平均分類精度分別提高了9.68%,7.47%,11.73%,8.43%,本文所提Mul-AT-BiGRU方法達到了更優的性能.出現此現象的原因可能是模型中兩次注意力機制的加入,第一層注意力機制能夠提取到更多不同模態間的互補信息,使得多模態融合特征含有更多的情感相關信息,第二層能夠捕捉特征序列時間前后的更多相關性,從而模型性能得以提升.
本文提出了一種基于雙向GRU的多模態腦電情感識別方法,將不同模態的多種特征使用注意力機制進行融合,得到情感信息更加豐富的多模態特征,同時還采用帶有注意力機制的雙向GRU網絡來學習EEG等多模態數據深層上下文依賴關系,從而得到正負雙向反饋信息.本文在多模態公開數據集SEED-IV進行情感四分類實驗,使用15名被試在腦電和眼動兩個模態的數據,來評估所提Mul-AT-BiGRU的性能,被試內平均分類準確率可達95.19%,表明本文所提方法能夠充分利用腦電和眼動兩個模態的互補信息,提高了情感識別的準確性.同時進行交叉被試實驗,并與目前流行的深度模型進行橫向對比,驗證了該模型有著不錯的準確率和泛化能力,該模型為多模態情感識別腦-機接口應用的開發提供了一種有效途徑.由于不同被試間差異較大,這也就造成了交叉被試情感四分類實驗特征學習較為困難,分類準確率也低于被試內實驗.后續實驗也會對融合特征及模型進行優化,縮小不同被試間的差異,進一步提高模型準確率和泛化能力.