結(jié)合多注意力機制和中間幀序列的微表情識別

2023-03-17 07:28:36李思誠周順勇曾雅蘭

無線電工程 2023年3期

李思誠, 周順勇?, 朱豪, 曾雅蘭, 劉學(xué)

(1.四川輕化工大學(xué) 自動化與信息工程學(xué)院,四川宜賓 644000;2.四川輕化工大學(xué) 人工智能四川省重點實驗室,四川宜賓 644005)

0 引言

微表情是當(dāng)一個人經(jīng)歷某種情緒但試圖隱藏時的一種短暫的、不自覺的面部運動。正常的面部表情,也被稱為宏表情,持續(xù)時間在1/2~4 s,涉及到大面積的面部運動[1]。 Matsumoto 等[2]認(rèn)為微表情發(fā)生在面部小部分區(qū)域,持續(xù)時間通常為 1/25~1/5 s。雖然微表情面部動作的簡短和低幅度使得人眼甚至經(jīng)驗豐富的專家難以實時識別微表情。但是與宏表情不同,人們很難掩飾自己的微表情。因此,微表情在理解人類潛在情感方面發(fā)揮著至關(guān)重要的作用,為刑事審訊[3]、國家安全[4]、測謊[5-6]、心理疾病的臨床診斷等各種應(yīng)用提供了幫助。

微表情研究可分為微表情檢測和微表情識別。微表情檢測是在一段長視頻幀序列中自動檢測到微表情存在的開始幀至結(jié)束幀序列,并可使用視頻關(guān)鍵幀提取技術(shù)檢索到面部微表情運動幅度最大的Apex 幀位置。微表情識別是將檢測出的微表情視頻序列自動分類為具體的情感類別。本文主要研究微表情識別任務(wù)。

1978 年Ekman 等[7]研究并開發(fā)了面部動作編碼系統(tǒng)(FACS) 和微表情訓(xùn)練工具(METT)[8]。FACS 將面部表情分解成肌肉運動的各個組成部分,稱為動作單位(AU)。 AU 分析可以有效地解決表示不同個體表情的歧義問題,提高表情識別性能[9]。

另一方面,METT 有助于提高人工識別面部微表情的能力,為后續(xù)構(gòu)建可靠的微表情數(shù)據(jù)集提供了幫助。盡管如此,人工識別面部微表情的能力依然有限,準(zhǔn)確判斷的概率僅有47%[10]。因此,利用計算機視覺技術(shù)設(shè)計一種行之有效的識別算法輔助人工識別顯得愈加重要。

本文的主要貢獻如下:

① 引入了2 種注意力機制模塊,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時更聚焦于面部的細微變化。

② 由于微表情發(fā)生時面部運動幅度較小,所以輸入圖像采用視頻序列中面部運動幅度最大的峰值幀(Apex Frame)和前后4 幀組成的中間幀序列。

③ 本文在3 個自發(fā)微表情數(shù)據(jù)集中進行實驗證明了此方法識別效果優(yōu)于傳統(tǒng)方法。

1 相關(guān)工作

1.1 傳統(tǒng)方法

微表情識別研究初期特征提取主要采用手工提取特征,大致分為2 類:基于像素值的方法和基于特征區(qū)域變化的方法。

基于像素值的方法通過統(tǒng)計面部區(qū)域像素值獲得微表情紋理特征,如基于局部二值模式(LBP)[11]的算法。此后,Pfister 等[12]在LBP 算法基礎(chǔ)上從二維擴展至三維空間提出了基于三維局部二值直方圖(LBP-TOP)的算法,能夠更好地處理并提取動態(tài)特征。繼LBP-TOP 后,Huang 等[13]提出了判別時空局部二值量化模式 (STCLQP)的算法,利用積分投影獲得水平和垂直投影,再采用LBP 算法提取2 個投影上的運動特征。

基于特征區(qū)域變化的方法不會直接考慮像素值,而是聚焦于特征點或特征區(qū)域的變化。目前主流的方法是提取面部運動光流特征,如Liu 等[14]于2015 年首次將光流引入至微表情識別領(lǐng)域,提出了一種主方向平均光流特征(MDMO),該方法不僅較已有方法有著更高的準(zhǔn)確率而且更為簡單。光流法主要分析微表情序列起始幀到峰值幀在光流場中的變化,Patel 等[15]提出了利用局部時空區(qū)域中的光流積分獲得的運動矢量并求出起始和偏移的幀編號來識別微表情。 Happy 等[16]提出了一種光流方向直方圖模糊化(FHOFO),從視頻流矢量方向構(gòu)造合適的角度直方圖,對時間模式進行編碼,用于微表情的分類,為基于特征區(qū)域變化的識別方法融入了新的想法。

1.2 深度學(xué)習(xí)方法

上述傳統(tǒng)手工提取特征的方法,雖然能夠有效識別微表情,但是過程往往較為復(fù)雜,耗時長,而且需要專業(yè)的心理學(xué)家進行提取。因此并不能在實際應(yīng)用中發(fā)揮很好的作用。與傳統(tǒng)方法需要研究人員有著心理學(xué)方面的先驗知識相比,利用神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)物體的固有形狀和外觀特征能夠得到更高層的語義信息。近年來,越來越多的學(xué)者嘗試將深度學(xué)習(xí)方法應(yīng)用于微表情識別領(lǐng)域。

Patel 等[17]首次在微表情識別領(lǐng)域使用深度學(xué)習(xí)方法,挑選出有用的深度特征,剔除無關(guān)的深度特征用于識別。 Peng 等[18]提出了一種結(jié)合了從頂點幀學(xué)習(xí)的空間特征和從相鄰幀學(xué)習(xí)的時間特征來識別微表情的新型峰值時間網(wǎng)絡(luò)(ATNet)。 Liong等[19]介紹了一種新的特征描述符,該特征描述符將光流與CNN 相結(jié)合,從起始幀至頂點幀獲得光流信息后,將光流特征送入Off-ApexNet 模型進行進一步的特征增強和表情分類。繼Off-ApexNet 后,Liong等[20]又設(shè)計了一種淺層三流三維卷積神經(jīng)網(wǎng)絡(luò)(Shallow Triple Stream Three-dimensional CNN,STSTNet),該網(wǎng)絡(luò)模型更小,卻能提取更具差異性的高級特征。 Xia 等[21]提出了一種新的基于深度遞歸卷積網(wǎng)絡(luò)的微表情識別方法,捕捉了微表情序列的時空變形。該模型由用于提取視覺特征的遞歸卷積層和用于識別的分類層組成,以端到端的方式進行優(yōu)化,避免了手動特征設(shè)計。

綜上所述,與傳統(tǒng)方法相比,深度學(xué)習(xí)技術(shù)在微表情識別領(lǐng)域更為有效且效率更高。但是由于目前公開的自發(fā)微表情數(shù)據(jù)集較少,僅使用峰值幀作為輸入圖像容易造成在訓(xùn)練集上測試正確度較高,在測試集上測試正確度較低。本文在選擇輸入圖像時觀察到峰值幀前后幾幀的差異十分輕微,為了避免過擬合現(xiàn)象,采用面部運動幅度最大的峰值幀(Apex Frame)和前后4 幀組成的中間幀序列作為輸入圖像。此外,在特征提取時,為了使模型對面部細節(jié)的輕微變化更加敏感而在不同位置加入了多種注意力機制,以便有效得提取深層信息。

2 本文算法

2.1 整體結(jié)構(gòu)

本文算法的整體結(jié)構(gòu)流程可分為預(yù)處理、特征提取以及表情分類3 個部分。特征提取使用Res-Net34 網(wǎng)絡(luò)模型為基礎(chǔ),構(gòu)建ECANet34-DA 網(wǎng)絡(luò)模型,通過訓(xùn)練宏表情數(shù)據(jù)集Fer2013[22]得到先驗知識,利用遷移學(xué)習(xí)應(yīng)用到微表情識別領(lǐng)域,整體結(jié)構(gòu)流程如圖1 所示。

圖1 整體結(jié)構(gòu)流程Fig.1 Overall structure

2.2 預(yù)處理

2.2.1 人臉對齊及裁剪

在預(yù)處理階段,首先需要找到微表情視頻序列中峰值幀的位置索引值,SAMM 和CASME II 數(shù)據(jù)集已經(jīng)由心理學(xué)家提前標(biāo)定了峰值幀位置。而SMIC數(shù)據(jù)集提供的是微表情的起始幀和結(jié)束幀位置索引值,本文使用了幀間差最大法[23]提取各微表情視頻序列的關(guān)鍵幀作為SMIC 數(shù)據(jù)集的峰值幀。其次,由于微表情的視頻序列包含了較多的干擾信息,所以需要裁剪出關(guān)鍵人臉區(qū)域。通過Dlib 庫對人臉68 個關(guān)鍵點進行標(biāo)定,然后基于這些標(biāo)定點進行對齊,保持雙眼標(biāo)定點的連線水平進行矩形裁剪以剔除冗余的背景信息,裁剪結(jié)果如圖2 所示。

圖2 人臉裁剪Fig.2 Cropped image

2.2.2 中間幀序列

實驗對比發(fā)現(xiàn),峰值幀附近幀序列的表情變化差異極其微小,因此,構(gòu)建由峰值幀及其前后4 幀組成的中間幀序列,以該中間幀序列作為輸入圖像,更好地解決數(shù)據(jù)量不足的問題,獲得更好的檢測效果。

2.3 特征提取

2.3.1 ECA 模塊

Efficient Channel Attention(ECA)[24]模塊是一種高效通道注意力模塊,是SENet[25]的改進版,由于SENet 進行的降維操作將會影響對通道注意力的預(yù)測,且獲取依賴關(guān)系效率不高,所以ECA 模塊采用不降維的局部跨通道交互策略,能夠有效降低模型復(fù)雜性的同時保持良好的性能。 ECA 模塊的具體結(jié)構(gòu)如圖3 所示。

圖3 ECA 模塊具體結(jié)構(gòu)Fig.3 ECA module

ECA 模塊在SENet 的基礎(chǔ)上舍棄了2 個全連接層,在對卷積塊進行全局平均池化后的特征,直接使用一個自適應(yīng)大小Kernel_Size 的1D 卷積進行學(xué)習(xí),隨后通過Sigmoid 函數(shù)固定輸入特征層每一個通道的權(quán)值。最后原特征層通過與獲得的通道權(quán)值相乘得到χ~,使得模型在不增加復(fù)雜性的同時對各通道特征更有辨別能力。

2.3.2 DA 模塊

Dual-Attention(DA)模塊是一種參考CBAM[26]機制的結(jié)合了雙重注意力的機制的輕量級卷積注意力模塊,在CBAM 基礎(chǔ)上加入了從輸入特征層與注意力輸出特征層相加的殘差連接(Residual Connection),相比ECA 模塊只關(guān)注通道特征能更好地處理空間特征。 DA 包含SAM 和CAM 兩個子模塊,具體結(jié)構(gòu)如圖4 所示。

圖4 DA 模塊具體結(jié)構(gòu)Fig.4 Structure of DA module

SAM 子模塊將輸入的特征圖F分別經(jīng)過全局最大池化和全局平均池化后,再分別輸入多層感知機(MLP)。然后融合二者輸出的結(jié)果,經(jīng)Sigmoid函數(shù)激活,得到SAM 特征圖Ms(F)。

CAM 子模塊先在空間維度上,對特征圖F′=F×Ms(F)進行2 種池化,然后對2 張?zhí)卣鲌D進行融合,再對其結(jié)果進行一次一維卷積處理,經(jīng)過Sigmoid函數(shù)激活得到CAM 特征圖Mc(F′),最終輸出F″=F′×Mc(F′)+F。

2.3.3 ECANet34-DA 網(wǎng)絡(luò)

本文用到的基本網(wǎng)絡(luò)是34 層ResNet 模型。ResNet 網(wǎng)絡(luò)由He 等[27]提出,其核心是使用殘差塊(Residual Block),將前面某一層的輸出直接跳過多層與后面數(shù)據(jù)層相加。網(wǎng)絡(luò)結(jié)構(gòu)參考了VGG19 網(wǎng)絡(luò)[28],但在其基礎(chǔ)上加入了2 種不同的殘差塊結(jié)構(gòu),如圖5 所示。

圖5 2 種殘差塊結(jié)構(gòu)Fig.5 Two structures of residual block

根據(jù)ResNet 網(wǎng)絡(luò)層數(shù)的使用不同的結(jié)構(gòu),18,34 層為圖5(a),50,101,152 層為圖5(b)。 ECANet34-DA 在ResNet34 的ResBlock 中加入了ECA模塊及DA 模塊,其結(jié)構(gòu)如圖6 所示。

圖6 ECANet34-DA 結(jié)構(gòu)Fig.6 ECANet34-DA structure

2.4 表情分類

完成表情分類工作的方法是在神經(jīng)網(wǎng)絡(luò)末層加入Softmax 回歸進行樣本分類。當(dāng)樣本輸入至Softmax 層后,神經(jīng)元會對該樣本進行預(yù)測并輸出一個屬于當(dāng)前類別的概率值。最終,各樣本概率值最大的類別即為表情分類結(jié)果。

3 實驗

3.1 數(shù)據(jù)集與數(shù)據(jù)處理

3.1.1 數(shù)據(jù)集

本文使用到微表情的自發(fā)數(shù)據(jù)集共3 種:SMICHS[29],CASME II[30]和SAMM[31]數(shù)據(jù)集。 SMIC-HS數(shù)據(jù)集是全球首個公開發(fā)布的自發(fā)式微表情數(shù)據(jù)集,由芬蘭奧盧大學(xué)的趙國英團隊收集。 CASME II數(shù)據(jù)集是中科院心理研究所傅小蘭團隊收集,受試者全部來自亞洲。 SAMM 數(shù)據(jù)集是英國曼徹斯特大學(xué)Moi Hoon Yap 團隊于2018 年收集,該數(shù)據(jù)集受試者男女比例1 ∶1,包括13 個種族,19~57 歲。 3 個數(shù)據(jù)集具體信息如表1 所示。

表1 常用數(shù)據(jù)集的具體信息Tab.1 Common datasets

由于SMIC-HS 和SAMM 樣本數(shù)據(jù)不足,所以在CASME II 數(shù)據(jù)集上進行了多情緒類別實驗。CASME II 包括“厭惡”“高興”“其他”“壓抑”“悲傷”“恐懼”和“驚訝”7 類微表情。而恐懼和悲傷樣本十分稀少,因此在多類別實驗時,保留其余5 類。

3.1.2 數(shù)據(jù)集融合

為了使3 個數(shù)據(jù)集能夠融合使用以增加實驗數(shù)據(jù),按SMIC-HS 的情緒三分類(消極、積極、驚訝)對CASME II 和SAMM 數(shù)據(jù)做了重新劃分以便統(tǒng)一樣本標(biāo)簽。具體操作為:“厭惡”“憤怒”“壓抑”“輕蔑”“悲傷”“恐懼”樣本歸為“消極”樣本;“高興”樣本歸為“積極”樣本;“驚訝”樣本保持不變;“其他”樣本無法歸類故不使用。新劃分?jǐn)?shù)據(jù)集的具體信息如表2 所示。

表2 新劃分?jǐn)?shù)據(jù)集的具體信息Tab.2 Newly divided datasets

3.2 實驗設(shè)置

本實驗的操作系統(tǒng)為Windows 11,處理器為AMD Ryzen 7-5800H,CPU 主頻3. 20 GHz,GPU 為NVDIA GeForce RTX3060,顯存12 GB。實驗使用Python 3.9. 12,Pytorch1. 10. 0 框架搭建神經(jīng)網(wǎng)絡(luò)。預(yù)訓(xùn)練使用Fer2013 宏表情數(shù)據(jù)集,為提取微表情特征提供先驗知識。通過留一交叉驗證 (Leaveone-subject-out Cross-validation,LOSOCV) 法驗證微表情識別效果。為解決微表情數(shù)據(jù)樣本類別分布不平衡的問題,損失函數(shù)使用Focal Loss 函數(shù),定義為:

式中,p為模型預(yù)測屬于類別y=i的概率;α為類別i的權(quán)重因子;()γ為調(diào)制系數(shù),γ≥0。

評價指標(biāo)包括:未加權(quán)F1 得分 (Unweighted F1-score,UF1)、系統(tǒng)平衡精度(Unweighted Average Recall,UAR)和準(zhǔn)確率 (Accuracy)。

UF1 得分因為其可以不受各樣本類別數(shù)量差異影響,所以在處理多情緒類別問題上是一個很好的評估標(biāo)準(zhǔn):

式中,C為微表情總類別數(shù);F1i為類i的F1 指數(shù);TP,FP,FN分別為真陽性、假陽性、假陰性。

UAR 又叫做未加權(quán)平均召回率,這是一種較加權(quán)平均召回率更合理的評估標(biāo)準(zhǔn):

式中,Acc為準(zhǔn)確率;Acci為類i的準(zhǔn)確率;TN為真陰性。

3.3 實驗結(jié)果及分析

3.3.1 CASME II 上的多類表情實驗

多類表情實驗選用CASME II 數(shù)據(jù)集中“厭惡”“高興”“其他”“壓抑”“驚訝”5 類微表情。采用LOSOCV 法作為驗證方法,即每一輪實驗中預(yù)留一位受試者的表情作為測試集,這樣可以避免訓(xùn)練集和測試集中人臉樣本混合造成的測試結(jié)果不準(zhǔn)確。

本文方法與其他主流方法的識別效果對比如表3所示,選取UF1 和Accuracy 兩個指標(biāo)。通過對比可以發(fā)現(xiàn),本文方法在多類識別率上有著不錯的提升,在CASME II 數(shù)據(jù)集的5 類微表情識別上,較最優(yōu)主流算法TSCNN-II 的UF1 提升了1. 26%, 準(zhǔn)確率提升了4.47%。

表3 多類表情識別與其他算法效果對比Tab.3 Comparison of multi-class expression recognition and other algorithms

3.3.2 新劃分?jǐn)?shù)據(jù)集上的3 類表情實驗

以SMIC-HS 數(shù)據(jù)集劃分為基準(zhǔn),重新劃分了CASME II 和SAMM 數(shù)據(jù)集,歸為“消極”“積極”“驚訝”三類。在相同實驗條件下,與其余做3 類識別的文獻中的主流方法對比結(jié)果如表4 所示。

表4 3 類表情識別與其他算法效果對比Tab.4 Comparison of the effects of three types of expression recognition and other algorithms

由表4 可以看出,本文所提出的算法在3 類別微表情識別上依然有著不錯的效果,在SMIC-HS 數(shù)據(jù)集上識別效果最佳:UF1 提升了2. 56%,UAR 提升了2. 09%;在CASME II 和SAMM 數(shù)據(jù)集上也有著不錯的效果。因此該算法與主流算法相比較依然有不錯的競爭力。

3.4 消融實驗

為了驗證ECANet34-DA 網(wǎng)絡(luò)的提取微弱特征的有效性,在CASME II 的5 類別微表情數(shù)據(jù)集上進行消融實驗,實驗方法設(shè)計如表5 所示。

表5 5 種消融實驗方法Tab.5 Ablation experiments

消融實驗的結(jié)果如圖7 所示。由圖7 可以看出,在ResNet34 網(wǎng)絡(luò)模型中融入ECA 和DA 模塊后,有效地提高了網(wǎng)絡(luò)模型的精度。此外,使用中間幀序列作為特征輸入相較于使用峰值幀,不僅有效解決了因訓(xùn)練數(shù)據(jù)太少導(dǎo)致的過擬合現(xiàn)象,還在一定程度上提高了識別效果。

圖7 消融實驗結(jié)果對比Fig.7 Comparison of the results of ablation experiments

4 結(jié)束語

本文提出了一種結(jié)合多注意力機制和中間幀序列的微表情識別算法,構(gòu)建了一種更加注重微表情的微弱運動變化的ECANet34-DA 網(wǎng)絡(luò)模型。使用改進的ResNet34 網(wǎng)絡(luò)模型,引入ECA 模塊及DA 模塊專注于提取不同情緒下面部細微差異特征。在提取出峰值幀索引值后,選取其附近8 幀序列組成的中間幀序列用作輸入圖像,緩解了因數(shù)據(jù)量不足造成的過擬合現(xiàn)象,同時擴充了數(shù)據(jù)集。實驗結(jié)果表明,該方法對于微表情的識別效果顯著,較其余主流算法有著不錯的競爭力。未來研究將聚焦于融合多數(shù)據(jù)集的特征提取,解決跨數(shù)據(jù)集微表情識別困難等問題。