








摘" 要:為了提高非約束環(huán)境下的人臉表情識(shí)別效果,研究并設(shè)計(jì)了一種嵌入注意力機(jī)制的兩階段特征融合表情識(shí)別深度卷積神經(jīng)網(wǎng)絡(luò)框架。該網(wǎng)絡(luò)框架設(shè)計(jì)和引入了多個(gè)注意力模塊,旨在精準(zhǔn)提取圖像局部位置的表情特征信息。同時(shí),通過構(gòu)建密集連接殘差塊,有效提升了特征提取的質(zhì)量并增強(qiáng)了網(wǎng)絡(luò)的穩(wěn)定性。在此基礎(chǔ)上,將局部特征與多尺度模塊提取的全局特征進(jìn)行融合,從而獲得更具判別力的表情特征。實(shí)驗(yàn)結(jié)果顯示,所提方法在RAF-DB數(shù)據(jù)集上表現(xiàn)出較好的表情識(shí)別性能。
關(guān)鍵詞:表情識(shí)別;注意力機(jī)制;局部特征;特征融合
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)04-0043-05
Expression Recognition Method Based on Attention Mechanism and
Feature Fusion
JIANG Tao, LI Chuzhen
(School of Information Technology, Guangdong Technology College, Zhaoqing" 526100, China)
Abstract: In order to improve the performance of facial expression recognition in unconstrained environments, a two-stage feature fusion expression recognition deep Convolutional Neural Network framework with embedded Attention Mechanism is studied and designed. This network framework designs and introduces multiple attention modules aimed at accurately extracting expression feature information of local image positions. Meanwhile, by constructing densely connected residual blocks, the quality of feature extraction is effectively improved and the stability of the network is enhanced. On this basis, the local features are fused with the global features extracted by the multi-scale module to obtain more discriminative expression features. The experimental results show that the proposed method exhibits good expression recognition performance on the RAF-DB dataset.
Keywords: expression recognition; Attention Mechanism; local feature; feature fusion
0" 引" 言
表情是人類傳達(dá)情感最有力和最自然的信號(hào)之一,在交流中扮演著重要的角色[1]。面部表情識(shí)別(Facial Expression Recognition, FER)因其在多個(gè)領(lǐng)域的廣泛應(yīng)用,正成為計(jì)算機(jī)視覺領(lǐng)域備受關(guān)注的研究課題。無論是在人機(jī)交互[2]、駕駛員疲勞監(jiān)測(cè)[3],還是在智能教育和醫(yī)療診斷中[4],F(xiàn)ER都展現(xiàn)出重要價(jià)值,使其成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的焦點(diǎn)。FER旨在將圖像或視頻片段分類為幾種基本情緒之一,即中性、快樂、悲傷、驚訝、恐懼、厭惡、憤怒,甚至更多[5]。這就需要去建立表情圖像與表情類別之間的映射關(guān)系,然后計(jì)算機(jī)根據(jù)這種映射關(guān)系自動(dòng)確定面部表情。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在計(jì)算機(jī)視覺領(lǐng)域大放異彩,其最大的優(yōu)勢(shì)之一在于能從海量的原始數(shù)據(jù)中,智能地提取出有價(jià)值的特征,擁有出色的自適應(yīng)學(xué)習(xí)特性。與傳統(tǒng)的手工特征相比,DCNN在揭示高層語義和挖掘數(shù)據(jù)本質(zhì)方面顯得更為出色[6]。然而,面部表情識(shí)別任務(wù)的復(fù)雜性高于其他圖像識(shí)別任務(wù),因?yàn)樗髮?duì)面部特征進(jìn)行細(xì)致的刻畫,以實(shí)現(xiàn)更高的識(shí)別精度。在應(yīng)用DCNN進(jìn)行面部表情識(shí)別時(shí),可能會(huì)因?yàn)閷?duì)面部關(guān)鍵部位如眼部和嘴部的特征關(guān)注不夠,而導(dǎo)致部分有效特征信息的丟失,這種不足可能會(huì)影響識(shí)別的準(zhǔn)確性[7]。由此,為了提升識(shí)別性能,需要不斷探索如何更好地提取面部關(guān)鍵區(qū)域的局部特征,以確保在處理復(fù)雜表情時(shí),能夠充分捕捉和利用這些細(xì)節(jié)特征,從而提高整體識(shí)別的精確度和可靠性。因此,本文提出了一種基于注意力機(jī)制和特征融合的人臉表情識(shí)別算法,該算法旨在融合全局特征和局部特征,提升模型的特征提取能力,并增強(qiáng)對(duì)不同表情的辨識(shí)能力。本文所提算法將注意力模塊、多尺度模塊、密集連接殘差塊嵌入到FER的DCNN架構(gòu)中。采用不同特征提取分支對(duì)面部局部特征、全局特征分別進(jìn)行提取,并通過兩階段融合方法來提高整體性能。
1" 網(wǎng)絡(luò)結(jié)構(gòu)
1.1" 網(wǎng)絡(luò)整體結(jié)構(gòu)
本文提出的基于注意力機(jī)制局部與全局特征融合的表情識(shí)別網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。首先由ResNet-18的前三個(gè)卷積層模塊組成特征提取網(wǎng)絡(luò)來獲取輸入圖片的淺層表情特征圖,接著將得到的表情特征圖采用一個(gè)三分支網(wǎng)絡(luò)進(jìn)行處理,分別進(jìn)入通道注意力模塊,空間注意力模塊以及多尺度模塊。通道注意力模塊以及空間注意力模塊所提取的局部特征,再由注意力嵌入模塊做特征增強(qiáng)后進(jìn)行第一階段的特征融合,再將融合后的局部特征與多尺度模塊提取的全局特征進(jìn)行第二階段的特征融合,以形成全面豐富的特征表示。最后將特征融合結(jié)果送到ResNet-18的最后一個(gè)卷積模塊得到輸出特征,再通過全連接層以及Softmax函數(shù)進(jìn)而得到表情辨別的結(jié)果。在本文提出表情識(shí)別網(wǎng)絡(luò)中,嵌入了數(shù)個(gè)注意力機(jī)制模塊來提升模型的聚焦能力,并嵌入密集連接殘差塊來提高特征提取的質(zhì)量和增加網(wǎng)絡(luò)的穩(wěn)定性,現(xiàn)對(duì)各個(gè)模塊的結(jié)構(gòu)設(shè)計(jì)進(jìn)行說明。
1.2" 通道注意力模塊
通道注意力模塊結(jié)構(gòu)如圖2所示,通過使用全局平均池化(Global Average Pool)以及Reshape操作進(jìn)行特征轉(zhuǎn)換,將特征圖大小變成C×1×1。接著引入了兩個(gè)全連接(Fully Connected, FC)層,用于學(xué)習(xí)通道間的關(guān)系,得到一個(gè)與輸入通道數(shù)相同的權(quán)重向量。這個(gè)權(quán)重向量可以被看作是每個(gè)通道的注意力權(quán)重。最后把注意力權(quán)重和特征圖相乘,生成針對(duì)通道增強(qiáng)后的特征圖。這種自適應(yīng)的通道權(quán)重調(diào)整可以加強(qiáng)有用的特征,抑制無用特征,使網(wǎng)絡(luò)更好地聚焦于重要的特征信息。
1.3" 空間注意力模塊
空間注意力模塊結(jié)構(gòu)如圖3所示,通過使用最大池化(Maxpool)以及平均池化(Average Pool)將特征圖變成H×W×1的大小。緊接著將兩特征圖進(jìn)行特征融合,經(jīng)過一個(gè)大小1×1的卷積,再使用Sigmoid激活函數(shù)產(chǎn)生出注意力權(quán)重。最后,將注意力的權(quán)重與特征圖相乘,生成針對(duì)空間增強(qiáng)后的特征。
1.4" 多尺度模塊
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)存在卷積核單一、只能獲取某種固定尺度的特征的缺點(diǎn),鑒于此,本文在表情識(shí)別模型中設(shè)計(jì)了多尺度模塊,利用多分支卷積提取多尺度特征,增強(qiáng)網(wǎng)絡(luò)的全局特征提取能力。本文設(shè)計(jì)的多尺度模塊如圖4所示,基于Inception結(jié)構(gòu)[8]思想,通過使用1×1的卷積層對(duì)通道數(shù)做變換,然后再通過不同大小的卷積核并行卷積和池化,提取多尺度特征,最后將得到的不同尺度特征在通道維度進(jìn)行合并,形成一個(gè)具有豐富特征表示的輸出。
1.5" 注意力嵌入模塊
注意力嵌入模塊(Attention Embedding Module, AEM)結(jié)構(gòu)如圖5所示。在AEM中,通過將高階的特征與低階的特征相乘,補(bǔ)足模型在卷積中可能丟失的特征信息,使得模型訓(xùn)練出的信息能夠更加豐富。AEM運(yùn)行的流程表達(dá)如下:
(1)
(2)
其中Fl是來自第3個(gè)卷積層的特征,X是來自密集連接殘差塊(Residual in Residual Dense Block, RRDB)的輸入特征,GAP是全局平均池層,R表示Reshape層,DReLU是具有ReLU激活函數(shù)的Dense層,DSigmoid是具有Sigmoid激發(fā)函數(shù)的Dense層。
1.6" 密集連接殘差塊
為了更有效地提取豐富的表情特征并穩(wěn)定網(wǎng)絡(luò)訓(xùn)練過程,模型中嵌入了密集連接殘差塊(Residual in Residual Dense Block, RRDB),如圖6所示,RRDB模塊由三個(gè)Dense Block構(gòu)成,每個(gè)Dense Block內(nèi)部包含四組卷積層,每組均配以Leaky ReLU激活函數(shù),并使用3×3的卷積核。每組卷積層包含32個(gè)卷積核,通過密集連接方式實(shí)現(xiàn)特征的有效復(fù)用,最后,模塊通過一個(gè)3×3的卷積層進(jìn)行特征整合。為了增強(qiáng)模型的穩(wěn)定性,設(shè)計(jì)了一種機(jī)制,即在每個(gè)Dense Block的輸出端,都會(huì)應(yīng)用一個(gè)介于0和1之間的系數(shù)來進(jìn)行殘差縮放。這種設(shè)計(jì)思想源自密集連接策略和多級(jí)殘差網(wǎng)絡(luò),RRDB模塊通過在卷積層之間建立跳躍連接,充分利用每一層卷積特征。連接的構(gòu)建不僅能夠增強(qiáng)特征保留的完整性,還能確保信息在最小化噪聲干擾的情況下高效流動(dòng)。跳躍連接方式加強(qiáng)了特征間的傳播,也在模塊內(nèi)部實(shí)現(xiàn)了信息的深層交互,使每一層信息都能參與到整體學(xué)習(xí)中,進(jìn)而提高網(wǎng)絡(luò)的表現(xiàn)力和泛化能力。這樣的設(shè)計(jì)策略除了能穩(wěn)定模型訓(xùn)練還能提升網(wǎng)絡(luò)整體的訓(xùn)練速度以及最大限度地保留圖像特征的同時(shí),增進(jìn)網(wǎng)絡(luò)的深度。
2" 實(shí)驗(yàn)與分析
2.1" 數(shù)據(jù)集
為了驗(yàn)證所提方法的有效性,本文在人臉表情數(shù)據(jù)集RAF-DB[9](Real-world Affective Faces DataBase)上進(jìn)行了實(shí)驗(yàn)。RAF-DB是一個(gè)大規(guī)模的真實(shí)世界非約束環(huán)境下的面部表情數(shù)據(jù)集,廣泛應(yīng)用于表情識(shí)別、情感計(jì)算、人機(jī)交互等領(lǐng)域的研究[6],同時(shí)因?yàn)閳D像來自真實(shí)的場(chǎng)景,反映了現(xiàn)實(shí)生活中的復(fù)雜情感表達(dá),比實(shí)驗(yàn)室環(huán)境下拍攝的標(biāo)準(zhǔn)化數(shù)據(jù)更具有挑戰(zhàn)性,其中包含大約3萬張多樣的臉部圖片,基于眾包標(biāo)注,每張圖片已由約40位標(biāo)記者獨(dú)立標(biāo)記。RAF-DB包含了七種基本表情類別,分別是憤怒(Angry)、厭惡(Disgust)、恐懼(Fear)、高興(Happy)、傷心(Sad)、驚訝(Surprise)和中性(Neutral),涵蓋了人類情感表達(dá)的主要類型[10]。本文共使用15 339張被標(biāo)注為不同表情類別的面部表情圖像,其中用于訓(xùn)練的有12 271張,用于測(cè)試的有3 068張。
2.2" 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)使用Python語言和PyTorch深度學(xué)習(xí)框架,采用AutoDL服務(wù)器平臺(tái)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境為L(zhǎng)iux操作系統(tǒng),基礎(chǔ)鏡像為PyTorch 1.10.0,Python 3.8,Cuda版本為11.3,GPU RTX 4090 (24 GB),Xeon(R)Platinum 8362處理器。
在數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),優(yōu)化器采用隨機(jī)梯度下降SGD優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,將經(jīng)過數(shù)據(jù)預(yù)處理的數(shù)據(jù)注入模型,每次按照批數(shù)量(batch size)64進(jìn)行訓(xùn)練,訓(xùn)練一共迭代400次,動(dòng)量設(shè)為0.9,權(quán)值衰減設(shè)為0.000 1,激活函數(shù)采用ReLU函數(shù)。
圖7為模型在RAF-DB數(shù)據(jù)集上的混淆矩陣,它的每一行代表了數(shù)據(jù)的真實(shí)歸屬類別,每一列代表了分類器預(yù)測(cè)得到的類別。
由圖7可見,“高興”表情的識(shí)別準(zhǔn)確率最高,達(dá)到了96%,其次是“悲傷”,準(zhǔn)確率為91%,“驚訝”“中立”和“憤怒”的識(shí)別準(zhǔn)確率也均超過了80%。相比之下,“恐懼”和“厭惡”這兩種表情,由于外觀變化不明顯,識(shí)別率分別為64%和69%,且容易混淆,這可能與它們同屬于消極表情類別,之間的表情相似性有關(guān),基礎(chǔ)網(wǎng)絡(luò)對(duì)這兩類表情的初始識(shí)別精度也較低。除此之外,其他表情類別被誤識(shí)別的情況對(duì)比基礎(chǔ)網(wǎng)絡(luò)有明顯改善,通過本方法,在充分提取局部特征的同時(shí)融合全局特征,使圖像特征能最大限度得到利用,提高了表情識(shí)別準(zhǔn)確率。
2.3" 消融實(shí)驗(yàn)
為了驗(yàn)證本文方法中三分支兩階段全局-局部特征融合表情識(shí)別模型的有效性,本節(jié)在RAF-DB數(shù)據(jù)集上,對(duì)模型進(jìn)行了消融研究,探索基礎(chǔ)網(wǎng)絡(luò)和模塊的不同組合,以驗(yàn)證和分析各個(gè)模塊對(duì)識(shí)別結(jié)果的影響。結(jié)果如表1所示,在RAF-DB數(shù)據(jù)集上,采用ResNet-18作為基礎(chǔ)網(wǎng)絡(luò),不添加任何模塊時(shí)的準(zhǔn)確度數(shù)據(jù)為84.71%;當(dāng)僅使用第1個(gè)分支進(jìn)行實(shí)驗(yàn)時(shí),可以得到86.61%的效果;當(dāng)僅使用第2個(gè)分支進(jìn)行實(shí)驗(yàn)時(shí)可以達(dá)到86.23%;當(dāng)僅執(zhí)行第3個(gè)分支時(shí)可以達(dá)到87.1%;另外,也對(duì)第1、2分支和第1、3分支以及第2、3分支組合進(jìn)行實(shí)驗(yàn),分別的結(jié)果為87.27%,88.94%以及88.61%,本文所提出的完整模型(3個(gè)分支,2階段融合)的識(shí)別率達(dá)到了89.31%,表現(xiàn)最佳。
3" 結(jié)" 論
本文針對(duì)傳統(tǒng)DCNN主要關(guān)注整體圖像特征提取而忽視局部細(xì)節(jié)的問題,提出了一種創(chuàng)新的網(wǎng)絡(luò)模型,此模型將局部與全局特征分兩個(gè)階段進(jìn)行融合。在全局特征提取方面,模型采用多尺度模塊,能夠捕獲不同尺度的全局信息;另一方面,引入三重注意力模塊,提取關(guān)鍵區(qū)域的局部特征,同時(shí)嵌入密集連接殘差塊,通過殘差塊的跨連傳遞不同層次的表情特征,在確保信息完整性的同時(shí)防止網(wǎng)絡(luò)退化。實(shí)驗(yàn)結(jié)果表明本文所設(shè)計(jì)方法,在表情識(shí)別任務(wù)中表現(xiàn)出了較好的性能。
參考文獻(xiàn):
[1] 蔣斌,鐘瑞,張秋聞,等.采用深度學(xué)習(xí)方法的非正面表情識(shí)別綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(8):48-61.
[2] BARENTINE C,MCNAY A,PFAFFENBICHLER R,et al. A VR Teleoperation Suite with Manipulation Assist [C]//Companion of the 2021 ACM/IEEE International Conference on Human-robot Interaction.Boulder:ACM,2021:442-446.
[3] VERMA B,CHOUDHARY A. A Framework for Driver Emotion Recognition Using Deep Learning and Grassmann Manifolds [C]//2018 21st International Conference on Intelligent Transportation Systems(ITSC).Maui:IEEE,2018:1421-1426.
[4] LI T H,DU C F,NAREN T Y,et al. Using Feature Points and Angles between them to Recognize Facial Expression by a Neural Network Approach [J].IET Image Processing,2018,12(11):1951-1955.
[5] 蔣斌,崔曉梅,江宏彬,等.輕量級(jí)網(wǎng)絡(luò)在人臉表情識(shí)別上的新進(jìn)展 [J].計(jì)算機(jī)應(yīng)用研究,2024,41 (3):663-670.
[6] JIANG M,YIN S L. Facial Expression Recognition Based on Convolutional Block Attention Module and Multi-feature Fusion [J].International Journal of Computational Vision and Robotics,2023,13(1):21-37.
[7] WANG K,PENG X J,YANG J F,et al. Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition [J].IEEE Transactions on Image Processing,2020,29:4057-4069.
[8] SZEGEDY C,LIU W,JIA Y Q,et al. Going Deeper with Convolutions [J/OL].arXiv:1409.4842 [cs.CV].(2014-09-17).https://arxiv.org/abs/1409.4842.
[9] LI S,DENG W H,DU J P. Reliable Crowdsourcing and Deep Locality-preserving Learning for Expression Recognition in the Wild [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2584-2593.
[10] TENG J N,ZHANG D,ZOU W,et al. Typical Facial Expression Network Using a Facial Feature Decoupler and Spatial-temporal Learning [J].IEEE Transactions on Affective Computing,2023,14(2):1125-1137 :1125-1137.
作者簡(jiǎn)介:江濤(1983.10—),男,漢族,江西安福人,副教授,碩士,研究方向:深度學(xué)習(xí)、計(jì)算機(jī)視覺;李楚貞(1989.10—),女,漢族,廣東潮州人,副教授,碩士,研究方向:深度學(xué)習(xí)。
收稿日期:2024-08-29
基金項(xiàng)目:廣東理工學(xué)院創(chuàng)新強(qiáng)校工程科研項(xiàng)目(2022GKJZK004);廣東理工學(xué)院人工智能重點(diǎn)學(xué)科項(xiàng)目(2024KDZK001);廣東理工學(xué)院實(shí)驗(yàn)教學(xué)示范中心項(xiàng)目(SFZX202402)