中圖分類號:TP391.4 文獻標識碼:A 文章編號:2096-4706(2025)16-0034-05
Abstract: Micro-expressionrecognitioncanreveal thereal emotional state individuals,so it shows a widerange applicationprospectsinthefeldsumanomputerinteraction,psholgicaldiagnsisinalinvetigation.Duetoth smallampliudeadsortduraionmicro-expressions,thetradiionalneuraletork modelisdiffculttoefeivelycapture extractthekeyfeaturesmicro-expressons,thuslimitingtheimprovementrecognitionaccuracyInordertosolvethese problems,this paper proposesanew neuralnetworkarchitecture——TBANet (Transformer Block Aggregation Network). Firstly,thehorzontalverticalopticalfowimagesmicroexpresionsaecalculatedbyRAFTalgorithmtocharacterize facial motion information.Secondly,the hierarchical Transformer network isused to encode the motion relationship each partthefacewenthemicro-expressionoccurs,ndthefeaturerepresentationabilityisfurtherehanced.FinallyheBlock Aggregation layer isusedtusethe hierarchicalstructure features toachieve multi-sale informationcapture.Experimntal resultsonthreedifferentdatasetsverifythe effectivenessTBANet.
Keywords: micro-expresson recognition; Transformer; RAFT; optical flow; feature fusion
0 引言
面部表情在辨別人類情感方面起著至關重要的作用[1]。微表情識別可以用于檢測欺騙行為[2],幫助識別各種場景中的虛假信息。這項技術可以應用于審判犯人等場景。然而,微表情的研究仍然面臨許多困難[3],因為微表情的發生迅速且持續時間短,所以通過觀察一個人的微表情狀態的變化來確定其情感狀態是非常困難的。為了增強特征的時空表示能力,SHANG等人[提出了一種神經網絡架構,逐層提取時空特征,充分考慮特征之間的時空關系,顯著提升了識別效果。WANG等人[5]提出了一種微表情識別方法,該方法基于雙流網絡和時空特征融合技術,通過結合空間與時間特征,并在不同層次上進行特征融合,從而提高了微表情的識別率。此外,WANG等人[還提出了一種新的面部動作單元圖卷積網絡,通過動作單元檢測模塊和可學習的鄰接矩陣結合Transformer編碼器來增強時空特征,進而提升了識別的準確性。
本文提出了一種新型的神經網絡架構—TBANet。首先,利用RAFT算法來計算微表情起始幀和峰值幀的水平和垂直光流運動圖,用以表征微表情的面部運動。隨后,利用分層的Transformer的自注意力機制對面部進行建模,不僅能夠準確分析面部中的嘴唇、眼睛、鼻子之間的依賴關系,還能提升特征提取的準確度,從而更好地表征面部的細微動態變化。最后利用BlockAggregation層結合了分層結構和特征融合,以捕捉多尺度信息,促進對不同尺度視覺數據的穩健分析。
1方法簡介
圖1為TBANet架構示意圖,TBANet主要是由Transformer層和BlockAggregation層組成。每個Transformer對每個圖像塊的特征的處理是獨立的。在前面的網絡中,Transformer層中的自注意力功能捕獲圖片的細粒度特征。隨后,BlockAggregation層將小的圖像塊聚合成更大的塊,從而允許在同一層次上不同塊之間的交互,這樣可以捕獲粗粒度特征。并且同一層次中的所有塊共享相同的一組參數。最后,本文的模型中的MLP模塊應用于最終特征圖,從而進行微表情分類。
圖1 TBANet架構示意圖

1.1 RAFT算法
微表情數據具有多種形式,主要包括原始圖像序列和光流序列。原始圖像序列可以以彩色圖像或灰度圖像的形式表示。而光流序列則包含豐富的面部肌肉瞬時運動信息,使其特別適合作為運動圖像分類任務的輸入。研究人員強調了光流特征在運動估計中的重要性,并開發了幾種改進的光流提取技術[7-9]。光流可用來描述像素級別的三維物體在觀察視角平面上運動的瞬時速度,表示物體在三維空間中的運動投影到二維圖像平面上,是由物體與相機之間的相對速度生成的,指示了物體圖像像素在短時間內的方向和速度。光流方法基于三個關鍵假設。第一個假設是恒定亮度,表示圖像中物體的像素亮度在連續幀之間保持不變。第二個假設是短距離或短時間運動,即相鄰幀之間的時間間隔足夠短,以至于物體的移動非常小。第三個假設是空間一致性,表示相鄰像素表現出相似的運動。
為 t 時刻下像素點
的像素值。
根據前兩條假設,可以得到:

方程(1)經過一階泰勒展開,可以得出:

從方程(1)和(2)中可以推導出:

RAFT[算法建立在深度學習基礎上,通過使用GRU循環單元迭代更新光流場來估計光流,這模仿了傳統方法中的優化過程。RAFT網絡由三個主要層組成:特征編碼層、特征關聯層和循環更新層。特征編碼層逐像素提取特征,特征關聯層為所有像素生成4D關聯信息,循環更新層則生成較低分辨率的關聯信息。在GPU的環境下,循環更新層利用4D關聯信息,從初始的零設置開始,迭代更新光流場。RAFT算法的核心思想是通過結合全對匹配和遞歸網絡結構,實現高效且準確的光流估計。以下是對其核心思想的詳細闡述,涵蓋算法的每一個重要步驟。

這些特征圖包含了關于圖像內容的豐富信息,包括邊緣、紋理和運動等。在特征提取之后,RAFT利用全對匹配來計算每個像素之間的相似度。這一過程會生成一個相似度矩陣,表示每個像素 p 與所有其他像素 q 的匹配程度。相似度的計算可以表達為:

其中, σ 為一個超參數,用于調整相似度的平滑程度。通過這種方式,RAFT能夠捕捉到全局范圍內的運動信息,而不僅僅是局部區域。
光流場的初始估計通常設為零或小的隨機值。RAFT采用遞歸網絡結構逐步細化光流估計。光流場的更新過程可以用以下公式表示:
Ft+1=Ft+ΔFt
其中, ΔFt 為通過遞歸網絡計算得到的增量。遞歸結構使得模型能夠在每次迭代中根據當前的光流場和全對匹配信息進行調整,通過多次迭代,模型逐漸減小光流估計的誤差。
RAFT引入了多頭自注意力機制以增強特征匹配的能力,通過這種機制,模型在進行全對匹配時,可以并行地從多個子空間進行學習和信息聚合,從而提高了匹配的準確性。
RAFT使用一個合適的損失函數來指導訓練過程,通常采用光流的端點誤差(EPE)作為損失度量:

其中, Ftrue 為真實光流, Fpred 為模型預測的光流,N 為像素的總數。通過最小化這個損失,RAFT能夠在訓練過程中不斷優化光流估計的準確性。
經過多次遞歸更新后,RAFT將得到的光流場解碼為光流向量
,輸出每個像素的運動信息,解碼過程通常通過線性變換實現,確保最終輸出的光流向量與輸入圖像的尺寸一致。
RAFT算法通過結合特征提取、全對匹配、遞歸更新和多頭自注意力機制,形成了一個強大且高效的光流估計框架。這種設計不僅提高了光流估計的準確性,還增強了算法在復雜運動場景中的魯棒性。通過端到端訓練,RAFT能夠有效地學習到豐富的運動信息,成為現代光流估計的重要工具。
1.2Transformer
基于卷積神經網絡(CNN)的方法已經顯示出卓越的視覺表達能力。然而,最近基于Transformer的方法被認為是更優的替代方案,它們超越了早期的CNN方法,同時顯著降低了計算成本。這些基于Transformer[]的方法將關鍵點位置編碼為向量,并通過自注意力機制建立全局依賴關系。該架構是通過堆疊 L 個Transformer層來構建的,每個層接受視覺標記和關鍵點標記作為輸入。每個層由多頭自注意力(MHA)模塊和前饋神經網絡(FFN)模塊組成,并在每個模塊之前應用層歸一化(LN)操作。多頭注意力(MHA)的表示可以描述為:

其中,
, K , V∈Rs×d 。 s 為變換過程的序列長度。 M∈Rd×d 為多個注意力頭的組合。 Xl 為第 l 層Transformer的輸出張量。
為縮放因子。
層歸一化(LN)的表達式為:

其中, μ 為特征的均值, δ 為特征的標準差, ∣o∣ 為逐元素點乘, λ 和 β 為可學習的參數。
前饋網絡(FFN)層可以表示為:
FFN(x)=max(0,xW1+b1)W2+b2
1.3Block Aggregation層
圖2為BlockAggregation層示意圖,TBANet中的BlockAggregation層主要包含以下幾個部分:首先是一個 3×3 的卷積層,接著進行層歸一化,最后執行3×3 最大池化操作。
圖2BlockAggregation層示意圖

TBANet的BlockAggregation層捕捉多尺度信息,增強了對不同尺度視覺數據的穩健性。此外,本文的模型針對單個圖像塊采用局部注意力機制,顯著提升了性能,微表情識別的準確性依賴于局部面部肌肉運動區域檢測的精確性。模型通過采用局部注意力機制并聚焦于特定的面部區域,有效地捕捉關鍵特征,從而準確推斷微表情狀態。
在本文模型中,BlockAggregation層促進了局部特征與全局特征之間的信息交換:低級BlockAggregation著重于局部面部區域內信息交流,以提取捕捉細致面部動態的復雜特征;高級BlockAggregation則支持全局范圍的信息交換,進而提取表征整體面部表情的粗粒度特征。
1.4 損失函數
在本研究中,采用交叉損失函數來訓練模型。交叉熵損失的計算式為:

其中, wi 為分配給數據集中每個樣本的權重, y 為真實標簽,并且 yi∈{0,1} 。
2 實驗評估
2. 1 實驗設置
2.1.1 評價指標
為了消除特定受試者在產生的影響,本文采用了留一法交叉驗證 (Leave-One-Subject-Out,LOSO)方法。在每次實驗中,單一受試者的樣本被保留用于測試,其他受試者的樣本則用于訓練模型。實驗重復進行了 s 次, s 為數據集中受試者的總數,在本文的實驗中 s 為27。為了評估模型性能,采用了無權重F1分數(UF1)和無權重平均召回率(UAR)指標。UF1計算所有類別的平均F1分數,提供不受類別不平衡影響的總體分類準確性度量;UAR計算所有類別的平均召回率,不考慮類別權重。
UF1的計算式為所有類別 nc 的平均F1:

其中, F1j 的計算式為:

UAR被定義為平均召回率,它的表達式為:

其中:

TPjs 、 FPjs 、 FNjs 分別為 s 個受試者的 j 類的真正例、假正例和假負例。
2.1.2 數據集
本文使用CASMEII[12]、SMIC[13]和SAMM[14]這三個數據集進行了實驗。如圖3所示,第一行五張圖片取自CASMEII數據集,第二行五張圖片取自SMIC數據集,第三行五張圖片取自SAMM數據集。CASMEⅡI數據集包含24名參與者的數據,總計145個實例,涵蓋各種情感表達。所有數據點均使用實驗室攝像機以200幀/秒的幀率錄制,原始分辨率為640×480 像素。CASMEII數據集中的樣本被分類為“快樂”“驚訝”“厭惡”“悲傷”“恐懼”“壓抑”和“其他”等情感。當合并為“負面”“正面”和“驚訝”這三個情感類別時,“負面”“正面”和“驚訝”的計數分別為88、32和25。此外,CASMEII數據集還提供了每種表情的開始、結束和頂峰索引的注釋。SMIC數據集包含16名個體的數據,總計164個實例。所有數據點均使用實驗室攝像機以100幀/秒的幀率錄制,初始分辨率為 640×480 像素。在SMIC數據集中,樣本被分類為“負面”“驚訝”和“正面”三類。其中,“負面”有70個實例,“正面”有51個實例,“驚訝”有43個實例。雖然SMIC數據集提供了開始和結束值,但不包括頂峰索引注釋。一般情況下,峰值幀在中間幀附近,因此將SMIC數據集的中間幀看作頂峰索引。SAMM數據集包含28名參與者的數據,包括133個微表情和147個擴展視頻,捕捉到343個宏觀表情。該數據集在動作單位編碼方面特別豐富,提供了關于面部表情的詳細信息。SAMM數據集包括微表情的開始、結束和頂峰索引的注釋。該數據集中的原始樣本分辨率為 2 040×1 088 像素,幀率為200幀/秒。SAMM中的圖像所描繪的情感被分類為“厭惡”“恐懼”“蔑視”“憤怒”“壓抑”“驚訝”“快樂”和“其他”。在合并為三個情感類別后,“負面”“正面”和“驚訝”的計數分別為92、26和15。
圖3 三個微表情數據集微表情節選

2.1.3 實現細節
為了確保模型對特定受試者的獨立性,本文采用了留一法交叉驗證技術。實驗環境配置如下:IntelCorei7-9700CPU、16GBRAM、GIGABYTE3090TiGPU,操作系統為Ubuntu20.04,使用的深度學習框架為PyTorch1.7。在優化過程中,本文采用了Adam優化器,學習率設定為0.00005,訓練周期為800輪,批量大小為16。
2.2 對比實驗
為全面驗證的TBANet的性能,選擇了經典及最新的微表情識別算法,并與TBANet的UF1和UAR進行比較,結果如表1所示。
表1TBANet的UF1和UAR進行比較的結果

為全面驗證的TBANet的性能,選擇了經典的微表情識別算法,并與TBANet的UF1和UAR進行比較,結果如表1所示。與經典的算法進行比較,TBANet在SMIC數據集上取得了最佳的實驗結果,展現出卓越的性能,具體而言,TBANet的UF1比STSTNet提升了 4.80% ,TBANet的UAR比STSTNet的提升了 6.47% 。這一提升不僅反映了TBANet在微表情識別任務中的有效性,也表明其在捕捉細微情感變化方面的優勢。在SAMM數據集上,TBANet同樣展現出了不錯的表現,盡管未達到最佳水平,但其結果依然具備競爭力。這一現象表明,TBANet能夠在多樣化的數據集上保持穩定性和準確性,進一步鞏固了其在微表情識別領域的應用潛力。總體上,TBANet在微表情識別中具有良好的表現。因為TBANet不僅具備良好的特征表征能力,能夠有效提取和分析面部的細微變化,提升了微表情識別的準確性。
3結論
本文提出了一種新型的神經網絡架構—TBANet,一種基于Transformer 和BlockAggregation的神經網絡架構。微表情識別非常依賴面部的局部區域,例如眼睛區域、嘴唇區域和眉毛區域。采用RAFT算法計算微表情的水平和垂直光流運動圖,以表征面部微表情的運動。接著,利用Transformer網絡編碼微表情發生時面部各部位之間的運動關系,從而增強特征的表征能力。最后,結合BlockAggregation層,整合分層結構與特征融合,捕捉多尺度信息。在三個不同數據集上的大量實驗驗證了TBANet的有效性。TBANet在SMC數據集上的表現非常突出,UF1和UAR指標相比于STSTNet分別提升了 4.80% 和 6.47% 。但在CASMEII數據集上與最新算法存在不小差距,值得后續深入研究。
參考文獻:
[1]LIJT,DONGZZ,LUSY,etal.CAS(ME)3:A
Third Generation Facial Spontaneous Micro-expression Database
withDepth Information High Ecological Validity[J].IEEE
Transactions on Pattern Analysis Machine Intelligence,
2023,45(3):2782-2800.
[2]EKMANP,FRIESENWV.NonverbalLeakage
CluestoDeception[J].Psychiatry,1969,32(1):88-106.
[3]BENXY,RENY,ZHANGJP,etal.Video-Based
FacialMicro-ExpressionAnalysis:ASurveyDatasets,Features
Algorithms[J].IEEETransactionson PatternAnalysis
MachineIntelligence,2021,44(9):5826-5846.
[4]SHANGZY,LIUJ,LIXF.Micro-Expression
RecognitionBased on Spatio-Temporal Capsule Network[J].IEEE
Access,2023,11:13704-13713.
[5]WANGZ,YANGM,JIAOQ,etal.Two-Level
Spation-temporalFeatureFusedTwo-streamNetworkforMicro
Expression Recognition [J/OL].Sensors,2024,24(5)[2025-01-28].
https://doi.org/10.3390/s24051574.
[6]WANGL,HUANGPY,CAIWY,etal.Micro
expression Recognition by Fusing Action Unit Detection
Spatio-temporal Features[C]//ICASSP2024-2024 IEEE
Processing(ICASSP).Seoul:IEEE,2024:5595-5599.
[7] LIONGST,GANYS,SEE J,et al.Shallow Triple
Stream Three-Dimensional CNN(STSTNET)for Micro-expression
Recognition [C]//2019 14th IEEE International Conference on
Automatic Face amp; Gesture Recognition(FG 2019).Lille: IEEE,
2019:1-5.
[8] OH T H, JAROENSRI R,KIM C,et al. Learning
Based Video Motion Magnification [J/OL].arXiv:1804.02684 [cs.
CV].[2025-01-29].https://arxiv.org/abs/1804.02684.
[9] WANG SJ,CHEN HL,YAN WJ,et al.Face
Recognition Micro-Expression Recognition Based on
Discriminant Tensor Subspace Analysis Plus Extreme Learning
Machine [J].Neural processing letters,2014,39:25-43.
[10] TEED Z,DENG J. RAFT: Recurrent All-pairs Field
Transforms for Optical Flow [C]//Computer Vision-ECCV 2020:
16th European Conference.Glasgow: Springer,2020:402-419.
[11] VASWANI A,SHAZEER N,PARMAR N,et al.
Attention is All You Need[J/OL].arXiv:1706.03762 [cs.CL].[2025-
01-29].https://arxiv.org/abs/1706.03762.
[12]YANWJ,LIXB,WANGSJ,et al.CASME II:
An Improved SpontaneousMicro-Expression Database the
Baseline Evaluation[J/OL].PloS One,2014,9(1):e86041.
https://doi.org/10.1371/journal.pone.0o86041.
[13]LIXB,PFISTERT,HUANGXH,etal.A
Spontaneous Micro-Expression Database:Inducement, Collection
Baseline [C]//2013 10th IEEE International Conference
Workshops on Automatic Face Gesture Recognition(FG).
Shanghai:IEEE,2013:1-6.
[14] DAVISONAK,LANSLEY C,COSTENN,et al.
SAMM:A Spontaneous Micro-Facial Movement Dataset [J].IEEE
Transactions on Affective Computing,2018,9(1):116-129.
[15] WANGYD,SEEJ,PHANRCW,et al.Lbp
with Six Intersection Points: Reducing Redundant Information
in LBP-TOP for Micro-Expression Recognition [C]//12th Asian
Conference on Computer Vision.Cham:Springer International
Publishing,2014:525-537.
[16] PENG M,WANGCY,BIT,et al.A Novel Apex
Time Network for Cross-Dataset Micro-Expression Recognition
[C]//2019 8th International Conference on Affective Computing
IntelligentInteraction(ACII).Cambridge:IEEE,2019:1-6.
[17] XIA Z,PENG W,KHOR H Q,et al. Revealing the
Invisible with Model Data Shrinking for Composite-Database
Micro-Expression Recognition [J].IEEE Transactions on Image
Processing,2020,29:8590-8605.
作者簡介:萬超(1999一),男,漢族,安徽蕪湖人,
碩士在讀,研究方向:深度學習、微表情識別;通信作者:程鵬(1985一),男,漢族,四川成都人,副教授,博士,研究方向:計算機視覺、圖像處理、模式識別。