999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空間分組增強注意力的輕量級人臉表情識別

2023-11-27 05:35:28羅曉曙徐照興
計算機工程與應用 2023年22期
關鍵詞:特征模型

劉 勁,羅曉曙,,徐照興

1.廣西師范大學 電子工程學院,廣西 桂林541004

2.江西服裝學院 大數據學院,南昌330201

自古,“觀色”是全面分析人物心理活動的重要依據。在《論語·顏淵》中更是有:“夫達也者,質直而好義,察言而觀色,慮以下人”。通過識別人臉表情以觀其色,可以為出現在場景中的人物提供輔助的結構化信息。因此,人臉表情識別(facial expression recognition,FER)在情感計算、人機交互、駕駛員疲勞檢測、教學效果評價等眾多領域有著廣泛的應用[1]。1978 年,Ekman 等人[2]發表的跨文化研究中首次定義了六種基本面部表情,分別為高興、傷心、生氣、害怕、厭惡和驚訝,這些基本情緒可以被不同文化背景的人感知、認同和理解。

傳統的人臉表情識別方法一般關注紋理特征和幾何特征,點分布模型(point distribution model,PDM)[3]作為紋理特征法的代表方式之一,可以對表情圖像的形狀特征和紋理特征進行統一的建模,實現對圖像特征的提取,但其計算復雜,不利于實際場景應用。關注幾何特征的主成分分析法(principal component analysis,PCA)[4]通過尋找最小均方差,獲取原始數據的最大可能投影方向,但同樣面臨運算量大、容易丟失圖像局部細節信息等問題。Gabor 濾波法[5]可有效捕捉數據圖像細節信息,實現多數據多維度識別,但存在數據維度過高,導致模型參數設置復雜等問題。可以看出,傳統的特征提取方法主要不足是需要先驗知識,但這會導致主觀性,同時模型的計算量大,泛化能力不足。

近年來,由于卷積神經網絡(convolutional neural network,CNN)可以進行端到端更全面的非線性映射,抽取更深層次、更抽象的語義表征,它也被應用在人臉表情識別領域,但基于CNN 的深度學習表情識別方法存在如下問題:(1)淺層卷積網絡所提取的特征魯棒性較差;(2)深層CNN模型在使表情識別準確率提升的同時,會導致參數量急劇增加,計算開銷增大。雖然更大更深的網絡模型效果更好,但是模型運行時對所需要的硬件配置要求也更高,而在實際生產與應用環境中,設備的配置水平往往受到成本限制,過高的配置需求不利于模型的實際應用。因此,在人臉表情識別領域,除了提高識別準確率,同時也應盡可能考慮如何壓縮模型的計算開銷。

根據上述問題的分析,本文在輕量級網絡EfficientNet的基礎上構建并行的深度卷積殘差模塊,在不大量增加計算開銷的同時,可以使淺層網絡更好地提取人臉表情圖像中眼睛、嘴巴等關鍵細節部位的特征。同時,在深層網絡引入改進SENet 的空間分組增強注意力機制(spatial group-wise enhance,SGE)[6],使模型突出對重點語義特征區域的學習并減少模型參數量。最后,設計了改進的輸出模塊,替換原始網絡的全連接層,以此減少過擬合。本文方法在兩個公開的RAF-DB[7]和AffectNet[8]數據集上進行實驗驗證,實驗結果表明,所提方法在保持較低計算開銷的情況下,較近期有關文獻提出的一些先進表情識別方法有較高的識別準確率。

1 模型

1.1 改進的深度可分離卷積

Lin 等人[9]的研究表明:在CNN 模型中參數占比最大的是全連接層,雖然全連接層可以壓縮特征圖的維度并輸入到Softmax層,最終得到七分類人臉表情圖像,但這會造成過擬合,不利于增強模型的泛化能力。為此,本文設計了改進的輸出模塊來替換骨干網絡EfficientNet-V2[10]中的全連接層輸出模塊。改進輸出模塊如圖1所示。

圖1 改進輸出模塊Fig.1 Improved output module

輸出模塊主要由改進的深度可分離卷積(improved depthwise separable convolution,IDP)組成,深度卷積可以看作深度可分離卷積的濾波階段,每個通道上都有對應的卷積核進行卷積操作;點卷積是深度可分離卷積的組合階段,整合多個特征圖信息,這一過程可以用圖2表示。相較于普通卷積,深度可分離卷積模塊可以在進一步提取人臉表情特征的同時不引入大量的參數。當大小為d×d的卷積核作用在大小為H×W的輸入特征圖上時,令輸入、輸出的通道數分別為C和n,可得普通卷積計算參數量為H×W×C×(d×d×n),而深度可分離卷積的計算參數量為H×W×C×(d×d+n)。因此,深度可分離卷積的參數量僅為標準卷積的。

圖2 深度可分離卷積操作過程Fig.2 Depthwise separable convolution operation

為了防止梯度彌散,增強模型的非線性能力,減少過擬合,深度可分離卷積后均使用了ReLU 激活函數,雖然其在反向傳播時速度較快,但對于輸入不大于0的神經元將會被抑制,導致權重無法更新,這會影響整個模型的最終表達。因此,本文將ReLU激活函數替換為SiLU激活函數,SiLU激活函數公式為:

SiLU激活函數曲線如圖3,它對負值保留了一定的梯度流,而不像ReLU 中的硬零邊界,這有利于特征信息的流動。此外,SiLU曲線上的每一點都是平滑的,這將允許更好的信息深入神經網絡,從而取得更好的識別準確率和泛化性。

圖3 SiLU與ReLU激活函數對比圖Fig.3 Comparison of SiLU and ReLU activation functions

1.2 并行的深度卷積殘差模塊

人臉表情識別往往與局部細節特征有關,例如眉毛、眼睛、嘴巴等部位可以更容易地表現出不同的情緒,人眼在識別表情時也往往關注這些區域。因此,為了使網絡可以有效地學習局部細節特征,本文設計了并行的深度卷積殘差模塊(parallel depthwise convolution residual module,PDWRes),通過對多個局部區域的特征提取,并以殘差結構的形式補全到骨干網絡中,實現了局部與全局特征的融合,使網絡更加關注人臉表情圖像中的細節特征。PDWRes模塊結構如圖4。

圖4 PDWRes模塊結構圖Fig.4 PDWRes module structure

對于輸入的彩色RGB人臉表情圖像,在通過Efficient-Net 底層Conv1 之后得到特征圖,其中c=24。受到Transformer 模型[11]與文獻[12]的啟發,將特征圖F1進行水平、垂直方向二等分,得到四塊人臉表情圖像的局部區域特征圖,其中h=w=,k={1,2,3,4} 。再對每小塊特征圖依次經過兩次3×3 DWConv操作,得到人臉不同區域的細節特征圖。如第1.1節所述,為了避免引入大量的計算參數,這里僅使用深度卷積進行特征提取。同時采用批量歸一化(batch normalization,BN),使模型的收斂速度更快。另一方面,為了增強模型的稀疏性,減少冗余度,本文在BN后均使用了ReLU6激活函數,ReLU6定義如下:

ReLU6 激活函數將ReLU 函數線性部分的上限設為6,這有利于在低精度的移動端設備上實現更好的數值分辨率,增強模型的穩定性。

由于隨著網絡深度的加深,特征圖將越來越小,這將不利于PDWRes模塊進行局部特征提取。因此,為了盡可能地減少對模型引入額外的計算量,本文只在Stage1階段使用了PDWRes模塊。

1.3 空間分組增強注意力

特征提取是人臉表情識別的關鍵。如第1.2 節所述,特征圖的長寬將會隨著網絡深度的加深而縮小,而空間通道數將會增加,但由于缺乏對人臉表情圖像特定區域的監督,且表情圖像中可能存在噪聲,這會導致表情特征的空間分布不穩定,從而影響局部表情特征的表征能力。為此,本文引入了空間分組增強注意力機制[6],有利于幫助深層網絡增強表情圖像的細粒度學習。SGE模塊采用特征分組的思想,沿通道方向將特征分組為多個子特征,為了使每一組子特征在空間上具有良好的分布性與魯棒性,SGE模塊在每一個特征組內都進行空間增強操作,利用全局統計特征與局部特征的相似性生成注意遮罩,并將注意遮罩在每個位置上縮放特征向量。因此,SGE模塊可以有效抑制噪聲,并自我增強組內的空間分布,突出語義特征的重點區域。SGE模塊結構如圖5。

圖5 SGE模塊結構圖Fig.5 SGE module structure

對于輸入大小為H×W,通道數為C的特征圖,SGE 注意力模塊首先沿著通道維度劃分為G組,SGE模塊將并行處理所有子特征組,并在每個子特征組內單獨進行注意操作,其中一個特征組在空間上的每個位置都存在一個原始的特征向量xi∈?C/G,其中1<i <m,m=H×W,那么原始特征組可以表示為X={x1,x2,…,xm} 。為了利用組空間的整體信息,進一步增強關鍵區域語義特征的學習,利用經過全局平均池化后的特征近似表示該組的學習特征,則該組特征可以表示為g:

接著,將組內的全局特征g與原始特征xi進行點積,以此獲得每個特征所對應的注意系數ci:

注意系數ci在一定程度上衡量了全局語義特征g與原始局部特征xi的相似性。若不同樣本特征之間的系數偏差過大,將不利于注意操作,因此在空間上對注意系數ci進行歸一化,歸一化后可得:

式中,μc是c的均值,σc是c的標準差,ε為數值穩定常數。此外,為了縮放和移動歸一化值,為每個系數引入一對參數γ和β,并將縮放和移動后的記為αi:

參數γ和β是SGE 模塊引入的唯一一對參數,其參數量為分組數G的兩倍,而這相較于整體網絡百萬級的參數量來說,可以忽略不計。此外SGE模塊只在網絡更深的Stage4~Stage6 階段使用,這也是本文模型在加入SGE 模塊后仍然輕量的原因。最后,對αi進行Sigmoid 函數激活,再與原始特征xi進行點積,點積得到的特征向量即為增強后的特征向量:

1.4 本文方法

深度卷積神經網絡如ResNet和VGG等可以取得不錯的人臉表情圖像識別準確率,但模型的計算復雜度也隨之提升,過于復雜的網絡無法滿足嵌入式設備場景的需求。為了滿足這些需求,Tan等人[10]在MobileNet的基礎上提出了輕量級神經網絡EfficientNet-V2,它可以很好地平衡識別準確率和模型參數量的關系。在EfficientNet-V2 Unit 中主要使用了MBConv 模塊和Fused-MBConv模塊,主要是由1×1 點卷積(pointwise convolution,PWConv)、深度卷積(depthwise convolution,DWConv)以及標準3×3 卷積構成,并使用了SE(squeeze-andexcitation)注意力機制輔助模型學習。

本文提出的人臉表情識別模型主要由改進的EfficientNet網絡組成,網絡結構如圖6所示。通過本文改進的深度可分離卷積來代替原始網絡的全連接層,有利于進一步提取高維特征并減少模型的過擬合。為了增強網絡對局部細節特征的提取能力,在不大量增加額外計算開銷的前提下,在Stage1階段設計了并行深度卷積殘差模塊,并將局部特征與全局特征相融合。隨著網絡深度的加深,可能會導致表情特征的空間分布不穩定,因此在深層網絡Stage4~Stage6 階段,將MBConv 模塊中的SE 模塊替換為SGE 注意力機制,有利于增強模型對表情圖像的細粒度學習,突出語義特征的重點區域。改進后的EfficientNet 網絡從Conv1 到Stage6 層的輸出通道數分別為24、24、48、64、128、160、256,最后再通過Softmax層,得到七分類人臉表情識別輸出(包含中性表情)。

圖6 表情識別網絡結構Fig.6 Expression recognition network structure

1.5 損失函數的設計

給定一張人臉表情圖像x,其標簽Y∈{1,2,…,i},其中i為表情圖像的類別數,通過主干網絡提取特征,最后送入Softmax 分類器作為輸出。Softmax 計算表情圖像x屬于類別i的條件概率為:

式中,ωi是第i類的權重向量,j表示總類別數。Softmax的輸出結果是輸入表情圖像x屬于7 種不同表情的概率,取最大概率所在的類別作為模型的輸出,這些概率之和為1。

訓練時,為了利于梯度的反向傳播,本文使用KL(Kullback-Leibler)散度來度量改進后EfficientNet 模型的預測輸出與實際數據集標簽之間的差異。KL散度是非負的,這滿足深度學習梯度下降法特性,將改進后EfficientNet 模型的輸出作為預測值P(x),表情圖像的標簽作為真實值Q(x),樣本數量為N,KL散度可以寫為:

在測試階段,使用Combo Loss作為損失函數,它由改進的交叉熵(cross entropy)與Dice Loss 的加權和構成。為了控制對不同數據集中假陽性(false positive,FP)和假陰性(false negative,FN)的正則化程度,糾正網絡的學習,將二進制交叉熵推廣到多分類問題,其輸出是多個二進制交叉熵的平均值。Dice Loss主要用于處理數據集中類別不平衡問題,減小模型在易分類表情上的過擬合。Combo Loss可以寫為:

其中,ti和pi分別表示真實值與預測值。超參數α平衡Combo Loss與改進交叉熵的權重。超參數β控制對FP 與FN 的正則化程度。為了避免分母為0,實驗時ε取1進行平滑。

2 實驗

2.1 數據集介紹

本文實驗在大規模人臉表情數據集RAF-DB 和AffectNet-7數據集上進行實驗評估,二者均使用7種類別的表情標簽:悲傷、驚訝、厭惡、恐懼、快樂、憤怒、中立。

RAF-DB 數據集是真實世界人臉情感數據庫(realworld affective faces database),共有七分類表情圖像15 339 張,每張圖像均由40 人獨立標注,分為12 271 張訓練集圖像和3 068張測試集圖像。這些表情圖像存在著遮擋、姿勢、光照條件等不同方面的影響,具有較大的差異性與實際應用價值。

AffectNet是迄今為止最大的人臉表情數據集,包含超過100萬張來自互聯網的面部圖片,這些圖片通過不同的搜索引擎檢索情感標簽獲得,其中大約一半(44萬)的圖像被標注了11 種表情類別。本文使用AffectNet-7數據集中手動標記的七分類表情圖像進行實驗,AffectNet-8數據集在AffectNet-7的基礎上增加了蔑視的表情,共有8種類別的表情標簽。

2.2 實驗環境與評價指標

本文實驗均在Ubuntu 16.04系統下完成,基于深度學習框架PyTorch 1.9 和解釋器Python 3.9 實現。硬件環境:CPU為E5-2637 v4,GPU為NVIDIA GeForce GTX 1080Ti,顯存大小為11 GB,加速庫為CUDA 10.2。

機器學習系統常用于分類模型的評價指標有:準確率(accuracy),混淆矩陣(confusion matrix),也稱誤差矩陣。準確率是指模型輸出正確樣本數占總樣本數的比例,可以表示為:

式中,TP、TN、FP、FN分別表示真陽性(true positive)、真陰性(true negative)、假陽性(false positive)、假陰性(false negative)的樣本數,顯然,這四者之和為樣本總數。將真陽性(TP)、真陰性(TN)、假陽性(FP)、假陰性(FN)4 個指標一起呈現在表格中稱為混淆矩陣,可以分析每一類別的誤分情況。

2.3 數據預處理與實驗設置

在真實場景采集的RAF-DB和AffectNet數據集里,表情圖像中人臉的尺寸、角度、姿勢各有不同,這不利于模型的學習,因此均使用了RetinaFace[13]進行人臉檢測與對齊。

本文采用隨機梯度下降(stochastic gradient descent,SGD)算法進行優化,將初始學習率設為0.01,動量為0.9,權重衰減為1.0×10-4。在Dropout層,隨機丟棄的概率為0.2,以避免過擬合。在RAF-DB 和AffectNet 數據集上分別迭代60 和80 次,批處理大小均為16。在使用SGD算法優化損失函數時,當損失值接近全局最小時,學習率應變小,使模型盡可能收斂于該點。而余弦退火策略(cosine annealing)[14]通過余弦函數來降低學習率滿足這一特性,可以表示如下:

其中,t代表當前的批次數,T代表總迭代次數,ηmax與ηmin表示學習率的范圍,實驗時分別取1和0.01。

2.4 實驗結果

本文方法包括對輸出模塊的改進、并行深度卷積殘差模塊的設計以及空間分組增強注意力機制的建立,為了分析不同部分對人臉表情識別效果的影響并衡量模型參數量,以輕量級網絡EfficientNet 為基線進行了消融實驗,如表1所示。

表1 模型的性能Table 1 Model performance

通過表1可以看出,RAF-DB、AffectNet-7和AffectNet-8數據集在原始EfficientNet 模型上的人臉表情識別率分別為84.31%、59.83%和57.08%;在本文對EfficientNet的輸出模塊進行改進后,模型參數量增加2.0×104的情況下,表情識別準確率在RAF-DB、AffectNet-7 和AffectNet-8數據集分別提升了0.67個百分點、0.71個百分點和0.79個百分點,這得益于改進輸出模塊中深度可分離卷積對人臉表情高維特征的進一步提取,同時使用的Mish 激活函數也保證了有效特征信息深入神經網絡。并行深度卷積殘差模塊通過集成深度卷積獲取局部區域特征,使網絡更加關注不同表情中的細微差異,在參數量增加3.0×104的情況下,相較于基線網絡的識別準確率分別有2.13個百分點、1.86個百分點和2.11個百分點的提升,通過將局部特征融合到全局特征中,使得模型更加關注人臉表情圖像中具有鑒別性的特征,而這一特點與人眼的工作原理相似。原始EfficientNet 模型在網絡更深的Stage4~Stage6 階段利用全連接進行了壓縮和膨脹(squeeze-and-excitation,SE)操作,這會引入大量的計算參數,不利于模型的輕量化,通過將該模塊替換為更輕量的空間分組增強注意力后,識別準確率相比于EfficientNet提高了4.02個百分點、3.26個百分點和3.04個百分點,表明了空間分組增強注意力可有效突出語義特征的重點區域,提高表情識別的準確率,而這相較于原始SE 模塊,降低了模型的參數量。通過在不同數據集上測試,本文所提方法的準確率均得到了提升,表明了本文方法的泛化性。同時,本文所提方法的參數量相較于輕量級網絡EfficientNet壓縮了20%左右。通過以上得出本文所提人臉表情識別模型相比于EfficientNet在提高識別準確率的同時降低了模型的參數量。

2.5 實驗分析

2.5.1 平衡系數對比實驗

為了探究Combo Loss損失函數中平衡系數β對表情數據集識別準確率的影響,進行平衡系數對比實驗。平衡系數α控制著Dice Loss 對L2的權重,實驗時,對Combo Loss 與改進交叉熵取平均分配相等的權重,即α=0.5。平衡系數β∈(0,1) 控制著改進交叉熵對FP和FN 的懲罰程度,當β小于0.5 時,由于(1-ti)ln(1-pi)的權重更大,FP 將比FN 受到的懲罰更多,反之同理。實驗時,β以0.1的步幅從0到1進行取值。

在RAF-DB 數據集上的實驗結果如圖7,表情識別準確率隨著平衡系數的遞增先下降后增加再下降,在β=0.6 時,識別準確率達到最高88.33%,當β小于0.6時,模型準確率先降后升,在β=0.4 時,模型的識別準確率最低86.4%,當β大于0.6時,模型的識別準確率開始下降。這表明對于RAF-DB數據集,需要對假陰性樣本圖片進行較大的懲罰,以輔助模型的學習取得較好的識別準確率。

圖7 平衡系數對RAF-DB數據集識別準確率的影響Fig.7 Influence of balance coefficient on recognition accuracy of RAF-DB dataset

在AffectNet-7 數據集上的實驗結果如圖8,表情識別準確率隨著平衡系數的遞增先增加后下降,在β=0.3時,識別準確率達到最高63.09%,當β小于0.3時,模型的識別準確率不足,當β大于0.3時,模型的識別準確率開始明顯下降,在β=0.5 時,模型的識別準確率最低為61.7%。因此,對于AffectNet 數據集,需要對假陽性樣本圖片進行懲罰。

圖8 平衡系數對AffectNet數據集識別準確率的影響Fig.8 Influence of balance coefficient on recognition accuracy of AffectNet dataset

2.5.2 不同方法對比實驗

為了更精準探究模型在不同表情下的表現能力,根據在RAF-DB數據集上的實驗結果繪制了混淆矩陣,如表2 所示,主對角線上表示該標簽正確分類的準確率,其余表示錯分的概率。可以看出,高興、驚訝、中立、悲傷和憤怒均取得了較高的識別準確率,具有不錯的分類能力。在高興表情中往往具有嘴角上揚、眼角有紋路等易于識別的顯著特征。驚訝的表情具有嘴巴張開、眼睛睜大等特征。而恐懼表情中也存在嘴巴張開的情況,但恐懼時嘴巴張開的幅度更大,這使得恐懼容易與驚訝混淆。厭惡的識別難度最大,其容易與悲傷混淆,因為二者都有皺眉、額頭緊皺等相同特征。這些消極類的情緒本身具有較強的相似性,面部關鍵點通常只有細微的變化,人眼也難以完全準確區分,容易導致分類混淆的現象。此外,通過觀察數據集發現,不同表情類別的樣本數分布不均衡,不利于模型的學習,這也是影響識別準確率的重要因素。

表2 RAF-DB數據集上的混淆矩陣Table 2 Confusion matrix on RAF-DB dataset

本文方法在AffectNet-7數據集上的混淆矩陣如表3所示。可以看出在AffectNet-7數據集中,對高興的識別準確率最高,而憤怒、厭惡、悲傷等表情的識別準確率相對較低,原因是這幾類消極類別的表情特征本身相似,大都具有眉頭緊鎖、嘴角向下等特征,給識別工作帶來了一定的難度,憤怒最容易誤識別為自然,厭惡最容易誤識別為憤怒,恐懼最容易誤識別為驚訝。此外,由于AffectNet 數據集源自互聯網,樣本數量巨大,包含較多的錯誤樣本,整體表情識別率相比于RAF-DB數據集較低。

表3 AffectNet-7數據集上的混淆矩陣Table 3 Confusion matrix on AffectNet-7 dataset

為更好地觀察本文方法在訓練過程中的收斂趨勢,分別在RAF-DB 和AffectNet-7 數據集上繪制了訓練與測試的準確率曲線、損失函數曲線以及學習率曲線,如圖9、圖10所示。本文模型在RAF-DB數據集上迭代15輪左右已基本收斂,具有較快的擬合速度。在AffectNet-7數據集上訓練到第30 輪左右,模型可以快速穩定地收斂,這有利于模型在實際嵌入式設備上的運行。

圖9 RAF-DB數據集上的訓練曲線Fig.9 Training curves on RAF-DB dataset

圖10 AffectNet-7數據集上的訓練曲線Fig.10 Training curves on AffectNet-7 dataset

評價深度學習模型的優劣不應只對比識別準確率等結果指標,還應兼顧模型的參數規模等性能指標,在RAF-DB 和AffectNet 數據集上與幾種現有的公開方法就參數量和識別準確率進行了比較,由于部分對比模型中并未提及模型的性能指標,本文對這些方法按照原論文中的設置進行了復現,如表4 所示。表中的gACNN方法設置一個門單元的注意力機制,用以權衡每個通道的重要性,并將全局與局部斑塊相結合。本文模型在RAF-DB和AffectNet-7數據集上比gACNN分別提升了3.26個百分點和4.31個百分點,證明本文的并行深度卷積殘差模塊在淺層提取的局部特征與全局特征相融合,以及深層的空間分組增強注意力機制對局部特征的細節關注度是足夠的。

表4 RAF-DB和AffectNet-7數據集上不同方法參數量及準確率比較Table 4 Comparison of parameters and accuracy of different methods on RAF-DB and AffectNet-7 datasets

在模型參數量方面,本文方法遠低于gACNN 和pACNN方法1.3×108左右的參數量,相較于參數量較低的IPA2LT 和LDL-ALSG 方法,本文方法僅為其68%左右。盡管本文方法的參數量不及Separate Loss模型,但在RAF-DB 和AffectNet 數據集上的識別準確率分別提升了1.95個百分點和4.20個百分點。DNA方法通過特征聚類、多頭交叉注意力機制和注意力融合網絡,在七分類數據集上取得了具有較強競爭力的識別準確率,但在參數量上為本文方法的1.2倍。由于數據集中的標簽可能存在標注錯誤,自治愈網絡(self-cure network,SCN)通過正則化排序和重標簽等操作,在RAF-DB數據集上取得了87.03%的識別準確率。雖然本文的參數量不及SCN,但識別準確率提升了1.3個百分點。綜合來看,本文方法在有效降低模型參數量的同時能保持較高水平的表情識別效果,驗證了本文方法的有效性與實用性。

同時,為了進一步驗證本文方法在含有八類情感標簽數據集AffectNet-8上的有效性與泛化能力,并評估其參數量,與近年來相關方法進行了對比分析,如表5 所示。MViT方法利用Vision Transformer模型生成Mask,并利用動態重標簽模塊糾正數據集中的錯誤標簽,在AffectNet-8 數據集上達到了61.40%的精度。但Transformer 模型往往具有較大的參數規模,不利于輕量化,其參數量為本文的5.3倍。自治愈網絡(SCN)也是通過重標簽操作在AffectNet-8 數據集上能夠較好地平衡參數量與識別精度,對比其在RAF-DB 數據集上的表現,推測在AffectNet-8 數據集中可能存在較多的錯誤標簽。DAN方法仍在AffectNet-8數據集上取得了較高的識別準確率,但其參數量也隨之上升。可以看出,本文在保持較低參數量的前提下,在AffectNet-8數據集上仍取得了不錯的表現。

表5 AffectNet-8數據集上不同方法參數量及準確率比較Table 5 Comparison of parameter number and accuracy of different methods on AffectNet-8 dataset

從表5 可以看出,AffectNet-8 是一個具有挑戰性的人臉表情數據集,本文方法在AffectNet-7和AffectNet-8數據集上的準確率也有一定差異。AffectNet-8在AffectNet-7的基礎上增加了蔑視的表情,通過觀察數據集發現,在AffectNet-8 數據集中蔑視表情存在大量非本表情的圖像,例如快樂等,由標注者的主觀性造成的標簽噪聲,這將不利于網絡的學習。圖11展示了蔑視表情中的部分并不屬于蔑視的圖像。

圖11 蔑視表情中包含的其他類別表情圖像Fig.11 Other categories of expression images included in contempt expression

最后,本實驗使用了加權梯度類激活映射(gradientweighted class activation mapping,Grad-CAM)可視化方法[29],可以更直觀清晰地觀察到模型更關注人臉圖像哪塊區域的表情特征,如圖12 所示。人臉表情特征主要體現在眼睛、眉間、嘴巴等部位,不同類別的表情在這些局部區域會有不同的變化,因此,引導模型關注這些關鍵區域的特征將有利于識別效果的提升。圖12(a)為經過骨干網絡最后一個卷積層后產生的注意力熱圖,圖12(b)為本文方法可視化結果。可以發現,本文方法將更加關注對分類起到關鍵作用的有效特征區域,如眼睛、嘴巴等熱力紅色區域,這表明模型可以捕捉到利于分類、更具有區分性的有效特征。

圖12 Grad-CAM可視化結果Fig.12 Grad-CAM visualization results

3 結束語

本文提出的人臉表情識別方法不僅可以提高復雜環境下人臉表情的識別準確率,還可以優化模型的參數量。首先對輕量級EfficientNet 網絡的輸出結構進行改進,這有利于減少模型的過擬合,并進一步提取高維語義特征。在淺層網絡設計了并行深度卷積殘差模塊,可以更精確地提取人臉表情多區域的局部特征,并與全局空間特征相融合。為了增強深層網絡空間分布的穩定性,引入SGE 注意力模塊,自主增強組內的空間分布,突出語義特征的重點區域。此外,將Combo Loss 作為損失函數,有利于糾正網絡的學習。最后,在RAF-DB和AffectNet 數據集上進行實驗,與部分先進方法和基本分類模型相比,取得了較高的識別精度。同時本文方法壓縮了模型的參數量,達到了在提高識別準確率的情況下簡化模型的目的,具有一定的應用價值。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产真实乱人视频| 欧美精品v| 久久国产精品电影| 国产精品极品美女自在线网站| 亚洲视频欧美不卡| 日韩欧美中文亚洲高清在线| 日本亚洲欧美在线| 国产成人免费| 91久久国产成人免费观看| 国产无遮挡猛进猛出免费软件| 亚洲欧美色中文字幕| 亚洲高清免费在线观看| 欧美成一级| 浮力影院国产第一页| 国产精品成人免费综合| 免费99精品国产自在现线| 国产资源免费观看| 波多野结衣一区二区三区AV| 91在线日韩在线播放| 人妻丝袜无码视频| 91精品国产麻豆国产自产在线| 国产精鲁鲁网在线视频| 亚洲天堂网站在线| 狠狠色婷婷丁香综合久久韩国| 久久久久青草大香线综合精品| 激情六月丁香婷婷| 性做久久久久久久免费看| 成人免费黄色小视频| 欧美乱妇高清无乱码免费| 午夜不卡视频| 57pao国产成视频免费播放| 成人在线第一页| 香蕉精品在线| 在线五月婷婷| 国产精品自拍合集| 国产精品丝袜视频| 爽爽影院十八禁在线观看| 亚洲福利视频一区二区| 亚洲色无码专线精品观看| 精品人妻无码中字系列| 四虎成人在线视频| 亚洲永久免费网站| 中文字幕无码制服中字| 又爽又大又光又色的午夜视频| 国产精品免费电影| 日本三区视频| 女人18毛片一级毛片在线 | 国产亚洲欧美在线中文bt天堂| 亚洲国产成人精品无码区性色| 自拍偷拍欧美| 欧美日韩中文字幕在线| 久青草免费在线视频| 国产噜噜噜视频在线观看| 91精品啪在线观看国产60岁| 91久久偷偷做嫩草影院电| 日韩资源站| 亚洲欧洲免费视频| 国产成人麻豆精品| 97精品伊人久久大香线蕉| 国产欧美在线观看一区| 99热这里只有精品免费国产| 亚洲天堂首页| 人人91人人澡人人妻人人爽| 亚洲人成亚洲精品| 亚洲va欧美ⅴa国产va影院| swag国产精品| 久久国产乱子| 亚洲AV一二三区无码AV蜜桃| 99伊人精品| 亚洲av色吊丝无码| 精品撒尿视频一区二区三区| 久久久精品久久久久三级| 欧美一级高清片久久99| 亚洲成A人V欧美综合天堂| 亚洲中文无码h在线观看| 人妻无码一区二区视频| 欧美日韩午夜| 美女一区二区在线观看| 99精品国产自在现线观看| 免费一级毛片完整版在线看| 国产精品欧美在线观看| 亚洲精品成人7777在线观看|