999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多尺度融合注意力機制的人臉表情識別網絡

2023-01-13 11:58:16羅思詩李茂軍
計算機工程與應用 2023年1期
關鍵詞:深度特征

羅思詩,李茂軍,陳 滿

長沙理工大學 電氣與信息工程學院,長沙 410114

在人類的交流過程中,面部表情是日常生活中最主要的一種信息傳遞方式。面部表情不僅可以呈現人類的情緒狀態,更能反映人類的情感。經過心理學家調查研究發現,當人們面對面交流時,人臉表情傳遞的情感信息是總體信息的55%,而語言所占有的信息僅含7%。人臉表情識別是情感計算研究的一個重要方向。近年來,人臉表情識別技術在機器人制造、醫療服務、通信和駕駛等需要人機交互的系統中有著廣闊的應用前景。

人臉表情識別包括4個步驟:圖像采集、圖像預處理、特征提取和表情識別分類。特征提取是最為重要的一步,對表情識別結果有決定性影響,研究人員在這方面進行了大量的深入研究,提出了許多方法。傳統的表情識別先人為設計特征,再用分類器將表情分類,常見的提取特征方法有:局部二值模式(local binary pattern,LBP)[1]、主成分分析法(principal component analysis,PCA)[2]以及Gabor小波變換[3]等。Zhu等[4]將等效主成分分析用作表情特征表示,線性回歸分類作為表達分類器,保留了原始圖像的有用信息,同時減少特征向量數據維度。傳統尺度不變特征變換(scale invariant feature transform,SIFT)方法提取特征點數量和位置具有不確定性,因此Shi等[5]提出了一種特征點約束算法,以SIFT描述符為特征參數,確定能夠有效代表表情變化區域特征點的最佳位置,并提取區域梯度信息。傳統方法為表情識別打下了較好的基礎并做出了很大貢獻,但人工設計的特征提取算法因難以有效處理背景、角度等因素的干擾,識別性能有限,泛化能力不足。

近年來,深度學習在計算機視覺領域得到了廣泛的應用,并都取得了優異的成績。與傳統設計方法相比,深度神經網絡能夠自主學習特征,而且對存在光照、不同姿態等一些更難以識別的人臉表情圖像識別準確率更高,穩定性更好。Chen等[6]提出的方法由一個輸入是完整人臉圖像的主網絡和一個輸入是包含突出表情特征區域的預處理人臉圖像的輔助學習網絡組成。主網絡與輔助網絡結構共享參數,能有效提高關注突出表情變化區域的能力。方明等[7]提出一種結合殘差網絡及目標掩膜的特征提取方法,定位人眼的關鍵區域后進行圖像掩膜,能減少眨眼動作對特征提取造成的干擾,歐拉視頻放大算法能對微表情變化的關鍵區域進行放大,獲得更明顯的表情變化。崔子越等[8]通過對預訓練的VGG模型進行微調,并設置概率閾值對Focal Loss進行改進,避免誤標注樣本對模型分類性能產生影響。通過設計深層的網絡結構或者對損失函數進行改進優化等方法通常可以獲得良好的識別效果,但與此同時網絡層數、模型復雜度和參數量也不斷增加,計算代價越來越昂貴,容易產生過擬合等問題。值得注意的是,在MobileNet[9]中提出的深度可分離卷積將傳統卷積拆分為兩部分執行,在幾乎不損失精度的情況下大大減少了參數的計算量,可有效克服過擬合問題。

在實際分類任務中,有效特征信息只分布在圖像的局部區域,為了突出有效特征信息,一些研究引入了注意力機制。Wang等[10]提出了一種自愈網絡來抑制面部表情數據的不確定性,其中自注意力模塊學習每個面部圖像的權重,以捕獲樣本對訓練的重要性。Li等[11]提出了一種在有遮擋的情況下進行面部表情識別的方法,利用注意力機制關注未被遮擋的部分,但網絡依賴于人臉關鍵點檢測,遮擋面積較大時,難生成自適應權重。但上述方法均為完整網絡結構,不易遷移。Wang等[12]提出一種高效通道注意力網絡,采用特征重標定方式,強調有用區域并抑制用處不大的區域,提升效果顯著,且增加的模型復雜度小,可以直接插入到現有網絡中使用。

為了更好地提取人臉表情的有效特征,提高識別精度,同時減少網絡模型參數,提出一種多尺度融合注意力機制的人臉表情識別網絡,本文工作概括如下:

(1)為了引導網絡學習對表情更有判別作用的局部特征信息,提出了利用高效通道注意力機制來提高關鍵特征的權重,強調表情識別的有效特征區域,有效提升了表情識別性能。

(2)引入具有多尺度卷積核的Inception模塊可以獲得更為豐富的圖像特征,通過在不同尺度上進行卷積再聚合增加網絡的感受野,增強網絡的特征學習能力。

(3)在網絡模型中增加深度可分離卷積以減少參數計算量,降低模型復雜度,使網絡具有更好的抗過擬合性能。

本文方法在兩個公開人臉表情數據集上進行驗證,并與其他幾種方法進行對比,結果表明本文方法有較好的效果。

1 表情識別網絡模型

1.1 ECA注意力機制

人臉表情的有效特征信息只分布在圖像的局部區域。為了從表情圖像中篩選出有效特征信息,引入注意力機制到網絡模型中。ECA-Net是一種超輕量級注意力模塊,其主要作用是考慮每個通道與其相鄰幾個通道進行跨通道信息交互并生成權重值。增加面部表情關鍵特征的權重,降低無關特征權重,使網絡優先關注有用的信息,提升網絡對重要特征的敏感度,其對識別準確率的提升效果卓越。ECA-Net結構圖如圖1所示。

圖1 ECA-Net結構圖Fig.1 Structure diagram of ECA-Net

假設網絡的輸入特征圖為F∈RH×W。首先,對特征圖在不降低維度的情況下對每個通道都采用全局平均池化,將每個二維的特征通道壓縮到單個實數再進行提取,得到一個1×1×C的全局描述特征。其次,考慮每個通道及其k個近鄰來捕獲本地跨通道交互信息,可以通過執行卷積核大小為k的快速一維卷積有效實現。其中k代表跨通道交互的覆蓋范圍,即有多少個相近鄰參與一個通道的注意力預測,并用sigmoid激活函數生成各通道的權重占比。最后,把得到的各個通道權重值對輸入特征圖的每個通道加權,完成了特征在通道空間中的重新校準。

ECA-Net只考慮每個通道與其k近鄰之間的相互作用,相比跨所有通道交互,能降低模型復雜度并提高效率。通過大小為k的一維卷積為每個通道生成權重,即:

式中C1Dk表示核大小為k的一維卷積,y表示通道,σ表示sigmoid激活函數。k與通道維數有關,通道維數越大,則局部跨通道交互的范圍k就越大。通過與通道維數相關的函數自適應確定k值,即:

因此可得:

式中||todd為距離t最近的奇數,γ和b的值分別設置為2和1。

1.2 深度可分離卷積

MobileNet是Howard等在2017年提出的一種輕量網絡,它的基本單元是深度可分離卷積,其核心思想是將一個完整的卷積運算分解為兩步進行。第一步是深度卷積,深度卷積屬于濾波階段,把傳統的三維卷積核分解為一個逐通道處理的二維卷積核,每個卷積核分別處理輸入特征圖的一個通道,每個通道獨立進行卷積運算,將卷積處理后得到的所有特征圖按順序進行拼接得到最終輸出。第二步是點卷積,實際為1×1卷積。點卷積屬于組合階段,它對輸入進行逐點卷積,把深度卷積輸出的特征圖進行通道融合,得到新的特征圖。標準卷積與深度可分離卷積的對比如圖2所示。

圖2 兩種卷積對比Fig.2 Comparison of two convolutions

假設輸入特征圖尺寸為DF×DF×M,卷積核大小為D×D,輸出特征圖尺寸為DF×DF×N。標準卷積計算量為D×D×M×N×DF×DF,而深度可分離卷積計算量為D×D×1×M×DF×DF+1×1×M×N×DF×DF,可得出深度可分離卷積與標準卷積計算量之比為由此可見,與標準卷積相比,深度可分離卷積能夠大幅度減少參數,有效提高了訓練與識別的速度。

1.3 Inception

GoogLeNet[13]是Google推出的基于Inception模塊的深度神經網絡模型,其目的是在保證模型質量的前提下,解決卷積層堆疊的問題,避免冗余計算,減少參數數量,提取高維特征。其中不同尺度的卷積核不僅增強了網絡的泛化能力和結構表達能力,而且為網絡模型增加更多的非線性,大大提高了卷積神經網絡的特征學習能力。

Inception模塊對輸入圖像并行執行多個卷積運算,并將所有輸出結果拼接為一個特征圖。如圖3所示,一個Inception模塊包含3個不同尺寸的卷積核和一個最大池化層,并在每一層都使用一個1×1卷積,既在相同尺寸的感受野中疊加更多的卷積,提取到更豐富的特征,又進行降維,降低計算復雜度。在多個尺度上進行卷積再聚合可以獲得圖像的不同信息,將4個分支的輸出在特征維度上拼接起來,融合不同尺度特征,使網絡獲得不同的感受野。

圖3 Inception結構Fig.3 Inception structure

1.4 表情識別網絡

受文獻[14-16]的啟發,本文提出了一種多尺度融合注意力機制的人臉表情識別方法,網絡框架如圖4所示。把圖像送入網絡進行一系列運算,提取表情特征,然后進行分類。采用Inception模塊對輸入圖像降低通道數將信息聚集,再進行多個尺度的特征提取及池化操作,獲得輸入圖像的不同尺度信息,既減少參數個數,又增強特征提取功能。不同類別的表情通常在某些局部區域改變更為明顯,因此為了使網絡更加關注這些關鍵區域的信息,捕獲圖像中更具分辨力的特征,在網絡中使用了高效通道注意力機制,提升表情識別性能。此外,在通道數較大的卷積層將普通卷積替換成深度可分離卷積,大幅降低了模型的參數量。

圖4 網絡模型結構圖Fig.4 Structure diagram of network model

所提網絡結構及詳細參數信息如表1所示。網絡主要由11個卷積層依次相連組成,將第6層的普通卷積層替換為Inception模塊,第9、10個卷積層采用深度可分離卷積,第11層使用ECA注意力模塊。卷積層的所有卷積核大小為3×3,步長為1,最后接一個全局平均池化。網絡中的部分卷積層后依次使用批量歸一化和SeLU激活函數,并且分別在第2、4、6、8、10層后嵌入了窗口大小為2、步長為2的最大池化層。

表1 模型參數Table 1 Model parameters

2 實驗

2.1 數據集

FER-2013[17]是目前較大的人臉表情識別公開數據庫,由Kaggle人臉表情識別挑戰賽提供,共包含35 887張人臉表情圖像。其中訓練集圖像28 709張,公共驗證集圖像和私有驗證集圖像分別有3 589張。所有圖像均已被標記且固定為48×48的圖像,共有7種標簽,分別為:憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視。如圖5為該數據集中各類表情樣例,在面部姿態、角度、年齡等方面都有較大差異,反映了不同環境下人臉表情的真實狀態,很多圖片還有手、眼鏡和頭發等的遮擋,與真實環境中的條件非常接近,更具有說服力。

圖5 FER-2013表情庫7種表情示例圖像Fig.5 7 kinds of facial expression images in FER-2013 expression dataset

CK+數據集[18]是用于評估人臉表情識別方法最廣泛的數據集。該數據集包含了123個人的593個圖像序列,其中有327個帶標簽的圖像序列,從中選取表情較為強烈的圖像作為實驗數據,共選出981張圖像,有以下7種表情:憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視,將圖像的人臉裁剪到大小固定為48×48。如圖6為7種表情示例圖像。

圖6 CK+表情庫7種表情示例圖像Fig.6 7 kinds of facial expression images in CK+expression dataset

2.2 實驗環境

實驗操作系統為Windows10,實驗環境python3.8,深度學習框架PyTorch,硬件平臺為CPU AMD EPYC 7302 16-Core Processor,內存為251 GB,GPU為23 GB的NVIDIA GeForce RTX 3090。

2.3 數據增強

為了減少訓練過程中的過擬合,提升模型的泛化能力,增強模型的魯棒性,使模型在有噪聲和角度變換等干擾的情況下保持穩定性,在實驗中對數據集進行了數據增強。在訓練之前,將原始圖像隨機裁剪為44×44大小,對裁剪之后的圖像進行水平翻轉,使數據集擴充為原來的兩倍。在測試集上,采用TenCrop策略,即在原圖片的4個角和中心各截取一幅大小為44×44的圖片,然后對圖片進行水平翻轉,進而將數據擴增為原數據的10倍。

2.4 實驗結果與分析

在FER-2013數據集上訓練時,對實驗進行250個epoch的訓練,初始學習率設為0.01,批量大小為32,50次迭代后,每8輪迭代學習率的衰減為之前的0.8倍。在驗證集上測試調整網絡超參數,最后在測試集上評估模型性能。其混淆矩陣如圖7所示。

圖7 FER-2013識別結果混淆矩陣Fig.7 Confusion matrix of FER-2013 recognition results

由圖7可以看出,高興和驚訝等表情與其他種類表情相比,面部特征更加明顯,因此能得到更高的識別率。高興表情中大部分具有嘴角上揚、眼角有紋路等顯著特征。驚訝表情中具有眼睛睜大、嘴巴張開等特征,在恐懼中也存在嘴巴張開的情況,但恐懼時的嘴巴張開幅度更大,這一特點使得驚訝容易與恐懼混淆。憤怒、悲傷和恐懼3種表情識別率相對較低。恐懼的識別難度最大,其不僅容易與驚訝混淆,還容易與悲傷混淆,因為這兩類表情均有皺眉、額頭緊皺等相同特征。這三類表情同屬于消極類情緒,本身具有較強的相似性,面部關鍵點通常只有細微的改變,互相錯分的比例較高。此外,數據集中各表情圖片類別數據的不均衡導致網絡訓練不充分,也是影響其識別率的重要因素。

因CK+數據集圖片量較少,因此在訓練時采用十折交叉驗證。將數據集按9∶1的比例分為訓練集和測試集,訓練集882張圖片,測試集99張圖片。實驗共訓練100輪,批量大小為64,其余參數設置同FER-2013數據集一樣。其測試集混淆矩陣如圖8所示。

從圖8中可以看出,高興、驚喜、厭惡等均有較高的識別率,而憤怒、恐懼、藐視、悲傷等表情的識別準確率相對較低,原因是這幾類表情的訓練樣本數據較少,類別數據不均衡,網絡對特征的訓練不充分。除此以外,消極類別的表情特征本身類似,大多具有嘴角向下、眉頭皺起等特征,容易混淆,如圖9中的憤怒被識別成厭惡,傷心被識別成蔑視等,也會導致識別率降低。

圖9 識別失敗示例圖Fig.9 Example diagram of recognition failure

由圖7和圖8可知,同一個算法在CK+數據集上得到的識別結果比FER-2013數據集的要更好,其原因是FER-2013數據集存在大量面部受遮擋圖片,與現實生活中的真實情況更貼合,且存在部分表情標簽誤分的問題,更具有挑戰性和代表性。而CK+是標準實驗室圖片,排除了如光照、角度變化等眾多影響因素,都是清晰的正面表情,所以識別率相對于FER-2013來說要高很多。

圖8 CK+識別結果混淆矩陣Fig.8 Confusion matrix of CK+recognition results

為了驗證本文方法的有效性,本文在CK+和FER-2013數據集上與幾種國內外現有的公開方法進行了比較。不僅對比了本文算法與表情識別經典算法的準確率,并與近幾年最新的表情識別算法進行了比較。

由表2、3可知,大部分模型都取得了較好的準確率。其中在CK+數據集上,本文算法達到95.76%的準確率;在包含人臉遮擋和圖像對比度低的FER-2013數據集上,本文算法達到較高的72.28%的準確率。因此,在圖像清晰、影響因素較少的情況下,當前大多數方法都能獲得較為理想的效果,但在更真實復雜的場景下,很多方法并不適用。而MIANet引入Inception結構提取圖像的多尺度特征信息;且還使用了ECA注意力機制,能提取到重要特征。因此可以有效解決上述問題,實驗結果也展現了MIANet識別準確率較好,獲得目前良好的效果。

表2 不同算法在FER-2013數據集上的識別率Table 2 Recognition accuracy with different algorithms on FER-2013 dataset

表3 不同算法在CK+數據集上的識別率Table 3 Recognition accuracy with different algorithms on CK+dataset

為了進一步驗證模型具有較好特征提取能力的同時又具有輕量性,將表2、3中部分網絡結構參數量與本文實驗結果進行對比,如表4所示,可以看出MIANet的參數量遠小于其他網絡,并且依然能達到較高的識別精度,這表明MIANet能較好地兼顧識別準確率與網絡的輕量化。

表4 不同方法的網絡結構參數量Table 4 Network structure parameters of different methods

2.4.1 注意力模型對比實驗

為了驗證通道注意力模塊的有效性,將引入了Inception和深度可分離卷積的網絡作為基礎網絡Basis,分別嵌入不同的注意力模型SE、CBAM、ECA后在CK+數據集上進行對比實驗。由表5可知,在其他實驗參數不變的情況下,加入ECA-Net的識別效果最好,充分驗證了ECA注意力機制的有效性。嵌入注意力模型的網絡相比于基礎網絡識別率均有提升,而嵌入ECA-Net的識別準確率最高,相比基礎網絡提高了2.43個百分點,因此在本文中,相較于其他注意力模塊,ECA能給網絡帶來更好的識別性能。

表5 注意力模型對比結果Table 5 Comparison results of attention models

隨機挑選兩張表情圖像,根據Grad-CAM方法生成ECA模塊上一層和該層的可視化熱力圖,觀察網絡在這兩層的輸出分別更側重于哪塊區域,如圖10所示。人臉表情特征主要體現在幾個局部區域,如:眉毛、嘴部、鼻翼等,不同類別的表情在這些局部區域會有不同的表現。因此,引導網絡關注這幾個關鍵部位的特征信息會有利于識別效果的提升。由圖10可知,在加入ECA模塊后,網絡將會更關注對分類起到重要作用的有效特征區域,使得模型能捕獲到用于分類的有效特征。

圖10 ECA模塊對特征提取的影響Fig.10 Impact of ECA module on feature extraction

2.4.2 模塊有效性驗證實驗

為了進一步驗證本文所提方法的有效性,本文進行消融實驗。其步驟依次如下:(1)首先在沒有引入任何其他模塊的基礎網絡上進行實驗,此方法記為Base;(2)在Base方法基礎上,加入深度可分離卷積但不使用注意力機制和Inception,此方法記為Base+Separable;(3)在Base方法基礎上,引入注意力機制但不加入深度可分離卷積和Inception,此方法記為Base+ECA-Net;(4)在Base方法基礎上,引入Inception但不加入深度可分離卷積和注意力機制,此方法記為Base+Inception;(5)在Base方法基礎上,同時引入Inception、注意力機制和深度可分離卷積,即MIANet。表6展示了各方法在FER-2013和CK+數據集上的識別結果。

表6 消融實驗Table 6 Ablation experiments

MIANet驗證了深度可分離卷積、通道注意力機制和多尺度提取Inception三個模塊的有效性。將各個模塊分別進行了對比實驗,表6中的結果顯示每個模塊在不同數據集上對表情識別準確率的效果。由表6可知,在添加通道注意力機制后檢測效果有所提高,且增加的參數量可以忽略不計,這表明ECA-Net是有效且超輕量的。Inception模塊效果顯著,其中的1×1卷積既能起到疊加作用,提取更豐富的特征,又能進行降維,降低了計算復雜度。深度可分離卷積使得模型參數量大幅縮減,降低了計算量。但其在兩個數據集上產生了不同的效果。在CK+數據集上有明顯的效果,但在FER-2013數據集上準確率反而有所下降,這是因為CK+是小型數據集,圖片數量少,當使用深度可分離卷積時可以緩解網絡的過擬合現象,因此準確率有所上升;而FER-2013是大型數據集,使用深度可分離卷積會產生欠擬合現象,因此準確率有所下降。但從表6中可以看出,同時使用深度可分離卷積、通道注意力機制和多尺度提取Inception時,仍然能較好地實現識別準確率與網絡輕量化的平衡。

3 結束語

本文針對人臉表情識別過程中難以兼顧準確率與輕量化的問題,提出一種多尺度融合注意力機制的人臉表情識別網絡。首先,在網絡中加入Inception結構,將網絡的深度和寬度同時提升,提取人臉表情不同尺度的特征信息;其次,利用高效通道注意力機制引導網絡學習利于表情識別的有效特征;最后,使用深度可分離卷積對部分卷積層進行替換,降低網絡參數,避免產生參數爆炸,從而導致過擬合的問題。在兩個公開人臉表情數據集FER-2013和CK+上分別進行實驗來對本模型進行評估,實驗結果驗證了本文所提方法的有效性。在后續的研究中,將考慮利用反卷積等方法實現各卷積層特征的可視化。另外,可以將表情識別從室內轉向室外,在更復雜、真實的場景下應用,使得理論研究能夠與實際相結合,以及增加疼痛、困倦之類的表情類別,將面部表情識別方法應用在醫療監護及自動駕駛等實際場景中。

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 久996视频精品免费观看| 成人伊人色一区二区三区| 中文字幕人妻av一区二区| 特黄日韩免费一区二区三区| 色亚洲成人| 99视频只有精品| 尤物成AV人片在线观看| 国产成人精品高清在线| 性喷潮久久久久久久久| 国产SUV精品一区二区6| 欧美国产日韩一区二区三区精品影视| 天天综合网色中文字幕| 真实国产乱子伦视频| 中文字幕在线观看日本| 激情国产精品一区| 人妻精品久久无码区| 国产成人一区| 老司国产精品视频| 国产成人一级| 久草国产在线观看| 日韩精品亚洲人旧成在线| 久久综合丝袜日本网| 99热这里只有精品国产99| 超薄丝袜足j国产在线视频| 日韩AV无码一区| 久久亚洲中文字幕精品一区| 在线观看精品自拍视频| 中文成人在线视频| 免费一级毛片在线播放傲雪网| 一区二区三区毛片无码 | 亚洲日韩日本中文在线| 日韩无码视频网站| 国产成人91精品| 97精品伊人久久大香线蕉| 区国产精品搜索视频| 亚洲高清国产拍精品26u| 无码 在线 在线| 9丨情侣偷在线精品国产| 不卡无码网| 国产嫖妓91东北老熟女久久一| 国产av一码二码三码无码| 高清码无在线看| 91探花国产综合在线精品| 欧美α片免费观看| 国产精品太粉嫩高中在线观看| 真人高潮娇喘嗯啊在线观看| 欧美精品成人| 国产成人亚洲欧美激情| 高清亚洲欧美在线看| 无码区日韩专区免费系列 | 啪啪国产视频| 青青草国产免费国产| 国产精品第一区在线观看| 在线精品视频成人网| 国产成人无码久久久久毛片| 国产精品成人一区二区不卡| 国产亚洲成AⅤ人片在线观看| 中文字幕av无码不卡免费| 国产97视频在线观看| 日韩人妻精品一区| 2021国产精品自产拍在线| 亚洲一区二区三区在线视频| 国产欧美在线观看精品一区污| 一本大道无码日韩精品影视| 色偷偷一区二区三区| 国产成人精品三级| jizz在线免费播放| 九九久久精品免费观看| 亚洲国产天堂久久九九九| 91在线激情在线观看| 精品国产免费第一区二区三区日韩| 波多野结衣第一页| 亚洲无码高清一区| 亚洲天堂精品在线| 成年片色大黄全免费网站久久| 波多野结衣一区二区三区四区视频 | a级免费视频| 国产91线观看| 国产99视频在线| 亚洲天堂久久| 国产不卡一级毛片视频| 中文字幕在线观看日本|