999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度可分離卷積的表情識別改進方法

2023-05-24 09:06:14李嘉乾
智能計算機與應用 2023年5期
關鍵詞:特征提取深度特征

李嘉乾,張 雷

(江蘇理工學院 電氣工程學院,江蘇 常州 213001)

0 引言

人工智能在生活中扮演著愈發重要的角色,表情識別是人工智能的一個重要研究方向。Ekman等[1]把面部表情定義為:厭惡、憤怒、懼怕、愉快、悲傷和驚詫。隨著汽車智能化程度的提高,駕駛員面部表情檢測已成為比較熱門的研究方向[2]。目前,已有對駕駛員進行疲勞駕駛監測與提醒的相關算法[3]。但是,由于傳統算法對光照變化的魯棒性不強,導致光線過亮或光線不充足時,檢測不到表情的變化[4]。此外,由于人臉位姿的多變性,使用傳統方法檢測時,人臉定位需要預先設計人臉提取框[5],并且由于人臉的照片存在不同的尺度,檢測圖像時,如果輸入人臉的角度發生改變,對最后的精度影響極大[6~8]。

傳統人臉表情識別算法是通過手工設計特征提取器進行特征提取,如主成分分析法(Principal Component Analysis,PCA)[9],局部二值模式(Local Binary Patterns,LBP)[10]和梯度方向直方圖(Histogram of Oriented Gradient,HOG)[11]等等。然而,傳統算法在進行特征提取時,所用的手工特征提取器容易忽略對分類有較大影響的特征信息[12]。而深度學習則不需要人為設計特征提取器[13],而是通過訓練網絡結構,用誤差反向傳播算法不斷優化網絡參數,使網絡自動提取圖像特征信息。

Treisman[14]提出一種模擬人腦注意力機制的模型,其通過計算得到注意力的概率分布結果,從而反應某個輸入對于輸出的重要作用。目前,在人臉表情識別領域也受到眾多研究者的應用。如:Hu等[15]提出了基于注意力模塊化機制的結合型網絡(Squeeze-and-Excitation Networks,SENet)。該網絡通過學習的方式,自動獲取每個特征通道的重要程度,依照重要程度增強對當前任務重要的特征,并抑制對當前任務用處較小的特征。Li 等[16]提出一種基于注意力機制的自動人臉表情識別網絡,該網絡將LBP 特征與注意力機制相結合,增強了注意力模型,獲得了更好的效果。

為了提高表情特征的提取能力,同時增強對相似表情的識別能力,提出一種雙通道殘差網絡模型,該模型由兩個不同的特征提取網絡組成,使之優勢互補。對于通道一,本文對LBP 算子進行改進,在保留其對微小特征敏感性的基礎上,進一步提高提取面部紋理特征的能力。但是由于LBP 方法的定義決定了其關注點更多的是在圖像的紋理及輪廓等特征上,在特征提取中側重方向較為單一,導致提取到表情的微小特征能力強,但相對忽略了與全局的聯系。通過增加壓縮激勵模塊,對特征先壓縮后進行激發,以提高圖像整體的表達能力。將兩個通道的特征輸入特征融合網絡,通過交叉驗證方式確定特征融合網絡的系數,選擇最適合的融合系數以提高網絡的分類能力。最后使用Softmax 函數進行分類,在公開數據集CK+[17]、Oulu-CASIA[18]和JAFEE數據集上進行試驗,并與主流算法進行了比較,驗證了本文算法的優越性。

1 改進的可分離卷積通道特征網絡模型

深度可分離卷積其本質上是將原來的卷積核進行分解,從而實現降低參數量的目的。由于將卷積核拆分,實質上是增加了網絡的層數,即增加了網絡的深度,有利于網絡提取深層特征。以標準的一個深度可分離卷積為例,其總體結構如圖1 所示。

圖1 3×3 大小的深度可分離卷積結構Fig.1 3×3 size structure of depth separable convolution

對于卷積層來說,通常情況下一個卷積層內使用的卷積核大小和卷積步長都是相同的,然而深度可分離卷積由于其卷積操作的不同,可以分為兩次卷積操作:首先對輸入對象進行一次正常的卷積,以此獲得每個通道的特征,這也被稱為深度卷積;之后通過1×1 尺寸的卷積核去調整被卷積后的特征通道,并將這些特征融合起來,這也被稱為通道卷積。經過兩次不同的卷積后,可以大量減少其中的操作量。通常,卷積是全部相乘做全卷積運算,而深度可分離卷積本質上是特征的部分相乘再相加,即深度卷積和通道卷積相加。

1.1 改進激活函數

神經網絡里激活函數的選擇是至關重要的,沒有激活函數的網絡模型,難以處理人臉表情網絡輸入與輸出之間的非線性關系。

通常情況下,激活函數添加在卷積層之后,其作用是增加網絡的非線性,以提高網絡抗過擬合的能力。目前,使用最多的激活函數是ReLU,其原理見公式(1)。在正區間,其函數圖像是斜率等于1 的直線,代表輸入和輸出在正區間都是線性的,并且對函數求導后,其斜率也是不變的,使網絡模型保持一個固定的收斂速率,基本杜絕了梯度消失的問題;在負區間,是過原點斜率為0 的直線,代表此時負區間沒有輸出。正區間的線性輸出和負區間的無輸出,組合成了非線性關系。如式(1)

式中x為來自于上一層神經網絡的輸入向量。

ReLU 激活函數的優點是其結構簡單,容易控制收斂速度,但其缺點也顯而易見。由于其非線性關系是由正負區間組合而成,對于負區間來說沒有輸出,與其對應的神經元不在更新參數,相當于這一部分的神經元被舍棄掉了。

本文在ReLU 激活函數的基礎上,提出另一種改進的激活函數,即指數線性單元(exponential linear units,ELR)[19],其通過對負區間部分進行優化,解決了其負區間神經元不更新參數的問題,并且當輸入為負區間時,依然可以保持神經單元的運作性。如公式(2):

其中,參數δ =1.673 263 242 354 377 284 817 042 991 671 7。

1.2 引入壓縮激發模塊

壓縮-激發模塊(Squeeze-Excitation)本質上屬于注意力網絡的一種,通過壓縮操作和激發操作對通道賦予權重,并依此建立起通道相關的模型,而通道的權重比例依據的是各通道中特征信息的多少來分配的,通過分配權重的多少,判定當前通道與其他通道的優先級關系。而SE 模塊由于其結構中存在池化和激活函數操作,將其放置在每個卷積層之后,可以增大網絡的有效感受野,使提取到的特征更能全面的表征圖像信息,SE 模塊結構如圖2 所示。

圖2 壓縮激勵模塊結構Fig.2 Squeeze-and-Excitation module structure

由上圖可以看到,SE 模塊主要有3 個部分組成:分別為Squeeze(壓縮)部分即圖中的Global pooling(全局池化)、Excitation(激發)部分即圖中的sigmoid 激活函數,和Scale(加權)部分。SE 模塊的計算原理是:給其一個輸入為特征圖,其長寬和維度為H × W × C,經過全局池化后,其維度變成1×1×C。接著,連接兩個FC 層和激活函數層,以增加輸出的非線性;之后通過sigmoid 激活函數,生成一個特征更突出的強特征圖。

本文方法的SE 模塊在壓縮激發中間使用兩個全連接層,其優點在于:

(1)單一的全連接層無法很好的擬合特征通道之間的相關性,對于網絡模型非線性的提升起到的作用很小;

(2)由于引入了壓縮率,其實是變相降低了網絡模型的參數,使得網絡可以更快的去判斷不同通道之間的重要性。

在SE 模塊的激發部分得到每個特征通道的重要性后,通過輸出的強特征經過Sigmoid 激活函數和原特征加權后,得到該通道的權重值,將其賦予在通道上,就可以實現給通道分配權重。最后,特征通道的增強即是通過加權后得到的每個權重分別乘在對應的通道上來實現。

1.3 交叉熵損失函數

交叉熵損失函數主要刻畫的是實際輸出與期望輸出的距離,也就是交叉熵的值越小,兩個概率分布就越接近。假設概率分布p為期望輸出,概率分布q為實際輸出,則交叉熵定義如公式(3):

式中:q(x)表示當前實際的輸出概率值,p(x)表示當前分類值是否是對應對的標簽,如果輸出值對應標簽,則p(x)為1,如果輸出值不對應標簽,則p(x)為0。其中,q(x)的值是通過對網絡輸出的概率分布取對數得到,為的是在不同的標簽中更具有區分度,即使得不同樣本的樣本中心盡可能的互相遠離,從而提高表情分類結果的精度。

1.4 改進網絡框架

本章節提出了一種結合SE 模塊與可分離卷積的模塊以替代網絡中的一部分卷積核,并將其修改后嵌入殘差網絡結構中,如圖3 所示。在圖3 中可以看到一個改進的網絡框架,其在本質上是一個輕量化網絡,通過將其中一部分卷積核進行分離,從而實現降低模型參數量的目的。表1 為本文基于深度可分離卷積搭建的網絡模型。

表1 改進的可分離卷積網絡結構及參數Tab.1 Structure and parameters of improved separable convolution network

表1 為改進的網絡結構及詳細參數信息。其中,上表網絡中共有12 層卷積層,其中最開始的兩個卷積層使用尺寸為3×3,步長為1 的普通卷積;剩余的10 層為可分離卷積層,其卷積核尺寸有用于深度卷積的3×3 和1×1 用于調整通道的,以降低模型的參數量;之后通過最大池化降低特征的H和W以方便最后的分類;最后使用全局平均池化將輸出特征進行相加求和然后取平均值,得出7 個特征值,將其傳入Softmax 損失函數分類器,對應7 種表情預測的可能性大小。

針對全卷積網絡模型參數量巨大的問題,本文通過使用可分離卷積替代傳統卷積的思路進行優化;本文考慮到雖然可分離卷積可以降低模型參數量,但是過多的堆疊可分離卷積違背了設計的初衷,并且在訓練網絡的時候發現并不是堆疊可分離卷積就能使模型獲得更高的識別精度,過多的可分離卷積反而會使得模型難以訓練。所以調節模型結構并設定一個相對合適的網絡層數。

2 實驗驗證與結果分析

2.1 實驗環境及數據集介紹

本文所使用環境及計算機配置為Intel Core i7 8700、32 G 內存、NVIDIA 3060ti 顯卡8 G 顯存,軟件平臺為Python3.6、TensorFlow-gpu 1.3.1、NVIDIA CUDA 10.0、cuDNN 7.4.1 庫。

為了更好的和其他主流算法比較,本文在對參數調優后,選用Oulu-CASIA、CK+、JAFEE3 個公共的表情數據集進行實驗,各數據集及各表情數量見表2。

表2 各數據集表情種類及數量Tab.2 Expression types and quantities of each data set

3 個數據集及其中樣本數量如下:

(1)Oulu-CASIA 表情數據集包含7 種表情,分別包含厭惡、憤怒、懼怕、愉快、悲傷和驚詫以及中性表情。其中一共包括10 880 個樣本。選取其他6種表情樣本共2 864 張,進行數據增廣,一共生成了14 320 張數據集,增廣后的數據集樣本量為22 336 張。其中訓練集20 886 張,驗證集1 450 張。

(2)CK+表情數據集同樣包含7 種表情,同樣包含厭惡、憤怒、懼怕、愉快、悲傷和驚詫以及中性表情。其中一共包括800 個樣本。進行數據增廣,一共生成了12 000 個樣本,其中訓練集10 800 張,驗證集1 200 張;

(3)JAFEE 表情數據集是由日本人和白種人面部情緒圖像構成的數據集,包含厭惡、憤怒、懼怕、愉快、悲傷和驚詫以及中性表情。其中一共包括213個樣本。進行數據增廣,一共生成了10 650 個樣本,其中訓練集9 585 張,驗證集1 065 張。

2.2 網絡參數設置

本文網絡的訓練基本參數包含每一批次訓練量(Batch-size)、基礎學習率(Base-learning rate)、學習率動量(Momentum)、隨機失活(Dropout)。網絡采用帶動量的學習率,將初始學習率設置為0.01,并采用自適應學習率不斷進行修正。考慮到顯卡性能及顯存,將Batch-size 設置為32。Momentum 設為0.9。為使得模型在訓練中減少過擬合現象,并使輸出結果具有一定的稀疏性,將Dropout 設置為0.5。網絡參數設置見表3。

表3 殘差網絡參數設置Tab.3 Parameters of residual network

2.3 實驗結果對比分析

在公開數據集CK+、JAFEE 和Oulu-CASIA 數據集上用驗證集進行實驗,經過30 個epochs,得到對應的損失(loss)和識別率(accuracy),分別如圖4(a)、圖4(b)和圖4(c)所示。

圖4 三個數據集的識別率和損失率Fig.4 Recognition rate and loss rate of three data sets

其中,CK+數據集經過26 個epochs 后收斂;JAFEE 數據集經過21 個epochs 后收斂;Oulu-CASIA 數據集經過28 個epochs 后收斂。迭代完30個epochs 后準確率見表4。

表4 本文方法識別準確率Tab.4 Identification accuracy of this method

為了驗證網絡的有效性,本文分別對比了近年來的經典算法和最新算法,其中包括:Alexnet、Inception、Xception、Parallel CNN、CNN、Attention Net、FaceNet2ExpNet、GAN 等,并復現了部分高精度識別網絡,且對比了網絡之間的模型參數量,對比結果見表5。

表5 在CK+數據集上識別率比較Tab.5 Comparison of recognition rate on CK+dataset

由表5 可見,文獻[20]采用了單一的Inception結構,其網絡層數為19,參數量較少,但由于其并未對特征提取前端進行預處理,使得特征提取和分類精度完全由網絡結構決定,導致了其需要迭代較多次數,才能將網絡訓練擬合。文獻[21]在文獻[20]的基礎上改進了網絡結構,使其分為多個通道進行卷積操作,并將特征圖融合,較之前提高了較多的精度,但是由于過多的堆疊了卷積層,使得網絡參數巨量增長,模型訓練困難,且難以在終端部署。文獻[22]在卷積神經網絡的主干特征提取網絡中作出改進,提高了網絡特征提取能力的同時控制了參數量,但由于提取的特征較為單一,導致對于相似表情的識別度不高。文獻[23]在FaceNet 的基礎上結合ExpNet 進行改進,引入濾波對圖像進行降噪處理,并根據待檢測數據優化網絡結構,取得了較高的表情識別精度,但由于其完全使用卷積結構,參數量較大,依賴算力,難以在終端部署。本文引入深度可分離卷積,并在其網絡結構上進行優化,使得在保證準確率的情況下,網絡參數更少,與文獻[21]的基礎網絡Xception 相比,由于使用了可分離卷積,網絡不需要過多的堆疊卷積層,減少了其卷積層數,使得參數減少了74%,網絡模型的計算復雜度大大降低,符合輕量化網絡設計思想。

3 結束語

為了解決傳統算法識別精度低且深度學習模型參數量龐大的問題,本文提出了基于深度可分離卷積的殘差網絡模型。從改進深度可分離卷積中的激活函數入手,提高了模型抗擬合的能力;引入壓縮激勵模塊并設定壓縮率,使其提取的特征具有更強的魯棒性,同時使得提取的結果可以更全面的體現面部表情;在進行表情分類時,通過加入中心損失設計了聯合算法,提高了其對類內差異較小的特征的區分能力,即進一步提高了具有相似特征的表情之間的區分度,進而提高了總體表情識別精度。在3 個數據集(CK+、JAFEE 和Oulu-CASIA)上分別到達97.57%,96.24%和94.09%的識別準確率。實驗結果表明,本文提出的改進方案在面部表情識別方面具有很大優勢。

猜你喜歡
特征提取深度特征
深度理解一元一次方程
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 91综合色区亚洲熟妇p| 日韩av高清无码一区二区三区| 国产乱人视频免费观看| 91丝袜乱伦| 狠狠干综合| 成人在线视频一区| 欧美va亚洲va香蕉在线| 中文字幕永久在线看| 亚洲美女久久| 91精品网站| 国产网友愉拍精品视频| 白浆视频在线观看| 国产一级毛片高清完整视频版| 国产精品成| 亚洲精品午夜天堂网页| 欧美成人看片一区二区三区 | 无码精品国产dvd在线观看9久 | 伊人久久精品亚洲午夜| 91精品专区国产盗摄| 日韩精品久久久久久久电影蜜臀| 久久99国产乱子伦精品免| 午夜日b视频| 国产精品视频公开费视频| 国产亚洲精品yxsp| 凹凸国产熟女精品视频| 国产香蕉97碰碰视频VA碰碰看| 996免费视频国产在线播放| 久久人妻xunleige无码| 一区二区在线视频免费观看| 亚洲国产AV无码综合原创| 免费无遮挡AV| 国产精品亚洲αv天堂无码| 亚州AV秘 一区二区三区| 四虎影视库国产精品一区| 国产91高跟丝袜| 日本高清有码人妻| 国产精品性| 五月天综合婷婷| 国产丰满大乳无码免费播放| 在线国产91| 国产精品三级av及在线观看| 一本一道波多野结衣av黑人在线| 狠狠色香婷婷久久亚洲精品| 免费Aⅴ片在线观看蜜芽Tⅴ | 亚洲视频一区| 国内精品一区二区在线观看| 欧美成人精品一级在线观看| 国产精品夜夜嗨视频免费视频| 欧美人人干| 2020精品极品国产色在线观看| 在线观看的黄网| 九九线精品视频在线观看| 欧美福利在线| 色综合激情网| 91美女视频在线| 婷婷激情亚洲| 无码高清专区| 四虎影视库国产精品一区| 日韩小视频网站hq| 天堂在线视频精品| 免费毛片视频| 亚洲国产精品日韩专区AV| 制服丝袜国产精品| WWW丫丫国产成人精品| 国产精品私拍在线爆乳| 久久夜色精品国产嚕嚕亚洲av| 丰满人妻久久中文字幕| 免费高清a毛片| 不卡的在线视频免费观看| 麻豆精选在线| 亚洲成人免费在线| 日韩国产一区二区三区无码| 日韩精品毛片人妻AV不卡| 亚洲成人在线网| 97视频在线观看免费视频| 亚洲系列无码专区偷窥无码| 亚洲精品人成网线在线| 亚洲第一视频网站| A级全黄试看30分钟小视频| 777国产精品永久免费观看| 日本一本在线视频| 夜夜高潮夜夜爽国产伦精品|