999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合注意力機制的視頻序列表情識別

2023-10-29 01:50:00李金海
計算機仿真 2023年9期
關鍵詞:特征實驗模型

李金海,李 俊

(1. 桂林電子科技大學電子工程與自動化學院,廣西 桂林 541004;2. 桂林電子科技大學計算機與信息安全學院,廣西 桂林541004)

1 引言

表情能傳遞人類的情緒、心理和身體狀態信息。研究表情自動識別技術能夠有效地輔助人工智能機器分析判斷人類的情緒,近年來該研究廣泛應用于智能教育[1]、交通安全[2]、醫療[3]等領域,使得許多學者逐漸開始關注動態表情識別方面的研究。

傳統的視頻表情識別算法主要有LBP-TOP[4]與光流法[5]等,這些手工提取特征的方法很大程度上依賴于特定的任務,且這些方法都具有缺乏泛化性與穩定性的特點。

近幾年來,隨著人工智能的迅猛發展,許多深度學習方法應用在表情識別領域上,并且識別精度比手工提取特征方法有很大提升。現階段主要有級聯網絡[6]、三維卷積神經網絡[7]、多網絡融合[8]等方法對視頻表情進行識別。以上方法對特征的提取具有一定的隨意性,且忽略了對表情峰值幀的關注,而表情在變化過程中表情峰值幀往往具有更多判別性的特征。此外,深度學習方法在訓練模型時候要有大規模的數據量支撐。而表情識別任務中可靠的數據集規模較小,在該類數據集上直接訓練會導致模型出現過擬合現象。

本文提出了一種混合注意力模型。該模型在通道維度上能有效地增強與表情相關性高的通道信息,時間維度上給予表情峰值幀更多的關注,以此增強網絡提取有效特征的能力。數據集方面通過數據增強,增加訓練樣本數量,解決數據集規模小的問題。最后通過對比結果驗證本文方法能夠明顯提高識別準確率。

2 基于混合注意力機制的表情識別模型

本文提出了一種基于混合注意力機制的時空網絡對視頻中的臉部表情進行分類。模型主要包括了三部分:空域子網絡、時域子網絡和混合注意力模塊。

2.1 空域子網絡

空域子網絡中,通過VGG16網絡中的卷積層和池化層來學習人臉各類表情的空域特征。本文對VGG16網絡進行了修改,首先是保留VGG16的卷積層部分,并使用自適應平均池化(Adaptive average Pooling,APP)代替原始網絡中的全連接層。其中自適應平均池化層的池化窗口(kernel size)大小為4*4,滑動步長(Padding)為4,經過池化層的操作實現特征降維。最終得到的特征向量的通道數(channel)為512,大小為1*1的特征圖。

表1 改進的VGG16結構

2.2 時域子網絡

對于視頻幀中的表情識別,需要觀察表情和時間變化之間的關系。由于VGG神經網絡對于時序變化的表達能力不足,因此需要引入其它網絡來解決該問題。長短時記憶網絡能夠通過隱藏狀態來記錄先前序列的內容,從而解決時序問題。

GRU網絡中重置門rt與更新門zt(t代表當前時刻)具有重要要作用,如圖1所示。rt與zt都能接收當前時刻輸入xt和先前時刻隱藏層狀態ht-1輸入,對應的權值分別是Wr與Wz。根據圖1的GRU內部結構圖,網絡的主要操作過程如下式所示

圖1 GRU內部結構

(1)

模型訓練過程中,將一組序列中的視頻幀當成一批次輸入,空域子網絡提取該批次的特征再經過AAP層,得到n個大小為1*1,通道數為512的特征向量。然后把這些向量輸入時域子網絡里,GRU讀取視頻的時間變化獲得大小為n×512特征矩陣,隨后將特征矩陣進行平鋪處理成1×512n的特征矩陣,最后輸入到混合注意力模塊中。

2.3 混合注意力模塊

本文設計的混合注意力主要為了有效提取通道特征與表情變化的時間特征。通道注意力采用自學習的方式獲得各個特征通道的權重,并按照權重大小增強對表情分類有用的通道,抑制非相關的通道,提高了網絡對顯著性特征的提取性能。時間注意力通過判別幀間的表情強度,賦予表情強度大的視頻幀更高的權重,使網絡更關注于表情峰值幀。根據文獻[9]的實驗原理,本文將兩個注意力模塊按照串聯的方式排列。設計完成后混合注意力如圖2所示。

圖2 混合注意力模塊

2.3.1 通道注意力原理

通道注意力主要有激勵和特征通道賦值這兩個過程。其中激勵操作的原理如式(2)所示

s=Fex(ht,WcATT)=δ(WcATT2σ(WcATT1ht))

(2)

其中ht為序列表情的時空特征,δ與σ為ReLU激活函數和Sigmoid激活函數,Fex為激勵處理,WcATT1、WcATT2分別代表通道注意力中兩個全連接層的權值。激勵操作中,先采用第一個全連接層WcATT1與時空特征ht相乘,WcATT1的維度是C/r*C,r表示縮減倍數,即為了減少運算量,對原特征通道總數進行壓縮,根據文獻[10],r取16。此時WcATT1ht的維度為[1,1,C/r]。激活函數使用ReLU函數,保持輸出維度不變;隨后經過全連接處理,將結果和WcATT2相乘,并利用sigmoid激活函數進行非線性轉換。得到數值范圍為0到1的通道權重值sc。此時sc的維度大小為[1,1,C]。最后進行特征通道賦值操作,即將權重sc與注意力機制前的時空特征ht進行相乘,通道賦值公式如式所示

(3)

通道賦值中,對應的權值sc表示為各個特征通道對表情的相關性大小。模型訓練時,通過sc的大小對相應的特征進行增強或者抑制。通過這種方式,能夠實現對最具鑒別性表情特征的聚焦,提升模型的性能。

2.3.2 時間注意力原理

在視頻序列的識別任務中,并不是每一時刻的表情都對識別的貢獻相同。因此本文提出一種時間注意力機制,賦予表情峰值幀更多的權重,以生成更有判別性的特征。在時間注意力中,提出了一種比較幀強度的方法,即通過一個全連接層,將每個幀特征映射為時間注意力分數。公式如下

(4)

式中,WtAtt為時間注意力模塊中可學習的參數矩陣。ut表示序列第t幀圖片時間注意力分數;然后,通過Softmax函數歸一化每幀的注意力分數

(5)

(6)

最后,使用兩個全連接層降維,并使用Softmax函數分類得出六種表情結果。

3 實驗與分析

3.1 表情數據集預處理

為了驗證本文算法在視頻序列表情識別的效果,本文選取了公開主流數據庫:CK+數據庫與Oulu-CASIA數據庫。

在實驗過程中使用dlib庫提供的人臉檢測器對眼睛、眉毛、鼻子、嘴巴和面部輪廓在內的68個人臉關鍵點進行檢測。利用68個點位置,計算臉部中間點的信息。根據視頻第一幀的位置信息,利用仿射變換矩陣調整后續圖像,使后續人臉臉部對齊。最后將臉部圖片裁剪成64x64尺寸,圖3為裁剪后的表情圖像。

圖3 部分裁剪后圖像樣本

由于兩個數據集中序列表情圖片較少,為了保證模型的泛化性與魯棒性,本文實驗對數據集采取了數據擴充的方法。具體地,首先將裁剪到的所有人臉區域圖片進行水平反轉得到翻轉圖像數據集;然后,將原數據集與反轉圖像數據集分別偏移-10°、-5°、5°、10°得到偏移數據集,最后獲得10倍于原先的實驗數據量。因為各個視頻的幀數都不同,而模型的輸入維度是不變的,因此對CK+與Oulu-CASIA中每個表情視頻序列均從起始幀按照時間序列連續采樣16幀,作為神經網絡的輸入。此外,如果視頻序列幀數少于16幀的長度,則復制最后一幀直至每個序列變為平均長度。

3.2 實驗設置

本文實驗軟件框架為Pytorch1.8.1。實驗在訓練時采用隨機梯度下降法優化模型在模型訓練時,CK+的訓練集損失函數變化情況如圖4所示,當迭代到150個epoch后,損失函數已基本收斂,損失函數值接近0.1,因此實驗中epoch取160。為了能更好地體現出算法的實驗效果,本次實驗使用十折交叉驗證方法得到最后的準確率。

圖4 CK+訓練損失函數圖

3.3 消融實驗

為了體現加入了混合注意力機制的效果提升,對其進行了消融實驗。其中,Baseline是指改進的VGG16與GRU的級聯網絡,CA代表通道注意力模塊,TA代表時間注意力模塊,HA代表CA與TA相結合的混合注意力模塊。

表2為消融實驗中各個模型的準確率。單獨加入通道注意力模塊與單獨加入時間注意力的網絡在兩個主流數據集上所得的準確率相對于Baseline都有明顯的提高。

表2 各個模型準確率

對于CK+數據集,單個時間與單個通道注意力模塊的加入分別比Baseline提高0.95%和1.41%。在Oulu-CASIA的實驗中,分別提高了1.69%與4.76%。由此可得,通道注意力的性能略優于時間注意力的識別性能,說明在視頻表情識別中全局通道維度比全局時間維度提供更多的信息。此外,Baseline-HA模型在CK+與Oulu-CASIA的準確率分別比Baseline高出2.47%和6.75%,這表明混合注意力模塊能夠有效地將兩個注意力模塊的性能進行互補,不僅能夠在視頻序列中給予表情峰值幀更多的關注,而且能抑制無關通道干擾,提取更具顯著性的臉部紋理特征。

3.4 混淆矩陣分析

圖5與圖6展示了本文方法在兩個數據集上的混淆矩陣。混淆矩陣的行表示當前表情的真正類別,列為模型的分類表情。不難得知,CK+數據庫的整體表情識別準確率比Oulu-CASIA的要高,這是因為CK+中大多數為清晰的人物正臉圖像;而Oulu-CASIA中圖像分辨率不夠高,而且部分人物有眼鏡和圍巾的遮擋,導致識別率較低。

圖5 CK+識別結果混淆矩陣

圖6 Oulu-CASIA識別結果混淆矩陣

比較兩個混淆矩陣的數據可知,文中模型對驚訝與開心兩個表情取得了優異的識別效果。模型對于生氣和害怕兩個表情識別性能較弱,主要原因是,數據集中害怕與驚訝大部分都是瞪眼和張嘴的動作,而生氣與悲傷都伴隨著鎖眉和撇嘴的動作。具體而言,表情的相似導致模型出現混淆分類的情況。

3.5 與現有方法對比

表3展示了本文所提模型與其它主流模型在所選數據集上實驗的對比結果。

表3 不同方法的準確率對比

從中可得,本文所提出模型對CK+與Oulu-CASIA這兩個數據集的識別準確率僅次于MGLN-GRU,而優于其它方法。值得注意的是,本文模型只關注于表情特征,而識別準確率高于同時利用表情特征和幾何路標點的PHRNN-MSCNN。而MGLN-GRU利用復雜的多任務模型實現了99.08%與90.40%的識別率,比文中模型分別高了0.38%和1.25%,但是MGLN-GRU模型與本文的實驗設置不同,該模型的輸入是選取視頻序列的第一幀、中間幀和最后一幀來表示表情演化,這種離散幀的識別方法會造成峰值信息缺失。本文提出模型將視頻的連續多幀作為輸入,使文中模型注重于連續幀之間的表情依賴性,較好地適應了表情強度的變化,更符合現實生活人臉表情變化過程。

4 結束語

本文設計了一種混合注意力機制視頻序列表情識別模型。該方法的主體為改進的卷積神經網絡與GRU網絡的級聯網絡,可以提取序列時空信息的同時減少特征提取的計算量。其次,提出了由通道與時間注意力組成的混合注意力模塊,更關注于表情峰值幀中與表情相關性高的特征通道。通過數據擴充方法,解決目前表情數據規模較小的難題,保證模型的泛化性。實驗結果表明,嵌入混合注意力模塊使得模型在CK+與Oulu-CASIA兩個數據集上的識別準確率分別提高2.47%與6.79%。最后,通過與其它研究方法對比,該模型在表情識別準確率有明顯優勢。驗證了本文提出的方法能夠有效地提取最具表達能力的特征,提高識別準確率。

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲免费人成影院| 免费在线国产一区二区三区精品| 久久午夜夜伦鲁鲁片不卡| 免费高清毛片| 无码精品福利一区二区三区| 欧美人与牲动交a欧美精品| 黄色国产在线| 欧美日韩国产综合视频在线观看 | 亚洲人成人伊人成综合网无码| 美女视频黄又黄又免费高清| www.精品国产| AV天堂资源福利在线观看| 久久久久88色偷偷| 毛片免费试看| 欧美一级夜夜爽www| 日本手机在线视频| 深夜福利视频一区二区| 全部毛片免费看| 亚洲无码精品在线播放| 国产午夜无码专区喷水| 亚洲h视频在线| 99999久久久久久亚洲| 国产成人亚洲精品蜜芽影院| 亚洲天堂区| 亚洲最黄视频| 五月丁香伊人啪啪手机免费观看| 日韩精品高清自在线| 精品国产免费观看一区| 亚洲日韩高清在线亚洲专区| 五月天在线网站| 国产亚洲美日韩AV中文字幕无码成人 | 国产欧美中文字幕| 亚洲中文无码h在线观看| 亚洲成a人在线观看| 欧美综合在线观看| 456亚洲人成高清在线| 国产精品天干天干在线观看| 青青草91视频| 激情综合五月网| 色噜噜中文网| 久久青草精品一区二区三区| 久久国产av麻豆| 午夜丁香婷婷| 欧美无专区| 成人蜜桃网| 一级毛片在线直接观看| 欧洲欧美人成免费全部视频| 国产永久在线观看| 67194成是人免费无码| 亚洲最新在线| 精品综合久久久久久97超人该| 欧美精品啪啪一区二区三区| 中文字幕 日韩 欧美| 久热精品免费| 国产二级毛片| 99热这里只有精品2| 亚洲成人精品久久| 91伊人国产| 国产啪在线| 久久黄色视频影| 国内精品视频区在线2021| 91无码人妻精品一区| 在线观看无码av五月花| 日本午夜视频在线观看| 免费中文字幕在在线不卡| 亚洲精品视频网| 欧美精品v欧洲精品| 少妇精品在线| 99热国产这里只有精品9九| a天堂视频在线| 97青草最新免费精品视频| 91久久青青草原精品国产| 亚洲欧美日韩另类在线一| 亚洲毛片网站| 伊人天堂网| 十八禁美女裸体网站| 国产第一色| 88av在线| 欧美一级高清片欧美国产欧美| 国产欧美视频一区二区三区| 国产日韩欧美黄色片免费观看| 国产免费精彩视频|