張少巍,倪紹洲
(安徽文達信息工程學院 計算機工程學院,合肥 230032)
面部表情是表達內部情緒和意圖的最重要的非言語方式。面部動作編碼系統(Facial Action Coding System,FACS)是一種功能強大的系統,它通過使用行動單元(Action Units,AU)在面部出現時對人的面部動作進行分類?,F在,對情緒識別(Emotion Recognition,ER)的研究已經引起越來越多的科研人員的關注,而它在人機交互領域仍然面臨很多問題。最相關的研究是在人類和計算機之間建立可靠的對話和交流。面部表情識別在醫療保健、人機交互和游戲領域具有廣泛的應用。面部表情識別的挑戰性主要體現在兩個方面:首先,沒有大量、可用的訓練圖像數據庫;其次,根據輸入圖像是靜態還是漸進幀進入面部表情,不能簡單地分類情感。Ekman等人將六種情緒:驚喜、恐懼、快樂、憤怒、厭惡和悲傷,作為人類常見的主要表達情緒[1]。大多情感類別之間的重疊使得分類非常困難,目前大多數研究和應用都采用手動設計[2]。由于數據集的數量和種類不同,深度學習成為所有計算機視覺任務中的主流技術。基于情感識別的深度學習的研究工作已經取得了不錯的研究結果[3]。此外,傳統的卷積神經系統有一個約束,即他們只是處理空間圖像。為了從圖像中分類情感標簽,本文提出了一種嵌入卷積神經網絡的遞歸神經網絡的深度學習模型。
最近,卷積神經網絡已經成為深度學習技術中最主流的方法。RNN已經成功地處理了序列數據,將圖像的部分掃描成特定方向的序列,改進后的RNN用來處理圖像。由于能夠重新收集過去輸入的信息,RNN有能力學習與圖像的相對依賴性,這是CNN無法比擬的,由于CNN卷積和合并圖層有局部性而無法學習整體依賴性。因此,RNN通常與CNN結合,以便在圖像處理任務方面取得更好的成果。
對于CNN訓練,使用了兩個大型情緒數據集,基本表情主要分為:憤怒、傷心、驚喜、快樂、厭惡、恐懼和中立,共7種。
對于給定的數據集,進行了預處理,主要的步驟如下:
第一步,在JAFFE和MMI準備集中利用卷積神經系統過程策略對所有圖片的5個面部關鍵焦點進行區分。
第二步,對于每個數據集,平均形狀已經通過平均主焦點的方向進行了處理。
第三步,通過利用平均形狀之間的接近度變化來映射數據集。
此外,使用標準偏差和平均圖像對JAFFE和MMI數據集進行標準化合并。為了實施和評估所提出的模型的正確性,將每個數據集的70%用于訓練,其余30%用于測試。
情感識別數據具有各種尺寸和分辨率,因此我們嘗試提出可處理任何類型輸入的模型。在我們的方法中,考慮了一類具有6個卷積層和2個完全連接層的網絡,每個網絡都具有ReLU(Rectified Linear Unit)激活函數,2個完全連接層都帶有ReLU激活函數。此外,我們對每個權重矩陣W執行正則化來限制單個層的權重大小。
(1)
其中,x是網絡中特定神經元的輸出,p是丟棄的概率。
兩種深度學習初始化算法的組合已被用于Momentum和Adam的損失函數的梯度來執行參數更新。方程式(2)描述了這個更新。
(2)
其中,xt是迭代t時的參數矩陣,vt是迭代t時的速度矢量,a是學習的速率。
方程式(3)說明了Momentum和Adam更新。
(3)
其中,β1,β2∈0,1,ε是超參數。mt是迭代t時的Momentum矢量,vt是迭代t時的速度矢量,a是學習的速率。由于梯度信息的使用,Adam是實際的更新算法。
CNN主要用于特征提取。RNN是一種將輸入順序轉換為一系列輸出的神經網絡形式。在獨立的時間步t,未知參數ht由下式得到:
ht=σ(winxt+wrecht-1)。
(4)
其中,win是輸入矩陣的權重,wrec是遞歸矩陣,σ是隱層的激活函數,xt是t時刻的輸入。借助方程式(5),分別按時間步長類似地計算輸出。
yt=f(woutht)。
(5)
其中,wout是結果加權參數,f是輸出的激活函數。
首先,使用單個CNN模型來訓練數據集。對于網絡訓練隨機梯度下降,批量大小設置為32,權重衰減設置為1E-4。此外,開始時的學習率設定為5e-3,每20個周期減少0.01。對于給定的時間t,我們取 [t-p,t]時間段的p幀。然后將時間t-p到t的每個幀傳遞給CNN,為每個圖像提取p個矢量,并將每個矢量傳遞給RNN模型的一個節點。最后,RNN的每個節點返回結果?;旌系纳窠浘W絡體系結構如圖1所示。

圖1 混合CNN-RNN網絡
首先使用面部和興趣點查找對面部表情進行識別,然后將顯著的標志點映射到特征像素區域,以保證與輪廓相關的對應關系,同時通過CCN均值減法和對比歸一化處理每個面部圖像。
表1給出了單幀回歸CNN和混合CNN-RNN技術的預測準確性。從中可以得出,使用混合CNN-RNN模型與ReLU激活函數可以顯著提高性能。

表1 不同方法的準確率
我們分析了隱層單元的數量和隱層的數量兩個超參數在混合模型中對預測結果的影響。得出的結論是,隱層單元數量是160時,預測精度最高,達到94.2%,見圖2。從圖3 可知,隱層數量的改變對所提出的模型的整體性能有影響,根據實驗結果得出,6個隱層時效果最佳。

圖2 不同隱層單元數對精度的影響

圖3 不同隱層數對精度的影響
本文提出了一種混合型深度CNN和RNN模型用于面部表情識別。另外,所提出的模型在不同情況下和超參數下進行預測以適當地調整所提出的模型。結果表明,CNN-RNN的混合模型顯著提高了檢測的總體性能,這驗證了所提出的模型的效率。