何秀玲 蔣 朗 吳 珂 高 倩
(華中師范大學國家數字化學習工程技術研究中心 湖北 武漢 430079)
人類進行情感信息交流強大而重要的載體是面部表情,人類的情緒可以通過表情的變化流露出來,因此表情在我們的日常生活中起著至關重要的作用。近幾年,面部表情識別已應用在心理學、醫學和人機交互等領域。為了使機器更加準確地學習和識別面部表情,需要不斷開發計算機視覺和機器學習技術。
表情識別過程包括特征提取和分類識別,提取的面部特征優劣判別在于特征是否具有較高的區分度、較強的魯棒性以及信息是否較為完整[1]。目前使用較為廣泛的特征提取方法主要是針對幾何和紋理兩類特征[2]。臉部幾何特征是通過標記面部特征點,提取面部離散的點或關聯點之間的形狀信息,關聯點形狀信息可以提高特征點對于形狀變化和表情的描述能力。Gabor小波與人類視覺系統細胞的刺激響應相似,通常用來描述圖像紋理特征[3]。特征融合可以獲得更加豐富的特征信息[4]。文獻[5]提取面部形狀變化特征和紋理特征的混合特征進行表情識別。文獻[6]融合面部幾何信息和紋理信息后進行表情識別。文獻[7]提取7個面部動態區域的幾何特征和Gabor特征后訓練了多類支持向量機對六種表情進行分類識別。實驗結果顯示,相較于僅單獨使用某一種特征進行表情識別,融合特征可實現更好的識別效果。當前的研究熱點是利用深度學習進行圖像識別。文獻[8]利用深度學習訓練大容量樣本后進行表情識別,獲得了較高的識別率。文獻[9]利用深度學習方法對面部表情運動單元進行識別。
本文提出一種融合幾何特征和Gabor特征的基于深度多核學習模型的表情識別方法。此外,實驗引入了慢特征分析SFA(Slow Feature Analysis)算法自動檢測圖片序列中的表情峰值幀[10]。在峰值幀圖片上提取幾何特征與Gabor特征,有效地降低了特征維度,節省了內存開銷,并將兩種特征進行融合,將融合特征輸入到深度多核學習模型中進行訓練,利用訓練后得到的最終核函數作為支持向量機SVM(Support Vector Machine)決策函數進行學習識別。實驗結果表明,利用本文提出的方法可以得到較為理想的表情識別率。
1.1 峰值表情幀的自動檢測
為了解決特征維數過高、內存消耗過大和信息冗余等問題,本文采取僅利用表情幅度最大的那一幀,即基于表情峰值幀提取特征。目前,已有研究者直接采用靜態數據庫提供的表情峰值圖片或者手動選擇動態數據庫的表情狀態圖片[11-13],在樣本過多的情況下,這樣處理可能缺乏可行性。因此,本文利用慢特征分析(SFA)算法實現表情峰值幀的自動檢測。
SFA[14]是無監督學習算法,在姿勢識別及視頻行為識別等領域應用較為廣泛[15]。SFA可以從多維輸入信號中及時提取最佳的緩慢變化的特征作為輸入信號。以G維輸入時序信號x(t)=(x1(t),x2(t),…,xG(t))為例,SFA目標是找到某個非線性投影函數f(x)=(f1(x),f2(x),…,fM(x)),從而生成M維的輸出信號y(t)=(y1(t),y2(t),…,ym(t)),并且其輸出的各分量變化盡可能慢[16]。SFA一般采用關于時間的一階導數的平方均值來衡量y(t)的變化速率。優化框架如下:

(1)
同時滿足:
〈yi(t)〉=0
(2)
〈(yi(t))2〉=1
(3)
〈yi(t)yj(t)〉=0 ?j
(4)
式中:yi(t)表示yi關于時間t的一階導數,<·>表示在時間t上求均值。分量yi(t)和分量yj(t)互不相關,因此每個分量都表示各自不同的信息。在求解得到的y的各個分量中,y1(t)是變化最緩慢的特征。
在非線性空間上的做線性變換可以得到相應的非線性變換。函數的非線性擴展被定義為:
φ(x):=[φ1(x),φ2(x),…,φM(x)]
(5)
慢特征函數計算步驟如下:
步驟1利用非線性的函數對原始信號x(t)進行擴展,并且把φ(x)歸一化,使其均值為0,即z:=φ(x)-φ(0),其中φ(0)=[φ(x)]t,歸一化后滿足條件(2)。

(6)
要求得到的慢特征函數能夠滿足約束條件式(2)-式(4),而且也能使式(1)中的目標函數取得最小值。
人類大腦基本是通過面部眉毛、眼睛、鼻子、嘴巴這四大區域的可觀變化來判定人臉表情,因此,可通過提取對表情變化貢獻較大的特征點集來反映表情的變化趨勢。對人臉表情變化的特征點進行跟蹤是動態特征提取的一種方法,通過對面部特征點的跟蹤可以忽略與表情無關的背景信息。本文中,SFA流程及實驗輸出樣例如圖1所示。

圖1 表情序列對應的SFA輸出

1.2 幾何特征的提取
僅利用特征點位置變化信息雖能完整的表示人臉的輪廓信息,但很難概括各器官的具體形狀變化。心理學家Ekman與Friesen提出了FACS(Facial Action Control System)用來模擬和研究人的面部表情[17]。FACS中一共定義了44種面部動作AU(Action Unit)編碼,人類六種基本表情都可以由不同的面部動作編碼組合來描述,例如:驚訝的表情是由AU1(抬起眉毛內角)、AU2(抬起眉毛外角)、AU5(上眼瞼上升)、AU27(嘴巴張開)組成,等等。表情發生時主要體現在眼睛、眉毛、嘴巴等部位的形狀變化,例如驚訝表情發生時臉部上下嘴唇的距離會變大,同時嘴部區域的面積也會變大。本文通過建立數學幾何模型來描述面部運動單元。例如利用嘴巴區域的高斯面積和上下嘴唇特征點之間的距離模型來表示嘴巴張合動作及幅度大小。
單一幾何特征具有計算量小、計算方法簡單等優勢,但有時它們利用了大量的特征,卻未能涵蓋所有可能的表情形變信息。為了解決這個問題,本文提出了一種從單一幾何特征轉向斜率向量、角度向量、多邊形向量和距離向量多種幾何向量組成的面部表情綜合特征[18]。圖2為本文提取的臉部幾何特征向量。

圖2 幾何特征向量
斜率特征主要是定義2個點之間的變化程度,選取的特征點集中在眉毛和嘴巴周圍,計算方法如下:
(7)
式中:t,m為對應的兩個特征點的編號,為該編號的特征點的橫縱坐標。
角度特征主要是涉及到3個特征點之間的夾角,計算方式如下:
Angle=
(8)
多邊形特征定義3個或3個以上的特征點,將這3個點連成1個多邊形并計算其面積,通過面積來反映表情運動單元的變化。計算方法如下:
(9)
距離特征主要是2個特征點之間的歐式距離,本文中用到的距離特征計算方法如下:
(10)
1.3 Gabor特征提取
幾何特征是一類面部局部特征,因此在圖像分類識別時可能會存在局限性。為了獲取更加完整的表情信息,本文采用5個尺度8個方向的Gabor濾波器提取面部紋理信息,從而獲取更多的能概括表情變化的全局信息。Gabor變換是一種加窗的傅里葉變換,二維Gabor濾波函數定義如公式所示[19]:
ψm,y=
(11)
本文利用眼部特征點對圖片進行歸一化預處理后再提取Gabor的特征如圖3所示。可以看出,這40個表情圖片濾波器都能較好地反映表情的紋理特征,利用DCT的去相關和聚能的能力,提取能量集中區的相關數據,達到降低特征維數的目的[20]。

圖3 5個尺度8個方向濾波器圖
2.1 深度多核模型
深度多核學習DMKL(Deep Multiple Kernel Learning)由多層內核函數和神經網絡堆疊而成。
內核函數是深度多核學習的關鍵組成部分。深度多內核架構是1個多層次的網絡架構,每層都有一組內核,其定義為[21]:
(12)

DMKL模型自底向上逐層訓練內核函數,下層內核函數隱含層的輸出作為上一層內核函數的可視層輸入。逐層訓練后的多內核函數可以提取高維數據中更有區別度的低維數特征。DMKL結構如圖4所示。

圖4 DMKL結構
2.2 融合混合特征與DMKL的人臉表情識別方法
本文提出了一種融合特征與深度多核的人臉表情別方法,流程圖如圖5所示,具體步驟如下:
步驟1對人臉峰值幀表情圖像提取描述人臉局部區域形狀變化的幾何特征。
步驟2從人臉峰值幀表情圖像提取描述紋理的Gabor特征。
步驟3將提取的兩類特征以串聯的方式進行混合后輸入到深度多核模型進行訓練。
步驟4利用訓練后的DMKL模型得到的核函數輸入到支持向量機SVM分類器進行表情分類。

圖5 融合特征與DMKL的人臉識別流程
3.1 表情數據庫
本文選用Extended Cohn-Kanade(CK+)[22]表情數據庫。表情庫包含 123 個人的 593 個表情序列。選取帶標簽的 327 個表情序列作為實驗圖像,包含憤怒 45 張、厭惡 59 張、恐懼 25 張、高興 69 張、悲傷 28 張、驚訝 83張,實驗樣本圖像如圖6所示。每次實驗隨機選取每種表情圖像的四分之三,共255張作為訓練樣本,余下的72張作為測試樣本集。識別實驗重復進行十次后取實驗結果的平均值作為最終識別結果。

圖6 CK+表情樣本
3.2 混合特征基于深度多核學習分類結果
DMKL雖然已在模式識別領域取得了一些成功,但至今沒有研究把DMKL應用于表情圖像的識別中。多內核方法可以將數據投影到高維再現內核希爾伯特空間上,增加數據表示的豐富性,適用于異構特征數據,因此將深度學習與內核方法結合既可以適用小容量樣本,同時能有效地融合幾何特征數據與Gabor特征。本實驗通過分析表情數據庫樣本容量后,確定設置DMKL網絡中的多核層數為3層,隱藏層節點使用4個獨特的基本內核:線性內核、Sigmoid內核、徑向基內核(RBF)和多項式內核[23]。實驗的硬件環境為 3.30 GHz Core i5 CPU,4 GB RAM 計算機,軟件環境為Matlab R2014b。不同類型特征的DMKL識別率如圖7所示。

圖7 基于DMKL模型識別率
3.3 與其他方法對比
為了驗證本文所提出的融合特征對于表情分類識別的有效性,實驗在峰值表情圖像中分別提取幾何特征、Gabor 特征、融合特征,之后采用 DMKL模型進行訓練后再識別,識別率對比結果如表1所示。此外,為了驗證DMKL對于表情分類識別的有效性,將本文所用的方法同近年來學者們所提出的表情分類方法進行對比,同時本實驗也同SVM 算法進行對比。SVM采用廣泛使用的臺灣大學林智仁教授開發設計的LIBSVM,選用 C-SVC 類型,核函數采用徑向基(RBF)核函數,采用十折交叉驗證法訓練得到的最佳c和g,利用最佳c、g參數的分類器進行表情的分類。

表1 本文算法與其他表情識別結果對比
從實驗的結果可以看出,本文采用融合特征基于DMKL的分類方法與SVM分類識別方法相比,識別率提高了4.13%。對于基于融合特征的表情識別實驗對比如下:詹永照等[5]提取面部的形狀變化特征和紋理特征,利用離散隱馬爾可夫模型得到六種表情的平均識別率為90.83%。蘇志銘等[6]采用幾何信息和紋理信息融合的混合特征,提出基于線段相似度判決方法實現動態表情識別,識別率達到86.45%。本文方法與文獻[5- 6]相比,識別率是有所提高的。對于基于深度學習的表情識別方法比較識別如下:王劍云等[24]提出的局部并行深度神經網絡的表情識別方法,能達到85.71%的識別利率。羅翔云等[8]利用CNN的方法對六種基本表情以及中性表情進行識別,識別率達到了96.43%,但提出的方法需要大量樣本集進行訓練,因此在實驗過程中采集了CK庫中共2 628個圖像表情進行處理識別。Salah等[9]利用深度學習方法進行了面部運動單元識別,對于六種基本表情的識別率超過了90%,但對于厭惡、恐懼、高興、驚訝這幾種表情識別,本文的方法較為優良。
本文采用基于融合局部與全局特征的DMKL模型方法進行表情識別。從表情峰值圖像中提取眉毛眼睛與嘴巴等部位的幾何特征作為局部表情圖像,有效地減少了冗余信息。實驗分別提取面部Gabor特征與幾何特征后融合,融合特征同時包含了紋理特征與形狀特征,具有更加豐富的表情信息。DMKL模型通過構造深層多核學習網絡獲取多核函數權重,利用得到最優核函數來提高識別率。將本文所提出的方法應用在CK+表情庫上,識別率可以達到94.4%,證明了本文所提出的方法對于表情識別的有效性。在今后的研究中,要進一步探索如何從自發表情視頻中提取表情峰值幀,使其應用于視頻實時識別。
參 考 文 獻
[1] Liu S S,Tian Y T,Wan C,et al.Facial Expression Recognition Method Based on Gabor Multi-orientation Features Fusion and Block Histogram[J].Acta Automatica Sinica,2011,37(12):1455-1463.
[2] Kim D J.Facial expression recognition using ASM-based post-processing technique[J].Pattern Recognition & Image Analysis,2016,26(3):576-581.
[3] Yuan Weiqi,Fan Yonggang,Ke Li.Palmprints Recognition Method Based on the Phase Consistency Combined with Log-Gabor Filter[J].Acta Optica Sinica,2010,30(1):147-152.
[4] Zhang S,He H,Kong L.Fusing Multi-feature for Video Occlusion Region Detection Based on Graph Cut[J].Acta Optica Sinica,2015,35(4):0415001.
[5] 詹永照,李婷,周庚濤.基于混合特征和多HMM融合的圖像序列表情識別[J].計算機輔助設計與圖形學學報,2008,20(7):900-905.
[6] 蘇志銘,陳靚影.基于自回歸模型的動態表情識別[J].計算機輔助設計與圖形學學報,2017,29(6):1085-1092.
[7] Hsieh C C,Hsih M H,Jiang M K,et al.Effective semantic features for facial expressions recognition using SVM[J].Multimedia Tools & Applications,2016,75(11):6663-6682.
[8] 羅翔云,周曉慧,付克博.基于深度學習的人臉表情識別[J].工業控制計算機,2017,30(5):92-93.
[9] Al-Darraji S,Berns K,Rodic A.Action Unit Based Facial Expression Recognition Using Deep Learning[C]//International Conference on Robotics in Alpe-Adria Danube Region.Springer,Cham,2016:413-420.
[10] 邵潔,董楠.RGB-D動態序列的人臉自然表情識別[J].計算機輔助設計與圖形學學報,2015,27(5):847-854.
[11] Moeini A,Faez K,Sadeghi H,et al.2D facial expression recognition via 3D reconstruction and feature fusion[J].Journal of Visual Communication & Image Representation,2016,35:1-14.
[12] 劉宇灝.基于PLBP的面部表情識別分析[J].信息化研究,2016(2):47-50.
[13] Happy S L,Routray A.Automatic facial expression recognition using features of salient facial patches[J].IEEE Transactions on Affective Computing,2015,6(1):1-12.
[14] Wiskott L.Slow Feature Analysis[J].Scholarpedia,2014,6(4):1-2.
[15] 陳婷婷,阮秋琦,安高云.視頻中人體行為的慢特征提取算法[J].智能系統學報,2015(3):381-386.
[16] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011,24(2):153-159.
[17] Ekman P.Measuring facial movement with the Facial Action Cording System[J].Emotion in the human face,1987:179-211.
[18] Palestra G,Pettinicchio A,Coco M D,et al.Improved Performance in Facial Expression Recognition Using 32 Geometric Features[C]//International Conference on Image Analysis and Processing.Springer International Publishing,2015:518-528.
[19] 張永宏,曹健,王麗華.基于改進型DCT和Gabor分塊的人臉特征提取與識別[J].測控技術,2012,31(12):36-40.
[20] Bober M,Farinella G M,Guarnera M,et al.Semantic segmentation of images exploiting DCT based features and random forest[J].Pattern Recognition,2016,52(C):260-273.
[21] Jiu M,Sahbi H.Semi supervised deep kernel design for image annotation[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2015:1156-1160.
[22] Lucey P,Cohn J F,Kanade T,et al.The Extended Cohn-Kanade Dataset (CK+):A complete dataset for action unit and emotion-specified expression[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2010:94-101.
[23] Strobl E V,Visweswaran S.Deep Multiple Kernel Learning[C]//International Conference on Machine Learning and Applications.IEEE,2014:414-417.
[24] 王劍云,李小霞.一種基于深度學習的表情識別方法[J].計算機與現代化,2015(1):84-87.