韋麗娟,梁建娟,劉 洪,劉本永
(貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴州貴陽 550025)
微表情分析逐漸成為機器視覺領(lǐng)域研究熱點。與普通表情不同,微表情無法偽造和抑制,可以反映人的真實情緒[1]。因此,通過分析和研究微表情,可以挖掘人內(nèi)心的真實情感[2],不僅可以改善和促進人們之間的交往,還可用于臨床醫(yī)學(xué)、司法刑偵、婚姻關(guān)系預(yù)測、教育等領(lǐng)域。
微表情持續(xù)時間短且動作幅度微弱,加上人們試圖控制和壓抑,很難被檢測和識別。為幫助人們識別微表情,Ekman[3]開發(fā)了微表情訓(xùn)練工具,但是這種通過訓(xùn)練來識別微表情的方法識別效率很低;Polikovsky 等[4]將人臉圖像分為12 個區(qū)域,使用3D 梯度直方圖表征微表情。但這種方法假設(shè)每一幀微表情圖像只有一個動作單元,存在一定的局限性;Wu 等[5]使用Gabor 算法提取微表情特征進行微表情識別,但是當(dāng)表情變化幅度較小時識別率很低;Wang等[6]將微表情看作三階張量并用判別式張量子空間分析算法生成判別特征進行分類,這種算法雖然能夠保存圖像的空間結(jié)構(gòu)信息,但容易丟失小幅度變化信息,并對噪聲敏感;Zhao 等[7]將LBP(Local Binary Patterns)擴展到三維提取時空域信息并應(yīng)用到微表情識別,結(jié)果表明了LBP_TOP 提取微表情特征的有效性,而LBP-TOP 雖然考慮了圖像外觀和運動紋理信息,但只關(guān)注了像素之間的信息,沒有關(guān)注大小、方向等信息;為了描述面部圖像的形狀特征,Huang等[8]提出積分投影(Spatiotemporal Local Binary Pattern with Integral Projection,STLBP-IP)時空局部二值模式,通過計算差分圖像的積分投影并進行LBP 編碼得到圖像的形狀外觀和運動特征,這種算法增強了微表情的識別能力;Liu等[9-11]使用主方向平均光流特征方法提取微表情特征,基于關(guān)鍵點對人臉面部進行分塊,計算人臉面部分塊中光流主方向的平均光流并作為微表情特征,但該方法特別依賴于面部的有效分塊;Xu 等[12]認為,如果觀察區(qū)間很小且觀察時間短暫,微表情會大致在相同的空間和時間上運動。通過對視頻序列兩幀之間稠密光流場在水平和垂直方向進行修正,求出時空立方體的光流主方向并將其角度量化,從而得到微表情的面部動力譜特征(Facial dynamics map,F(xiàn)DM),但是這種算法易受光照等因素影響。
以上研究工作大多是采用單一的特征進行微表情識別,不能全面、細致地表征微表情運動,導(dǎo)致識別效果不理想,而目前比較流行的基于深度學(xué)習(xí)的方法則需要大量的樣本,訓(xùn)練復(fù)雜。因此,如何從特征結(jié)合方面提高平均識別率具有重要的研究意義和探討價值。
FDM 算法在計算光流時需要嚴格滿足兩個基本假設(shè),而且光照帶來的亮度變化會影響光流計算,影響對運動信息的提取,并且FDM 方法對時空立方體主方向的描述只量化了10 個方向,對運動的描述不夠細致。針對這些問題,本文結(jié)合STLBP-IP 從3 個平面提取特征以彌補FDM 對運動信息描述的不足,對人臉面部信息進行補充描述,將FDM 特征與STLBP-IP 特征結(jié)合以提高微表情的識別效果。
FDM 算法以光流為基礎(chǔ),采用一維直方圖統(tǒng)計實現(xiàn)光流場的精細化對齊,并利用迭代算法尋找時空立方體的主方向,從而構(gòu)造面部動力譜特征。
計算相鄰針間的稠密光流場如下:

其中,Ut、Vt表示第t幀圖像、第t+1 幀圖像水平和垂直方向的光流場,Δu和Δv是水平和垂直方向的位移修正,I表示元素為1 的矩陣,Φ 用來統(tǒng)計矩陣中0 元素的數(shù)量。由于假設(shè)微表情中面部區(qū)域大部分保持靜止,所以要尋找水平和垂直方向上的修正量,使修正后的光流場中大多數(shù)元素為0,然后減去兩幀之間共同平移造成的誤差,處理后實現(xiàn)面部的精細化對齊。
將光流場分割成小的時空立方體,使用迭代算法尋找時空立方體的主方向。用ωi,j表示立方體在(i,j)處的光流運動向量,通過式(3)確定主方向:

式(3)的目的是要尋找一個主方向ξ來描述時空立方體的運動方向。當(dāng)ξ固定時,ξ與ωi,j方向越接近內(nèi)積就越大。但是通過式(3)迭代的方式尋找主方向計算量太大,因此涂亮等[13]提出用PCA 算法替代FDM 中的迭代算法來抽取時空立方體主方向。通過計算PCA 的第一主成分即最大特征值對應(yīng)的特征向量,就可確定時空立方體的主方向,通過這種方式可以快速尋找時空立方體的主方向,簡化計算量,節(jié)約時間。
Mateos 等[14-15]提出積分投影方式以增加形狀屬性和面部圖像之間的判別性,及對白噪聲的魯棒性。通過對面部圖像的像素進行橫向和縱向累加,得到與寬度和高度相同維度的特征向量[16]。
將一段微表情視頻序列所有幀減去某一中性表情的圖像作為新的人臉圖片。對每一幀新的人臉圖片進行水平和垂直方向的累加求和得到圖像的積分投影,借用LBP_TOP 的性質(zhì)從3 個平面提取微表情的時空信息。
假設(shè)St為圖像在時間t的積分投影,將中心點和鄰域點的灰度值進行比較,然后通過式(4)進行1DLBP 編碼:

式(4)中,W為線性掩模(類似LBP 的半徑),δ是狄拉克增量,St(zc)是中心像素值,zp是zc的相鄰像素。通過計算差分圖像的1DLBP 得到XY 方向特征fXY。XT 和YT 方向的處理過程相同,分別計算差分圖像的水平和垂直積分投影并進行歸一化,然后計算LBP 編碼,得到特征fXT和fYT,最后結(jié)合fXY、fXT和fYT就可得到微表情圖像特征。
特征結(jié)合過程如圖1 所示,結(jié)合的基本方式是直方圖級聯(lián)。

Fig.1 Feature combination and micro-expression recognition process圖1 特征結(jié)合與微表情識別過程
實驗在中國科學(xué)院心理研究所2014 年建立的CASMEII[17]和芬蘭奧盧大學(xué)2011 年建立的SMIC[18]兩個微表情數(shù)據(jù)集上進行。其中,CASMEII 微表情數(shù)據(jù)集由26 位受試者的255 個微表情圖像序列組成,分為高興、厭惡、壓抑、驚訝和其他5 類表情;SMIC 微表情數(shù)據(jù)集由6 位受試者的152 段微表情的圖像序列組成,包含消極和積極表情兩類。編程環(huán)境為Matlab2016b 和Python3.7。
為了更好地驗證本文方法性能,實驗分為不同特征結(jié)合的兩組。第一組實驗是對微表情數(shù)據(jù)集CASMEII 和SMIC 進行預(yù)處理,分別采用STLBP_IP 算法、FDM 算法和PCA 改進的FDM 算法提取微表情特征,然后將STLBP_IP提取的特征分別與FDM 和PCA 改進的FDM 提取的特征進行結(jié)合。利用STLBP-IP 提取微表情圖像特征時,分別從3個平面計算面部特征,按照XY、XT、YT 的順序級聯(lián)直方圖得到微表情圖像的STLBP-IP 特征。其中,STLBP-IP 涉及的主要參數(shù)設(shè)置如下:掩模W=9,LBP 的半徑R=3,鄰域點數(shù)P=8。采用STLBP-IP 級聯(lián)直方圖方式分別將兩種特征相結(jié)合。對結(jié)合后的特征采用SVM 作為分類器進行分類識別,采用libsvm[19]自帶的n-fold 交叉檢驗計算識別率。
由表1 可以看出,相比于STLBP-IP 和改進前后的FDM算法,特征結(jié)合后,微表情的識別率都有提高,表明兩種特征具有很好的互補性,不僅可以捕捉表情的細微運動,還可以很好地描述面部表情細節(jié)信息。

Table 1 Micro-expression recognition rate under different data sets表1 不同數(shù)據(jù)集下微表情識別率 (%)
第二組實驗是將本文方法與其他傳統(tǒng)特征方法進行比較,實驗結(jié)果如表2 所示。LBP 和局部相位量化(Local Phase Quantization,LPQ)特征結(jié)合的方法[20]由于只考慮了紋理特征,所以識別效果較差;而光流(Optical Flow,OF)與LBP-TOP 特征結(jié)合的方法[21]雖然考慮了運動特征和紋理特征,但本文中的FDM 方法關(guān)注了人臉對齊對微表情識別的影響,加上STLBP-IP 方法考慮了人臉的形狀屬性,所以本文方法性能更好。

Table 2 Experimental comparison of different feature combination methods表2 不同特征結(jié)合方法的實驗對比 (%)
將本文方法與深度學(xué)習(xí)方法相比,如STSTNet(Shallow Triple Stream Three-dimensional CNN)和光流法[22]相結(jié)合,從3 個方面提取微表情特征,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionnal Neural Network,CNN)與長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)結(jié)合[23-24]提取微表情的時域和空域特征,還有蘇育挺等[25]提出的多運動特征結(jié)合法。通過提取微表情序列3 種運動特征,在CNN+LSTN 框架下進行微表情識別都離不開樣本訓(xùn)練,計算量大,而且STSTNet 模型性能受光流法影響。綜合比較后發(fā)現(xiàn),本文方法比較簡便,能很好地表征微表情。
本文從微表情特征提取環(huán)節(jié)入手,針對現(xiàn)有方法采用的單一特征不能很好描述微表情信息問題,探討了采用FDM 特征和STLBP-IP 特征相結(jié)合的方法進行微表情識別。在相同的實驗條件下,兩種特征結(jié)合比單一特征的識別率高。本文方法雖然可以很好地表達微表情運動,增強人臉細節(jié)信息,但是采用這種方式表達微表情特征過于復(fù)雜,不利于實際環(huán)境中應(yīng)用。在后續(xù)微表情研究中應(yīng)考慮簡化微表情特征表達形式,提高識別率,實現(xiàn)實時、大規(guī)模的微表情識別。