


















摘 要:微表情自動分析是計算機視覺研究方向之一。在刑偵、臨床醫學、商業談判、公共安全等場景下的微表情分析技術具有重要研究和應用價值。為了梳理微表情自動分析領域研究現狀及發展方向,對常用微表情數據集和數據預處理方法進行整理。基于微表情特征,全面整理和對比微表情檢測和識別任務各類算法以及實驗方法和驗證指標。可以幫助研究人員更加快捷、全面了解該領域研究現狀,存在的問題和未來發展方向。
關鍵詞:微表情識別; 微表情檢測; 微表情數據集
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2022)07-001-1921-12
doi:10.19734/j.issn.1001-3695.2021.10.0643
基金項目:國家自然科學基金資助項目(61966035);國家自然科學基金聯合基金重點項目(U1803261);新疆科技廳國際合作項目(2020E01023);新疆第三次科考項目(2021xjkk1404)
作者簡介:周偉航(1996-),男,四川內江人,碩士研究生,主要研究方向為微表情識別;肖正清(1965-),男(通信作者),講師,博士,主要研究方向為大數據分析和圖像處理(xiaozq@xju.edu.cn);錢育蓉(1980-),女(滿族),教授,博士,主要研究方向為網絡計算和遙感圖像處理;馬玉民(1997-),男,河北秦皇島人,碩士研究生,主要研究方向為視頻目標跟蹤;公維軍(1987-),男,甘肅張掖人,博士研究生,主要研究方向為模式識別與圖像處理;帕力旦·吐爾遜(1970-),女(維吾爾族),副教授,博士,主要研究方向為圖像處理.
Review on automatic analysis methods of micro-expression
Zhou Weihang1a,1b,1c, Xiao Zhengqing1d?, Qian Yurong1a,1b,1c, Ma Yumin1a,1b,1c, Gong Weijun1a,1b,1c, Palladium Turson2
(1.a.Software College, b.Key Laboratory of Software Engineering, c.Key Laboratory of Signal Detection amp; Processing in Xinjiang Uygur Auto-nomous Region, d.Mathematics amp; Systems Science College, Xinjiang University, Urumqi 830046, China; 2.Xinjiang Normal University, Urumqi 830000, China)
Abstract:Micro-expression automatic analysis method is one of the research directions of computer vision. Micro-expression analysis technology has important research and application value in criminal investigation, clinical medicine, business negotiation, public security and other scenarios. In order to sort out the research status and development direction in the field of automatic micro-expression analysis, this paper sorted out the commonly used micro-expression datasets and data preprocessing methods. Based on micro-expression features, various algorithms, this paper comprehensively sorted and compared experimental methods and verification indicators for micro-expression spotting and recognition tasks. It can help researchers more quickly and comprehensively understand the current research status, existing problems and future development directions in this field.
Key words:micro-expression recognition; micro-expression spotting; micro-expression datasets
0 引言
微表情的發現可以追溯到1966年,Haggard等人[1]發現了“一種快速的不易被人們覺察的面部表情”,但該研究在當時并沒有受到學術界的關注。1969年,Ekman等人[2]在研究抑郁癥患者期間,通過觀察抑郁癥患者錄像,發現視頻某些幀中包含特殊的表情,將其稱之為微表情,并對微表情的識別做了最早的研究。因此,從起源上看,微表情是心理學上的定義。一般而言,廣義上的微表情是指非受訓的人在受到外界條件刺激的情況下,伴隨著肢體或者言語的行為而出現的一類難以察覺表情;而狹義上的微表情是指一般人在受到外界刺激的條件下自發的、無意識的一類表情,這類表情的動作幅度小并且持續的時間短。通常,微表情的持續時間在0.04 s~0.2 s[3]。在發現微表情之后相當長一段時間,由于計算機基礎硬件資源遠不能支持微表情自動分析,微表情分析的研究基本處于理論研究階段。2002年,微表情分析領域取得了重大進展,Ekman研制出第一個微表情訓練工具(micro expression training tool,METT)[4]。這標志著微表情的研究進入了微表情自動分析時代。
在計算機發展背景下,伴隨著各種基于手工提取微表情特征的算法和微表情數據集在微表情自動分析領域的出現,研究人員在微表情檢測和識別方面取得了巨大進步,但由于傳統提取特征的方法參數量大和設計復雜等特點,基于傳統方法的微表情分析方法難以達到實際應用的程度,微表情識別率低于50%[5]。隨著計算機硬件的發展,2012年GPU在矩陣運算能力的超強表現為深度學習從理論走向實踐提供了可能。AlexNet[6]在ImageNet[7]數據集上的結果證明了深度學習在特征工程和性能相比傳統方法的優越性,而這也讓微表情自動分析領域煥發了新的生機。微表情的應用方面,微表情作為心理學典型領域,已經被現代人廣泛熟知。微表情最早用于醫學領域精神疾病的分析[1,2],醫生通過對病人微表情分析進而了解他們的心理狀態。在商業談判中,微表情自動分析可以讓談判者預知對手的真實想法[8]。在罪犯審訊中,微表情也能讓審訊人員了解到罪犯的真實意圖,提高警務人員辦理案件的效率[9,10]。近年來,隨著各地天網系統的部署,微表情自動分析在公共安全領域也被賦予了新的含義[11],通過分析行人的微表情狀態能夠降低公共安全事件的發生率。
微表情自動分析通常包含微表情檢測和識別任務兩個基本任務。微表情檢測任務是指輸入一段視頻序列,將視頻中的微表情序列提取出來[12]。微表情檢測有兩個主要難點:a)由于微表情與宏表情相比,微表情的發生率遠遠低于宏表情的發生率,從長視頻序列中區分宏表情和微表情是其中的一個難點;b)在于微表情特征細微且持續時間短,在自動化處理視頻時,難以捕捉視頻序列中微表情發生時長期依賴的時空變化特征。微表情識別任務是微表情檢測之后的工作,主要對于已經檢測出的微表情進行分類[13]。微表情識別任務不僅僅包含微表情分類,還應該解決人臉遮擋、降低輸入特征冗余信息、獲取準確微表情局部定位區域等問題。
近年來,微表情自動分析受到了研究者廣泛關注,這兩個基本任務,研究人員更加傾向于微表情識別任務。微表情識別的相關研究多于微表情檢測相關的研究[14],但是作為微表情自動分析首要步驟,微表情檢測算法直接影響后續識別任務的結果。因此,微表情檢測也應該受到重視。在實踐過程中,通常微表情自動分析過程一般流程如圖1所示。
1 微表情數據集
微表情自動分析得益于深度學習的發展和微表情數據集的出現。微表情數據集為科學的、定量的微表情分析奠定了基礎。表1是各常用數據集實驗采集參數的總結和對比。在現有微表情數據集中,由于采集設備、誘發方式、數據標記方式等 不同,每個數據集在實驗幀率、分辨率、可獲得標簽等也有所不同。
1.1 誘發方式
微表情在短時間內、受試者非自愿的情況下難以產生微表情。因此,采集過程中受試者觀看特定影片、聽音樂或者觀看特定圖片誘發出微表情。以這種方式誘發的微表情通常會受到其他非情緒化面部運動的影響,比如對話行為[15]。最新誘發方式利用撲克游戲或電視采訪來構建微表情高發生場景,在這種“高危”環境中誘發微表情。與此同時在開放性環境中,因姿態不一致和采集環境變化大的問題,為了得到有效數據,實驗條件要求更高,實驗執行也更加嚴格,處理采集數據也因為無有效自動化工具變得耗時且困難。
1.2 標簽標記方式
常見分類標記方式有基于情緒的和基于動作單元(action unit,AU)[16]的兩種。
1.2.1 基于情緒的分類標記
基于情緒分類的微表情標記通常有基于基本情緒的分類和基本正負面情緒的分類兩種分類方法。在基于基本情緒的數據集中,每個樣本被標記為基本的情緒,如:高興、悲傷、快樂、蔑視、驚訝、恐懼等。第二屆面部微表情大挑戰(the second facial micro-expressions grand challenge,MEGC2019)[17])將基本情緒標簽重新劃分為基于正負面情緒的標簽,其劃分方式如下:a)消極情緒(如“壓抑”“憤怒”“蔑視”“厭惡”“恐懼”和“悲傷”);b)積極情緒(如“高興”);c)驚訝(如“驚訝”)。
1.2.2 基于動作單元的標記
基于動作單元的標記方式通過面部表情編碼系統(facial action coding system,FACS)[18]完成。FACS將面部肌肉進行編號,微表情發生時,記錄微表情發生的肌肉編號,以此來定義微表情。如基本情緒中的厭惡可以使用動作單元編碼(4+5+L10)來定義。
1.3 微表情定位方式
微表情定位有微表情峰值幀定位和序列定位兩種方式。微表情發生會經歷由平靜狀態人臉到微表情最為強烈的人臉,隨后又恢復到平靜狀態人臉的過程。微表情序列定位就是捕捉這個情緒變化過程,具體指輸入一段包含微表情的幀序列,然后定位微表情發生起始幀和結束幀之間的幀。微表情峰值幀定位則是定位微表情序列中的峰值幀。其中,起始幀代表微表情發生時的第一幀,峰值幀代表微表情達到最大強度的幀,結束幀代表微表情由最大強度恢復到平靜人臉狀態后的幀。
1.4 微表情數據集對比
在長期研究和應用中,出現了眾多微表情數據集。部分數據集是不公開的(如:USF-HD[19]數據集、Polikovsky’s dataset[20]、York DDT[21]),其中,USF-HD數據集要求受試者表現宏表情和微表情,Polikovsky’s dataset數據集要求受試者模仿出微表情。這些數據集屬于非自發微表情的數據集。而現有的CASME、CASMEⅡ、CAS(ME)2、SIMC、SAMM、MMEW數據集是可獲得的和自發微表情的數據集。公開數據集的部分樣本如圖2所示。公開數據集又可以分為微表情識別數據集和微表情檢測的數據集,兩類數據集如下所示。
1.4.1 微表情識別數據集
本小節對目前微表情識別任務中廣泛使用的數據集進行介紹。表2是常用微表情識別數據集的基于情緒標簽樣本數統計。通過對各個數據集的統計可以看到微表情的數據集存在著樣本容量小,分布不均勻等問題。
a)Chinese academy of sciences micro-expression(CASME)[22]。該數據集在嚴格的實驗室環境下采集完成。對于每個樣本分別用兩個不同的相機進行采集。數據集包含19個受試者的195個微表情樣本。
b)Chinese academy of sciences micro-expression Ⅱ(CASMEⅡ)[23]。CASMEⅡ是為補充樣本容量而改進CASME數據集的版本,其實驗條件和CASME類似,但CASMEⅡ擁有更高幀率(200 fps)和更大面部區域(280×340像素)。CASMEⅡ數據集作為CASME的補充,其包含26個受試者的247個樣本。
c)Spontaneous micro-expression corpus(SMIC)[24]。SMIC數據集使用了高速相機(HS)、普通相機(VIS)和近紅外相機(NIR)進行采集。由于三種設備采集設備不同,數據在幀率上也有區別,HS采用100 fps捕捉微表情,而VIS和NIR兩個攝像機采用25 fps的幀率、640×480分辨率采集數據。SMIC數據集中HS采集的數據包含16個受試者的164個樣本,VIS和NIR分別包含8個受試者的71個樣本。
d)Spontaneous actions and micro-movements(SAMM)[25]。SAMM數據集包含微表情的數據集和長視頻宏/微表情數據集。前者是后者的子集,前者僅包含微表情序列幀。實驗采集在光照穩定且明亮的環境中完成。為了捕捉細微的情緒變化,SAMM數據也使用200 fps的幀率做實驗采集,采集的分辨率為2 040×1 088。SAMM數據集包含了32個受試者的159個樣本。值得注意的是SAMM數據集中受試者來自13個種族,其男女受試者的比例也是1∶1。
e)Micro-and-macro expression warehouse(MMEW)[15]。MMEW是2021年最新發布的微表情數據集,包含宏表情數據集和微表情數據集兩個部分。MMEW數據集采用了和CASME、CASMEⅡ相同的誘發方式來引出微表情。與以上的數據集相比較,MMEW包含更多實驗樣本(36個受試者的300個樣本)。
1.4.2 微表情檢測數據集
微表情檢測數據集主要針對微表情檢測任務。數據集不僅包含微表情序列,還有更多無用幀(即非情緒引發的面部變化)以及宏表情序列。常用的有如下兩個數據集:
a)Chinese academy of science macro and micro expression(CAS(ME)2)[26]。CAS(ME)2的采集環境與CASME、CASMEⅡ類似,是常用的微表情檢測任務的數據集之一。
CAS(ME)2數據集主要有A和B兩部分構成,其中A部分主要包含87個沒有經過任何預處理的原始視頻剪輯,B部分包含了357個處理后的面部表情(宏表情的樣本有300個,微表情57個)。最新版本的數據還包含人臉裁剪的數據和主動形狀模型(active shape model,ASM)[27]標記的68個特征點信息。
b)SAMM long videos dataset[25]。SAMM長視頻數據集部分針對微表情的檢測任務。SAMM長視頻數據集中共包含了504個樣本(宏表情樣本343個,微表情樣本159個)。
2 數據預處理
數據預處理能夠有效地降低輸入復雜度,能一定程度提高后續工作的準確度、泛化能力和魯棒性。常見的數據預處理方法有人臉檢測、人臉裁剪、人臉矯正和數據增強。
2.1 人臉檢測
人臉檢測是微表情自動分析第一步,目的是獲取提取視頻幀中人臉,從而過濾視頻數據中不含人臉的干擾幀。人臉檢測算法主要有早期人臉檢測算法、AdaBoost框架、基于深度學習的人臉檢測算法。早期的人臉檢測算法基于模板匹配,Rowley等人[28]提出的正面人臉檢測算法消除了手動選擇非人臉圖像的困難。為了提高檢測算法魯棒性,Rowley等人[29]在原有算法的基礎上提出多角度人臉檢測算法。該算法能夠有效檢測不同偏移量的人臉,而不僅僅局限于正面人臉。
基于AdaBoost[30]算法的人臉檢測算法主要思想是由簡單規則組合形成復雜規則。基于級聯結構的思想,Viola等人[31]設計了具有里程碑意義的人臉檢測器(簡稱Vamp;J檢測器)。該檢測器使用Haar-like特征[32]和級聯的分類器[33]構成。該檢測算法不僅保持了良好的精度,還比以前的算法[29]提高了兩個數量級的速度。因此,在深度學習出現之前,Vamp;J檢測器受到了廣泛關注和應用。但以上算法不能很好處理非正面人臉,因此魯棒性不足的問題仍然存在。
卷積神經網絡(convolutional neural network,CNN)[34]的成功也引起了人臉檢測算法的改變,因其性能大幅超越AdaBoost算法,基于深度學習的檢測器成為了主流,深度學習的人臉檢測算法能很好地解決魯棒性不足的問題。Cascade CNN[35]將傳統方法和深度學習的方法相結合,采用Vamp;J檢測相同算法思想,通過級聯分類器完成檢測任務。MTCNN[36]將檢測人臉關鍵特征點和人臉區域檢測任務相結合。采用三個級聯的網絡P-Net、R-Net和O-Net完成人臉的檢測任務。Lai等人[37]引入MTCNN作為微表情人臉檢測的工具,并將該MTCNN應用到實時微表情識別任務中。
2.2 人臉矯正
檢測到人臉之后,輸入的數據存在姿態多角度、人臉輸入尺度不一致等問題。人臉矯正能夠最大程度標準化輸入數據,更加符合后續任務的輸入,從而提高模型在實際任務中的識別率。人臉矯正在目前的研究中容易被忽略,僅有少量研究使用人臉矯正。Lai等人[37]從人臉表觀出發,提出的人臉矯正算法簡單有效,通過計算左右眼的水平夾角角度,然后根據該角度對裁剪之后非標準化的人臉數據進行旋轉。而Liong等人[38]將個人臉的68個標志點和鼻子的標志點坐標相減。從而減小頭部晃動帶來的噪聲。Guo等人[39]通過光流提出估計鼻子部分的平均光流算法,該算法有效地解決頭部晃動而引起的全局運動。以上算法雖然都能夠較好地矯正人臉。但文獻[37,38]的方法簡單因此更加適合實時性計算。
2.3 數據增強
深度學習由數據所驅動,但目前微表情領域可用數據卻遠不夠,因此使用數據增強能夠提高數據的靈活性,提高模型對圖像旋轉、遮擋等情況下的判別能力,進而為提升模型的泛化能力和魯棒性奠定良好基礎,常見數據增強的方式如圖3所示。
常見微表情圖像數據增強方法有如下幾種:a)裁剪。通常的方法也叫隨機裁剪,隨機選取圖片中的某一點,然后根據裁剪框裁剪原始圖形,最后調整裁剪后圖像的大小。b)縮放。對原始圖像放大或縮小,然后再按照原始的尺寸進行裁剪。c)旋轉。旋轉通過順時針或逆時針旋轉一定角度來完成數據的增強。通常,使用以90°的倍數進行旋轉,以免帶來尺度不一致的問題。d)翻轉。翻轉不同于旋轉,翻轉是鏡面翻轉。e)轉灰度圖。這種方法將RGB圖轉換為灰度圖。在降低通道數的同時也增加了數據的多樣性。
3 微表情特征
微表情檢測和識別任務都依賴微表情特征,表征微表情特征是微表情自動分析中最為重要的一步。微表情特征可以分為傳統方法提取的特征和深度學習方法提取的特征。傳統方法雖然可解釋性較好,但存在著處理復雜、提取有效提取特征能力弱等問題。近年來研究人員普遍使用深度學習方法對微表情的特征進行提取。
3.1 基于傳統方法的特征
傳統方法按照處理算法不同可以分為基于紋理的特征和基于幾何變換的特征。基于紋理的特征使用表觀的紋理特征作為微表情特征。常用紋理特征有局部二值模式、三個正交平面—局部二值模式和方向梯度直方圖三種。
a)局部二值模式(local binary pattern,LBP)[40]。局部二值模式能夠處理光照變化,在紋理分析中被廣泛應用。通過將圖像分塊,對于每一個分塊,將中心點像素與周圍八個像素點(左上、上中、上右、左、右、左下、下中、下右)進行比較,其中像素點值大于中心點像素值的標記為1,反之則標記為0。局部二值模式的提取方法示意如圖4所示。
b)三個正交平面—局部二值模式(local binary pattern-from three orthogonal planes,LBP-TOP)[41]。LBP-TOP是LBP的變種方法。原始LBP算子只在圖像的X,Y維度上提取特征,而圖片序列相對圖片多了時間T維度。LBP-TOP通過引入時間維度建立三個正交平面(XY,XT,YT)對圖片序列的特征進行表達。
c)方向梯度直方圖(histogram of oriented gradient,HOG)[42]。HOG是一種可以快速構建物體局部梯度特征的描述符。該方法將圖像分塊處理,對于每一個塊,再將其劃分為若干子塊,計算每個子塊的梯度直方圖作為該塊的特征向量。然后再將每個子塊的特征向量拼接作為塊的向量,最后再將塊向量拼接作為每個圖像的特征向量。
基于幾何變換的方法定位人臉標志點,通過這些點的幾何形狀來表示人臉特征,從而形成人臉特征向量。常用的幾何特征有光流法、定向光流直方圖、主方向平均光流、三角化時域四種。
a)光流法(optical flow)[43]。光流描述物體運動的特征。光流法通過圖像序列在時域的特性,計算當前幀中的像素和目標幀相關性以表達幀之間對應關系。通過這個關系就可以表示微表情序列各幀之間的關系。光流法被大量應用于提取連續幀的相關特征,但其計算量大和基本假設條件難以滿足。因此實際應用中產生了很多變體,包括定向光流直方圖和主方向平均光流等。
b)定向光流直方圖(histogram of oriented optical flow,HOOF)[44]。HOOF是對光流直方圖的改進。前人對運動識別的方法是動態線性的,特征屬于歐幾里德幾何學。這些方法容易受到不同環境和圖像尺度的影響。HOOF通過重新定義光流方向以免除水平運動對光流的影響,并且消除鏡頭遠近對光流提取的影響。通過對光流值歸一化處理,最后得到以光流為主要導向的光流直方圖。定向光流直方圖的特征表示如圖5所示。
c)主方向平均光流(main directional mean optical flow feature,MDMO)[45]。特征先定位人臉標志點,然后根據標志點將人臉劃分為36個感興趣區域。然后計算每個區域光流坐標,將歐幾里德光流坐標轉換為極坐標系。針對每個區域光流,按照主方向光流的定義將不同角度的光流劃分到八個不同的統計堆中。最后選取這些區域中最大的光流向量,計算平均值來代表這個區域的特征向量,其計算公式為
其中:結果代表第k幀i個區域主方向光流平均值;Bmax是統計的直方圖中方向向量數量最多的集合;uki(p)代表p點的方向向量。
d)三角化時域模型(delaunay-based temporal coding model,DTCM)[46]。該方法使用主觀表觀模型(active appearance model,AAM)[47]對人臉序列進行分割,將相似人臉從整個圖像中抽取。抽取的圖像進行歸一化處理,從而降低環境因素對表情變化的干擾。最后在歸一化的人臉上分割出三角形區域,通過對相同位置的三角形區域對比和計算其特征來表示微表情動態變化的過程。
3.2 基于深度學習的特征
近年來,深度學習提取的特征被廣泛應用于各個領域。神經網絡相對傳統方法更加準確表達微表情特征,而從提升數據表征能力,深度學習背景下提取的特征可以分為基于卷積神經網絡提取的特征、基于卷積神經網絡和長短期記憶網絡(long short-term memory,LSTM)[48]網絡架構提取的特征以及基于卷積神經網絡和注意力機制架構提取的特征。
a)基于卷積網絡提取的特征[49]。卷積神經網絡被廣泛地應用于圖像分類、檢測、分割等任務中。通常情況下網絡越深,提取的特征也越具有代表性。淺層網絡提取如線條、紋理等特征。深層網絡結構提取的如輪廓、形狀等更加高級的特征。網絡越深,提取的特征也越抽象。
b)基于卷積神經網絡加LSTM提取的特征[50]。卷積神經網絡能夠可以提取圖像空間特征,但卷積網絡卻無法刻畫時空的關聯信息。因此卷積和LSTM組合提取微表情序列中的時空特征能夠更加有效地描繪微表情特征。
c)基于卷積神經網絡加注意力機制提取的特征[51]。注意力機制通過分配不同系數或者權重來突出重要信息和抑制不相關信息。引入注意力機制使模型聚焦位置或者通道等信息,從而產生更具標示性的特征。不同類型的注意力機制也能夠捕捉到不同維度特征。隨著網絡的加深,注意力也能夠適應深度網絡所提取的特征。
4 微表情檢測算法
4.1 微表情序列檢測
各微表情序列檢測算法總結如表3所示。微表情序列檢測方法可以分為基于紋理的特征描述符和基于光流的檢測算法。
LBP算子作為最典型的紋理特征描述符,文獻[52~54]使用了LBP以及LBP的改進算子應用到微表情檢測任務中。Yan等人[52]早期的研究量化了微表情運動。通過LBP測量幀之間的差異性,這些差異值即是微表情紋理特征的變化。該研究為后續在不同層面和更深層次上測量微表情的面部運動有巨大幫助。Li等人[53]提出的局部時間模式(local temporal pattern,LTP)描述符在每個時間窗口中提取扭曲的紋理局部信息,增加了時間信息。因此,微表情發生時,這種描述符將會形成特定的模式,在進一步進行分類即可區分微表情和其他面部運動。Moilanen等人[54]使用LBP作為特征描述符分析視頻序列中外觀的特征差異。
由于基于紋理的算法缺少微表情運動表征能力,為了彌補丟失的微表情變化的運動特征,光流以及改進光流算法也被應用于微表情檢測任務中。Shreve等人[55]通過計算人臉的下巴、嘴、臉頰、額頭區域的中心差異光流場來表達微表情的變化從而定位微表情。值得一提的是該研究也引入了六個政治辯論的視頻和三個互聯網上的低質量視頻作為數據集。Li等人[39]提出基于幅度和角度的組合光流特征來表達微表情的變化,并且選擇了四個最具代表的面部區域提取光流。文獻[56]提出利用運動特征來捕捉方向連續性來檢測微表情的算法。該方法計算局部空間光流,并將其整合到局部時空領域,通過啟發式的方法過濾非情緒化面部運動,從而定位微表情起始點和偏移量。Zhang等人[57]提出基于大小和角度的光流特征。該方法選取最具區分性的四個區域計算光流,從而提取的光流更加準確。由于光流提取中容易受到噪聲干擾,為了消除干擾,Wang等人[58]提出主要方向最大差異(main direction maximum difference,MDMD)分析方法定位微表情。MDMD利用光流主要方向的最大差異來識別面部運動,面部分塊處理也讓MDMD可以獲得更加精準的面部區域運動。該方法同時涉及面部時空信息,因此MDMD算法比一些先進方法更具魯棒性。Li等人[59]同時使用LBP和HOOF作為特征描述符進行評估微表情。在特征差異分析時可以獲得豐富的語義信息從而定位微表情。
其他類型的方法中,Davison等人[60]應用定向梯度直方圖作為特征描述符。計算每一幀定向梯度直方圖,最后計算設定間隔時間的空間外觀差異表示微表情。Xia等人[61]提出基于隨機游走算法的概率框架檢測視頻中微表情片段,利用ASM模型捕捉的幾何形變作為頭部運動和光照變化的特征,最后基于這種幾何形變進行建模。
4.2 微表情峰值幀檢測
微表情峰值幀檢測指檢測微表情序列中表達情感最為“強烈”的幀,圖6是微表情峰值幀檢測的過程示意圖。
在微表情自動分析中,相比于使用微表情序列進行微表情識別,使用峰值幀作為識別任務的輸入能夠有效降低輸入冗余和復雜度等問題。文獻[62]表明僅使用峰值幀作為輸入也能取得較好指標。大部分研究使用LBP作為特征描述符提取峰值幀。 Liong等人[38]從面部特定區域分別使用constraint local model(CLM)[62]、LBP和optical strain(OS)[63]三種特征描述符作為微表情特征,通過處理這些特征,進而定位微表情的峰值幀。為進一步優化提取性能,Gan等人[64]使用LBP編碼微表情序列,然后使用分治策略檢測峰值幀。由于LBP無法表征序列特征,Li等人[65]提出頻域檢測峰值幀的方法。通過LBP編碼微表情序列每一幀,然后利用三維傅里葉變換(3DFFT)將微表情變換到頻域空間中,進而使用頻域方法表示微表情,進而定位峰值幀。
此外,差分法獲取峰值幀也是一類常見的方法。Quang等人[66]定位微表情視頻序列中人臉68個標志點,并將人臉劃分為十個區域,如圖7所示。通過計算當前幀、起始幀、結束幀差異值來代表微表情變化。由于沒有考慮到連續幀的差異變化,牛瑞華等人[51]將相鄰幀的變化引入到前人工作中,并對定義的十個區域均值化處理,從而更加穩健地定位峰值幀。劉德志等人[49]也使用了類似的幀差法[67]對微表情的峰值幀進行檢測和跟蹤。各類微表情峰值幀檢測算法對比總結如表4所示。
5 微表情識別算法
微表情識別是微表情檢測之后的任務。各類識別算法核心是在少量數據樣本上準確定位微表情高頻發生區域,從而解決分類效果不佳等問題。
5.1 遷移學習的識別策略
微表情數據集樣本容量少,而宏表情數據較多,各個類別的樣本也更加豐富。使用遷移學習方法能夠有效將宏表情領域的特征過渡到微表情領域,使用遷移學習策略的微表情識別算法總結如表5所示。
通常的遷移策略使用宏表情過渡到微表情領域。具體策略方面,Xia等人[68]構建的模型提取微表情和宏表情的共同特征,并使用對抗學習策略和三元損失[69]約束特征學習。Wang等人[70]在宏表情數據集上訓練,之后再過渡到微表情領域,同時在模型中添加注意力模塊以便提高模型關注重要特征的能力。Zhi等人[71]使用(3D-convolutional neural network,3D-CNN)[72]從更高維空間探究宏表情到微表情的遷移學習。而Zhou等人[73]簡化遷移學習過程,僅利用BU-3DFE[74]中的表情數據進行預訓練。驗證了宏表情和微表情特征在一定程度上有領域相似性。Peng等人[75]采用了更加復雜的策略,先使用大型數據集ImageNet對模型進行預訓練,再使用宏表情數據集CK+[76]、Oulu-CASIANIRamp;VIS[77]、Jaffe[78]和MUGFE[79]進行宏表情訓練,最后將微調的模型應用到微表情數據的學習。由于微表情識別和語音有內在聯系,Zhu等人[80]使用語音數據集CASIA[77],將語音識別領域知識應用到微表情領域。結果證明了多模態進行微表情識別的可能。
5.2 傳統識別方法
深度學習出現之前,研究人員通過設計多種復雜且需要大量人工操作的方法進行微表情識別。雖然目前各項指標難以達到最優性能,但這些方法仍然有調研價值。傳統微表情識別方法對比總結如表6所示。
基于紋理的識別算法使用LBP及其衍生算法表示微表情特征。Jia等人[81]使用LBP和LBP-TOP對宏表情和微表情特征進行提取,并通過特征選取降低模型計算復雜度。最后經過奇異值分解,將宏表情變換到微表情模型。Ben等人[82]提出的三種新模式(三個正交平面DCP-TOP的雙交叉模式、熱輪模式HWP和HWP-TOP)有效地對宏表情和微表情進行表示,并使用豐富的宏表情樣本進行分類器的訓練,并使用耦合學習算法對微表情和宏表情的共享特征進行建模。Huang等人[83]在LBP-TOP基礎上提出新的時空描述符。該特征利用差分圖像的積分投影方法獲得水平和垂直的投影,保留人臉圖像的形狀屬性,從而提高模型對微表情的分辨能力。Wang等人[84]在LBP-TOP特征描述符基礎上改進得到了LBP-SIP(LBP with six intersection points)特征描述符,這種特征具有六個相交點的局部二進制模式,減少了特征冗余,提供更加緊湊和輕量級特征 表示,從而提高計算效率。光流法能夠很好地表示微表情變化特征,但因其計算量大的特點,其改進算法被廣泛應用于微表情相關工作中。為了解決頭部晃動帶來的噪聲干擾,Liu等人[45]在光流法基礎上提出主方向定向平均光流特征。這種特征考慮局部運動信息和空間位置,其特征維度也較低。由于MDMD特征在平均光流時容易丟失特征空間中底層固有的流形結構,所以Liu等人[85]提出主要方向平均光流(main directional mean optical-flow,MDMO)特征揭示底層固有的流形結構,從而揭示微表情面部運動信息在微表情識別中的有效性。
5.3 傳統和深度學習結合識別方法
傳統方法到深度學習的過渡中,許多研究者嘗試傳統方法和深度學習相結合來對微表情進行識別。文獻[60,86~89]證明了傳統方法和深度學習結合的可能,并且這類算法也能取得良好的性能指標。各類傳統和深度學習結合的識別方法對比如表7所示。
在結合工作中,大部分研究思路先使用傳統方法進行圖像預處理,再將處理后的圖像輸入深度學習模型進行二次加工得到結果。單分支結構中,Khor等人[50]使用了TV-L1[92]方法對微表情視頻進行處理。這種方法保持光流場的不連續性,并且對光變化、遮擋等噪聲有較強的魯棒性。Zhao等人[90]通過關鍵幀進行自適應幀構造,對構造幀提取相鄰幀光流,獲得十幀光流圖作為模型輸入。并采用focal loss[86]進行高級特征學習,有效保留輸入的時空信息。
多分支結構可以從數據不同維度進行特征提取,進行特征融合能提高模型的整體識別效果。其中,Liong等人[91]提出的雙分支結構使用起始幀和峰值幀的垂直光流和水平光流作為模型輸入,其雙流卷積模型如圖8所示。為了獲得更加豐富的語義信息,典型三分支結構如圖9所示。Gan等人[87]在原有雙流模型上提出淺層三流CNN模型(STSTNET)。模型增加光學應變通路,彌補水平光流和豎直光流中丟失的細節信息。Liu等人[88]考慮到偏移幀中含有微表情重要信息,提取起始幀到峰值幀的水平和垂直光流,峰值幀到結束幀的水平和垂直光流,最后將峰值幀的RGB圖轉換為灰度圖。將這五張特征圖傳入五流的CNN模型中提取特征,進一步豐富了輸入維度。
其他類型中,Gupta[89]通過對微表情數據的動作單元、標志點、外觀等特征重新編碼提出了一種更加緊湊的特征。這種基于多個特征融合的特征由以上幾種特征在提取之后進行插值組成。最后將該特征傳遞給基于卷積神經網絡中進行微表情的識別,且該模型僅有四個卷積層,其線性結構如圖10所示。
5.4 基于深度學習的識別方法
隨著深度學習廣泛應用,深度學習背景下的微表情識別方法超越傳統方法成為主流。基于深度學習的識別方法如表8所示。
基于深度學習的方法模型設計相對簡單,處理更加簡潔。在模型架構設計方面,單分支結構是常見微表情識別架構,Quang等人[66]首次將膠囊網絡(CapsNet)[93]應用到微表情識別中,模型使用更少數據訓練,并且膠囊網絡還可以處理模糊性。Lai等人[37]則通過在VGG[94]網絡中添加殘差連接[95],增加網絡深度也緩解梯度消失的問題,與此同時該研究還使用空洞卷積[96]替換傳統卷積,擴大感受野的同時也能夠捕捉多尺度的上下文信息。由于單分支獲得的特征相對單一,表達能力相對較弱,所以通過添加注意力機制使模型獲得捕捉全局和局部關聯特征的能力也是一種常見的策略。牛瑞華等人[51]提取到的峰值幀輸入DPN模型中,并且添加的CBAM注意力[97]也驗證不同面部區域的關聯性,從而提高實驗指標。Wang等人[70]在ResNet網絡上進行修改,添加微注意力提升模型對面部高頻區域的關注,從而提升識別的精度。
多分支結構能提升特征維度,使模型更好地表達微表情。Khor等人[98]提出的輕量級雙線性淺層網絡,由兩個截斷的異構輸入網絡組合形成,通過激活熱圖來強調高頻面部區域,不僅證明了不同情緒類別對應動作單元的相關聯系,還證明了淺層網絡也能獲得優良的識別效果。Li等人[99]設計的聯合特征學習框架融合微表情峰值幀全局和局部的特征信息來識別微表情。該模型能夠發現特定局部區域對整體微表情識別的貢獻,從而降低不相關或弱相關區域對識別的影響。Xia等人[100]通過分離的宏表情和微表情模型分別提取宏表情和微表情特征,固定宏表情網絡之后,這種多分支網絡通過添加對抗學習策略和三元組損失提升模型類內特征聚集能力,進而提高后續的分類指標。
單分支和多分支模型中通常使用峰值幀作為模型的輸入,雖然降低了輸入冗余,但丟失了序列的時間特征。因此,為了充分表達微表情隨時間變化的上下文信息,Reddy等人[101]構建了基于三維卷積的模型,該模型利用樣本時空信息。比較全部人臉和眼睛、嘴巴附近融合特征的差異,證明了微表情的發生是多個面部動作區域的共同結果。由于三維卷積參數量大,所以為了降低模型復雜度,Peng等人[102]提出的時空融合網絡使用峰值幀的空間信息和相鄰幀的時間信息進行識別,驗證了相鄰幀含的信息在微表情識別中有效性。Xia等人[103]為了解決復合數據集微表情特征在領域轉換時消失的問題,提出了淺層和低分辨率輸入的循環神經網絡模型。該模型表達序列時空特征的同時緩和模型在復合數據集上的退化問題。為了解決因實驗樣本不足而導致微表情識別率低的問題,Zhu等人[104]構建時間交互卷積神經網絡來處理微表情序列實現了微表情自動識別。改進策略也可以引導網絡學習微表情序列不同維度的信息。
6 驗證方法和實驗指標
6.1 驗證方法
通常的驗證方法將樣本分為訓練集和測試集[105],最后在測試集上得到的指標作為算法最終結果。而在微表情領域,由于數據的樣本少,實驗過程中需要充分利用數據。通常使用k折交叉驗證(k-fold-cross-validation,k-fold)[106]、留一法 (leave-one-subject-out,LOSO)[107]、留一視頻法(leave-one-video-out-cross-validation,LOSOCV)和跨數據集驗證法進行驗證[108]。其中跨數據集的驗證方法包含復合數據集的驗證法(composite database evaluation,CDE)[108]和保留數據集驗證法(holdout-database evaluation,HDE)[108]兩種。
6.2 實驗指標
微表情的實驗指標用于統一評價識別和檢測的各類算法。由于微表情識別和檢測任務在實驗指標上有所不同,本節將分別對微表情兩個基本任務的常見實驗指標進行總結。
6.2.1 微表情檢測的實驗指標
微表情序列檢測和峰值幀檢測的評價有所不同。為了評估微表情序列檢測算法的性能,MECG2019使用F1-score作為評價微表情檢測算法性能指標。
由于實驗數據集的長視頻中不僅包含微表情序列,還包含宏表情序列,所以為了更加全面評價微表情的檢測算法,第二種評價的方法在the third facial micro-expression grand challenge(MECG2020)[109]提出。該評價算法使用召回率和F1-score值同時作為宏表情和微表情評價指標,最后綜合宏表情和微表情的性能作為檢測算法最終性能指標。
而微表情峰值幀序列使用平均有效誤差(mean absolute error,MAE)、標準誤差(standard error,SE)[38]、歸一化平均絕對誤差(normalized mean absolute error,NMAE)[99]和歸一化標準誤差(normalized standard error,NSE)[99]進行衡量。
6.2.2 微表情識別的實驗指標
微表情識別任務中,通常采用的實驗指標有:準確率(accuracy)、精確率(precision)、未加權F1值(unweighted average F1-score,UF1)、未加權平均召回率(unweighted average recall,UAR)、加權F1(weighted F1-score,WF1)和加權平均召回率(weighted average recall,WAR)。
7 微表情自動分析全面總結
前文對微表情檢測和識別作出全面調研,從指標和發文量的角度可以看到微表情檢測相對于微表情識別任務更加困難。本章將從微表情檢測和識別的角度出發,全面總結微表情自動分析領域的研究。
a)微表情檢測。從調研文獻來看,微表情檢測領域主要使用傳統算法進行檢測任務[14]。使用最多的是LBP和光流特征作為微表情檢測的特征[56,58]。從實驗指標上來看,微表情檢測算法指標很低。主要原因在于算法不能較好表征長視頻中微表情的位置關系,其次,大部分算法僅能夠定位微表情大概起始和結束位置,并不能很好擬合真實序列。因此,后續研究在關注微表情識別任務的同時更應該關注微表情檢測任務。
b)微表情識別。與微表情檢測任務不同,微表情識別領域已經過渡到了深度學習背景下的微表情識別。各類算法也相對檢測算法更加成熟。基于深度學習的微表情識別方法已經成為當下主流方法。基于深度學習,研究人員探究各個維度的特征對微表情識別的影響。這也是微表情識別研究取得重要進展的原因之一。而這些使用標準輸入構建的模型難以保證真實場景的泛化能力和魯棒性。因此,微表情識別不僅要關心識別的指標,還應該關注人臉在姿態不一致,遮擋條件的識別問題。
c)微表情自動分析框架。目前,僅有少量同時對微表情檢測和識別的研究[110],而微表情自動分析是整體的過程。因此,微表情自動分析應該同時考慮這兩個過程。其次,大部分研究集中于單個或少個人種的微表情分析,近年提出的復合驗證方法略微緩解人種的問題,但基于不同人種的微表情特征分析框架也是需要考慮的;最后,由于微表情自動分析框架需要一定實時性,目前大部分構建的模型存在著參數量大的問題。構建輕量級模型能夠應用于智能終端等小型設備也需要被考慮。
盡管伴隨著深度學習的出現,微表情自動分析領域取得了較大進展,但微表情領域依然存在著一些問題需要解決:a)由于微表情數據的特殊性,間隔時間短,動作幅度小,一方面有效采集實驗數據較為困難,另一方面獲得有效并且充分數據也有難度;b)雖然微表情自動分析模型已經超過了專家水平,提高微表情各項指標仍有發展空間。
8 結論和未來發展方向
近十幾年微表情自動分析領域發展迅速。研究人員在各階段取得了巨大成就,具體研究方面,首先,雖然現在的主流是深度學習背景下的微表情自動分析,但傳統特征仍然可以取得較好的實驗指標[71,73],傳統方法仍然具有相當重要的研究價值。其次,傳統方法和深度學習方法結合可以獲得多尺度微表情特征。Ilg等人[111]提出的FlowNet網絡就將傳統光流算法通過卷積網絡實現,驗證了傳統方法可以用深度學習方法實現的可能。大部分傳統和深度學習結合的方法也是使用光流法和深度網絡結合完成。文獻中大部分研究只報告最終實驗指標,沒有報道如轉換光流圖所帶來的代價[87,88]。最后,微表情領域沒有相對統一的實驗指標很難客觀評價各類算法的優良,其次沒有真實環境下構建的數據集,各類算法實際運用能力仍然是值得考量的問題。文獻調研過程中全面分析了微表情相關研究,結合調研內容,討論出了以下幾個未來發展和潛在研究方向。
a)長視頻中的微表情檢測。目前微表情檢測算法還處于研究初級階段,各類檢測算法效果不明顯。主要原因有兩點:(a)從長視頻序列中區分出情緒化和非情緒化的面部動作困難;(b)宏表情和微表情存在著相關性,如何區分和鑒別宏/微表情也十分困難。因此,針對目前研究存在的問題,提出兩個潛在研究方向:(a)如何構建準確特征描述符解決超長期時空依賴關系和噪聲干擾的問題是需要研究的方向;(b)提取更加細粒度的時空變化特征來區分不同類型表情也是未來微表情檢測中需要關注的問題。
b)數據集樣本不均衡下的微表情識別。現階段的微表情數據集數據樣本容量少并且樣本分布不均衡,數據采集也是在嚴格的實驗室環境下進行的。目前的微表情識別算法雖然能夠取得較好精度,但受到數據集中大數量樣本影響,小樣本和弱樣本識別率較低。因此,如何構建模型平衡數據樣本問題帶來的偏差學習問題是未來研究中十分重要的問題。其次,如何在少量樣本中提取微表情需要重點關注的局部面部區域和探究這些核心識別區域局部和全局的關聯關系也是未來研究中重要的發展方向。
c)數據的隱私保護。在互聯網高速發展的今天,數據的隱私保護也越來越受到人們的關注。而針對微表情自動分析領域,微表情數據由人臉信息構成,目前僅有SMIC數據集在數據使用方面有少量限制條件。因此,如何對人臉信息進行采集、存儲、處理、銷毀等也是未來在實際應用中需要考慮的問題。
d)微表情識別多模態。微表情常常伴隨著人體姿態和心率等的變化,目前工作僅僅局限在圖像或者視頻的單一模態上,只有少量研究揭示聲音和微表情的部分內在關系[80]。研究中充分利用多模態數據并揭示數據內在關系也是未來需要關注的部分。
9 結束語
本文總結對比了微表情自動分析領域數據集,分析了目前微表情自動分析領域數據預處理手段。在剖析微表情特征基礎上,詳細分析和總結微表情檢測和識別算法,旨在全面介紹微表情自動分析領域的研究發展情況。最后,討論并提出了微表情自動分析領域研究重點和發展方向。
參考文獻:
[1]Haggard E A, Issaacs K S. Micromomentary facial expressions as indicators of ego mechanisms in psychotherapy[M]//Methods of Research in Psychotherapy.Boston,MA:Springer,1966:154-165.
[2]Ekman P, Friesen W V. Nonverbal leakage and clues to deception[J].Psychiatry,1969,32(1):88-106.
[3]Shen Xunbing, Qi Wu, Fu Xiaolan. Effects of the duration of expressions on the recognition of microexpressions[J].Journal of Zhejiang University Science B,2012,13(3):221-230.
[4]Zhang Ming, Fu Qiufang, Chen Y H, et al. Emotional context influences micro-expression recognition[J].PLoS ONE,2014,9(4):e95018.
[5]Tang Minghao, Zong Yuan, Zheng Wenming, et al. Micro-expression recognition by leveraging color space information[J].IEICE Trans on Information and Systems,2019,102(6):1222-1226.
[6]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[7]Deng Jia, Dong Wei, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:248-255.
[8]馬銀忠,孫君,陶紅.微表情識別在商務談判中的應用[J].價值工程,2016,35(33):186-188.(Ma Yinzhong, Sun Jun, Tao Hong. Application of micro expression recognition in business negotiation[J].Value Engineering,2016,35(33):186-188.)
[9]常文婷.微表情分析技術在偵查訊問工作中的應用探討[J].辦公室業務,2017(7):190.(Chang Wenting. Discussion on the application of micro-expression analysis technology in investigative interrogation[J].Office Business,2017(7):190.)
[10]彭玉偉.微表情分析技術在偵查訊問工作中的應用研究[J].中國刑事法雜志,2015(2):95-103.(Peng Yuwei. Research on the application of micro-expression analysis technology in investigative interrogation[J].China Criminal Law Journal,2015(2):95-103.)
[11]段蓓玲.視頻偵查主動預警系統應用研究[J].法制博覽,2019(16):63-64.(Duan Beiling. Research on the application of video detection active early warning system[J].Legal Expo,2019(16):63-64.)
[12]徐峰,張軍平.人臉微表情識別綜述[J].自動化學報,2017,43(3):333-348.(Xu Feng, Zhang Junping. A review of facial micro-expression recognition[J].Journal of Automation,2017,43(3):333-348.)
[13]李思寧.基于深度學習的面部微表情識別方法研究[D].徐州:中國礦業大學,2020.(Li Sining. Research on facial micro-expression recognition method based on deep learning[D].Xuzhou:China University of Mining and Technology,2020.)
[14]Xie Hongxia, Lo Ling, Shuai Honghan, et al. An overview of facial micro-expression analysis: data, methodology and challenge[J/OL].IEEE Trans on Affective Computing.(2022-01-20).https://doi.org/10.1109/TAFFC.2022.3143100.
[15]Ben Xianye, Ren Yi, Zhang Junping, et al. Video-based facial micro-expression analysis: a survey of datasets, features and algorithms[J/OL].IEEE Trans on Pattern Analysis and Machine Intelligence.(2021-03-19).http://doi.org/10.1109/tpami.2021.3067464.
[16]Ekman P, Rosenberg E. What the face reveals: basic and applied studies of spontaneous expression using the facial action coding system[M].New York:Oxford University Press,2020.
[17]See J, Yap M H, Li Jingting, et al. MEGC 2019-the second facial micro-expressions grand challenge[C]//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.2019:1-5.
[18]Ekman P, Friesen W V. Facial action coding system[DB/OL].(1978).https://doi.apa.org/doi/10.1037/t27734-000.
[19]Shreve M, Godavarthy S, Goldgof D, et al. Macro-and micro-expression spotting in long videos using spatio-temporal strain[C]//Proc of IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2011:51-56.
[20]Polikovsky S, Kameda Y, Ohta Y. Facial micro-expressions recognition using high speed camera and 3D-gradient descriptor[C]//Proc of the 3rd International Conference on Imaging for Crime Detection and Prevention.Piscataway,NJ:IEEE Press,2009:1-6.
[21]Warren G, Schertler E, Bull P. Detecting deception from emotional and unemotional cues[J].Journal of Nonverbal Behavior,2009,33(1):59-69.
[22]Yan Wenjing, Wang Sujing, Liu Yongjing, et al. For micro-expression recognition: database and suggestions[J].Neurocomputing,2014,136(7):82-87.
[23]Yan Wenjiang, Li Xiaobai, Wang Sujing, et al. Casme II: an improved spontaneous micro-expression database and the baseline evaluation[J].PLoS ONE,2014,9(1):e86041.
[24]Li Xiaobai, Pfister T, Huang Xiaohua, et al. A spontaneous micro-expression database: inducement, collection and baseline[C]//Proc of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2013:1-6.
[25]Yap C H, Kendrick C, Yap M H. SAMM long videos: a spontaneous facial micro-and macro-expressions dataset[C]//Proc of the 15th IEEE International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2020:771-776.
[26]Qu Fangbing, Wang Sujing, Yan Wenjiang, et al. CAS(ME)2: a database for spontaneous macro-expression and micro-expression spotting and recognition[J].IEEE Trans on Affective Computing,2017,9(4):424-436.
[27]Milborrow S, Nicolls F. Locating facial features with an extended active shape model[C]//Proc of European Conference on Computer Vision.Berlin:Springer:504-513.
[28]Rowley H A, Baluja S, Kanade T. Neural network-based face detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(1):23-38.
[29]Rowley H A, Baluja S, Kanade T. Rotation invariant neural network-based face detection[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,1998:38-44.
[30]Freund Y, Schapire R E. Experiments with a new boosting algorithm[C]//Proc of the 13th International Conference on International Conference on Machine Learning.1996:148-156.
[31]Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2001:I-I.
[32]Papageorgiou C P, Oren M, Poggio T. A general framework for object detection[C]//Proc of the 6th International Conference on Computer Vision.1998:555-562.
[33]Li S Z, Zhu Long, Zhang Zhenqiu, et al. Statistical learning of multi-view face detection[C]//Proc of the 7th European Conference on Computer Vision.Berlin:Springer,2002:67-81.
[34]周飛燕,金林鵬,董軍.卷積神經網絡研究綜述[J].計算機學報,2017,40(6):1229-1251.(Zhou Feiyan, Jin Linpeng, Dong Jun. A review of convolutional neural network research[J].Journal of Computers,2017,40(6):1229-1251.)
[35]Li Haoxiang, Lin Zhe, Shen Xiaohui, et al. A convolutional neural network cascade for face detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2015:5325-5334.
[36]Zhang Kaipeng, Zhang Zhanpeng, Li Zhifeng, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[37]Lai Zhenyi, Chen Renhe, Jia Jinlu, et al. Real-time micro-expression recognition based on ResNet and atrous convolutions[J/OL].Journal of Ambient Intelligence and Humanized Computing.(2020-10-08).https://doi.org/10.1007/s12652-020-01779-5.
[38]Liong S T, See J, Wong K S, et al. Automatic apex frame spotting in micro-expression database[C]//Proc of the 3rd IAPR Asian Confe-rence on Pattern Recognition.2015:665-669.
[39]Guo Yifei, Li Bing, Ben Xianye, et al. A magnitude and angle combined optical flow feature for microexpression spotting[J].IEEE Multi-Media,2021,28(2):29-39.
[40]Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans on Pattern Analysis Machine Intelligence,2002,24(7):971-987.
[41]Zhao Guoying, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(6):915-928.
[42]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proc of IEEE Computer Society Conference on Computer Vision amp; Pattern Recognition.2005:886-893.
[43]Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision[C]//Proc of the 7th International Joint Conference on Artificial Intelligence.1981:674-679.
[44]Chaudhry R, Ravichandran A, Hager G, et al. Histograms of oriented optical flow and binet-Cauchy kernels on nonlinear dynamical systems for the recognition of human actions[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.2009:1932-1939.
[45]Liu Yongjin, Zhang Jinkai, Yan Wenjiang, et al. A main directional mean optical flow feature for spontaneous micro-expression recognition[J].IEEE Trans on Affective Computing,2015,7(4):299-310.
[46]Lu Zhaoyu, Luo Ziqi, Zheng Huicheng, et al. A delaunay-based temporal coding model for micro-expression recognition[C]//Proc of Asian Conference on Computer Vision.Cham:Springer,2014:698-711.
[47]Cootes T F, Edwards G J, Taylor C J. Active appearance models[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(6):681-685.
[48]Shi Xingjian, Chen Zhuorong, Wang Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proc of the 28th International Conference on Neural Information Processing Systems.2015:802-810.
[49]劉德志,梁正友,孫宇.結合空間注意力機制與光流特征的微表情識別方法[J].計算機輔助設計與圖形學學報,2021,33(10):1541-1552.(Liu Dezhi, Liang Zhengyou, Sun Yu. Micro-expression recognition method combining spatial attention mechanism and optical flow features[J].Journal of Computer-Aided Design and Gra-phics,2021,33(10):1541-1552.)
[50]Khor H Q, See J, Phan R, et al. Enriched long-term recurrent con-volutional network for facial micro-expression recognition[C]//Proc of the 13th IEEE International Conference on Automatic Face amp; Gesture Recognition.2018:667-674.
[51]牛瑞華,楊俊,邢斕馨.基于卷積注意力模塊和雙通道網絡的微表情識別算法[J].計算機應用,2021,41(9):2552-2559.(Niu Ruihua, Yang Jun, Xing Lanxin. Micro-expression recognition method based on dual-channel attention mechanism[J].Journal of Computer Applications,2021,41(9):2552-2559.)
[52]Yan Wenjing, Wang Sujing, Chen Y H, et al. Quantifying micro-expressions with constraint local model and local binary pattern[C]//Proc of European Conference on Computer Vision.Berlin:Springer:296-305.
[53]Li Jingting, Soladie C, Seguier R. Local temporal pattern and data augmentation for micro-expression spotting[J/OL].IEEE Trans on Affective Computing.(2020-09-14).https://doi.org/10.1109/TAFFC.2020.3023821.
[54]Moilanen A, Zhao Guoying, Pietikainen M. Spotting rapid facial movements from videos using appearance-based feature difference analysis[C]//Proc of the 22nd International Conference on Pattern Recognition.2014:1722-1727.
[55]Shreve M, Godavarthy S, Goldgof D, et al. Macro-and micro-expression spotting in long videos using spatio-temporal strain[C]//Proc of IEEE International Conference on Automatic Face amp; Gesture Recognition.2011:51-56.
[56]Blanc-Talon J, Bourennane S, Philips W, et al. Advanced concepts for intelligent vision systems[M].Berlin:Springer,2015.
[57]Zhang Liwei, Li Jingting, Wang Sujing, et al. Spatio-temporal fusion for macro-and micro-expression spotting in long video sequences[C]//Proc of the 15th IEEE International Conference on Automatic Face and Gesture Recognition.2020:734-741.
[58]Wang Sujing, Wu Shuhang, Qian Xingsheng, et al. A main directional maximal difference analysis for spotting facial movements from long-term videos[J].Neurocomputing,2017,230:382-389.
[59]Li Xiaobai, Hong Xiaopeng, Moilanen A, et al. Towards reading hidden emotions: a comparative study of spontaneous micro-expression spotting and recognition methods[J].IEEE Trans on Affective Computing,2017,9(4):563-577.
[60]Davison A K, Yap M H, Lansley C. Micro-facial movement detection using individualised baselines and histogram-based descriptors[C]//Proc of IEEE International Conference on Systems,Man,and Cybernetics.2015:1864-1869.
[61]Xia Zhaoqiang, Feng Xiaoyi, Peng Jinye, et al. Spontaneous micro-expression spotting via geometric deformation modeling[J].Compu-ter Vision and Image Understanding,2016,147(C):87-94.
[62]Yan Wenjing, Wang Sujing, Chen Y H, et al. Quantifying micro-expressions with constraint local model and local binary pattern[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:296-305.
[63]Lant C T. Optical strain measurement[J].Aluminium International Today,2009,42(4):427-441.
[64]Gan Y S, Liong S T. Bi-directional vectors from apex in CNN for micro-expression recognition[C]//Proc of the 3rd IEEE International Conference on Image, Vision and Computing.2018:168-172.
[65]Li Yante, Huang Xiaohua, Zhao Guoying. Can micro-expression be recognized based on single apex frame?[C]//Proc of the 25th IEEE International Conference on Image Processing.2018:3094-3098.
[66]Quang N V, Chun J, Tokuyama T. CapsuleNet for micro-expression recognition[C]//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2019:1-7.
[67]Ju Jianguo, Xing Jinsheng. Moving object detection based on smoo-thing three frame difference method fused with RPCA[J].Multimedia Tools Applications,2019,78(21):29937-29951.
[68]Xia Bin, Wang Weikang, Wang Shangfei, et al. Learning from macro-expression : a micro-expression recognition framework[C]//Proc of the 28th ACM International Conference on Multimedia.2020:2936-2944.
[69]Hermans A, Beyer L, Leibe B. In defense of the triplet loss for person re-identification[EB/OL].(2017-11-21).http://doi.org/10.48550/arxiv.1703.07737.
[70]Wang Chongyang, Peng Min, Bi Tao, et al. Micro-attention for micro-expression recognition[J].Neurocomputing,2020,410:354-362.
[71]Zhi Ruicong, Xu Hairui, Wan Ming, et al. Combining 3D convolutional neural networks with transfer learning by supervised pre-training for facial micro-expression recognition[J].IEICE Trans on Information and Systems,2019,102(5):1054-1064.
[72]Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolutional neural networks for human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1):221-231.
[73]Zhou Ling, Mao Qirong, Xue Luoyang. Cross-database micro-expression recognition: a style aggregated and attention transfer approach[C]//Proc of IEEE International Conference on Multimedia amp; Expo Workshops.2019:102-107.
[74]Yin Lijun, Wei Xiaozhuo, Sun Yi, et al. A 3D facial expression database for facial behavior research[C]//Proc of the 7th International Conference on Automatic Face amp; Gesture Recognition.2006:211-216.
[75]Peng Min, Wu Zhan, Zhang Zhihao, et al. From macro to micro expression recognition: deep learning on small datasets using transfer learning[C]//Proc of the 13th IEEE International Conference on Automatic Face amp; Gesture Recognition.2018:657-661.
[76]Lucey P, Cohn J F, Kanade T, et al. The extended Cohn-Kanade dataset (CK+): a complete dataset for action unit and emotion specified expression[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops.Piscataway,NJ:IEEE Press,2010:94-101.
[77]Zhao Guoying, Pietikainen M, Taini M, et al. Facial expression re-cognition from near-infrared videos[J].Image and Vision Computing,2011,29(9):607-619.
[78]Lyons M J, Akamatsu S, Kamachi M G, et al. Coding facial expressions with Gabor wavelets[C]//Proc of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition.1998:200-205.
[79]Aifanti N, Papachristou C, Delopoulos A. The mug facial expression database[C]//Proc of the 11th International Workshop on Image Analysis for Multimedia Interactive Services WIAMIS 10.Piscataway,NJ:IEEE Press,2010:1-4.
[80]Zhu Xuena, Ben Xianye, Liu Shigang, et al. Coupled source domain targetized with updating tag vectors for micro-expression recognition[J].Multimedia Tools and Applications,2018,77(3):3105-3124.
[81]Jia Xitong, Ben Xianye, Yuan Hui, et al. Macro-to-micro transformation model for micro-expression recognition[J].Journal of Computational Science,2018,25:289-297.
[82]Ben Xianye, Jia Xitong, Yan Rui, et al. Learning effective binary descriptors for micro-expression recognition transferred by macro-information[J].Pattern Recognition Letters,2018,107:50-58.
[83]Huang Xiaohua, Wang Sujing, Liu Xin, et al. Discriminative spatiotemporal local binary pattern with revisited integral projection for spontaneous facial micro-expression recognition[J].IEEE Trans on Affective Computing,2019,10(1):32-47.
[84]Wang Yandan, See J, Phan R C W, et al. LBP with six intersection points: reducing redundant information in LBP-top for micro-expression recognition[C]//Proc of Asian Conference on Computer Vision. Berlin: Springer,2015:525-537.
[85]Liu Yongjin, Li Bingjun, Lai Yunkun. Sparse MDMO: learning a discriminative feature for micro-expression recognition[J].IEEE Trans on Affective Computing,2021,12(1):254-261.
[86]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.
[87]Gan Y S, Liong S T, Yau W C, et al. Off-apexnet on micro-expression recognition system[J].Signal Processing: Image Communication,2019,74(5):129-139.
[88]Liu Nian, Liu Xinyu, Zhang Zhihao, et al. Offset or onset frame: a multi-stream convolutional neural network with capsulenet module for micro-expression recognition[C]//Proc of the 5th International Conference on Intelligent Informatics and Biomedical Sciences.Pisca-taway,NJ:IEEE Press,2020:236-240.
[89]Gupta P. MERASTC: micro-expression recognition using effective feature encodings and 2D convolutional neural network[J/OL].IEEE Trans on Affective Computing.(2021-02-25).https://doi.org/10.1109/TAFFC.2021.3061967.
[90]Zhao Sirui, Tao Hanqing, Zhang Yangsong, et al. A two-stage 3D CNN based learning method for spontaneous micro-expression recognition[J].Neurocomputing,2021,448:276-289.
[91]Liong S T, Gan Y S, See J, et al. Shallow triple stream three-dimensional CNN(STSTNet) for micro-expression recognition[C]//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2019:1-5.
[92]Zach C, Pock T, Bischof H. A duality based approach for realtime TV-L1 optical flow[M]//Hamprecht F A, Schnrr C, Jhne B. Pattern Recognition. Berlin: Springer, 2007: 214-223.
[93]Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[EB/OL].(2017-11-07).http://doi.org/10.48550/arxiv.1710.09829.
[94]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10).http://doi.org/10.48550/arxiv.1409.1556.
[95]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[96]Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[EB/OL].(2016-04-30).http://doi.org/10.48550/arxiv.1511.07122.
[97]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.
[98]Khor H Q, See J, Liong S T, et al. Dual-stream shallow networks for facial micro-expression recognition[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2019:36-40.
[99]Li Yante, Huang Xiaohua, Zhao Guoying. Joint local and global information learning with single apex frame detection for micro-expression recognition[J].IEEE Trans on Image Processing,2020,30:249-263.
[100]Xia Bin, Wang Weikang, Wang Shangfei, et al. Learning from macro-expression: a micro-expression recognition framework[C]//Proc of the 28th ACM International Conference on Multimedia.2020:2936-2944.
[101]Reddy S P T, Karri S T, Dubey S R, et al. Spontaneous facial micro-expression recognition using 3D spatiotemporal convolutional neural networks[C]//Proc of International Joint Conference on Neural Networks.2019: 1-8.
[102]Peng Min, Wang Chongyang, Bi Tao, et al. A novel apex-time network for cross-dataset micro-expression recognition[C]//Proc of the 8th International Conference on Affective Computing and Intelligent Interaction.Piscataway,NJ:IEEE Press,2019:1-6.
[103]Xia Zhaoqiang, Peng Wei, Khor H Q, et al. Revealing the invisible with model and data shrinking for composite-database micro-expression recognition[J].IEEE Trans on Image Processing,2020,29:8590-8605.
[104]Zhu Weijie, Chen Ying. Micro-expression recognition convolutional network based on dual-stream temporal-domain information interaction[C]//Proc of the 13th International Symposium on Computational Intelligence and Design.2020:396-400.
[105]Devroye L, Wagner T. Distribution-free performance bounds for potential function rules[J].IEEE Trans on Information Theory,1979,25(5):601-604.
[106]Geisser S. The predictive sample reuse method with application[J].Journal of the American statistical Association,1975,70(350):320-328.
[107]Geisser S. A predictive approach to the random effect model[J].Biometrika,1974,61(1):101-107.
[108]Yap M H, See J, Hong Xiaopeng, et al. Facial micro-expressions grand challenge 2018 summary[C]//Proc of the 13th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscat-away,NJ: IEEE Press,2018:675-678.
[109]Li Jingting, Wang S J, Yap M H, et al. MEGC2020-the third facial micro-expression grand challenge[C]//Proc of the 15th IEEE International Conference on Automatic Face and Gesture Recognition.Pisca-taway,NJ:IEEE Press,2020:777-780.
[110]Li Yante, Huang Xiaohua, Zhao Guoying. Joint local and global information learning with single apex frame detection for micro-expression recognition[J].IEEE Trans on Image Processing,2020,30:249-263.
[111]Ilg E, Mayer N, Saikia T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1647-1655.