洪惠群,沈貴萍+,黃風華
1.陽光學院 人工智能學院,福州350015
2.陽光學院 空間數據挖掘與應用福建省高校工程研究中心,福州350015
3.陽光學院 福建省空間信息感知與智能處理重點實驗室,福州350015
表情、聲音、文本、姿態等,都可以用來表達人類情感,面部表情是人類情感表達的重要依據之一,因此,計算機可以嘗試通過分析人的面部表情來理解人的情感,并在眾多人機交互系統中融入,例如:各類服務型機器人、輔助檢測疲勞駕駛、醫療服務、遠程教育中學生學習狀態監測等。盡管在人們社交過程中,逐漸演化出各種復雜的面部動作和表情來表達內心的情感,但是學術界普遍研究的都是由Friesen 和Ekman 等心理學家提出的6 種基本情感類別,即“高興、憤怒、悲傷、吃驚、厭惡、恐懼”。
隨著計算機視覺及人工智能技術的發展,人臉表情識別吸引著越來越多的學者進行研究。表情識別側重于識別面部的表情及情感,而情感分析則可以根據面部表情、語音、文本、姿態、腦電信號等各種信號來進行情感分析,在情感分析的過程中,有可能沒有對面部表情這一模態進行分析。因此,可以將表情識別看作情感分析的一個研究方向。本文側重于從面部表情識別的角度去歸納總結。
在面部表情識別過程中,研究者常常會嘗試結合語音、文本、姿態、腦電波等多種模態信息進行分析,根據在面部表情識別過程中所使用的數據集是單一模態的面部表情數據還是面部表情數據結合其他模態的數據進行情感識別的不同,本文將表情識別算法分為基于單模態數據的面部表情識別和基于多模態數據的面部表情識別。
基于單模態數據的面部表情識別主要根據面部表情這一模態來進行分析識別,包含如圖1 所示步驟:數據集采集、圖像的預處理、表情識別及判斷類別等。

圖1 單模態人臉表情識別主要步驟Fig.1 Main steps of unimodal facial expression recognition
表1 總結了常見的表情識別數據集的圖像特點、標注類別及圖像/視頻數。其中:A1 代表實驗室受控環境下的數據,A2 代表網站上非受控環境下的數據;B1 代表數據很少,B2 代表數據較少。

表1 常見的表情識別數據集Table 1 Common expression recognition datasets
表1 所示的數據集中,部分數據集為受控環境下的數據,數據少且皆為正面清晰人臉,標注可經過心理學專家反復確認,一般認為這些數據庫標注是完全可靠的,如CK+、JAFFE 等。部分數據集如RAFDB、AffectNet 等大規模數據集,是在非受控環境下取得的,受標注者感知的主觀性影響較大,標注質量相對比較低。因此,現有的數據集在數量和質量上均較為不足,數據量小,不足以很好地訓練目前在人臉識別任務中取得良好效果的較大深度網絡結構。此外,現有的數據集缺乏具有遮擋類型和頭部姿態標注的大型面部表情數據集,也會影響深度網絡解決較大類內差距,學習高效表情識別能力特征的需求。
圖像預處理主要對原圖像進行人臉對齊、數據增強及人臉歸一化等操作,是在計算特征之前,排除掉與臉無關的一切干擾。恰當的預處理能夠減少因圖像質量對識別效果的影響,同時也能提升算法的魯棒性。
人臉對齊也叫人臉關鍵點定位,在人臉檢測的基礎上,找到眉毛、眼睛、鼻子、人臉輪廓等的位置,最少的有5 個關鍵點,常見的有68 個關鍵點。
數據增強是通過隨機改變訓練集樣本,以降低網絡模型對某些屬性的依賴,從而提高識別率,防止過擬合現象的發生。
人臉歸一化主要指亮度歸一化和姿態歸一化。
傳統的表情識別方法主要為淺層學習或采用人工設計特征,需要人工較多地參與,常見的算法有:基于全局特征的提取方法、基于局部的提取方法、混合提取方法的靜態圖像表情識別以及基于光流法的動態視頻的表情識別。具體方法及優缺點如表2 所示。

表2 傳統表情特征提取方法Table 2 Traditional expression feature extraction methods
基于深度學習面部表情識別方法大體也可以分為基于靜態圖像的深度表情識別網絡以及基于動態視頻的深度表情識別網絡。鑒于目前人臉表情數據庫相對較小,直接進行深度學習網絡訓練,往往導致過擬合。為了緩解過擬合的問題,通常有如下幾種方法:自建網絡、卷積網絡微調、分階段微調、多網絡融合、多通道級聯、生成對抗網絡、基于遷移學習的跨域人臉表情識別等,現總結如表3。

表3 基于深度學習表情識別方法Table 3 Expression recognition methods based on deep learning
基于單模態數據的表情識別準確率普遍不高,目前仍停留在實驗室研究階段,無法在實際生活中廣泛運用。
由上可知,基于單模態數據的表情識別具有一定的局限性,為了解決這些局限性,越來越多的學者們開始研究基于多模態數據的表情識別,希望能提高識別的準確率及穩定性。基于多模態數據的表情識別中,需要分別處理各模態的數據和對處理后的數據進行融合。在本文研究的多個模態中,有一個模態為面部表情數據。常見的輔助表情識別的模態有:語音、聲音情緒、頭部運動、手勢識別、眼神交流、身體姿勢、生理信號等。基于多模態數據的面部表情系統的處理框架如圖2所示,該系統包含各個模態特征提取及模態信息融合。需要注意的是,單一模態數據的處理效果和多模態融合方式都很重要。在特征提取階段,表情識別分析所采用的方法與上述基于單模態數據的面部表情的特征提取方法相同,模態融合的過程主要有三種方式:基于特征級、決策級以及混合。下面將分別總結常見的多模態數據集、多模態表情識別技術、模態融合技術等。

圖2 多模態表情識別的框架Fig.2 Framework of multimodal expression recognition
本文中所提到的多模態數據集應包含表情圖片或視頻作為其中一個模態,具體數據集總結如表4。
表4 中的多模態數據集都有表情視頻或圖像模態,輔以文字、音頻、腦電、身體姿態等模態中的一個或多個,收集渠道有實驗室錄制、網上視頻錄制、實際環境中錄制,包含有情緒或情感標簽,基本都是小數據集。其中,數據模態的縮寫規定如下:視頻(video,V)、生理信號(physiological signal,PS)、音頻(audio,A)、文字(text,T)、身體動作(body movement,BM)、面部動作(facial movements,FM)、圖像(image,I)等。

表4 多模態情感數據集Table 4 Multimodal affective datasets
現有的文獻中,基于多模態數據集的表情識別技術主要根據面部表情、文本、語音以及腦電等的一個模態進行分析。文獻[75-77]針對視頻和音頻模態進行分析,文獻[78-79]針對視頻和腦電模態進行分析,文獻[80]針對表情視頻和多模態傳感器采集數據如眼動跟蹤器、音頻、腦電圖(electroencephalogram,EEG)、深度相機等模態進行分析,具體分析方法及優缺點如表5 所示。文獻[80]采用的視覺和非視覺傳感器集成到面部表情識別的整體框圖如圖3 所示。由表5 及圖3 可知,基于多模態數據集的情感識別與融合雖然能夠在一定程度上解決基于單模態表情識別的局限性,然而仍存在系統較復雜、識別準確率不夠高等問題,需要進一步解決。

圖3 視覺和非視覺傳感器集成到面部表情識別Fig.3 Integration of visual and nonvisual sensors into facial expression recognition

表5 多模態情感識別Table 5 Multimodal emotion recognition
在基于多模態數據的表情識別中,除了各個模態的特征識別外,模態融合也是十分重要的。因此選擇合適的模態融合方式可以提高識別的準確性及穩定性,融合是從不同模態中提取信息集成多模態特征。常見的融合方式有:特征級的融合、決策級的融合和混合融合等。
特征級的融合屬于中間層級的融合,通常需要從原始信息中提取有效的特征,然后對這些特征信息進行分析和處理。特征級的融合對信息壓縮有利,提取的特征與決策分析直接相關,因此,特征級的融合結果能為決策分析提供所需的特征信息,但是當不考慮模態間的關聯性,直接將各模態的特征進行級聯時,且當過多模態融合時,其產生的特征向量可能產生維度災難。其融合框圖如圖4 所示。

圖4 特征級的融合框圖Fig.4 Fusion block diagram of feature level
多模態情感識別方法中,研究者大量使用基于特征級的融合方法,但大多研究是將不同模態的特征直接級聯,鮮少考慮模態間的信息互補關聯。文獻[85]利用開源軟件OpenEAR、計算機表情識別工具箱進行語音和面部的情感特征的提取,刪除視頻中出現頻率低的單詞,剩余單詞與每個話語轉錄內頻率的值相關聯,得到簡單的加權圖特征作為文本情感特征,并使用特征級融合法將三種特征融合,利用支持向量機分析得到情感極性。具體實現過程如圖5所示。

圖5 多模態特征提取Fig.5 Multimodal feature extraction
文獻[86]通過挖掘話語前后視頻頁面的關系,提出了基于LSTM 的情感分析模型。進行特征提取時,先用text-CNN、3D-CNN 和openSMILE 分別對單模態文本、圖像、語言數據進行特征提取,這提取的是上下文無關的特征向量;然后將這些特征輸入LSTM 網絡捕捉上下文之間的關系;最后進行特征融合得到判斷的結果。具體實現過程如圖6所示,其中Contextual LSTM 的實現過程是:首先將數據輸入到LSTM 中,得到了一個上下文有關的特征,然后經過全連接層得到一個預測結果,再進行一個Softmax得到預測概率。具體實現過程如圖7所示。

圖6 提取上下文相關多模態話語特征的層次結構Fig.6 Hierarchical architecture for extracting context dependent multimodal utterance features

圖7 Contextual LSTM 網絡Fig.7 Contextual LSTM network
文獻[87]提出了能識別面部表情、姿態、身體動作和聲音的多模態情感識別框架,利用級聯三維卷積神經網絡以及深度置信網絡得到新的深度時空特征,對視頻和音頻等呈現的時空信息進行有效建模實現情感識別,并且提出了一種基于雙線性池理論的新的音視頻特征級融合算法,在多模態情感數據集eNTERFACE 以及FABO 中,都取得了不錯的結果。
文獻[88]提出了一種基于深度置信網絡的多模情緒識別方法。如圖8,首先,對語音和表達式信號進行預處理和特征提取,獲得單模信號的高級特征;然后,利用雙模態深度置信網絡融合高級語音特征和表達特征,得到用于分類的多模態融合特征,并去除模態之間的冗余信息;最后,利用LIBSVM 軟件對多模態融合特征進行分類,實現最終的情感識別。在多模態特征融合階段,采用3 個隱藏層的多模態融合深度置信網絡(deep confidence network,DBN)結構。在初始階段,兩個DBN 網絡分別訓練。當訓練到第三隱含層時,將第三層的兩個特征值結合起來輸入到后面反向傳播(back propagation,BP)層。在微調階段,根據分類器的實際輸出對第三隱藏層進行微調。從第三隱含層到兩個DBN 各自的隱含層,進行微調。最后,提出了一種基于DBN 的多模態融合情感識別模型。DBN 訓練后,確定其權重和偏差。對于訓練樣本和測試樣本,輸入DBN,通過第三隱藏層提取的特征值為多模態融合后的特征值。然后進入LIBSVM 分類器進行情感分類。但數據集采用的是《老友記》十季的視頻片段,同一個人的臉部細節發生了變化,給表情識別帶來了更多的困難。

圖8 多模態情感識別模型總體架構Fig.8 Overall architecture of multimodal emotion recognition model
決策級的融合通常是指對單模態的信息進行逐個預處理及特征處理,然后經過分類器,得到各自的分類結果后,再將各自的分類結果按照某種形式進行融合,得到最終的情感分類結果。由于各個模態的分類結果的量綱等通常是一致的,決策級的融合相較于特征級融合更為簡單,但是決策級融合往往只是對單模態的情感識別結果進行二次加工,并沒有對數據本身的特點進行充分挖掘,產生結果容易受到某一模態的情感識別效果的影響。決策級的融合框圖如圖9 所示。

圖9 決策級的融合框圖Fig.9 Fusion block diagram of decision level
文獻[89]利用了三個模態(視頻、音頻、文本)的組合特征向量來訓練一個基于多核學習的分類器,同時提出了一種并行決策級數據融合方法,能更快得到結果,但是準確率有待進一步提高。
文獻[90]提出了一種融合面部表情以及血容量脈沖BVP 生理信號的多模態情感識別法。該方法先對視頻進行預處理獲取面部視頻,然后對面部視頻分別提取局部二值模式-3 維正交平面(local binary patterns from three orthogonal planes,LBPTOP)、梯度方向直方圖-3維正交平面(gradient direction histogram-3D orthogonal plane,HOG-TOP)兩種時空表情特征后,送入BP 分類器進行模型訓練;同時,利用視頻顏色放大技術獲取血容量脈沖(blood volume pulse,BVP)信號,并提取生理信號情感特征,將特征送入BP 分類器進行模型訓練。最后將分類器得到的結果用模糊積分進行決策級融合,并得出識別結果。具體實現流程如圖10 所示,但是生理信號情感判別的準確率還是偏低。

圖10 雙模態情感識別系統流程圖Fig.10 Flow chart of dual-modality emotion recognition
混合融合是指將特征級的融合和決策級的融合相結合,比如,某個分類器可以對面部模態和身體手勢模態進行特征級的融合,另一個分類器對語音模態、生理信號模態進行特征級融合,這兩個分類器上有另外的決策級分類器可以處理兩個特征級分類器的結果,并最終得到情感標簽。混合融合的模型難度和復雜度比較高,能結合特征級的融合和決策級的融合的優點,混合融合框圖如圖11所示,但實用性較差。

圖11 混合融合框圖Fig.11 Hybrid fusion block diagram
文獻[91]引入了面部表情、皮膚電反應、腦電圖等模態進行多模態識別與融合,采用基于混合融合的多模態情感分析,其中,采用CNNF 模型訓練面部表情信號,采用CNN模型和CNN模型訓練EEG 和皮膚電反應(galvanic skin response,GSR)信號,加權單元分別計算CNN模型和CNN模型輸出的化合價和加權和,然后將結果送到距離計算器計算情感距離,并與CNN模型得到的面部識別結果一起送到決策樹進行決策融合得到情感類別。文獻[91]提出一種多模態情感識別的混合融合方法,采用潛在空間特征級融合方法,保持各模式之間的統計相關性,尋找共同的潛在空間來融合音頻和視頻信號,采用基于DS(Dempster-Shafer)理論的證據融合方法來融合視聽相關空間和文本模態。該方法解決了聲像信息的冗余和沖突的問題,兼顧了特征級和決策級的融合,但存在DS 融合方法的證據沖突問題。
隨著計算機處理能力的不斷提升,深度學習網絡及融合算法的不斷改進,基于多模態的數據的表情識別將得到快速的發展,本文通過總結基于單一模態數據的傳統面部表情特征提取方法、基于單一模態的深度學習算法、基于多模態數據的表情識別與融合算法,將面臨的挑戰和發展趨勢歸納如下:
(1)人臉圖片的影響因素有很多,如角度旋轉、遮擋、模糊、光線、分辨率、頭部姿勢、個體屬性差別等,這些數據的處理技術不成熟,影響表情識別的進展。
(2)基于多模態的數據集偏少,大部分數據集大多是由視覺、文本、語音等模態的數據組成,姿勢、腦電波及其他生理信號等模態的數據少。
(3)數據集中的數據分布不均衡,常見的高興、傷心的表情多且容易識別,憤怒、蔑視等表情少且難捕獲。
(4)現有的模態融合技術往往沒有深入挖掘模態之間的相關性,以提高表情識別的準確性。
(5)算法大多十分復雜,在多模態數據分析過程中,如果選用的模態過多,則融合的算法就十分復雜,如果選太少,可能無法提高識別準確率。
(6)基于單模態數據的處理方法及各模態間的融合算法的選擇是影響識別準確率的關鍵因素之一。各個步驟算法的選擇都很重要。
針對上述觀點,今后可以在如下幾個方面做進一步的研究。
(1)構建更多自然環境下高質量的表情數據集或3D 人臉表情數據集,進一步解決角度旋轉、遮擋、光線、頭部姿勢及個體屬性差異等復雜情況下的表情識別準確率不高的問題。如:加入智能傳感器用于解決諸如照明變化、主體依賴和頭部姿勢等重大挑戰。
(2)構建基于含姿勢、腦電波及其他生理信號等模態的多模態數據集,并研究多模態之間的模態相關性,以提高模型的泛化能力。
(3)未來與來自三維人臉模型、神經科學、認知科學、紅外圖像和生理數據的深度信息相結合,可以成為一個很好的未來研究方向。
(4)改進現有的表情識別技術,利用GAN 網絡提高表情數據增強,解決表情數據量不平衡的問題。
(5)如何確定自然欺騙性面部表情的正確情緒狀態也是未來研究方面,隨著微表情在心理學領域的發展,可將現有的技術應用于微表情的提取,制作微表情方面的數據集。
(6)改進模態融合時的權值問題,對不同環境下,給不同模態不同的權值分配也是模態融合重點研究方向之一。
(7)為了讓機器更全面、更有效地感知周圍的世界,需要賦予它理解、推理和融合多模態信息的能力,如語音、圖像、氣味和生理信號等。利用多模態融合特征提高跨媒體分析的性能,如視頻分類、事件檢測、情感分析、跨模態翻譯等也是研究方向之一。同時,多模態信息融合所產生的特征冗余、缺少關鍵特征等問題仍有待解決。
(8)基于多模態數據和深度學習網絡的表情識別技術需要大量的優質數據集及計算力,如何將復雜的基于多模態數據的算法部署在計算資源有限的機器人終端上,研究如何對神經網絡進行剪枝及輕量化,也是未來的研究方向之一。
本文對現有的面部表情識別領域的研究成果進行總結,歸納出基于單模態數據集和傳統機器學習的表情識別技術、基于單模態數據集和深度學習的表情識別技術、基于多模態數據集表情識別技術及模態融合技術等領域的成果,概要地介紹了多模態數據庫。最后,對當前表情識別存在的問題與挑戰進行總結和展望,指出后續表情識別的一些研究方向,如非正面人臉表情識別、微表情、多模態情感分析、輕量級神經網絡等。