顏文靖,蔣柯,傅小蘭
(1.溫州醫科大學 精神醫學學院 浙江省阿爾茨海默病研究重點實驗室, 浙江 溫州 325015; 2.中國科學院心理研究所 腦與認知科學國家重點實驗室, 北京 100101; 3.中國科學院大學 心理學系, 北京 100049)
如果機器能夠像人類一樣,通過識別表情來了解他人的情緒狀態,會是件多么美妙的事情。為實現這個美好的愿望,幾十年來心理學與計算機科學等領域的研究者付出了巨大的努力,構建理論、采集數據和研發算法,推動自動表情識別研究不斷取得新進展。心理學在為自動表情識別提供思路和啟發的同時,其情緒心理學分支也得以蓬勃發展,并影響著自動表情識別的未來發展方向。我們前期圍繞情緒的相關問題(尤其是微表情),在心理學和計算機科學等學科交叉領域開展工作,考察了情緒與表情的關系、微表情的行為特點,構建了3個微表情數據庫和一個偽裝表情數據庫,研發微表情和偽裝表情自動識別與檢測算法等。
雖然自動表情識別已經取得了重大進展,但是依然存在著一些問題,導致實際應用中存在困難。我們在研究過程中也產生了有關情緒的面部表達及數據標注等方面的困惑,并進行了反思。本文基于心理學視角,首先系統地梳理自動表情識別的心理學基礎、情緒的面部表達方式、表情數據的演化、表情樣本的標注方法等方面的理論觀點與實踐進展,然后分析指出自動表情識別面臨的主要問題,最后基于心理學的建構論,提出在人際交互過程中進行表情“理解”有望進一步提高自動表情識別的有效性,并預期這可能是自動表情識別研究的未來發展方向。本文是一篇從心理學視角下思考自動表情識別的理論性文章,而非綜述性或實證性文章。主要梳理表情識別的心理學基礎、情緒的面部表達方式、表情數據的演化、表情樣本的標注等方面的理論觀點與實踐進展,對計算機識別出的“情緒”進行心理學視角的思考。
情緒心理學中兩大流派——基本情緒理論(basic e-motion theory)和維度論(dimension approach) 幾乎是所有自動表情識別的心理學基礎。其中基本情緒理論處于主流地位,因為它有清晰的理論框架,結構化的系統,且與人們的常識體驗相吻合。
早在1872年,達爾文在《人類與動物的表情》一書中對表情進行了分類[1]。20世紀60至70年代,Ekman[2-3]總結了基本情緒具有的11個特點,包括特定的普遍性信號(distinctive universal signal)、靈長類動物共有 (present in other primates)、特定的生理反應 (distinctive physiological response)、特定的普遍誘發事件 (distinctive universals in antecedent events)、一致的情緒性反應(coherence among emotional response)、特定的主觀感受(distinctive subjective feeling)等。Ekman等認為,人類擁有幾類基本情緒,諸如高興、悲傷、厭惡、憤怒、驚訝、恐懼等;這幾類基本情緒是離散的、相互獨立的;每類情緒都有其特定的主觀體驗、生理反應與行為表現[2](見圖1);基本情緒能夠被全人類識別。以這些觀點為核心的理論被稱為基本情緒理論。自動表情識別領域中的工作大多數是根據基本情緒理論進行情緒分類的[4]。

圖1 基本情緒對應的原型表情示例(模特為本文第一作者)Fig.1 An example of the prototypical facial expressions corresponding to the basic emotion theory (the model is the first author of this paper)
基本情緒理論認為每種情緒都是一個整體。例如,高興意味著我們內心有愉悅的體驗,身體上有心跳加速等生理活動,并可能還有對應的外顯動作,如手舞足蹈、眉飛色舞等。這是一個封裝好的系統,一旦觸動某種情緒則會引發一系列完整、特定的反應[3,5]。基本情緒理論順應了人類認識活動的一般趨勢:對紛繁復雜的事物進行分析,形成清晰的、結構化的知識體系。使用這些簡潔的類別標簽,我們可以把復雜的情緒過程與性格特征歸屬為簡單的類別,這不僅與多數人的生活體驗相契合,也便于人們理解這些心理現象并進行溝通交流,同時也為機器自動表情識別提供了一個結構化的理論框架。
根據基本情緒理論,不同的情緒類型是離散的,相互獨立的,有特定的誘發原因、主觀體驗、生理喚醒和行為反應,那么主觀的情緒體驗一定會反映在生理與行為上,即個體會表達出可觀測的信號以區分內在的情緒體驗,內在情緒體驗與外在信號的關系是有效的(valid)、特異的(specific)和普遍的(generalized)。所以,通過提取面部動作[6]、肢體動作[7]、語言內容[8]、音頻信號[9]、外周生理變化(如心率、血壓、皮膚電)[10],和中樞神經變化(如腦電波、血氧消耗)[11]等特征,研究者就可以推測個體內在的主觀情緒體驗。
情緒的維度論由來已久。一個經典的情緒維度論定義是:可伴隨特定生理活動的正性或負性體驗[12]。維度取向曾經一度占據著情緒理論的主流。早在19世紀末,“心理學之父”馮特就認為情緒是可以通過愉快-不愉快、激動-平靜、緊張-松弛3個維度來描述的。Osgood[13]通過研究發現,個體在對各種刺激進行判斷時,都會關注其在價值、活力和力量這3個因素上的語義差別,而這些語義差別因素在本質上是情感性的,是對刺激進行分類的基礎。Mehrabian等[14]提出了情緒狀態的“愉悅度-喚醒度-支配度”三維度模型(pleasantness-arousal-dominance,PAD)。在對 PAD模型的深入研究中,Russell[15]發現,情緒的支配度更多地與其認知活動有關,愉悅和喚醒兩個維度就可以解釋絕大部分情緒變異。2008年,國內引入了PAD情緒量表,它可以從愉悅度、激活度和優勢度上評定心境或情緒狀態[16]。Watson等[17]采取自陳式情緒研究方法,提出積極-消極情感模型(PANA),他們認為積極情感(positive affect,PA)和消極情感(negative affect,NA)是兩個相對獨立的、基本的維度。
如果使用情緒維度來標注表情樣本,并不需要給出一個明確的情緒類別標簽;情感的維度模型似乎可以在連續的尺度上對每種情緒強度的微小變化進行編碼。也有很多學者試圖將維度論和基本情緒理論結合,將基本表情放在兩三個維度形成的坐標系中的合適位置,如情緒的環形模型(circumplex model of affect)[15]。不過,每一種情緒都是非常復雜的,雖然我們可以用幾個維度來表達某種情緒的主要特點,但卻無法充分地解釋或理解這種情緒。
顯然,6種基本情緒似乎不足以涵蓋我們復雜多樣的情緒與對應的表情表達,而且人類擅長偽裝,表情與情緒有時并不能很好地對應。此外,表情還受到特定社會文化條件下的展示規則(display rule)的影響。因此,除了研究基本表情類別,許多研究者也開始關注微表情、復雜表情和結合其他線索的表情。
基本情緒理論把情緒分成幾個基本類別,諸如:高興、悲傷、驚訝、恐懼、厭惡、憤怒等[2]。這6種基本情緒似乎是涇渭分明的,且適用于所有人。但是,科學研究和實踐應用都表明,依靠6種基本情緒的分類方式無法涵蓋和解釋復雜的情緒現象。
最近Daniel Cordaro和Dacher Keltner(兩人都曾是Ekman的學生)等[18-19]進行了一系列跨文化研究,擴展了基本情緒的清單。他們使用情緒編碼范式,系統地分析來自5種不同文化背景個體的22種情緒表現,提出了情緒的國際核心模式(international core patterns, ICPs),即,在不同文化中存在著22種普遍的面部情緒表達規律,而同時也會受到文化的一些影響。除了最初的6種情緒外,這些研究還提供了在面部和聲音表達中出現的情緒如娛樂、敬畏、滿足、欲望、尷尬、痛苦、解脫和同情等情緒的證據。表情類型增加到20多個,對表情數據庫的建立以及自動表情識別的準確率都提出了新的挑戰。
微表情是人們隱藏或抑制自己的真實情緒時出現非常迅速泄露的面部動作[20-22]。研究者以時長(根據微表情快速的特點)對微表情進行操作性定義。現在越來越多的研究者將小于500 ms的表情定義為微表情[22]。微表情已成為自動表情識別研究的新熱點,因為人們普遍認為微表情泄露了個體的真實表情,能夠反映其真實情緒。
早在《人類與動物的表情》一書中,達爾文就開始關注難以抑制的情緒表達[1,23]。弗洛伊德也提出人們的情緒都會以某種形式表達出來[24]。Haggard等[24]在尋找治療師和病人之間的非言語交流特征、觀察心理治療動態圖片時,發現了一種“微小瞬間表情(micro-momentary facial expressions)”,并認為其與壓抑和自我防御機制有關。神經心理學的研究發現,自主表情和非自主表情分別受錐體束(pyramidal tract)和外錐體束(extrapyramidal tract)控制[25]。因此,Ekman 等[21,26]假設微表情是自主表情和非自主表情之間對抗的產物。
我們前期在實驗室里,通過誘發被試(心理學實驗參與者)的情緒(非自主的),同時要求其偽裝自己的表情(自主的),探索微表情的誘發方法和出現條件[22]。我們基于收集的數據,擬合不同條件下微表情表達的特點,描述了自然誘發的微表情的時間和空間特征。結合前人的研究與假設,我們總結了微表情的表達機制,提出微表情既可能是個體在自主抑制其情緒表達時真實情緒的泄露,也可能是個體在正常表達真實表情后因主動抑制而終止的真實情緒表達(見圖2)。至于微表情識別方面的研究,不是本文的關注點,感興趣的讀者可以查閱已經發表的綜述性文章。

圖2 微表情的產生機制Fig.2 The production mechanism of micro-expressions
一些學者關注“復雜表情”,以期能更好地解釋“不太標準”的表情。一篇發表在PNAS上的頗有影響力的文章對復雜表情的定義是:復雜表情是由基本表情組合而成的[27]。實驗者要求參與者學習原型表情,并且努力擺出原型表情的組合,然后篩選出可以明確識別表情的圖片。在此基礎上,研究者對這些復雜表情的類別進行分類,得到了較高的準確率,認為該實驗證明了22種情緒類別的表達和識別是一致的。
Li等[28]從社交網絡中收集了表情圖片,招募315名參與者對數以萬計的圖片進行標注,篩選出多標簽的表情圖片,建立了一個復雜表情數據庫RAF-ML。該數據庫的標注采用的是6種基本情緒的標簽。如果某個標簽的選擇人數超過20%,則標定為存在該種情緒;如果有2個以上的標簽有20%人選擇,則定義為多標簽(復雜)情緒。這個研究使用的是復雜表情的“操作性定義”。
值得一提的是,雖然關于復雜情緒與表情的研究工作大多是在基本情緒理論框架下開展的,但是該理論的領袖人物Ekman早期并不認同“復雜情緒”這個概念。Ekman[2]認為在生理反應與行為表達上缺乏存在復雜表情的證據。在他看來,所謂復雜的情緒只是多個基本表情的序列呈現,是混合(mixed)而非融合(blend)。
在過去的20年里,對情緒識別的研究已經超越了對6種情緒的靜態描述,開啟了一種多模態的、動態的行為模式,涉及面部動作、發聲、身體運動、凝視、手勢、頭部運動、觸摸,甚至氣味[29]的描述情緒表達的方式。例如,凝視模式和頭部動作與尷尬[30]、自豪[31]和敬畏[32]的體驗,以及相應的表達信號交織在一起。Keltner等[33]認為,當考慮到不同的模態時,我們就應該認可存在24種情緒狀態的獨特表達。
既然情緒表達是多方面的,那么在表情提供的信息不充分的情況下,就可以加入其他通道的信息,如肢體動作、皮膚溫度、語言內容、語氣語調、外周生理信號和中樞神經活動等。理論上而言,多模態信息互相補充可以得到更加完整的、更加確定的信號,因此應能獲得更好的情緒識別結果,而很多實證研究也證明了這一點。如果多模態信息能夠讓我們更準確地識別情緒,那么,對機器來說,只要能獲得足夠的多模態數據,就能夠通過深度學習,建立良好的情緒預測模型。
從最初的6種基本表情到更多類型的表情,從擺拍表情到自然表情,從實驗室場景中的表情到自然場景(in-the-wild)中的表情,從靜態表情圖片到動態表情視頻,從表情的單一面部動作模式到表情的多模態信息,從小樣本到大樣本,表情數據庫的建設取得了巨大的進展,這是情緒心理學家和情感計算科學家共同努力的結果。
研究者提升機器識別人類情緒的準確性的工作主要集中在基于表情數據庫訓練出一個計算快速的、魯棒性高的模型[34-35],努力使機器能夠基于表情準確分類表達者內心情緒的狀態。顯而易見的是,自動表情識別的準確性在很大程度上受制于數據庫中樣本標注的質量。
早期的表情數據庫里大多是擺拍(posed)的原型表情,如 CK+[36]、JAFFE[37]、MUG[38]、RaFD[39]。近年來的表情數據庫更加關注表情樣本的自發性(spontaneous)和自然性。有些研究者通過材料刺激或者做某些任務來實現情緒的誘發,如DISFA[40]、Belfast Database[41]、MMI[42]、Multi-PIE[43]等。
構建微表情數據庫也同樣經歷了從擺拍表情到自然誘發表情的過程[44]。我們過去所做的微表情數據庫,就是在實驗室里,采用情緒性視頻作為誘發材料,通過讓參與者觀看視頻來激發參與者的情緒和表情。為了更好地記錄被試情緒激發點,又不干擾其情緒體驗,我們要求被試在有情緒反應時進行按鍵操作,以便于在編碼時過濾無情緒意義的面部動作。在觀看情緒視頻結束后,收集被試情緒體驗的主觀報告(見圖3)。整理編碼之后,構建了CASME系列數據庫[45-47]。使用類似的方法,我們也構建了偽裝表情數據庫MFED[48]。當然我們也明確地意識到,這些在實驗室里誘發出的表情樣本依然缺乏生態效度。

圖3 微表情誘發范式流程Fig.3 The elicitation approach for micro-expressions
既然實驗室樣本的生態效度不夠,那么就有必要高度關注現實場景(in-the-wild)中的自然表情。與在實驗室里誘發得到的表情相比,現實場景中的自然表情在光照、臉部姿勢、尺寸和面部遮擋等方面都有很大的變化,因此對其分類更具挑戰性,但在實際應用中也更為重要。當前很多數據庫從網上(如網頁、社交媒體、視頻等)抓取大量的表情圖片,并假設它們是相對自然的(不過這些圖片中仍有不少是擺拍的),如EmotioNet[49]、AffectNet[34]、RAF-DB[50]。自 2013 年以來,FER2013和 Emotion Recognition in the Wild(EmotiW)[51-52]等情感識別競賽基于真實世界場景中收集的相對充足的訓練數據,這也促進了自動表情識別從實驗室場景到自然環境的過渡。
在現實世界中,人們的表情是一個動態的過程。一個完整的表情可區分為啟動階段(onset phase)、高峰階段(apex phase)和恢復階段(offset phase)。而靜態表情圖片僅僅展示了高峰階段的一瞬間。
在基于靜態表情圖片的自動表情識別方法中,特征表示只用當前單一圖像的空間信息進行編碼,而在基于動態表情視頻的識別方法中,則會考慮輸入表情序列中連續幀之間的時間關系。對序列(視頻)數據進行識別已經成為一種趨勢。Li等[6]總結了不同類型的方法在動態數據上的相對優勢,包括代表空間和時間信息的能力、對訓練數據大小和幀數的要求(可變或固定)、計算效率和性能。心理學的研究也證明,動態表情能夠提供更多的有效信息,包括區分真實與偽裝的表情[53]。例如,真實笑容的時長一般是在500~4 000 ms,而偽裝笑容的時長則可能過長或過短[54];與非真實笑容相比,真實笑容的啟動時長和恢復時長都更長[55-56]。
人類在現實應用中的情緒表達涉及到不同的通道,而面部表情只是其中一種。所以,越來越多的多模態表情數據庫被建構出來,如EU Emotion Stimulus[57]、BAUM-1[58]、AFEW[51]。其中,最常見的是表情與聲音結合的多模態數據庫。例如,AFEW數據庫包含了從不同電影中收集的視頻片段,這些視頻片段具有自發的表情、各種頭部姿勢、遮擋和照明,有時間和多模態信息,提供了不同環境條件下音頻和視頻方面的樣本。多模態情感分析往往通過處理這些不同的模態來分析人類對某一事物的觀點(通常區分為積極的或消極的)[59]。
在實驗室里誘發個體的情緒進而采集表情樣本并進行標注,是一種效率較低的構建表情數據庫的方法,但具有較高的效度,可以較為明確地區分情緒類型。這些數據庫中模特的數量往往在幾十到幾百人之間。
為了滿足深度學習的大數據需求,很多研究者從網上抓取圖片與視頻作為樣本。這些樣本往往無法確定當事人自身的主觀體驗,而只能使用觀察者的他人主觀標注。典型的數據庫是EmotioNet[49],包含了百萬圖像。值得注意的是,盡管這個表情數據集規模非常大,但它并非完全由人工標注,而是通過半自動的方式標注的,所以可能存在很多噪聲。另一個百萬級別的表情數據庫AffectNet[34],是用6種不同語言和1 250個與情緒相關的關鍵詞在3個網絡引擎上進行收集的,并進行了情緒類別和維度(效價和喚醒度)的標注。
目前,監督學習依然是情緒識別建模中最常用的方法。這需要為可觀察到的外在行為與生理信號提供其情緒標注(即ground-truth)。研究者基于不同的理論和不同的技術對表情樣本進行標注,有基于基本情緒理論或維度論的,有基于主觀或客觀,也有基于行為或生理的。不同的標注取向各有優缺點,也決定了機器最后的輸出結果。主流的標注方式來自基本情緒理論對基本情緒的劃分,諸如高興、驚訝、厭惡、悲傷、憤怒、恐懼等。一些研究者會使用一些變式或者更多的情緒類型。而另一些研究者會(往往是同時)使用情感維度來標注,如愉悅度、喚醒度和優勢度。研究者們給行為或者生理信號標注情緒的方法既有主觀的也有客觀的。
體驗者的自我報告是目前最具有分辨力的情緒測量方法[60],因為情緒本質上是一種主觀體驗。其操作過程一般是先誘發出當事人的某種情緒體驗,然后要求體驗者描述自己的情緒。例如,研究者用一個刺激物來喚起當事人的情緒,如情緒性的圖片、視頻,或者對某一事件的描述,如“你的表哥剛剛去世,你感到非常悲傷”[19]。但對大多數人來說,描述自己的主觀情緒體驗并非一件容易的事。這需要體驗者具有較好的情緒感受能力,愿意且能夠表達出自己的情緒體驗。另外,個體在關注自己的情緒時往往會影響自己的情緒體驗[61]。因此,除了要求參與者描述他們的感受外,更常用的方法是要求參與者從一組情緒形容詞中選擇自己當時體驗到的情緒并對情緒進行評分[22,47];有時候還使用事后回溯的方式[62]。雖然詞表可能有很多候選詞,但是研究者最終往往會將候選詞簡化為若干種“基本情緒”。參與者所體驗到的情緒,都可以被歸類于基本情緒中的某一個“家族”,例如,高興包含了興奮、滿足、愉快、舒適等一系列的積極情緒體驗。
許多表情數據(如從網上抓取圖片與視頻)并沒有當事人主觀體驗的任何信息,所以研究者只能使用觀察者的他人主觀標注,即要求觀察者在觀看相關表情材料后,判斷該材料對應的情緒類型。觀察者主觀標注的大部分材料是非實驗室場景下拍攝的。由于這些表情往往不那么“標準”,使得基于面部動作(AU)組合來判斷表情的方法難以實現。因此研究者會通過“眾包”的方法,讓一定數量的觀察者為每一張圖片進行情緒類型的標注從而達到一定程度的“標準化”。這種方法蘊涵的假設是:情緒識別在人類中是普遍的,具有跨文化的一致性;人的判斷是可靠的、特異的和具有普遍性的;表情的表達者(編碼者)與接收者(解碼者)之間的信息溝通是通暢的。近期有一些表情數據庫就是用這種方法進行標注的,如RAF-ML[28]、AffectNet[34]。
除了主觀標注的方式外,有研究者還采用一些客觀標準來標注情緒。最常見的做法是事先定義一些情緒的動作單元(AU)組合。這種情緒-表情關系表一般參照FACS(facial action coding system)研究手冊[47]或者由研究者自己設定。FACS是一個基于解剖學的描述面部動作的工具,用于描述所有視覺上可識別的面部運動。該系統由Paul Ekman和Wallace V.Friesen于1978年創立,由Ekman, Friesen和Joseph C.Hager于2002年予以更新[63]。他們根據面部肌肉的解剖學特點及其外部表現特點,將面部動作劃分成幾十個相對獨立的動作單元(action unit, AU)。AU表現為一個或多個面部肌肉的收縮或放松,例如皺眉、抿嘴等。FACS可以對面部各種動作的位置、形態、強度和時長進行相對客觀地標記,是目前最常用的描述面部動作的編碼工具。
進行FACS編碼十分耗時,尤其是對視頻進行逐幀編碼的時候需要耗費大量時間成本。所以,許多研究者努力研發基于計算機的自動編碼系統[64-66]。2020年EmotioNet挑戰賽中,有研究者通過100萬張圖像訓練了非剛性的面部肌肉運動(主要是前17個AU)和剛性的頭部運動(最后6個AU)的FACS編碼算法。他們將AU識別問題作為一個多任務學習問題,前17個AU準確率為94.9%,精確性和召回率的綜合指標(稱為F1,范圍從0到1)在驗證集中達到0.746,在挑戰賽的測試集中也達到了0.730 6的最終成績[67]。
我們的研究結果也顯示,基于AU的標注方法結構化水平很高,完全以表面形態(幾何特征、紋理特征)為基礎,這種方法非常“適合”計算機視覺和模式識別技術。所以,許多數據庫也選擇基于AU組合來做情緒標注,并獲得了令人滿意的效果,如Emotionet[49]。在情緒標注過程中,有些數據庫的開發人員基于AU組合的同時,也盡可能地考慮主觀報告與視頻的內容[46-47]。但是,標注準確性依然會受到情緒體驗與表情之間的一致性水平的約束,因為只有提供了一致的表面形態標準,計算機才可以對表情特征做很好的分類。
非擺拍條件下的表情照片中,符合原型表情的動作組合較少,所以基于原型表情模板進行情緒類型的標注比較困難。而基于FACS提供的“核心AU”分析也很難確認某個表情的情緒類別。而根據情感維度模型,則沒有必要假設獨立的離散的情緒類型。這種觀點認為,少量的兩極維度可以作為情感體驗和情感識別的基本構件[15]。這也是為什么許多非擺拍的樣本也標注了維度,如AFEW-VA[68],AffectNet[34]。
從愉快到不愉快的效價(Valence)維度在定義情緒體驗和表達方面至關重要。這一維度能夠被人類自動地、快速地識別出來,而且具有普遍性[69]。畢竟,積極和消極的情感狀態位于情感空間的相反位置,它們以一種非常不同的方式被傳達[69]。所以,效價似乎是非常容易標注的,而喚醒度(Arousal)的標注比較困難。例如,哭泣是喚醒程度低的情緒嗎?生悶氣的喚醒程度是否比哭泣高呢,高多少呢?而且,在較低的效價和喚醒度狀態下,人們哪怕有情緒體驗,也往往面無表情。
在實踐中,從數據的標注到計算機的識別,我們常常會遇到一些困難。在數據標注過程中,我們很難確定這些表情是否確切地反映了某種情緒。雖然在數據采集過程中,我們收集了主觀評價、評估了視頻的情緒特點并進行了面部動作編碼,但是卻發現主觀評估與面部動作有時并不匹配(基于基本情緒理論的觀點應該是匹配的)。而且,我們還發現巨大的個體差異,例如,有些人看到惡心的內容會表現出大笑,但是這個大笑并不等于“高興”,然而當事人又說不清是什么情緒。于是,雖然基于數據庫的自動表情識別準確率非常高,但是在現實生活情景中的識別準確率往往不是很高,難以應用于實踐。
我們前期在微表情數據庫的構建以及微表情分析等領域做了一些頗有成效的工作,但也發現情緒與表情的一致性并沒有理論預期得那么高。同時,大量研究也表明,人的內在情緒體驗和外在表情、生理信號之間的相關性較低。
Durán等[70]進行了一項薈萃分析(元分析),其包含了37篇關于情緒體驗與原型表情之間關系的研究。研究通過計算相關系數,來確定一種情緒與所設定表達之間的一致性程度(見表1)。薈萃分析的結果顯示,高興與典型笑容的總體相關系數是0.40(95%的置信區間為0.31~0.49)。如果我們把高興(Happiness)和好玩(Amusement)看作是兩種相互獨立的情緒,那么與微笑相關的總體估計值是:快樂為0.27[0.16, 0.39],好玩為0.52[0.43, 0.62]。而參與者在高興時出現典型笑容的概率是0.41[0.08, 0.73]。如果把高興和好玩分開考慮,則高興的概率為0.12[0.06, 0.18],好玩的概率為0.47[0.09, 0.84]。

表1 情緒與原型表情表達關系的元分析結果(Duran,2017)Table 1 The meta-analysis for the relationship between felt emotions and prototypical facial expressions
在所有測試的情緒類別中,除了恐懼之外,其他情緒與原型表情的相關系數均高于隨機水平。然而,高于隨機水平并不能說明特定情緒可以對應到特定表情。實際上,它們之間的相關性很弱。進一步的薈萃分析[71]考察了來自76項研究的131個效應大小,共計4 487名參與者,也獲得了類似的結果:原型表情與憤怒、厭惡、恐懼、快樂、悲傷或驚訝情緒的測量之間的總體相關系數為0.31(弱相關),在情緒事件中觀察到對應的標準面部動作的平均概率是0.22。
以上這些研究結果表明,人們其實很難根據他人的面部動作有效地預測其內在情緒狀態。從生活經驗的角度看,這個結果并不意外。我們以“恐懼”情緒為例,面對潛在的危險,人和動物都可能產生所謂的Freeze(呆若木雞)、Fight(狗急跳墻)、Flight(逃之夭夭)等多種反應模式。在主觀體驗、生理喚醒和行為表現等方面,個體的表達方式千差萬別,而在許多研究中都只用單一的恐懼反應來描述它們。然而,有研究表明這些恐懼情緒的行為表達所對應的神經環路也不同,不應該被歸為同一類型[61]。
Barrett等[72]指出了基本情緒理論相關研究中的3個關鍵缺陷:1)可靠性(reliability)有限,即同一情緒類別的實例既不能通過一套共同的面部動作可靠地表達,也不能從一套面部動作去推論個體的情緒;2)缺乏特異性(specificity),即不同的面部動作和對應的情緒類別之間沒有獨特的映射關系,即被標注為微笑的識別標簽,并不一定是高興的表情,皺眉也不一定是憤怒的表情;3)有限的普遍性(generalization),即沒有充分的證據表明情緒表達的跨文化一致性。由于先前的跨文化證據往往存在方法上的缺陷,而這些缺陷導致了一種普遍的誤解,即對情緒與面部動作之間關聯性的誤解,這一誤解又進一步限制了這一證據在其他用途中的轉化。Barrett等[73]的總體結論是明確的:“從一個微笑中推斷出快樂,從一個皺眉中推斷出憤怒,或從一個皺眉中推斷出悲傷,這樣的推斷是不可能具有足夠信心的;而目前的許多技術正在運用這些錯誤的推斷,并且這些錯誤的推斷往往被認為是科學事實”。
表情與真實情緒體驗的一致性不高,會導致人工標注的有效性受到質疑。
如前所述,許多表情數據庫的編碼是基于行為的客觀標注,即基于情緒-表情對應表。雖然FACS提供了一個情緒-表情對應表,但是后來的研究者在實際使用中并沒有嚴格地參照。實際上,情緒與AU組合的映射關系哪怕在各個支持基本情緒理論的研究者眼里也沒有達成一致[19,63]。而如今,越來越多的研究發現情緒與表情的相關性不高,這意味著基于AU確定表情的情緒類型可能是不準確的。而且,各數據庫的標注標準差異也非常大。以悲傷為例,有的認為是4+15[49],有的則認為應該是1+4+15或11或6+15[74]。
另一些表情數據庫是根據觀察者的判斷進行標注的。之所以這樣做,是基于下述(基本情緒理論的)假設:人的判斷是可靠的、特異的和具有普遍性的;表情的表達者(編碼者)與接收者(解碼者)之間的信息溝通是通暢的。但是,該假設可能并不成立。例如,越來越多的研究表明,當人們推斷面部結構中的情感含義時,背景是一個重要的、有時甚至是主導性的信息來源[75-76]。這個背景信息可以是觀察者的狀態、事件的前因后果、表達者所處的場景等[77]。也就是說人們是基于多方面的信息去理解對方的情緒,而不僅僅是根據個體的表情。這時候的情緒標簽,很難保證反映了圖片中個體的內在情緒體驗。此外,觀察者主觀標注的方法還存在一個統計上的悖論。基本情緒理論通過高于隨機水平的“表情識別能力”來證明基本情緒的存在,并以此標注“正確答案”。但是,人們的識別能力存在著個體差異且經常會存在“識別錯誤”,如混淆憤怒與厭惡、驚訝與恐懼等情況,因此單純靠人的主觀判斷似乎是不可靠的。一群普通人進行情緒評估得到的“平均答案”作為“標準答案”來訓練計算機,其結果也只是計算機的情緒識別水平會更接近“平均水平”。
主觀報告似乎是情緒標注的一個可靠方式。一些數據庫的開發人員基于AU組合的同時,也盡可能地考慮主觀報告與視頻的內容,如[46-47]。但是,基于體驗者主觀標注的方法存在兩個問題,一是個體很難準確地描述自己的情緒體驗。情緒的變異性過大導致難以被收斂到簡單的標簽;二是參與者被迫用幾個預置設定的情緒詞來表征自己的真實情緒,這種“迫選”式的設定可能會歪曲當事人的真實情緒體驗[72,78]。而且,標注準確性依然會受到情緒體驗與表情之間的一致性水平的約束——只有提供了一致的表面形態標準,機器才可以對表情特征做很好的分類。
如果采用的是維度標注方法,也需要關注下述兩個問題:第一,效價與喚醒度的評分本身沒有標準,主觀性非常強。每個材料的標注可能都只是由一個人或者兩個人來完成的[34,68],重測信度較低[41,79]。另外,標注很大程度上基于情緒體驗者的外部表現,而表情難以反映其內心的情緒,或內心的情緒常常不會反映在外部。例如,一般認為悲傷情緒可能會被認為處在低效價和低喚醒度象限里,但是當我們能夠看到一個人明顯的悲傷表情時,往往意味著此時他(她)的情緒體驗激烈,喚醒度可能很高。又如,喚醒水平低且效價較高時,人往往是處于舒適滿足的狀態,這個時候大部分情緒體驗者是面無表情的。這也許解釋了為什么在AFEW-VA數據庫中低效價象限中樣本很少。第二,效價和喚醒兩個維度構成的環形模型[15]并不能解釋大多數具體的情緒事件。Russell[78]也認為情感維度模型并沒有對典型的情緒事件提供足夠豐富的解釋。例如,該模型未能充分解釋恐懼、嫉妒、憤怒和羞愧有什么差異,也無法解釋觀察者是如何區分它們的。近年來,建構論的觀點認為,效價與喚醒兩個核心要素僅僅是情緒的組成部分,還需要對自身、環境等信息的整合,才能形成特定的情緒。Russell[78]的比喻是:星座是最后賦予的意義解釋,而其中的星星只是各個成分。所以,就算機器能夠計算出某個人某時某刻的效價與喚醒度,也不能輸出一個人們能夠理解的“情緒”結果。此外,還存在一個更加具有挑戰性的質疑:評分者基于外部反應的主觀標注(效價與喚醒度)本身也可能是不準確的。
當我們嘗試用一個標簽代表一類情緒或表情時,會遇到一些困難。
例如,在實驗室誘發笑容(標注為happiness)似乎是非常容易的——給參與者看一些喜劇片的搞笑片段就可以了,但這種大笑并不意味著參與者的內心是愉悅幸福的。我們中了大獎、表白成功、獲得學術獎項或者吃一頓美食時候的愉悅感與幸福感,和觀看視頻產生的“好玩(amusing)”體驗相去甚遠。而且還有不少研究者發現,人們在體驗到幸福快樂的時候并不一定會笑,而是在跟其他人進行交互的時候才會頻繁地笑[5]。更有甚者,有些被試看到惡心的內容會表現出大笑。
再如,以觀看恐怖片時誘發情緒過程為例。雖然我們知道電影中的場景非常可怕,但也知道自己是安全的,所以很多人樂于體驗那種刺激的“愉悅感”。當出現某些恐怖場景時,我們會選擇一種回避的狀態,但是這種回避只是瞇著眼睛或者轉過頭去。如果在森林里遇到危險物(如老虎之類的野獸),我們可能會嚇得僵直,或者睜大眼睛尋找逃跑的路,或者張大嘴巴發出驚叫以尋求幫助或嚇退對象。這些反應都是根據當時情境做出的適應性反應[69]。對比看恐怖片和身處真實的危險場景這兩種情況,雖然我們把其中的情緒體驗都叫做恐懼,但實際上無論是主觀體驗還是行為反應都截然不同,似乎不應該歸為同一類。
這意味著,情緒與表情的一致性可能沒那么高,個體的主觀報告沒有那么清晰準確,而觀察者也很難基于其表現確認其真實的情緒體驗。例如,我們見到他人打招呼時,往往會伴隨著微笑,目的是讓別人覺得“見到你很高興”,而非真實的主觀高興的情緒體驗;而這時如果讓機器進行識別,機器會將這種表現識別為“高興”,但不一定能反映人們內心的真實狀態。又例如,一些運動員在戰勝對手時,狂喜中卻出現十分“痛苦”的表情[75],機器可能會將其識別為“悲傷”或者“厭惡”;許多抑郁癥患者同樣會面帶微笑[80],但是內心往往是不快樂的。于是,在基本情緒理論基礎上的自動表情識別系統會出現生態效度較低的問題,即,雖然基于數據庫的表情識別準確率非常高,但是在現實生活情景中的應用價值卻很有限。
以上問題表明,情緒與表情的關系很復雜,表情樣本數據的效度比較低,自動表情識別仍然面臨巨大的挑戰。一方面,現實中的大部分人的表情不是以原型表情的形式出現,甚至與這些原型表情根本不相似。于是,基于刻板的表情模板去識別現實情景中的表情幾乎不可能。另一方面,人類會根據現實情景和自己的經驗來理解他人的情緒,而不太依賴于面部肌肉、皮膚的形狀與紋理來做判斷,即不太會受到“長什么樣”的干擾。也就是說,人對他人情緒的識別是“格式塔式的(gestalt)”而不是“刻板分類的”——人類的情緒識別方式與機器的識別方式相去甚遠。未來工作中,我們可能需要明確表情識別的目標,以及嘗試從基于預測加工理論的建構論觀點來理解情緒。
自動表情識別的目標是準確識別他人的情緒類型,還是努力理解人類的情緒并學習人類的情緒識別方式?
如果是前者,則識別任務的設定必須是基于“表情、語言、生理信號能夠準確反映人的情緒”這一理論假設。如果計算機識別成績能超越人類的識別成績,則表明計算機工作的成績優于常人。如果是后者,工作重點則是理解人類的情緒,并讓計算機盡可能模仿人類的情緒識別方式。在這種模式下,不再關注計算機的情緒識別是否比人類更準確,而是計算機的情緒識別是否接近人類識別的成績。例如,張三現在內心很悲傷,但是他笑得很開心的樣子,那么理想的識別模型應該將這個表情識別成悲傷還是高興呢?如果識別為“悲傷”則體現了“察言觀色”的真正目的,即“理解人”的心理活動;如果識別為“高興”,體現為模仿人的目標,即“像大多數人”一樣識別他人的表情。
計算機表情識別的目標選擇與應用場景存在關聯。在一些場景中,我們訓練計算機是為讓它了解人們內心的真實情緒,即所謂“讀懂對方”,例如共情、測謊等任務。而有時候,我們僅僅希望機器能夠像人一樣,能看出對方希望展示的情緒狀態(如打招呼時高興的表情),或者能借助場景與經驗推測對方的情緒。那么,訓練計算機情緒識別時,首先應該考慮應用場景和明確的任務目標。
然而,當前很多研究者并沒有考慮這兩個目標的差異,在情緒識別模型建構時,往往默認情緒識別的目標是努力通過測量外部信號推測人的情緒類型。更具體而言,即是識別并區分幾種有限的基本情緒類型,如高興、悲傷等。這一目標往往事先假設了“外部信號與內部情緒是一致的”。唯有這樣,情緒識別模型才能滿足反向推斷的要求,即,根據外在表現推斷內心情緒[72]。但是,這一假設實際上可能并不成立(見6.1節)。對于第二個目標,即讓機器盡量模仿人,似乎只需要找一群有代表性的普通人,根據情緒詞表來進行情緒類別的標注,即“眾包”(Crowdsourcing)[50]。只要眾包的數據量足夠,似乎機器就能夠像人一樣識別他人的情緒了。然而,這種識別并不是真正模仿了人類的表情識別方式(見6.2節)。
我們分析表情識別的目標,并反思情緒的本質,以及在表情識別領域人工智能的角色和定位。研究發現,無論是情緒的表達還是情緒的識別,都不僅僅是一個“分類”的過程,而是一個建構的過程[81]。按照這種建構取向,情緒本身并不存在“可分類”的信息,或者說這些情緒類型本質上并不存在——情緒類型只是人們在交互過程中的建構。如果情緒本身在概念意義上缺乏足夠的結構性特征,那么,關于情緒的類別化也就沒有充分的標準,進而也無法通過數據庫所提供特征與標注并訓練出一個計算化模型。因此,前述情緒識別的兩個目標都無法實現。
前期的實踐結果顯示,基于基本情緒理論訓練計算機識別系統似乎無法精確地反映人類情緒的本質,也難以在實踐中獲得有價值的應用效果。因此,我們需要更深入地理解人的情緒識別特點。
我們可能很難根據某一瞬間(一張圖片)正確斷定一個人的情緒。多數情緒識別是在交互過程中慢慢確認的,需要不斷地修正原來的判斷[82]。這就是面部表達的行為生態學觀點(behavioral ecology view of facial displays,BECV)。也就是說,一個人對另一個人的表情識別是在持續不斷地交互過程中建構的。對一個人的憤怒表達,有許多解釋的角度,如攻擊的語言內容是指向自己的還是維護自己的(在罵別人)。個體從情緒情景中所感受到的情緒特征,絕不只是用憤怒或者不憤怒這個維度來評價的。接收者可能會考慮情緒表達者是否對自己有惡意、是否在呵護自己等角度來進行“識別”,進而形成不同的情緒體驗,并做出不一樣的行為反應。因此,整個過程的動態性和復雜性只能在持續地建構過程中才能實現。相應地,用簡單的情緒分類來理解情緒并不真正符合日常生活中人們的情緒體驗與行為反應。總之,個體對恐懼、憤怒、喜悅和悲傷等情緒的體驗都是融合了情感表征、身體知覺、對象知覺、評價觀念和行為沖動等內容而形成的整體性體驗。從這個角度來看,情緒并非一個靜態結構,而是一個建構過程。
建構論的觀念最初源自20世紀初的社會學、人類學和社會心理學的社會互動理念,后經皮亞杰、維果斯基等的闡釋與倡導,到20世紀末形成了一股強調社會互動和生成認知,強調動作導向的哲學、社會學和心理學思潮。建構論反對古老的理性主義,強調知識不是人出生時預留在頭腦中的;它也反對經驗主義,認為知識不是物理的或社會的環境給主體的認知碎片組合而成的。建構論認為,知識是主客體互動過程中生成的[83]。按照這樣的觀點,情緒識別不是基于人先天擁有的對“基本情緒”的表達和識別知識;也不是通過條件反射式的經驗學習而獲得的能力。情緒本身——包括表達與識別——是人際互動過程中逐漸生成的體驗。
2013年,Clark[84]提出了一個基于貝葉斯計算和神經科學的預測加工理論(predictive processing)。根據預測加工理論,我們不再需要通過外在的知覺信號或行動去推測個體內在的“本質”狀態,因為那種將個體的外部表現當作其內在狀態表征的觀念早已化作“老生常談”(stale old debates),應該被拋棄了[85]。在預測加工理論的框架中,腦被看作是一個基于貝葉斯概率理論來評估環境信息的計算機。在個體與環境的互動過程中,大腦對互動進程中的先驗概率(prior probability)、預測信號(prediction-signal)、后驗概率(posterior probability)、似然性(likelihood)等進行實時地評估和計算,從而實現最小知覺偏差(minimise prediction error)。通過最小知覺偏差,個體與環境的互動得以維持在適度的平衡范圍內,也就是大腦實現的“最佳猜度”(best guess)。關鍵是,這種最佳猜度是行動導向的(action-oriented),即,是在個體與環境的互動過程中形成和調節的[74]。因此,預測加工理論實際上是一種基于貝葉斯計算的建構論。
從預測加工理論的建構論視角來看,我們不應該努力地做所謂的“情緒分類”,即,不再基于外部的行為與生理指標來推測當事人的內部有哪種情緒狀態;而應該基于個體與他人及情境的互動與建構去做“情緒理解”。唯有這樣,我們在前面陳述的情緒識別所遭遇的諸多困難有可能得以化解。
在日常生活中,如果我們一開始就給他人的反應貼上具體的情緒標簽,那么,很可能會因為情緒標簽的片面性而誤解了對方的情緒,或者因為語言的抽象性而抽離了對方反應的生態意義,使得具身(embody)的情緒體驗變成了一個抽象的情緒識別命題。在現實的交互過程中,情緒體驗是非常具體而鮮活的。人們會在交互過程中不斷地建構、修正對他人情緒的理解。例如,當我看到一個人獨自安靜地坐在角落,可能會先形成一個假設:他現在不高興。基于這個假設,我會進一步預測:如果我現在去和他開玩笑,極有可能會激惹他。這個預測更進一步激發我的下一個假設:在這個情景中我最好不要去打擾他。這個假設將繼續觸發了我對與這個人互動的下一步的預測……;在這個過程中,每一個環節上的假設都會激活下一步的預測,這個預測又進一步成為下一個環節的假設……。對當事人而言,在特定情景中,時刻T的假設-預測鏈必然是以時刻T-1的假設-預測鏈為前提而建構的,而在時刻T-1之前,還有時刻T-2……[86]
同時,從對方的角度來看,那個靜靜坐在角落的人可能原本并沒有特別的情緒,只是安靜地坐在那里。但他覺察到我靠近他,又安靜地離開,他也會形成一系列的假設-預測鏈,例如:這個人平常會與我開玩笑,今天卻表現得很冷漠,也許是他對我有不滿意;也許是因為我之前什么事情令他不高興了……在這樣的假設-預測鏈中,當事人事實上體驗到了某種不高興的情緒。因此,他的不高興情緒并不是從一開始被我“識別”出來的,而是在我和他的互動過程中建構出來的。
如果我在進入這個情景中的第一時間形成的假設是:他看起來很安靜,我可以過去和他開開玩笑……則在我與他之間將形成另外不同的互動模式,雙方也將在另一種互動模式中建構另外的情緒體驗。總之,在這個過程中,這個人的情緒體驗和表達,以及周圍人對他的情緒的理解都不是根據一個時刻的靜態的表現就確定了的,而是在雙方的互動過程中,根據反饋信息逐漸地校準關于對方的情緒的評估,并最終讓當事人的情緒體驗與之前的預測逐漸靠近,實現了最小知覺偏差。預測加工理論為這個互動建構過程提供了一個可計算的模型。
綜上所述,自動表情識別作為心理學與計算機科學等深度交叉的前沿領域,受到了眾多專家的關注。我們梳理自動表情識別的心理學基礎、情緒的面部表達方式、表情數據的演化、表情樣本的標注等方面的理論觀點與實踐進展,然后分析指出自動表情識別面臨的主要問題,最后基于預測加工理論的建構觀點,提出注重交互過程中的表情“理解”。我們認為,情緒理解是動態的過程,需要根據事件的進展而不斷建構并修正自己的解釋。因此,自動表情識別的研究重點應該著眼于對個體在與其他人或場景進行互動過程中的心理體驗的理解。基于此,我們有理由期待,自動表情識別的有效性可以進一步提高,并開啟表情識別的2.0時代。