繆立欣,蘇日娜,邢淑敏,段曉東
(1.大連民族大學(xué) a.計算機科學(xué)與工程學(xué)院;b.大連市民族文化數(shù)字技術(shù)重點實驗室,遼寧 大連 116605;2.北方民族大學(xué) 計算機科學(xué)與工程學(xué)院,寧夏 銀川 750000)
在情感研究中,研究者們對面部表情識別[1-2]、語音識別[3-4]和腦電信號等信息融合來識別和分析人類情感。眼睛作為面部的主要器官,也是反映人心理活動的主要窗口,通過不同的眼神表達豐富的情感和意向。人們在交流中除了使用語言、面部表情和肢體動作表達情感之外,眼睛作為心靈的窗口也在交流中起著至關(guān)重要的作用[5-6]。所以眼動信息也成為情感分析重要的一環(huán),Schurgin和Nelson使用眼動信息來進行人臉情感識別的研究[7],但缺乏融合表情和眼動數(shù)據(jù)的相關(guān)研究。
人臉的族群特征是人臉視覺認知中先于年齡、性別和表情識別的最重要的人臉信息之一。此外,不同民族在表現(xiàn)不同情緒時采用的方式既有共同點又有差別,民族屬性將會在情感計算和分析中增加重要的屬性元素,有利于數(shù)據(jù)的多樣性。因此,一個包含多民族、數(shù)據(jù)真實的情感數(shù)據(jù)庫更是多民族情感識別研究的關(guān)鍵。
融合人臉民族、表情和眼動數(shù)據(jù)需要由攝像機、Tobii眼動儀兩種設(shè)備進行數(shù)據(jù)的采集工作。
(1)攝像機:考慮到后期要把錄制的面部視頻分解成視頻幀,并截取出面部區(qū)域,如果攝像機的幀數(shù)和分辨率太低,可能會給多民族情感的研究造成不必要的情感數(shù)據(jù)誤差。本文選用佳能XC10 4K影像機動態(tài)影像模式,分辨率為1920×1080 px的視頻。
(2)眼動儀:眼動數(shù)據(jù)采集使用Tobii ProX3-120眼動儀錄制,且與關(guān)聯(lián)Tobii Studio軟件系統(tǒng)結(jié)合使用。由于Tobii Studio的誘發(fā)刺激源可以是一個序列的圖像??刹杉?種數(shù)據(jù)內(nèi)容,分別是:文本數(shù)據(jù)(原始注視點坐標及時間)、圖片(注視點分布圖,軌跡圖,熱點圖,興趣區(qū),集簇圖)、視頻 (整個記錄視頻,特點片段視頻,動態(tài)熱點圖,軌跡圖flash)、表格(統(tǒng)計指標數(shù)據(jù))、柱狀圖(統(tǒng)計指標數(shù)據(jù))。
(3)數(shù)據(jù)記錄計算機:實驗采用臺式電腦記錄情感視頻和眼動數(shù)據(jù),內(nèi)存6G,主頻3.10GHz,操作系統(tǒng)Windows7旗艦版,64位系統(tǒng)。眼動數(shù)據(jù)是由和眼動儀配套使用的軟件Tobii Studio生成,最后從該軟件內(nèi),導(dǎo)出軌跡視頻、熱點圖、表格等數(shù)據(jù)到電腦上。情感視頻數(shù)據(jù)由Cannon攝像機采集存儲到內(nèi)存卡中,再導(dǎo)入到電腦上進行存儲備份。
(4)誘導(dǎo)視頻播放計算機:播放誘導(dǎo)素材的計算機是一臺64位、i5的英特爾處理器的臺式電腦,電腦的內(nèi)存為6G,主頻為3.10GHz,Windows7旗艦版的操作系統(tǒng)。該電腦配置兩個顯示器,一個顯示器供給實驗人員觀看,另一個顯示器用于實驗參與人員進行相關(guān)操作。并使用漫步者電腦專用音箱連接電腦的USB接口,進行播放情感誘導(dǎo)視頻的聲音。
(5)誘導(dǎo)視頻:本文中通過讓被試者觀看誘導(dǎo)視頻的方式,誘導(dǎo)被試者的情感。選定6段帶有不同情感色彩的誘導(dǎo)視頻作為最終的誘導(dǎo)材料,六種情感分別是生氣、厭惡、害怕、高興、驚奇、傷心,在測試六種情感過程中,需要在每一段中插入可以使人平靜的視頻。
數(shù)據(jù)的采集在數(shù)字攝影棚進行,實驗采集環(huán)境如圖1。負責(zé)播放情感誘導(dǎo)視頻的是一臺配置了兩個顯示屏電腦,桌子兩邊放了兩臺立式的柔光燈補光。攝像機架在被試者面對的顯示屏的后邊,根據(jù)被試者的情況調(diào)節(jié)攝像頭的角度和椅子的高度,以及調(diào)節(jié)暖光燈的位置,以達到拍攝畫面的最佳效果。

(a)實驗整體環(huán)境 (b)數(shù)據(jù)采集場景
由于不同的人心理承受能力不同,所以在實驗開始前,首先詢問參與實驗數(shù)據(jù)采集人員是否能夠承受誘發(fā)情緒視頻,實驗參與人員幫助被試者調(diào)整好座位和相關(guān)機器的位置,校準眼動設(shè)備,以實現(xiàn)最佳的數(shù)據(jù)采集效果;并將實驗室內(nèi)所有人的手機都設(shè)置靜音模式遠置于被試者周圍。數(shù)據(jù)集總計錄制了時間為171.24 min的面部情感視頻和眼動軌跡的情感視頻,完成了五個民族情感數(shù)據(jù)的采集,采集了與之對應(yīng)的六種情感類型的眼動數(shù)據(jù),每個眼動數(shù)據(jù)包含三種數(shù)據(jù)類型,最終錄制的數(shù)據(jù)總量為86 G。
在對情感數(shù)據(jù)的源文件進行處理前,要對文件名稱進行規(guī)范,從而更好地進行數(shù)據(jù)的管理工作[8],本文制定了多民族情感數(shù)據(jù)的文件命名規(guī)則。
(1)第1位:表示情感數(shù)據(jù)來源的類型,共有兩種數(shù)據(jù)來源類型,分別表示為表情圖片F(xiàn)(Facial Expression Picture),眼動E(Eye);
(2)第2位:被試人員的性別,由男女的英文首字母縮寫組成,男性M(Male),女性F(Female);
(3)第3~4位:實驗者的民族,由民族的英文縮寫組成,分別是漢族HZ(Han Zu)、蒙古族MG(Mongolian)、回族HN(Hui Nationality)、壯族ZN(Zhuang Nationality)、滿族MC(ManChu);
(4)第5~7位:被試人員的編號,按照情感數(shù)據(jù)錄制的先后順序從001開始(不分男女);
(5)第8~9位:6種基本情感類型(每種情感類型的縮寫),高興HP,驚奇SP,厭惡DG,傷心SD,生氣AG,害怕FE;
(6)第10~11位:不同的數(shù)據(jù)類型代表的含義不一樣;情感圖片表示圖片的情感采樣點,例如02代表面部情感采樣片段為2的視頻片段里的圖片;眼動的數(shù)據(jù)類型,Gazeplot 1,Heatmap 2,cluster 3,video 4;
(7)第12~14位:該圖片的編號,按照錄制的先后順序從001開始。
面部情感圖片的命名示例如下:文件名FFMG004HP06003代表從第四個參與被試的人員的第六個情感片段中截取的第三張面部表情圖片,該參與者為女性,蒙古族;眼動數(shù)據(jù)的命名實例如下:文件名EFHZ003HP2代表第三個實驗參與者的眼動視頻軌跡,該參與者為女性,蒙古族。
情感圖片截取是從錄制的情感視頻文件中截取出目標情感片段,然后從帶有目標情感的視頻片段中分解出關(guān)鍵幀。在每一種情感中,情感表現(xiàn)最強烈的地方做標記,標記的規(guī)則為情感的最低值到最高值再到最低值這樣一個完整的過程。五位不同編號的實驗被試人員所表現(xiàn)出來的6種面部基本情感圖片如圖 2,圖片已經(jīng)經(jīng)過一系列的處理和篩選,符合目標情感且情感表現(xiàn)強烈,以下6張圖片的名稱分別為FFHZ003HP04002、FFHN004
AG01082、FMMC007DG03097、FMHN006FE01014、FFHN004SP01044、FMHZ002SD03011。

(a)高興 (b)生氣 (c)厭惡 (d)害怕 (e)驚奇 (f)傷心
目前所進行的無論是情感圖片識別的研究,還是多民族人臉識別的研究,大多數(shù)都是采用灰度表情圖片作為研究的基礎(chǔ),需要進一步把彩色圖片轉(zhuǎn)為灰度圖像。所謂灰度圖像是用一個采樣顏色的圖像表示每個像素,經(jīng)常使用的算法有以下三種:
(1)中值法:取彩色圖片的R、G、B的分量值,并求三者的和,然后進行平均計算,即
R=G=B=(R+G+B)/3。
(1)
采用中值法把彩色圖像轉(zhuǎn)換為灰度數(shù)字圖像的處理,得到比較柔和的灰度圖像,如圖3(a)。
(2)加權(quán)平均值法:根據(jù)彩色圖片進行灰度處理的指標,分別給R、G、B三個分量值賦予不同的權(quán)重,三原色的值分別和自身對應(yīng)的權(quán)重相乘,最后除以權(quán)重總和,所得的結(jié)果分別復(fù)制給三原色的值,即
R=G=B=(Wr*R+Wg*G+Wb*B)/(Wr+Wg+Wb)。
(2)
式中,Wr、Wg、Wb為權(quán)重,分別對應(yīng)R、G、B。經(jīng)過加權(quán)平均值的算法處理過的圖像如圖3(b)。
(3)最大值法:取三原色的分量值中最大的一個,分別賦值給G、B、R,然后賦值給R、G、B,即
R=G=B=max(R,G,B),
(3)
用最大值法對彩色圖像進行灰度處理會使得圖像的整體亮度增強,如圖3(c)。
關(guān)于加權(quán)平均值算法,針對不同的權(quán)重值,加權(quán)平均值法將形成不同的灰度圖像,由于人眼對綠色的敏感度最高,對紅色的敏感度次之,對藍色的敏感度最低,因此使三個權(quán)重之間的關(guān)系定位Wg>Wr>Wb時,得到的灰度圖像將會比較合理。結(jié)合前人的理論推導(dǎo)和實踐操作證明,當(dāng)三原色的權(quán)重值分別為Wr=0.299、Wg=0.587、Wb=0.114時,得到的灰度圖像最合理,即:
R=G=B=(0.299*R+0.578*G+0.114*B)/(0.299+0.578+0.114)。
(4)
按照以上三種方法對圖2的傷心表情彩色圖片的灰度化處理結(jié)果如圖3(a)中值法、3(b)加權(quán)平均值法、3(c)最大值法。

(a)中值法 (b)加權(quán)平均值法 (c)最大值法
從圖3的三幅圖片的展示效果中可以看出,使用中值算法生成的灰度亮度最低,使用最大值法生成的灰度圖片亮度最高,而使用權(quán)值為0.299、0.578、0.114三個權(quán)值的加權(quán)平均值法生成的灰度圖片亮度適中。此外,最大值法生成的灰度圖最模糊,中值法生成的灰度圖次之,加權(quán)平均值法生成的灰度圖像比中值算法亮度高,比最大值算法生成的圖片亮度低,生成的灰度圖片效果最好,故本文選擇加權(quán)平均值法生成的灰度圖片。
面部關(guān)鍵區(qū)域的截取原則是:從帶有目標情感的圖片中通過相關(guān)算法截取出僅包含面部區(qū)域的人臉情感圖片。從源圖片中截取出僅包含人臉關(guān)鍵部分的范圍較小的面部區(qū)域圖片。眼睛、眉毛、臉頰、嘴巴、額頭、鼻子、下顎是表情識別的主要識別區(qū)域,通過人臉區(qū)域算法截取出面部關(guān)鍵區(qū)域,算法的基本步驟為,針對圖像中的人臉區(qū)域先做一個基準點標注,以鼻梁中點為中心將不是水平的的圖像旋轉(zhuǎn)至水平狀態(tài),圖像旋轉(zhuǎn)為水平的標準是與兩眼連線之間的線段是否平行。
進行人臉關(guān)鍵區(qū)域截取采用Openface和Face-crop[9],算法實現(xiàn)過程如圖4。把彩色圖片轉(zhuǎn)換為灰度圖片后,截取出的人臉面部區(qū)域圖片。

圖4 人臉截取算法
眼動信息就是通過使用眼動儀記錄人在處理視覺信息時的眼動軌跡特征,所以眼動數(shù)據(jù)的表達方式是展現(xiàn)在視頻的每一幀上,眼動追蹤過程中的眼動軌跡如圖5。

圖5 眼動追蹤過程中的眼動軌跡
為了管理方便,情感數(shù)據(jù)分別以兩種類型存儲,每種類型的文件夾下包含實驗參與者的數(shù)據(jù)文件夾,每個情感參與者的文件夾下包含6種情感的情感數(shù)據(jù)文件。
由于眼動數(shù)據(jù)表達的情感不具有直觀性,無法使用評判面部情感視頻片段的原則一樣,直接給出眼動軌跡所屬的情感類型,只有以截取情感圖片的視頻分段時做的標記為參考,來截取某段眼動軌跡視頻,然后給出此段眼動軌跡所屬的情感類型;參考面部情感片段截取的時間標記眼動軌跡視頻,根據(jù)標記好的眼動軌跡視頻從眼動記錄文件中截取出相應(yīng)眼動軌跡片段存為新的視頻文件。由于眼動軌跡是連續(xù)的,隨著誘導(dǎo)視頻的變化而變化,單獨截取一幀的眼動軌跡圖片,經(jīng)過一系列的處理,最終共采集了196個眼動信息。
介紹了在多民族情感數(shù)據(jù)庫的構(gòu)建過程中進行情感采集實驗的過程以及如何從情感采集實驗的情感視頻和眼動文件中得到面部表情圖片和眼動軌跡這兩種多民族情感數(shù)據(jù),分別給出了具體的數(shù)據(jù)提取和數(shù)據(jù)挑選規(guī)則,并展示了部分面部表情圖片、眼動軌跡。在情感數(shù)據(jù)采集及處理的基礎(chǔ)上,最終建立了一個包含5個民族6種基本表情的多民族情感數(shù)據(jù)庫,其中共有11 328幅表情圖片、196個眼動信息的多民族情感數(shù)據(jù)。本數(shù)據(jù)集雖然采集一定數(shù)量的數(shù)據(jù),但是少數(shù)民族較少,多民族的情感類別的數(shù)據(jù)量依然需要進一步補充,進而促進我國多民族情感識別和智能人機交互的發(fā)展。