張會云,黃鶴鳴*,李 偉
(1.青海師范大學計算機學院,青海 西寧 810008;2.藏文信息處理教育部重點實驗室 青海 西寧 810008;3.青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008)
隨著語音識別技術的迅速發展,以計算機、手機、平板等為載體的人工智能研究日新月異。各種人機交互不再局限于識別特定說話人語音中的單一音素或語句,如何識別語音中的情感已成為ASR領域的新興研究方向。語音不僅包含說話人所要表達的語義信息,也包含說話人蘊含的情感狀態,對語音情感的有效識別能夠提升語音可懂度,使各種智能設備最大限度理解用戶意圖,達到人性化水平,從而更好地為人類服務。
語音情感識別(Speech Emotion Recognition, SER)指利用計算機分析情感,提取出情感特征值,并用這些參數進行相應建模和識別,建立特征值與情感的映射關系,最終對情感進行分類。語音情感數據庫是進行SER研究的基礎。優質的語音情感數據庫對SER系統性能的提升具有重要作用,所謂優質是指數據庫中的每條語句都能真實確切地表達出說話人的情感狀態。因此,多樣化、大規模、高質量的語音情感數據庫是保證SER順利進行的第一步。
SER系統包括語音情感數據的獲取和預處理、語音情感特征提取與選擇、聲學模型訓練以及分類決策4個階段[1]。語音情感數據庫相關內容第3部分會詳細介紹,下面著重介紹語音情感特征提取與分類算法。
特征提取:SER是一項有挑戰性的任務,對情感的識別依賴于語音情感特征分類的有效性。語音情感特征可分為語言特征和聲學特征[2,3]。語言特征即語音所要表達的言語信息,聲學特征則包含了說話人語氣、語調,蘊含感情色彩。提取關聯度高的聲學特征有助于確定說話人情感狀態。通常以幀為單位提取聲學特征,并以全局統計方式作為模型輸入參與情感識別[3]。全局統計指聽覺上獨立的語句或單詞,如極值、方差、均值、最小值、最大值、峰度等。常用的聲學特征包括韻律特征[4]、譜特征[5]和音質特征[6]。為了進一步提升識別性能,研究者也將基于人耳聽覺特性的特征[7]、非線性動力特征[8]引入SER,見表1。

表1 基于語音情感的聲學特征分類
表1給出了語音情感特征分類及其所包含的成分。通常來說,單一特征不能完全包含語音情感的所有有用信息,為了使SER系統性能達到最優,研究者通常將不同特征融合來提高系統性能。
分類算法:要對情感狀態進行判斷,首先要建立SER模型。識別模型是SER系統的核心。在識別過程中,情感特征輸入到識別網絡,計算機通過相應算法獲取識別結果。常用SER分類方法有:極限學習機(Extreme Learning Machine, ELM)[9]、動態時間規整(Dynamic Time Warping, DTW)[10]、高斯混合模型(Gaussian Mixture Model, GMM)[11]、支持向量機(Support Vertor Machine, SVM)[12,13]、隱馬爾科夫模型(Hidden Markor Model, HMM)[14]及人工神經網絡(Artificial Neural Network, ANN)[15]等。
人的情感是通過面部表情、身體姿態、聲音及生理信號等多種模態表現出來的[16]。情感判斷可基于這些模態中的一個或多個進行,但單模態信息不全面、易受干擾,而多模態信息能夠互相印證、互相補充,從而為情感判斷提供更全面、準確的信息,最終提高情感識別性能。隨著SER的發展,各種單模態、多模態語音情感數據庫應用而生,根據語音屬性將數據庫歸類,見表2。
表2根據語種差異、語音自然度、情感獲取方式及情感描述模型將語音情感數據庫歸類,通常研究者立足于情感描述模型,即將情感劃分為離散型情感和維度型情感進行研究。為了更直觀地區分兩類情感,表3進行了詳細總結。

表2 語音情感數據庫歸類

表3 兩種情感描述模型的區別
由表3可知,離散型情感[17,18]指使用形容詞標簽將不同情感表示為相對獨立的情感類別,多屬于表演型或引導型,每類情感演繹逼真,能達到單一、易辨識的程度。維度型情感[18,19]通過喚醒維(Arousal)、效價維(Valence)、支配維(Dominance)等取值連續的維度將情感描述為一個多維信號,要求標注者將主觀情感直接量化為客觀實數值,如圖1所示。其中,Arousal是對人生理活動/心理警覺水平的度量;效價維度量人的愉悅程度,情感從極度苦惱到極度開心互相轉化;支配維指影響周圍環境或反過來受其影響的一種感受。為了更完整地描述情感,研究者也將期望維(Expectation)、強度維(Intensity)加入維度描述模型[16,20]。期望維是對說話人情感出現的突然性度量,即說話人缺乏預料和準備程度的度量;強度維指說話人偏離冷靜的程度[18]。

圖1 愉悅-喚醒模型[8]
近年來,隨著SER研究的順利開展,研究者根據情感描述模型錄制了相應的離散型語音情感數據庫(見表4)和維度型語音情感數據庫(見表5),所列的各類情感數據庫大都公開或可以通過許可證授權得到。
由表4可見,大部分數據庫都是通過表演方式采集。事實上采用自發語音情感更合理,但使用表演型情感數據庫也有一定好處,可避免數據庫包含過多無效標簽數據。由表5可知,常用的維度型情感語料庫主要有:VAM、DEAP、RECOLA、SEMAINE、IEMOCAP及CreativeIT,對于維度型情感庫通常采用PAD量表進行情感信息標注。

表4 常用的離散型語音情感數據庫

表5 常用的維度型語音情感數據庫
1)Belfast英語情感數據庫
Belfast數據庫[21,22]由Queen大學錄制,包含40位說話人使用5類情感(生氣/anger、悲傷/sadness、高興/happiness、恐懼/fear和中性/neutral)演繹5個段落得到的語音。
2)EMO-DB德語情感數據庫
EMO-DB數據庫[23]是由柏林工業大學在專業錄音室錄制的,采樣率為48kHz,壓縮后16kHz,16bit量化。錄制時從40個說話人中選取10位對10個德語語句進行情感演繹,包含中性/neutral、生氣/anger、恐懼/fear、高興/joy、悲傷/sadness、厭惡/disgust和困倦/boredom等7種情感,共800句語料,考慮到說話人語音自然度,最終選取535個樣本,對應樣本數量分別為79、127、69、71、62、46、81。部分文獻中,研究者從535條語句中選出了494條,用于SER[24]。
3)AIBO自然語音情感數據庫
AIBO數據庫[25]包含了英語和德語兩類語音。德語數據庫[26]是由“MONT”、“OHM”兩所學校錄制的,對應樣本數為:8258、9959。該庫通過無線耳麥采集了51名(MONT 25,OHM 26)10-13歲的兒童與索尼公司電子寵物狗Aibo進行游戲交互時的語音,采樣率為48kHz,壓縮后16kHz,16bit量化。每條語音都有明顯的情感傾向,共48401個單詞,時長9.2h,數據庫總樣本18216條,由5位語言學專業學生通過投票方式標注情感,當3個及以上的標注者判定為同一種情感時投票通過。該庫涵蓋高興/joyful、強調/emphatic、中性/neutral、溺愛/motherese、無聊/bored、驚訝/surprised、無助/helpless、易怒/touchy、憤怒/angry、譴責/reprimanding和含糊/rest等11類情感。目前關于情感標簽仍無定論,最常用的標簽方法有2種:5類情感,2類情感。5類情感包括:Anger(記作A,包含angry, touchy, reprimanding)、Emphatic(記作E)、Neutral(記作N)、Positive(記作P,包含motherese, joyful)、Rest(記作R),對應樣本數分別為1492、3601、10967、889、1267;對于2類問題,類別為Negative(記作NEG,包含angry, touchy, reprimanding, emphatic)和Idle(記作IDL),樣本數分別為5823和12393。該庫33%的單詞被INTERSPEECH 2009進行SER競賽所用[27]。
英文庫由30個兒童(4~14歲)錄制而成,語音總共8.5個小時。
4)CASIA中文語音情感數據庫
CASIA數據庫[28]是由中科院自動化研究所在干凈環境下錄制的,包含4位專業發音人在6類情感(高興/happiness、害怕/fear、悲哀/sadness、生氣/anger、驚嚇/scare和中性/neural)下演繹的9600條情感語音。采樣率為16kHz,16bit量化。目前公開的CASIA庫中,包含1200條語音,每類情感各200條語音。
5)丹麥DES情感語料庫
DES數據庫[29]包含兩個單詞(是,否),9句話和2個短句。情感類型有:高興/happiness、傷心/sadness、中性/neutral、生氣/anger和驚奇/surprise。通過20個年齡在18~58歲的本地人鑒定,識別率可達67%。
6)老人語音情感庫EESDB
EESDB數據庫[30]語音數據來自《老人的故事》。該庫錄制了11位說話人(6男5女)演繹的7類情感(高興/happy、傷心/sad、中性/neutral、生氣/angry、害怕/fear、驚奇/surprise、厭惡/digust),共992條語音,采樣率44kHz,16bit量化。選取8位評估者對語音情感進行判定,若75%的評估者同時判定為相同情感則對其保留,最終保留了427條情感語音。
7)北京航空航天大學情感語料庫
北京航空航天大學情感語料庫是一個中文數據庫[31],錄制了7位說話人(4男3女)在20個文本下演繹的5類情感(憤怒/anger、高興/happiness、悲傷/sadness、厭惡/disgust、驚訝/surprise),每個文本在相同情感下重復3次,經評估后,最終保留1140條情感語音。
8)Semaine數據庫
Semaine[32]是一個面向AI與人機交互的數據庫,可免費用于科學研究。該庫是在專業錄音室環境下進行人機交互錄制的,錄制時,20位說話人被要求與4位個性不同的(溫和而智慧的/Prudence、快樂而外向的/Poppy、悲傷而抑郁的/Obadiah和怒氣沖沖的/Spike)虛擬人物(由工作人員扮演)進行語音對話,該虛擬人物不僅能理解說話人表達的語義信息,與用戶也有情感交流,錄音長達7小時。由5個高幀頻、高分辨率攝像機和4個麥克風共同釆集數據,采樣率為48kHz,24bit量化。最后,在valence、activation、power、intensity和expectation等5個維度上進行標注。
9)TYUT2.0中文情感語音數據庫
TYUT2.0數據庫[33]是通過截取廣播劇的方式獲得的一種摘引型情感數據庫,使用PAD(Pleasure-Arousal-Domaniance)情感量表對語音情感進行維度標注。在標注試驗中,招募100名在校學生(44男56女)對3類情感(高興/pleasure、悲傷/sadness、憤怒/anger)共161個語音樣本按照范圍為1~5的PAD量表進行維度標注,得到161×100維的數據樣本,每個語音樣本維度值取所有標注值的平均。
10)SUSAS英語情感數據庫
SUSAS數據庫[34,35]錄制了7位說話人(4男3女)的3593條情感語音,主要用于分析壓力級別,壓力類別包括高壓/high stress(hist)、中壓/medium stress(meds)、中性/neutral(neut)、強壓/screaming(scre),對應類別樣本數分別為1202、1276、701和414。在Arousal維上neut為正,其它為負;在Valence上neut、scre為正,其它為負。
1)IEMOCAP英語情感數據庫
IEMOCAP數據庫[36]是由美國南加州大學錄制的,由10名演員(5男5女)在有劇本或即興場景下誘發特定情感,包含音頻、文本、面部表情以及視頻。整個數據集劃分為5部分,每部分均由1男1女表演組成。離散型和維度型情感標注都被應用于該數據庫。離散型情感標簽分為中性/neural、高興/happiness、生氣/anger和悲傷/sadness等,每類對應樣本數量為:1708、1636、1103和1084,總計5531句(其中即興表演包含2280句),時長約12小時。此外,IEMOCAP數據庫也采用了valence、activation和dominance維度空間模型進行標注,維度幅值范圍為[1, 5]。
2)RECOLA數據庫
RECOLA數據庫[37]錄制了46位說話人(兩人1組被分成23組,每組通過遠程視頻會議討論某個災難場景下逃生方案)的語音情感數據。數據中包含所有說話人在討論過程中的面部視頻和音頻以及其中35個說話人的ECG、EDA數據。標注人員按照視頻幀率逐幀給出了說話人前5分鐘討論過程中情感狀態在valence和Arousal的值。
3)eNTERFACE’05英語情感數據庫
eNTERFACE’05數據庫[38]是基于面部表情和語音的雙模態情感數據庫,錄制條件為辦公室環境,帶有一定回聲,錄制文本來自于故事,所有錄制人員通過聽取6個短片小故事,得到一種情感,通過兩名專家最終確定語音是否符合要求。數據庫采集了來自14個國家42位說話人(34男8女)的6類基本情感(生氣/anger、厭惡/disgust、害怕/fear、開心/happy、傷心/sadness、驚訝/surprise),每類情感對應樣本數量為:200、189、187、205、195和190。樣本采用分辨率為80萬像素的微型DV數字攝像機以25幀/秒的速度攝制,利用專用的高質量麥克風以16bit格式記錄48kHz的未壓縮立體音頻信號,每個圖片幀大小為720*576。
4)RML數據庫
RML數據庫[39]是基于面部表情和語音的雙模態公開情感數據庫,由加拿大Ryerson多媒體實驗室錄制,錄制環境較為明亮,無嘈雜的背景音。采樣率為44kHz,16bit量化。視頻樣本包含8位說話人表達的6類基本情感(生氣/anger、厭惡/disgust、害怕/fear、開心/happy、傷心/sadness、驚訝/surprise),共720個語音和人臉情感。視頻幀率為30幀/s,尺寸為720*480。每個視頻持續時間為3~6s。
5)AFEW6.0數據庫
AFEW6.0[40]并非是在實驗室環境下建立的傳統數據庫,它是Emotion Recognition in the Wild(EmotiW)2016 challenge比賽提供的官方數據庫,庫中所有樣本均為電影或電視劇剪輯片段且混有復雜的背景信息。該庫中的視頻樣本包含7類情感,被劃分為訓練集(773個)、驗證集(383個)和測試集(593個),訓練集和驗證集公開,測試集用于比賽評定,非公開。
6)GEMEP數據庫
GEMEP數據庫[41]包含語音樣本集及其對應的視頻樣本集GEMEP-FERA[42],應用于INTERSPEECH 2013 Challenge[43]。數據庫包含10位說話人(5男5女)的1260個樣本,共18個情感類別(羨慕/admiration、愉悅/amusement、焦慮/anxiety、冷漠/cold anger、蔑視/contempt、絕望/despair、厭惡/disgust、興高采烈/elation、暴怒/hot anger、興趣/interest、恐慌/panic、恐懼/fear、樂意/easure、驕傲/pride、寬慰/relief、悲傷/sadness、羞愧/shame、驚訝/surprise、溫柔/tenderness)。常用的情感有12類,平均每類約90個樣本,共1080個樣本。
7)ABC德語情感數據庫
ABC雙模態數據庫[44]模擬了不同情境下公共交通中說話人的情感,是一個誘發數據庫,含8位說話人(4男4女,25~48歲)的430條視頻情感語音,時長11.5個小時,由3名專家對數據進行剪切,標定情感。其情感類別為:挑釁/aggressive、愉快/cheerful、陶醉/intoxicated、緊張/nervous、中性/neutral、疲倦/tired),對應樣本數為95、105、33、93、79、25。
8)ACCorpus系列中文情感數據庫
ACCorpus數據庫[18]是由清華大學和中科院心理研究所合作錄制,錄音人數較多,是一個很全面、很系統、有代表性的數據庫,采樣率16kHz,16bit量化。包含5個子庫,分別是:ACCorpus_MM多模態、多通道情感數據庫、ACCorpus_SA漢語普通話情感分析數據庫、ACCorpus_FV人臉表情視頻數據庫、ACCorpus_FI人臉表情圖像數據庫、ACCorpus_SR情感語音識別數據庫。其中,ACCorpus_SR庫錄制了50位(25男25女)說話人在5類情感狀態(中性/neural、高興/happiness、生氣/anger、恐懼/fear和悲傷/sadness)下的語音。
9)AVEC 2012數據庫
AVEC 2012[45]是包含語音和視頻的多模態情感數據庫,來源于Semaine數據庫中Solid-SAL的24條情感記錄文件。曾用于2012年音/視頻情感識別挑戰大賽,被分為訓練集、驗證集和測試集。數據時長在7小時左右,標注工作由3~8個評估者借助標注工具FEELTRACE在Valence、Activation、Power和Expectation四個情感維度上標注。
10)VAM德語情感數據庫
VAM數據庫[46]是對德語電視談話節目“Vera am Mittag”進行現場錄制而成的,包括表情庫、視頻庫、語音庫3部分。語音庫包含47位嘉賓947句語音,采樣率為16kHz,16bit量化。在valence、activation和dominance維度上標注,標注值在[-1, 1]。
11)AVIC英語情感數據庫
AVIC數據庫[47]是一種雙模態情感庫,錄制了21位(男11女10)產品推銷員使用英語進行商業推廣的語音和面部表情。樣本情感類別為:無聊/boredom、中性/neutral、高興/joyful,每類情感對應樣本數量為553、2279、170,共3002個樣本。
12)MOUD西班牙語情感數據庫
MOUD模態數據庫[48]采集了80位說話人(65男15女)的文本、語音和視頻信息,共498個樣本。其中樣本情感標注分為3類:積極/positive、中立/neutral和消極/negative,每類樣本對應數量為:182、85、231。
13)MOSI英語數據庫
MOSI是2016年Zadeh團隊開發出來的較大的一個多模態情感數據庫[49],共采集了89位說話人(48男41女)的文本、語音和視頻3個模態的信息,共2199個樣本,說話人年齡主要集中在20~30歲。
14)SAVEE語音情感數據庫
SAVEE模態數據庫[50]是由4名演員在7種情感狀態(生氣/anger、厭惡/disgust、害怕/fear、高興/happiness、中性/neutral、傷心/sadness以及驚訝/surprise)下演繹得到的表演型數據庫,共480條情感,語音情感數量分布相對平衡,除中性(120條)外,其余6類情感均有60條。
15)CHEVAD中文自然情感數據庫
CHEVAD數據庫[51]是由中科院自動化研究所錄制的,也是中科院自動化所舉辦的2017多模態情感識別競賽的官方數據集,數據來自中文電影、電視劇及脫口秀節目,時長140分鐘,說話人數達到238人,年齡范圍從兒童到老人。由4名中國人標注數據,總共26個非原型情感狀態,包含了常用的6類情感狀態(憤怒/anger、恐懼/fear、高興/happy、中性/neutral、悲傷/sad和驚訝/surprise),訓練集、驗證集和測試集中情感語音數量分別為:4917、707和1406。
16)DEAP數據庫
DEAP數據庫[52]錄制了32位說話人觀看音樂視頻時的EEG信號、外圍生理信號及其中22位說話人的正面視頻。每個說話人都觀看了40段音樂視頻,并將自己在觀看過程中所感受到的情感在喚醒維、效價維和支配維上給出了[1, 9]的連續自我評估。
下面以SAVEE、RML、eNTERFACE05模態數據庫為例,分析在不同數據庫上使用不同分類方法所取得的最佳性能。
表6展示了2015~2019年在SAVEE數據庫上使用不同分類方法所取得的性能。由表6可知,在SAVEE數據庫上,目前結合多模態信息的SER系統最優性能可達到98.33%,這是一個非常客觀的結果。

表6 SAVEE多模態庫上不同方法性能比較
表7展示了2012~2019年不同研究者在RML模態數據庫上的研究結果。由表7可知,目前RML數據庫上各分類方法整體性能不是很好,2015年取得的最優性能為83%。

表7 RML多模態庫上不同方法的性能比較
表8展示了2009~2019年部分研究者在eNTERFACE05模態數據庫上的實驗結果。由表8可知,文獻[58]取得了最優的性能,其它各類方法的性能均較低。縱觀表6、表7、表8,可以得出:在SAVEE數據庫上目前各分類方法取得了最優性能,RML次之,eNTERFACE05數據庫上性能最差。歸因于eNTERFACE05庫帶有一定噪音,而RML模態數據庫中的語料較為干凈,SAVEE數據庫是由專業演員錄制的,對于每種情感的表達到位,數據庫質量較好。

表8 eNTERFACE05多模態庫上不同方法的性能比較
目前SER使用的數據庫逐漸從表演型情感語料庫向自然型情感語料庫過渡,為了進一步提升SER的性能,研究者開始將多模態信息引入SER,通過將面部表情、文本信息、手語、生理信號等多模態信息與語音信息相結合以進一步提升性能。目前研究者聚焦在多模態數據庫上進行研究,SAVEE、RML、eNTERFACE05是研究者常用的模態數據庫。作者目前立足于藏語SER,為了確保其性能良好,應在干凈環境下錄制高質量、大規模的模態藏語情感庫。