




摘 要: 為建立一個真實、自然、豐富的情感語音數據庫,研究選擇高興、驚奇、悲傷、生氣四種情感類型,利用截取廣播劇的方式獲得初選階段的情感語音數據庫。通過模糊綜合評價與層次分析法、熵權法相結合建立情感語音的模糊綜合評價模型,利用該模型對初選階段的數據庫進行模糊評價,篩選得到最終高質量的情感語音數據庫。將三種類型的數據庫用于情感語音識別實驗,對比分析了不同類型數據庫的差異,同時也驗證了本數據庫的有效性。
關鍵詞: 情感語音數據庫; 模糊綜合評價; 層次分析法; 熵權法; 情感語音識別
中圖分類號: TN912?34 文獻標識碼: A 文章編號: 1004?373X(2016)13?0051?04
Abstract: To establish a real, natural and abundant emotional speech database, four emotion types of happy, surprise, sad and angry are chosen. The way of radio drama intercepting is used to obtain the emotional speech database in primary stage. The fuzzy comprehensive evaluation model of emotional speech was established in combination with fuzzy comprehensive evaluation, analytic hierarchy process and entropy weight method. The fuzzy evaluation for the database in primary stage was conducted with the model to obtain the final emotional speech database with high quality. Three kinds of speech databases were applied to the emotional speech recognition experiment. The differences of different databases are compared and analyzed. The effectiveness of this database was verified.
Keywords: emotional speech database; fuzzy comprehensive evaluation; analytic hierarchy process; entropy method; emotional speech recognition
語言是人類交換信息最方便、最快捷的一種方式。在高速發達的信息社會中,情感語音技術的發展為實現人與機器的情感交流提供可能[1]。情感語音數據庫是情感語音識別的基礎,語音庫的質量決定著情感語音識別系統性能的優劣。高質量的情感語音數據庫有利于情感語音特征的分析提取,有利于情感語音識別系統判斷說話人的情感狀態,因此如何構建一個真實、自然、可靠的情感語音數據庫就顯得尤為重要。而語音數據庫質量高低要從情感準確度、噪聲影響、自然度等角度綜合評判。本文利用模糊綜合評價結合層次分析法(Analytic Hierarchy Process,AHP)、熵權法構建模糊綜合評價模型,將定性分析轉化為定量分析,為數據庫的有效性提供了保障。最后,本文將表演型數據庫、激勵型數據庫和摘引型數據庫應用于情感識別研究中,對比分析不同類型的數據庫之間的差異,同時也驗證了本數據庫的有效性。
1 初選階段情感語音數據庫的建立
目前,在國內外語音研究領域,由于研究需求、獲取途徑、情感分類、語種等差異,情感語音數據庫種類繁多(如Maribor數據庫、CASIA數據庫、VAM[2])。按照獲取方式的不同,情感語音數據庫大致可分為四類[3]:表演型、激勵型、啟發型和摘引型。摘引型情感語音數據庫有著較高的情感真實度,情感表達直接由心理狀態觸發而成,并且在多媒體素材中有上下文內容,為以后的研究提供關聯信息。因此選擇構建摘引型情感語音數據庫。為了截取并建立高質量的情感語音庫,多媒體素材需要在語種、語義、規模、情感、信噪比方面符合一定的要求[4]。廣播劇是一種戲劇形式,通過聲音進行傳播,能給聽眾創造無限的想象空間[5]。廣播劇中語料來源于專業演員,所用語言為標準普通話,貼近生活,符合日常表達習慣,有著豐富的情感成分,并且對人物語言精確性、表現力要求高,語音質量好。基于以上特點,考慮到情感豐富性、人物多樣性、情節多變性等因素,選取廣播劇作為截取語音庫的媒體素材。
參考Rusell等人運用情感理論構建情緒二維模型[6],本文選擇高興、驚奇、悲傷和憤怒四種情感粒度大、混淆度低的情感類別構建數據庫。使用Cool Edit Pro 2.0從中剪輯屬于上述4類情感的情感語音共837句,保存為單聲道wav文件,建立初選階段的情感語音數據庫。
2 情感語音的模糊綜合評價模型
目前,模糊綜合評價被廣泛地應用到了各個領域。郭德勇利用模糊綜合評判法建立了煤與瓦斯突出預測模型[7],預測結果與實際突出情況相符,表明該方法具有應用價值。劉玉紅提出了模糊綜合評價方法來評估水下機器人的運動性能[8],并通過試驗表明,評價結果可以客觀、全面地反映水下機器人的性能。金赟利用AHP和模糊綜合評價建立了耳語音情感數據庫[9],但是AHP在確定指標權重時并沒有考慮到人的主觀判斷、喜好對決策結果的影響,因此本文通過AHP和熵權法主客觀相結合確定指標權重,建立改進的模糊綜合評價模型,運用該模型對初選階段的情感語音數據庫進行模糊評價、篩選建立最終的情感語音數據庫。
2.1 建立綜合評價模型
建立合理有效的評價模型是高質量情感語音數據庫的前提,本文通過模糊綜合評價結合AHP、熵權法辨聽篩選情感語音數據庫,模糊綜合評價模型如圖1所示[10]。首先構造綜合指標評價體系,包括被評價語音的指標集和評語集;利用AHP和熵權法確定各個指標的綜合權重,將綜合權重和模糊評價矩陣進行模糊合成,得到綜合模糊評價矩陣;最后把綜合模糊評價矩陣量化得到語音的綜合得分,這樣就可以判斷情感語音的優劣。
2.2 構造綜合指標評價體系
2.2.1 確定評價指標集
根據廣播劇演播其獨有的特點,建立情感語音數據庫評價指標體系。評價指標集為。其中,分別代表情感準確度、背景噪聲影響、清晰度、自然度、現場感五個指標。
情感準確度指標:主要反映該條語音是否為所要求的情感語音,情感把握是否準確。
背景噪聲影響指標:由于語音數據庫是從廣播劇中截取所得,為避免摻雜背景音、噪聲等其他影響,因此需要從背景噪聲角度對語音庫進行篩選評價。
清晰度指標:主要反映該條語音咬字是否清晰。
自然度指標:主要反映該語音的情感表現是否過于夸張,廣播劇中表演出的情感與日常生活中正常流露出的情感是否偏差過大,確保根據廣播劇所得語音的情感分析方法可用于日常交流中的語音。
現場感指標:主要反映廣播劇是否達到了聞其聲見其人的藝術效果,是否具有感染力、表現力。
2.2.2 建立評價評語集
建立情感語音數據庫的評價評語集,其中,分別表示優、良、中、差、劣。并規定。
2.3 確定指標綜合權重
為了使模糊評價的結果更加準確,克服主觀確定權重的缺點,通過將主觀賦權的AHP和客觀賦權的熵權法相結合的方法計算出各個語音指標的權重。
2.3.1 AHP確定主觀權重
AHP是數字化表示主觀判斷的一種方法。它把復雜問題分解為各個組成因素,通過主觀兩兩比較的方式確定各因素的相對重要程度,然后計算得到各因素的權重,最后通過一致性檢驗得到較為合理的權重[11]。其具體步驟如下:
(1) 構造各指標的判斷矩陣:首先利用1~9比例標度法,把各項評價指標的相對重要性進行定性表示,構建兩兩比較的判斷矩陣,其中用表示第個指標對第個指標的相對重要性,從而求出各個指標的權重。因此5個指標相互比較后可以用下面的判斷矩陣表示為:
(2) 計算判斷矩陣的最大特征值及其對應的特征向量,經過歸一化,得到即為同一子集中的各指標的權重向量[12]。
(3) 根據表1中隨機性指標計算一致性比率:其中為判斷矩陣的最大特征根,為判斷矩陣的階數。當時,可以認為判斷矩陣的一致性滿足要求,可以接受分析結果,否則需重新構建判斷矩陣,直到滿足一致性標準。
2.3.2 熵權法確定客觀權重
熵權法是一種基于信息熵的客觀賦權法。熵是熱力學的概念,后被香農引入到信息論中,可用來度量信息量的大小。在進行評價時,如果某個指標的熵值越大,說明該指標對評價結果提供的信息量越少,則對應的指標權重應越?。环粗?,權重越大[13]。熵權法能使評價結果更符合實際情況,避免因主觀賦權所造成的權重偏差。其具體方法如下:
2.3.3 主客觀結合確定綜合權重
AHP確定的指標權重是查閱大量文獻、結合實際情況所得,熵權法得到的指標權重來源于數據本身,客觀地反映了實際情況。為了科學客觀地確定權重,故將AHP得到的主觀權重和熵權法得到的客觀權重相結合,得到各情感語音指標的綜合權重本文根據情感語音的實際情況,將綜合權重設定為主觀權重的40%和客觀權重的60%,從而得到各個評價指標的綜合權重,即:。
2.4 模糊合成——辨聽篩選
根據實際情況設定閾值分數如果語音最終得分大于等于則保留;否則,此條語音不符合要求,刪除該語音。
通過以上步驟,利用改進的模糊綜合評價法,分別從情感準確度、背景噪聲影響、清晰度、自然度、畫面感五個方面對截取的情感語音庫進行評價篩選,最終建立了情感語音數據庫TYUT 2.0共678句,如表2所示。篩選后的情感語音數據庫符合以上五個指標的研究要求,四種情感表達更加準確自然,貼近現實生活,無噪聲影響,有利于情感語音的進一步研究。
本文采用截取廣播劇的方式構建初選階段的情感語音數據庫,利用改進的模糊綜合評價對初選階段的數據庫進行了篩選,得到高質量的摘引型情感語音數據庫。由于是從廣播劇中截取獲得,因此該數據庫情感類型豐富,人物多樣(涵蓋多個年齡段),生活場景豐富,情感語音更加貼近現實生活,符合日常表達習慣,具有較好的實用性。并且本文將AHP和熵權法主客觀相結合確定指標權重,建立了改進的模糊綜合評價模型,由10位大學生對初選階段語音庫的五個指標進行打分篩選,確保所得到的語音情感表達自然、清晰,具有較好的表現力。
3 實 驗
3.1 情感語音數據庫
本實驗采用表演型、激勵型、摘引型三類情感語音數據庫分別進行情感語音識別,對比研究不同類型的情感語音數據庫的差異。表演型數據庫要求表演者用不同的情感來朗讀指定的內容,進行錄制獲取數據。激勵型數據庫指在錄制前,通過文字、圖片、電影等手段來誘發說話人特定情感狀態。本實驗選擇CASIA漢語情感數據庫、eNTERFACE′05數據庫、TYUT 2.0數據庫三種類型的數據庫用于情感語音識別。三個情感語音數據庫簡介如表3所示。
CASIA漢語情感數據庫屬于表演型數據庫,該數據庫是中科院自動化所錄制,由4位錄音人(2男2女)在6種不同情感狀態下(高興、悲傷、生氣、驚奇、恐懼、中性)對500句文本進行表演朗讀得到的,總共有9 600句情感語音。
eNTERFACE′05數據庫是激勵型數據庫。該數據庫包含了6段簡短的有情感傾向的場景文本,通過文本的內容誘發表演者的情感狀態。每個表演者在每段場景中分別帶有情感地朗讀特定文本,分別對應6種基本情感(憤怒、厭惡、恐懼、高興、悲傷、驚奇)。最后得到42名表演者的1 166段視頻片段。本實驗通過提取視頻中的語音片段進行情感語音識別。
考慮到樣本平衡性問題,選擇245句TYUT 2.0數據庫情感語音、248句CASIA數據庫情感語音和248句eNTERFACE′05數據庫,每組實驗使用大約的句子訓練,的句子測試。
3.2 實驗結果及分析
將三個數據庫用于情感語音識別,提取MFCC前12階的最大值、最小值、平均值、中值、方差共60維統計特征,使用SVM作為識別網絡,所得到的識別結果如表4所示。
從表4可以得出:
三個情感語音數據庫的平均識別率由大到小是:eNTERFACE′05數據庫、TYUT 2.0數據庫、CASIA數據庫。TYUT 2.0數據庫的平均識別率為72.15%,略低于eNTERFACE′05數據庫的72.50%,高于CASIA數據庫的64.56%。這與數據庫的構建方式有關,不同類型的數據庫在情感表達上是有差異的。三種數據庫的真實度由高到低依次為:摘引型數據庫、激勵型數據庫、表演型數據庫。CASIA數據庫是由錄音人員表演獲得,錄音人員對情感表現的把握不同會影響語音的情感準確度;eNTERFACE′05數據庫屬于激勵型數據庫,符合人類情感產生的過程,但是錄音人員對刺激材料存在個體差異性,無法確認環境對錄音人員刺激的有效性及刺激所起的作用程度;摘引型數據庫TYUT 2.0情感表達直接由心理狀態觸發獲得,情感表達更加準確自然,表達方式更加貼近現實生活。此外,CASIA數據庫和eNTERFACE′05數據庫是由定量人員錄制獲得的情感語音,而TYUT 2.0是從多媒體材料中獲得,語音來源于不定量人員。
從識別結果來看,TYUT 2.0數據庫的平均識別率達到72.15%,可以用于情感語音識別研究中。TYUT 2.0數據庫屬于摘引型情感語音數據庫,所得到的語音符合現實生活中的表達。而表演型數據庫和激勵型數據庫中的情感語音與現實生活中的語音還存在偏差,影響以后的研究應用。因此將摘引型數據庫TYUT 2.0用于情感語音研究所獲得的研究方法可以更好地用于日常的交流中,具有更多的實用價值。
4 結 語
本研究根據實驗室的研究需求,通過對廣播劇的截取獲得了包含高興、驚奇、悲傷、憤怒(共678句)4種基本情感類型的TYUT 2.0數據庫。將基于主觀的AHP和基于客觀的熵權法相結合,科學地確定指標的綜合權重,建立了改進的模糊綜合評價模型,然后從情感準確度、背景噪聲影響、清晰度、自然度、現場感五個方面建立情感語音數據庫評價指標體系,運用該模型對初選階段的情感語音數據庫進行模糊評價、篩選出真實可靠的高質量情感語音數據庫。本文還將表演型數據庫、激勵型數據庫和摘引型數據庫用于情感語音識別,分析對比了不同類型數據庫的差異,同時也驗證了本情感語音數據庫的有效性,為接下來的情感語音特征、情感語音識別、合成研究奠定了基礎。
參考文獻
[1] 張雪英.數字語音處理及Matlab仿真[M].北京:電子工業出版社,2010:1?9.
[2] GRIMM M, KROSCHEL K, NARAYANNAN S. The Vera am Mittag German audio?visual emotional speech database [C]// 2008 International Conference on Multimedia and Expo. Hannover: IEEE, 2008: 865?868.
[3] 趙力,黃程韋.實用語音情感識別中的若干關鍵技術[J].數據采集與處理,2014,29(2):157?170.
[4] 謝波.普通話語音情感識別關鍵技術研究[D].杭州:浙江大學,2006.
[5] 羅莉.文藝作品演播教程[M].北京:北京大學出版社,2010:113?134.
[6] LIEBERMAN P, MICHAELS S B. Some aspects of fundamental frequency and envelop amplitude as related to the emotional content of speech [J]. Journal of the Acoustical Society of America, 1962, 34(7): 922?927.
[7] 郭德勇,范金志,馬世志,等.煤與瓦斯突出預測層次分析?模糊綜合評判方法[J].北京科技大學學報,2007,29(7):660?664.
[8] LIU Y H, FANG P P, BIAN D D, et al. Fuzzy comprehensive evaluation for the motion performance of autonomous underwater vehicles [J]. Ocean engineering, 2014, 88(5): 568?577.
[9] 金赟,趙艷,黃程韋,等.耳語音情感數據庫的設計與建立[J].聲學技術,2010,29(1):63?68.
[10] PAUL S, SARKAR B, BOSE P K. Eclectic decision for the selection of tree borne oil (TBO) as alternative fuel for internal combustion engine [J]. Renewable and sustainable energy reviews, 2015, 48: 256?263.
[11] 高平,張延軍,方靜濤,等.淺層巖土室內、外熱物性測試的相關性[J].吉林大學學報(地球科學版),2014,44(1):259?267.
[12] 劉海燕,龐小平.利用GIS和模糊層次分析法的南極考察站選址研究[J].武漢大學學報(信息科學版),2015,40(2):249?252.
[13] 焦松,李偉,楊明,等.基于經驗模態分解和灰色關聯度分析的仿真模型驗證方法[J].系統工程與電子技術,2013,35(12):2613?2618.
[14] 任鵬輝,張雪英,孫穎.面向語音情感計算的數據庫的構建與應用研究[J].電視技術,2012,36(21):89?92.