摘要:探索在不同的情感狀態下的基音特征變化規律#65377;通過對含有生氣#65380;高興#65380;悲傷情感語音信號進行分析,總結了情感語音基頻的變化規律,確定了用于情感識別的12維的基頻的基本特征以及擴展特征,運用混合高斯模型進行情感識別,并作了識別實驗,獲得了較好的結果#65377;
關鍵詞:語音信號;基頻;情感特征;情感識別
中圖分類號:TP391.42文獻標志碼:A
文章編號:1001-3695(2007)10-0101-03
0引言
情感計算是近年來研究的一個熱門話題#65377;讓計算機帶有情感,這是人工智能與人機交互追求的目標#65377;關于對人類情感處理的研究正在不斷地深入之中,其中語音信號中的情感信息處理的研究越來越受到人們的重視#65377;
從語音信號中提取情感特征,判斷說話人的喜怒哀樂,分析人的情感和語音信號的關系,只是剛剛興起的研究課題[1,2]#65377;傳統的語音識別著眼于語音詞匯表達的準確性,忽略了包含在語音信號中的情感因素#65377;本文從語音的基頻特征出發,統計了不同情感下語音基頻的變化規律,確定了基于基頻的情感語音特征,最后用GMM進行建模和識別,對于語音情感識別作了初步探討,取得了較好的效果#65377;
1情感語音數據的采集
用于情感分析的語音信號是研究工作開展的基礎#65377;在建立情感語音數據庫時,事先從TIMIT數據庫中選出一些句子,均分成四組,找在校的大學生分別用四種不同的情感讀,每人4組,每組25句#65377;所選擇的語句能夠加入說話人的不同情感#65377;如果所選擇的語句比較中性或者說很難強加一定的感情,那必然對發音和識別均帶來很大的困難,從而無法比較同一語句在各種不同情感狀態下各種特征參數的不同之處#65377;在錄制完后,對所有的語音進行評估,對于不符合要求的句子要進行補錄#65377;
2情感語音特征的分析與選取
語音情感識別要解決的基本問題,是要找到情感與語音模式之間較好的對應關系#65377;特別地,要尋找計算機能抽取和用來識別的特征#65377;研究表明基音頻率是反映情感信息的重要特征[3]#65377;本文使用基頻的基本特征以及其擴展特征來進行情感識別#65377;
2.1情感特征分析
通過對大量的情感語句的基頻進行觀察分析,得到這樣的結論:對于同一個句子,不同情感狀態下的基頻變化是不同的,基頻的構造特征也是不同的#65377;如圖1所示,它們是同一個句子分別在四種情感狀態下的基頻曲線#65377;本文選擇整個句子基頻的動態范圍#65380;均值#65380;方差#65380;最大值#65380;最小值來作為基頻的基本特征;基頻斜率的最大值#65380;最小值#65380;均值作為基頻的擴展特征#65377;
考慮到對于每一句話,說話者所傳輸的情感不是均勻分布的,而是著重地強調其中的某一個或某一些單詞#65377;通過用語音分析工具sfs軟件對400句的情感語句信號的基頻進行觀察分析,總結了情感語句信號前端基頻變化的一些統計規律,就是生氣句子基頻曲線的前端上升再下降所占的比率最大為46%;高興句子前端的基頻上升或者上升再下降所占的比率較大,分別為30%和52%;中性句子前端的基頻中保持或者上升再下降所占的比率較大,分別為29%和36%;悲傷句子前端的基頻保持或者下降再上升所占的比率較大,分別為37%和22%#65377;表1為統計結果#65377;
由表1可以看出,在基頻曲線的前端,悲傷時的語音基頻大部分是持平的,而其他三種情感的基頻基本集中在上升又下降上#65377;因此,基頻曲線前端的斜率應該是判別悲傷情感的有效特征之一#65377;
綜合觀察分析的結果,選擇基頻的基本特征以及擴展特征,共12維的基頻特征,如下所示:
a)基頻的均值#65380;方差#65380;動態變化范圍;
b)前端部分基頻的上升和下降斜率;
c)整個句子基頻的上升部分斜率的最大值#65380;均值,下降部分斜率的最大值#65380;均值;
d)整個句子基頻斜率的動態范圍#65380;均值#65380;方差#65377;
情感語音特征如表2#65380;3所示#65377;
從表2#65380;3可見,對于生氣的感情來說,其基頻變化范圍和方差值明顯要比其他情感大,但是其他特征的變化不是很明顯,因此必須對同一種情感下的大量語句的情感特征進行統計,利用各個特征的統計特性進行建模和識別#65377;
2.2情感特征的提取
為了分析情感語音信號的基頻變化情況,先求出情感語句的基頻#65377;在不同情感狀態下語音信號#65380;基頻的動態變化范圍很寬,所以采用最常用的短時自相關法進行基頻追蹤時,對于情感劇烈變化的語音,基頻估計往往出現誤差#65377;在這里采用基于多相濾波器組的語音基頻檢測方法[7],運用多相濾波器組分解語音信號頻譜;然后利用聲帶震動的能量準周期性在各個子帶進行峰值搜索,并綜合這些子帶的搜索結果計算基音周期;再利用中值濾波對其進行一些平滑后處理#65377;
對于處理后整個句子的基頻計算其均值#65380;方差#65380;動態范圍#65377;
在前端基頻斜率的計算前,先確定要處理的前端部分#65377;在這里確定最前面的一個穩定發音的基頻為處理對象#65377;將前端基頻連續的一段取出,計算其相鄰的基頻之差來作為斜率值#65377;這里的前端部分取的是句子最前面的一個穩定發音的基頻#65377;
在計算整個句子基頻上升和下降部分斜率的最大值#65380;均值以及動態范圍和方差時,先把整個句子的基頻分成連續基頻存在的幾段;然后對每段相鄰的兩個基頻差值計算其斜率,取出正的最大值,即為當前這一小段的上升斜率的最大值,同理,負的最小值為下降部分斜率的最大值#65377;每段處理完畢后,記錄其上升和下降部分的斜率,以及上升和下降部分的起始與終止的位置#65377;對這個句子的所有基頻連續存在的段進行比較,找出整個句子上升#65380;下降斜率的最值#65377;
3情感識別模型
情感識別的方法有主分量分析#65380;人工神經網絡#65380;支持向量機#65380;隱馬爾科夫模型[5~7]等#65377;本文采用混合高斯模型#65377;
4情感語音識別實驗
4.1識別實驗
為了保證實驗數據的科學性,通過主觀評價來檢驗數據的有效性,下面是感知實驗#65377;
實驗過程:本文選了4個人4種表情,每種表情25句話共400句,在實驗室8名同學的協助下完成了該實驗#65377;每人識別50句話,這50句話是隨機分的,在實驗前同學們都不知道語句的意思和感情,只是憑主觀感覺去識別#65377;表1中,橫坐標是要識別的感情,縱坐標是被識別成的感情,從實驗結果中可看出,anger\eutral\\sad的正確識別率分別為82%#65380;94%#65380;86%,happy的正確識別率差一些,只有48%#65377;這就可以看出,用happy實驗數據不科學;anger和sad的情感語句有很強的情感傾向性,還是比較科學的;neutral的識別率最高#65377;
實驗數據采用4種感情共100句話,其中每種感情25句,分別讓4名錄音者進行錄制,構成400句帶有情感的語音數據#65377;為保證實驗數據的科學性,針對錄制的語音數據,通過感知實驗來主觀評價數據的有效性#65377;本文選定8個感知實驗者,在未知原始語音感情的情況下,每個實驗者針對隨機分配的50句錄音數據進行主觀感知識別#65377;
感知實驗統計結果如表4所示#65377;從表4中可以看出,anger\eutral\\sad的正確識別率分別為82%#65380;94%#65380;86%,happy的正確識別率差一些,為80%#65377;從實驗統計結果來看,基本能夠保證試驗用情感數據的有效性#65377;試驗結果如表5所示#65377;
4.2實驗結果分析與總結
從表5可看出,neutral\\sad的識別率較高,anger\\happy的識別率稍差#65377;從表中還可以看出,anger\\happy誤識率最高,anger\eutral和neutral\\sad的誤識率也較高#65377;這與感知實驗的結果基本吻合#65377;這表明大部分的情感均被正確地識別,特別是neutral\\sad,而anger\\happy比較容易混淆,這一方面與情感表達是否強烈有關,因為主觀測評表明,即使是找人來聽語音判斷情感,正確的識別率也只能在80%左右#65377;但主要原因與所選擇的特征集有關#65377;考察各個特征對情感識別作的貢獻,找出可以進一步區分四種情感的有效的特征集,選擇更加有效的特征集以及更加科學的識別方法是今后工作的重點#65377;
參考文獻:
[1]FOTINEA S E,BAKAMIDIS S,ATHANASELIS T,et al.Emotion in speech:towards an integration of linguistic, paralinguistic, and psychological analysis[C]//Proc of International Conference on Spoken Language Processing.Berlin,Heidelberg:SpringerVerlag,2003:11251132.
[2]JIANG Danning,CAI Lianhong.Speech emotion classification with the combination of statistic features and temporal features[C]//Proc of ICME.2004:19671970.
[3]MERAL H M,EKENEL H K,OZSOY A S.Role of intonation patterns in convering emotion in speech[C]//Proc of International Conference on Phonetic Sciences.San Francisco:USA Murray, I.R,1999:2001-2004.
[4]付中華,趙榮椿,蔣冬梅.基于多相濾波器組的語音基頻檢測算法[J].西北工業大學學報,2003,21(5):603-605.
[5]VERVERIDIS D,KOTROPOULOS C,PITAS I.Automatic emotional speech classification[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.2004:593-596.
[6]CHUANG Zejing,WU C H.IGbased feature extraction and compensation for emotion recognition from speech[C]//Proc of Affective Comuting and Intelligent(ACII).Berlin:SpringerVerlag,2005:358-363.
[7]VALERY A P.Emotion recognition in speech signal:experimental study,development, and application[C]//Proc of International Conference on Spoken Language Processing.2000:222-225.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”