張 曉 宇, 張 華 熊*, 高 強(qiáng)
(1.浙江理工大學(xué) 信息學(xué)院,浙江 杭州 310018;2.浙江傳媒學(xué)院 媒體工程學(xué)院,浙江 杭州 310018)
在語(yǔ)音情感識(shí)別技術(shù)中,相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)算法[1],神經(jīng)網(wǎng)絡(luò)算法為語(yǔ)音情感識(shí)別的突破奠定了重要基礎(chǔ)[2].近年來(lái),深度學(xué)習(xí)在包括圖像處理、圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等各大領(lǐng)域中的應(yīng)用越來(lái)越廣泛和深入,并且取得了顯著的成效[3].深度學(xué)習(xí)在語(yǔ)音情感識(shí)別中的應(yīng)用主要集中在兩方面:一方面,手動(dòng)提取語(yǔ)音特征,通過(guò)深度網(wǎng)絡(luò)從特征中學(xué)習(xí)各個(gè)類別的特點(diǎn)[4]或者融合不同的特征[5],從而進(jìn)一步建立模型預(yù)測(cè)語(yǔ)音信號(hào)的情感類別;另一方面,深度網(wǎng)絡(luò)直接從原始語(yǔ)音信號(hào)中學(xué)習(xí)并提取不同情感類別的特征,進(jìn)而建立模型預(yù)測(cè)情感類別[6].
盡管語(yǔ)音情感識(shí)別已經(jīng)被關(guān)注很久,但它對(duì)研究者來(lái)說(shuō)仍然是一個(gè)很大的挑戰(zhàn).語(yǔ)音情感數(shù)據(jù)集的匱乏,以及選取有效的語(yǔ)音信號(hào)特征是語(yǔ)音情感識(shí)別中存在的兩大問(wèn)題.在日常交流中,聽(tīng)話者本身就可以從聲音的韻律信息和文本的語(yǔ)義信息中獲取說(shuō)話者表達(dá)的情感,Li等[7]應(yīng)用目前主流的雙向長(zhǎng)短時(shí)記憶(bi-directional long short-term memory,BiLSTM)和注意力機(jī)制在音頻、文本上分別實(shí)現(xiàn)了情感識(shí)別,然而其采用的聲學(xué)特征一般是低階描述符(low level descriptors,LLD),如基頻、能量、過(guò)零率、梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficients,MFCC)等特征,雖然LLD與原始信號(hào)密切相關(guān),并有助于提取音頻的即時(shí)語(yǔ)音特征,但它們不提供任何關(guān)于話語(yǔ)的全局信息.文本語(yǔ)義主要是通過(guò)體現(xiàn)情感的單詞組合來(lái)表達(dá),但單一文本信息同樣不能捕捉足夠的語(yǔ)音情感特征.頻譜圖中不同情感的圖像表達(dá)有明顯的區(qū)別,加上當(dāng)前圖像分類算法已取得了顯著的成績(jī),于是通過(guò)圖像分類進(jìn)而識(shí)別語(yǔ)音情感成為語(yǔ)音情感分類的一種新嘗試[8].雖然頻譜圖中包含了頻域信息,不同的情感表達(dá)中,頻域信息也有明顯區(qū)別,但其圖像也只包含部分語(yǔ)音情感特征.考慮到聲學(xué)特征、語(yǔ)音轉(zhuǎn)錄的文本信息以及頻譜圖從不同角度表達(dá)語(yǔ)音情感并且不同特征信息在不同層面相互之間可以作為補(bǔ)充的情況,同時(shí)也受到Vo等[9]將文本和圖像特征結(jié)合實(shí)現(xiàn)圖像檢索的啟發(fā),本文提出一個(gè)新穎的基于深度學(xué)習(xí)的多模式權(quán)重網(wǎng)絡(luò)模型.模型沒(méi)有單一使用某一類特征完成情感分類,也沒(méi)有僅僅通過(guò)將多種特征提取后進(jìn)行簡(jiǎn)單的拼接融合從而識(shí)別情感,而是綜合考慮語(yǔ)音的聲學(xué)特征、文本信息以及頻譜圖信息,利用網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)獲取權(quán)重來(lái)調(diào)節(jié)各個(gè)特征信息所占比重,進(jìn)而構(gòu)建模型預(yù)測(cè)音頻信號(hào)情感類別.最近的關(guān)于音樂(lè)情感分析的研究[10]也證明了應(yīng)用多模態(tài)信息包括音頻和視頻數(shù)據(jù)比使用單一特征識(shí)別效果更加顯著.
獲得聲學(xué)、文本和頻譜圖三者之間的關(guān)系至關(guān)重要,因此,利用三者的一級(jí)分類概率作為輸入搭建權(quán)重網(wǎng)絡(luò)分類模型,讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí),賦予三者不同的權(quán)重,從而提高語(yǔ)音信號(hào)情感的識(shí)別率.另外,對(duì)于語(yǔ)音數(shù)據(jù)分類不均衡及數(shù)據(jù)量不足的問(wèn)題,引入補(bǔ)充交叉熵[11].在頻譜圖分類方面,利用數(shù)據(jù)擴(kuò)容以及加權(quán)隨機(jī)采樣函數(shù)和損失權(quán)重來(lái)改善這兩個(gè)問(wèn)題.
本文充分利用目標(biāo)聲音信號(hào)的聲學(xué)信息、文本信息、梅爾頻譜圖信息,將三者結(jié)合推斷出目標(biāo)聲音信號(hào)所包含的情感.其中所提到的語(yǔ)音編碼模型(audio encoding model,AEM)如圖1所示,實(shí)現(xiàn)了從原始語(yǔ)音信號(hào)中提取MFCC特征,并將其輸入到門循環(huán)單元(gate recurrent unit,GRU).GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的一種,由多個(gè)時(shí)間步GRU Cell構(gòu)成,是和長(zhǎng)短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò)一樣為了解決長(zhǎng)期記憶和反向傳播中的梯度問(wèn)題而提出的網(wǎng)絡(luò),相比LSTM,網(wǎng)絡(luò)具有更少權(quán)重,更易于計(jì)算.編碼后的特征向量與韻律特征結(jié)合送入softmax層得到一級(jí)情感分類概率分布.文本編碼模型(text encoding model,TEM)的輸入信息為原始語(yǔ)音轉(zhuǎn)換后的文本[12],首先使用預(yù)訓(xùn)練模型Glove[13]轉(zhuǎn)換詞向量后,同樣利用GRU和softmax實(shí)現(xiàn)分類,模型流程如圖2所示.頻譜分類模型(spectral classification model,ICM)使用原始語(yǔ)音轉(zhuǎn)換后的梅爾頻譜圖作為輸入,通過(guò)ResNet-50預(yù)訓(xùn)練模型[14]實(shí)現(xiàn)圖像情感分類.本文提出的多模式權(quán)重網(wǎng)絡(luò)語(yǔ)音情感分析方法綜合了上述3個(gè)單一模型的特征信息,通過(guò)自動(dòng)優(yōu)化權(quán)重獲取更優(yōu)的分類結(jié)果.
多模式權(quán)重網(wǎng)絡(luò)編碼分類模型(multi-modal weighted network encoding-classification model,MWEM)的目標(biāo)是從不同角度分析原始語(yǔ)音信號(hào),綜合考慮多種特征,利用網(wǎng)絡(luò)自動(dòng)評(píng)估單一特征的重要性從而得到更準(zhǔn)確的情感分類結(jié)果.具體模型如圖3所示.
語(yǔ)音信號(hào)f作為整體模型的輸入,經(jīng)由AEM得到一個(gè)語(yǔ)音情感分類的概率分布Ps=(s1s2s3s4);另一方面聲音信號(hào)轉(zhuǎn)錄的文本信息經(jīng)過(guò)TEM得到情感分類的概率分布Pt=(t1t2t3t4);同時(shí)依據(jù)聲音信號(hào)轉(zhuǎn)換后的梅爾頻譜圖通過(guò)ICM得到概率分布Pi=(i1i2i3i4).每個(gè)單一模型預(yù)測(cè)的結(jié)果都是單一特征在情感分類中的體現(xiàn),動(dòng)態(tài)賦予不同模型預(yù)測(cè)結(jié)果不同的權(quán)重,也就意味著動(dòng)態(tài)改變單一特征在整體分類中的影響,進(jìn)一步提高情感分類精確度.權(quán)重網(wǎng)絡(luò)內(nèi)部利用每個(gè)單一模型概率分布的分量通過(guò)式(1)線性回歸出最終分類概率的對(duì)應(yīng)分量:

(1)

集成學(xué)習(xí)模型(ensemble learning model,ENSELM)以stacking方法為基礎(chǔ).stacking方法是集成學(xué)習(xí)的方法之一,集成學(xué)習(xí)就是將多個(gè)弱監(jiān)督模型組合起來(lái)以便得到一個(gè)更好、更全面的強(qiáng)監(jiān)督模型.集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱分類器得到了錯(cuò)誤的預(yù)測(cè),其他的弱分類器也可以將錯(cuò)誤糾正回來(lái)[15].stacking是指訓(xùn)練一個(gè)模型用于組合其他模型.集成學(xué)習(xí)模型首先分別訓(xùn)練AEM、TEM、ICM,輸出各個(gè)模型語(yǔ)音情感的概率分布.之后使用決策樹(shù)作為二級(jí)分類器,將各個(gè)模型輸出的分類概率作為新的輸入數(shù)據(jù),通過(guò)二級(jí)分類器得到一個(gè)最終的情感分類.具體如圖4所示.
整體模型使用5折交叉驗(yàn)證.首先將原始數(shù)據(jù)按照4∶1的比例分成訓(xùn)練數(shù)據(jù)dr和測(cè)試數(shù)據(jù)de.同時(shí)將dr均分為5份,訓(xùn)練AEM時(shí),從5折交叉驗(yàn)證數(shù)據(jù)dr中取出其中4折作為訓(xùn)練數(shù)據(jù)dra,其余1折作為測(cè)試數(shù)據(jù)dea.
每一次的交叉驗(yàn)證包含兩個(gè)過(guò)程:(1)基于dra訓(xùn)練語(yǔ)音編碼模型AEM;(2)利用訓(xùn)練好的模型AEM對(duì)dea進(jìn)行預(yù)測(cè).第1次交叉驗(yàn)證完成后得到關(guān)于dea的預(yù)測(cè)值a1.之后使用該模型對(duì)原始數(shù)據(jù)中的測(cè)試數(shù)據(jù)de進(jìn)行預(yù)測(cè),獲取預(yù)測(cè)值b1.
5折交叉驗(yàn)證后,即完成對(duì)語(yǔ)音編碼模型的整個(gè)訓(xùn)練及測(cè)試步驟后,可以得到預(yù)測(cè)值ak(k=1,2,3,4,5)和bk(k=1,2,3,4,5).其中ak就是對(duì)原來(lái)整個(gè)dr的預(yù)測(cè)值,將它們拼湊起來(lái),形成一個(gè)含有m個(gè)元素的列向量,記為A1,m為dr樣本總數(shù).而對(duì)于bk這部分?jǐn)?shù)據(jù),將各部分相加取平均值,得到一個(gè)含有l(wèi)個(gè)元素的列向量,記為B1,l為de樣本總數(shù).
對(duì)TEM和ICM同時(shí)進(jìn)行上述步驟得到T1、I1、B2和B3.A1、T1、I1并列合并得到一個(gè)m行3列的矩陣作為二級(jí)分類器的訓(xùn)練數(shù)據(jù)drs,B1、B2、B3并列合并得到一個(gè)l行3列的矩陣作為二級(jí)分類器的測(cè)試數(shù)據(jù)des.最后利用drs訓(xùn)練決策樹(shù),得出des的預(yù)測(cè)值,即為最終的語(yǔ)音情感分類結(jié)果.
使用IEMOCAP[16]數(shù)據(jù)集來(lái)評(píng)估模型.IEMOCAP情感數(shù)據(jù)集由南加利福尼亞大學(xué)錄制,共包含5個(gè)會(huì)話,每個(gè)會(huì)話由一對(duì)男女一起演繹,表演情感劇本以及即興的場(chǎng)景.數(shù)據(jù)集時(shí)長(zhǎng)近12 h,包括視頻、語(yǔ)音和文本,共包含10 039句話語(yǔ),每句話平均時(shí)長(zhǎng)為4.5 s,由至少3個(gè)標(biāo)注者使用分類標(biāo)簽對(duì)其進(jìn)行標(biāo)注.數(shù)據(jù)集一共含有9種情感,分別是生氣、高興、興奮、悲傷、沮喪、害怕、驚訝、其他和中性.為了將實(shí)驗(yàn)結(jié)果與近期語(yǔ)音情感分類成果作對(duì)比,選擇與他們實(shí)驗(yàn)應(yīng)用同樣的5種情感數(shù)據(jù),包括生氣、高興、興奮、悲傷和中性,并將高興和興奮情緒的數(shù)據(jù)都?xì)w為高興類,故最終應(yīng)用的數(shù)據(jù)集共5 531個(gè)句子,包含生氣、高興、悲傷和中性4種情感.
在語(yǔ)音識(shí)別領(lǐng)域中最常用的語(yǔ)音特征就是MFCC,該系數(shù)主要用于提取語(yǔ)音數(shù)據(jù)特征和降低運(yùn)算維度.對(duì)連續(xù)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)加重、分幀、加窗、快速傅里葉變換等操作后獲取39維MFCC特征.為了包含更多的語(yǔ)音特征信息,使用了目標(biāo)語(yǔ)音的韻律特征作為判斷依據(jù)之一.韻律特征是對(duì)比性特征,因此它們的相對(duì)變化幅度為主要關(guān)注點(diǎn).包含不同情感的語(yǔ)音在韻律特征上表現(xiàn)不同.選取包括諧波特征、響度輪廓、F0過(guò)零率在內(nèi)的35個(gè)韻律特征.圖5為含有高興情感和悲傷情感的語(yǔ)音信號(hào)諧波特征,圖6為二者的語(yǔ)音能量特征,也就是響度,使用均方根誤差(root-mean-square error,RMSE)來(lái)量化此特征.上述語(yǔ)音特征都使用OpenSMILE工具包[17]提取.
為了將文本信息注入文本編碼模型,使用自然語(yǔ)言工具包(natural language toolkit,NLTK)對(duì)文本信息進(jìn)行標(biāo)記,之后通過(guò)Glove轉(zhuǎn)換詞向量,每個(gè)詞向量都包含上下文含義,維度為300.
頻譜分類模型的輸入為圖像,首先利用librosa 工具將每段語(yǔ)音信號(hào)轉(zhuǎn)換為梅爾頻譜圖,為了方便圖像分類,去除了圖像橫、縱坐標(biāo)軸,并為保證接下來(lái)模型訓(xùn)練過(guò)程圖像輸入數(shù)據(jù)和語(yǔ)音及文本保持一致,對(duì)圖像按照“編號(hào)+情感類別”的規(guī)則重命名.
由于語(yǔ)音數(shù)據(jù)的不均衡,整個(gè)實(shí)驗(yàn)使用5折交叉驗(yàn)證以便獲得模型穩(wěn)定的分類.在AEM和TEM中,采用GRU(隱藏層維度為200)作為編碼神經(jīng)網(wǎng)絡(luò).按照默認(rèn)設(shè)置,以學(xué)習(xí)率0.001開(kāi)始執(zhí)行1×104次,為防止過(guò)擬合,設(shè)置了早停,發(fā)現(xiàn)基本到50次迭代時(shí)損失值趨于穩(wěn)定,設(shè)置以20、30、50次迭代為界每次學(xué)習(xí)率縮小10%.為了使得模型收斂速度更快,使用WarmUp預(yù)熱學(xué)習(xí)率方式,設(shè)置預(yù)熱迭代次數(shù)為5.頻譜圖分類模型中使用ResNet-50(輸出特征維度為4)預(yù)訓(xùn)練模型作為圖像編碼器.
在訓(xùn)練完整權(quán)重分類模型過(guò)程中為了判定實(shí)際輸出與期望輸出的接近程度,通常使用交叉熵函數(shù).交叉熵刻畫的是實(shí)際輸出(概率)與期望輸出(概率)的距離,即交叉熵的值越小,兩個(gè)概率分布就越接近.普通交叉熵計(jì)算公式如下:
(2)

然而語(yǔ)音情感數(shù)據(jù)集存在分類不平衡問(wèn)題,為了減少數(shù)據(jù)分類不平衡問(wèn)題的影響,引入了補(bǔ)充交叉熵,該交叉熵不同于普通交叉熵的地方在于訓(xùn)練過(guò)程中均衡地抑制了不正確分類的softmax概率,該方法不需要額外增加少數(shù)類別樣本.
引入補(bǔ)充交叉熵后交叉熵具體定義如圖7所示.
補(bǔ)充交叉熵為
(3)
加上調(diào)節(jié)因子后
(4)
最終交叉熵形式為
(5)

為了驗(yàn)證權(quán)重模型的優(yōu)越性,基于AEM、TEM和ICM進(jìn)行了集成學(xué)習(xí)實(shí)驗(yàn),使用決策樹(shù)作為二級(jí)分類器,具體實(shí)驗(yàn)方法見(jiàn)1.2.
(1)正確率(accuracy)
該指標(biāo)表示語(yǔ)音信號(hào)情感分類中正負(fù)樣本被正確分類的比例.
(2)精確率(precision)
該指標(biāo)是針對(duì)語(yǔ)音情感預(yù)測(cè)結(jié)果而言的,表示預(yù)測(cè)為正的樣本中實(shí)際為正樣本所占的比例.
(3)召回率(recall)
該指標(biāo)是針對(duì)語(yǔ)音情感原始標(biāo)簽而言的,表示語(yǔ)音信號(hào)樣本中的正類有多少被預(yù)測(cè)正確了.
(4)F分?jǐn)?shù)(F-score)
由于精確率和召回率往往成反比關(guān)系,也就是說(shuō)提高精確率,召回率一般情況下會(huì)降低.F分?jǐn)?shù)的目標(biāo)就是為了平衡二者,綜合考慮二者的調(diào)和值.
將權(quán)重分類模型分別與單一特征模型、應(yīng)用集成學(xué)習(xí)方法模型的效果作比較,并且和近年來(lái)同樣在IEMOCAP數(shù)據(jù)集上實(shí)現(xiàn)語(yǔ)音情感分類的模型進(jìn)行比較.
將所有語(yǔ)音、文本、圖像數(shù)據(jù)按8∶0.5∶1.5的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.使用5折交叉驗(yàn)證訓(xùn)練模型.從表1可以看出,使用相同的數(shù)據(jù)集,多模式權(quán)重模型分類結(jié)果按照不同的評(píng)估準(zhǔn)則,要么優(yōu)于現(xiàn)有的文本語(yǔ)音特征結(jié)合的分類模型,要么與該模型結(jié)果相當(dāng).6個(gè)模型4類情感分類結(jié)果的正確率和混淆矩陣分別見(jiàn)圖8、9.為了進(jìn)一步證明實(shí)驗(yàn)方法的有效性,本文與現(xiàn)有模型CNN-LSTM+CNN[18]、CNN-BiLSTM-Attention[19]、Multi-Level Multi-Head Fusion Attention+RNN[20]進(jìn)行比較,如表2所示.具體結(jié)果分析如下:

表1 6種模型識(shí)別結(jié)果

表2 與以往基于IEMOCAP結(jié)果的比較
(1)僅AEM用于語(yǔ)音情感分類
AEM模型整體分類正確率為58.8%,僅有過(guò)半的數(shù)據(jù)分類準(zhǔn)確.從該模型的混淆矩陣中可以看出有29.29%含有高興情緒的語(yǔ)音數(shù)據(jù)被錯(cuò)誤地分類為中性情感,而對(duì)于悲傷情感的區(qū)分正確率高達(dá)89.44%.含悲傷情感的語(yǔ)音在聲音特征上較其他情感辨識(shí)度更高.
(2)僅TEM用于語(yǔ)音情感分類
TEM模型較AEM模型分類正確率有了質(zhì)的提高,正確率突破70%,并且各種情感分類正確率都超過(guò)65%,高興情感的區(qū)分正確率也上升到79.50%,比AEM模型中高興情感分類正確率提高了近40%,這一結(jié)果歸因于表達(dá)快樂(lè)和中性情感的詞語(yǔ)比起聲學(xué)信號(hào)數(shù)據(jù)中的表達(dá),在文本差異上更加明顯,同時(shí)也證明了文本和語(yǔ)音在判別情感的過(guò)程中起到互補(bǔ)作用.出乎意料的是,有13.38%的含有悲傷情緒的語(yǔ)音被錯(cuò)誤地劃分在了高興類別中,這是兩種近乎完全相反表達(dá)的情感.
(3)僅ICM用于語(yǔ)音情感分類
或許是由于語(yǔ)音數(shù)據(jù)集相比純用于圖像分類的圖像數(shù)據(jù)來(lái)講數(shù)量上遠(yuǎn)遠(yuǎn)不夠,ICM無(wú)法充分學(xué)習(xí)每一類語(yǔ)音信號(hào)的頻譜圖像特征,致使頻譜圖分類效果并未達(dá)到預(yù)期,正確率僅為38.9%,其中最易混淆的是悲傷情感和中性情感,61.50%的中性情感語(yǔ)音數(shù)據(jù)被錯(cuò)誤地歸為悲傷情感分類,同時(shí)71.13%的悲傷情感語(yǔ)音數(shù)據(jù)被錯(cuò)誤地歸為中性情感分類.
(4)使用ENSELM用于語(yǔ)音情感分類
利用傳統(tǒng)的集成學(xué)習(xí)方法將單一模型輸出的分類概率通過(guò)一個(gè)二級(jí)分類器重新獲得分類結(jié)果,從該模型的混淆矩陣來(lái)看,含有生氣情感的語(yǔ)音類別識(shí)別率有所提高,超過(guò)了70%,然而其他3個(gè)分類結(jié)果較文本編碼分類模型偏弱,中性情感的分類正確率僅為55.66%.總體來(lái)看,該模型的分類正確率僅為64.9%.一般來(lái)講,綜合模型的分類結(jié)果應(yīng)優(yōu)于單一模型的結(jié)果,但由于基于集成學(xué)習(xí)方法的分類模型在初期數(shù)據(jù)處理方式有很大不同,一級(jí)分類模型各自訓(xùn)練時(shí),首先將訓(xùn)練數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),大大減少了訓(xùn)練數(shù)據(jù)的數(shù)量,由此可能導(dǎo)致分類正確率變低.
(5)使用MWEM、MWEM-C用于語(yǔ)音情感分類
該模型結(jié)合了先前AEM、TEM、ICM 3個(gè)模型的特性,并且利用權(quán)重網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)三者的權(quán)重比值,彌補(bǔ)了各個(gè)模型的缺陷,放大了各個(gè)模型優(yōu)勢(shì),使分類結(jié)果更加準(zhǔn)確.使用普通交叉熵分類模型MWEM和使用補(bǔ)充交叉熵的權(quán)重分類模型MWEM-C與以往基于IEMOCAP情感識(shí)別模型結(jié)果相比,正確率有了很大提升,混淆矩陣的混亂程度大大減輕.并且MWEM-C對(duì)于每一類別情感的識(shí)別正確率都超過(guò)了74%,其中對(duì)高興情感的識(shí)別正確率高達(dá)82.01%,這大大優(yōu)于現(xiàn)有模型分類結(jié)果.
語(yǔ)音情感識(shí)別研究中,有效特征的選取以及使用單一特征的模型往往不能達(dá)到很好的分類效果是研究過(guò)程中兩個(gè)重要挑戰(zhàn).本文提出了一種基于深度學(xué)習(xí)的多模式權(quán)重網(wǎng)絡(luò)模型用于語(yǔ)音情感識(shí)別,該模型提取語(yǔ)音的聲學(xué)特征、語(yǔ)音轉(zhuǎn)化成文本后的語(yǔ)義特征、語(yǔ)音頻譜特征后,不是簡(jiǎn)單地將其拼接融合,而是通過(guò)網(wǎng)絡(luò)學(xué)習(xí)自動(dòng)有效地賦予三者不同的權(quán)重,保留了全局信息和局部信息,特征更全面,識(shí)別效果更好.MWEM在4種情感分類正確率上達(dá)到75%,與單一特征分類模型以及應(yīng)用集成學(xué)習(xí)方法實(shí)現(xiàn)情感分類模型相比分類性能顯著提高,同時(shí)實(shí)驗(yàn)結(jié)果也證明了MWEM在IEMOCAP數(shù)據(jù)集上實(shí)現(xiàn)了很好的語(yǔ)音情感分類效果.
鑒于原模型中頻譜圖分類效果弱,在未來(lái)的工作中,將在頻譜圖分類方面進(jìn)行優(yōu)化,尋找更加適合的網(wǎng)絡(luò)模型,同時(shí)對(duì)圖像數(shù)據(jù)做增強(qiáng)處理,突出各類別頻譜圖的特性,從而進(jìn)一步優(yōu)化權(quán)重網(wǎng)絡(luò)模型.