鄧葉勛,趙 暉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)
語(yǔ)音是人機(jī)交互的重要方式之一,語(yǔ)音信號(hào)中除自身豐富的語(yǔ)言學(xué)信息外,還包括大量說(shuō)話人的個(gè)性、主觀感受、情感表達(dá)等超語(yǔ)言學(xué)信息[1]。隨著語(yǔ)音合成技術(shù)的不斷發(fā)展,未來(lái)使計(jì)算機(jī)產(chǎn)生能夠具有人類(lèi)情感的語(yǔ)音將成為可能。而情感語(yǔ)音轉(zhuǎn)換的任務(wù)就是在保留基本語(yǔ)義和說(shuō)話人信息不變的同時(shí),將語(yǔ)音從一種情感狀態(tài)轉(zhuǎn)換為另一種情感狀態(tài)[2]。
早期的語(yǔ)音轉(zhuǎn)換采用映射碼本[3]的方法,但該方法對(duì)新數(shù)據(jù)的建模能力有限,轉(zhuǎn)換效果不佳。因此,基于統(tǒng)計(jì)方法的語(yǔ)音轉(zhuǎn)換技術(shù)體現(xiàn)出其優(yōu)秀性能[4-5],其中,基于高斯混合模型(Gaussian Mixture Model,GMM)的轉(zhuǎn)換方法被廣泛應(yīng)用,其采用局部回歸函數(shù)的權(quán)重和作為轉(zhuǎn)換函數(shù)進(jìn)行轉(zhuǎn)換建模,但該模型中設(shè)置了過(guò)多的高斯核,極易產(chǎn)生訓(xùn)練數(shù)據(jù)的過(guò)擬合。基于神經(jīng)網(wǎng)絡(luò)[6]的方法通過(guò)構(gòu)建一個(gè)非線性映射函數(shù)避免過(guò)擬合,但是該方法需要大量的訓(xùn)練數(shù)據(jù)進(jìn)行參數(shù)調(diào)整,在小型語(yǔ)料庫(kù)中使用會(huì)受限。
隨著語(yǔ)音轉(zhuǎn)換技術(shù)的日趨成熟,對(duì)情感語(yǔ)音轉(zhuǎn)換的研究工作也有很多新嘗試。文獻(xiàn)[7]采用Pitch-Target模型參數(shù)化基頻,并使用基于GMM和分類(lèi)回歸樹(shù)(Classification and Regression Trees,CART)的基頻轉(zhuǎn)換方法,實(shí)現(xiàn)漢語(yǔ)中性語(yǔ)音至情感語(yǔ)音的基頻轉(zhuǎn)換。在漢語(yǔ)韻律結(jié)構(gòu)中,文獻(xiàn)[8]提出“大波浪加小波、語(yǔ)調(diào)加字調(diào)”的語(yǔ)調(diào)層次思想,文獻(xiàn)[9]選擇離散余弦變換(Discrete Cosine Transform,DCT)參數(shù)化基頻,并根據(jù)層次結(jié)構(gòu)特點(diǎn)將基頻分解為短語(yǔ)層和音節(jié)層2個(gè)層次,然后使用基于GMM的方法分別進(jìn)行轉(zhuǎn)換,基于DCT的方法進(jìn)行情感語(yǔ)音轉(zhuǎn)換能夠提高目標(biāo)情感的力度,然而對(duì)于不同長(zhǎng)度的層級(jí)單元,DCT系數(shù)的個(gè)數(shù)無(wú)法準(zhǔn)確確定,對(duì)于長(zhǎng)度較短的音節(jié),DCT參數(shù)化時(shí)表征能力會(huì)變?nèi)?導(dǎo)致各韻律層級(jí)間無(wú)法保證語(yǔ)音基頻的自然連續(xù)性。為在語(yǔ)音轉(zhuǎn)換過(guò)程中充分考慮語(yǔ)音的幀間相關(guān)性,文獻(xiàn)[10]提出一種基于卷積非負(fù)矩陣分解的語(yǔ)音轉(zhuǎn)換方法,該方法能較好地保存和轉(zhuǎn)換語(yǔ)音幀間的相關(guān)性,但缺少對(duì)語(yǔ)音韻律結(jié)構(gòu)進(jìn)行建模。連續(xù)小波變換(Continuous Wavelet Transform,CWT)在語(yǔ)音基頻的建模和轉(zhuǎn)換中已經(jīng)取得了顯著成效,文獻(xiàn)[11]使用CWT方法將基頻分解至10個(gè)層級(jí),并基于動(dòng)態(tài)核偏最小二乘法進(jìn)行了語(yǔ)音轉(zhuǎn)換。文獻(xiàn)[12]提出基于非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)的語(yǔ)音轉(zhuǎn)換方法,其采用稀疏表達(dá)的思想將目標(biāo)語(yǔ)音信號(hào)特征通過(guò)一組基數(shù)據(jù)的線性組合進(jìn)行表示。近年來(lái),少數(shù)民族語(yǔ)言的轉(zhuǎn)換技術(shù)也取得了顯著的研究成果[13],但是生成語(yǔ)音的自然度仍不夠理想。
針對(duì)以上問(wèn)題,本文基于NMF原理,使用CWT對(duì)情感語(yǔ)音基頻進(jìn)行層次建模,采用STRAIGHT[14]分析工具提取與合成語(yǔ)音特征,在此基礎(chǔ)上提出一種參數(shù)控制的情感語(yǔ)音轉(zhuǎn)換方法。
NMF是一種稀疏編碼方法,其主要設(shè)計(jì)思想是將信號(hào)表征為一組基的線性組合,本文稱(chēng)這一組基為范例,其具體形式為:
其中,向量xn表示第n幀輸入特征信號(hào),向量dm和am,n分別表示第n幀信號(hào)的第m個(gè)范例特征及對(duì)應(yīng)的非負(fù)權(quán)重。本文中,xn為第n幀語(yǔ)音信號(hào)的基頻特征值,每一個(gè)基元素被稱(chēng)為基頻的范例數(shù)據(jù),其矩陣表示形式為:
xn≈Dan
其中,矩陣D=[d1,d2,…,dM],向量an=[a1,n,a2,n,…,aM,n]T分別表示基矩陣和對(duì)應(yīng)權(quán)重的集,本文中,矩陣D為訓(xùn)練數(shù)據(jù)中構(gòu)造出的范例字典,向量an為激活向量。
對(duì)于一句語(yǔ)音信號(hào)中的基頻特征,對(duì)其進(jìn)行NMF建模為:
X=DA
其中,矩陣X=[x1,x2,…,xn]表示基頻參數(shù)化后的特征數(shù)據(jù),矩陣A=[a1,a2,…,aN]表示對(duì)應(yīng)的激活矩陣,N為語(yǔ)音信號(hào)的幀長(zhǎng)。
NMF方法中加入了非負(fù)性限制的條件,在估計(jì)激活矩陣A時(shí),最小化目標(biāo)函數(shù)為:
其中,λ為稀疏限制因子,d(·)為代價(jià)函數(shù),其采用Kullback-Leibler(KL)散度誤差最小化方法計(jì)算X和DA兩者的散度。對(duì)于矩陣a和矩陣b,兩者的KL散度定義為:
其中,h表示a和b兩種KL散度的計(jì)算數(shù)據(jù)域。
文獻(xiàn)[15]給出了NMF的求解方法,本文求解激活矩陣A時(shí)使用的迭代更新法則如下:
An+1=An.*(DT(X./(DAn)))./(DT+λ)
其中,.*和./分別表示矩陣中各元素間進(jìn)行點(diǎn)積和點(diǎn)除操作。
利用NMF方法進(jìn)行語(yǔ)音轉(zhuǎn)換時(shí),需要依據(jù)源字典矩陣Ds和目標(biāo)字典矩陣Dt構(gòu)造出一個(gè)平行字典數(shù)據(jù),其中,源字典Ds由源說(shuō)話人語(yǔ)音特征范例構(gòu)成,目標(biāo)字典Dt由轉(zhuǎn)換到特定情感的說(shuō)話人特征范例構(gòu)成。這2個(gè)字典包含說(shuō)話人相同的文本內(nèi)容,由于基于NMF方法的語(yǔ)音轉(zhuǎn)換需要源和目標(biāo)的平行數(shù)據(jù),因此本文使用動(dòng)態(tài)時(shí)間規(guī)整(DTW)方法進(jìn)行源字典和目標(biāo)字典的對(duì)齊。
文獻(xiàn)[16]指出,對(duì)于語(yǔ)音信號(hào)而言,對(duì)源信號(hào)和目標(biāo)信號(hào)特征分別用源字典和目標(biāo)字典進(jìn)行稀疏表示時(shí),最終獲得的2個(gè)激活矩陣具有相似性。依據(jù)該結(jié)論,在已經(jīng)獲得源-目標(biāo)平行字典范例數(shù)據(jù)的情況下,源字典估計(jì)出的源特征激活矩陣可以直接作為目標(biāo)特征的激活矩陣,即轉(zhuǎn)換中源和目標(biāo)共用一組激活矩陣。因此,使用待轉(zhuǎn)換的中性語(yǔ)音提取相應(yīng)的激活矩陣,根據(jù)語(yǔ)料庫(kù)中構(gòu)建的情感字典可以將目標(biāo)情感特征進(jìn)行重構(gòu)。
在基頻參數(shù)化處理前,需要對(duì)提取到的語(yǔ)音基頻進(jìn)行預(yù)處理,將基頻輪廓轉(zhuǎn)換到對(duì)數(shù)域尺度,然后使用Z-score標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行歸一化,以便在小波尺度中分析使用。對(duì)一句中性語(yǔ)音的基頻預(yù)處理操作流程如圖1所示。

圖1 例句“備化學(xué)考試”基頻輪廓預(yù)處理流程
本文為更好地描述基頻小波參數(shù)化過(guò)程,將基頻輪廓表示為序列f0,f0連續(xù)小波變換W(f0)(τ,t)定義為:
其中,f0(x)是輸入信號(hào),ψ(t)是墨西哥帽母函數(shù)。
文獻(xiàn)[2]對(duì)5個(gè)特定的離散尺度域進(jìn)行分析,有效簡(jiǎn)化了小波建模,根據(jù)該文獻(xiàn)思想,本文基頻重建公式如下:
wi=W2i-1(f0)(t)+W2i(f0)(t)
i=1,2,…,5
其中,wi為特征參數(shù)向量,w1~w5依次對(duì)應(yīng)韻律結(jié)構(gòu)中的音素層、音節(jié)層、單詞層、短語(yǔ)層和句子層。語(yǔ)音基頻在通過(guò)預(yù)處理操作后,其小波分解后的5層表示形式如圖2所示。

圖2 基頻輪廓的小波5尺度特征表示
NMF方法要求特征數(shù)據(jù)具有非負(fù)性,對(duì)小波分解后的5層數(shù)據(jù)進(jìn)行非負(fù)變換處理,對(duì)矩陣w進(jìn)行以e為底的冪函數(shù)操作,表示為:
Fc=exp(w)
此時(shí)得到的矩陣Fc即為用于NMF的情感轉(zhuǎn)換小波參數(shù)化特征數(shù)據(jù)。
在對(duì)基頻進(jìn)行小波分解后,針對(duì)得到的小波 5層特征Fc,用之前獲取的原始基頻幀對(duì)齊索引信息作為源和目標(biāo)特征數(shù)據(jù)的對(duì)齊依據(jù)。從訓(xùn)練語(yǔ)音數(shù)據(jù)中獲取各基頻段的平行特征數(shù)據(jù)Fc,將其作為構(gòu)建平行字典的范例數(shù)據(jù)內(nèi)容。構(gòu)建出的平行字典為:

此時(shí),用于情感語(yǔ)音轉(zhuǎn)換的平行字典被構(gòu)建出來(lái),其構(gòu)成了用于情感語(yǔ)音轉(zhuǎn)換的數(shù)據(jù)。
因?yàn)樵醋值洹⒛繕?biāo)字典使用相同的激活矩陣,所以能夠采用NMF方法實(shí)現(xiàn)情感語(yǔ)音的基頻轉(zhuǎn)換。同時(shí),引入轉(zhuǎn)換參數(shù)控制調(diào)整因子進(jìn)行基頻轉(zhuǎn)換,通過(guò)優(yōu)化目標(biāo)特征的激活值而重建出更具表現(xiàn)力的目標(biāo)情感語(yǔ)音。
對(duì)于待轉(zhuǎn)換的中性語(yǔ)音,采用同樣的方法獲得其基頻段的5層小波表示形式,計(jì)算出其激活矩陣As,公式為:

傳統(tǒng)的計(jì)算方法中,目標(biāo)語(yǔ)音特征數(shù)據(jù)的表示方式為:


其中,C為參數(shù)控制調(diào)整因子,是一個(gè)常數(shù),其值根據(jù)待轉(zhuǎn)換到不同目標(biāo)情感語(yǔ)音的實(shí)際情況而取得。在源激活矩陣As中的激活值較小時(shí),將所占比重偏小的激活值取為0,該值不參與目標(biāo)情感基頻特征數(shù)據(jù)的構(gòu)建。經(jīng)過(guò)調(diào)整后,目標(biāo)情感特征數(shù)據(jù)的構(gòu)建采用如下的改進(jìn)式:

為有效評(píng)判引入調(diào)整因子對(duì)情感語(yǔ)音轉(zhuǎn)換系統(tǒng)的影響,本文分別在具有調(diào)整因子和不具有調(diào)整因子的轉(zhuǎn)換系統(tǒng)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)系統(tǒng)說(shuō)明如下:
1)NMF-0系統(tǒng)中采用傳統(tǒng)的NMF情感語(yǔ)音轉(zhuǎn)換方法進(jìn)行情感語(yǔ)音基頻的轉(zhuǎn)換,其作為基準(zhǔn)線使用。
2)NMF-1系統(tǒng)在NMF轉(zhuǎn)換方法的基礎(chǔ)上,引入情感語(yǔ)音調(diào)整因子C,其通過(guò)調(diào)整參數(shù)C的數(shù)值獲得對(duì)應(yīng)的基頻轉(zhuǎn)換結(jié)果。
實(shí)驗(yàn)選取本研究小組錄制的情感語(yǔ)音數(shù)據(jù)庫(kù)作為語(yǔ)料數(shù)據(jù)源,錄音采樣頻率為16 000 Hz,采樣精度為16 bit,為雙聲道采樣音頻。選取中性、高興、恐懼和悲傷4種情感的男聲語(yǔ)音,每類(lèi)語(yǔ)音共30句語(yǔ)句作為本次實(shí)驗(yàn)數(shù)據(jù),進(jìn)行由中性語(yǔ)音到其他3種情感語(yǔ)音的訓(xùn)練和轉(zhuǎn)換實(shí)驗(yàn),以驗(yàn)證本文轉(zhuǎn)換方法的有效性。在轉(zhuǎn)換實(shí)驗(yàn)中,用20句平行語(yǔ)句作為實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù),10句平行語(yǔ)句作為測(cè)試集數(shù)據(jù),使用STRAIGHT工具提取語(yǔ)音基頻,幀長(zhǎng)為25 ms,幀移為5 ms,結(jié)合情感語(yǔ)音手工標(biāo)注出濁音部分,提取對(duì)應(yīng)平行語(yǔ)音基頻段,用于情感語(yǔ)音基頻轉(zhuǎn)換。
在進(jìn)行客觀評(píng)測(cè)時(shí),使用轉(zhuǎn)換后的基頻值與目標(biāo)情感的基頻值的均方根誤差(RMSE)作為評(píng)估標(biāo)準(zhǔn),該值表達(dá)式如下:
其中,l表示任一幀數(shù)據(jù),L表示基頻段中語(yǔ)音幀數(shù)據(jù)的總個(gè)數(shù),Fl′表示經(jīng)轉(zhuǎn)換得到的第l幀基頻數(shù)值,Fl表示對(duì)應(yīng)該幀的目標(biāo)基頻數(shù)值。RMSE值越小,則情感語(yǔ)音轉(zhuǎn)換的錯(cuò)誤率越低,轉(zhuǎn)換效果越好。
在實(shí)驗(yàn)中,分別使用NMF-0系統(tǒng)和NMF-1系統(tǒng)對(duì)中性到高興情感、中性到恐懼情感、中性到悲傷情感進(jìn)行基頻轉(zhuǎn)換。其中,中性-高興字典基數(shù)據(jù)個(gè)數(shù)為4 535,中性-恐懼字典基數(shù)據(jù)個(gè)數(shù)為4 354,中性-悲傷字典基數(shù)據(jù)個(gè)數(shù)為5 521。NMF-1系統(tǒng)中選取的調(diào)整因子變化范圍為[1.00E-06,8.00E-04]。不同C值下的客觀實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同C值下基頻轉(zhuǎn)換RMSE結(jié)果
由表1可以看出,在NMF-1中C=1.00E-04時(shí),3種情感轉(zhuǎn)換的RMSE值都比NMF-0中的對(duì)應(yīng)值低,其中,中性-高興情感RMSE值下降了1.77 Hz,中性-恐懼情感RMSE值下降了2.88 Hz,中性-悲傷情感RMSE值下降了1.48 Hz。引入調(diào)整因子C,可以在一定程度上降低情感語(yǔ)音轉(zhuǎn)換的重建誤差,其中,中性-恐懼類(lèi)情感效果最為明顯,達(dá)到了約3 Hz。隨著調(diào)整因子的增大,RMSE值并不呈現(xiàn)下降趨勢(shì),在C=1.00E-06時(shí),中性-高興類(lèi)和中性-恐懼類(lèi)情感的RMSE值都有稍微提高,而中性-悲傷類(lèi)情感RMSE值則有所降低。同時(shí)可以看到,當(dāng)C的取值大于1.00E-04時(shí),RMSE值急劇變大,重建基頻發(fā)生扭曲,轉(zhuǎn)換效果變差,因此,1.00E-04成為選取調(diào)整因子C的分界值。
通過(guò)上述分析可知,在基于NMF方法的情感語(yǔ)音轉(zhuǎn)換中,引入調(diào)整因子C可以在一定程度上降低基頻的重建誤差。調(diào)整因子C值的選取不宜過(guò)小,也不宜過(guò)大,C值過(guò)小會(huì)因?yàn)楸戎夭粔蚨_(dá)不到較好效果;C值過(guò)大會(huì)使激活值不足而產(chǎn)生嚴(yán)重的基頻扭曲,導(dǎo)致情感語(yǔ)音轉(zhuǎn)換誤差過(guò)大。
文獻(xiàn)[17]指出在應(yīng)用的問(wèn)題規(guī)模逐漸增大時(shí),NMF方法運(yùn)算規(guī)模隨之增大,此時(shí),基于NMF的情感語(yǔ)音轉(zhuǎn)換也會(huì)耗費(fèi)很大的計(jì)算時(shí)間,對(duì)轉(zhuǎn)換系統(tǒng)的性能有一定影響。為對(duì)比NMF-1和NMF-0 2種系統(tǒng)的時(shí)效性,對(duì)2種方法的情感語(yǔ)音轉(zhuǎn)換計(jì)算時(shí)間進(jìn)行實(shí)驗(yàn)分析。在字典中選取個(gè)數(shù)為500、1 000、2 000、3 000、4 000的基范例分別進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì) 2種系統(tǒng)轉(zhuǎn)換測(cè)試集數(shù)據(jù)的總時(shí)間及兩者時(shí)間差,其中,NMF-1中選取調(diào)整因子C=1.00E-04,測(cè)試結(jié)果如表2所示。

表2 不同系統(tǒng)計(jì)算時(shí)間對(duì)比
從表2的結(jié)果中可以看出,在加入?yún)?shù)控制后,NMF-0和NMF-1 2種系統(tǒng)在運(yùn)算耗時(shí)方面相差不多,NMF-1系統(tǒng)并沒(méi)有因?yàn)榭刂茀?shù)的加入而耗費(fèi)更多的計(jì)算時(shí)間,對(duì)于3種情感語(yǔ)音轉(zhuǎn)換,中性-高興轉(zhuǎn)換中NMF-1僅在基范例個(gè)數(shù)為4 000時(shí)耗時(shí)相對(duì)較多,其他情況下兩者耗時(shí)基本相當(dāng),其中也出現(xiàn)了NMF-1比NMF-0耗時(shí)短的情況,如中性-恐懼轉(zhuǎn)換基范例個(gè)數(shù)為1 000、中性-悲傷轉(zhuǎn)換基范例個(gè)數(shù)為3 000時(shí)。
綜上所述,在基于NMF的情感語(yǔ)音轉(zhuǎn)換中,引入?yún)?shù)控制后,轉(zhuǎn)換系統(tǒng)并沒(méi)有因此而產(chǎn)生較多的運(yùn)行耗時(shí)。同時(shí),通過(guò)參數(shù)控制的方法可以有效降低轉(zhuǎn)換的RMSE值,使得目標(biāo)基頻具有更小的誤差值,從而獲得更好的轉(zhuǎn)換結(jié)果。
為進(jìn)一步對(duì)比轉(zhuǎn)換效果,本文進(jìn)行情感語(yǔ)音平均主觀意見(jiàn)得分(Mean Opinion Score,MOS)實(shí)驗(yàn)。實(shí)驗(yàn)中采用“5分制”分別對(duì)數(shù)據(jù)庫(kù)中的中性語(yǔ)音、情感語(yǔ)音、NMF-0轉(zhuǎn)換后的情感語(yǔ)音和NMF-1轉(zhuǎn)換后的情感語(yǔ)音進(jìn)行MOS打分,具體的打分規(guī)則如表3所示。在每組評(píng)測(cè)中,選取30句情感語(yǔ)音(10句高興,10句恐懼,10句悲傷)進(jìn)行測(cè)試,4名大學(xué)生參與本次測(cè)聽(tīng)實(shí)驗(yàn),受試人員均無(wú)聽(tīng)力方面障礙,能夠熟練理解和運(yùn)用待測(cè)試語(yǔ)言。
由客觀實(shí)驗(yàn)結(jié)果可知,C=1.00E-04時(shí),3種情感的轉(zhuǎn)換語(yǔ)音在RMSE值上均最優(yōu)。因此,主觀實(shí)驗(yàn)中NMF-1方法設(shè)定C=1.00E-04。

表3 MOS打分規(guī)則
圖3所示為對(duì)實(shí)驗(yàn)語(yǔ)料庫(kù)的4種情感進(jìn)行MOS打分的結(jié)果,從中可以看出,所有類(lèi)別的語(yǔ)音都基本能夠正確表現(xiàn)出特定情感,因此,該語(yǔ)料數(shù)據(jù)能有效分析本次主觀實(shí)驗(yàn)。

圖3 原始語(yǔ)料庫(kù)MOS打分結(jié)果
圖4所示為NMF-0系統(tǒng)和NMF-1系統(tǒng)由中性轉(zhuǎn)換到高興、恐懼、悲傷情感語(yǔ)音的MOS打分結(jié)果。由圖4中結(jié)果可以看出,NMF-1系統(tǒng)轉(zhuǎn)換的高興和悲傷情感MOS得分都比NMF-0系統(tǒng)高,而轉(zhuǎn)換的恐懼情感MOS得分較低,產(chǎn)生該現(xiàn)象的原因有2點(diǎn):1)高興和悲傷有很明顯的情感特性,聽(tīng)辨者很容易捕捉其情感變化;2)由于恐懼情感中帶有顫音、停頓等情感因素,在原始語(yǔ)料庫(kù)MOS得分中相對(duì)其他2種情感得分較低,情感的變動(dòng)因素會(huì)給聽(tīng)辨者帶來(lái)一定的區(qū)分難度。在本次主觀實(shí)驗(yàn)中,中性轉(zhuǎn)換到高興、悲傷情感達(dá)到了預(yù)期效果,加入調(diào)整因子的參數(shù)控制方法獲得了相對(duì)較高的MOS分。

圖4 不同系統(tǒng)語(yǔ)音轉(zhuǎn)換MOS得分結(jié)果
本文基于NMF提出一種參數(shù)控制的情感語(yǔ)音轉(zhuǎn)換方法,研究特定語(yǔ)言的情感語(yǔ)音基頻轉(zhuǎn)換。通過(guò)將目標(biāo)基范例替換待轉(zhuǎn)換語(yǔ)音基范例重建出目標(biāo)語(yǔ)音基頻,且在具體的轉(zhuǎn)換方法中引入激活度調(diào)整因子作為參數(shù)控制,從而更好地捕捉目標(biāo)情感語(yǔ)音基頻特征,提高情感語(yǔ)音轉(zhuǎn)換質(zhì)量。實(shí)驗(yàn)結(jié)果表明,相對(duì)沒(méi)有引入調(diào)整因子的傳統(tǒng)方法,該改進(jìn)方法在基頻重建誤差和情感力度方面均表現(xiàn)出一定的優(yōu)勢(shì),能有效將中性語(yǔ)音轉(zhuǎn)換為情感語(yǔ)音。針對(duì)本文的分析結(jié)果,后續(xù)將在以下3個(gè)方面展開(kāi)工作:研究平行字典中基范例數(shù)據(jù)的最優(yōu)個(gè)數(shù),降低系統(tǒng)的運(yùn)行時(shí)間,提升轉(zhuǎn)換模型的性能;在情感語(yǔ)料庫(kù)中擺脫平行數(shù)據(jù)的限制,使用非平行數(shù)據(jù)構(gòu)建轉(zhuǎn)換字典;結(jié)合統(tǒng)計(jì)分析方法構(gòu)建優(yōu)化參數(shù)控制模型,基于待轉(zhuǎn)換情感語(yǔ)料自適應(yīng)獲得調(diào)整因子的最優(yōu)值,提高情感語(yǔ)音轉(zhuǎn)換的靈活性。
[1] 凌震華,高 麗,戴禮榮.基于目標(biāo)逼近特征和雙向聯(lián)想貯存器的情感語(yǔ)音基頻轉(zhuǎn)換[J].天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2015,48(8):670-674.
[2] MING H,HUANG D,DONG M,et al.Fundamental frequency modeling using wavelets for emotional voice conversion[C]//Proceedings of 2015 International Conference on Affective Computing and Intelligent Interaction.Washington D.C.,USA:IEEE Press,2015:804-809.
[3] ABE M,NAKAMURA S,SHIKANO K,et al.Voice conversion through vector quantization[J].Journal of the Acoustical Society of Japan,1988,11(2):71-76.
[4] AFIFY M,CUI X,GAO Y.Stereo-based stochastic mapping for robust speech recognition[J].IEEE Transactions on Audio Speech and Language Processing,2009,17(7):1325-1334.
[5] YE H,YOUNG S.Perceptually weighted linear transfor-mations for voice conversion[EB/OL].[2017-04-20].https://wenku.baidu.com/view/582d53353186bceb18e8bbc9.html.
[6] DESAI S,RAGHAVENDRA E V,YEGNANARAYANA B,et al.Spectral mapping using artificial neural networks for voice conversion[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):954-964.
[7] TAO J,KANG Y,LI A.Prosody conversion from neutral speech to emotional speech[J].IEEE Transac-tions on Audio Speech and Language Processing,2006,14(4):1145-1154.
[8] CHAO Y R.A Grammar of Spoken Chinese[M].Berkeley,USA:University of California Press,1970.
[9] 李 賢,於 俊,汪增福.面向情感語(yǔ)音轉(zhuǎn)換的韻律轉(zhuǎn)換方法[J].聲學(xué)學(xué)報(bào),2014,39(4):509-516.
[10] 孫 健,張雄偉,曹鐵勇,等.基于卷積非負(fù)矩陣分解的語(yǔ)音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2013,28(2):141-148.
[11] SANCHEZ G,SILEN H,NURMINEN J,et al.Hierarchical modeling of F0 contours for voice conversion[EB/OL].[2017-04-20].http://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_2318.pdf.
[12] AIHARA R,UEDA R,TAKIGUCHI T,et al.Exemplar-based emotional voice conversion using non-negative matrix factorization[C]//Proceedings of 2014 Summit and Conference on Asia-Pacific Signal and Information Processing Association.Washington D.C.,USA:IEEE Press,2014:1-7.
[13] 杜楠楠,趙 暉.維吾爾語(yǔ)情感語(yǔ)音韻律轉(zhuǎn)換研究[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(19):154-160.
[14] KAWAHARA H,MORISE M,TAKAHASHI T,et al.Tandem-STRAIGHT:a temporally stable power spectral representation for periodic signals and applications to interference-free spectrum,F0,and aperiodicity estimation[C]//Proceedings of 2008 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2008:3933-3936.
[15] LEE D D,SEUNG H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.
[16] TAKASHIMA R,TAKIGUCHI T,ARIKI Y.Exemplar-based voice conversion in noisy environment[C]//Proceedings of IEEE Workshop on Spoken Language Technology.Washington D.C.,USA:IEEE Press,2013:313-317.
[17] 郭 立,張守志,汪 衛(wèi),等.一種增量式非負(fù)矩陣分解算法[J].計(jì)算機(jī)工程,2010,36(4):66-68.