999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Style-CycleGAN-VC的非平行語料下的語音轉(zhuǎn)換

2021-09-15 11:20:18高俊峰陳俊國
關(guān)鍵詞:特征提取特征實(shí)驗(yàn)

高俊峰 陳俊國

(山東科技大學(xué)能源與礦業(yè)工程學(xué)院力學(xué)系 山東 青島 266590)

0 引 言

語音轉(zhuǎn)換是一種在保留語義信息的同時(shí)修改語音特征的技術(shù)。此技術(shù)可用于各種任務(wù),如語音輔助[1]、語音增強(qiáng)[2]和身份轉(zhuǎn)換[3]等。

語音轉(zhuǎn)換可以表述為估計(jì)從源語音到目標(biāo)語音的映射函數(shù)的回歸問題,在此之前提出的較為成功的方法有:基于高斯混合模型(GMM)的統(tǒng)計(jì)方法[4-5];基于神經(jīng)網(wǎng)絡(luò)(NN)的方法,如受限玻爾茲曼機(jī)(RBM)[6]、前饋神經(jīng)網(wǎng)絡(luò)(FNN)[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9];基于范例的方法,如非負(fù)矩陣分解(NMF)[10-11]等。

以上VC方法通常使用源語音和目標(biāo)語音進(jìn)行時(shí)間對(duì)齊的平行數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),如果完全對(duì)齊的平行數(shù)據(jù)可獲取,則獲取映射函數(shù)的難度會(huì)大大降低。但在實(shí)際應(yīng)用方案中,很難收集到平行數(shù)據(jù),即使獲取到了足夠的數(shù)據(jù)也需要執(zhí)行自動(dòng)時(shí)間對(duì)齊,因?yàn)槠叫袛?shù)據(jù)中的錯(cuò)位可能導(dǎo)致轉(zhuǎn)換語音質(zhì)量下降,因此有一定的失敗概率,所以這些方案需預(yù)篩選和數(shù)據(jù)校正。

由于訓(xùn)練條件的缺陷,非平行語料下的VC研究難度大且起步晚。當(dāng)前,一些非平行VC研究使用了自動(dòng)語音識(shí)別(ASR)模塊或額外的說話者之間的部分平行語料數(shù)據(jù)。盡管它們對(duì)訓(xùn)練有幫助,但準(zhǔn)備附加模塊會(huì)增加其他成本,從而限制其應(yīng)用。為了提高普適性和精簡性,近期一些研究使用了概率神經(jīng)網(wǎng)絡(luò)(例如自適應(yīng)受限玻爾茲曼機(jī)(ARBM)[12]和變分自動(dòng)編碼器(VAE)[13]),這些模型沒有多余的數(shù)據(jù)、模塊和時(shí)間對(duì)齊過程。它們的局限性在于需要顯式地近似數(shù)據(jù)分布(通常使用高斯分布),而這往往會(huì)導(dǎo)致通過統(tǒng)計(jì)平均造成的過度平滑。為了克服數(shù)據(jù)分布問題,最近的研究結(jié)合了GAN[14],它可以學(xué)習(xí)接近目標(biāo)的生成分布而無須顯式逼近,從而避免了由統(tǒng)計(jì)平均引起的過度平滑。但這些模型難以學(xué)習(xí)語音的時(shí)序性特征。

為進(jìn)一步提高語音轉(zhuǎn)換效果,Kaneko等[15]提出了CycleGAN-VC模型,此模型將循環(huán)一致性生成式對(duì)抗網(wǎng)絡(luò)(CycleGAN)[16]應(yīng)用到語音轉(zhuǎn)換中,使用了門控CNN來配置CycleGAN,并使用身份映射損失[17]進(jìn)行訓(xùn)練,這使得網(wǎng)絡(luò)可以更好地保留語音信息的同時(shí)捕獲順序和層次結(jié)構(gòu)。CycleGAN-VC的局限是只能用于兩個(gè)訓(xùn)練樣本之間的語音轉(zhuǎn)換,為解決多說話人的語音轉(zhuǎn)換問題,日本的NTT實(shí)驗(yàn)室又提出了StarGAN-VC[18],但仍舊只能解決訓(xùn)練的幾個(gè)特定說話人間的語音轉(zhuǎn)換。

盡管CycleGAN-VC已經(jīng)在非平行數(shù)據(jù)下取得不錯(cuò)的成果,并且之后又提出了修改生成器和判別器結(jié)構(gòu)的CycleGAN-VC2[19],但其實(shí)際語音轉(zhuǎn)換效果仍有較大進(jìn)步空間。

另外,NVIDIA最近提出的StyleGAN[20]被用來生成高分辨率真實(shí)的圖片,其核心在于對(duì)生成過程的分層精細(xì)控制以及對(duì)特征的解纏研究。其生成樣本的本質(zhì)是對(duì)不同訓(xùn)練樣本的特征進(jìn)行融合。

本文提出一種基于Style-CycleGAN-VC的非平行語料下的語音轉(zhuǎn)換新方法。其主要思想是將StyleGAN精細(xì)的生成器結(jié)構(gòu)融合到CycleGAN-VC的生成器網(wǎng)絡(luò)中,添加輔助的特征提取神經(jīng)網(wǎng)絡(luò)提取頻譜特征用于特征融合,并通過構(gòu)造超參數(shù)來控制特征提取網(wǎng)絡(luò)對(duì)轉(zhuǎn)換網(wǎng)絡(luò)架構(gòu)的影響。實(shí)驗(yàn)表明,新模型提高了語音轉(zhuǎn)換效果且實(shí)現(xiàn)了任意說話人間的語音轉(zhuǎn)換。

另外,Style-CycleGAN-VC與Info-GAN[21-22]有較大不同。Info-GAN通過帶有互信息的損失函數(shù),使其更傾向于生成數(shù)據(jù)的抽象特征與輸入隱碼之間聯(lián)系的可解釋性,而本文模型則更傾向于生成數(shù)據(jù)的真實(shí)性及不可分辨性。

1 生成式對(duì)抗網(wǎng)絡(luò)模型

生成式對(duì)抗網(wǎng)絡(luò)以一種非監(jiān)督學(xué)習(xí)的方式,通過讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈的方法進(jìn)行學(xué)習(xí)。生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)從潛在空間中隨機(jī)采樣作為輸入,其輸出結(jié)果需要盡量模仿訓(xùn)練集中的真實(shí)樣本。判別網(wǎng)絡(luò)的輸入為真實(shí)樣本或生成網(wǎng)絡(luò)的輸出,其目的是將生成網(wǎng)絡(luò)的輸出從真實(shí)樣本中盡可能地分辨出來,而生成網(wǎng)絡(luò)則盡可能地欺騙判別網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)相互對(duì)抗,不斷調(diào)整參數(shù)。生成對(duì)抗網(wǎng)絡(luò)常用于生成以假亂真的圖片。

1.1 CycleGAN模型

CycleGAN由兩個(gè)生成網(wǎng)絡(luò)和兩個(gè)判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)A是輸入A類風(fēng)格的圖片輸出B類風(fēng)格的圖片,生成網(wǎng)絡(luò)B是輸入B類風(fēng)格的圖片輸出A類風(fēng)格的圖片。生成網(wǎng)絡(luò)中編碼部分的網(wǎng)絡(luò)結(jié)構(gòu)采用Convolution-Norm-ReLU作為基礎(chǔ)結(jié)構(gòu),解碼部分的網(wǎng)絡(luò)結(jié)構(gòu)由Transpose Convolution-Norm-ReLU組成,判別網(wǎng)絡(luò)由Convolution-Norm-Leaky_ReLU作為基礎(chǔ)結(jié)構(gòu)。其整體結(jié)構(gòu)圖如圖1所示,其中:X為源數(shù)據(jù)域;Y為目標(biāo)數(shù)據(jù)域;x為X中的數(shù)據(jù);y為Y中的數(shù)據(jù);G為從X到Y(jié)的映射函數(shù);F為從Y到X的映射函數(shù);y2為x通過G映射后生成的數(shù)據(jù);x1為y2通過F映射后生成的數(shù)據(jù);Dx為判別x2真假的判別器;x2為y通過F映射后生成的數(shù)據(jù);y1為x2通過G映射后生成的數(shù)據(jù);Dy為判別y2真假的判別器。

圖1 CycleGAN整體結(jié)構(gòu)

1.2 StyleGAN模型

StyleGAN為生成對(duì)抗網(wǎng)絡(luò)提出了另一種生成器結(jié)構(gòu)。此結(jié)構(gòu)可以在無監(jiān)督學(xué)習(xí)下分離高級(jí)屬性(例如在人臉上訓(xùn)練時(shí)的姿勢和身份)和生成圖像(例如,雀斑、頭發(fā))中的隨機(jī)變化,并能夠直觀地、按照特定尺度地控制生成。其詳細(xì)結(jié)構(gòu)如圖2所示。

圖2 StyleGAN詳細(xì)結(jié)構(gòu)

輸入圖像的整體特征和細(xì)微特征間存在耦合,而耦合就導(dǎo)致了圖像可控性差,無法對(duì)單個(gè)特征進(jìn)行調(diào)節(jié)。從結(jié)構(gòu)圖可以看出,StyleGAN提出了一種無監(jiān)督但又可控性強(qiáng)的方案,對(duì)不同層次的卷積層進(jìn)行操作,從而最終實(shí)現(xiàn)特征解耦和生成特征的可解釋性和可控性。

2 Style-CycleGAN-VC模型

無論是目前雙向轉(zhuǎn)換效果較好的CycleGAN-VC和CycleGAN-VC2,還是對(duì)多說話人進(jìn)行語音轉(zhuǎn)換的StarGAN-VC,對(duì)其生成器進(jìn)行分析,其訓(xùn)練過程本質(zhì)上是對(duì)語音特征的記憶存儲(chǔ)以及融合過程。而StarGAN-VC之所以效果不如CycleGAN-VC,是因?yàn)槠涫褂昧讼蛄縼肀硎静煌恼f話人,從而使生成器調(diào)用大量網(wǎng)絡(luò)層參數(shù)中的不同部分(不考慮特征耦合)進(jìn)行生成。但CycleGAN的生成器參數(shù)與其相差不多,而且一個(gè)生成器只用于存儲(chǔ)記錄一個(gè)說話人的語音特征,所以在語音特征總體和細(xì)節(jié)上都會(huì)更好,從而使得轉(zhuǎn)化效果更好。

對(duì)此,本文提出一種Style-CycleGAN-VC對(duì)生成器整體結(jié)構(gòu)添加輔助特征提取網(wǎng)絡(luò),將之前的特征記憶存儲(chǔ)缺陷轉(zhuǎn)化為特征提取過程,并借鑒StyleGAN對(duì)生成圖片分辨率不同層次的精細(xì)控制結(jié)構(gòu),將其融合到生成器的主結(jié)構(gòu)中,重構(gòu)損失函數(shù),最終實(shí)現(xiàn)語音轉(zhuǎn)換效果的提高和任意說話人下的任意語音轉(zhuǎn)換。

2.1 模型架構(gòu)

1) 總架構(gòu)。假設(shè)源數(shù)據(jù)x∈X,目標(biāo)數(shù)據(jù)y∈Y,模型的目標(biāo)是在不使用平行數(shù)據(jù)的情況下,學(xué)習(xí)它們之間的映射GX→Y。整個(gè)系統(tǒng)分為正向和逆向兩部分,二者連接構(gòu)成循環(huán)網(wǎng)絡(luò)。兩部分分別由一個(gè)生成器和一個(gè)判別器構(gòu)成,其中生成器由兩部分組成,分別是特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)。選取前向部分進(jìn)行說明,數(shù)據(jù)X通過GY→X嘗試生成滿足Y分布的數(shù)據(jù)F_Y,判別器Dy通過與真實(shí)的目標(biāo)數(shù)據(jù)進(jìn)行對(duì)比,判斷出F_Y是假的目標(biāo)數(shù)據(jù),從而驅(qū)使生成器生成更真實(shí)的數(shù)據(jù),同時(shí)驅(qū)使判別器更好地識(shí)別數(shù)據(jù)真假。同時(shí),為了使生成器生成的數(shù)據(jù)是在語音特征上不是在語音信息上與目標(biāo)數(shù)據(jù)接近,一個(gè)約束是使用循環(huán)網(wǎng)絡(luò)的另一部分,將F_Y作為輸入,通過GY→X生成X’,通過逼近X與X’,來實(shí)現(xiàn)語義信息的保留,另一個(gè)約束是將Y作為輸入,使用GX→Y生成I_Y,通過逼近Y與I_Y,進(jìn)一步保證語音信息的保留。網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)鋱D如圖3所示。

圖3 Style-CycleGAN-VC全局架構(gòu)

2) 生成器和判別器架構(gòu)。生成器主要由兩部分構(gòu)成,分別為特征融合和特征提取網(wǎng)絡(luò),特征融合又分為編碼、轉(zhuǎn)換、解碼三部分。

(1) 特征提取網(wǎng)絡(luò)與判別器。特征提取網(wǎng)絡(luò)可以看作是對(duì)需要轉(zhuǎn)化的目標(biāo)數(shù)據(jù)的特征提取,與判別器架構(gòu)類似,判別器結(jié)構(gòu)和參數(shù)如圖4和表1所示。由于判別器只通過將頻譜的特征映射到低維空間判斷數(shù)據(jù)真假,所以可以看作判別器提取到了數(shù)據(jù)的非信息特征,特征提取網(wǎng)絡(luò)與之不同之處在于去除了Sigmoid層,而且使用的全連接層的輸出維度更高。二者的其他實(shí)現(xiàn)采用二維卷積層、實(shí)例歸一化層、門控CNN層。其中門控CNN不僅實(shí)現(xiàn)了語言建模[23]和語音建模[24]的最新技術(shù),而且實(shí)現(xiàn)了對(duì)順序數(shù)據(jù)進(jìn)行并行化。在門控CNN中,GLU是數(shù)據(jù)驅(qū)動(dòng)的激活函數(shù),公式如下:

表1 判別器參數(shù)表

圖4 判別器結(jié)構(gòu)

Hl+1=(Hl×Wl+bl)?σ(Hl×Vl+cl)

(1)

式中:Wl和Vl表示不同的卷積核;bl和cl是偏置參數(shù);σ是S形函數(shù);?是元素乘積。根據(jù)最新的研究表明,采用門控CNN可以替代RNN并選擇性地根據(jù)先前的層狀態(tài)傳播信息。

(2) 特征融合網(wǎng)絡(luò)。特征融合網(wǎng)絡(luò)分為三部分,編碼器部分是對(duì)數(shù)據(jù)進(jìn)行下采樣,將頻譜信息映射到低維空間后,使用6個(gè)殘差塊網(wǎng)絡(luò)進(jìn)行特征轉(zhuǎn)換。使用一維卷積層、實(shí)例化歸一層、門控CNN來實(shí)現(xiàn)。轉(zhuǎn)換部分由6個(gè)殘差塊實(shí)現(xiàn),其表達(dá)式如下:

Xk=Hk(Xk-1)+Xk-1

(2)

式中:Hl表示兩組一維卷積,自適應(yīng)實(shí)例歸一化(AdaIN),門控CNN,其中,自適應(yīng)實(shí)例歸一化操作定義為:

(3)

式中:μ(xi)為均值;σ(xi)為方差;每個(gè)特征映射xi分別標(biāo)準(zhǔn)化后,使用放射變化的可學(xué)習(xí)參數(shù)ys,i和yb,i分別進(jìn)行縮放和偏置操作。

本文使用一個(gè)超參數(shù)λγ_β控制輔助的特征提取網(wǎng)絡(luò)對(duì)主網(wǎng)絡(luò)的影響,公式如下:

ysn,i=(1+γ×λγ_β)×(ys,i×(1-λγ_β))

(4)

ybn,i=(1+β×λγ_β)×(yb,i×(1-λγ_β))

(5)

式中:γ和β是分別通過仿射變換An得到的參數(shù)。

所以,最終的AdaIN操作為:

(6)

特征融合網(wǎng)絡(luò)的參數(shù)設(shè)置如表2所示。

表2 生成器參數(shù)表

將上述兩個(gè)網(wǎng)絡(luò)整合,最終得到的生成器總結(jié)構(gòu)如圖5所示,其中“S×5”表示此處為5個(gè)與模塊S相同的模塊。

圖5 生成器結(jié)構(gòu)

2.2 損失函數(shù)

(1) 對(duì)抗性損失。對(duì)抗性損失是為了使生成器生成的數(shù)據(jù)難以被分辨真假,生成器GX→Y通過最小化損失生成Dy無法分辨真假的數(shù)據(jù),Dy通過最大化損失不被GY→X所欺騙。用公式可以表示為:

Ladv(GX→Y,Dy)=Ey~PData(y)[‖Dy(y2)‖]+

Ey~PData(y)[‖1-Dy(GX→Y(x,y))‖2]

(7)

式中:y~Pdata(y)表示y來自于真實(shí)數(shù)據(jù)分布Pdata(y),x與之類似;E表示對(duì)所有數(shù)取均值。

(2) 循環(huán)一致性損失。僅使用對(duì)抗性損失并不能保證生成的數(shù)據(jù)保留語音的語音信息,而循環(huán)一致性損失通過最小化循環(huán)生成的數(shù)據(jù)與源數(shù)據(jù)的L1范數(shù),幫助保存語音信息。用公式可以表示為:

Lcyc(GX→Y,GX→Y)=Ex~PData(x)[‖GY→X(GX→Y(x,y))-x1‖]+

Ey~PData(y)[‖GX→Y(GY→X(y,x),y)-y1‖]

(8)

(3) 身份映射損失。在單向過程中,使用身份映射損失,將目標(biāo)數(shù)據(jù)作為輸入,并將輸出與目標(biāo)數(shù)據(jù)進(jìn)行逼近,驅(qū)使生成器保證語音信息的保留。用公式表示如下:

Lid(GX→Y,GX→Y)=Ex~PData(x)[‖GY→X(x,x)-x1‖]+

Ey~PData(y)[‖GX→Y(y,y)-y1‖]

(9)

(4) 總損失。使用超參數(shù)λcyc、λid作為系數(shù),將前文中的三項(xiàng)損失加權(quán)相加,得到總損失,公式如下:

Lfull(GX→Y,GX→Y)=Ladv(GX→Y,Dy)+

Lαdv(GY→X,Dx)+λcycLcyc(GX→Y,GX→Y)+

λidLid(GX→Y,GX→Y)

(10)

2.3 模型超參數(shù)與訓(xùn)練細(xì)節(jié)

在預(yù)處理過程中,使用WORLD模型 ,把音頻文件分解為對(duì)數(shù)基頻參數(shù)(logF0)、頻譜參數(shù)(SP)、非周期性參數(shù)(AP),并隨機(jī)選取128幀固定長度的段,設(shè)置初始λcyc為10,λid為5,λγ_β=10-5,λγ_β的值隨著迭代次數(shù)的增加線性增加,并設(shè)置在10 000次迭代后,λid為0,且設(shè)置λγ_β=0.9時(shí)保持不變。同時(shí),使用Adam優(yōu)化器[25]訓(xùn)練網(wǎng)絡(luò),動(dòng)量項(xiàng)設(shè)為0.5,生成器的學(xué)習(xí)率為0.000 2,判別器學(xué)習(xí)率為0.000 1,當(dāng)?shù)螖?shù)超過100 000次后,學(xué)習(xí)率線性降低。同時(shí)使用Xavier[26]初始化參數(shù),使每一層輸出的方差盡量相等。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)條件

實(shí)驗(yàn)使用Voice Conversion Challenge 2016 中基于DAPS(數(shù)據(jù)和制作演講)數(shù)據(jù)集的開放數(shù)據(jù)集。實(shí)驗(yàn)時(shí),每段錄音被下采樣到16 kHz、16 bit。

為加速實(shí)驗(yàn),實(shí)驗(yàn)在兩個(gè)平臺(tái)下分別運(yùn)行,分別是本地的TensorFlow版和AIstudio云平臺(tái)的Paddlefluid版,由于Paddlefluid版本的代碼是在AIstudio上運(yùn)行,平臺(tái)限制導(dǎo)致數(shù)據(jù)預(yù)處理部分與語音合成部分放在了本地運(yùn)行,與神經(jīng)網(wǎng)絡(luò)相分離。

梅爾倒譜(Mel-cepstral)失真[27]是評(píng)估合成的MCEP質(zhì)量的常用方法,但是最近的三項(xiàng)研究[13,28-29]表明此方式存在一定局限性。因?yàn)镸EL-CD內(nèi)部呈現(xiàn)高斯分布, 導(dǎo)致其傾向于過平滑。因此,本文采用MOS測試和ABX測試評(píng)估轉(zhuǎn)換后的語音質(zhì)量。

作為對(duì)比實(shí)驗(yàn),將本文方法分別與基于GMM、StarGAN-VC、CycleGAN-VC的方法進(jìn)行比較,選取4組說話人進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并進(jìn)行評(píng)估。盡管Style-CycleGAN-VC可以實(shí)現(xiàn)任意樣本下的語音轉(zhuǎn)換,但為了控制變量從而與其他模型進(jìn)行等價(jià)對(duì)比,本文實(shí)驗(yàn)過程中仍舊對(duì)Style-CycleGAN-VC模型進(jìn)行了4次重新訓(xùn)練。另外,在復(fù)現(xiàn)過程中發(fā)現(xiàn)CycleGAN-VC生成損失中使用的對(duì)數(shù)函數(shù)訓(xùn)練不夠穩(wěn)定,使用L2范數(shù)對(duì)其進(jìn)行替代,并使用相同的參數(shù)初始化。

對(duì)于任意樣本的語音轉(zhuǎn)換,本文使用了未經(jīng)網(wǎng)絡(luò)擬合的TM1和TF2說話人的樣本進(jìn)行轉(zhuǎn)換實(shí)驗(yàn)來測試,并將評(píng)估結(jié)果分別與GMM、ARBM、StarGAN-VC、CycleGAN-VC進(jìn)行對(duì)比。

3.2 實(shí)驗(yàn)語音合成框架

實(shí)驗(yàn)使用WORLD模型得到對(duì)數(shù)基頻參數(shù)(logF0)、頻譜參數(shù)(SP)、非周期性參數(shù)(AP)。轉(zhuǎn)換完成后對(duì)神經(jīng)網(wǎng)絡(luò)得到的SP、使用單高斯模型轉(zhuǎn)換的logF0,以及不做改變的AP進(jìn)行語音合成。最后,對(duì)得到的合成語音進(jìn)行質(zhì)量和相似度評(píng)估。

整個(gè)語音合成過程如圖6所示。

圖6 語音轉(zhuǎn)換總體框架

3.3 評(píng)估結(jié)果

不同模型間的對(duì)比實(shí)驗(yàn)共分為四組,分別是SF1->TF2、SM1->TM2、SF1->TM2、SM1->TF2,使用MOS對(duì)GMM、StarGAN-VC、CycleGAN-VC、Style-CycleGAN-VC四種模型的實(shí)驗(yàn)結(jié)果的語音質(zhì)量進(jìn)行評(píng)估,結(jié)果如圖7所示。

圖7 不同模型語音轉(zhuǎn)換質(zhì)量對(duì)比結(jié)果

可見,在語音轉(zhuǎn)換質(zhì)量方面,相較于CycleGAN-VC、StarGAN-VC和GMM,Style-CycleGAN-VC無論是在性別間還是性別內(nèi)的轉(zhuǎn)換效果均有所提高。另外,二者都在女轉(zhuǎn)男的測試中得分高于男轉(zhuǎn)女。

用ABX測試法對(duì)Style-CycleGAN-VC的四組語音轉(zhuǎn)換結(jié)果相似度進(jìn)行評(píng)估,結(jié)果如圖8所示。

圖8 Style-CycleGAN-VC語音相似度分析結(jié)果

在語音相似度方面,性別間轉(zhuǎn)換由于基頻的原因,實(shí)驗(yàn)結(jié)果與預(yù)測的相同,全部更接近轉(zhuǎn)換目標(biāo),而性別內(nèi)轉(zhuǎn)換,由于不同說話人之間的音色差別有些較大有些較小導(dǎo)致對(duì)不同數(shù)據(jù)的實(shí)驗(yàn)結(jié)果相差較大,但從實(shí)驗(yàn)結(jié)果也可以看出轉(zhuǎn)換更偏向于目標(biāo)。

對(duì)任意樣本下的實(shí)驗(yàn)分為兩組,測試結(jié)果如表3所示。

表3 任意樣本語音轉(zhuǎn)換質(zhì)量及相似度得分表

Style-CycleGAN-VC的語音轉(zhuǎn)換質(zhì)量高于ABRM,與CycleGAN-VC、StarGAN-VC相差較小,而語音相似度方面得分有所降低。但考慮到Style-CycleGAN-VC未經(jīng)過轉(zhuǎn)換語音訓(xùn)練而直接進(jìn)行轉(zhuǎn)換,所以實(shí)驗(yàn)結(jié)果可以接受。

任取CycleGAN-VC和Style-CycleGAN-VC一組語音數(shù)據(jù)轉(zhuǎn)化為相應(yīng)波形圖如圖9所示。

圖9 SF1->TF2轉(zhuǎn)換結(jié)果波形圖

CycleGAN-VC轉(zhuǎn)化語音的波形圖幅值在特定位置超過1,而由此產(chǎn)生的噪音會(huì)嚴(yán)重影響語音質(zhì)量,相比之下,Style-CycleGAN-V生成的語音則更為平滑,因此轉(zhuǎn)換過程產(chǎn)生的噪聲明顯降低,語音質(zhì)量明顯提高。

經(jīng)實(shí)驗(yàn)表明,Style-CycleGAN-VC實(shí)現(xiàn)了非平行語料下任意樣本間的語音轉(zhuǎn)換,且與ABRM、StarGAN-VC、CycleGAN-VC等主流模型相比,新模型對(duì)特定說話人的任意樣本的語音轉(zhuǎn)換效果有所提高,對(duì)任意說話人的任意樣本的語音轉(zhuǎn)換效果與CycleGAN-VC模型相近。

4 結(jié) 語

本文提出一種用于非平行語料下實(shí)現(xiàn)任意說話人的任意樣本間語音轉(zhuǎn)換的方法Style-CycleGAN-VC。由于基于深度學(xué)習(xí)的方法很難實(shí)現(xiàn)端對(duì)端的語音轉(zhuǎn)換,而是使用了對(duì)數(shù)據(jù)進(jìn)行預(yù)處理使用頻譜做轉(zhuǎn)換的方式,這導(dǎo)致后期進(jìn)行語音合成時(shí),需要使用單高斯模型轉(zhuǎn)換法對(duì)基頻進(jìn)行轉(zhuǎn)換。目前階段由于頻譜轉(zhuǎn)換的質(zhì)量問題,這種方法的局限性不會(huì)表現(xiàn)明顯,但隨著網(wǎng)絡(luò)架構(gòu)的進(jìn)一步細(xì)化或頻譜轉(zhuǎn)換質(zhì)量的進(jìn)一步提高,這種方案就會(huì)成為整體語音轉(zhuǎn)換系統(tǒng)的短板從而降低語音轉(zhuǎn)換的質(zhì)量。而這也是前文中提到的男女之間轉(zhuǎn)換質(zhì)量存在明顯差異的原因。

另外,從本文提出的網(wǎng)絡(luò)生成器架構(gòu)來看,由于輔助特征提取網(wǎng)絡(luò)從生成器主網(wǎng)絡(luò)中分離,從而使原本需要將特征保存在生成器網(wǎng)絡(luò)中的特征轉(zhuǎn)化為特征提取過程,由此得到一個(gè)語音轉(zhuǎn)換的通用模型,這使得可以像任意圖片間的風(fēng)格遷移一樣,實(shí)現(xiàn)任意樣本下的語音轉(zhuǎn)換,而無須通過分別訓(xùn)練擬合不同樣本數(shù)據(jù)得到不同的模型分別做語音轉(zhuǎn)換。不足之處在于通用模型的語音相似度和語音轉(zhuǎn)換質(zhì)量還有待提高。希望未來技術(shù)進(jìn)一步發(fā)展實(shí)現(xiàn)無限逼近真實(shí)語音效果的語音轉(zhuǎn)換。

猜你喜歡
特征提取特征實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
做個(gè)怪怪長實(shí)驗(yàn)
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個(gè)特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 亚洲天堂.com| jizz国产在线| 日韩天堂在线观看| 激情爆乳一区二区| 亚洲天堂网站在线| 伊人久久大香线蕉影院| 国产无码制服丝袜| 天天色天天综合| 日韩午夜福利在线观看| 在线中文字幕日韩| 九色综合伊人久久富二代| 久久久受www免费人成| 五月天在线网站| 久久国产高潮流白浆免费观看| 欧美.成人.综合在线| 久久国产高潮流白浆免费观看| 手机看片1024久久精品你懂的| 亚洲综合婷婷激情| 国产一区二区色淫影院| 91小视频在线观看| 亚洲精品无码AⅤ片青青在线观看| 国产精品吹潮在线观看中文| 免费黄色国产视频| 亚洲国产天堂久久综合| 激情综合网址| 日韩av无码精品专区| 日日拍夜夜操| 国产三区二区| 久久成人国产精品免费软件| 99re在线观看视频| 国产无吗一区二区三区在线欢| 国产99在线| 久久a毛片| 欧美中文字幕在线播放| 看av免费毛片手机播放| 亚洲中文字幕无码爆乳| 波多野结衣视频网站| 一级毛片在线免费视频| 国产日本一区二区三区| 999在线免费视频| 亚洲码在线中文在线观看| 日本91在线| 伊在人亚洲香蕉精品播放| 91成人在线免费观看| 99这里只有精品免费视频| 五月天在线网站| 亚洲av综合网| 亚洲一区无码在线| 欧洲亚洲一区| 日韩无码真实干出血视频| 欧美国产日产一区二区| 天堂亚洲网| 亚洲国产综合精品中文第一| 成年看免费观看视频拍拍| 亚洲天堂精品视频| 国产成人亚洲毛片| 亚洲中文精品久久久久久不卡| 欧美日一级片| 亚洲香蕉在线| 国产一区二区精品福利| 免费国产在线精品一区| 91精品国产自产在线老师啪l| 精品一区二区三区自慰喷水| 亚国产欧美在线人成| 自拍亚洲欧美精品| 亚洲欧美日韩成人高清在线一区| 亚洲—日韩aV在线| 人妻无码一区二区视频| 久久久波多野结衣av一区二区| 亚洲人网站| 久久久久久久蜜桃| 亚洲午夜18| 超碰精品无码一区二区| AV不卡无码免费一区二区三区| 国产一区在线观看无码| 激情無極限的亚洲一区免费| 久久免费看片| 高清免费毛片| 免费国产一级 片内射老| 成人免费一级片| 天堂网亚洲系列亚洲系列| 在线观看亚洲成人|