999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同粒度嵌入單元的端到端語音合成技術研究

2021-10-18 08:13:08姑麗斯坦奧布力喀斯木帕力旦吐爾遜艾斯卡爾艾木都拉
現代計算機 2021年24期
關鍵詞:文本模型

姑麗斯坦·奧布力喀斯木,帕力旦·吐爾遜,艾斯卡爾·艾木都拉

(1.新疆大學軟件學院,烏魯木齊830046;2.新疆大學信息科學與工程學院,烏魯木齊830046)

0 引言

語音合成技術(text to speech,TTS)又稱文語轉換技術,是一種通過計算機輔助手段將任意輸入的人類規則化文本轉換為所對應人類規則化語音的技術[1]。在人機交互、人工智能領域中,語音合成技術是實現它的關鍵技術之一,在實際應用場景中其應用價值也越來越受到重視,在自動駕駛、問答系統、智能機器人、盲人輔助系統、自動化辦公、交通通訊等場景有著非常廣泛的用途[2]。從圖1可以看出傳統語音合成技術是由前端語言處理模塊和后端聲學模型生成模塊等兩部分所構成,不同模塊負責不同的語音信息處理工作,非常方便地解決語音合成中的問題診斷以及針對不同模塊的優化問題,是一種高內聚低耦合的組合方式。其中前端從語言學背景出發,對文本信息進行處理,包含文本正則化、分詞、詞性預測、多音字標注等文本預處理工作[3-4]。后端根據前端文本處理工作的結果,通過優質的聲學模型生成其對應的語音波形從而達到語音合成的目的,其具體工作包括合成單元粒度的選擇、語音持續時間模型的建模、聲學特征預測模型的建立、聲碼器等[5-12]不同的子模塊。由上述所知,傳統的語音合成技術相對復雜,不同的模塊需要花費大量的時間、精力、大量領域專業知識和特征工程去構建文本分析、聲學模型、音頻合成等模塊。并且模塊之間的組合過程也會出現很多問題,尤其是像維吾爾語這種本身就缺乏足夠的數據資料、大眾相對難理解的低資源小語種,設計新的語音合成方法相對更難,實現的門檻相對更高。

在人工智能技術的幫助下,傳統語音合成技術的設計方法和實現難度發生了一個質的變化。借助深度學習方法的技術支持,傳統專業門檻極高的語音合成技術取得了不俗的成績,但也存在一些不足。例如WaveNet[13],一種能產生原始音頻波的神經網絡,雖然語音合成效果相對較好,但是需要一個復雜的前端文本分析系統,速度較慢。Deep Voice[14-15]是由百度所提出的實時神經網絡文本到語音合成系統,將傳統TTS系統流水線中的每一個模塊分別用神經網絡架構進行替代,雖然便于語音合成工作中的問題診斷,但它的每一個模塊都需要單獨訓練實現成本相對較高。基于語料庫、基于HMM、基于神經網絡、基于BiRNN[16]的維吾爾語語音合成前后被提出,但生成模型相對復雜,設計難度高并且合成效果在自然度、清晰度等方面不夠理想。針對以上存在的前端復雜、模型設計難的問題,迫切需要一個端到端的,將不同的模塊集成到一起,實現一個直接連接輸入和輸出的模型。

圖1傳統語音合成系統架構

Tacotron端到端的語音合成系統的出現為解決上述問題提供了一個新的思路,該系統可以接受文本或者注音字符的輸入即可輸出相對應的音頻波形[17]。此系統中前端模塊得到了極大簡化,甚至可以直接省略掉。Tacotron語音合成技術已成功運用于中文語音合成[18],同時也成功運用于閩南語等一些地方性方言的語音合成工作中[19]。對于維吾爾語這類低資源語言的語音合成,Tacotron端到端技術提供了一種高效的實現方法。

本文針對維吾爾語語音合成中前端預處理繁瑣等問題,擬采用Tacotron端到端的語音合成技術,使用文本及所對應的音頻數據作為學習模型,實現對維吾爾文本的語音合成。并在改進的Tacotron模型上分別對維吾爾詞、維吾爾詞素以及維吾爾字符為編碼粒度單元進行語音合成實驗,根據實驗結果進行主觀客觀評價得出相應的結論。這也是端到端語音語音合成技術在維吾爾語音合成方面的首次運用,實驗結論將有助于今后維吾爾語語音合成技術的進一步發展。

1 深度學習語音合成

在語音合成技術方面,深度學習方法消除并彌補了基于高斯-隱馬爾可夫模型及拼接合成等傳統方法缺陷,獲得了高質量的合成效果,極大程度地降低了語音合成的門檻及實現難度。其中由DeepMind所提出來的WaveNet語音生成模型得出的合成語音,相對傳統方法合成的語音效果顯的更加自然、清晰[5]。從圖2 MOS評分結果中可以明顯看出,WaveNet在中文和英文中合成語音的MOS得分結果,遠遠超過了傳統的波音拼接合成和參數合成得到的分數。

圖2 WaveNet中英文MOS評分結果

WaveNet通過對音頻流X={X1,X2,X3,…,XT}的聯合概率建立模型,對每一幀Xt的條件概率求乘積。其所構建的聯合概率函數表達式如下所示:

其中,每一幀Xt取決于原先的音頻流樣本。同時由于語音是從至少16 KHz的采樣頻率進行取樣,這意味著,每秒的音頻至少有16000個樣本。用傳統的LSTM或者RNNs進行建模是不可行的,因此使用CNN對一維的音頻信號進行處理,在因果膨脹卷積的作用下,WaveNet網絡結構可以進行時間依賴性進行建模,如圖3所示。加上Mu-law壓縮使模型大大減少輸出量,提高了訓練和推論的速度。

使用WaveNet將文本合成為語音,但是并不能直接使用文本音頻數據對其進行訓練,從而獲得一個可以直接將文本合成為語音的模型,而是需要對文本進行一系列的前端處理才能將其運用于語音合成。然而這種方法在某種程度上并不是端到端語音合成,而是類似于Deep Voice的基于深度學習的模塊化語音合成。Tacotron的提出讓端到端語音合成成為可能,通過直接使用文本以及所對應的音頻數據的學習模型,真正意義上實現了端到端的語音合成。Taco?tron通過將文本直接輸出常用的語音特征圖——梅爾圖譜,通過Griffin-Lim算法將梅爾圖譜轉換為對應的音頻從而達到語音合成的目的。其模型的總體架構如圖4所示。

圖3 WaveNet模型

圖4 Tacotron模型圖

由圖4可以看出Tacotron模型在設計思路上使用了端到端模型,由編碼器模塊以及解碼器模塊所構成,且利用注意力機制進一步提高語音合成效果。本文對維吾爾文利用Tacotron模型實現語音合成,并且此基礎上對維吾爾文本進行不同粒度單元的對比實驗從而得出適合語音合成的最佳粒度單元。

2 端到端語音合成

端到端是對數據處理或學習系統的多階段處理模塊,通過神經網絡將其整合為一個黑盒子的解決思路,不用花費大量時間去了解語音合成系統中需要用的模塊或者領域知識,直接用深度學習的方法訓練出一個TTS模型,將不同的模塊集成到一起,實現一個直接連接輸入和輸出,給定input模型就能生成對應的音頻。在原本的Tacotron模型前添加文本-詞、文本-詞素轉換模塊,對其合成效果與Tacotron本身的字符級粒度單元的模型效果進行對比,并對Tacotron模型的編碼器,解碼器以及后處理網絡等實現模塊進行詳細研究。

2.1 文本-詞、詞素、字符

維吾爾語是典型的形態豐富的黏著性語言,句子中的詞是自然分開的,構詞和形態都是通過詞干(或詞根)后面連接不同詞綴來派生出來的。詞干是具有獨立語義的單元[20],并且是開放集,主要表達詞的意義。而詞綴是輔助功能單元且閉合集,功能強大、種類繁多、連接形式各式各樣,在句子中提供語法信息(所屬性、形態、復數)起到非常重要的作用。

詞(word)是維吾爾語中能夠獨立運用的最小的語言單位,句子中詞與詞之間有空格隔開,不存在分詞問題。詞素是構成詞的要素,是語言中最小單位的音義結合體。詞素是比詞低一級的語言單位,從語言詞的本身來講,很多詞可以進一步分析成若干個最小的音義統一體。字符是指類字形單位或符號,包括字母、數字、運算符號、標點符號和其他符號,以及一些功能性符號。

維吾爾語言由于這種派生特性,在詞素上有很多種組合,從而增加了詞匯量。因此基于詞素這樣較小粒度單元的建模,可以提供更強大的語義信息及更好的覆蓋率,從而能建立出更好、更可靠的模型。讓更多的人更容易看明白,數據使用了實驗室自主開發的“維吾爾語拉丁文轉換工具”對維吾爾文本進行拉丁維文處理,通過實驗室獨有的詞、詞素、字符轉換工具得出的不同粒度單元結果如圖5所示。

圖5不同粒度單元

2.2 編碼

由于本模型的建立涉及到將文本內容轉換為高維度的語音信號,因此對編碼器的泛化能力要求非常高。其具體處理過程涉及到將文本內容進行向量化處理,通過利用預處理網絡模塊對文本內容進行非線性變換。再將其輸出的序列利用CBHG模塊進行特征提取,其過程如圖6所示。

圖6 CBHG模型

其結構最初源自于機器翻譯模型,由多層卷積網絡、高速網絡、雙向門循環控制單元所構成。其中多層卷積網絡設置不同的卷積核從而提取不同的上下文信息,將其堆疊到一起進一步增強泛化能力,在訓練過程中,通過使用Dropout來達到一個防止過擬合的效果,從而獲得高維度文本向量的表示特征的上下文向量。其具體過程為在編碼過程中以編碼粒度單元為準,都會成為一個256維的向量,即編碼器所輸出的上下文向量的大小為[N,256],其中N表示輸入向量的文本長度,在這里文本的粒度單元的大小會直接影響其語音合成的效果。

2.3 解碼器

解碼器模塊是由預處理網絡、注意力循環神經網絡、解碼器循環神經網絡所構成。其中解碼器模塊中的預處理網絡和編碼器模塊中的預處理網絡相同,主要對輸入做非線性變換,進一步提高泛化能力。注意力循環神經網絡則將預處理網絡的輸出和注意力模塊的輸出作為輸入。注意力循環神經網絡的結構為一層包含256個GRU單元的循環神經網絡,將預處理網絡輸出和注意力機制網絡輸出的上下文矢量拼接成一個矢量輸入到兩層單向循環長短時記憶網絡,長短時記憶網絡的輸出再一次和注意力機制網絡輸出的上下文矢量拼接,拼接后的矢量通過線性轉化投影成預測頻譜同樣的解碼器循環神經網絡,每層同樣包含了256個GRU單元。由于每個字符在發音的時候,可能對應了多個幀,因此每個GRU單元輸出為多個幀的音頻文件。

2.4 音波合成

在Decoder-RNN輸出之后并沒有直接將輸出轉化為音頻文件,而是又添加了后處理的網絡。后處理的網絡可以在一個線性頻率范圍內預測幅度譜(spectral magnitude),并且后處理網絡能看到整個解碼的序列,而不像端到端網絡(Seq2Seq)那樣,只能從左至右的運行。后處理網絡可以通過反向傳播來修正每一幀的錯誤,然后通過Griffin-Lim進行語音信號的重構。通過對后處理網絡的頻譜幅度以及其變換相位進行構建,對其進行多次的短時傅里葉變換得到其估值系數,然后進行逆傅里葉變換獲得音波波形。其重建過程如圖7所示。

圖7 Griffin-Lim算法流程

3 實驗結果與分析

在實驗過程中,本文使用實驗室收集到的數據集上進行實驗。數據集包含音頻文件和音頻對應的文本文件,其中維吾爾語數據集包含2497個句子,時長為5.79小時,其中音頻文件的采樣率為16kHz,采樣位數為16bit,單聲道wav格式。其中對數據集的訓練集、驗證集,測試集的劃分如表1所示。

表1 數據集劃分

對音頻文件提取音頻特征中,幀長設為50 ms,幀移動為12.5 ms。同時根據音頻文件的采樣率,將其Mel頻譜特征設為80維,線性譜特征設置為1025維。其中模型的訓練超參數如表2所示。

表2模型參數設定

在進行語音合成實驗過程中,使用以詞,詞素為基本單元和字符為基本單元進行對比實驗,不同單元的解碼如圖8所示。由圖8可以看出,使用詞素為基本單元語音合成在發音穩定性和連續性上不如字符為基本單元的語音合成,但其曲線的像素點表明其對齊準確率要優于字符為基本單元的語音合成。原因主要是因為端到端的語音合成是不等長的序列到序列的建模過程,而文本特征相比聲學特征在序列長度上相差較大,增大文本特征序列有助于模型更好地學習到對齊信息。以字符為基本單元的方式建模,可以擴大文本特征序列,并且根據音素組成和發音時長動態的提取不同長度的文本特征序列。而詞素嵌入方式則是一種靜態的文本特征提取方式,序列長度不會隨著詞素組成和發音時長而發生改變。因為詞素嵌入對詞素發音時長信息的表征不如字符嵌入,所以在發音的穩定性和連續性上詞素嵌入不如字符嵌入,但是由于詞素嵌入對詞素整體性的表征更佳,故在對齊準確率上稍優于字符嵌入。

同時我們對由詞、詞素、字符不同粒度單元所合成的語音效果從主觀以及客觀方面進行了不同的測試,在主觀方面使用MOS測試,分別使用不同合成模型中的測試集中取出20個句子。每個句子有5個人打分,計算出針對不同粒度單元的合成效果。在客觀方面使用MCD(Mel Cepstral Distortion)來評價語音質量。針對不同建模粒度單元的效果如表3所示。

表3 不同粒度單元的主客觀評測結果

由表3可知,字符為粒度單元的合成效果最好,其原因是因為字符覆蓋度相較于詞素和詞覆蓋范圍度更好,不存在集外詞等問題。同時在本實驗中數據集中的序列長度較短,因此在整體的建模過程中,以字符為粒度單元的合成效果要優于詞和詞素的效果。

圖8 不同粒度單元解碼對比

4 結語

本文針對傳統維吾爾語語音合成存在的前端預處理繁瑣及模型復雜的問題,采用基于Tacotron的端到端深度學習方法,使用文本以及所對應的音頻數據作為學習模型,成功實現了低資源語言維吾爾語的語音合成。并且在此模型基礎上分別對維吾爾語詞、詞素、字符等不同粒度單元的文本進行語音合成對比實驗。對結果進行主觀及客觀評價得出以詞素為基本單元的端到端語音合成效果優于以詞為基本單元的語音合成效果,以字符為基本單元的端到端語音合成效果優于以詞素為基本單元的語音合成效果的結論。這是第一次將端到端語音合成技術應用到維吾爾語文本上面,以上結論有助于維吾爾語語音合成技術的更進一步發展。然而由于訓練數據量較少的原因,在某些測試任務上未能形成完整的結果并存在雜音。Tacotron是第一個端對端的TTS神經網絡模型,目前已經發展出了Tacotron2。Tacotron2使用了一個和WaveNet十分相似的模型來代替Griffin-Lim算法,同時也對Tacotron模型的一些細節也做了更改,最終生成了十分接近人類聲音的波形[12]。在后期的研究工作中,將會研究Tacotron2模型在維吾爾語語音合成中的應用以及如何以少量數據得到最優化的語音合成結果。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩精品高清自在线| 久久综合成人| 91在线播放国产| 最新国产午夜精品视频成人| 国产精品久线在线观看| 激情无码字幕综合| 熟妇丰满人妻| 亚洲男人的天堂在线观看| 国产精品久久久免费视频| AV片亚洲国产男人的天堂| 亚洲第一区欧美国产综合| 欧洲极品无码一区二区三区| 国产又黄又硬又粗| 丝袜国产一区| 波多野结衣一级毛片| 国产欧美视频在线观看| 91毛片网| 亚洲精品777| a毛片基地免费大全| 国产精品无码AV片在线观看播放| 超清无码一区二区三区| 999精品在线视频| 亚洲男人的天堂久久精品| 欧美日本在线播放| 欧美午夜在线观看| 亚洲综合二区| 欧美日本二区| 亚洲国产精品日韩欧美一区| 日韩免费毛片视频| 色AV色 综合网站| 色综合天天综合| 久久综合色88| 日韩欧美网址| 超碰色了色| 婷婷综合在线观看丁香| 国产一级二级三级毛片| 久久精品国产91久久综合麻豆自制| 国产免费人成视频网| 国产精品欧美激情| 女人爽到高潮免费视频大全| 在线国产欧美| 欧美精品亚洲二区| 中文字幕久久精品波多野结| 玩两个丰满老熟女久久网| 亚洲成a人片在线观看88| 无码精品福利一区二区三区| 2020国产免费久久精品99| 欧美国产日韩在线| 精品91在线| 91精品国产福利| 呦女亚洲一区精品| 青青草91视频| 在线一级毛片| 日韩AV手机在线观看蜜芽| 欧美亚洲国产日韩电影在线| 亚洲性日韩精品一区二区| 国产无遮挡裸体免费视频| 91精品国产情侣高潮露脸| 成人在线观看一区| 少妇精品网站| 日韩毛片在线播放| 国产丰满大乳无码免费播放| 国产黄色片在线看| 国产不卡国语在线| 国产福利一区在线| 视频一本大道香蕉久在线播放| 国产精品视频系列专区| 国产特级毛片aaaaaa| 欧美日韩国产在线播放| 国产美女精品一区二区| 亚洲日韩高清在线亚洲专区| 一级毛片免费观看不卡视频| 美女啪啪无遮挡| 高清视频一区| 伊在人亞洲香蕉精品區| 色综合成人| 日韩不卡高清视频| 久草热视频在线| 精品视频免费在线| 欧美午夜在线视频| 国产va欧美va在线观看| 青青青国产视频|