999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WaveNet的端到端語音合成方法

2019-08-01 01:48:57邱澤宇屈丹張連海
計算機應用 2019年5期
關鍵詞:文本方法模型

邱澤宇 屈丹 張連海

摘 要:針對端到端語音合成系統中GriffinLim算法恢復相位信息合成語音保真度較低、人工處理痕跡明顯的問題,提出了一種基于WaveNet網絡架構的端到端語音合成方法。以序列映射Seq2Seq結構為基礎,首先將輸入文本轉化為onehot向量,然后引入注意力機制獲取梅爾聲譜圖,最后利用WaveNet后端處理網絡重構語音信號的相位信息,從而將梅爾頻譜特征逆變換為時域波形樣本。實驗的測試語料為LJSpeech1.0和THchs30,針對英語、漢語兩個語種進行了實驗,實驗結果表明平均意見得分(MOS)分別為3.31、3.02,在合成自然度方面優于采用GriffinLim算法的端到端語音合成系統以及參數式語音合成系統。

關鍵詞:語音合成;端到端;Seq2Seq;GriffinLim算法;WaveNet

中圖分類號:TN912.33

文獻標志碼:A

Abstract: GriffinLim algorithm is widely used in endtoend speech synthesis with phase estimation, which always produces obviously artificial speech with low fidelity. Aiming at this problem, a system for endtoend speech synthesis based on WaveNet network architecture was proposed. Based on Seq2Seq (SequencetoSequence) structure, firstly the input text was converted into a onehot vector, then, the attention mechanism was introduced to obtain a Mel spectrogram, finally WaveNet network was used to reconstruct phase information to generate timedomain waveform samples from the Mel spectrogram features. Aiming at English and Chinese, the proposed method achieves a Mean Opinion Score (MOS) of 3.31 on LJSpeech1.0 corpus and 3.02 on THchs30 corpus, which outperforms the endtoend systems based on GriffinLim algorithm and parametric systems in terms of naturalness.

0 引言

語音合成(Speech Synthesis),又稱文語轉換(Text To Speech, TTS)技術是指計算機通過分析將任意文本轉化為流暢語音的技術。語音合成作為實現人機語音交互系統的核心技術之一[1],是語音處理技術中一個重要的方向,其應用價值越來越受到重視。

語音合成領域的主導技術隨著時代的發展不斷更迭。基于波形拼接的語音合成方法,是一項把預先錄制的語音波形片段拼接在一起的技術,是目前語音合成領域常用方法之一[2-5]。受到語料庫內容的限制,這種方法對拼接算法的優化、存儲配置的調整等方面有較大的要求,對于語料庫之外的其他說話人、其他文本內容起不到任何作用。

隨著基于統計參數的語音合成方法日益成熟,這種方法被逐漸應用到語音合成中[6]。基于統計參數的語音合成方法的基本思想是,通過對輸入的訓練語音進行參數分解,然后對聲學參數建模,并構建參數化訓練模型,生成訓練模型庫,最后在模型庫的指導下,預測待合成文本的語音參數,將參數輸入聲碼器合成目標語音,這種方法解決了拼接式合成方法中邊界人工痕跡很多的問題。然而由這些方法構造的系統需要大量的專業領域知識,因而設計困難,并且所需模塊通常是單獨訓練,產生自每個模塊的錯誤會有疊加效應,生成的語音與人類語音相比,經常模糊不清并且不自然。

隨著人工智能技術的快速發展,語音合成領域有了新的技術支持。深度學習可以將內部模塊統一到一個模型中,并直接連接輸入和輸出,減少了基于特定領域知識的密集工程參數模型,這種技術被稱為“端到端”學習。設計一個能在已標注的(文本、語音)配對數據集上訓練的端到端的語音合成系統,會帶來諸多優勢: 第一,這樣的系統可以基于各種屬性進行多樣化的調節,比如不同說話人、不同語言,或者像語義這樣的高層特征;第二,與存在錯誤疊加效應的多階段模型相比,單一模型更魯棒。

近年來端到端的語音合成系統引起了廣泛的研究,WaveNet[7]是一個強大的語音生成模型,它在TTS中表現良好,但樣本級自回歸的特性導致其速度較慢,需要一個復雜的前端文本分析系統,因此不是端到端語音合成系統。Deep Voice[8]將傳統TTS系統流水線中的每一個模塊分別用神經網絡架構代替,然而它的每個模塊都是單獨訓練的,要把系統改成端到端的方式比較困難。Char2Wav[9]是一個獨立開發的可以在字符數據上訓練的端到端模型,但是它需要傳統的聲碼器參數作為中間特征表達,不能直接預測輸出頻譜特征。Tacotron[10]是一個從字符序列生成幅度譜的Seq2Seq(SequencetoSequence)架構,它僅用輸入數據訓練出一個單一的神經網絡,用于替代語言學和聲學特征的生成模塊,使用GriffinLim算法[11]估計相位,施加短時傅里葉變換合成語音,從而簡化了傳統語音合成的流水線,然而GriffinLim算法會產生特有的人工痕跡并且合成的語音保真度較低,因此需要替換成神經網絡架構。

本文針對目前端到端系統中GriffinLim算法還原語音信號自然度較低的問題,提出了一種基于WaveNet網絡架構的端到端語音合成方法,采用基于注意力機制的Seq2Seq架構作為特征預測網絡,將輸入文本轉化為梅爾聲譜圖,結合WaveNet架構實現了多語種的語音合成。

4 結語

本文主要介紹的端到端語音合成系統,首先用基于注意力機制的Seq2Seq模型訓練一個特征預測網絡,然后獲取待合成語音的梅爾聲譜圖,利用WaveNet架構恢復損失的相位信息來實現語音合成。在實驗中,采用WaveNet架構的系統性能優于采用GriffinLim算法作為波形轉換器的系統。實驗中,隨著訓練步數的增加,系統的性能提高,迭代至200k次后趨于穩定。調整字符的表征方式,可以實現不同語言的合成。由于中文特征表達以及韻律結構較為復雜,所以合成自然度不如英文語音。

本次實驗中采用的Seq2Seq架構主要為RNN的組合。在后續的研究中會探討其他網絡組合對合成質量的影響,對WaveNet網絡結構進行修訂以提升收斂速度也是一個值得研究的課題。

參考文獻 (References)

[1] FUNG P, SCHULTZ T. Multilingual spoken language processing [J]. IEEE Signal Processing Magazine, 2008, 25(3):89-97.

[2] HUNT A J, BLACK A W. Unit selection in a concatenative speech synthesis system using a large speech database[C]// Proceedings of the 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1996: 373-376.

[3] CAMPBELL N, BLACK A W. Prosody and the selection of source units for concatenative synthesis [M]// Progress in Speech Synthesis. New York: Springer, 1997: 279-292.

[4] ZE H, SENIOR A, SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013:7962-7966.

[5] TOKUDA K, NANKAKU Y, TODA T, et al. Speech synthesis based on hidden Markov models[J]. Proceedings of the IEEE, 2013, 101(5): 1234-1252.

[6] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis [J]. Speech Communication, 2009, 51(11):1039-1064.

[7] OORD A V D, DIELEMAN, ZEN H, et al. WaveNet: a generative model for raw audio[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1609.03499 (2016-09-12) [2016-09-19]. https://arxiv.org/abs/1609.03499.

[8] ARIK S O, CHRZANOWSKI M, COATES A, et al. Deep Voice: realtime neural texttospeech [J/OL]. arXiv Preprint, 2017, 2017: arXiv:1702.07825 (2017-02-25) [2017-03-07]. https://arxiv.org/abs/1702.07825.

[9] SOTELO J, MEHRI S, KUMAR K, et al. Char2Wav: endtoend speech synthesis [EB/OL].[2018-06-20]. http://mila.umontreal.ca/wpcontent/uploads/2017/02/endendspeech.pdf.

[10] WANG Y, SKERRYRYAN R, STANTON D, et al. Tacotron: towards endtoend speech synthesis [J/OL]. arXiv Preprint, 2017, 2017: arXiv:1703.10135 (2017-03-29) [2017-04-06]. https://arxiv.org/abs/1703.10135.

[11] GRIFFIN D, LIM J S. Signal estimation from modified shorttime Fourier transform [J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1984, 32(2):236-243.

[12] CHOROWSKI J K, BAHDANAU D, SERDYUK D, et al. Attentionbased models for speech recognition [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 577-585.

[13] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. Endtoend attentionbased large vocabulary speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 4945-4949.

[14] CHAN W, JAITLY N, LE Q, et al. Listen, attend and spell: a neural network for large vocabulary conversational speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016:4960-4964.

[15] VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3156-3164.

[16] VINYALS O, KAISER L, KOO T, et al. Grammar as a foreign language[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2773-2781.

[17] LEE J, CHO K, HOFMANN T. Fully characterlevel neural machine translation without explicit segmentation[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1610.03017 (2016-10-10) [2017-05-13]. https://arxiv.org/abs/1610.03017.

[18] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks [J/OL]. arXiv Preprint, 2015, 2015: arXiv:1505.00387 (2015-03-03) [2015-11-03]. https://arxiv.org/abs/1505.00387.

[19] ERRO D, SAINZ I, NAVAS E, et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis [J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(2):184-194.

[20] AOKI N. Development of a rulebased speech synthesis system for the Japanese language using a MELP vocoder [C]// Proceedings of the 2000 10th European Signal Processing Conference. Piscataway, NJ: IEEE, 2000: 1-4.

[21] GUNDUZHAN E, MOMTAHAN K. Linear prediction based packet loss concealment algorithm for PCM coded speech [J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(8): 778-785.

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 爆乳熟妇一区二区三区| 日本国产精品| 精品久久久久久成人AV| 中文天堂在线视频| 尤物国产在线| 中日韩一区二区三区中文免费视频| 99激情网| 91麻豆精品视频| 国产福利免费视频| 国产在线观看一区精品| 亚洲欧洲日本在线| 亚洲va欧美va国产综合下载| 亚洲欧洲日本在线| 国产免费人成视频网| 欧美全免费aaaaaa特黄在线| 黄色成年视频| 毛片大全免费观看| 丰满少妇αⅴ无码区| 国产导航在线| 无码日韩人妻精品久久蜜桃| 久996视频精品免费观看| 亚洲经典在线中文字幕| 欧美成人精品一级在线观看| 国产尤物在线播放| 久久无码av三级| 国产在线视频二区| a级毛片免费播放| 91破解版在线亚洲| 色婷婷在线播放| 国产成人综合久久精品下载| 国产成人调教在线视频| 欧美另类一区| 欧美成人免费一区在线播放| 亚洲av无码牛牛影视在线二区| 人妻丰满熟妇av五码区| 欧美在线视频不卡第一页| 国产在线日本| 69av免费视频| 国产免费羞羞视频| 亚洲中文字幕精品| 为你提供最新久久精品久久综合| 久久人体视频| 亚洲另类第一页| 欧美三级自拍| 欧美狠狠干| 亚洲人成影院午夜网站| 亚洲啪啪网| 婷婷99视频精品全部在线观看| 超级碰免费视频91| 国产在线观看精品| 国产导航在线| 亚洲国产成人久久77| 国产精品自拍合集| av无码久久精品| 国国产a国产片免费麻豆| 性色在线视频精品| 久久无码av三级| 国产在线视频二区| 亚洲AV一二三区无码AV蜜桃| 免费国产不卡午夜福在线观看| 亚洲第一中文字幕| 热久久国产| 美女内射视频WWW网站午夜 | 日韩无码黄色| 亚洲欧美另类久久久精品播放的| 九色综合视频网| 亚洲日本中文综合在线| 波多野结衣视频一区二区 | 亚洲女同欧美在线| 亚洲AV无码久久精品色欲| 欧美在线综合视频| 国产欧美性爱网| 伊人激情久久综合中文字幕| 国产国模一区二区三区四区| 国产自在线播放| 国产凹凸一区在线观看视频| 国产va在线观看| 在线无码九区| 中文字幕人妻av一区二区| 欧美中文字幕一区二区三区| 本亚洲精品网站| 国产簧片免费在线播放|