基于WaveNet的端到端語音合成方法

2019-08-01 01:48:57邱澤宇屈丹張連海

計算機應用 2019年5期

邱澤宇屈丹張連海

摘要：針對端到端語音合成系統中GriffinLim算法恢復相位信息合成語音保真度較低、人工處理痕跡明顯的問題，提出了一種基于WaveNet網絡架構的端到端語音合成方法。以序列映射Seq2Seq結構為基礎，首先將輸入文本轉化為onehot向量，然后引入注意力機制獲取梅爾聲譜圖，最后利用WaveNet后端處理網絡重構語音信號的相位信息，從而將梅爾頻譜特征逆變換為時域波形樣本。實驗的測試語料為LJSpeech1.0和THchs30，針對英語、漢語兩個語種進行了實驗，實驗結果表明平均意見得分（MOS）分別為3.31、3.02，在合成自然度方面優于采用GriffinLim算法的端到端語音合成系統以及參數式語音合成系統。

關鍵詞：語音合成;端到端;Seq2Seq;GriffinLim算法;WaveNet

中圖分類號：TN912.33

文獻標志碼：A

Abstract： GriffinLim algorithm is widely used in endtoend speech synthesis with phase estimation， which always produces obviously artificial speech with low fidelity. Aiming at this problem， a system for endtoend speech synthesis based on WaveNet network architecture was proposed. Based on Seq2Seq （SequencetoSequence） structure， firstly the input text was converted into a onehot vector， then， the attention mechanism was introduced to obtain a Mel spectrogram， finally WaveNet network was used to reconstruct phase information to generate timedomain waveform samples from the Mel spectrogram features. Aiming at English and Chinese， the proposed method achieves a Mean Opinion Score （MOS） of 3.31 on LJSpeech1.0 corpus and 3.02 on THchs30 corpus， which outperforms the endtoend systems based on GriffinLim algorithm and parametric systems in terms of naturalness.

0 引言

語音合成（Speech Synthesis），又稱文語轉換（Text To Speech， TTS）技術是指計算機通過分析將任意文本轉化為流暢語音的技術。語音合成作為實現人機語音交互系統的核心技術之一[1]，是語音處理技術中一個重要的方向，其應用價值越來越受到重視。

語音合成領域的主導技術隨著時代的發展不斷更迭。基于波形拼接的語音合成方法，是一項把預先錄制的語音波形片段拼接在一起的技術，是目前語音合成領域常用方法之一[2-5]。受到語料庫內容的限制，這種方法對拼接算法的優化、存儲配置的調整等方面有較大的要求，對于語料庫之外的其他說話人、其他文本內容起不到任何作用。

隨著基于統計參數的語音合成方法日益成熟，這種方法被逐漸應用到語音合成中[6]。基于統計參數的語音合成方法的基本思想是，通過對輸入的訓練語音進行參數分解，然后對聲學參數建模，并構建參數化訓練模型，生成訓練模型庫，最后在模型庫的指導下，預測待合成文本的語音參數，將參數輸入聲碼器合成目標語音，這種方法解決了拼接式合成方法中邊界人工痕跡很多的問題。然而由這些方法構造的系統需要大量的專業領域知識，因而設計困難，并且所需模塊通常是單獨訓練，產生自每個模塊的錯誤會有疊加效應，生成的語音與人類語音相比，經常模糊不清并且不自然。

隨著人工智能技術的快速發展，語音合成領域有了新的技術支持。深度學習可以將內部模塊統一到一個模型中，并直接連接輸入和輸出，減少了基于特定領域知識的密集工程參數模型，這種技術被稱為“端到端”學習。設計一個能在已標注的（文本、語音）配對數據集上訓練的端到端的語音合成系統，會帶來諸多優勢：第一，這樣的系統可以基于各種屬性進行多樣化的調節，比如不同說話人、不同語言，或者像語義這樣的高層特征;第二，與存在錯誤疊加效應的多階段模型相比，單一模型更魯棒。

近年來端到端的語音合成系統引起了廣泛的研究，WaveNet[7]是一個強大的語音生成模型，它在TTS中表現良好，但樣本級自回歸的特性導致其速度較慢，需要一個復雜的前端文本分析系統，因此不是端到端語音合成系統。Deep Voice[8]將傳統TTS系統流水線中的每一個模塊分別用神經網絡架構代替，然而它的每個模塊都是單獨訓練的，要把系統改成端到端的方式比較困難。Char2Wav[9]是一個獨立開發的可以在字符數據上訓練的端到端模型，但是它需要傳統的聲碼器參數作為中間特征表達，不能直接預測輸出頻譜特征。Tacotron[10]是一個從字符序列生成幅度譜的Seq2Seq（SequencetoSequence）架構，它僅用輸入數據訓練出一個單一的神經網絡，用于替代語言學和聲學特征的生成模塊，使用GriffinLim算法[11]估計相位，施加短時傅里葉變換合成語音，從而簡化了傳統語音合成的流水線，然而GriffinLim算法會產生特有的人工痕跡并且合成的語音保真度較低，因此需要替換成神經網絡架構。

本文針對目前端到端系統中GriffinLim算法還原語音信號自然度較低的問題，提出了一種基于WaveNet網絡架構的端到端語音合成方法，采用基于注意力機制的Seq2Seq架構作為特征預測網絡，將輸入文本轉化為梅爾聲譜圖，結合WaveNet架構實現了多語種的語音合成。

4 結語

本文主要介紹的端到端語音合成系統，首先用基于注意力機制的Seq2Seq模型訓練一個特征預測網絡，然后獲取待合成語音的梅爾聲譜圖，利用WaveNet架構恢復損失的相位信息來實現語音合成。在實驗中，采用WaveNet架構的系統性能優于采用GriffinLim算法作為波形轉換器的系統。實驗中，隨著訓練步數的增加，系統的性能提高，迭代至200k次后趨于穩定。調整字符的表征方式，可以實現不同語言的合成。由于中文特征表達以及韻律結構較為復雜，所以合成自然度不如英文語音。

本次實驗中采用的Seq2Seq架構主要為RNN的組合。在后續的研究中會探討其他網絡組合對合成質量的影響，對WaveNet網絡結構進行修訂以提升收斂速度也是一個值得研究的課題。

參考文獻（References）

[1] FUNG P， SCHULTZ T. Multilingual spoken language processing [J]. IEEE Signal Processing Magazine， 2008， 25（3）：89-97.

[2] HUNT A J， BLACK A W. Unit selection in a concatenative speech synthesis system using a large speech database[C]// Proceedings of the 1996 IEEE International Conference on Acoustics， Speech， and Signal Processing. Piscataway， NJ： IEEE， 1996： 373-376.

[3] CAMPBELL N， BLACK A W. Prosody and the selection of source units for concatenative synthesis [M]// Progress in Speech Synthesis. New York： Springer， 1997： 279-292.

[4] ZE H， SENIOR A， SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// Proceedings of the 2013 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2013：7962-7966.

[5] TOKUDA K， NANKAKU Y， TODA T， et al. Speech synthesis based on hidden Markov models[J]. Proceedings of the IEEE， 2013， 101（5）： 1234-1252.

[6] ZEN H， TOKUDA K， BLACK A W. Statistical parametric speech synthesis [J]. Speech Communication， 2009， 51（11）：1039-1064.

[7] OORD A V D， DIELEMAN， ZEN H， et al. WaveNet： a generative model for raw audio[J/OL]. arXiv Preprint， 2016， 2016： arXiv：1609.03499 （2016-09-12） [2016-09-19]. https：//arxiv.org/abs/1609.03499.

[8] ARIK S O， CHRZANOWSKI M， COATES A， et al. Deep Voice： realtime neural texttospeech [J/OL]. arXiv Preprint， 2017， 2017： arXiv：1702.07825 （2017-02-25） [2017-03-07]. https：//arxiv.org/abs/1702.07825.

[9] SOTELO J， MEHRI S， KUMAR K， et al. Char2Wav： endtoend speech synthesis [EB/OL].[2018-06-20]. http：//mila.umontreal.ca/wpcontent/uploads/2017/02/endendspeech.pdf.

[10] WANG Y， SKERRYRYAN R， STANTON D， et al. Tacotron： towards endtoend speech synthesis [J/OL]. arXiv Preprint， 2017， 2017： arXiv：1703.10135 （2017-03-29） [2017-04-06]. https：//arxiv.org/abs/1703.10135.

[11] GRIFFIN D， LIM J S. Signal estimation from modified shorttime Fourier transform [J]. IEEE Transactions on Acoustics Speech and Signal Processing， 1984， 32（2）：236-243.

[12] CHOROWSKI J K， BAHDANAU D， SERDYUK D， et al. Attentionbased models for speech recognition [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2015： 577-585.

[13] BAHDANAU D， CHOROWSKI J， SERDYUK D， et al. Endtoend attentionbased large vocabulary speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2016： 4945-4949.

[14] CHAN W， JAITLY N， LE Q， et al. Listen， attend and spell： a neural network for large vocabulary conversational speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2016：4960-4964.

[15] VINYALS O， TOSHEV A， BENGIO S， et al. Show and tell： a neural image caption generator[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2015：3156-3164.

[16] VINYALS O， KAISER L， KOO T， et al. Grammar as a foreign language[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2014： 2773-2781.

[17] LEE J， CHO K， HOFMANN T. Fully characterlevel neural machine translation without explicit segmentation[J/OL]. arXiv Preprint， 2017， 2017： arXiv：1610.03017 （2016-10-10） [2017-05-13]. https：//arxiv.org/abs/1610.03017.

[18] SRIVASTAVA R K， GREFF K， SCHMIDHUBER J. Highway networks [J/OL]. arXiv Preprint， 2015， 2015： arXiv：1505.00387 （2015-03-03） [2015-11-03]. https：//arxiv.org/abs/1505.00387.

[19] ERRO D， SAINZ I， NAVAS E， et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis [J]. IEEE Journal of Selected Topics in Signal Processing， 2014， 8（2）：184-194.

[20] AOKI N. Development of a rulebased speech synthesis system for the Japanese language using a MELP vocoder [C]// Proceedings of the 2000 10th European Signal Processing Conference. Piscataway， NJ： IEEE， 2000： 1-4.

[21] GUNDUZHAN E， MOMTAHAN K. Linear prediction based packet loss concealment algorithm for PCM coded speech [J]. IEEE Transactions on Speech and Audio Processing， 2001， 9（8）： 778-785.