邱澤宇 屈丹 張連海
摘 要:針對端到端語音合成系統中GriffinLim算法恢復相位信息合成語音保真度較低、人工處理痕跡明顯的問題,提出了一種基于WaveNet網絡架構的端到端語音合成方法。以序列映射Seq2Seq結構為基礎,首先將輸入文本轉化為onehot向量,然后引入注意力機制獲取梅爾聲譜圖,最后利用WaveNet后端處理網絡重構語音信號的相位信息,從而將梅爾頻譜特征逆變換為時域波形樣本。實驗的測試語料為LJSpeech1.0和THchs30,針對英語、漢語兩個語種進行了實驗,實驗結果表明平均意見得分(MOS)分別為3.31、3.02,在合成自然度方面優于采用GriffinLim算法的端到端語音合成系統以及參數式語音合成系統。
關鍵詞:語音合成;端到端;Seq2Seq;GriffinLim算法;WaveNet
中圖分類號:TN912.33
文獻標志碼:A
Abstract: GriffinLim algorithm is widely used in endtoend speech synthesis with phase estimation, which always produces obviously artificial speech with low fidelity. Aiming at this problem, a system for endtoend speech synthesis based on WaveNet network architecture was proposed. Based on Seq2Seq (SequencetoSequence) structure, firstly the input text was converted into a onehot vector, then, the attention mechanism was introduced to obtain a Mel spectrogram, finally WaveNet network was used to reconstruct phase information to generate timedomain waveform samples from the Mel spectrogram features. Aiming at English and Chinese, the proposed method achieves a Mean Opinion Score (MOS) of 3.31 on LJSpeech1.0 corpus and 3.02 on THchs30 corpus, which outperforms the endtoend systems based on GriffinLim algorithm and parametric systems in terms of naturalness.
0 引言
語音合成(Speech Synthesis),又稱文語轉換(Text To Speech, TTS)技術是指計算機通過分析將任意文本轉化為流暢語音的技術。語音合成作為實現人機語音交互系統的核心技術之一[1],是語音處理技術中一個重要的方向,其應用價值越來越受到重視。
語音合成領域的主導技術隨著時代的發展不斷更迭。基于波形拼接的語音合成方法,是一項把預先錄制的語音波形片段拼接在一起的技術,是目前語音合成領域常用方法之一[2-5]。受到語料庫內容的限制,這種方法對拼接算法的優化、存儲配置的調整等方面有較大的要求,對于語料庫之外的其他說話人、其他文本內容起不到任何作用。
隨著基于統計參數的語音合成方法日益成熟,這種方法被逐漸應用到語音合成中[6]。基于統計參數的語音合成方法的基本思想是,通過對輸入的訓練語音進行參數分解,然后對聲學參數建模,并構建參數化訓練模型,生成訓練模型庫,最后在模型庫的指導下,預測待合成文本的語音參數,將參數輸入聲碼器合成目標語音,這種方法解決了拼接式合成方法中邊界人工痕跡很多的問題。然而由這些方法構造的系統需要大量的專業領域知識,因而設計困難,并且所需模塊通常是單獨訓練,產生自每個模塊的錯誤會有疊加效應,生成的語音與人類語音相比,經常模糊不清并且不自然。
隨著人工智能技術的快速發展,語音合成領域有了新的技術支持。深度學習可以將內部模塊統一到一個模型中,并直接連接輸入和輸出,減少了基于特定領域知識的密集工程參數模型,這種技術被稱為“端到端”學習。設計一個能在已標注的(文本、語音)配對數據集上訓練的端到端的語音合成系統,會帶來諸多優勢: 第一,這樣的系統可以基于各種屬性進行多樣化的調節,比如不同說話人、不同語言,或者像語義這樣的高層特征;第二,與存在錯誤疊加效應的多階段模型相比,單一模型更魯棒。
近年來端到端的語音合成系統引起了廣泛的研究,WaveNet[7]是一個強大的語音生成模型,它在TTS中表現良好,但樣本級自回歸的特性導致其速度較慢,需要一個復雜的前端文本分析系統,因此不是端到端語音合成系統。Deep Voice[8]將傳統TTS系統流水線中的每一個模塊分別用神經網絡架構代替,然而它的每個模塊都是單獨訓練的,要把系統改成端到端的方式比較困難。Char2Wav[9]是一個獨立開發的可以在字符數據上訓練的端到端模型,但是它需要傳統的聲碼器參數作為中間特征表達,不能直接預測輸出頻譜特征。Tacotron[10]是一個從字符序列生成幅度譜的Seq2Seq(SequencetoSequence)架構,它僅用輸入數據訓練出一個單一的神經網絡,用于替代語言學和聲學特征的生成模塊,使用GriffinLim算法[11]估計相位,施加短時傅里葉變換合成語音,從而簡化了傳統語音合成的流水線,然而GriffinLim算法會產生特有的人工痕跡并且合成的語音保真度較低,因此需要替換成神經網絡架構。
本文針對目前端到端系統中GriffinLim算法還原語音信號自然度較低的問題,提出了一種基于WaveNet網絡架構的端到端語音合成方法,采用基于注意力機制的Seq2Seq架構作為特征預測網絡,將輸入文本轉化為梅爾聲譜圖,結合WaveNet架構實現了多語種的語音合成。
4 結語
本文主要介紹的端到端語音合成系統,首先用基于注意力機制的Seq2Seq模型訓練一個特征預測網絡,然后獲取待合成語音的梅爾聲譜圖,利用WaveNet架構恢復損失的相位信息來實現語音合成。在實驗中,采用WaveNet架構的系統性能優于采用GriffinLim算法作為波形轉換器的系統。實驗中,隨著訓練步數的增加,系統的性能提高,迭代至200k次后趨于穩定。調整字符的表征方式,可以實現不同語言的合成。由于中文特征表達以及韻律結構較為復雜,所以合成自然度不如英文語音。
本次實驗中采用的Seq2Seq架構主要為RNN的組合。在后續的研究中會探討其他網絡組合對合成質量的影響,對WaveNet網絡結構進行修訂以提升收斂速度也是一個值得研究的課題。
參考文獻 (References)
[1] FUNG P, SCHULTZ T. Multilingual spoken language processing [J]. IEEE Signal Processing Magazine, 2008, 25(3):89-97.
[2] HUNT A J, BLACK A W. Unit selection in a concatenative speech synthesis system using a large speech database[C]// Proceedings of the 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1996: 373-376.
[3] CAMPBELL N, BLACK A W. Prosody and the selection of source units for concatenative synthesis [M]// Progress in Speech Synthesis. New York: Springer, 1997: 279-292.
[4] ZE H, SENIOR A, SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013:7962-7966.
[5] TOKUDA K, NANKAKU Y, TODA T, et al. Speech synthesis based on hidden Markov models[J]. Proceedings of the IEEE, 2013, 101(5): 1234-1252.
[6] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis [J]. Speech Communication, 2009, 51(11):1039-1064.
[7] OORD A V D, DIELEMAN, ZEN H, et al. WaveNet: a generative model for raw audio[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1609.03499 (2016-09-12) [2016-09-19]. https://arxiv.org/abs/1609.03499.
[8] ARIK S O, CHRZANOWSKI M, COATES A, et al. Deep Voice: realtime neural texttospeech [J/OL]. arXiv Preprint, 2017, 2017: arXiv:1702.07825 (2017-02-25) [2017-03-07]. https://arxiv.org/abs/1702.07825.
[9] SOTELO J, MEHRI S, KUMAR K, et al. Char2Wav: endtoend speech synthesis [EB/OL].[2018-06-20]. http://mila.umontreal.ca/wpcontent/uploads/2017/02/endendspeech.pdf.
[10] WANG Y, SKERRYRYAN R, STANTON D, et al. Tacotron: towards endtoend speech synthesis [J/OL]. arXiv Preprint, 2017, 2017: arXiv:1703.10135 (2017-03-29) [2017-04-06]. https://arxiv.org/abs/1703.10135.
[11] GRIFFIN D, LIM J S. Signal estimation from modified shorttime Fourier transform [J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1984, 32(2):236-243.
[12] CHOROWSKI J K, BAHDANAU D, SERDYUK D, et al. Attentionbased models for speech recognition [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 577-585.
[13] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. Endtoend attentionbased large vocabulary speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 4945-4949.
[14] CHAN W, JAITLY N, LE Q, et al. Listen, attend and spell: a neural network for large vocabulary conversational speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016:4960-4964.
[15] VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3156-3164.
[16] VINYALS O, KAISER L, KOO T, et al. Grammar as a foreign language[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2773-2781.
[17] LEE J, CHO K, HOFMANN T. Fully characterlevel neural machine translation without explicit segmentation[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1610.03017 (2016-10-10) [2017-05-13]. https://arxiv.org/abs/1610.03017.
[18] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks [J/OL]. arXiv Preprint, 2015, 2015: arXiv:1505.00387 (2015-03-03) [2015-11-03]. https://arxiv.org/abs/1505.00387.
[19] ERRO D, SAINZ I, NAVAS E, et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis [J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(2):184-194.
[20] AOKI N. Development of a rulebased speech synthesis system for the Japanese language using a MELP vocoder [C]// Proceedings of the 2000 10th European Signal Processing Conference. Piscataway, NJ: IEEE, 2000: 1-4.
[21] GUNDUZHAN E, MOMTAHAN K. Linear prediction based packet loss concealment algorithm for PCM coded speech [J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(8): 778-785.