王國梁 陳夢楠 陳蕾



摘要:顛覆性設計的端到端語音合成系統Tacotron 2,目前僅能處理英文.致力于對Tacotron2進行多方位改進,設計了一種中文語音合成方案,主要包括:針對漢字不表音、變調和多音字等問題,添加預處理模塊,將中文轉化為注音字符;針對現有中文訓練語料不足的情況,使用預訓練解碼器,在較少語料上獲得了較好音質;針對中文語音合成急促停頓問題,采用對交叉熵損失進行加權,并用多層感知機代替變線性變換對停止符進行預測的策略,獲得了有效改善;另外通過添加多頭注意力機制進一步提高了中文語音合成音質.梅爾頻譜、梅爾倒譜距離等的實驗對比結果表明了方案的有效性:可以令Tacotron 2較好地適應中文語音合成的要求.
關鍵詞:語音合成; 多頭注意力;Tacotron 2
中圖分類號:TP391
文獻標志碼:A
DOI: 10.3969/j.issn.1000-5641.2019.04.011
0 簡介
語音合成,又稱文語轉換(Text To Speech,TTS),是一種可以將任意輸入文本轉換成相應語音的技術。傳統語音合成系統通常包括前端和后端兩個部分。前端主要對輸入文本進行分析,提取某些語言學信息:中文合成系統的前端部分一般包含文本正則化、分詞、詞性預測、多音字消歧、韻律預測等模塊[1].后端則通過一定方法,例如參數合成或拼接合成、生成語音波形.
參數合成指基于統計參數建模的語音合成[2].該方法在訓練階段對語言聲學特征、時長信息進行上下文相關建模,在合成階段通過時長模型和聲學模型預測聲學特征參數,對聲學特征參數做后處理,最終利用聲碼器恢復語音波形。……