王志超 吳 浩,2 李 棟 劉益岑
(1.四川輕化工大學自動化與信息工程學院 自貢 643000)(2.人工智能四川省重點實驗室 自貢 643000)(3.國網四川省電力公司電力科學研究院 成都 610000)
語音合成(Speech Synthesis)是通過機械、電子方法產生和人類說話聲音相似的語音技術。又名文本轉換語音技術TTS(Text to Speech)[1]。它可以應用于各種生活場景之中,例如汽車導航、音樂合成以及為視力受損人士提供更便利的服務[2]。
在語音合成技術的發展歷史中,語音合成技術隨著時代與科技發展逐漸變得更加智能與可靠。傳統語音合成方法步驟繁瑣,要求專業知識背景強,對于沒有聲學和統計學基礎的從業者具有很高的準入門檻。在傳統語音合成系統中,主要分為前端和后端兩大部分[3~4]。
前端針對輸入的文本進行預處理,例如文本正則化(text normallization):將輸入的文本中包含的數字、英文字母轉化為中文文字等;文本轉音素(text to phoneme):在語音合成系統中,我們輸入的是中文文字,但是計算機并不會直接識別文字,所以需要提前將文字轉換為音素的形式。
后端合成語音傳統方法為參數合成或拼接式合成。參數合成方法指通過數學方法對語料庫錄音進行建模,提取已有錄音頻譜、時長信息等特征,構建文本序列映射到語音特征的映射關系[5]。在合成階段通過時長(duration)模型和聲學模型預測聲學特征參數,最后利用聲碼器(vocoder)合成波形[6]。這類方法所需錄音數據量小,合成語音平滑,但缺點是太過機械不夠自然[7]。拼接式合成方法是通過在錄音室或其他專業器械幫助下預先錄制大量音頻,針對對應的音節音素,從語料庫中挑選出適當語音單元進行參數合成。……