李亞文
(商洛學院 物理與電子信息工程系,陜西商洛 726000)
語音合成技術的發展起步較早,早在1791年由Wolfgang Von Kempelen等[1]發明的語音合成器,使得機器能用法語拼出完整的短語,英語文語轉換系統發展比較早,代表性是DECTalk語音合成器[2],它可以發出7種不同音色的語音信號,用戶可以任意選擇,德國Franunhofer學會開發了DECTalk德語版本,它還被不同的國家轉化為烏克蘭語、俄語、匈牙利語等。從20世紀80年代我國自動化研究所、聲學研究所、社科院,就開始了語音合成方面的研究[3],目前漢語語音合成系統都是采用波形拼接合成技術[4],基于參數的語音合成算法,基于數據單元挑選語音合成算法和基于數據驅動的語音合成方法,以及語音識別中的數據驅動建模、最優搜索等[1-2,4]優秀的算法思想在語音合成中得到了廣泛的應用,然而這些算法各有優缺點,主要問題是占用的數據存儲空間較大,可懂度不高,從而影響了發音的質量,合成的語音音色單一,韻律結構預測誤差較大等。本文繼承基于參數的語音合成算法中線性預測的思想,提出了一種基于離散變換域的語音信號合成方法,對采樣的語音信號進行濾波,送入預測器中并進行語音預測,采用線性預測的方法壓縮語音數據量,大大的降低了語音信號的帶寬,再對語音信號加窗、基音提取,最后在聲道模型中重構合成語音信號。
離散信號相比模擬信號在傳輸中有明顯的優勢,因此大部分的信號傳輸都是要將模擬信號轉換為數字信號,其中語音信號的傳輸也是一樣。……