譚梓煒
(深圳市創客工場科技有限公司 廣東深圳 518000)
?
語音改變技術及其原理
譚梓煒
(深圳市創客工場科技有限公司廣東深圳518000)
語音信號處理技術是語音處理領域中新近發展起來的一個學科分支,本文主要研究了語音信號處理技術中的兩個主要:內容語音時長規整技術和說話人特征改變技術。語音時長規整技術就是在不改變語音音調并保證良好音質的前提下,隨意地改變語音播放速度,就仿佛說話人自己在改變說話速度一樣。說話人特征改變技術是語音處理中一個比較新的交叉邊緣分支,主要是通過對合成語音進行適當語音參數控制和調整來實現的。在此基礎上得出了人耳對基音同步的感知存在一定的容差從而改進了二次譜提取基頻算法,提高了基頻提取的準確度,進一步提出了一種新的基于改進二次譜的語音時長規整算法。該算法在保持規整后語音質量的同時,有效降低了整體計算復雜度。針對說話人特征改變技術,提出了一種基于重采樣的基頻改變算法,該算法簡單有效,整體計算復雜度較低。
語音信號 時長規整 基音檢測 頻譜
1.研究背景及選題意義
語音是人類交流的最直接的方式,語音信號在社會交流、信息傳輸中占有重要的地位。其中,變聲技術是一個備受關注的內容。利用變聲技術可以將一個人說出的話通過處理后變成與自身不同的特點,從而聽起來像是另一個人說出來的一樣。比如一個年輕人說出的話聽著像老人,男人聽著像女人,這看上去非常的有趣。其實,變聲技術的用途十分廣泛,比如電視節目中的配音,機密信息的語音偽裝等。
2.國內外研究動態
(1)語音時長規整技術研究動態
在20世紀50年代的時候,就已經開始有人研究語音時長的規整技術,并且已經有這樣一種想法提出:即在保證音色不發生改變的狀況下,將語音播放的速度進行改變。進入數字時代后,做到了改變語音播放速度的同時,不改變說話人特征的要求[2]。其主要方法有三類:時域法、頻域法和參數法。
(2)說話人特征改變技術研究動態
對于將說話的人的特征發生改變的這一技術的研究,首先需要了解說話的人的特征。目前有兩種方法可以實現使說話人特征發生改變:參數法和非參數法。第一種是首先獲得說話的人的一些參數,然后憑借這些特征參數改變說話人的相應特征;后者則建立不同說話人之間的映射關系[3]。
1.語音信號處理基本理論
語音時長規整技術的作用是在確保說話人的語音特征不發生變化的狀況下,能夠做到將語音播放的速度產生變化。這里面包括的算法有三種類型:頻域法、參數法以及時域法[4]。
2.語音信號的頻域特性
一段語音的短時譜的產生有兩個步驟,首先要對其分幀加窗,之后還要有傅里葉變換。一個隨機信號的頻譜與清音的短時譜是十分相似的。在濁音信號短時譜中,周期性特征較顯著,在短時譜中的凸起點的頻率與聲道諧振頻率具有較好的一致性。短時譜中的凸起點所對應的頻率通常叫做共振頻率。共振峰有好幾種名稱,頻率低的通常被叫做第一共振峰,頻率高的通常被叫做第二共振峰。
3.語音信號的預處理
一般而言為了便于分析,要進行高頻增強處理。能量損耗具有如下規律:由于語音信號中的功率譜每降低6dB,相應的頻率就會增加兩倍,因此在預加重的過程中,通常在6dB/otc的前提下提高高強部分。預加重的方法一般有兩種:
硬件實現時,可用6dB/oct梯度的高頻增強型濾波器,其傳遞函數為

在這個函數中a表示預加重系數,通常取1或者比1小。
4.仿真實現
在研究仿真實現的過程中,可以錄制一段男聲語音來深入研究。對這段語音進行兩次規整,規整因子F分別為2和0.7,即一個是壓縮處理,一個是拉伸處理。在設定幀長時采用1024個采樣點,ss設定為幀長的一半。圖2-4—2-6描述的是重疊加算法里面原始語音信號以及F分別取2和0.7時的波形圖以及局部波形的放大圖。

圖2-4 原始語音波形圖

圖2-5 原始語音局部放大圖

圖2-6 F=2時波形

圖2-7 F=2時局部放大圖
1.人體語音信號的發聲機理
人體主要有6個發聲系統,外界空氣經過呼吸進入肺部,聲帶受到氣流的沖擊后閉合[7]。不同的頻率聲波表現出來的就是不同的聲音特性,所以改變語音頻率是一種有效的說話人特征改變技術。
(1)算法原理
這里介紹的是音頻改變的算法。當放音機里面的放音速度發生變化時,相應的音高基頻會隨之發生變化,在這種情況下,基頻改變因子P 等同于變速因子S ,即P = S 。如果輸入的語音用x(n)表示,根據變速因子S(當S > 1時,此時播放的速度就增加,當S <1的時候,此時播放的速度就減少),播放的速度發生變化之后的的語音表示為( ) x n,那么

其中[]表示下取整運算。
(2)仿真實現
下面是一段男聲發“我在俄國見到的景物”的語音圖形。根據圖3.1的流程圖,當基頻增大至變成原始的基頻的1.5倍時,對進行的仿真實驗進行了相關的研究,依據取得的實驗結果來討論實驗的合理性等等。
(1)改變播放速度調整基頻

圖3-2 一段男聲的語音時域波形圖

圖3-3 改變播放速度后的時域波形圖(P=1.5)

圖3-4 幀語音的原始時域波形

圖3-5 播放速度加快1.5倍后的該幀波形
根據圖3-2中所表示的波形圖可以看出,波形大體上表現為一幀信號就是4個周期,拿總長度除以周期數得到這段語音的周期時長是6ms.相應的,根據圖3-5中所表示的波形圖可以看出,波形的周期數也是4,拿總的長度除以周期數就得到對應的周期時長大約是4ms。將得到的兩個音頻相除,很容易可以看出這種做法可以很好地改變濁音信號相應的基頻。
本文一共對兩個方面的問題進行了研究,第一個是關于語音時長規整技術,第二個是關于使說話人的特征發生變化的技術。雖然這兩種技術在文章里面是分章節介紹的,并沒有放在一起研究,但是這并不代表這兩種技術之間沒有關系,其實,這兩種技術之間的聯系十分密切,前者的深入研究是后者得以實現的關鍵,是后者成功的基礎。
[1]楊瑩春. 說話人特征及模型研究[D]. 浙江大學,博士后論文,2003.
[2]胡航. 語音信號處理[M]. 哈爾濱哈爾濱工業大學出版社,2000.
[3]陳硯圃. 聽覺感知及其在語音增強中的應用研究[D]. 西安交通大學,博士學位論文,2001.
[4]張天駭, 張戰, 權進國等. 語音信號基音檢測的二次譜方法[J].計算機應用,2005.
{5]趙力. 語音信號處理[M] ,北京:機械工業出版社,2003.