劉豫軍 夏 聰
(珠海多玩信息技術有限公司 廣東 519000)
語音信號是一種時變、非平穩的隨機信號,其主要頻帶特征和信號特征如下:
(1)頻帶特征
人說話聲音頻率范圍是 300Hz~3400Hz,男性大約在250Hz~2000 Hz之間,女性則大約在450Hz~4000 Hz之間。
(2)信號特征
清音:沒有周期性,主要在高頻部分,易混于噪音;
濁音:接近周期信號,主要分布在低頻部分;
噪音:語音之間間隙,純噪音的“無聲區”。

圖1 語音信號特征圖譜
目前,國內已有科大訊飛、云之聲等為代表的高新技術企業以及高校、科研院所等單位,在語音識別技術研究領域取得了不少成果,但是依然面臨著產業化發展的技術瓶頸,主要表現在以下幾個方面:
(1)語音識別系統的適應性差;
(2)高噪聲環境下語音識別進展困難;
(3)如何把語言學、生理學、心理學方面的研究成果量化、建模并用于語音識別,還需深入研究;
(4)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;
(5)若將語音識別系統商品化,還有識別速度、拒識問題以及關鍵詞/句檢測技術等細節問題需要解決。
(1)基本原理
小波分析是一種強有力的信號分析工具,它是時間和頻率的局部變換,能有效的從信號中提取信息。例如,在信號的高頻域部分,運用小波分析可以取得較好的時間分辨率;在信號的低頻域部分,則取得較好的頻率分辨率;在提取識別特征前,用小波進行預處理,能夠選取語音信號的有用信息,并且有效抑制無關信息對識別所產生的干擾。
(2)小波分析在語音識別中的應用
小波分析在語音識別中的作用十分突出,尤其對語音數據的預處理至關重要,主要應用包括語音信號的降噪處理、語音信號壓縮與重構以及幅度突變信號的檢測等。
1)語音信號的降噪處理
降噪處理的基本過程可分為三個步驟:①一維信號的小波分解;②小波分解高頻系數的閾值量化;③一維小波重構。
主要特點:①高頻部分所影響的是小波分解的第一層細節;②低頻部分所影響的是小波分解的最深層和最低頻層;③高頻系數的幅值隨著分解層次的增加而迅速的衰減,且其方差也有同樣的變化趨勢。
2)語音信號壓縮與重構
語音信號壓縮與重構主要包括三個步驟:①信號的小波分解;②對高頻系數進行閥值量化處理;③對量化后的系數進行小波重構。
3)幅度突變信號的檢測
小波分析能夠檢測信號幅值變化的準確時間,能夠準確地將正弦信號幅度發生跳變的時間點檢測出來。
(3)典型技術解決方案
1)利用Matlab消噪
①用ddencmp生成信號的默認閥值,后利用wdencmp進行消噪;②用 wthresh函數進行給定閥值量化處理,比默認閥值可信度高;③小波分解結構中的高頻系數全部置 0,強制消噪處理。

圖2 傳統的語音去噪流程方法
傳統的語音去噪流程直接對語音信號進行閾值處理,信號的高頻部分置0,造成去噪后信號的失真等問題。
利用Matlab消噪,是在傳統語音信號去噪技術的基礎上,通過改進算法和閾值函數來實現的,即先進行清濁音分離,后用不同閾值進行處理。
? 改進算法
①語音信號的清濁音分離(清濁音判定方法:清音在較高的頻率段上能量比較強,而濁音的能量主要分布在較低的頻率上);②對清音段和濁音段分別進行不同的閾值處理;③離散小波反變換,獲得去噪后的語音信號。

圖3 語音信號改進算法
? 改進閾值函數
常用的幾種閾值函數主要有:硬閾值函數、軟閾值函數、折中閾值函數和μ律閾值函數等。
這些閾值函數使用中的缺點:①硬閾值法,去噪效果不理想,重構產生振蕩;②軟閾值法,重構信號存在較大的失真;③前三種閾值函數,|X|≤T時都等于0,會導致去噪后的信號產生較大失真。
改進的閾值函數,即二次小波分解全局閾值函數,具有以下優點:①輸入信噪比較低時:效果和折中閾值法差不多,克服了μ律閾值法去噪效果不佳的缺點;②輸入信噪比較高時:其去噪效果和μ律閾值法差不多,相對折中閾值法而言輸出信噪比有所改善。

圖4 改進的二次小波分解全局閾值函數
? 采用改進算法進行去噪的具體流程
①首先對信號進行三層小波分解,三個高頻系數和一個低頻系數;
②其高頻部分由噪聲和信號兩部分混合組成,對高頻部分進行二次小波分解,得到二次分解后的6個高頻系數和6個低頻系數;
③此時對各高頻部分分解后得到高頻系數利用全局閾值進行去噪處理,得到處理后的3個高頻部分;
④將處理后高頻系數和第一次分解的低頻系數再經過小波逆變換,得到去噪后的重構信號。
2)基于小波包分解的語音特征提取
該方法主要是利用小波樹已分解出來的各級系數來提取某類目標的信號特征,具體操作步驟如下:
①首先對信號進行多尺度小波樹分解,分別提取從低頻到高頻的各個頻段成分的信號特征;
②對小波樹的各級分解系數重構,提取各頻帶范圍內的信號;
③求各頻帶信號的總能量;
④構造特征向量。
該種方法可以使語音信號特征在不同分辨率的不同子空間中顯示出來,得到的各個頻帶內的能量信號比原始信號有更好的類別可分性。
上文主要介紹了國內外主流的語音識別小波分析技術及其技術路線。可以看出,目前國內小波分析技術有了較大進步,主要是通過對算法和函數的局部改進,有效彌補了傳統語音去噪技術的諸多不足,具有一定的技術推動作用。
隨著神經網絡技術的不斷發展,未來語音識別小波分析技術將會呈現與神經網絡相結合的發展趨勢,目前比較看好的是小波混沌神經網絡技術(wavelet chaotic neural network,wcnn)。該技術將小波分析作為神經網絡的前置處理,為神經網絡隱含層提供輸入特征向量,然后再提供給混沌神經元部分進行識別,具有響應速度快、識別精度高等優點,是未來小波分析在語音識別領域的技術發展趨勢之一。
現階段,語音識別正在人們日常工作和生活的各個方面愈加廣泛應用。但由于語音環境的高度復雜性,現有語音識別系統無一例外在噪聲環境下遭遇識別盲區,為語音產品的大規模推廣應用制造了障礙。
因此,語音數據預處理環節的去噪技術研究,對語音識別技術的發展具有十分重要的理論和現實意義。而小波分析技術的應用則為去噪技術提供了新的解決思路,未來若能與神經網絡技術相結合,實現優勢互補,必將極大推動語音識別技術的快速發展,為促進語音產品早日實現產業化奠定基礎。
[1]袁莉芬等,一種改進型的小波變換語音去噪算法,《現代電子技術》,2009年第18期.
[2]馬道鈞、劉然,小波變換在語音識別中的應用研究,北京,北京電子科技學院學報,2007.
[3]李從清等,小波變換的語音去噪方法,《計算機工程與應用》2009,45(36).
[4]王旭等,基于小波混沌神經網絡的語音識別,《計算機應用研究》,2008.7-25卷-7期.