馮流保
隨著時(shí)代的發(fā)展,各種語音處理系統(tǒng)的應(yīng)用越來越廣泛,例如車載聲控設(shè)備的應(yīng)用,有聲語言學(xué)習(xí)等。為了增強(qiáng)各種系統(tǒng)的處理能力,提出了許多語音增強(qiáng)方法。由于小波有多分辨率的特點(diǎn),利用小波進(jìn)行語音增強(qiáng)的各種方法被人們關(guān)注。在時(shí)頻域的小波信號處理方法,最初是由 Donoho等提出并應(yīng)用于圖像、語音等各種信號的去噪工作[1-2]。閾值函數(shù)的設(shè)計(jì)尤為重要,它決定整個(gè)增強(qiáng)系統(tǒng)的性能,學(xué)者們提出了各種方法,如 Yasser 和 Mohammad提出的非線性閾值函數(shù)[3]等。本文提出一種根據(jù)人耳掩蔽效應(yīng)設(shè)計(jì)的閾值函數(shù)去噪方法,它在語音失真與減小噪聲之間尋找最佳折中,對帶噪小波系數(shù)進(jìn)行處理得到增強(qiáng)語音。實(shí)驗(yàn)表明,該方法可以得到較好的語音質(zhì)量。
使用小波包變換代替以往的傅立葉變換,能較好地模擬出人耳聽覺特性。又由于語音高頻處包含著大量語音信息,模擬人耳聽覺模型進(jìn)行語音信號分解的方法能較好的反映人耳特點(diǎn),派生于bark聽覺構(gòu)架的聽覺小波包分解把4 kHz的語音分解到 18個(gè)稱為聽覺臨界帶的小波子帶中,通過五層小波包分解完成[4],如下頁圖1所示。
帶噪語音假設(shè)為干凈語音和噪聲時(shí)域上的相加,進(jìn)行聽覺小波包變換[4]后,可表示為:


圖1 聽覺小波包聽覺分解模擬人耳聽覺
早在1994年,Donoho等在研究小波原理時(shí)就提出了用于圖像、聲音等小波去噪方法,其中較為成功的是使用軟閾值處理函數(shù)的方法[1-2]:

當(dāng)聽覺小波包分解提出之后,人們對閾值的估計(jì)方法與閾值函數(shù)的設(shè)計(jì)作了各種改進(jìn)。對于閾值,不少學(xué)者提出動態(tài)閾值的概念,如Mohammed Bahoura等根據(jù)teager能量算子調(diào)整閾值[5]等。得到閾值后便可利用閾值函數(shù)對小波系數(shù)作處理。
聽覺掩蔽的原理是某頻率里的能量根據(jù)一定的規(guī)則影響著附近頻率上的聽覺,使人耳感受不到小于某閾值的信號能量。根據(jù)此原理設(shè)計(jì)出可以根據(jù)掩蔽閾值調(diào)整處理參數(shù)的閾值函數(shù):

聽覺掩蔽閾值函數(shù)中,α是關(guān)鍵的參數(shù),用來調(diào)整去除噪聲的力度。當(dāng)掩蔽閾值相對較大時(shí),說明語音能量可以較好的掩蔽噪聲,此時(shí)α取一個(gè)較小值,使信號根據(jù)噪聲閾值僅進(jìn)行一個(gè)小的收縮,減小語音失真;當(dāng)掩蔽閾值相對較小時(shí),說明語音能量已經(jīng)不能掩蔽噪聲的能量,此時(shí)α取一個(gè)較大值,使信號根據(jù)噪聲閾值進(jìn)行一個(gè)大的收縮,以達(dá)到去除噪聲的目的。α的具體計(jì)算在函數(shù)aF中完成,函數(shù)aF根據(jù)當(dāng)前幀的掩蔽閾值T與一段時(shí)間內(nèi)同層次的閾值最大最小值作對比,掩蔽閾值T達(dá)到最大時(shí)α取最小值minα,而掩蔽閾值T達(dá)到最小值時(shí),α取最大值maxα,掩蔽閾值T在最大與最小值間時(shí),α也在最小與最大值間線性插值。
在小波域進(jìn)行噪聲掩蔽域值的計(jì)算,是根據(jù)Virag在頻域的方法[6]發(fā)展來的。計(jì)算的過程可以分為如下三個(gè)步驟。
(1)語音能量的初步估計(jì)
4 kHz的語音通過聽覺小波包分解獲得18個(gè)子帶的小波系數(shù),各子帶的語音能量(m)計(jì)算如下:

(2)刺激能量的估計(jì)
刺激能量 Bm(ξ) 是bark域上的一種分布,反應(yīng)各個(gè)子帶語音能量對其他子帶的影響。通過用一個(gè)擴(kuò)散函數(shù) Fm(ξ)[6]與子帶能量 Em(ξ)進(jìn)行卷積計(jì)算獲得,擴(kuò)散函數(shù)表現(xiàn)各個(gè)臨界帶間的影響。刺激能量的計(jì)算公式為:

其中ξ表bark域上的坐標(biāo)。
(3)噪聲掩蔽閾值的計(jì)算
一個(gè)與語音屬性相關(guān)的偏移量(負(fù)值) ()Oξ[6],指示出當(dāng)前掩蔽信號的自然屬性,用來調(diào)整各層的刺激能量值,最終刺激能量 B?m(ξ)表示為:

得到的值與完全聽覺閾值(AHT)[6]進(jìn)行比較,選取較大作為最終掩蔽閾值,表示如下:

下頁圖 3為本文給出的語音增強(qiáng)方法的增強(qiáng)效果波形圖,時(shí)間值都是在104數(shù)量級上。其中圖3 (a)圖為干凈語音信號波形圖及其語譜圖;圖3 (b)圖為添加5 dB白噪聲后的帶噪語音信號波形圖及其語譜圖;圖 3 (c)圖為采用本文的語音增強(qiáng)方法后的語音信號波形圖及其語譜圖。根據(jù)波形圖及語譜圖比較結(jié)果可以發(fā)現(xiàn),帶噪語音采用本文方法增強(qiáng)后噪聲得到了明顯的抑制。
為了進(jìn)一步評估提出方法的性能,使用輸出信噪比與PESQ作為提出方法的客觀評測,采用的語音選自IEEE語音庫里的10條條語音,采樣率8 kHz,長度均為3秒左右,噪聲為取自NOISEX-92數(shù)據(jù)庫的高斯白噪聲和汽車噪聲。
實(shí)驗(yàn)中,增強(qiáng)系統(tǒng)采用母函數(shù)db8的聽覺小波包分解,語音分解到18個(gè)依據(jù)bark域劃分的聽覺小波時(shí)頻域中。本文提出方法與普通的軟閾值函數(shù)小波包增強(qiáng)方法[2]作對比,輸出結(jié)果信噪比SNR與聽覺評測(PESQ)比較如下頁表1。

圖3 語音波形與語譜圖

表1 輸出結(jié)果信噪比(SNR)與聽覺評測(PESQ)比較
在輸出信噪比上,雖然聽覺掩蔽函數(shù)在某些局部對信號進(jìn)行小的收縮處理,可能會稍微降低輸出語音的信噪比,但其他方法由于不能區(qū)分噪聲與語音,而作同樣的收縮處理,會導(dǎo)致一些更大的語音失真,得到低的信噪比。在 PESQ評測上,由于本方法根據(jù)聽覺掩蔽原理動態(tài)地調(diào)整閾值函數(shù)參數(shù),對受到掩蔽的信號僅作小的處理,減小語音失真,提高了輸出語音的自然度。
在分析與總結(jié)前人在小波語音增強(qiáng)的工作基礎(chǔ)上,提出基于聽覺掩蔽效應(yīng)的閾值函數(shù)的小波包語音增強(qiáng)系統(tǒng)。此系統(tǒng)在聽覺小波域中根據(jù) bark劃分原則分解出小波系數(shù),利用人耳聽覺中不同頻域間產(chǎn)生的掩蔽原理對閾值函數(shù)的參數(shù)進(jìn)行調(diào)整,之后處理小波系數(shù)并反變換得到增強(qiáng)語音。實(shí)驗(yàn)表明,基于聽覺掩蔽效應(yīng)的閾值函數(shù)的小波語音增強(qiáng)系統(tǒng)在去除噪聲與產(chǎn)生處理失真之間取得較好的折中,保存語音的自然度,提高了增強(qiáng)系統(tǒng)性能。
[1] Donoho D L, Johnstone J M. Ideal Spatial Adaptation by Wavelet Shrinkage. Biometrika, 1994, 81(03):425-455.
[2] Donoho D L. De-noising by Soft-thresholding[J]. IEEE Trans.On Information Theory, 1995, 41(03): 613-627.
[3] Yasser Ghanbaria, Mohammad Reza Karami-Mollaei. A New Approach for Speech Enhancement based on the Adaptive Thresholding of the Wavelet Packets[J]. Speech Communication, 2006, 48(08):927-940.
[4]王煒,楊道淳.基于聽覺模型的小波包變換的語音增強(qiáng)[J]. 南京大學(xué)學(xué)報(bào), 2001,37(05):630-636.
[5] Mohammed Bahoura, Jean Rouat. Wavelet Speech Enhancement Based on the Teager Energy Operator[J]. IEEE Signal Processing Letters, 2001,8(01):10-12.
[6] Nathalie Virag. Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J]. IEEE Transactions on Speech and Audio Processing, 1999,7(02):126-137.