基于聽覺掩蔽效應(yīng)的小波包語音增強(qiáng)

2010-09-25 05:55:04馮流保

通信技術(shù) 2010年3期

關(guān)鍵詞：方法

馮流保

0 引言

隨著時(shí)代的發(fā)展，各種語音處理系統(tǒng)的應(yīng)用越來越廣泛，例如車載聲控設(shè)備的應(yīng)用，有聲語言學(xué)習(xí)等。為了增強(qiáng)各種系統(tǒng)的處理能力，提出了許多語音增強(qiáng)方法。由于小波有多分辨率的特點(diǎn)，利用小波進(jìn)行語音增強(qiáng)的各種方法被人們關(guān)注。在時(shí)頻域的小波信號處理方法，最初是由 Donoho等提出并應(yīng)用于圖像、語音等各種信號的去噪工作[1-2]。閾值函數(shù)的設(shè)計(jì)尤為重要，它決定整個(gè)增強(qiáng)系統(tǒng)的性能，學(xué)者們提出了各種方法，如 Yasser 和 Mohammad提出的非線性閾值函數(shù)[3]等。本文提出一種根據(jù)人耳掩蔽效應(yīng)設(shè)計(jì)的閾值函數(shù)去噪方法，它在語音失真與減小噪聲之間尋找最佳折中，對帶噪小波系數(shù)進(jìn)行處理得到增強(qiáng)語音。實(shí)驗(yàn)表明，該方法可以得到較好的語音質(zhì)量。

1 小波包語音增強(qiáng)的方法

1.1 聽覺小波包的分解及表示

使用小波包變換代替以往的傅立葉變換，能較好地模擬出人耳聽覺特性。又由于語音高頻處包含著大量語音信息，模擬人耳聽覺模型進(jìn)行語音信號分解的方法能較好的反映人耳特點(diǎn)，派生于bark聽覺構(gòu)架的聽覺小波包分解把4 kHz的語音分解到 18個(gè)稱為聽覺臨界帶的小波子帶中，通過五層小波包分解完成[4]，如下頁圖1所示。

帶噪語音假設(shè)為干凈語音和噪聲時(shí)域上的相加，進(jìn)行聽覺小波包變換[4]后，可表示為：

圖1 聽覺小波包聽覺分解模擬人耳聽覺

1.2 傳統(tǒng)的閾值函數(shù)去噪方法

早在1994年，Donoho等在研究小波原理時(shí)就提出了用于圖像、聲音等小波去噪方法，其中較為成功的是使用軟閾值處理函數(shù)的方法[1-2]：

當(dāng)聽覺小波包分解提出之后，人們對閾值的估計(jì)方法與閾值函數(shù)的設(shè)計(jì)作了各種改進(jìn)。對于閾值，不少學(xué)者提出動態(tài)閾值的概念，如Mohammed Bahoura等根據(jù)teager能量算子調(diào)整閾值[5]等。得到閾值后便可利用閾值函數(shù)對小波系數(shù)作處理。

1.3 基于聽覺掩蔽效應(yīng)的閾值函數(shù)

聽覺掩蔽的原理是某頻率里的能量根據(jù)一定的規(guī)則影響著附近頻率上的聽覺，使人耳感受不到小于某閾值的信號能量。根據(jù)此原理設(shè)計(jì)出可以根據(jù)掩蔽閾值調(diào)整處理參數(shù)的閾值函數(shù)：

聽覺掩蔽閾值函數(shù)中，α是關(guān)鍵的參數(shù)，用來調(diào)整去除噪聲的力度。當(dāng)掩蔽閾值相對較大時(shí)，說明語音能量可以較好的掩蔽噪聲，此時(shí)α取一個(gè)較小值，使信號根據(jù)噪聲閾值僅進(jìn)行一個(gè)小的收縮，減小語音失真；當(dāng)掩蔽閾值相對較小時(shí)，說明語音能量已經(jīng)不能掩蔽噪聲的能量，此時(shí)α取一個(gè)較大值，使信號根據(jù)噪聲閾值進(jìn)行一個(gè)大的收縮，以達(dá)到去除噪聲的目的。α的具體計(jì)算在函數(shù)aF中完成，函數(shù)aF根據(jù)當(dāng)前幀的掩蔽閾值T與一段時(shí)間內(nèi)同層次的閾值最大最小值作對比，掩蔽閾值T達(dá)到最大時(shí)α取最小值minα，而掩蔽閾值T達(dá)到最小值時(shí)，α取最大值maxα，掩蔽閾值T在最大與最小值間時(shí)，α也在最小與最大值間線性插值。

在小波域進(jìn)行噪聲掩蔽域值的計(jì)算，是根據(jù)Virag在頻域的方法[6]發(fā)展來的。計(jì)算的過程可以分為如下三個(gè)步驟。

（1）語音能量的初步估計(jì)

4 kHz的語音通過聽覺小波包分解獲得18個(gè)子帶的小波系數(shù)，各子帶的語音能量(m)計(jì)算如下：

（2）刺激能量的估計(jì)

刺激能量 Bm(ξ) 是bark域上的一種分布，反應(yīng)各個(gè)子帶語音能量對其他子帶的影響。通過用一個(gè)擴(kuò)散函數(shù) Fm(ξ)[6]與子帶能量 Em(ξ)進(jìn)行卷積計(jì)算獲得，擴(kuò)散函數(shù)表現(xiàn)各個(gè)臨界帶間的影響。刺激能量的計(jì)算公式為：

其中ξ表bark域上的坐標(biāo)。

（3）噪聲掩蔽閾值的計(jì)算

一個(gè)與語音屬性相關(guān)的偏移量（負(fù)值） ()Oξ[6]，指示出當(dāng)前掩蔽信號的自然屬性，用來調(diào)整各層的刺激能量值，最終刺激能量 B?m(ξ)表示為：

得到的值與完全聽覺閾值（AHT）[6]進(jìn)行比較，選取較大作為最終掩蔽閾值，表示如下：

2 仿真及分析

2.1 波形與語譜圖

下頁圖 3為本文給出的語音增強(qiáng)方法的增強(qiáng)效果波形圖，時(shí)間值都是在104數(shù)量級上。其中圖3 (a)圖為干凈語音信號波形圖及其語譜圖；圖3 (b)圖為添加5 dB白噪聲后的帶噪語音信號波形圖及其語譜圖；圖 3 (c)圖為采用本文的語音增強(qiáng)方法后的語音信號波形圖及其語譜圖。根據(jù)波形圖及語譜圖比較結(jié)果可以發(fā)現(xiàn)，帶噪語音采用本文方法增強(qiáng)后噪聲得到了明顯的抑制。

2.2 信噪比及PESQ評測

為了進(jìn)一步評估提出方法的性能，使用輸出信噪比與PESQ作為提出方法的客觀評測，采用的語音選自IEEE語音庫里的10條條語音，采樣率8 kHz，長度均為3秒左右，噪聲為取自NOISEX-92數(shù)據(jù)庫的高斯白噪聲和汽車噪聲。

實(shí)驗(yàn)中，增強(qiáng)系統(tǒng)采用母函數(shù)db8的聽覺小波包分解，語音分解到18個(gè)依據(jù)bark域劃分的聽覺小波時(shí)頻域中。本文提出方法與普通的軟閾值函數(shù)小波包增強(qiáng)方法[2]作對比，輸出結(jié)果信噪比SNR與聽覺評測（PESQ）比較如下頁表1。

圖3 語音波形與語譜圖

表1 輸出結(jié)果信噪比（SNR）與聽覺評測（PESQ）比較

在輸出信噪比上，雖然聽覺掩蔽函數(shù)在某些局部對信號進(jìn)行小的收縮處理，可能會稍微降低輸出語音的信噪比，但其他方法由于不能區(qū)分噪聲與語音，而作同樣的收縮處理，會導(dǎo)致一些更大的語音失真，得到低的信噪比。在 PESQ評測上，由于本方法根據(jù)聽覺掩蔽原理動態(tài)地調(diào)整閾值函數(shù)參數(shù)，對受到掩蔽的信號僅作小的處理，減小語音失真，提高了輸出語音的自然度。

3 結(jié)語

在分析與總結(jié)前人在小波語音增強(qiáng)的工作基礎(chǔ)上，提出基于聽覺掩蔽效應(yīng)的閾值函數(shù)的小波包語音增強(qiáng)系統(tǒng)。此系統(tǒng)在聽覺小波域中根據(jù) bark劃分原則分解出小波系數(shù)，利用人耳聽覺中不同頻域間產(chǎn)生的掩蔽原理對閾值函數(shù)的參數(shù)進(jìn)行調(diào)整，之后處理小波系數(shù)并反變換得到增強(qiáng)語音。實(shí)驗(yàn)表明，基于聽覺掩蔽效應(yīng)的閾值函數(shù)的小波語音增強(qiáng)系統(tǒng)在去除噪聲與產(chǎn)生處理失真之間取得較好的折中，保存語音的自然度，提高了增強(qiáng)系統(tǒng)性能。

[1] Donoho D L, Johnstone J M. Ideal Spatial Adaptation by Wavelet Shrinkage. Biometrika, 1994, 81(03)：425-455.

[2] Donoho D L. De-noising by Soft-thresholding[J]. IEEE Trans.On Information Theory, 1995, 41(03)： 613-627.

[3] Yasser Ghanbaria, Mohammad Reza Karami-Mollaei. A New Approach for Speech Enhancement based on the Adaptive Thresholding of the Wavelet Packets[J]. Speech Communication, 2006, 48(08)：927-940.

[4]王煒,楊道淳.基于聽覺模型的小波包變換的語音增強(qiáng)[J]. 南京大學(xué)學(xué)報(bào), 2001,37(05)：630-636.

[5] Mohammed Bahoura, Jean Rouat. Wavelet Speech Enhancement Based on the Teager Energy Operator[J]. IEEE Signal Processing Letters, 2001,8(01)：10-12.

[6] Nathalie Virag. Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J]. IEEE Transactions on Speech and Audio Processing, 1999,7(02)：126-137.