基于麥克風陣列的數字助聽器語音增強技術*

2015-02-26 01:30:49戴紅霞

電子器件 2015年3期

戴紅霞，趙　力

(1.江蘇信息職業技術學院電子信息工程系，江蘇無錫214153;2.東南大學信息科學與工程學院，南京210096)

戴紅霞1*，趙力2

(1.江蘇信息職業技術學院電子信息工程系，江蘇無錫214153;2.東南大學信息科學與工程學院，南京210096)

摘要:針對噪聲和混響環境下的助聽器用戶聆聽上的困難，基于麥克風陣列的數字助聽器設計能夠很好的提高助聽器在這種環境下的語音信噪比。本文研究了應用麥克風陣列進行數字助聽器語音增強處理技術，提出了一種基于粒子群優化的改進粒子濾波算法，它將語音增強問題轉換為從帶噪語音中對純凈語音的估計過程，引入粒子群優化的方法來產生建議分布，使降噪結果更接近純凈語音，從而得到更好的語音增強效果。

關鍵詞:麥克風陣列;數字助聽器;粒子濾波;語音增強

項目來源:國家自然科學基金項目(61273266，61375028)

語音增強是數字助聽器算法的一個重要組成部分，其主要任務是抑制背景噪聲和干擾。助聽器在目標語音的實際拾取過程中，不可避免會受到外界環境噪聲和其他說話人的干擾。如果干擾噪聲過強對收聽者而言則會覺得刺耳乃至聽不清目標語音。針對這種情況，通常采用增強語音、去除背景噪聲的方法來改善數字助聽器系統性能。

由于目標聲源到麥克風有一定的距離，麥克風接收到的語音信號受到環境噪聲和干擾的影響很大。一般的基于單麥克風的語音增強系統難以獲得較好的增強效果。麥克風陣列由于利用了目標信號、噪聲和干擾的空間信息。基于麥克風陣列的數字助聽器語音增強系統能提供更好的增強效果［5］。國外對于麥克風陣列語音增強的研究取得了很多研究成果，而國內類似的研究很少。

麥克風陣列的引入為數字助聽器的語音增強打開了一個嶄新的思路，它利用目標語音和干擾在空間位置上的差異，以及各個麥克風信號彼此之間的相關性，通過波束形成算法對來波方向上和語音分離的背景噪聲和干擾進行抑制，從而增強語音，已逐漸成為語音增強領域研究的熱點。

1　數字助聽器中麥克風陣列語音增強的原理

在高度嘈雜和混響環境下，數字助聽器對于目標聲源的準確定位和獲取一直都是提高助聽器言語信噪比的關鍵所在。麥克風陣列接收到的信號不僅有直接到達的目標語音，還有目標語音經過反射、衍射等其他路徑到達的部分即混響，不管處于室內室外，目標聲源位于麥克風陣的近場遠場都會有這種效應，具體環境下強度可能不同。同樣對于噪聲源也是如此［4］。典型的干擾和混響環境示意圖如圖1(a)所示。

麥克風陣列通過對拾取的多路語音信號進行分析與處理，使陣列形成的波束方向圖主瓣對準目標語音，“零點”指向干擾源以抑制干擾信號，從而盡可能地獲取目標語音。其中波束方向及波束主瓣寬度與麥克風的間距、麥克風數目、麥克風的擺放位置、聲源入射角及采樣頻率緊密相關。波束的形成不僅消除了使用單個麥克風時需人工調節麥克風指向性問題，而且可以使輸出語音的信噪比大幅度提高，從而無需人工干預亦可獲得高質量的語音［4］。利用麥克風陣列獲取目標語音信號示意圖如圖1(b)所示。

由上述可見麥克風陣列數字助聽器系統較之單麥克風數字助聽器系統具有許多優點，和單個麥克風相比，麥克風陣列在時頻域的基礎上增加了一個空間域，對來自空間不同方位的信號進行空時頻聯合處理。因此，麥克風陣列可以彌補單個孤立的麥克風在噪聲處理、聲源定位跟蹤、語音提取分離等方面的不足，能夠廣泛應用于各種具有嘈雜背景的語音通信環境。麥克風陣列數字助聽器研究是數字助聽器發展的新方向，具有廣闊的市場應用前景。

圖1　

2　基于粒子濾波的麥克風陣列語音增強技術

粒子濾波，是一種用蒙特卡羅(Monte-Carlo)模擬實現遞歸貝葉斯濾波的方法，其關鍵思想是用一組帶有相關權值的隨機樣本的加權和來表示后驗概率密度。基于粒子濾波的麥克風陣列聲源定位與跟蹤方法.該方法在粒子濾波框架下，將無混響影響的語音建立信號作為觀測信息，通過計算麥克風陣列波束形成器的輸出能量來構建似然函數，同時考慮語音信號不同頻率成分在聲源定位中的作用，利用分層采樣方法提高粒子的采樣效率。實驗結果表明，該方法具有理想的聲源跟蹤能力及抗噪聲與抗混響能力。

將粒子濾波的思想運用到數字助聽器麥克風陣列語音增強中在國內外研究的并不是很多，基于粒子濾波的麥克風陣列信號處理可以為助聽器提供良好的目標聲源定位能力從而提高助聽器在惡劣環境下的言語信噪比。粒子濾波方法成熟的體系結合麥克風陣列信號處理可以為數字助聽器語音增強算法設計提供很好的研究方向與背景。

3　語音信號建模

語音信號xt和帶噪的觀測信號yt的模型可表示如下:

則語音信號模型可以表示為

在模型中的線性觀測系數αt的時變特性描述最簡單的方法也是使用高斯移動模型描述，即

式中: Ip為p階單位矩陣。至此語音信號的模型已經完整定義了。上述所有的N(x;μ，σ2)均指變量x服從均值μ、方差σ2的高斯分布，未加說明的高斯分布均值為0。

信噪比是衡量針對寬帶噪聲失真的語音增強算法的常規方法。假設y(n)表示帶噪信號，s(n)表示其中的純凈語音信號，s(∧n)表示相對應的增強信號，所有這些信號都假設是能量信號，則時域誤差信號為:

誤差能量是:

純凈語音信號的能量是:

信噪比定義為:

4　基于PSO-EPF粒子濾波的語音增強算法

基于語音參數模型的語音增強問題可以歸結為從帶噪語音y1:t={ y1，y2，…，yt}中估計純凈語音x1:t= {x1，x2，…，xt}的貝葉斯濾波問題，在此，我們利用粒子濾波器來實現對非線性非高斯序列的實時跟蹤。

選取語音模型狀態為

假設語音參數滿足一階馬爾可夫隨機過程

則上述狀態變量的轉移概率密度為

系統的觀測模型為

以下是基于改進粒子濾波的語音增強的算法流程:

(1)初始化

設置粒子數目N，指定N個初始權重，從先驗分布p(X0)中采集粒子，其中，再設置粒子初速度X =給定初始值為常量;設置慣性權重λ，速度調節參數η，求解初始時刻全局最優解

(2)重要性采樣

①調整粒子的速度和位置

②根據EKF算法對每個粒子狀態進行更新，即在EKF算法重要性采樣中將EKF算法重要性采樣中狀態k時刻的狀態估計改為

⑤粒子權值更新。

(3)重采樣

消除權值較小的粒子，復制權值較大的粒子，當滿足重采樣條件時，獲得N個隨機樣本，從近似服從分布p(X0: t|y1: t)為每一個再采樣之后的樣本粒子賦給相同的權值，即:當i=1，2，…，N，有=1/N。 (4)計算t時刻目標狀態的后驗概率估計Xt=

(6) t = t+1，返回重要性采樣步驟，遞推估計下一時刻的目標狀態的后驗概率

5　系統整體架構與硬件設計

助聽器自適配系統主要包含三個要素:助聽器、患者和自適配平臺。系統工作流程為:助聽器根據算法參數處理輸入聲音，并輸出處理后的聲音給用戶;用戶接收助聽器輸出的聲音并按照其主觀標準進行評價;評估的結果反饋給自適配優化模型進行參數的優化調整，并返回給助聽器。

本文設計的助聽器自適配系統的硬件構成如圖2所示。各模塊具體參數與指標如下: (a)麥克風:一路駐極體麥克風/耳機接口，用于語音信號采集、處理和回放; (b)語音編解碼模塊:采用CS5368高速音頻語音編解碼芯片; (c)核心微處理器模塊:采用Samsung公司出品，業界廣泛使用的S5PV210微處理器; (d)外部接口:串口、音頻接口以及其他接口; (e)存儲模塊:本地存儲或者通過計算機接口存儲在計算機上; (f)揚聲器:將經過處理的音頻信號轉換為可以感知的聲信號; (g)人機交互模塊:使用PDA或智能手機用于反饋患者信息，并通過無線方式反饋給A8處理器。

圖2　系統硬件結構圖

在平臺設計中，語音編解碼模塊和核心處理模塊相對比較重要。語音編解碼模塊采用Cirrus Logic公司推出的一款模擬數字音頻轉換器集成芯片CS5368，完成8路差分模擬輸入信號的同步采樣。核心處理模塊主要包含內部時鐘模塊、FPGA采集模塊和信號處理模塊。FPGA采集模塊主要用于實現模數轉換芯片的采樣控制、采樣數據的串并轉換處理以及數據的緩存和傳輸;信號處理模塊主要完成采樣數據的處理和各種算法的實現;時鐘模塊則負責為各個模塊提供準確的時鐘信號。設計中采用ASIC+FPGA的設計理念，其好處在于利用FPGA的并行處理能力，提高數據的吞吐率;同時保證ASIC只負責信號的運算處理，提高系統的運算效率。

6　實驗仿真與結果分析

在實驗中，分別利用EKF算法、PF算法、PSOEPF算法對帶噪語音信號進行增強，進行100次蒙特卡羅仿真。采用的語音材料為自己錄制，純凈語音為女聲“人盡其才，團結合作”，噪聲為錄制的生活噪聲，時長為2.5 s，語音和噪聲信號經8 kHz采樣、16 bit量化為數字信號，并在計算機中按一定比例混合生成不同信噪比的帶噪語音，其信噪比變化范圍為0 dB到10 dB。使用的粒子濾波的粒子數為200，在實驗中，TVAR模型的階數為10，如圖所示:圖3為純凈的語音信號，圖4為帶噪的語音信號，其初始信噪比為0.09 dB。

圖3　純凈語音信號

圖4　帶噪語音信號

在以上語音的基礎上，使用MATLAB在PC上進行仿真實驗，來比較帶噪語音通過EKF算法、PF算法、PSO-EPF算法一次語音增強后的波形圖。

由圖5～圖7可知，使用PSO-EPF算法處理后的帶噪語音信號與純凈語音信號最為接近，也說明了它語音增強的效果最好。

圖5　EKF算法處理后的語音信號

圖6　PF算法處理后的語音信號

圖7　EPF-PSO算法處理后的語音信號

下面從信噪比角度來說明，在不同的信噪比下，各種算法的語音增強效果如表1所示。

表1　不同信噪比下的語音增強效果

從表1可以看出，對于帶噪語音信號，3種算法都能在一定程度上增強語音信號，表明TVAR模型可以很好描述語音信號的變化特性。而PSO-EPF算法對TVAR模型參數的估計能力比PF算法、EKF算法要有更好的效果，從而也具有更強的濾波降噪、增強語音的能力。

由前文可知，粒子數目對粒子濾波器的估計性能有很大的影響，因此選擇不同的粒子數來進行100次蒙特卡羅仿真，對帶噪語音進行語音增強，輸入信噪比設定在0.09 dB，增強效果如表2所示。

表2　不同粒子數目下的語音增強效果

由表2可見，隨著粒子數目的增加，經過PF算法和PSO-EPF算法進行語音增強后，語音信號的信噪比得到增強，對TVAR模型參數的估計更加準確，但是增加粒子數目的同時，也使得計算量增大。所以，我們在選擇語音增強算法時，要協調好粒子數目和SNR的關系，以便可以達到最好的語音增強效果。

7　結論

目前在數字助聽器中，麥克風陣列的技術得到日益廣泛的應用。使用這種技術的原因來自幾個方面:首先，在有噪聲的環境下助聽器在增強目標語音信號幅度時也增強了噪聲的幅度;其次，在有混響時助聽器不僅增強了直接到達的語音信號也增強了后來經過反射后到達的語音;再者，助聽器的輸出反饋會削弱助聽器的頻率響應。因此一個優異的助聽器不僅能增強幅度，而且要提高信噪比、減小混響影響并消除反饋。由于傳統的基于粒子濾波語音增強算法不能很好地逼近實際的后驗分布，影響了估計精度，同時也導致了粒子的退化。對此本文提出了一種基于粒子群優化的改進粒子濾波算法，它將語音增強問題轉換為從帶噪語音中對純凈語音的估計過程，引入粒子群優化的方法來產生建議分布，使降噪結果更接近純凈語音，從而得到更好的語音增強效果。

參考文獻:

［1］Hu H T，Yu C.Adaptive Noise Spectral Estimaton for Spectral Subtraction Speech Enhancement［J］.Signal Processing，IET，2007，1(9) : 156－163.

［2］王振力，張雄偉.基于分數階譜相減的語音增強方法［J］.電子信息學報，2007，29(5) : 1096－1100.

［3］Kalman R E，A New Approach to Linear Filtering and Prediction Problem［J］.Trans ASME J Basic Engineering，1960，82: 34－45.

［4］Vermaak J，Andrier C，Doucet A.Paticle Methods for Bayesian Modeling and Enhancement of Speech Signals［J］.IEEE Transactions on Speech and Audio Processing，2002，10(3) : 173－185.

［5］金乃高，殷福亮，王冬霞，等.基于子帶粒子濾波的一種語音增強方法［J］.通信學報，2006，27(4) : 23－28.

［6］Lim J S，Oppenheim A V.A11-Pole Modeling of Degraded Speech ［J］.IEEE Transactions on Acoustics，Speech and Signal Processing，1978，26(3) : 197－210.

［7］Grenier Y.Time-Dependent ARMA Modeling of Nonstationary Signals［J］.IEEE Transactions on Acoustics，Speech and Signal Processing，1983，3l(4) : 899－911.

戴紅霞(1970－)，女，1991年6月獲蘇州大學工學院電子工程系無線電技術專業工學學士學位，2006年10月獲東南大學信號與信息處理專業工學碩士學位，現任江蘇信息職業技術學院電子信息工程系教授，研究方向為電子與通信、信息與信號處理等。

Research on Wireless Voice Communication of GSM Multifunctional Base Station

LIU Hui，WAN Guojin*
(College of Information Engineering，Nanchang University，Nanchang 330031，China)

Abstract:Voice communication function is realized for a multifunctional base station working on GSM networks based on its ability to induce cell phones to work on it.Firstly，voice services system is designed for the station.Then，the function of transferring original voice to voice sending bursts is added to it.Lastly，the station induces a cell phone to work on it to test the voice function.Eventually，the voice communication function with the ability to handle call exception is implemented according to functional and performance requirements of the station.Besides，compared with commercial base station，some improvements have been done.Measured results confirm that the station can send voice to a cell phone working on it.

Key words:GSM multifunctional base station; voice communication function; voice services; voice sending bursts; handle call exception

中圖分類號:TN912.34

文獻標識碼:A

文章編號:1005－9490(2015) 03－0606－05

收稿日期:2014－06－24修改日期:2014－07－17

doi:EEACC: 6002; 6220M10.3969/j.issn.1005－9490.2015.03.027

電子器件2015年3期

電子器件的其它文章: 傳感器的低頻特性對高沖擊測試的影響研究*; 一種新型睡眠呼吸暫停檢測系統的設計*; 基于物聯網的煤礦檢測監控系統研究*; 模塊化多電平靜止無功補償器控制策略研究; 基于FPGA的延時精確校準在等效采樣中的應用; 一種基于子搜索格雷碼核的快速視頻塊運動估計算法*

基于麥克風陣列的數字助聽器語音增強技術*

1 數字助聽器中麥克風陣列語音增強的原理

2 基于粒子濾波的麥克風陣列語音增強技術

3 語音信號建模

4 基于PSO-EPF粒子濾波的語音增強算法

5 系統整體架構與硬件設計

6 實驗仿真與結果分析

7 結論

1　數字助聽器中麥克風陣列語音增強的原理

2　基于粒子濾波的麥克風陣列語音增強技術

3　語音信號建模

4　基于PSO-EPF粒子濾波的語音增強算法

5　系統整體架構與硬件設計

6　實驗仿真與結果分析

7　結論