曾金芳 陳達 張鈺 李友明
摘 要:在信號處理領域,室內環境下的混響語音盲分離一直以來都是一個重點與難點,主要是由于混合系統存在的混響和回聲嚴重影響了語音質量,從而降低了算法分離效果。因此,本文提出了一個應對算法,由麥克風采集到室內混響語音混合信號后,對該混合信號進行兩階段去混響處理:首先通過設計一個逆濾波器來抑制早期混響或增大信號混響能量比,再采用譜減法來消除回聲;然后將處理過的時域卷積混合語音信號通過短時傅里葉變換轉化為頻域各個頻點的瞬時混合形式,用IVA算法分離混合語音信號,最終恢復為時域語音信號。實驗表明,該方法可以有效提高室內混響環境下的語音盲分離效果。
關鍵詞:去混響;盲源分離;頻域分離;時域卷積
*基金項目:湖南省自然科學基金(2018JJ3486)
0 引言
盲源分離(blind source separation, BSS)是指當源信號參數和信號混合模型都未知時,基于輸入源信號的統計特性,將源信號從觀測信號分離出來的過程。盲源分離技術先后應用于文本數據挖掘、語音信號處理、地球物理信號處理等多個領域[1-3]。
獨立分量分析[4](independent component analysis, ICA)算法是解決盲源分離問題的一個常用且高效的算法。然而,在真實的室內環境中,由于室內存在的混響和回聲,接收器接收得到的信號一般都不是線性混合的,而是卷積混合的。因此通常采用頻域ICA算法進行分離。頻域ICA算法是通過短時傅里葉變換(short-time fourier transform, STFT)將混合信號由時域的卷積混合轉到頻域各個頻點的瞬時混合,再使用ICA算法進行分離。但傳統的頻域ICA算法通常存在幅度模糊性和排序模糊性問題[5-6],經過學者們的不斷研究,目前已有許多算法被用來解決該問題 [7-8],如獨立向量分析(IVA)算法。
頻域ICA算法另一個需要注意的是混響強弱問題,處理不好會導致分離性能嚴重下降。在無噪聲條件下,混響語音的質量主要依賴于兩個不同的感知成分:早期混響和回聲。它們分別對應兩個物理變量:信號混響能量比和混響時間。受此啟發,我們采用一種單麥克風雙級語音去混響算法[9]。在第一階段,通過估計一個逆濾波器來抑制早期混響或增大信號混響能量比。在第二階段,采用譜減法來減少回聲的影響。實驗表明,該算法在一定程度上抑制了室內的混響和回聲,提高了語音的質量。
由于混響和回聲的存在,室內混響語音盲分離導致算法性能嚴重下降。因此,通過結合兩階段去混響算法和IVA算法,構建出一個新的算法模型,來處理真實室內環境下的語音盲分離問題,即先對室內混響語音混合信號進行兩階段去混響處理,抑制早期混響和消除回聲,再將目標信號轉到頻域,用IVA算法分離語音信號,最終恢復為時域語音信號。
1 語音卷積混合模型


至此,在室內混響環境下,其時域上的卷積混合便轉換成為頻域各個頻點上的瞬時混合。
2 一種室內混響語音盲分離算法
2.1 本文算法流程
算法流程圖如圖1所示。首先,接收一段室內混響語音信號,對該混響混合信號采用兩階段去混響算法,濾除信號中存在的混響和回聲,增大信號混響能量比和減小信號混響時間,再使用STFT變換將信號由時域上的卷積混合轉換成為頻域各個頻點上的瞬時混合,采用IVA算法分離語音信號,最后通過STFT逆變換恢復為時域語音信號。
2.2 兩階段去混響
通常在室內環境中,信號在傳播時會產生混響和回聲。因此,一個麥克風接收到的信號分為直達語音和混響成分。直達語音,即直接到達麥克風的語音。混響成分一般分為早期混響和回聲,如圖2所示,室內脈沖響應的早期部分(t<50 ms)看起來像一連串脈沖,顯示了房間的早期混響。脈沖響應的后面部分(t>50 ms)看起來更隨機,則是房間的后期混響,也就是回聲。由于脈沖響應的兩個部分的不同性質,本文用一個兩階段去混響算法分兩階段解決這兩種干擾。在第一階段,我們通過估計一個逆濾波器,以抑制早期混響。第二階段,我們采用譜減法來消除回聲的影響,如圖3所示。

1)抑制早期混響
在單通道去混響算法的第一階段,我們通過估計一個逆濾波器來抑制早期混響效應或增大信號混響能量比[11]。

圖4顯示了圖2逆濾波后的室內脈沖響應波形圖。通過圖2與圖4的對比可以看出,圖2原始脈沖響應50 ms之前的混響成分幅度大、多且雜亂,而圖4逆濾波室內脈沖響應波形圖50 ms之前的早期混響部分在很大程度上被抑制住了。由此可得出,此算法估計的逆濾波器能在一定程度上抑制室內脈沖響應的早期混響部分,增大信號混響能量比,提高語音質量。




3.3 仿真結果
對兩組信號采用本文提出的基于去混響的室內混響語音盲分離算法進行分離,并輸出波形。兩組語音的源信號、混合信號以及分離出來的信號均如圖7所示。為了美觀,本文只列出了一組室內混響語音盲分離的波形圖。源信號如圖7所示。將源信號與通過Roomsim生成的混響沖擊響應卷積得到混合信號,如圖8所示。再將混合信號經過兩階段去混響處理,得到語音去混響波形圖,如圖9所示。最后通過本文提出的算法得到分離信號波形圖,如圖10所示。


通過圖8與圖9之間對比可以看出,經過去混響算法后,混合語音細節變得更加清晰,且明顯消除了室內混響所產生的回聲。因此,兩階段去混響算法效果十分明顯。
通過將圖10和圖7進行對比可以看出,該算法能夠將源信號有效分離出來。但是僅僅通過觀察,并不能準確評價算法的分離效果。因此本文引入盲源分離工具箱來評估算法的分離效果,并與未進行兩階段去混響的原頻域分離算法進行對比分析。通過實驗仿真,得到兩組數據的兩種算法的SIR和SDR性能參數,如圖11和圖12。從圖11中可以看出,改進算法的SIR相對于原算法最高獲得了2.13 dB的提升,SDR最高提升了1.21 dB。
4 結語
針對室內混響環境下卷積混合語音信號存在混響和回聲而導致頻域盲分離精度低的問題,提出了一種新的室內混響語音盲分離方法,可以有效提高室內混響語音盲分離的效果。
參考文獻:
[1] LEGLAIVE S, BADEAU R,RICHARD G.Separating Time-Frequency Sources from TimeDomain Convolutive Mixtures Using Non-negative Matrix Factorization[C]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, New Paltz, New York, United States.
[2] 張華,馮大政,龐繼勇.卷積混迭語音信號的聯合塊對角化盲分離方法[J].聲學學報(中文版),2009,34(02):167-174.
[3] 季策,姜雨田.基于方向幅值比的欠定盲源分離算法[J].東北大學學報(自然科學版),2019,40(07):920-924.
[4] 陳秀敏,李珊君,董興建.Fast-ICA算法非線性函數性能的仿真分析[J].計算機應用與軟件,2020,37(06):277-282+333.
[5] 李揚,張偉濤,樓順天.基于聯合對角化的聲信號深度卷積混合盲分離方法[J].電子與信息學報,2019,41(12):2951-2956.
[6] 張天騏,張華偉,劉董華,李群.基于區域增長校正的頻域盲源分離排序算法[J].電子與信息學報,2019,41(03):580-587.
[7] 冷艷宏,鄭成詩,李曉東.功率比相關子帶劃分快速獨立向量分析[J].信號處理,2019,35(08):1314-1323.
[8] 朱堅堅,王惠剛,李虎雄.聯合頻域盲語音分離排序算法[J].計算機應用,2008(06):1552-1554+1562.
[9] WU M, WANG D. A two-stage algorithm for one-microphone reverberant speech enhancement[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 774-784.
[10] 顧凡,王惠剛,李虎雄.一種強混響環境下的盲語音分離算法[J].信號處理,2011,27(04):534-540.
[11] GILLESPIE B W, MALVAR H S, FLORENCIO D, et al. Speech dereverberation via maximum-kurtosis subband adaptive filtering[C]. international conference on acoustics, speech, and signal processing, 2001: 3701-3704.
[12] HAYKIN S.Adaptive Filter Theory[M].4th ed. Upper Saddle River, N.J.: Prentice-Hall, 2002.
[13] NAKATANI T, MIYOSHI M.Blind dereverberation of single channel speech signal based on harmonic structure[C]. international conference on acoustics, speech, and signal processing, 2003: 92-95.
[14] KIM T,ATTIAS H T,LEE S Y,et al.Blind source separation exploiting higher-order frequency dependencies[J].IEEE Transactions on Audio Speech &Language Processing, 2006,15(1):70–79.
[15] 張天騏,徐昕,吳旺軍,等.多反復結構模型的精確音樂分離方法[J].聲學學報, 2016(1): 135-142.