摘 要:麥克風(fēng)陣列聲源定位可為在復(fù)雜環(huán)境下的說話人的空間位置估計(jì)提供有效的解決方案。而傳統(tǒng)的應(yīng)用于雷達(dá),聲吶系統(tǒng)領(lǐng)域的陣列信號(hào)處理理論已趨于完美,很多應(yīng)用于陣列信號(hào)處理的算法加以修改就可以用來進(jìn)行麥克風(fēng)陣列的聲源定位。以陣列信號(hào)處理中的經(jīng)典算法MUSIC(Multiple Signal Classification)算法為原型,同時(shí)根據(jù)語音信號(hào)在應(yīng)用中的特點(diǎn),介紹了一種基于近場的信號(hào)模型,并以此為依據(jù)對算法進(jìn)行改進(jìn),使聲源定位更加精確。對此算法進(jìn)行了仿真實(shí)驗(yàn),仿真結(jié)果表明,此算法具有良好的定位性能,并隨著信號(hào)信噪比的上升,性能有所提高。
關(guān)鍵詞:
中圖分類號(hào): TN912.3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):2095-2163(2011)03-0069-03
Research on Speech Localization in Near Field
YU Xiangli, LV Chengguo
Abstract: Sound source localization using micrpphone array provides an effective solution to speaker tracking problem under adverse environments.Classical theories about array processing,applied in the field of radar and sonar, are so perfect that they can be used for dealing with microphone array signal processing conveniently only after some revision.In this paper,the algorithm is focused on an arithmetic so-called MUSIC,which is revised according to the characteristics of sound signal as the input of the microphone array.A near-field signal transmission model is introduced in detail for improving the accuracy in sound source localization of the microphone array in near field.Simulation results show the high performance of the localization is gotten. The higher SNR is,The better result is.
Key words:
0 引言
近年來,基于麥克風(fēng)陣列的聲源定位技術(shù)快速發(fā)展,并且在多媒體系統(tǒng),移動(dòng)機(jī)器人,視頻會(huì)議系統(tǒng)等方面有廣泛的應(yīng)用。例如,在軍事方面,聲源定位技術(shù)可以為雷達(dá)提供一個(gè)很好的補(bǔ)充,不需要發(fā)射信號(hào),僅靠接收信號(hào)就可以判斷目標(biāo)的位置,因此,在定位的過程中就不會(huì)受到干擾和攻擊。在視頻會(huì)議中,說話人跟蹤可為主意拾取和攝像機(jī)轉(zhuǎn)向控制提供位置信息,使傳播的圖像和聲音更清晰。聲源定位技術(shù)因?yàn)槠渲T多優(yōu)點(diǎn)以及在應(yīng)用上的廣泛前景成為了一個(gè)研究熱點(diǎn)。
現(xiàn)有的聲源定位方法主要分為三類:基于時(shí)延估計(jì)的定位方法、基于波束形成的定位方法和基于高分辨率空間譜估計(jì)的定位方法。基于時(shí)延估計(jì)的定位方法[1]主要步驟是先進(jìn)行時(shí)間差估計(jì),也就是先計(jì)算聲源分別到達(dá)兩個(gè)麥克風(fēng)的時(shí)間差,然后根據(jù)這個(gè)時(shí)間差和麥克風(fēng)陣列的幾何結(jié)構(gòu)估計(jì)出聲源的位置。該類方法的優(yōu)點(diǎn)是計(jì)算量較小,容易實(shí)時(shí)實(shí)現(xiàn),在單聲源定位系統(tǒng)中已經(jīng)得到廣泛應(yīng)用。基于波束形成的定位方法[2]不需要直接計(jì)算時(shí)間差,而是通過對目標(biāo)函數(shù)的優(yōu)化直接實(shí)現(xiàn)聲源定位。但由于實(shí)際的應(yīng)用環(huán)境中,目標(biāo)函數(shù)往往存在多個(gè)極值點(diǎn),因此如何優(yōu)化復(fù)雜峰值的搜索過程就成為了一個(gè)重點(diǎn)。基于高分辨率的空間譜估計(jì)的聲源定位算法,例如寬帶的MUSIC(Multiple Signal Classification)方法[3]和最大似然方法[4],因其可以同時(shí)定位多個(gè)聲源并且具有比較高的空間分辨率,受到了廣泛的關(guān)注。
空間譜估計(jì)的方法源于陣列信號(hào)處理,其中的多重信號(hào)分類(MUSIC)算法在特定條件下具有很高的估計(jì)精度和分辨力,從而吸引了大量的學(xué)者對其進(jìn)行深入的分析與研究。但與陣列信號(hào)處理不同的是,在聲源定位中,聲源在大多數(shù)情況下是位于聲源近場的。為了解決這一近場問題,許多學(xué)者針對傳統(tǒng)的信號(hào)模型提出了改進(jìn)算法,Asano等人將傳統(tǒng)時(shí)域的MUSIC[5,6]算法應(yīng)用在頻域中,提出了一種基于子空間的近場聲源算法[7]。下面來看一下近場的聲源信號(hào)模型。
1 近場聲源信號(hào)模型
傳統(tǒng)的陣列信號(hào)處理大多是基于遠(yuǎn)場模型的平面波信號(hào)的假設(shè),但是在聲源定位的實(shí)際應(yīng)用中,有很多情況是處于聲源近場的[8],例如視頻會(huì)議,機(jī)器人仿真等。同時(shí)又由于麥克風(fēng)陣列陣元拾音范圍有限,更多的情況下定位也處于近場范圍內(nèi),此時(shí)信源到達(dá)各麥克風(fēng)陣元的信號(hào)應(yīng)該是球面波,其衰減不是單一的常數(shù),這種非線性決定了麥克風(fēng)陣列聲源定位的信號(hào)需要應(yīng)用近場球面波模型(如圖1)。
假設(shè)M個(gè)全方向無差異的麥克風(fēng)組成一個(gè)均勻直線陣列(如圖1所示),麥克風(fēng)陣元的間距為d,不妨設(shè)入射聲源為點(diǎn)源,則P個(gè)入射聲音信號(hào)S1,S2……,SP 各自的方位角以及距離參數(shù)為:(θ1,r1)(θ2,r2)……(θp,rp)。其中,θi為聲源Si和陣列的參考點(diǎn)(陣列中心)之間的連線與麥克風(fēng)陣列所在的直線之間的夾角,ri為聲源Si與陣列的參考點(diǎn)之間的距離,i=1,2,…,P。
則可以得出,第i個(gè)入射聲源信號(hào)Si與第m個(gè)麥克風(fēng)陣元之間距離為:
r=,i=1,2,…,p (1)
其中, dm為第m個(gè)麥克風(fēng)陣元與陣列的參考點(diǎn)之間的距離, 且滿足
d=[m-(M+1)/2]d ,m=1,2,...,M (2)
由此可得出,第i個(gè)入射聲源信號(hào)到第m個(gè)陣元的距離與其到參考點(diǎn)的距離之差為
△rmi=rmi-ri=-ri (3)
從而可以得出第i個(gè)入射聲源信號(hào)到達(dá)第m個(gè)麥克風(fēng)陣元與其到達(dá)參考點(diǎn)的時(shí)間差為
τmi=△rmi/c (4)
其中,c為聲音在空氣中傳播時(shí)的速度,這里取c=340 m/s。
第m個(gè)麥克風(fēng)陣元所接收到的來自第i個(gè)入射聲源信號(hào)的信號(hào)為:
y(t)=αe (5)
其中, α是聲源信號(hào)在傳播中所產(chǎn)生的幅度衰減參數(shù),在近場環(huán)境模型下,其值為
α=ri/rmi=ri/ (6)
當(dāng)ri→∞時(shí),α=1,即由近場模型轉(zhuǎn)變?yōu)檫h(yuǎn)場模型。
對于P個(gè)入射信號(hào),第m個(gè)麥克風(fēng)所接收到的全部信號(hào)為:
y(t)=αe+ni(t) (7)
由此可以得到,整個(gè)陣列所接收到的信號(hào)為:
Y=HS+N
Y(t)=αe … αe … … …αe … αeS(t)+N(t) (8)
其中,S(t)=(s1(t),s2(t),…,sp(t))T,N(t)=(n1(t),n2(t),…,np(t))T,H為空間陣列的M?觹P維的導(dǎo)向向量陣,即為入射信號(hào)的方向矢量。
2 MUSIC算法基本原理
結(jié)合上面所介紹的數(shù)學(xué)模型(8),在條件理想的情況下,數(shù)學(xué)模型所在的空間中的信號(hào)子空間與其噪聲子空間應(yīng)該是相互正交的,那么信號(hào)子空間的導(dǎo)向矢量也應(yīng)與其噪聲子空間相互正交,即
aH(θ)UN=0 (9)
同時(shí)應(yīng)該注意到,在實(shí)際接收中得到的數(shù)據(jù)矩陣長度是有限的,所以無法精確求得信號(hào)的數(shù)據(jù)協(xié)方差矩陣R。基于以上考慮,數(shù)據(jù)協(xié)方差矩陣的最大似然估計(jì)為:
R`=XX (10)
對上式特征值分解就可以得到噪聲子空間的特征矢量矩陣U`N。但是由于噪聲的存在,U`N和aH(θ)并不能完全正交,這就導(dǎo)致式(9)不成立。因此,DOA的估計(jì)應(yīng)該是通過搜索使aH(θ)U`N取最小值時(shí)的θ來實(shí)現(xiàn)的,所以可以定義MUSIC的譜估計(jì)公式為:
PMUSIC= (11)
只要對PMUSIC進(jìn)行譜峰搜索,找出其極大值點(diǎn)對應(yīng)的角度,就得到了信號(hào)入射的方向。
3 實(shí)驗(yàn)結(jié)果與分析
下面應(yīng)用計(jì)算機(jī)仿真方法來驗(yàn)證前面的算法,仿真運(yùn)用Matlab語言。實(shí)驗(yàn)中采取一維均勻直線陣,采用8個(gè)全向無差異的麥克風(fēng),在x軸上均勻分布,間距為10cm,取32ms為一幀,采樣率設(shè)為16kHz進(jìn)行數(shù)據(jù)處理。選取漢明窗,窗長16ms,對輸入信號(hào)進(jìn)行實(shí)時(shí)的傅立葉變換。
不同信噪比情況下,在不同角度上算法準(zhǔn)確率的仿真結(jié)果如表1所示。
從表1中可以看出,在信噪比為-5dB時(shí),算法估計(jì)的準(zhǔn)確率可以達(dá)到80%以上,在信噪比大于0dB時(shí),算法估計(jì)準(zhǔn)確率可達(dá)95%以上。在不同的信噪比下,定位算法所表現(xiàn)出的性能不同,隨著信噪比的增加,其定位性能更加準(zhǔn)確。
4 結(jié)束語
聲源定位技術(shù)是目前研究的熱點(diǎn)之一,可以廣泛應(yīng)用在生活,軍事等領(lǐng)域中。此技術(shù)所要解決的問題是如何用可探測到的信號(hào)來對聲源目標(biāo)的位置進(jìn)行估計(jì)。本文在構(gòu)建了麥克風(fēng)陣列近場模型的基礎(chǔ)上,應(yīng)用經(jīng)典的MUSIC算法對空間中的聲源進(jìn)行定位。該算法先對接收到的矩陣進(jìn)行頻域預(yù)處理,然后利用MUSIC子空間的方法得到空間譜,再通過對得到的空間譜進(jìn)行搜索,從而得到估計(jì)值。Matlab仿真結(jié)果表明,此算法擁有良好的定位性能,但在研究過程中發(fā)現(xiàn)此算法的復(fù)雜度比較高,如何減小算法的復(fù)雜度是下一步的研究工作。
參考文獻(xiàn):
[ 1 ] OMOLOGO M,SVAIZER P. Use of the crosspower-spectrum p-
hase in acoustic event location[J]. IEEE Trans. on Speech and
Audio Processing,1997,5(3):288-292.
[ 2 ] DIBIUSE J. A high-accuracy,low-latency technique for talker
Iocalization in reverberant environments[D]. Providence RI,USA:
Brown University,2000.
[ 3 ] 居太亮,彭啟琮,邵懷宗,等. 基于任意麥克風(fēng)陣列的聲源二維
DOA估計(jì)算法研究[J].通信學(xué)報(bào),2005,26(8):129-133.
[ 4 ] CHEN J C,YAO K,HUDSON R E. Acoustic source localizati-
on and beamforming:theory and practice[J]. EURASIP Journal
on Applied Signal Processing,2003(4):359-370.
[ 5 ] SCHMIDT R O. Multiple emitter location and signal parameter
estimation[J]. IEEE Trans AP,1986,34(3):276-280.
[ 6 ] ZHANG Q. Probability of resolution of the MUSIC algorithm[J].
IEEE Trans Signal Processing,1995,43(4):978-987.
[ 7 ] ASANO F,ASOH H,MATSUI T. Sound source localization and
separation in near-field[J]. 1EICE Trans Fundamentals,2000,
E83-A(11):2286-2294.
[ 8 ] SWINDLEHURST A L,KAILATH T. Passive direction-of-arri-
val and range estimation for near-field sources[C]// Proeeedings
of the 4th Annual ASSP Workshop on Spectrum Estimation and
Modeling.Minneapolis,Minn,USA:[s.n.],1988:123-128.