雷 鳴 喬 柯
(西安工業(yè)大學電子信息工程學院 西安 710021)
低空目標被動聲識別關鍵技術研究*
雷 鳴 喬 柯
(西安工業(yè)大學電子信息工程學院 西安 710021)
低空目標被動聲探測技術在現(xiàn)代戰(zhàn)爭中發(fā)揮著越來越重要的作用。針對低空目標被動聲識別的一些關鍵技術進行了研究。首先從低空目標聲信號與語音信號特征的相似性出發(fā),論證了低空目標被動聲識別與語音識別可以采用同樣的方法。然后對四旋翼飛行器的聲音信號進行了時頻分析,提出基于MFCC參數(shù)的低空目標識別方法。最后論述了低空目標聲音識別技術中的關鍵技術,重點分析了特征提取中的MFCC技術以及使用動態(tài)時間規(guī)整(DTW)算法進行仿真識別實驗,為低空目標聲音識別系統(tǒng)的開發(fā)奠定了基礎。
被動聲識別; 端點檢測; 美爾倒譜參數(shù); 動態(tài)時間規(guī)整
被動聲識別也稱為被動式聲雷達,與傳統(tǒng)雷達探測技術相比,有著抗干擾、低功耗、不易被發(fā)現(xiàn)等優(yōu)點,可以彌補雷達低空探測存在盲區(qū)這一不足。被動聲目標識別是指聲傳感器接實時接收聲目標信息,利用包含在聲目標信號中特有的特征信息,與典型的聲音信號(如坦克、輪式車輛、直升機等)建立模式匹配,通過計算機自動識別聲目標。被動聲目標識別系統(tǒng)可以作為雷達的輔助系統(tǒng),在未來的戰(zhàn)場上有著非常重要的應用前景[1]。
聲紋識別技術在過去的幾十年飛速發(fā)展,取得了令人鼓舞的成果。本文在分析低空目標聲信號與語音信號相似性的基礎上,借鑒語音信號特征參數(shù)的提取方法,將MFCC參數(shù)用于低空目標識別。由于實時環(huán)境復雜,存在噪聲干擾,所以提出MFCC參數(shù)的改進算法,提高系統(tǒng)對噪聲的魯棒性和識別成功率。
低空目標聲信號和語音信號都是一種媒質(zhì)振動形式,兩者在聲學特征方面具有相似性,體現(xiàn)在以下幾個方面[2]:
1) 清音。語音中,由于聲道收縮,使氣流以高速通過這一收縮部分,沒有聲帶振動產(chǎn)生。在聲目標中,語音清音理解為機械性噪聲。機械性噪聲主要由傳動系統(tǒng)的軸承部件、曲柄活塞部件、鏈傳動部件、液壓系統(tǒng)部件等多種運動部件的來回重復運動所致。
2) 濁音。語音中,當氣流通過聲門時,聲帶的張力使聲帶產(chǎn)生張弛振蕩式振動,產(chǎn)生準周期脈沖氣流。聲目標中,聲信號主要考慮空氣動力性噪聲和排氣噪聲。空氣動力性噪聲主要由發(fā)動機的進氣、排氣噪聲以及風扇噪聲等組成。
3) 聲道模型。語音中,把人的語音聲道視為由多個不同截面積的管子串聯(lián)而成的系統(tǒng)加以研究。聲目標中,發(fā)動機罩(無論前置還是后置發(fā)動機)至車身底部之間的空間,相當于一個諧振腔或濾波器。同樣也可以把戰(zhàn)場聲聲道作為非均勻截面管加以研究。
4) 基音頻率。語音中,發(fā)濁音時,氣流通過聲門時使聲帶發(fā)生振動,產(chǎn)生準周期激勵脈沖串,這個脈沖串周期的倒數(shù)就是/基音頻率0。對聲目標而言,發(fā)聲濁音時,進氣道中的空氣由于激勵發(fā)生振動,產(chǎn)生準周期激勵脈沖串,這個脈沖串周期的倒數(shù)就是/基音頻率0。
5) 共振峰。語音中,人的聲道和鼻道都是非均勻的聲道管,將其視為諧振腔,共振峰就是這個腔體的諧振頻率。對聲目標而言,諧振腔或濾波器的諧振頻率也可稱為共振峰,因聲目標類型的不同而不同。
戰(zhàn)場聲信號與語音的形成過程以及信號特征的比較結果表明[3]:
1) 低空目標聲信號和語音信號均可用幅度特征、短時過零率、聲道共振峰來描述;
2) 低空目標聲信號與語音都是媒質(zhì)振動模式。戰(zhàn)場聲音的聲源位置分散,語音聲源則比較集中;
3) 低空目標聲信號特征提取和識別與語音特征提取和識別可以采用同樣的方法。
3.1 時域特征參數(shù)
聲音信號的時域分析方法是最簡單,最直觀的方法。它直接分析聲音信號的時域波形,提取出語音的特征參數(shù),一般用于最基本的信號處理中,在很多語音信號處理中,都會用到短時平均能量,短時平均過零率,短時平均幅度,短時自相關函數(shù)和短時平均幅度差函數(shù)等時域的參數(shù)組合[4~5]。這里簡單介紹一下短時平均能量,短時平均過零率。本文研究分析對象為四旋翼飛行器的聲音信號。
1) 短時平均能量
對于語音信號{x(n)}短時平均能量的定義如下
(1)
上式中h(n)=w2(n),En代表第n點的短時能量,短時能量En是由語音信號先經(jīng)過平方運算之后,再把得到的信號進行線性濾波之后輸出。
h(n)表示線性濾波器的沖擊響應。短時能量的計算過程如圖1所示。

圖1 短時平均能量框圖
2) 短時平均過零率
短時過零率法:短時過零率表示一幀聲音信號波形穿過橫軸(零電平)的次數(shù)。對于離散信號序列,如果相鄰的采樣值改變符號則稱為過零。即樣本改變符號的次數(shù),聲音信號x(n)其公式如下
(2)
其中,sgn[x(n)]函數(shù)是符號函數(shù)。
采用雙門限兩級判決的聲音斷點檢測方法,來確定聲音信號的起點和結束點位置,處理時間越少,越能抑制噪聲干擾,還可以提高信號的質(zhì)量,這個時候的端點檢測最有效。做端點檢測前,設置閾值,對于能量和過零率都包含一個低門限和一個高門限。低門限數(shù)值小,對于信號變化敏感,可能被其他信號超過,高門限數(shù)值大,不容易被超過。
實現(xiàn)能量與過零率的端點檢測步驟如下:
1) 分幀
在端點檢測的具體運行中,首先對聲信號進行分幀,在分幀的基礎上求出短時平均能量和短時過零率,然后逐幀地依據(jù)閾值進行比較和判斷。聲音信號x(n)進行分幀處理,每一幀記為si(n),n=1,2,…N,n為離散聲音信號的時間序列,N為幀長,i表示幀數(shù)。
2) 計算每一幀的短時能量,得到聲音信號的短時幀能量:
(3)
3) 計算每一幀語音的過零率,得到短時過零率
(4)
4) 第一級判決
(1)根據(jù)在聲音短時能量包絡線上選取一個較高閾值(門限)T2進行一次粗判,就是高于該閾值肯定是聲音信號,聲音信號起止點應該位于該閾值與短時能量包絡線交點所對應的時間點之外。
(2)在平均能量上確定一個較低的閾值(門限)T1,并從第一級判決與包絡線的兩個交點分別向左右搜索,分別找到短時能量包絡與閾值T1相交的兩個點,于是,這兩個交點便是雙門限法根據(jù)短時能量所判定的聲音信號的起止點位置。
5) 第二級判決
以短時平均過零率為準,以短時能量最終判定的兩個交點分別向左,向右搜索,找到短時過零率低于某個閾值(門限)T3的兩點,這便是該聲音信號的起止點。端點檢測如圖2所示。

圖2 端點檢測圖
3.2 頻域特征參數(shù)
Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient)的分析是基于人的聽覺機理,依據(jù)人的聽覺實驗結果來分析語音的頻譜,期望能獲得好的語音特性。MFCC分析依據(jù)的聽覺機理有兩個[6]。
1) 人的主觀感知頻域的劃定并不是線性的,根據(jù)Stevens和Volkman的工作有下面的公式:
Fmel=1125log(1+f/700)
(5)
Fmel是以美爾(Mel)為單位的感知頻率,f是以Hz為單位的實際頻率。
2) 頻率群相應于人耳基底膜分成許多很小的部分,每一部分對應一個頻率群,對于同一頻率群的那些頻率的聲音,在大腦中疊加在一起進行評價。按臨界帶的劃分,將語音在頻域上劃分成一系列的頻率群組成的濾波器組,即Mel濾波器組。取漢明窗的Mel濾波器組的響應曲線如圖3所示。

圖3 漢明窗的頻率響應曲線
MFCC特征參數(shù)提取[7~8]原理框圖如圖4所示。

圖4 MFCC原理框圖
1) 預處理
預處理包括預加重、分幀、加窗函數(shù)。
· 預加重:聲音信號的頻率響應曲線接近于一個二階低通濾波器,預加重的目的是為了補償高頻分量的損失,提升高頻分量。預加重的濾波器常設為
H(z)=1-az-1
(6)
式中,a為常數(shù)。
· 分幀處理:由于聲音信號是一個準穩(wěn)態(tài)的信號,把它分成較短的幀,在每幀中可將其看作穩(wěn)態(tài)信號,可以用處理穩(wěn)態(tài)信號的方法來處理。同時,為了使一幀與另一幀之間的參數(shù)能較平穩(wěn)的過渡,在相鄰兩幀之間互相有部分重疊。
· 加窗函數(shù):加窗函數(shù)的目的是減少頻域中的泄露,將對每一幀語音乘以海寧窗。聲音信號x(n)經(jīng)預處理后為xi(m),其中下標i表示分幀后的第i幀。
2) 快速傅里葉變換
對每一幀信號進行FFT變換,從時域數(shù)據(jù)轉變?yōu)轭l域數(shù)據(jù):
X(i,k)=FFT[xi(m)]
(7)
3) 計算譜線能量
對每一幀F(xiàn)FT后的數(shù)據(jù)計算譜線的能量:
E(i,k)=[X(i,k)]2
(8)
4) 計算通過MEL濾波器的能量
把求出的每幀譜線能量譜通過MEL濾波器,計算在MEL濾波器中的能量。在頻域中相當于把每幀的能量譜E(i,k)(其中i表示第i幀,k表示頻域中的第k條譜線)與MEL濾波器的MEL濾波器的頻率響應Hm(K)相乘并相加:

(9)
5) 計算DCT倒譜

(10)


k=0,1,…,N-1
(11)
其中,參數(shù)N是序列x(n)的長度;c(k)是正交因子。

飛行器X1的聲信號MFCC如圖5所示。

圖5 飛行器聲信號MFCC參數(shù)圖
聲音信號特征的Mel倒譜系數(shù)(MFCC)模擬了人耳聽覺感知特性:不同頻率的聲音,會耳內(nèi)基礎膜的不同位置振動。這樣人耳就可以很容易分辨出各種聲音,所以此參數(shù)作為目標的識別參數(shù)能更好地反應各種聲信號的特性。但標準的MFCC只反映了語音參數(shù)的靜態(tài)特性,而人耳對語音的動態(tài)特性更為敏感,本系統(tǒng)特色是引入一階差分(MFCC),二階差分(MFCC)再加上時域特征信息的幀能量參數(shù)構成了(3Q+1)維的特征矢量,更好地消除了語音幀之間的相關性,更優(yōu)的逼近語音的動態(tài)特征,大大提高了識辨率[9]。通過計算語音動態(tài)差分倒譜,k取常數(shù),通常取2:
(12)
用以上公式求得的參數(shù)是當前幀的前兩幀和后兩幀的線性組合,即是一階差分MFCC差分倒譜參數(shù),把結果再代入上式就可以得到二階參數(shù)。時域特征矢量用短時(幀)平均能量與短時平均過零率相結合的兩級雙門限端點檢測法表征,來判斷聲音信號的起始點與終止點。
5.1 實驗條件
實驗中采用實測噪聲環(huán)境下三種不同型號的四旋翼飛行器1、2、3的聲信號(采樣頻率分別為50kHz、10kHz、10kHz)作為訓練、識別數(shù)據(jù)。訓練時分別取不同時間獲得的聲音信號各10段作為學習樣本,每個樣本3000個點,即樣本分別取得時間段為:60ms、300ms、300ms。分幀時幀長為256個點,幀移為80個點;24階的MFCC參數(shù)提取時數(shù)字濾波器組選取24個,對所有聲音段進行預加重(系數(shù)0.97)加窗(漢明窗)處理,取幀256點幀移10ms分別提取MFCC,MFCC+ΔMFCC,MFCC+ΔMFCC+ΔΔMFCC+Mn特征參數(shù),識別模型采用動態(tài)時間規(guī)整(DTW)方法,利用Matlab進行識別仿真[10]。被動聲識別框圖如圖6所示。

圖6 低空目標被動聲識別框圖
5.2 實驗結果分析

圖7 系統(tǒng)識別率
由圖7可知:MFCC+ΔMFCC+ΔΔMFCC+Mn識別率為96.63%,MFCC+ΔMFCC識別率為93.45%,MFCC識別率為91.87%,識別率MFCC+ΔMFCC+ΔΔMFCC+Mn明顯最高。
此方法缺點在于計算量較大,但隨著計算機技術的飛速發(fā)展,為大計算量問題的解決提供了較多簡潔的方法,大計算量已經(jīng)不成問題。以犧牲計算量和計算時間為代價,明顯提高聲音信號的識別率,在聲紋識別系統(tǒng)中已得到了廣泛的應用。
文中借鑒語音信號的特征提取方法,提出將MFCC參數(shù)應用于低空被動聲目標識別中。考慮到實時條件下存在強噪聲干擾,提出一種改進的MFCC特征參數(shù)提取方法,通過實驗比較得知:改進算法后MFCC+ΔMFCC+ΔΔMFCC+Mn(3Q+1)特征提取的識別率高達96.6%,識別率得到明顯改善。此法從很大程度上擬合了人耳對語音處理的動態(tài)特點,而且具有一定的控噪性,在同等條件下大大提高了低空目標的聲音信號識別率,從而實現(xiàn)聲目標信號的有效分析,提高了強噪聲條件下聲目標識別正確率。其在聲紋識別領域有廣闊的應用前景。
[1] 陳功.戰(zhàn)場被動聲目標識別關鍵技術的研究[D].南京:解放軍理工大學,2007:1-5. CHEN Gong. Research on Key Technologies of passive acoustic target recognition in battlefield[D]. Nanjing: PLA University of Science and Technology,2007:1-5.
[2] 易克初,田斌,付強.語音信號處理[M].北京:國防工業(yè)出版社,2003:21-25. YI Kechu, TIAN Bin, FU Qiang. Processing of speech signal[M]. Beijing: National Defense Industry Press,2003:21-25.
[3] 朱志松.戰(zhàn)場聲目標特征提取研究[J].探測與控制學報,2006,28(3):9-11. ZHU Zhisong. Study on the feature extraction of acoustic target in battlefield[J]. Journal of Detection and Control,2006,28(3):9-11.
[4] 夏輝達.基于DSP的戰(zhàn)場聲目標識別技術的研究[D].太原:中北大學碩士學位論文,2004:32-36. XIA Huida. Research on the battlefield acoustic target recognition technology based on DSP[D]. Taiyuan: Master Thesis of North Central University,2004:32-36.
[5] 許可喜.被動聲探測若干關鍵技術研究[D].南京:南京理工大學碩士論文,2005:24-52. XU Kexi. Research on several key technologies of passive acoustic detection[D]. Nanjing: Master Thesis of Nanjing University of Science and Technology,2005:24-52.
[6] 張萬里,劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識別中的作用[J].貴州大學學報,2005,(2):207-230. ZHANG Wanli, LIU Qiao. Mel frequency cepstral coefficients are extracted and the role of voiceprint recognition[J]. Journal of Guizhou University,2005,(2):207-230.
[7] 呂國云,許學忠,趙銳.戰(zhàn)場目標被動噪聲識別技術[J].探測與控制學報,2001,23(4):30-32. LV Guoyun, XU Xuezhong, ZHAO Rui. The passive noise identification technology of the battlefield target[J]. Journal of Detection and Control,2001,23(4):30-32.
[8] 于勝民.多語言語音識別技術研究[D].北京:中科院自動化所博士學位論文,2005:45-53. YU Shengmin. Multi language speech recognition technology research[D]. Beijing: Chinese Academy of Sciences, Institute of automation, doctoral dissertation,2005:45-53.
[9] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2010:31-56. ZHAO Li. Speech signal processing M[M]. Beijing: Mechanical Industry Press,2010:31-56.
[10] 楊陽,陳永明.聲紋識別技術及其應用[J].電聲技術,2007,31(2):45-50. YANG Yang, CHEN Yongming. Application of voiceprint recognition technology and[J]. Audio Technology,2007,31(2):45-50.
Key Technologies of Low Altitude Target Passive Acoustic Recognition
LEI Ming QIAO Ke
(Electronic Information Engineering College, Xi’an Technological University, Xi’an 710021)
Low altitude target passive acoustic detection technology is playing a more and more important role in modern warfare. Some key technologies of passive acoustic recognition for low altitude targets are studied. Firstly, from the similarity of low altitude target sound signal and the characteristics of speech signal, it is proved that the low altitude target passive acoustic recognition and speech recognition can be used in the same way. Then, the time-frequency analysis of the acoustic signals of the four rotor aircraft is carried out, and a low altitude target recognition method based on MFCC parameters is proposed. Finally, the key technologies of low altitude target sound recognition technology is discussed, the MFCC in feature extraction is analyzed emphatically and simulation identification experiment is carried out using dynamic time warping (DTW) algorithm, laid the foundation for the development of low altitude target sound recognition system.
passive voice recognition, endpoint detection, MFCC, dynamic time warping Class Number TN911
2016年10月10日,
2016年11月21日
雷鳴,男,碩士,副教授,研究方向:測控技術與通信技術。喬柯,男,碩士研究生,研究方向:信號處理,通信與信息系統(tǒng)。
TN911
10.3969/j.issn.1672-9722.2017.04.011