王中正,王 鑒,韓 焱,韓星程
(1.中北大學(xué) 山西省信息探測與處理重點實驗室, 太原 030051;2.中北大學(xué) 信息與通信工程學(xué)院, 太原 030051)
在艦船航行的過程中通過音頻信號傳遞信息是不可或缺的,但艦船航行中各種設(shè)備產(chǎn)生的噪聲會嚴(yán)重降低音頻信號質(zhì)量,影響工作人員或設(shè)備對音頻信號的獲取。因此降低音頻信號中艦船噪聲的干擾,增強(qiáng)音頻信號質(zhì)量對音頻獲取的準(zhǔn)確性和舒適性具有重要意義。端點檢測作為音頻信號處理中必要的預(yù)處理環(huán)節(jié),就是要在含噪信號中找到每段音頻信號的首末位置,有效區(qū)分音頻段與噪聲段,為后續(xù)音頻增強(qiáng)、識別等工作做好前期準(zhǔn)備。
在艦載環(huán)境下,噪聲類型多樣,特征各不相同,并且設(shè)備工作時噪聲巨大,使得信噪比較低[1]。而傳統(tǒng)音頻端點檢測方法一般通過音頻信號的統(tǒng)計特征與感知特征判斷音頻段與噪聲段,例如基于短時能量和短時過零率的雙門限法[2]、基于倒譜特征的檢測算法[3]、譜減法與子帶對數(shù)能熵積相結(jié)合的方法[4]等,此類算法在艦船背景噪聲下會出現(xiàn)漏檢、虛檢率較高、魯棒性低的問題。近些年基于機(jī)器學(xué)習(xí)的音頻端點檢測方法發(fā)展極為迅速,例如基于支持向量機(jī)[5]、BP神經(jīng)網(wǎng)絡(luò)[6]、卷積神經(jīng)網(wǎng)絡(luò)[7]的檢測方法,當(dāng)傳統(tǒng)方法無法取得較好效果時,此類方法具有良好的區(qū)分性能,文獻(xiàn)[6]研究表明,在15 dB粉紅噪聲環(huán)境下,雙門限法準(zhǔn)確率為85.37%,基于BP神經(jīng)網(wǎng)絡(luò)的算法準(zhǔn)確率為93.88%。當(dāng)信噪比為 0 dB時,雙門限法已經(jīng)無法得出穩(wěn)定輸出結(jié)果,而基于BP神經(jīng)網(wǎng)絡(luò)的方法準(zhǔn)確率為89.32%。同時基于機(jī)器學(xué)習(xí)的方法可以更自然的與音頻識別分類系統(tǒng)融合,但是較傳統(tǒng)方法計算資源消耗大,且模型泛化能力通常比傳統(tǒng)方法差[8]。
樸素貝葉斯算法是一種結(jié)構(gòu)相對簡單、參數(shù)較少的機(jī)器學(xué)習(xí)算法,相對于其他機(jī)器學(xué)習(xí)模型更容易實現(xiàn)。為了提高算法在艦載環(huán)境下端點檢測的準(zhǔn)確率,同時降低復(fù)雜性,提出一種多窗譜譜減法和樸素貝葉斯分類器相結(jié)合的音頻端點檢測算法。首先利用多窗譜譜減法對含噪信號進(jìn)行處理以提高信噪比,然后將提取到的每幀信號特征輸入分類器模型,最終判斷出信號種類。仿真實驗結(jié)果表明,相對于傳統(tǒng)音頻檢測算法,本文中算法在艦船噪聲環(huán)境下具有較高的端點檢測準(zhǔn)確率。
噪聲即發(fā)聲體進(jìn)行無規(guī)則振動時所發(fā)出的具有一定分貝的聲音。艦載環(huán)境中的噪聲源主要為艦船機(jī)艙設(shè)備,包括主機(jī)、發(fā)電機(jī)、鍋爐等。艦船自身材料、發(fā)動機(jī)類型等也決定了其噪聲特性,噪聲特性的不同決定了對信號處理方案的不同。對艦船主要噪聲做出以下分類:① 汽輪機(jī)聲:艦船汽輪機(jī)工作因機(jī)械運(yùn)轉(zhuǎn)引起的振動和摩擦形成的噪音。② 海浪聲:艦船行駛時海水拍打艦體的噪聲。③ 槍炮聲:作戰(zhàn)時艦炮等武器開火時炮彈從炮筒內(nèi)部發(fā)射出時內(nèi)部氣體振動及炮彈與空氣摩擦產(chǎn)生的噪聲。④ 人聲:艦船內(nèi)部人員之間的談話聲[9]。
在艦船中多種噪音混合疊加形成復(fù)雜的噪音,進(jìn)而與音頻信號進(jìn)行重疊相加,無論音頻信號是否存在,噪聲一直存在。圖1中上圖為NOISEX-92數(shù)據(jù)集中驅(qū)逐艦機(jī)艙噪聲波形,下圖實線與點線分別為噪聲信號與美國海軍水面艦艇常規(guī)警報信號功率譜。驅(qū)逐艦機(jī)艙噪聲能量主要集中在3 000 Hz以下的頻段內(nèi),頻段范圍與人類語音信號500~3 500 Hz的頻譜情形十分類似。常規(guī)警報信號在3 000 Hz以下頻段內(nèi)具有較高的能量分布,與噪聲主要能量分布頻段存在重疊。圖2為美國海軍水面艦艇另外3種警報信號的頻譜分布特征,在3 000 Hz以下頻段內(nèi)也具有較高的能量分布。

圖1 噪聲與常規(guī)警報功率譜

圖2 警報功率譜
綜上所述,噪聲的混雜、噪聲與音頻信號頻譜的重疊會使傳統(tǒng)特征參數(shù)法在艦船噪聲環(huán)境下的檢測效果大幅降低,特別是在極低信噪比環(huán)境下,因此利用譜減法來初步提高含噪信號信噪比可以適當(dāng)提高檢測的準(zhǔn)確率。
譜減法[10]是對純凈音頻信號的功率譜或幅度譜進(jìn)行估計重構(gòu)的一種算法,其計算復(fù)雜度低且實時性強(qiáng)。多窗譜譜減法[11]由基本譜減法改進(jìn)而來,通過使用多個正交窗分別求直接譜,然后對多個直接譜取平均值獲取噪聲譜值,計算過程如下:

(1)
(2)
式中:i代表第i幀;k代表第k條譜線。
計算噪聲的平均功率譜密度值Pn(k):
(3)
式中:l為前導(dǎo)無音頻信號段幀數(shù)。
利用譜減關(guān)系計算增益因子:

(4)
式中:α為過減因子;β為增益補(bǔ)償因子。α的取值直接影響到譜減的效果,采用固定α值一般不能得到最優(yōu)的譜減效果。根據(jù)文獻(xiàn)[4]的研究,結(jié)合艦船機(jī)艙環(huán)境需求,將增益補(bǔ)償因子β固定為0.001,α隨信噪比的最優(yōu)變化模型為:

(5)
式中:SNR為含噪信號信噪比。
分類算法檢測音頻端點效果的優(yōu)劣與給定特征直接相關(guān),單一特征對噪聲的魯棒性較差,使用多種特征或進(jìn)行特征融合有利于發(fā)揮多類特征各自的優(yōu)勢,有效提高檢測的準(zhǔn)確率。
4.1.1MFCC0與GFCC0的融合特征
梅爾頻率倒譜(mel-frequency cepstrum)是基于聲音頻率的非線性梅爾刻度的對數(shù)能量頻譜的線性變換。梅爾頻率倒譜系數(shù)(mel-frequency cepstralcoefficients,MFCC)就是組成梅爾頻率倒譜的系數(shù),因為其具有較好的抗噪性能和計算復(fù)雜度較低被廣泛用在語音識別、音頻分類[12]中。在統(tǒng)計實驗中發(fā)現(xiàn)MFCC0在有聲段上的值遠(yuǎn)遠(yuǎn)大于無聲段上的值,因此可將MFCC0用于音頻端點檢測上。MFCC系數(shù)提取過程如圖3所示。

圖3 MFCC系數(shù)提取流程
具體步驟如下:
1) 對音頻信號進(jìn)行預(yù)加重、分幀與加窗等預(yù)處理。
2) 對預(yù)處理后的每幀音頻信號進(jìn)行FFT得到Xa(k),利用該值可計算每幀音頻信號的譜線能量Ea(k):
Ea(k)=[Xa(k)]2
(6)
3) 將Ea(k)通過梅爾濾波器組,計算濾波器組輸出的對數(shù)能量:
(7)
式中:m表示濾波器組中第m個濾波器;M為濾波器組中濾波器個數(shù);Hm(k)為第m個濾波器的響應(yīng)。
4) 輸出的能量進(jìn)行離散余弦變換得到MFCC系數(shù):
(8)
式中:M(a,l)為第a幀音頻信號的第l維MFCC系數(shù)。取每幀信號的第一維系數(shù)即為MFCC0特征,記為M(a)。圖4為0 dB含噪信號譜減后的MFCC0特征。

圖4 信號MFCC0特征
經(jīng)過研究發(fā)現(xiàn),GFCC的第一維系數(shù)GFCC0相比于MFCC具有更強(qiáng)的噪聲魯棒性[13]。
與MFCC的提取類似,音頻信號通過預(yù)處理和傅里葉變換后根據(jù)式(7)得到譜線能量Ea(k),用Gammatone濾波器組進(jìn)行濾波處理后進(jìn)行指數(shù)壓縮:
(9)
式中:m為濾波器組中第m個濾波器;M為濾波器組中濾波器個數(shù);Hm(k)為第m個濾波器的響應(yīng);z為指數(shù)壓縮的數(shù)值。將輸出的能量經(jīng)過離散余弦變換即可得到音頻信號的GFCC系數(shù):
(10)
式中:G(a,l)為第a幀音頻信號的第l維MFCC系數(shù)。取每幀信號的第一維系數(shù)即為GFCC0特征,記為G(a)。圖5為0 dB含噪信號譜減后的GFCC0特征。

圖5 信號GFCC0特征
單一使用MFCC0或GFCC0會存在對音頻段追蹤能力不足的問題,對MFCC0和GFCC0進(jìn)行融合可以有效解決這些問題,提高端點檢測的準(zhǔn)確率。圖6為0 dB含噪信號譜減后的融合特征。

圖6 信號融合特征
首先對得到的G(a)和M(a)進(jìn)行中值濾波處理,然后對2組系數(shù)進(jìn)行平移調(diào)整后取絕對值:

(11)

T(a)=G′(a)×M′(a)
(12)
4.1.2能熵比特征
文獻(xiàn)[14]提出了一種新的對數(shù)能量特征,能夠較好的反映信號中不同部分的區(qū)別,但在非穩(wěn)定噪聲環(huán)境下性能較差,而譜熵特征能夠克服能量特征這一缺點,但其在嘈雜噪聲中卻變得不穩(wěn)定。能熵比特征結(jié)合二者的優(yōu)點,如圖7所示。音頻信號段的對數(shù)能量波形為上凸形狀,譜熵值波形則相反,因此對數(shù)能量值除以譜熵值得到的能熵比[15]能夠更加突出噪聲段和音頻段的差別。

圖7 信號能熵比特征
能熵比計算過程如下:
計算第k幀信號對數(shù)能量:
(13)
式中:a為常數(shù)。設(shè)子帶數(shù)為Nb,第i幀中第m條子帶的能量為Eb(m,i),子帶能量概率pb(m,i)和子帶譜熵計算式分別為:
(14)
(15)
能熵比表示為:
(16)
樸素貝葉斯分類器在機(jī)器學(xué)習(xí)中是一種以假設(shè)特征之間強(qiáng)(樸素)獨立下運(yùn)用貝葉斯定理為基礎(chǔ)的簡單概率分類器。其原理如下:
設(shè)x={a1,a2,…,am}為一個待分類項,a為x的特征屬性。C={y1,y2,…,yn}為類別集合。分別計算P(y1|x),P(y2|x),…,P(yn|x),若其中最大值為P(yk|x),則x∈yk。
其中,關(guān)鍵問題在于各個條件概率P(y1|x),P(y2|x),…,P(yn|x)的計算,可通過如下步驟求出:
1) 建立一個訓(xùn)練集,內(nèi)容為一個已知分類的分類項集合。
2) 統(tǒng)計得到訓(xùn)練集中各類別下各特征的條件概率:
3) 假設(shè)特征之間是獨立的,根據(jù)貝葉斯定理:

(17)
樸素貝葉斯算法邏輯簡單易于實現(xiàn),分類過程中時空開銷較小,同時在很多情況下可以得到和相對復(fù)雜的分類模型相當(dāng)?shù)木萚16]。
1) 準(zhǔn)備階段。以語音信號為例,選擇一定長度的訓(xùn)練樣本進(jìn)行預(yù)處理后分幀,人工將語音幀與非語音幀分別標(biāo)注為1,-1。然后提取每幀信號的特征值。
2) 訓(xùn)練階段。這一階段的任務(wù)是生成分類器,分別計算語音段和非語音段在樣本中的出現(xiàn)頻率及兩個特征屬性分別對語音段和分語音段的條件概率估計,并記錄結(jié)果。
3) 應(yīng)用階段。含噪語音信號經(jīng)多窗譜譜減法處理后提取每幀信號的特征作為分類器輸入,分類器輸出結(jié)果作為對每幀信號的檢測結(jié)果。
本實驗在Windows操作系統(tǒng)實現(xiàn),CPU為Intel 酷睿i5 8400,GPU為NVIDIA GTX 1060。仿真實驗使用純凈語音信號與噪聲信號相結(jié)合的方式驗證算法,選用NOISEX-92數(shù)據(jù)集中的驅(qū)逐艦機(jī)艙噪聲,音頻信號從清華大學(xué)THCHS30數(shù)據(jù)庫中選取,數(shù)據(jù)庫中語音采樣頻率為16 kHz,采樣位數(shù)為16 bit。使用Audacity軟件讀入語音樣本,對每幀信號進(jìn)行標(biāo)注。在THCHS30數(shù)據(jù)庫中抽取20條語音作為樣本,在Matlab平臺上對樣本語音信號進(jìn)行預(yù)處理及特征提取、完成分類器的訓(xùn)練。為驗證算法在低信噪比噪聲環(huán)境下的性能,隨機(jī)抽取語音分別按照10、5、0、-5 dB的信噪比合成含噪語音信號。
音頻信號具有非平穩(wěn)性,為了在進(jìn)行傅里葉變換時輸入信號是平滑連續(xù)的,需要對信號分幀處理。通常認(rèn)為音頻信號在10~30 ms內(nèi)具有短時平穩(wěn)性,故分幀幀長取20 ms(320個采樣點),幀移10 ms(160個采樣點)。
使用音頻端點檢測的正確率R作為算法評價標(biāo)準(zhǔn),其定義為:
(18)
式中:L1為音頻誤判為噪音的幀數(shù);L2為噪音誤判為音頻的幀數(shù);L為信號總幀數(shù)。
從語音數(shù)據(jù)庫中隨機(jī)抽取10段語音與噪聲信號疊加后分別使用常規(guī)譜減法[17]與多窗譜譜減法進(jìn)行處理,分別計算信噪比后取平均值,結(jié)果見表1。

表1 2種譜減法后的平均信噪比(dB)Table 1 Average SNR after two spectrum subtraction(dB)
對比表1數(shù)據(jù),常規(guī)譜減法在10 dB環(huán)境下的平均信噪比優(yōu)于本文方法,但在5 dB及以下信噪比環(huán)境下本文方法優(yōu)于常規(guī)譜減法,特別是在-5 dB極低信噪比環(huán)境下,多窗譜譜減法能夠有效提高信號信噪比。0 dB信噪比環(huán)境下2種譜減法效果對比如圖8所示。

圖8 0 dB譜減法效果對比
選取傳統(tǒng)算法中短時能量與過零率的雙門限法和子帶譜熵法[18]、多窗譜譜減法+SVM分類器與本文方法進(jìn)行對比實驗,并使用式(18)計算準(zhǔn)確率,結(jié)果見表2。
對比表2數(shù)據(jù),信噪比較高時幾種端點檢測方法均有較好的檢測效果。隨著信噪比的降低,2種傳統(tǒng)方法的準(zhǔn)確率驟跌,在0和-5 dB信噪比環(huán)境下的準(zhǔn)確率已經(jīng)低于實際應(yīng)用的需求。而多窗譜+SVM分類器的方法與本文算法在相同環(huán)境下仍然有較高準(zhǔn)確率,在10、5、0 dB環(huán)境下SVM分類器的檢驗正確率略低于本文算法,在-5 dB環(huán)境下樸素貝葉斯分類器的檢測準(zhǔn)確率相較于SVM分類器提高了約11%,表現(xiàn)出更強(qiáng)的抗噪性。

表2 不同信噪比端點檢測準(zhǔn)確率(%)Table 2 Detection accuracy of endpoints with different SNR
圖9—圖11分別為雙門限法、子帶譜熵法與本文算法在0 dB驅(qū)逐艦機(jī)艙噪聲環(huán)境下的檢測結(jié)果。

圖9 0 dB環(huán)境下雙門限法檢測結(jié)果

圖10 0 dB環(huán)境下子帶譜熵法檢測結(jié)果

圖11 0 dB環(huán)境下本文算法檢測結(jié)果
計算復(fù)雜度是衡量算法性能的重要指標(biāo),設(shè)訓(xùn)練樣本數(shù)為n,特征數(shù)為f,分類類別為c,支持向量數(shù)量為s,則樸素貝葉斯的訓(xùn)練時間復(fù)雜度為O(nfc),預(yù)測時間復(fù)雜度為O(fc),支持向量機(jī)的訓(xùn)練時間復(fù)雜度為O(n2)~O(n3),預(yù)測時間復(fù)雜度為O(f)到O(fs)。本次仿真實驗中2種算法訓(xùn)練時間與預(yù)測速度見表3,對比可得樸素貝葉斯分類器模型的訓(xùn)練時間與預(yù)測速度均優(yōu)于SVM分類器模型。因此采用本文算法進(jìn)行音頻端點檢測可以獲得較滿意的結(jié)果。

表3 2種分類器復(fù)雜度對比Table 3 Comparison of the complexity of two classifiers
針對艦船復(fù)雜噪聲環(huán)境下音頻端點檢測準(zhǔn)確率及魯棒性較低的問題,提出了一種譜減法和樸素貝葉斯分類器相結(jié)合的音頻端點檢測算法。主要結(jié)論如下:
1)利用多窗譜譜減法對含噪信號進(jìn)行處理,提高了含噪信號信噪比,為在艦船復(fù)雜噪聲環(huán)境下音頻端點檢測的準(zhǔn)確率的提高奠定基礎(chǔ)。
2)使用融合特征作為分類器的輸入,發(fā)揮了多類特征各自的優(yōu)勢,提高了音頻端點檢測的準(zhǔn)確率。
3)本文所使用的樸素貝葉斯分類器算法邏輯簡單易實現(xiàn),仿真結(jié)果表明,在驅(qū)逐艦機(jī)艙噪聲環(huán)境下得到了較高的檢測準(zhǔn)確率,具有良好的檢測效果。