一種低信噪比環(huán)境下的語音端點檢測算法

2020-11-10 11:54:24卜玉婷曾慶寧鄭展恒

聲學(xué)技術(shù) 2020年5期

卜玉婷，曾慶寧，鄭展恒

(桂林電子科技大學(xué)“認知無線電與信息處理”教育部重點實驗室，廣西桂林541004)

0 引言

端點檢測(Endpoint Detection,ED)，通常是指在存在背景噪聲的情況下檢測出語音的起始點和結(jié)束點，它在語音信號處理中至關(guān)重要，如語音增強、語音識別、編碼和傳輸?shù)萚1]。隨著智能家居的普及，對語音產(chǎn)品的性能要求也越來越高，人們希望在遠場或者嘈雜的環(huán)境中也能用語音控制智能設(shè)備，因此研究低信噪比環(huán)境下高效的語音控制技術(shù)具有一定的實際應(yīng)用價值。

端點檢測是一種常用的語音信號前端處理技術(shù)，語音端點的準確定位有助于排除噪聲段的干擾、增強系統(tǒng)處理的實時響應(yīng)性、降低功耗從而提升系統(tǒng)性能。傳統(tǒng)算法主要采用語音特征參數(shù)進行檢測，通常可劃分為時域和頻域兩大類，在時域中，短時能量、短時過零率、短時相關(guān)性特征[2]被廣泛應(yīng)用；在頻域中，譜熵、方差[3]、倒譜距離[4]、小波變換等特征也被認為是端點檢測的有效參數(shù)。端點檢測的性能和信噪比(Signal to Noise Ratio,SNR)密切相關(guān)，低信噪比環(huán)境下的端點檢測一直是研究的熱點之一[5]。近年來提出了許多改進的端點檢測算法，如文獻[2]提出了一種調(diào)制域譜減結(jié)合自相關(guān)函數(shù)的端點檢測算法，因加入了去噪過程使得在低信噪比下減少了誤判；文獻[4]通過執(zhí)行多頻譜估計的譜減法增強語音，再利用Mel倒譜距離進行檢測，并且采用自適應(yīng)閾值可應(yīng)用于不同環(huán)境。但是，上述算法的檢測精度仍有待提高。

考慮到上述算法的優(yōu)缺點，本文研究了一種適用于非平穩(wěn)噪聲環(huán)境的語音端點檢測算法，通過對帶噪語音進行瞬態(tài)干擾抑制以及調(diào)制域譜減[6]獲得降噪和語音失真之間的平衡，從而改善語音質(zhì)量，再結(jié)合功率歸一化倒譜系數(shù)(Power Normalized Cepstrum Coefficient,PNCC)[7]之間的距離進行端點檢測。實驗表明，該算法在低信噪比環(huán)境下仍然有效且具有一定的抗噪魯棒性。

1 瞬態(tài)噪聲抑制

越來越多的研究在端點檢測前增強了語音，這對端點檢測的準確性有重要影響。傳統(tǒng)的語音增強技術(shù)利用時間平滑來估計噪聲的功率譜密度(Power Spectrum Density,PSD)是不夠的，因為實際生活中出現(xiàn)的大多都是非平穩(wěn)噪聲，如典型的瞬態(tài)干擾：鍵盤敲擊、敲門聲等，具有時間短、頻域廣等特點，會對語音造成極大的干擾。因此提高算法在復(fù)雜環(huán)境中的穩(wěn)健性具有廣泛的研究意義。

1.1 瞬態(tài)PSD估計

利用語音、瞬態(tài)噪聲、背景噪聲的不同變化率，引入一個可跟蹤瞬態(tài)信號快速變化的最優(yōu)改進對數(shù)譜幅度估計(Optimally-Modified Log-Spectral Amplitude Estimator,OM-LSA)算法[8]，通過分配一個較小的平滑參數(shù)來調(diào)整OM-LSA的噪聲PSD估計分量，以跟蹤輸入信號頻譜的瞬態(tài)變化。

假設(shè)x(n)為語音信號，d(n)為加性平穩(wěn)噪聲、t(n)為瞬態(tài)噪聲，被測信號y(n)表示如下：

算法整體的流程圖如圖1所示。

信號經(jīng)過加窗、快速傅里葉變換(Fast Fourier Transform,FFT)后可實現(xiàn)短時傅里葉變換(Short Time Fourier Transform,SFFT)，然后對最小控制遞歸平均(Minima Controlled Recursive Averaging,MCRA)的平滑參數(shù)進行調(diào)整再加入反因果窗區(qū)分瞬態(tài)，可為修正的 OM-LSA算法提供準確的噪聲PSD估計。

圖2為改進的噪聲PSD估計算法流程圖，虛線框圖為調(diào)整部分，具體改進如下：

圖1 瞬態(tài)噪聲抑制原理圖Fig.1 Principle diagram of transient noise suppression

(1)平滑處理

y(n)由瞬態(tài)分量和非瞬態(tài)分量(語音和噪聲)構(gòu)成，利用上述算法估計非瞬態(tài)分量的 PSD，圖中Y 、分別表示含噪語音在時頻域做短時傅里葉變換的幅度值以及測量信號Y的估計值，則為瞬態(tài)噪聲的功率譜估計值以及平穩(wěn)噪聲信號的功率譜估計值，噪聲信號功率譜估計基于一個對頻譜幅度進行時間遞歸平均獲得的周期圖，其中當(dāng)前幀含噪語音的功率譜S(k,l)可表示為

為了更快跟蹤采用一個較小的平滑參數(shù)αs，其值越低，對當(dāng)前時間的估計越準確，瞬態(tài)信號能迅速被捕捉到，通過實驗將其從0.9～0.99調(diào)整為0.7。

(2)最小值搜索

瞬態(tài)存在信號由平滑周期圖的極小值控制，該極小值由長度為L的有限因果窗得到：

但由于語音開始時也是突發(fā)的，不能通過頻譜遞歸平滑來跟蹤，其容易被誤判為瞬態(tài)信號，根據(jù)瞬時信號功率衰減快、語音信號開始后功率水平保持穩(wěn)定這一特點引入一個長度為40 ms的反因果窗來實現(xiàn)二者的區(qū)分。

計算因果窗和反因果窗兩個最小譜值的最大值，并將其作為修正的周期圖的極小值參與瞬態(tài)決策：

進一步地，通過以下規(guī)則做出瞬態(tài)存在決策，其中δ為經(jīng)驗閾值，I(k,l)為瞬態(tài)信號指示器，p(k,l)為瞬態(tài)存在概率：

圖2 改進的噪聲功率譜密度估計Fig.2 Improved noise power spectral density estimation

1.2 瞬態(tài)抑制執(zhí)行判斷

為了提高算法執(zhí)行效率，對估計出來的瞬態(tài)信號分成很多短時幀，對每幀信號能量進行遞減排序。設(shè)定比例因子η，η∈(0,1)，以η為基準對該幀內(nèi)排序好的兩部分數(shù)據(jù)求取能量均值。若二者相差倍數(shù)超過閾值T1則粗略判定該幀存在較多瞬態(tài)噪聲，記為瞬態(tài)噪聲幀。對總的語音幀求取瞬態(tài)噪聲幀總和，若超過閾值則判定該語音含有復(fù)雜瞬態(tài)沖擊噪聲，若不是則輸出含噪語音，后續(xù)算法可對其進行消除。無需采用瞬態(tài)抑制，有效提高程序運行速度、降低復(fù)雜度，若是則進行瞬態(tài)噪聲抑制。

1.3 瞬態(tài)噪聲抑制

瞬態(tài)干擾抑制的加入使得算法對鍵盤敲擊聲、敲門聲等非平穩(wěn)噪聲具有一定抑制作用，為了驗證算法對非平穩(wěn)瞬態(tài)噪聲的抑制能力，圖3給出了信噪比為 0 dB的瞬態(tài)抑制前后波形圖，通過對比圖3(a)、3(b)、3(c)，給出了非平穩(wěn)瞬態(tài)噪聲的一個有效估計，圖3(d)中大部分瞬態(tài)沖擊噪聲被抑制，但是還存在一定的背景噪聲，后續(xù)引入調(diào)制域譜減法對其進行消除。

圖3 語音增強前后波形對比圖Fig.3 Waveform comparison chart before and after speech enhancement

2 調(diào)制域譜減法

2.1 調(diào)制域

人們測試和分析信號一般通過時域和頻域來實現(xiàn)。近年來由于調(diào)頻技術(shù)的快速發(fā)展，調(diào)制域處理在語音編碼、語音識別等領(lǐng)域的應(yīng)用日益普及[10]。與頻域表示的是頻率與幅度間關(guān)系和時域表示時間和幅度間關(guān)系不同，調(diào)制域是時間和頻率之間的關(guān)系，其相互關(guān)系可表示如圖4[2]。

圖4 時域、頻域、調(diào)制域之間的關(guān)系Fig.4 The connection between time domain,frequency domain and modulation domain

2.2 調(diào)制域譜減

譜減法是一種直觀而有效的單通道降噪算法，但在低能量語音區(qū)域做譜減處理時會引入音樂噪聲，為了解決上述問題，Paliway等[6]在2010年首先提出調(diào)制域譜減算法，通過在調(diào)制域中執(zhí)行譜減法并合理選擇調(diào)制幀長度，可以有效避免音樂噪聲帶來的語音失真。

傳統(tǒng)意義上的調(diào)制頻譜可以認為是帶通濾波信號強度包絡(luò)的傅里葉變換，然而在研究中一般采用短時傅里葉變換代替帶通濾波。其中，與帶通濾波信號強度包絡(luò)最接近的特征量是幅度譜平方。聲學(xué)幅度譜的包絡(luò)表示聲道的形狀，而調(diào)制譜表示聲道隨時間變化的情況，正是這些時間動態(tài)變化包含了大量的語音信息，故采用在調(diào)制域中應(yīng)用譜減算法來使在語音增強過程中引入的失真最小化。

假設(shè)噪聲和語音不相關(guān)，含噪信號可表示為：

其中：x(n)為純凈信號；d(n)是經(jīng)瞬態(tài)抑制后殘余的噪聲，其頻譜不隨時間變化，n為離散時間的索引。由于語音的短時平穩(wěn)特性，對信號y(n)進行預(yù)處理后做STFT，可得：

為了直觀地表達出信號的幅度譜和相位譜，可將變換后的頻譜表示為極坐標(biāo)的形式：

式中：k為離散頻率。沿時間逐幀對幅度譜|Y(n,k)|進行STFT，得到調(diào)制譜：

其中：|Y(τ,k,m)| 和 ∠ Y(τ,k,m)分別為含噪語音的調(diào)制幅度譜和調(diào)制相位譜。得出調(diào)制頻譜后將傳統(tǒng)譜減法應(yīng)用在調(diào)制域以降低噪聲的干擾，具體譜減表達式如式(15)所示：

其中：?是遺忘因子。當(dāng)信號判定為噪聲段時，更新噪聲估計。

2.3 調(diào)制域相位補償

傳統(tǒng)的譜減法一般只對幅度譜進行修正，而忽略了相位譜對語音的影響，這是由于長期以來，研究者認為帶噪語音的相位是純凈語音相位的最佳估計，然而在低信噪比環(huán)境下，帶噪語音相位失配會導(dǎo)致語音變得粗糙，從而影響語音的可懂度。

最近的研究表明，語音的調(diào)制相位比頻域相位包含有更多的信息，通過對調(diào)制相位譜進行補償可以在一定程度上提升語音質(zhì)量，減少音樂噪聲[11]。

因為帶噪信號為實信號，故經(jīng)過STFT得到的調(diào)制譜是共軛對稱的，通過使用反對稱函數(shù)去修正角度，從而補償相位，相位補償函數(shù)表達式為

修正的調(diào)制域相位譜如式(22)所示：

將最終得到的調(diào)制譜做快速傅里葉逆變換(Inverse Fast Fourier Transform,IFFT)、去窗處理和重疊相加得到增強后的頻域幅度譜[12]。

最后結(jié)合頻率相位譜再一次進行IFFT，即可得到譜減降噪后的語音信號。

調(diào)制域譜減原理流程圖如圖5所示。

為了檢測瞬態(tài)噪聲抑制結(jié)合調(diào)制域譜減算法的性能，實驗采用了Noisex-92噪聲庫中的white、f16噪聲以及真實環(huán)境錄制的機械鍵盤聲、敲門聲，SNR設(shè)為5、0、-5、-10 dB。仿真實驗從語音時域波形對比、信噪比提升以及語音質(zhì)量感知評估測度(Perceptual Evaluation of Speech Quality,PESQ)三個方面驗證算法的性能。參考算法分別為基本譜減法、多帶譜減法和對數(shù)最小均方誤差(Logarithm Minimum Mean Square Error,LogMMSE)算法。

圖5 調(diào)制域譜減法流程圖Fig.5 Flow chart of modulation domain spectrum subtraction

對于平穩(wěn)噪聲，上述算法均有不錯的效果。因此主要測試算法在非平穩(wěn)噪聲環(huán)境下的穩(wěn)健性。圖6為一段混合機械鍵盤敲擊聲的含噪語音經(jīng)上述各算法處理后的時域波形圖，其中信噪比為-10 dB。由圖 6(c)～6(e)這三種算法的對比波形圖可知，三者對于瞬態(tài)沖擊噪聲的抑制能力較弱，仍舊存在很多沖擊噪聲導(dǎo)致語音失真。由圖 6(f)可知，提出的算法對于非平穩(wěn)噪聲有很強的抑制能力，同時對語音產(chǎn)生的畸變小，殘留噪聲少。

圖6 不同算法在機械鍵盤噪聲環(huán)境下SNR為-10 dB的語音增強效果Fig.6 Enhancement effects of different algorithms in a mechanical keyboard noise environment of SNR is -10 dB

表 1為各算法在不同環(huán)境下的信噪比提升對比。從表1中可以看出，結(jié)合瞬態(tài)抑制的調(diào)制域譜減算法相對于其他算法在信噪比提升上更具優(yōu)勢，尤其是非平穩(wěn)噪聲情況下，相對于其他算法其抗噪穩(wěn)健性強，有利于后續(xù)端點檢測的判定。

表1 各算法在不同環(huán)境下的信噪比提升前后對比Table 1 Comparison of SNR enhancement between different algorithms in different environments

為了進一步驗證算法的性能，采用反映語音可懂度的感知語音質(zhì)量評估測度(PESQ)，PESQ的評分范圍為[-0.5,4.5]，通常情況下分數(shù)越高，語音可懂度越好，越有利于后續(xù)處理。

圖7顯示了各算法在機械鍵盤噪聲環(huán)境下不同SNR時的PESQ得分。由圖7可知，隨著SNR變差，相關(guān)的PESQ分數(shù)總是變低，表明PESQ是反映語音中嘈雜失真程度的適當(dāng)度量。相比參考算法，提出的算法在所選取的機械噪聲環(huán)境中取得了良好的語音增強效果，減少了語音畸變。

算法在語音時域波形圖、信噪比提升以及感知語音質(zhì)量評估測度3個指標(biāo)中均表現(xiàn)良好，故本文算法將其用于前端消噪以提升信噪比，減少語音失真，從而為后續(xù)端點檢測提供良好基礎(chǔ)。

圖7 各算法在機械鍵盤噪聲環(huán)境下感知語音質(zhì)量評估(PESQ)測度Fig.7 The perceptual speech quality assessment(PESQ)metrics of different algorithms in a mechanical keyboard noise environment

3 PNCC倒譜距離端點檢測

3.1 功率歸一化倒譜系數(shù)

特征提取是語音信號處理中的關(guān)鍵步驟，其目的是提取有效的聲學(xué)特征參數(shù)集。目前使用最廣泛的特征提取算法是梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)[13]，但MFCC最具挑戰(zhàn)性的問題之一是在噪聲環(huán)境較理想的情況下識別精度較高，但是在低信噪比環(huán)境下其識別準確率會急劇下降，無法滿足實際應(yīng)用需求。

最近由美國科學(xué)家Kim等[7]提出的功率歸一化倒譜系數(shù)(Power Normalized Cepstrum Coefficient,PNCC)特征提取算法已經(jīng)被開發(fā)用于增強語音識別系統(tǒng)在噪聲環(huán)境中的魯棒性，其可以看作在MFCC基礎(chǔ)上改進的一種特征提取算法，與MFCC相比，在不損失識別精度的情況下，語音識別系統(tǒng)的抗噪魯棒性有了一定提升[14]，具體的PNCC特征提取步驟如下：

(1)對語音進行預(yù)處理，包括采樣量化、預(yù)加重、分幀加窗和STFT等。

(2)對時頻域轉(zhuǎn)換分析后的序列進行功率譜計算，其公式為

其中：FT(ω)是經(jīng)過短時傅里葉變換以后得到的值。

(3)采用伽瑪通(Gammatone)聽覺濾波器組對獲得的功率譜進行濾波，該濾波器組的時域沖激響應(yīng)為

其中：n為濾波器階數(shù)；b為濾波器帶寬。

(4)通過計算長時幀功率、采用非對稱濾波和臨時掩蔽抑制背景噪聲，長時幀功率計算公式為

其中非對稱濾波器公式為

(5)采用時-頻域歸一化處理調(diào)整功率，過程為

(6)進一步將經(jīng)過冪函數(shù)非線性處理后的信號序列通過離散余弦變換(Discrete Cosine Transformation,DCT)進行特征降維得到特征參數(shù)。

(7)最后通過倒譜均值歸一化(Cepstrum Mean Normalization,CMN)[16]減去短時幀倒譜域上的信道均值響應(yīng)，從而避免倒譜域上信道卷積噪聲的干擾，最終得到PNCC特征參數(shù)。

MFCC和PNCC算法流程圖如圖8所示。

由圖8對比MFCC特征提取算法可知，PNCC算法改進的特性包括：

(1)PNCC使用基于Gammatone濾波器形狀的頻率加權(quán)，其臨界頻帶中心頻率附近的聲音特征比三角濾波器更加集中，且兩側(cè)過渡平滑可減少相鄰頻帶之間頻譜能量的泄漏。

(2)在MFCC提取過程中，當(dāng)輸入能量值較小時由于對數(shù)函數(shù)的缺陷可能導(dǎo)致輸出能量的劇烈變化。而 PNCC通過精確選擇冪律非線性來替代MFCC處理中的對數(shù)非線性，以近似模擬信號強度和聽覺-神經(jīng)發(fā)射率之間的非線性關(guān)系。生理學(xué)家認為，這是對給定的短時信號強度的測量，通過這種非線性來抑制小信號及其可變性以保證魯棒性[7]。

圖8 MFCC、PNCC特征提取算法結(jié)構(gòu)Fig.8 Structure of MFCC and PNCC feature extraction algorithm

(3)引入抑制背景激勵的非對稱濾波算法，然后通過在低于包絡(luò)線時抑制瞬時功率來執(zhí)行時間掩蔽。

3.2 功率歸一化倒譜距離的端點檢測算法

1993年，英國的Haigh等[17]將加權(quán)歐式距離引入倒譜領(lǐng)域，定義了倒譜距離，并首次提出了基于倒譜距離的端點檢測算法，隨后又出現(xiàn)了一些改進方案，例如自適應(yīng)倒譜距離[18]、MFCC倒譜距離[19]等。語音幀和噪音幀的倒譜差異較大，故采用倒譜距離作為端點檢測參數(shù)。

傳統(tǒng)的倒譜距離抗噪聲性能差，檢測效果不理想，因此有必要對傳統(tǒng)算法進行改進以增強低信噪比環(huán)境下的檢測性能。基于此，本文研究了一種采用非平穩(wěn)噪聲抑制和調(diào)制域譜減進行前端增強并結(jié)合功率歸一化倒譜距離的端點檢測算法。該算法能有效區(qū)分語音和噪聲，抗噪魯棒性好，其中PNCC采用 Gammatone聽覺濾波器組，可以提供人類聽覺感知的精確表示。

因此，選用非平穩(wěn)噪聲抑制結(jié)合調(diào)制域譜減降低噪聲的干擾，再采用PNCC倒譜距離可以在檢測準確度方面提供實質(zhì)性的改進。

本文算法具體步驟如下：

(1)對含噪語音進行瞬態(tài)噪聲抑制再結(jié)合調(diào)制域譜減并補償相位得到增強后的語音。

式中：N為功率歸一化倒譜的分析階數(shù)，本文采用16階。

(3)由式(33)計算出 PNCC倒譜距離，最后采用單參數(shù)雙門限判決方法，依據(jù)經(jīng)過平滑后的數(shù)據(jù)值選定兩個閾值 T1、T2，當(dāng) PNCC倒譜距離高于T2閾值時確定是語音，再依據(jù)與T1值的大小來判定語音端點。

4 實驗與分析

4.1 實驗配置

實驗使用 M-Audio多路音頻設(shè)備在相對安靜的辦公室采集語音數(shù)據(jù)。為模擬智能音箱場景，分別在1～4 m，全方位進行音箱命令詞錄制，每條語音時長約為4～5 s，其中非平穩(wěn)噪聲是模擬辦公環(huán)境中的機械鍵盤聲以及敲門聲真實錄制的。為了直觀地對比算法的端點檢測結(jié)果標(biāo)定，采用的語音內(nèi)容為三個命令詞：“小白小白”“打開音箱”“小白小白”的語音文件。采樣頻率為 16 kHz、精度為16 bit，采用漢明窗進行分幀。將語音與 Noise-92噪聲庫中的white、f16以及錄制的機械鍵盤、敲門聲4種噪聲分別混合成SNR為5、0、-5、-10 dB的帶噪語音進行測試以評估各算法性能。

4.2 實驗結(jié)果與分析

為驗證本文算法在低信噪比下的可行性，分別從譜減、倒譜距離兩方面有針對性地選取了4個對比算法，分別是：王瑤等[2]于2018年提出的調(diào)制域譜減結(jié)合對數(shù)能量和自相關(guān)函數(shù)峰值比的端點檢測算法，該算法使用對數(shù)能量替代端點檢測中經(jīng)典的短時平均能量，使用自相關(guān)函數(shù)主峰比值替代平均過零率；王群等[19]于 2017年提出的調(diào)制域譜減和對數(shù)能量子帶譜熵相結(jié)合的端點檢測算法；朱春利等[20]于 2019年提出的基于多特征融合與動態(tài)閾值的端點檢測算法，該算法先經(jīng)過譜減再結(jié)合MFCC倒譜距離、均勻子帶頻帶方差特征，利用雙參數(shù)雙門限法進行端點判定；多帶譜減結(jié)合倒譜距離的端點檢測算法。其中文獻[2]和文獻[19]與本文的相似點是前端增強均采用了調(diào)制域譜減，所不同的是本文算法增加了一個非平穩(wěn)噪聲抑制模塊，使算法具有更強的穩(wěn)健性，同時各算法端點檢測參數(shù)是針對不同傳統(tǒng)方法的分別改進。為方便起見，上述4種算法簡記為文獻[2]算法、文獻[19]算法、文獻[20]算法以及多帶譜減結(jié)合倒譜距離法。

測試語音在SNR為-10 dB的機械鍵盤噪聲環(huán)境下經(jīng)各算法的端點檢測結(jié)果顯示如圖9～13所示。

圖9 文獻[2]算法端點檢測結(jié)果Fig.9 The endpoint detection results of the method in Ref.[2]

圖10 多帶譜減結(jié)合倒譜距離法端點檢測結(jié)果Fig.10 Endpoint detection results by multiband spectrum subtraction combined with cepstrum distance method

圖11 文獻[20]算法端點檢測結(jié)果Fig.11 The endpoint detection results of the algorithm in Ref.[20]

圖12 文獻[21]算法端點檢測結(jié)果Fig.12 The endpoint detection results of the algorithm in Ref.[21]

圖9～13中的圖(a)為原始語音波形，為方便對比，將各算法得出的檢測結(jié)果也在圖(a)中表示，其中黑色實線代表語音的開始，點劃線代表語音的結(jié)束。圖(b)為-10 dB含噪語音。由圖9～13可知，在低信噪比環(huán)境下，由于不同說話人換氣長度不一致，字詞間隔的語音能量可能會被嘈雜環(huán)境中的噪聲掩蓋從而被誤判為噪聲，導(dǎo)致丟失部分語音。圖9中文獻[2]算法對語音端點的判斷基本正確，但是在開頭和結(jié)尾處將過大的沖擊噪聲錯誤地判定為語音。顯然圖 10中的多帶譜減結(jié)合倒譜距離端點檢測算法也存在類似問題，而且在語音段出現(xiàn)了多處間斷，其對端點的判定不理想。圖11中文獻[19]由于部分語音能量較低，出現(xiàn)了漏檢，對于語音端點邊界定位不精確。圖12中文獻[20]對語音開始和結(jié)束位置判決精度不高，出現(xiàn)了大量的錯檢，把噪聲判定為語音。而圖 13所示的本文算法在相應(yīng)條件下有效減少了錯檢和漏檢率。這是因為采用噪聲抑制算法消除了大量容易被誤判為語音的瞬態(tài)沖擊噪聲，再經(jīng)過調(diào)制域譜減消除殘余噪聲，有效提高了信噪比并避免了音樂噪聲，而PNCC倒譜系數(shù)本身較 MFCC倒譜系數(shù)具有一定的抗噪性，且PNCC倒譜距離曲線在噪聲段波形平坦，過渡到語音段時，曲線窄而陡峭，因此可以提高端點位置判決精度。由于語音是非平穩(wěn)信號，PNCC采用的語音長時幀信息可用于分析其非平穩(wěn)性，可有效彌補倒譜距離特征在非平穩(wěn)噪聲下性能不佳的缺陷，同時算法將“小白小白”等命令判定為一段語音，而不是將每個字詞單個檢出，保證了語句的連貫性。

圖13 本文算法端點檢測結(jié)果Fig.13 The endpoint detection results of the algorithm in this paper

為了更直觀地評估各算法的檢測準確率，分別對4種噪聲環(huán)境下錄制的語音庫文件進行測試，取20條錄制的語音端點檢測正確率的平均值進行對比，其中正確率可用下式計算得到[20]：

錯誤幀數(shù)=噪聲幀檢測為語音幀數(shù)+語音幀檢測為噪聲幀數(shù)；

正確率=(總幀數(shù)-錯誤幀數(shù))÷總幀數(shù)×100%

圖14～17分別為white噪聲、f16噪聲、機械鍵盤噪聲、敲門噪聲環(huán)境下各算法的端點檢測正確率對比圖。

圖14 不同算法在white噪聲環(huán)境下端點檢測正確率比較Fig.14 Accuracy comparison of endpoint detection by different algorithms in white noise environment

圖15 不同算法在f16噪聲環(huán)境下端點檢測正確率比較Fig.15 Accuracy comparison of endpoint detection by different algorithms in f16 noise environment

圖16 不同算法在機械鍵盤噪聲環(huán)境下端點檢測正確率比較Fig.16 Accuracy comparison of endpoint detection by different algorithms in mechanical keyboard noise environment

對比圖 14～17可知，本文研究的基于瞬態(tài)噪聲抑制結(jié)合調(diào)制域譜減再通過PNCC倒譜距離進行端點檢測的算法在測試的四種噪聲環(huán)境下相對于對比算法檢測準確率較高。圖14和圖15是在平穩(wěn)噪聲環(huán)境下的檢測結(jié)果，由圖可知，本文算法在各信噪比條件下均優(yōu)于對比算法，其中圖 15中多帶譜減結(jié)合倒譜距離在0 dB、f16噪聲環(huán)境下與本文算法相當(dāng)。原因是本文檢測為平穩(wěn)噪聲，故只采用調(diào)制域譜減進行前端增強，根據(jù)前面實驗可知調(diào)制域譜減與多帶譜減信噪比提升相差不大，實驗結(jié)果前后相符。圖16和圖17表示的是非平穩(wěn)噪聲環(huán)境下的結(jié)果，從圖中很明顯可以看出本文算法較對比算法有了大幅度提升，尤其在-10 dB惡劣環(huán)境下性能提升約4%～10%，說明算法可改善非平穩(wěn)噪聲干擾。以上實驗有效驗證了本文算法的抗噪魯棒性。

圖17 不同算法在敲擊噪聲環(huán)境下端點檢測正確率比較Fig.17 Accuracy comparison of endpoint detection by different algorithms in tapping noise environment

4.3 本文算法的適用環(huán)境和后續(xù)研究

非平穩(wěn)噪聲環(huán)境下的算法性能是人們關(guān)注和研究的重點之一，實驗結(jié)果表明本文算法適用于處理瞬態(tài)沖擊噪聲環(huán)境下的語音，其具有一定的抗噪穩(wěn)健性，對低信噪比下的端點檢測仍然有效。

由于本文算法結(jié)合了瞬態(tài)噪聲抑制、調(diào)制域譜減以及PNCC倒譜距離，而PNCC則是在MFCC基礎(chǔ)上進行算法改進的，因此本文算法復(fù)雜度要比一般的單參數(shù)算法稍高，在平穩(wěn)噪聲環(huán)境下本文算法與文獻[2]、文獻[20]均采用了調(diào)制域譜減這一相對復(fù)雜有效的算法，且不執(zhí)行瞬態(tài)噪聲抑制模塊，三者的運行時間相當(dāng)；文獻[21]、多帶譜減結(jié)合倒譜距離這兩個算法的耗時相對較少，然而在非平穩(wěn)噪聲環(huán)境下本文算法采用的瞬態(tài)噪聲抑制在確保精確度的同時很難兼顧實時性。文中為了提高算法的實時性，通過對噪聲類型的判斷決定是否開啟瞬態(tài)噪聲抑制，可在一定程度上優(yōu)化算法，同時隨著后續(xù)計算機硬件運算能力的提高，有望能夠改善此問題。

因此，如何在保證精確度的前提下優(yōu)化算法結(jié)構(gòu)，縮短運行時間也是本文后續(xù)研究的重點。

5 結(jié) 論

在語音端點檢測中，當(dāng)信號處于低信噪比環(huán)境下，傳統(tǒng)的倒譜距離法檢測性能還有待提高，本文在傳統(tǒng)倒譜距離端點檢測的基礎(chǔ)上研究了一種瞬態(tài)噪聲抑制結(jié)合調(diào)制域譜減再通過PNCC倒譜距離進行端點檢測的算法，該算法首先通過抑制非平穩(wěn)噪聲再使用調(diào)制域譜減消除殘余噪聲，再通過PNCC倒譜距離進行端點檢測。

實驗證明該算法在低信噪比下可以保持較高的檢測準確率，可用于改善智能音箱語音識別系統(tǒng)在復(fù)雜噪聲環(huán)境下的性能，減少功耗，具有一定的實用價值。