999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LPCC和能量熵的端點檢測?

2010-04-05 08:18:01朱曉晶侯旭初崔慧娟唐昆
電訊技術 2010年6期
關鍵詞:特征檢測模型

朱曉晶,侯旭初,崔慧娟,唐昆

(清華大學電子工程系清華信息科學與技術國家實驗室,北京100084)

基于LPCC和能量熵的端點檢測?

朱曉晶,侯旭初,崔慧娟,唐昆

(清華大學電子工程系清華信息科學與技術國家實驗室,北京100084)

為提高語音端點檢測系統在低信噪比下檢測的準確性,提出了一種基于倒譜特征和譜熵的端點檢測算法。首先,根據分析得到待測語音幀的倒譜特征量,然后計算該特征量分別在通過訓練得到的語音和噪聲的高斯混合模型下的似然概率,通過兩者概率的比較作出有聲無聲初判決;聯合能量熵端點檢測結果得到最終判決,最后通過Hangover機制最大限度的保護了語音。實驗結果表明,此方法改善了能量熵端點檢測法在babble噪聲下的劣勢,且在不同噪聲環境下均優于G.729 Annex B的性能。

語音信號處理;話音端點檢測;譜熵;線性預測系數;倒譜系數;高斯混合模型

1 引言

端點檢測算法的研究在語音信號處理領域中一直有著重要的意義。作為語音信號預處理技術的一部分,語音端點檢測被廣泛應用在語音增強、語音識別、語音編碼等系統中。傳統的門限比較法由于門限邊界的更新規則難以確定,對噪聲變化性能不好,從而導致判別準確率的降低。許多新的特征被提出,如基于多特征聯合的方法[1]、基于頻域能量的特征[2]、基于差分能量和差分過零率的特征[3]、基于高階統計量的特征[4]等,然而以上特征在噪聲很強的環境中,尤其在群口噪聲背景下運用效果都不夠理想。已有的能量譜熵法以能量彌補熵在babble下的不足,性能稍有改善。考慮到模型匹配方法[5]對時變噪聲具有較好的適應能力,而且倒譜特征能很好地表征聲道特性,本文提出了一種倒譜特征和能量熵的端點聯合檢測算法。大量的實驗結果表明,在不同噪聲環境和信噪比下,算法的性能均優于G. 7299 Annex B的性能,尤其群口噪聲背景下性能改善顯著。

2 算法描述

2.1 LPCC參數的提取[6]

在提取特征參數之前,所采集的信號經過預處理(一般包括預加重、加窗、分幀)之后,通過線性預測(Linear Prediction Coefficient,LPC)分析得到聲道模型的系統函數為

式中,p是LPC分析的階數,ak為線性預測系數(k=1,2,3,…,p),A(z)稱為逆濾波器,其沖激響應為h(n)。由式(1)可知,LPC的分析就是求解p階線性預測系數ak(本文通過自相關Durbin法求解)。根據倒譜的定義,對式(1)兩邊取對數后兩邊關于z求導,有:

令式(2)左右的常數項和z-1各次冪的系數分別相等,得到^h(n)和ak之間的遞推關系為

按式(3)直接從預測系數求得倒譜^h(n),令C(n)=^h(n),便得到倒譜特征的統一表示式。

2.2 能量熵特征計算[7]

語音抽樣頻率為8 kHz,幀長為25 ms,進行256點的FFT變換。將每幀信號分為13個子帶,選取頻譜分布在250~3 500 Hz并且能量不超過該幀總能量90%的子帶,計算經過語音增強后的子帶能量以及各子帶信噪比,根據各子帶信噪比的不同調整其在整個譜熵計算過程中的權重,然后平滑譜熵,以最終的譜熵作為端點檢測的依據。

每一個頻帶的能量為

式中,Gk加權因子,Rk是對應子帶的相應的Fourier變換第k個幅度值。

相應的概率密度函數為

為了消除一些集中在特殊頻率的噪聲,可以限定Pi<0.9,即采用下述約束關系:

第i幀的熵可以定義為

2.3 高斯混合模型的原理

用高斯混合模型(Gaussian Mixture Model,GMM)進行檢測的原理[8]是對語音和噪聲分別建立一個概率模型,該模型中的參數是由語音和噪聲的特征參數分布決定的。我們采用EM算法來對模型中的參數進行估計,這樣得到了GMM模型。

特征矢量x對不同狀態的高斯概率密度函數可以寫為

式中,μi是狀態平均矢量,Σi是狀態協方差矩陣,D是特征矢量的維數。平均矢量μi是特征矢量x的元素的期望值,而協方差矩陣Σi代表著特征矢量元素的互相關(非對角線項)和方差(對角線項)。模型的參數集合λ就包括了權重、均值和協方差,即:

對于某個特定的模型(用λ表示)而言,特征矢量在所有M(M為高斯混合模型中分量的個數)個狀態中出現的總概率是由M個多維高斯分布加權疊加得到的,即:

2.4 GMM的參數估計——EM算法

EM(Expectation-Maximization)算法最初對模型參數初始化,然后利用最大似然估計原則,在迭代中改善模型的參數估計。在每次迭代中增加模型估計λ與觀測特征矢量的匹配概率[9],最大似然地計算模型參數,并不斷重復直到局部最大,即每次迭代時,有p(x|λk+1)>p(x|λk),其中k是迭代的次數。可以證明,每一次迭代都增大或不改變似然度(當得到局部最值時,似然度值將不會改變)。

EM算法在迭代中改善模型的參數估計,通過不斷的迭代改進,從而能最好地匹配觀測數據。假設訓練特征矢量序列為X={x1,x2,x3,…,xT},最大期望下所得到的GMM重估公式為[9]

實現中,認為模型中每類矢量各維相互獨立且服從正態分布,從而將原始協方差矩陣簡化為對角矩陣,使運算得到簡化。

GMM進行識別訓練時,必須確定GMM模型的高斯混合分量個數,考慮到計算量和復雜度,算法中高斯混合分量個數設為6,且使用LBG法[10]進行參數初始化。

2.5 兩種特征端點檢測分析

能量熵特征是目前用來進行端點檢測的單特征中最為普遍也是最好的,但是為了能夠較快地跟蹤背景噪聲的變化,門限需要不斷更新。在傳統的端點檢測算法中,只在噪聲幀進行更新,如果噪聲能量突然升高或者降低,則這種方法的檢測結果會一直錯下去;基于倒譜特征的模型匹配法為了解決訓練環境和測試環境的不匹配,會動態調整模型的參數,即使在噪聲發生劇烈變化時,仍能很快地適應,從而可以在一定程度上減少這種錯誤。并且,由于bab

ble的譜熵和語音的譜熵近似,能量譜熵法以能量彌補熵在babble下的不足,性能仍然不夠理想;而倒譜特征取合適的階數(8~12)后可較好地表征聲道特性,是話音識別最有效的一個特征[6],用來進行端點

檢測時能有效地將目標人聲從一堆人聲中鑒別出來。但是用LPCC作為分類特征,用來進行端點檢測時會因為信號幀與噪聲幀的信息特征相交區域較大,誤剪率會較大。兩者在單獨運用時,各有其不足,聯合運用時,可以優勢互補。

2.6 算法流程描述

如圖1所示,算法實現的流程為:

(1)用GMM模型對語音和背景噪聲分別建立統計模型;

(2)根據分析得到待測語音幀的LPCC特征量,然后計算該特征量分別在通過訓練得到的語音和噪聲的高斯混合模型(GMM)下的似然概率,通過比較做出有聲無聲初判決;

假設基于LPCC特征矢量x,其為語音和噪聲的后驗概率分別為P(s|x)和P(n|x)。初判決的規則是,如果P(s|x)>P(n|x),判為語音,VAD=1;反之,為噪聲,VAD=0。

由貝葉斯準則得到:

式中,P(s)和P(n)為語音和噪聲的先驗概率,預先設定為2/3和1/3(為了最大限度保護語音)。P(s|x)和P(n|x)的計算就轉換成p(x|s)和p(x|n),即似然概率的計算;

(3)聯合能量熵端點檢測結果得到最終端點判決。其中為了盡可能最大限度地保護語音,采用Hangover機制以防止語音末尾部分因為能量偏低導致的誤判(切音)。

3 實驗分析

實驗語料:將標準語音庫的語音材料與NOISEX-92噪聲庫的噪聲采樣材料(WHITE、PINK、babble噪聲、f16噪聲、m109噪聲)根據SNR合成作為測試材料,信噪比從-5~15 dB,語音8 kHz采樣、16 bit量化。

測試方法:將VAD函數判決結果以文件形式輸出,觀察輸出語音何時是語音幀何時是非語音幀,并與源文件進行比較,將錯誤判決的幀數計算出來。其中,錯誤幀數=語音錯判為噪聲的幀數+噪聲錯判為語音的幀數,準確率=((總幀數-錯誤幀數)/總幀數)×100%

3.1 不同噪聲不同信噪比下測試結果

在4種不同的噪聲環境(白噪聲、粉色噪聲、群口噪聲、戰斗機噪聲),在-5~15 dB的信噪比范圍內,對本文所提出的算法進行了驗證,算法的性能如圖2所示。

3.2 不同噪聲背景下與G.729 Annex B性能比較

從圖3可以看到,在4種噪聲背景下,不同的信噪比下,算法均顯現了比G.729算法優越的性能。

3.3 不同噪聲背景下與能量譜熵法性能比較

從圖4可以看出,在white噪聲、f16噪聲和m109噪聲下,算法與能量譜熵法性能相近。在babble噪聲下,與G.729和能量譜熵法比較,算法性能最優。

群口噪聲為眾人說話噪聲,端點檢測時要從一堆人聲中檢測出特定人聲,一直都是難點。從G.729的性能曲線看出,隨著信噪比的降低,效果不佳;由于babble的譜熵和語音的譜熵近似,能量譜熵法以能量彌補熵在babble下的不足,性能稍好;本算法采用的倒譜特征是話音識別最有效的一個特征,表現出了比能量譜熵法更為優越的性能。

4 結論

本文提出了一種基于LPCC和能量熵的端點聯合檢測算法,通過利用GMM性能好、復雜度小且方法簡單的特點以及LPCC能夠很好地表征聲道特征且運算量不的優點,可以更好地將語音和噪聲識別開來。實驗結果表明,該算法性能優越,且有效改善了已有的能量熵法在babble噪聲下的劣勢,能夠實時應用。但其在實現前需要積累很多先驗知識,當訓練數據有限時,它可能不能充分反映語音或噪聲的特性,這是今后需要進一步研究的問題。

[1]徐大為,吳邊,趙建偉,等.一種噪聲環境下的實時語音端點檢測算法[J].計算機工程與應用,2003,24(1):115-117.

XU Da-wei,WU Bian,ZHAO Jian-wei,et al.A real time algorithm for voice activity detection in noisy environment[J].Computer Engineering and Application,2003,24(1):115-117.(in Chinese)

[2]Junqua J C,Mak B,Reaves B.A robust algorithm for word boundary detection in the presence of noise[J].IEEE Transactions on Speech and Audio Processing,1994,2(3):406-412.

[3]Beritelli F,Casale S,Ruggeri G,et al.Performances evaluation and comparision of G.729/AMR/fuzzy voice activity detectors[J].IEEE Signal Processing Letters,2002,9(3):85-88.

[4]Pencak J,Neloson D.The NP speech activity detection algorithm[C]//Proceedings of 1995 International Conference on Acoustics,Speech and Signal Processing.Detroit,MI,USA:[s.n.],1995:381-384.

[5]Reynolds D,Rose R.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.

[6]韓紀慶,張磊,鄭軼然.語音信號處理[M].北京:清華大學出版社,2004:109-110.

HAN Ji-qing,ZHANG Lei,ZHENG Yi-ran.Speech Signal Processing[M].Beijing:Tsinghua University Publishing House,2004:109-110(in Chinese)

[7]李曄,張仁智,崔慧娟,等.低信噪比下基于譜熵的語音端點檢測算法[J].清華大學學報(自然科學版),2005,45(10):1397-1400.

LI Ye,ZHANG Ren-zhi,CUI Hui-juan,et al.Voice activity detection algorithm with low signal-to-noise ratios based on the spectrum entropy[J].Tsinghua University(Sci&Teacj),2005,45(10):1397-1400.(in Chinese)

[8]Reynolds D A,Quatieri T F,Dunn R B.Speaker Verification Using Adapted Gaussian Mixture Models[J].Digital Signal Processing,2000,10(1):19-41.

[9]Dempster A D,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society,1977,39(2):1-37.

[10]Gish H,Schmid M.Text-Independent Speaker Identification[J].IEEE Signal Processing Magazine,1994,11(4):18-32.

ZHU Xiao-jing was born in Jiangsu Province,in 1979.She is now a graduate student.Her research interests include speech processing and speech encryption.

Email:qingtengdhx@126.com

侯旭初(1985-),女,河北人,清華大學電子工程系研究生,主要研究方向為語音信號處理;

HOU Xu-chu was born in Hebei Province,in 1985.She is now a graduate student.Her research direction is speech signal processing.

崔慧娟(1945-),女,遼寧人,清華大學電子工程系教授,主要研究方向為信源編碼、語音編碼、多媒體通信系統等;

CUI Hui-juan was born in Liaoning Province,in 1945.She is now a professor.Her research interests include signal source coding,speech coding and multimedia communication system.

唐昆(1945-),男,江蘇人,清華大學電子工程系教授,主要研究方向為數字通信、語音編碼、自適應信號處理等領域。

TANG Kun was born in Jiangsu Province,in 1945.He is now a professor.His research interests include communication,speech coding and adaptive signal processing.

Voice Activity Detection Based on LPCC and Spectrum Entropy

ZHU Xiao-jing,HOU Xu-chu,CUI Hui-juan,TANG Kun
(National Laboratory of Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)

In order to improve the accuracy of Voice Activity Detection(VAD)in low SNR noisy environments,an algorithm based on Linear Predictive Cepstral Coefficient(LPCC)and energy entropy is proposed.First,the LPCC extracted from the input speech is imported into speech model and noise model,both of which are Gaussian Mixture Model(GMM)separately,to calculate the likelihood ratio of speech to noise.The first-stage VAD decision is made based on the likelihood ratio.Then the spectrum entropy is applied to the second decisionmaking stage.Finally,a mechanism called Hangover is used to better protect the speech.Experiment results show that the new algorithm can compensate the drawbacks of spectrum entropy method in babble noisy environment.Furthermore,it outperforms the G.729 Annex B under various noisy environments.

speech signal processing;voice activity detection(VAD);spectrum entropy;linear prediction coefficient(LPC);linear predictive cepstral coefficient(LPCC);Gaussian mixture model(GMM)

The National Natural Science Foundation of China(No.60572081)

TN912.3

A

10.3969/j.issn.1001-893x.2010.06.009

朱曉晶(1979-),女,江蘇人,碩士研究生,主要研究方向為語音處理、語音加密;

1001-893X(2010)06-0041-05

2010-03-04;

2010-04-23

國家自然科學基金資助項目(60572081)

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎永久在线| 亚洲成人一区二区三区| 无码网站免费观看| 国内精品91| 国产精品女主播| 亚洲第一成年网| 99热这里只有精品免费| 国产精品va| 国产一区二区三区在线无码| 国产国产人成免费视频77777| 色亚洲激情综合精品无码视频 | 国产高清在线观看| 永久在线精品免费视频观看| 尤物特级无码毛片免费| 婷婷六月天激情| 亚洲高清资源| 国产色伊人| 亚洲AV成人一区二区三区AV| 欧美日韩一区二区三| 日本五区在线不卡精品| 国产欧美另类| 国产综合另类小说色区色噜噜 | 中文字幕有乳无码| 污污网站在线观看| 欧美国产日韩另类| 日本国产在线| 视频一区亚洲| 91久久偷偷做嫩草影院电| 国产成人你懂的在线观看| 亚洲欧美综合在线观看| 日韩不卡免费视频| 中文字幕伦视频| 免费国产一级 片内射老| 91麻豆国产视频| 波多野结衣一区二区三区88| 久久99国产乱子伦精品免| 免费一级毛片不卡在线播放| 日韩一二三区视频精品| 永久在线播放| 日本福利视频网站| 2018日日摸夜夜添狠狠躁| av在线手机播放| 99热6这里只有精品| 亚洲综合中文字幕国产精品欧美| 欧美a√在线| 欧美日韩资源| 亚洲精品无码不卡在线播放| AV无码无在线观看免费| 国产一二视频| 亚洲色图综合在线| 国产色婷婷| 亚洲一道AV无码午夜福利| 伊人AV天堂| 精品国产自| 国产免费a级片| 欧美亚洲中文精品三区| 久久精品娱乐亚洲领先| 国产乱人乱偷精品视频a人人澡| 国产成人做受免费视频 | 欧美成人看片一区二区三区| 久久伊人操| 久久精品人人做人人综合试看| 国产欧美精品一区二区| 毛片a级毛片免费观看免下载| 欧洲成人免费视频| 99久久精品国产精品亚洲| 欧美日韩国产一级| 亚洲人成人无码www| www欧美在线观看| 国产欧美一区二区三区视频在线观看| 欧美日韩国产在线观看一区二区三区 | 久久国产亚洲偷自| 一级成人欧美一区在线观看| 久热中文字幕在线观看| 久久五月视频| 精品91视频| 亚洲天堂网在线播放| 亚洲色图欧美| 国产欧美亚洲精品第3页在线| 无码区日韩专区免费系列| 在线国产三级| 亚洲乱亚洲乱妇24p|