999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種魯棒性聽覺特征的說話人確認系統(tǒng)

2019-06-25 10:00:04文思進
無線電工程 2019年7期
關(guān)鍵詞:實驗模型系統(tǒng)

文思進,高 勇

(四川大學 電子信息學院,四川 成都 610065)

0 引言

在實際應用中,說話人確認系統(tǒng)會因為采集設備干擾、環(huán)境噪聲以及說話人情緒影響等造成性能急劇下降。特征提取是說話人確認系統(tǒng)中的關(guān)鍵步驟,合適的聲紋特征能有效地提升系統(tǒng)性能。

梅爾倒譜系數(shù)[1](MFCC)和基于Gammatone濾波器提取的GFCC特征參數(shù)[2-3]是目前說話人確認中最常見的魯棒性特征參數(shù)。上述2種參數(shù)已部分考慮人耳的聽覺感知特性,在無噪聲污染環(huán)境下表現(xiàn)良好,但在低信噪比情況下性能嚴重下降。為解決該問題,考慮利用能較好地模擬人耳聽覺特性的Gammachirp濾波器[4]進行特征提取。近年來,Ben Abdallah[5],M Bouchamekh[6]等將Gammachirp濾波器應用于說話人辨認系統(tǒng),取得了良好的識別效果。但鮮有利用該濾波器提取聽覺特征參數(shù)并運用到說話人確認系統(tǒng)中的研究。

本文通過Gammachirp濾波器組提取出一種魯棒性聽覺特征參數(shù)GCFC,對其噪聲魯棒性進行了分析;研究了不同噪聲環(huán)境下GCFC的系統(tǒng)確認性能。實驗表明,與單純的MFCC及GFCC特征參數(shù)相比,在低信噪比條件下,GCFC聽覺特征參數(shù)更具噪聲魯棒性和適應性,使得確認系統(tǒng)準確率有明顯的改善。

1 說話人確認系統(tǒng)

1.1 說話人確認系統(tǒng)構(gòu)成

本文采用基于GMM-UBM[7]的說話人確認系統(tǒng),主要由3部分組成:通用背景模型(UBM)訓練、說話人模型自適應以及說話人確認測試。

通用背景模型訓練:按照一定的男女比例選取大量非目標說話人的純凈語音,進行聲紋特征提取后利用最大期望算法(EM)進行迭代訓練,最后得到UBM模型。UBM模型本質(zhì)上為高斯混合模型,由目標說話人以外的大量說話人組合并訓練而成,代表了與目標說話人無關(guān)的特征分布。

說話人模型自適應:將提取特征后的目標說話人訓練語音在UBM模型上自適應使用最大后驗準則(MAP)來得到目標說話人模型,即得到目標說話人的語音特征分布。

說話人確認測試:將每個說話人的對數(shù)似然比得分經(jīng)過評分規(guī)整之后,和閾值進行比較,并進行判決。如果得分大于閾值,則判決測試語音為真實說話人,小于閾值則判決為冒充說話人。

1.2 說話人確認系統(tǒng)性能評價

美國國家標準及技術(shù)署(National Institute of Standard and Technology,NIST)在說話人確認測評中采用檢測錯誤權(quán)衡(Detection Error Tradeoff,DET)曲線表示確認系統(tǒng)錯誤接受率(False Acceptance Rate,F(xiàn)AR)和錯誤拒絕率(False Rejection Rate,F(xiàn)RR)之間的權(quán)衡關(guān)系[8],并以此來評價說話人確認系統(tǒng)的性能,反映系統(tǒng)整體識別能力。這是因為說話人確認中存在2類識別錯誤:冒充人被接受的錯誤和真實說話人被拒絕的錯誤,分別用FAR和FRR表示。二者定義如下:

(1)

(2)

此外,等錯誤率(Equal Error Rate,EER)和檢測代價函數(shù)(Detection Cost Function,DCF)也是衡量說話人確認系統(tǒng)的重要指標。其中,EER指FAR與FRR相等時所對應的錯誤概率。DCF指在固定判決門限前提下系統(tǒng)的檢測代價,表達式定義如下:

DCF=CFAPnonFAR+CFRPtarFRR,

(3)

式中,CFA和CFR分別代表錯誤接受和錯誤拒絕的代價因子;Pnon和Ptar分別代表冒充說話人和真實說話人的先驗概率。在NIST測評中,代價因子和先驗概率是固定的:CFA=1,CFR=10,Ptar=0.01,Pnon=1-Ptar。由式(3)可知,通過改變判決門限可使檢測代價函數(shù)達到最小,此時形成了最小檢測代價(MinDCF)。MinDCF是NIST說話人確認測評中最常用的評價指標之一。

2 基于Gammachirp濾波器的魯棒性聽覺 特征提取

2.1 Gammachirp濾波器

Gammachirp濾波器屬于非線性濾波器的一種,在擬合人耳聽覺特性上效果明顯,被看作是Gammatone濾波器的推廣和改進。Gammachirp濾波器引入了耳蝸濾波器的非對稱性和強度依賴性特性,可以很好地模擬人耳耳蝸的頻率選擇性,其時域脈沖響應表達式為[9]:

gc(t)=atn-1exp(-2πbERB(fr)t)·

exp(j2πfrt+jclnt+jcfφ)),t>0,

(4)

式中,a為振幅;φ為初始相位;n,b為描述gamma函數(shù)分布包絡的參數(shù),通常n取4,b取1.109;c為啁啾因子(Chirp Factor),會隨聲壓變化而變化;fr為漸近頻率;ERB(fr)代表中心頻率為fr的等效矩形帶寬(ERB)的值,可由式(5)得到:

ERB(fr)=24.7+0.108fr。

(5)

Gmmachirp函數(shù)的傅里葉變換推導如下:

(6)

(7)

(8)

Gc(f)=GT(f)·HA(f)。

(9)

因此,Gammachirp函數(shù)的幅度譜可表示為[10]:

(10)

式中,|HA(f)|=ecθ(f),當啁啾因子c=0時,|HA(f)|為單位階躍函數(shù),此時Gammachirp函數(shù)退化為Gammatone函數(shù);當c>0時,|HA(f)|表現(xiàn)為高通濾波器;而當c<0時,|HA(f)|表現(xiàn)為低通濾波器。

文獻[11]指出,Gammachirp濾波器組由Gammatone濾波器組、低通非對稱補償濾波器組以及高通非對稱補償濾波器組級聯(lián)而成,基本結(jié)構(gòu)如圖1所示。其中,能夠進行聲壓估計的參數(shù)控制器控制了高通非對稱補償濾波器組的輸出。結(jié)合式(10)可知,Gammachirp濾波器可看作由Gammatone濾波器|GT(f)|與非對稱函數(shù)|HA(f)|共同作用產(chǎn)生。圖1中2個級聯(lián)的非對稱濾波器組則共同實現(xiàn)了非對稱函數(shù)|HA(f)|的功能。|HA(f)|即為ecθ(f),受啁啾因子c的影響。啁啾因子c與聲壓級Ps呈線性關(guān)系,具體如式(11)所示。通過Ps實時調(diào)整c值可實現(xiàn)Gammachirp濾波器組對信號的強度依賴性[12]。

c=3.38+0.107Ps。

(11)

圖1 Gammachirp濾波器組基本結(jié)構(gòu)

2.2 基于Gammachirp濾波器的魯棒性聽覺特征提取方法

本文采用24個通道數(shù)的Gammachirp濾波器組擬合人耳聽覺特點,提取了基于Gammachirp濾波器的魯棒聽覺特征參數(shù),特征參數(shù)記為GCFC。提取流程如圖2所示。

圖2 GCFC特征參數(shù)提取流程

圖2中,輸入語音信號經(jīng)過預加重、分幀、加窗以及端點檢測等預處理后,進行快速傅里葉變換(FFT),將Gammachirp濾波器組的頻率響應進行等響度變換[13]后,再利用Gammachirp濾波器組對信號進行子帶濾波,然后對每個濾波器的輸出做對數(shù)非線性壓縮,經(jīng)過相對譜濾波(RASTA)[14]和離散余弦變換(DCT),最后再經(jīng)過半升正弦函數(shù)倒譜提升以及倒譜均值減-倒譜方差歸一化(CMS-CVN)[15]處理,得到基于Gammachirp濾波器的GCFC聽覺特征參數(shù)。

在特征參數(shù)GCFC的提取過程中,對Gammachirp濾波器的頻率響應進行等響度變換可模擬人耳對不同頻率所感受到的響度。對聽覺特點的研究表明,耳蝸具有非線性特點,反映了人耳在接收帶噪信號時的處理機制。非線性壓縮基于人耳的強度感知性,使得聽覺模型能在最大限度上擬合人耳的強度感知性。因此,對每個濾波器的輸出做對數(shù)壓縮,以此來擬合人耳聽覺模型處理語音信號的非線性特性;此外,為削弱傳輸信道對語音信號的影響,補償信道卷積噪聲在倒譜域產(chǎn)生的偏差,提高聽覺特征參數(shù)的穩(wěn)健性,對信號進行了RASTA濾波和CMS-CVN處理。

3 仿真實驗

3.1 實驗設計

實驗數(shù)據(jù)選自CCB數(shù)據(jù)庫中電話信道下的純凈語音,語音采樣率為8 kHz,16 bit,單聲道錄音。從中選取男女各60人,共計120人訓練UBM模型。另外選取男女各20人,共計40人訓練每個目標說話人的GMM模型,每人訓練語音長度為34 s,再取每人與文本無關(guān)的5條5 s語音進行說話人確認測試。噪聲數(shù)據(jù)取自NOISEX-92噪聲數(shù)據(jù)庫[16],所有帶噪語音均在原有語音信號上疊加一定信噪比噪聲得到。

本文在仿真實驗中對輸入系統(tǒng)的語音信號進行了預加重,預加重系數(shù)為0.97,以幀長256個采樣點進行分幀,使用漢明窗進行加窗處理。每幀語音提取48維GCFC參數(shù),并對系統(tǒng)最后得分采用測試規(guī)整(Test Norrmalization,Tnorm)[17]的評分規(guī)整方式。實驗仿真系統(tǒng)基于GMM-UBM模型,模型混合數(shù)為512,目標說話人的高斯混合數(shù)與UBM相同。

3.2 GCFC參數(shù)的有效性測試

實驗1:為驗證本文所提取的聽覺特征參數(shù)GCFC在無噪聲污染條件下對說話人確認系統(tǒng)的有效性,采用40人(男女比例1∶1)的純凈語音進行實驗。分別使用24個通道數(shù)的Mel濾波器組、Gammatone濾波器組和Gammachirp濾波器組提取聽覺特征參數(shù)MFCC、GFCC,GCFC,特征參數(shù)維度均為48維。實驗結(jié)果如表1所列。

表1 無噪環(huán)境下不同特征參數(shù)的系統(tǒng)EER和MinDCF

噪聲類型特征參數(shù)EERMinDCFMFCC0.071 90.060 6cleanGFCC0.068 80.056 7GCFC0.065 00.054 9

從表1可知,在無噪聲條件下的說話人確認中,GCFC特征參數(shù)的系統(tǒng)確認性能表現(xiàn)最好,EER和MinDCF均低于其余特征參數(shù)。與MFCC特征參數(shù)相比,EER降低了9.6%,計算過程如式(12)所示,MinDCF降低了9.4%;與GFCC特征參數(shù)相比,EER與MinDCF分別降低了5.5%和3.2%。由此可看出,純凈語音條件下,GCFC聽覺特征參數(shù)在說話人確認系統(tǒng)中的應用是可行有效的,可以滿足實際應用場景的要求。

(12)

3.3 GCFC參數(shù)的抗噪能力測試

實驗2:為測試噪聲環(huán)境下本文所提取的聽覺特征參數(shù)GCFC在說話人確認系統(tǒng)中的抗噪能力,將實驗1中提取的MFCC,GFCC,GCFC3個特征參數(shù)在同等噪聲條件下進行實驗。噪聲類型包括粉紅噪聲(Pink Noise)、白噪聲(White Noise)及f16座艙噪聲(f16 Cockpit Noise)。含噪語音的信噪比(SNR)為-10 dB,其余實驗條件同實驗1。實驗結(jié)果如圖3~圖5以及表2所示。

圖3 pink噪聲(-10 dB)下的DET曲線

圖4 white噪聲(-10 dB)下的DET曲線

圖5 f16噪聲(-10 dB)下的DET曲線

表2 噪聲環(huán)境下(-10 dB)不同特征參數(shù)的系統(tǒng)EER和MinDCF

噪聲類型特征參數(shù)EERMinDCFMFCC0.425 90.410 5pink噪聲GFCC0.425 00.406 8GCFC0.267 50.265 8MFCC0.40490.3896white噪聲GFCC0.392 50.372 9GCFC0.375 50.362 4MFCC0.426 50.415 5f16噪聲GFCC0.436 20.422 8GCFC0.275 60.268 2

從圖3~圖5可知,特征參數(shù)GCFC的檢測錯誤權(quán)衡(DET)曲線整體比特征參數(shù)MFCC和GFCC更優(yōu),錯誤接受率(FAR)和錯誤拒絕率(FRR)均更低、更接近坐標軸,說明系統(tǒng)的確認性能更好。

從表2可知,與MFCC和GFCC兩種特征參數(shù)相比,本文提取的GCFC特征參數(shù)在不同噪聲環(huán)境下的EER和MinDCF均更低。在pink,white,f16三種噪聲環(huán)境下,GCFC特征參數(shù)的平均EER為0.306 2,平均MinDCF為0.298 8。與MFCC及GFCC兩種特征參數(shù)相比,平均EER分別降低了26.9%和26.7%;平均MinDCF分別降低了26.2%和25.4%。結(jié)果說明基于Gammachirp濾波器提取的GCFC參數(shù)增強了噪聲環(huán)境下,尤其是低信噪比情況下說話人確認系統(tǒng)的魯棒性,能夠有效提高系統(tǒng)確認準確率。

4 結(jié)束語

Gammachirp濾波器在模擬人耳耳蝸基底膜特性方面表現(xiàn)良好,因此,本文將Gammachirp濾波器用于說話人確認系統(tǒng)的特征提取中,并在提取過程中應用了等響度變換、RASTA濾波和倒譜均值減-倒譜均值歸一化(CMS-CVN)等技術(shù),得到GCFC聽覺特征參數(shù)。本文先在無噪聲污染條件下進行GCFC參數(shù)的有效性實驗,然后在不同噪聲的低信噪比環(huán)境下進行GCFC參數(shù)的魯棒性實驗,并與MFCC和GFCC特征參數(shù)進行了對比。實驗結(jié)果表明,以GCFC參數(shù)為說話人聽覺特征的說話人確認系統(tǒng)整體性能更好,噪聲魯棒性更強,在低信噪比環(huán)境下系統(tǒng)確認準確率更高,同時對于不同的噪聲環(huán)境也更具適應性。

猜你喜歡
實驗模型系統(tǒng)
一半模型
記一次有趣的實驗
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
做個怪怪長實驗
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 99热这里只有精品5| 国产原创第一页在线观看| 成人日韩精品| 精品欧美视频| 一级毛片免费高清视频| 日韩第九页| 欧美97色| 伊人精品成人久久综合| 国产精品久久久精品三级| 美女无遮挡免费网站| 国产精品一区在线麻豆| 国产精品9| 国产日韩丝袜一二三区| 成人精品午夜福利在线播放| 丰满人妻久久中文字幕| 视频一区视频二区中文精品| 日韩最新中文字幕| 成年女人18毛片毛片免费| 亚洲无码精品在线播放 | 国产黄色片在线看| 国产人人射| 亚洲伊人电影| 日本免费a视频| 国产AV毛片| 国产综合精品一区二区| 朝桐光一区二区| 欧美亚洲欧美区| 一级黄色欧美| 久久久久亚洲精品无码网站| 成人综合久久综合| 麻豆精品视频在线原创| 国产美女丝袜高潮| 91精品情国产情侣高潮对白蜜| 日韩精品少妇无码受不了| 在线欧美a| 五月六月伊人狠狠丁香网| 亚洲国产日韩在线成人蜜芽| 久久婷婷色综合老司机| a国产精品| 欧美伦理一区| 亚洲日本精品一区二区| 精品久久久无码专区中文字幕| av大片在线无码免费| 欧美一级高清片欧美国产欧美| 成人午夜天| 久久免费视频6| 中国一级特黄视频| 国产福利拍拍拍| 激情无码视频在线看| 亚洲中文久久精品无玛| 婷婷六月综合网| 国产乱子伦手机在线| 亚洲啪啪网| 亚洲精品国产首次亮相| 国产高清免费午夜在线视频| 精品视频第一页| 直接黄91麻豆网站| 国产av无码日韩av无码网站 | 亚洲国产一区在线观看| 免费国产一级 片内射老| 2020久久国产综合精品swag| 性欧美久久| 国产成人精品一区二区三区| 国产av剧情无码精品色午夜| 久久国产拍爱| 欧美日韩导航| 国产簧片免费在线播放| 99视频精品全国免费品| 99热这里只有精品免费| 免费无码网站| 91视频免费观看网站| 色婷婷综合激情视频免费看| 免费一级α片在线观看| 国产超碰一区二区三区| 国产一级小视频| 露脸一二三区国语对白| 5388国产亚洲欧美在线观看| 美女扒开下面流白浆在线试听 | 欧美日韩在线亚洲国产人| 波多野结衣二区| 亚洲妓女综合网995久久| 欧美一级夜夜爽www|