999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

噪聲環境下穩健的說話人識別特征研究

2017-12-01 03:32:53程小偉王健曾慶寧謝先明龍超
聲學技術 2017年5期
關鍵詞:特征環境實驗

程小偉,王健,曾慶寧,謝先明,龍超

?

噪聲環境下穩健的說話人識別特征研究

程小偉,王健,曾慶寧,謝先明,龍超

(桂林電子科技大學信息與通信學院,廣西桂林 541004)

針對噪聲環境下說話人識別率較低的問題,提出一種基于正規化線性預測功率譜的說話人識別特征。首先對語音信號線性預測分析和正規化處理求出語音頻譜包絡,然后通過伽馬通濾波器組得到對數子帶能量,最后對特征參數進行離散余弦變換,得到了一種說話人識別特征正規化線性預測伽馬通濾波器倒譜系數(Regularized Linear Prediction Gammatone Filter Cepstral Coefficient, RLP-GFCC)。仿真結果表明,在噪聲環境說話人辨認試驗中,相比傳統特征美爾頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)和伽馬通濾波器倒譜系數(Gammatone Filter Cepstral Coefficient,GFCC)的系統識別率得到了明顯提高,對噪聲環境的魯棒性得到了增強。

線性預測;正規化;說話人識別;伽馬通濾波器組;魯棒性

0 引言

說話人識別技術是一種重要的生物特征識別技術,應用于身份確認、信息安全、遠程控制等領域[1]。如何提取有效的說話人識別特征是識別技術的關鍵,說話人識別特征要能夠描述說話人聲道特性,有較高的區分度,對外界環境具有較強的魯棒性[2]。

線性預測理論應用于語音信號處理,能夠提供說話人的聲道模型[3],因此,線性預測系數(Linear Prediction Coefficient,LPC)成為比較普遍的說話人識別特征,基于線性預測理論的特征線性預測倒譜系數(Linear Prediction Cepstral Coefficient,LPCC)[4]能夠用于說話人識別特征。這些特征在安靜環境下能夠取得很高的識別率,但對噪聲環境的魯棒性卻很差。梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)[5]是語音識別和說話人識別最有效的特征之一,該特征基于聽覺模型,對噪聲環境具有一定的魯棒性,但在低信噪比環境下識別率仍然較低。為應對噪聲環境下說話人系統識別率較低的問題,研究人員通過對基于人耳耳蝸聽覺模型伽馬通濾波器的研究,提出了用于說話人識別的特征——伽馬通濾波器倒譜系數(Gammatone Filter Cepstral Coefficient,GFCC)[6],經實驗論證該特征在不同背景噪聲環境下可取得比MFCC更好的識別率。

為了進一步提高說話人識別系統對噪聲環境的魯棒性,結合線性預測分析理論和伽馬通濾波器組的特殊性質,本文提出一種新的說話人識別特征,先求出語音信號的線性預測功率譜,并對線性預測功率譜進行正規化處理[7],得到的頻譜代替傳統傅里葉變換功率譜,最后結合特征GFCC的提取方法,得到說話人識別特征正規化線性預測伽馬通濾波器倒譜系數(Regularized Linear Prediction Gammatone Filter Cepstral Coefficient, RLP-GFCC),仿真實驗表明,該特征在噪聲環境下能夠取得比GFCC和線性預測伽馬通濾波器倒譜系數(Linear Prediction Gammatone Filter Cepstral Coefficient, LP-GFCC)更好的系統識別率。

1 語音信號短時功率譜

1.1 線性預測功率譜

傳統語音信號功率譜是通過對語音信號進行加窗分幀,然后對每幀語音信號進行離散傅里葉變換得到其頻譜,即通過式(1)實現:

其中:為離散頻率;()和()分別為加窗函數和語音采樣信號;為離散傅里葉變換點數。本文實驗中加窗函數()采用漢明窗。

一般通過自相關方法[12]求取線性預測系數,即通過式(2)求得:

線性預測功率譜比傳統離散傅里葉變換頻譜更加光滑,能夠較好地表示語音信號的頻譜包絡,同時能提供說話人的聲道模型。

1.2 正規化線性預測功率譜

L. Anders Ekman[7]等在2008年提出了語音信號的正規化線性預測,正規化線性預測比傳統線性預測能更好地描述語音信號的頻譜包絡。

正規化線性預測系數通過式(5)求得:

圖1運用FFT、LP和RLP三種頻譜分析方法生成了頻譜對比圖,使用的語音來自TIMIT語音庫,圖1(b)為圖1(a)中同一幀語音加0 dB信噪比的機槍(machinegun)噪聲。LP和RLP所用階數為=20,RLP中參數=10-10,為了便于觀察,RLP頻譜上移20 dB。從圖1中可以看出,LP譜和RLP能夠體現出短時語音信號的共振峰特性和頻譜包絡。正規化線性預測通過補償方法處理非光滑部分,比傳統線性預測頻譜包絡的估計失真低。

(a) 純凈語言

(b) 帶噪語言

圖1 純凈語音與帶噪語音頻譜對比圖

Fig.1 Comparison of spectrum between clean speech and noisy speech

2 基于線性預測功率譜的特征提取過程

特征LP-GFCC和RLP-GFCC提取過程如圖2所示:

圖2 魯棒性特征提取流程圖

首先對語音信號進行預加重處理,通過高通濾波器,提升高頻分量;然后利用語音信號的短時平穩性,對語音信號進行加窗分幀,本文采用漢明窗;利用上述計算方法求取LP或RLP系數,按照式(3)或式(6)對每組預測系數進行離散傅里葉變換(Discrete Fourier Transform,DFT),得到的能量譜通過64通道的伽馬通濾波器組[15],對子帶能量取對數,最后對子帶對數能量進行離散余弦變換(Discrete Cosine Transform,DCT),得到特征LP- GFCC或RLP-GFCC。

3 實驗分析

本文所用的基線系統是與文本無關的說話人辨認系統,實驗使用的語音來自TIMIT語音庫[16],采樣率是16 kHz,單通道錄音,采樣精度為16 bit,從中選取85個說話人(其中男45人,女40人),每一個說話人有10句語音段,每段語音時長約3 s。訓練模型使用7句語音,測試使用3句語音,總共測試語音255句。說話人識別訓練模型采用高斯混合模型(Gaussian Mixture Model,GMM)。實驗所用噪聲來自noisex-92噪聲庫,語音信號信噪比設為-5、0、5、10、15、20、25、30 dB。

高斯混合模型階數由說話人辨認樣本數量決定,本次實驗樣本數量較少,階數過高會造成過擬合使識別率降低,階數過低不能充分表達說話人的特征空間。實驗使用的參數直接影響系統識別率,文獻[2]的實驗參數在說話人辨認實驗中能夠取得較好的識別率,因此本文采用文獻[2]的實驗參數,實驗1在基線系統上對GMM階數取值做了對比實驗,GMM階數取32時,基線系統性能達到最好。語音信號預加重系數典型取值在0.92~0.97之間,本文取值0.93,采用漢明窗加窗分幀,幀長為32 ms,即512個采樣點,幀移為8 ms,即128個采樣點。實驗中的端點檢測采用基音檢測算法。特征MFCCD取12階靜態MFCC和一階動態特征,總共24維特征參數。在提取說話人識別特征GFCC的過程中,采用64通道伽馬通濾波器組,依照等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB)頻率分布在50 Hz和8 000 Hz之間,對對數子帶能量進行DCT之后,24維系數作為實驗所用的說話人特征。本文實驗特征LP-GFCC和RLP-GFCC線性預測階數為20,RLP-GFCC的參數取固定值10-10。

3.1 實驗1 GMM階數對基線系統影響

本文實驗采用高斯混合模型進行說話人辨認實驗,其中GMM階數直接影響說話人識別系統。實驗中采用高斯混合模型階數分別為4、8、16、32、64,測試語音采用純凈語音,特征使用24維MFCCD作為說話人識別系統特征,實驗結果如表1所示。

表1 GMM階數對基線系統的影響

從表1可以看出,隨著GMM階數的增加,系統識別性能逐漸變好,當階數為32時,識別性能最好,識別率達到98.43%,隨后開始降低。因此對于實驗所用的基線系統,GMM階數取值32時,系統識別率達到最好,本文實驗采用32階GMM。

3.2 實驗2 平穩噪聲環境識別結果

為了驗證平穩噪聲環境下特征LP-GFCC和RLP-GFCC識別的魯棒性,分別用MFCCD、GFCC、LP-GFCC和RLP-GFCC做仿真實驗,四種特征均為24維,平穩噪聲選用白噪聲,信噪比設為30、25、20、15、10、5、0 dB。系統識別率如表2所示。

從表2可以看出,特征LP-GFCC和RLP-GFCC在噪聲環境下系統識別率優于MFCCD,在高噪聲環境下系統識別率稍差于GFCC,在低信噪比時識別率明顯優于特征GFCC,RLP-GFCC特征對噪聲的魯棒性優于LP-GFCC。在0 dB噪聲環境下,四種特征在系統中識別率都很低,在15 dB白噪聲環境下,特征RLP-GFCC的識別率較特征MFCC、GFCC和LP-GFCC分別提高了41.96%、8.23%和3.92%。

表2 白噪聲環境下的特征識別率

3.3 實驗3 非平穩噪聲環境識別結果

為了驗證非平穩噪聲環境下特征LP-GFCC和RLP-GFCC識別的魯棒性,同實驗2的實驗參數,從noisex-92噪聲庫選取pink、babble、machinegun噪聲,信噪比設為30、25、20、15、10、5、0、-5 dB。說話人識別系統仿真結果如圖3~5所示。

從圖3~5仿真結果可以看出,在不同信噪比噪聲環境下,特征LP-GFCC和RLP-GFCC系統識別率明顯高于傳統特征MFCCD和GFCC,特征RLP-GFCC系統識別率稍微高于LP-GFCC,在5 dB 噪聲環境下,LP-GFCC平均識別率比傳統特征MFCCD和GFCC分別高出39.48%和26.80%。由于本文實驗在求取特征RLP-GFCC時,參數取固定值10-10,特征RLP-GFCC系統識別率稍微高于特征LP-GFCC。文獻[7]關于正規化線性預測功率譜,對參數提出了一種自適應方法,參數是隨基音變化的數,能夠減少傳統線性預測對語音信號造成的失真。

圖3 粉紅噪聲環境下的特征識別率

圖4 嘈雜噪聲環下的境特征識別率

圖5 機槍噪聲環境下的特征識別率

3.4 實驗4 說話人識別特征計算時間對比

表3列舉了特征MFCCD、GFCC、LP-GFCC、RLP-GFCC的平均計算時間,測試語音時長為5 s,每種特征測試20次,最后取平均時間。實驗仿真軟件平臺為Matlab R2014a,計算機CPU為酷睿i3-2310,主頻為2.1 GHz。雖然特征LP-GFCC和RLP-GFCC的計算時間較MFCC、GFCC稍長,但在性能好的計算機實驗平臺上計算時間還會縮短,能夠滿足一定的實時性。在下一步的研究工作中,需要改進特征的計算復雜度,期望能夠有更好的實時性能。

表3 說話人識別特征計算時間對比結果

4 結論

環境噪聲對語音信號影響很大,不僅影響語音質量以及可懂度,而且造成語音識別和說話人識別系統識別率的迅速下降。本文通過結合線性預測分析理論和伽馬通濾波器的特殊性質,提出了說話人識別特征LP-GFCC和RLP-GFCC,利用TIMIT語音庫和noisex-92噪聲庫,Matlab仿真實驗表明,這兩種特征在說話人識別系統中性能優于傳統特征MFCC和GFCC,提高了系統的說話人識別率和對噪聲環境的魯棒性。但RLP-GFCC的識別性能稍微優于特征LP-GFCC,補償參數對說話人識別系統的識別率影響較大,因此在后續的說話人識別研究工作中,可以引入相關文獻中的自適應方法。

[1] 吳朝暉. 說話人識別模型與方法[M]. 北京: 清華大學出版社, 2009. WU Chaohui. The model and method of speaker recognition[M]. Beijing: Tsinghua University Press, 2009.

[2] 蔣曄. 基于短語音和信道變化的說話人識別研究[D]. 南京: 南京理工大學, 2013. JIANG Ye. Research on speaker recognition over short utterance and varying channels[D]. Nanjing: Nanjing University of Science and Technology, 2013.

[3] Pati D, Prasanna S R M. Processing of linear prediction residual in spectral and cepstral domains for speaker information[J]. International Journal of Speech Technology, 2015, 18(3):1-18.

[4] 周燕, 胡志峰. 基于免疫聚類的RBF網絡在說話人識別中的應用[J]. 聲學技術, 2010, 29(2): 184-187. ZHOU Yan, HU Zhifeng. Application of immune algorithm based RBF network to human speaker recognition[J]. Technical Acoustics, 2010, 29(2): 184-187.

[5] 林琳, 陳虹, 陳建. 基于魯棒聽覺特征的說話人識別[J]. 電子學報, 2013, 41(3): 619-624. LIN Lin, CHEN Hong, CHEN Jian. Speaker recognition based on robust auditory feature[J]. Acta Electronica Sinica, 2013, 41(3): 619-624.

[6] 王玥, 錢志鴻, 王雪, 等. 基于伽馬通濾波器組的聽覺特征提取算法研究[J]. 電子學報, 2010, 38(3): 525-528. WANG Yue, QIAN Zhihong, WANG Xue, et al. An auditory feature extraction algorithm based on γ-tone filter-banks[J]. Acta Electronica Sinica, 2010, 38 (3): 525-528.

[7] Ekman L A, Kleijn W B, Murthi M N. Regularized linear prediction of speech[J]. IEEE Transactions on Audio Speech & Language Processing, 2008, 16(1): 65-73.

[8] Bastys A, Kisel A, Alna B. The use of group delay features of linear prediction model for speaker recognition[J]. Informatica, 2010, 21(1): 1-12.

[9] Bastys A, Kisel A, Alna B. The use of group delay features of linear prediction model for speaker recognition[J]. Informatica, 2010, 21(1): 1-12.

[10] Saeidi R, Alku P, Backstrom T. Feature extraction using power-law adjusted linear prediction with application to speaker recognition under severe vocal effort mismatch[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2016, 24(1): 42-53.

[11] Makhoul J. Linear prediction: a tutorial review. Proc IEEE 63: 561-580[J]. Proceedings of the IEEE, 1975, 63(4): 561-580.

[12] 宋知用. MATLAB在語音信號分析與合成中的應用[M]. 北京: 北京航空航天大學出版社, 2013. SONG Zhiyong. Application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.

[13] Shimamura T, Nguyen N D. Autocorrelation and double autocorrelation based spectral representations for a noisy word recognition system[C]// INTERSPEECH 2010, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September. 2010.

[14] Hanil?i C, Kinnunen T, Erta? F, et al. Regularized all-pole models for speaker verification under noisy environments[J]. IEEE Signal Processing Letters, 2012, 19(3): 163-166.

[15] D. P. W. Ellis (2009). Gammatone-like spectrograms. http://www. ee.co-lumbia.edu/~dpwe/resources/matlab/gamatonegram/.

[16] Li Q, Reynolds D A. Corpora for the evaluation of speaker recognition systems[C]// Acoustics, Speech, and Signal Processing, 1999. on 1999 IEEE International Conference. IEEE Computer Society, 1999: 829-832.

A study of robust speaker recognition feature under noisy environment

CHENG Xiao-wei, WANG Jian, ZENG Qing-ning, XIE Xian-ming, LONG Chao

(School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

In order to solve the problem that speaker recognition rate is low under noisy environment, a speaker recognition feature based on regularized linear predictive power spectrum is proposed. The method uses linear prediction analysis and regularization of speech signal to get speech spectral envelope and then to get logarithmic sub-band energy through the Gammatone filter group, and finally uses discrete cosine transform to compute feature parameters to get a kind of speaker recognition feature named regularized linear predicted Gammatone filter cepstral coefficients (RLP-GFCC). The simulation results show that the recognition rate of the system is significantly improved in comparison with the systems of traditional feature MFCC and GFCC under noisy environment, and the robustness of the system to noise environment is improved.

linear prediction; regularization; speaker recognition; Gammatone filter bank; robustness

TN912.3

A

1000-3630(2017)-05-0479-05

10.16300/j.cnki.1000-3630.2017.05.014

2016-12-06;

2017-04-01

國家自然科學基金項目(61461011); 教育部重點實驗室2016年主任基金項目資助(CRKL160107); 廣西自然科學基金(2014 GXNSFBA118273)項目。

程小偉(1990-), 男, 河南漯河人, 碩士研究生, 研究方向為語音增強和說話人識別。

龍超, E-mail: chengzai05@163.com

猜你喜歡
特征環境實驗
記一次有趣的實驗
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
環境
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产午夜看片| 国产自无码视频在线观看| 伊人色在线视频| 亚洲国产天堂久久综合226114| 成人亚洲国产| 国产精品熟女亚洲AV麻豆| 久热中文字幕在线| 国产亚洲视频免费播放| 国产精品免费p区| 毛片大全免费观看| 亚洲香蕉久久| 人人91人人澡人人妻人人爽| 99热在线只有精品| 玩两个丰满老熟女久久网| 色婷婷天天综合在线| 人人91人人澡人人妻人人爽| 久久久噜噜噜| 亚洲天堂精品视频| 久草网视频在线| 久久国语对白| 国产乱人伦AV在线A| 亚洲激情99| 久久这里只有精品66| 国产欧美在线| 国产主播喷水| 免费观看国产小粉嫩喷水| 国产网站免费观看| 国产亚洲精品自在线| 国产91成人| 欧美另类图片视频无弹跳第一页| 亚洲中久无码永久在线观看软件| 黄色三级毛片网站| 久久美女精品国产精品亚洲| 伊大人香蕉久久网欧美| 福利视频一区| 首页亚洲国产丝袜长腿综合| 亚洲最黄视频| 波多野结衣在线se| 亚洲av片在线免费观看| 欧洲精品视频在线观看| 天堂在线亚洲| 国产在线八区| 91福利在线看| 亚洲成人手机在线| 久久先锋资源| 国产另类乱子伦精品免费女| 亚洲天堂精品视频| 日日拍夜夜嗷嗷叫国产| 中文字幕无码制服中字| 国产91蝌蚪窝| 欧美激情视频一区| 亚洲欧美成人网| 国产欧美高清| 国产产在线精品亚洲aavv| 精品少妇人妻无码久久| 国产日韩精品欧美一区灰| 精品国产中文一级毛片在线看| 一级毛片免费不卡在线视频| 国产精品欧美在线观看| 国产在线日本| 在线视频一区二区三区不卡| 婷五月综合| 国产精品自拍露脸视频| 亚洲综合第一区| 97色婷婷成人综合在线观看| 日韩欧美网址| 国产黄网永久免费| 国产乱人伦精品一区二区| 日韩大片免费观看视频播放| 视频一区亚洲| 露脸国产精品自产在线播| 欧洲在线免费视频| 无码在线激情片| 中文字幕第1页在线播| a级毛片免费网站| 国产av无码日韩av无码网站 | 国产凹凸一区在线观看视频| 日韩无码视频播放| 日韩欧美国产成人| 中文无码日韩精品| 日韩AV无码免费一二三区| 91久久精品国产|