摘要:該文研究了在基于矢量量化的說話人識別方法中采用加權的失真測度對識別率的影響。在采用加權歐氏距離失真測度時,利用特征參數的離散程度來確定權值,提出了基于標準差的加權失真測度和基于方差的加權失真測度。實驗結果表明,在以MFCC為特征參數的說話人識別系統中,使用這兩種算法均可以提高識別率。
關鍵詞: 說話人識別;矢量量化;標準差;方差
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)35-2228-02
A Kind of Speaker Recognition Techonlogy Based on Weighted Vector Quantization
LI Na, CUI Lian-yan, LI Lan-lan
(Liaoning University of Technology, School of Electronics and Informatics Engineering, Jinzhou 121000, China)
Abstract: This article researches the effect of weighted distortion measure to recognition rate in the way of VQ speaker recognition. It uses dispersion degree of the characteristic parameter to ensure the value of weight, and advances weighted distortion measure based on standard deviation and variance. The experiment shows that the two method can increase the correct rate of speaker recognition using “MFCC” as characteristic parameter.
Key words: speaker recognition; vector quantization; standard deviation; variance
基于VQ的說話人識別模型,與其他模型(如GMM)相比具有計算簡單,實時性強的特點,因而得到廣泛的應用。但它的識別率較低,為了提高識別率,人們對基本的VQ方法進行了各種各樣的改進,其中包括兩種途徑:一種是設計一個加權的距離函數,如IHM和PNDM方法;另一種是研究說話者之間的語音特點,從而設計有區分能力的權值,如GVQ方法。本文就第二種方法進行了研究,分別提出了基于方差和基于標準差的加權失真測度,并對這兩種失真測度的性能進行了實驗驗證。
1 基本的VQ識別模型
基于VQ[1]的說話人識別系統,矢量量化起著雙重作用。在訓練階段,從講話者的若干訓練樣本中提取出特征參數,通過LBG算法[2]生成用戶的VQ模板即碼本,使矢量量化碼本與說話人一一對應。在識別(匹配)階段,用所有的碼本對輸入測試序列進行編碼,并計算各自的總平均量化失真:
其中,j表示未知說話人X中第j(j=1,2,…,T)幀的特征向量,Bmi表示第i個說話人的第m個碼字矢量,共有M個碼字,d((Xj,Bmi))為待測矢量Xj和碼本矢量Bmi之間的距離。
然后進行比較,以最小失真的參考模式作為判決對象,即滿足Di最小的那個碼本所對應的人為系統辨認的結果。
2 采用加權失真測度對基本VQ識別模型的改進
在LBG算法中,失真測度常采用歐氏距離:
矢量量化失真測度采用的歐氏距離中,特征矢量的各個分量是等權重的,數據的各維通道參數的分布情況在距離度量中沒有得到反應,直接影響到基于歐氏距離測度的VQ話者模型的識別性能。為此,本文分別提出了基于方差和基于標準差的加權失真測度。
2.1 基于標準差和方差的加權失真測度
基于標準差的加權失真測度[3]實際上是一種加權的歐氏距離。每個話者均有自己的權值矩陣,其中第i個說話人的矩陣為:
第i個說話人的權值矩陣為:
然后得到針對此特征參數的權值:
相應的基于標準差的加權歐氏距離失真測度公式為:
其中,M為碼字的大小,N為說話人個數,rik為第i說話人第個k道參數的平均值,Xj為待識別的第j個特征矢量,K為參數矢量的總維數。
基于方差的加權失真測度[4]只是在計算權值時與基于標準差的加權失真測度不同。其中第i個說話人的方差矩陣為:
第i個說話人的權值矩陣為:
然后依次代入公式(5),(6)即得到基于方差的加權歐氏距離失真測度公式。
2.2 改進的VQ識別模型的實現
本文根據不同說話人所形成碼書的不同分布情況,設計了基于方差和基于標準差的加權失真測度VQ(Weighted Distortion Measure VQ,WDMVQ)。圖1為WDMVQ識別方法的框圖。
圖1 加權失真測度的VQ識別模型
圖1給出了說話人辨認的流程。采用WDMVQ的識別方法與基本的VQ識別方法相似,所不同的是:
1)在訓練階段,在對每個說話人形成碼書后,需根據公式(3)(4)(5)(7)(8)計算出不同說話人基于標準差(方差)的各分量權值;
2)在識別階段,進行匹配時,采用公式(6)來計算加權歐氏距離。
3 實驗結果及討論
本實驗系統數據取自20個人的實驗環境,對于文本無關的說話人識別,每人隨意錄音60秒,根據需要分割成不同長度分別用于訓練和測試。特征參數采用16階的MFCC參數,取幀長20ms(160點),幀移10ms(80點)。碼書大小為32。窗函數為Hamming窗。表1為MFCC參數的各維分量的權值。
根據基于方差和基于標準差的加權失真測度算法得到的系統的識別率如表2所示。
從表2中可以得到如下結論:
1)隨著時間的增加,系統的識別率提高;
訓練時間越長,提取的碼本就越能精確地反映說話人的個性特征,因此系統的識別率越高。當訓練超過30s時,能達到理想的識別效果。
2)采用MFCC為特征參數時,基于標準差WDMVQ的和基于方差的WDMVQ性能優于傳統的VQ。這是因為WDMVQ針對不同分布的各維參數對系統識別性能的不同貢獻,根據標準差(方差)計算出權值,使識別率得到提高。
可見,在文本無關的說話人識別系統中,采用MFCC作為特征參數時,基于標準差的WDMVQ和基于方差的WDMVQ都能明顯提高系統的識別率。
參考文獻:
[1] 江太輝.基于VQ的說話人識別算法與實驗[J].計算機工程與應用,2004(09):77-79.
[2] Pan J S,Lu Z M,Sun S H. An efficient encoding algorithm for vector quantization based on subvector technique. IEEE TRANSACTIONS ON IMAGE PROCESSING,2003,12(3):265-270.
[3] 趙鴻濱,盧瀟,馬麗華.基于加權VQ的說話人識別中權值產生方法的研究[J].通信技術,2008,(02):73-75.
[4] 林強,裘雪紅.基于方差歸一化失真測度的語音識別[J].電子科技,2007(08):38-41.
[5] 劉雅琴,杜海明.基于矢量量化的說話人識別[J].洛陽師范學院學報,2005(05):75-77.
[6] Zhang B, Matsoukas S. MinimumPhoneme Error Based Het-eroscedastic Linear Discriminant Analysis for Speech Recognition[M].in Proc.ICASSP,2005.
[7] Fan N p , Enhance J R. VQ-Based Algorthms for Speech Independent Speaker Identification[M],AVBPA,2003:470-477.