

摘 要: 為了進一步提升i?vector說話人識別模型的系統性能,探討了基于i?vector的說話人識別系統中訓練時長、男女比例和高斯混合度對系統識別性能的影響。針對訓練時長、男女比例和高斯混合度設置了一組實驗,結合目前最流行的語音識別工具Kaldi進行驗證,得出i?vector說話人識別算法的最佳參數,為以后的基于i?vector說話人識別算法研究提供數據依據。
關鍵詞: 說話人識別; i?vector; Kaldi; 訓練時長
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)14?0001?03
Research on training duration of speaker recognition algorithm based on i?vector
MA Ping, HUANG Hao, CHENG Luhong, YANG Mengmeng
(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
Abstract: In order to further enhance the system performance of speaker recognition model based on i?vector, the effect of the training time, the sex ratio and Gaussian mixture in the speaker recognition system based on i?vector on the performance of system identification is discussed in this paper. In this article, a set of experiments is set in allusion to the training time, the sex ratio and Gaussian mixture, and is verified in combination with the most popular voice recognition tool Kaldi. The best parameters of the speaker recognition algorithm based on i?vector were obtained, which provided a data basis for later research on the speaker recognition algorithm based on i?vector.
Keywords: speaker recognition; i?vector; Kaldi; training duration
0 引 言
說話人識別是指計算機通過對說話人語音信號進行分析處理,進而提取能反映特定說話人生理和行為的語音特征參數來自動識別說話人身份的技術。該技術已廣泛應用于國家安全、司法鑒定、電話銀行、語音撥號等諸多領域。說話人識別根據識別目標的不同,可分為說話人辨別和說話人確認兩類,本文主要研究基于i?vector說話人辨認模型來分析和測試語料時長、男女比例和高斯混合度之間的關系。
當前由NIST組織的比較流行的國際說話人評測系統,主要是建立在以混合高斯模型?通用背景模型(Gaussian Mixture Model?Universal Background Model,GMM?UBM)[1]的基礎上。隨后學者們在此基礎上進行了改進,從而得出高斯混合模型超矢量?支持向量機(Gaussian Mixture Model Super?support Vector Machine,GSV?SVM)[2]、聯合因子分析(Joint Factor Analysis,JFA)[3]及i?vector(identity vector)[4]等說話人建模技術,其中i?vector識別系統已成為當今最前沿最有效的說話人識別技術,其性能明顯優于GSV?SVM和JFA這兩種識別系統。通過總結以往的研究成果發現在訓練和提取i?vector時,對語料的時長、高斯混合度及男女比例不是太關注。但在實際的實驗中,提取i?vector特征的語料參數也非常重要,需要經過多次測試比較,找到訓練時長、混合度、男女比例和系統性能之間的關系,從而減少訓練時間和工作量,為以后的研究提供一個基本的數據依據。
1 基于i?vector的說話人識別系統
1.1 i?vector基本原理
基于身份認證矢量i?vector說話人辨別系統的基本思想是假設說話人信息以及信道信息同時處于高斯混合模型高維均值超矢量(Super Vector,SV)空間中,通過利用在這個超矢量空間中訓練包括說話人信息和信道差異的全差異(Total Variability,TV)空間,將每個說話人語音數據的均值超矢量S分解為:
[S=m+Tω] (1)
式中:S代表高斯混合模型的高維均值超矢量;m代表與特定說話人信息和信道信息無關的一個超矢量;T為全差異空間,將高維的高斯混合模型均值超矢量在該子空間上進行投影,得到低維的總體變化因子矢量[ω],[ω]是包含整段語音中的說話人信息和信道信息的一個全差異因子,即i?vector。其實現框圖如圖1所示。
基于GMM?UBM的說話人系統的通用背景模型(UBM)是由大量說話人的語料通過期望最大化(EM)[5]訓練得到的,其代表著統計平均的說話人信息和信道信息,在此基礎上,將注冊語料通過最大后驗概率算法(MAP)[6]自適應得到目標說話人模型。
1.2 i?vector特征提取
對于給定的訓練語音數據s,首先根據訓練所得的UBM提取Baum?Welch統計量:
式中:[Ns[c]]和[fs[c]]為語音s特征參數(維度為D)對于混合度為C的UBM的零階和一階統計量;[γc(ot)]為觀察矢量[ot]對于給定UBM的第c個混合度的后驗概率的輸出;語音s所有混合度的一階統計量[fs=(f1s,f2s,…,f(c)s)]。為了便于計算,先對一階統計量和均值進行歸一化[7]:
[fsc←fsc-Nscmc] (4)
[mc←0] (5)
然后再對一階統計量和全差異空間T用UBM的協方差進行規整,假設UBM的協方差矩陣[Σ[c]]為對角正定矩陣,如下:
式中:[Σ-1/2[c]]是矩陣[Σ[c]]逆的Cholesky分解[8];T[c]為全差異空間T(維度為D×M)的子矩陣,[T=(T(1)′,T(2)′,…,T(c)′)]。根據估計出的統計量提取i?vector如下:
式中:[Ls]是一個M×M的矩陣;[ωs]為語音s的i?vector特征。在已知全差異空間T的前提下,就可以求出任何語音的i?vector特征,所以準確估計全差異空間T是求i?vector的關鍵。
1.3 全差異空間T的構建
全差異空間T包含了說話人信息和信道信息兩者在空間上的統計分布,可以通過大量的語音利用EM算法訓練得到。首先初始化T,對s條訓練語音數據計算以下變量:
式中:[fsc,Nsc,ωs]是由式(2)、式(3)、式(9)得到的。T的更新過程可以利用式(13)實現:
[Tc=EcF-1c] (13)
1.4 余弦距離打分及系統性能評價
余弦距離打分實際上是一種對稱式的核函數分類器,也就是說目標矢量與測試矢量交換后不影響打分結果。通過計算目標說話人i?vector矢量[ωtar]和測試i?vector矢量[ωtst]的余弦距離分數作為判決分數,再與閾值[θ]進行比較,從而得到結果,如式(14)所示:
說話人識別系統中經常采用識別率對系統性能進行評價,其計算公式如下:
[ρ=正確識別個數總的識別數×100 %] (15)
2 實驗條件設置
本文在Linux操作系統服務器版Ubuntu 12.04.4下以Kaldi語音識別工具[9]為平臺進行仿真。Kaldi作為當前最新也是最流行的語音識別工具,它是由劍橋大學開發的一個開源工具包,由C++編寫而成且被Apache License v2.0進行授權許可。仿真實驗采用微軟的語音庫MSRA。該語音庫包括了100個男性和100個女性說話人發聲的干凈單聲道語音,每人分別為150句,每條語音的長度大約在8~10 s,其數據采樣率為16 b/16 kHz。實驗中選男女各80人作為訓練集,其余的男女各20人作為測試集。
本實驗的目的在于探討不同時長及混合度與i?vector識別系統性能之間的關系,因此在實驗中不考慮信道因素、噪聲因素對說話人識別系統的影響。在進行語音特征提取時,選用預加重的系數是0.95,采用Hamming窗,幀移為10 ms,幀長為30 ms,并選用由Mermelstein和Davis提出的Mel倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)特征,MFCC特征維數為12,外加其一維能量以及一、二階差分和能量,所以MFCC的總維數為42。在進行i?vector訓練時,通過選擇訓練語句的條數來設定時長,訓練語句平均取自男女各80個說話人中,訓練時長分別設定為1 600條,4 800條,8 000條,11 200條,14 400條,17 600條,20 800條,24 000條。為了更精確地討論高斯混合度和訓練時長對i?vector的影響,將高斯混合度數分別設定為64,128,256,512,1 024,2 048。在此基礎上,實驗還設定了一組不同男女比例混合度對i?vector識別系統的影響,分別為女性說話人占總數的0%,20%,40%,60%,80%,100%。
3 實驗結果與分析
根據訓練語句的多少,依次由少到多記為1~8,在測試階段,用男女各20個說話人的150條語句作為測試集進行驗證,通過式(15)計算出不同時長和高斯混合度的識別率,實驗結果如表1所示。
從表1知,當混合度在512維,訓練語句在14 000左右時效果最好,因此固定時長和高斯混合度的維數,通過調節男女混合比例來進行測試,其結果見表2。
在訓練時長和高斯混合度一定的情況下,男女混合的比例對i?vector說話人識別系統的性能也有較大的影響;從實驗的結果可以看出,當女生的比例占所有總數的60%時,識別效果最優。因此在今后的i?vector說話人識別系統中,要充分考慮語音數據的男女比例。
4 結 語
本文旨在通過設置不同的訓練語音時長和高斯混合度的維數及男女比例,在基于i?vector的說話人識別系統上探討了三者對i?vector的影響,通過實驗發現,高斯混合度和語音時長之間存在著對應關系,為今后說話人識別研究提供了一個基本的數據依據。本實驗只是探討了單一信道的語音,沒有考慮信道和噪聲對系統的影響,在今后的說話人識別測試中,可以考慮以上兩個因素對系統性能的影響,討論在這兩種情況下,高斯混合度和語音時長及男女混合比例之間的關系。
注:本文通訊作者為黃浩。
參考文獻
[1] REYNOLDS D A, QUATIERI T F, DUNN R. Speaker verification using adapted gaussian mixture model [J]. Digital signal processing, 2000, 10(1/2/3): 19?41.
[2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Support vector machines using GMM supervectors for speaker verification [J]. IEEE signal processing letters, 2006, 13(5): 308?311.
[3] KENNY P, OUELLET P, DEHAK N, et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio, speech and language processing, 2008, 16(5): 980?988.
[4] DEHAK N, KENNY P, OUELLET P, et al. Front?end factor analysis for speaker verification [J]. IEEE Transactions on audio, speech and language processing, 2011, 19(4): 788?798.
[5] GHAHRAMANI Z, HINTON G. The EM algorithm for mixtures of factor analyzers: CRG?TR?96?1 [R]. Toronto: Department of Computer Science, University of Toronto, 1966.
[6] GAUVAIN J L, LEE C H. Maximum a posterior estimation for multivariate Gaussian mixture observations of Markov chains [J]. IEEE transactions on speech and audio processing, 1994, 2( 2): 291?298.
(上接第3頁)
[7] GLEMBEK O, BURGET L, MAěJKA P, et al. Simplification and optimization of I?vector extraction [C]// Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing. Prague: IEEE, 2011: 4516?4519.
[8] SEEGER Matthias. Low rank updates for the cholesky decomposition [EB/OL]. [2010?12?04]. http://upseeger.epfl.ch/papers/cholupdate.pdf.
[9] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [EB/OL]. [2013?02?03]. http: //blog.csdn.net/jiangyangbo/article/.
[10] 方昕,李輝,劉青松.利用i?vectors構建區分性話者模型的話者確認[J].小型微型計算機系統,2014(3):685?688.
[11] 栗志意,張衛強,何亮,等.基于總體變化子空間自適應的i?vector說話人識別系統研究[J].自動化學報,2014(8):1836?1840.