劉建航 楊喜鵬 李世寶 陳海華 黃庭培
(中國石油大學(華東)計算機與通信工程學院 山東 青島 266580)
干擾空間投影在本征音說話人自適應中的應用
劉建航 楊喜鵬 李世寶 陳海華 黃庭培
(中國石油大學(華東)計算機與通信工程學院 山東 青島 266580)
本征音自適應是一種快速高效的自適應算法,它被廣泛應用到說話人識別中,但由于同一個說話人的本征音自適應的說話人因子之間的信道特征和噪聲存在差異,導致了算法的識別精度降低。針對這一問題,提出基于干擾空間投影的本征音說話人識別(EV-NSP)算法。將訓練語音通過主成分分析(PCA)方法計算得到干擾投影矩陣;將投影矩陣應用到生成本征音矢量算法中;利用最大似然估計算法自適應地得到說話人因子的估計值。實驗結果表明,EV-NSP算法相對于傳統的本征音自適應算法識別性能有了較大的提高。
本征音自適應 干擾空間投影 主成分分析 信道失配
近年來,說話人識別算法被廣泛地應用到各個領域當中,在語音識別領域承擔著關鍵角色。其中自適應算法是說話人識別算法中的重要組成部分,它通過消除訓練說話人特征參數之間的不匹配,提高算法的識別性能。利用子空間的說話人自適應的算法[1-2]能夠在適應數據較少時仍能取得較好的性能,是目前連續語音的研究熱點。在自適應模型參數中的消除語義和信道的信息,是目前說話人識別算法中的關鍵問題。由于訓練集合測試集中均包含語義信息,且說話人特征是不受文本約束的,所以語義信息的差異性會導致說話人特征分布存在差異,影響說話人識別的精確度。本征音自適應[3-4]能夠有效地將說話人相關SI(speaker independent)調整為說話人無關SD(speaker dependent),有效地減少說話人語義干擾。
本征音自適應技術的目的是在訓練說話人因子時,利用最大似然準則或最大后驗概率,將SI調整至SD,消除語義對說話人算法的影響。文獻[5]提出的基于2D-PCA的本征音自適應算法有較好的識別效果,但其在語料較少時的效果反而不如傳統的本征音,同時復雜度較高。文獻[6]應用L1約束的Lasso稀疏解、L2約束的穩定解以及L1和L2約束彈性網絡的正則化方法,優化了本征音的訓練參數過擬合問題。文獻[7]在本征音自適應前利用特征補償算法獲得無信道干擾語音特征矢量,在信道的信噪比較低時的語音環境中取得較好的識別效果。文獻[8]將本征音和聯合因子分析算法JFA(Joint factor analysis)結合,利用聯合因子中的特征映射將干擾信息和話者信息在低維空間進行分離。
目前信道失配已經成為影響本征音自適應說話人識別算法的識別精度的主要問題。在解決本征音自適應算法的信道失配問題上,模型域算法相對于特征域算法具有更好的補償效果。目前模型域去除信道干擾的方法主要有模型合成、聯合因子分析[9]、干擾特征投影NAP(nuance attribute projection)[10-11]以及線性判決分析等,其中NAP具有信道補償效果好的優點被廣泛用于說話人信道補償中,文獻[12]將NAP作為一種解決i-vector中的信道失配的算法。文獻[13]將NAP算法和SVM算法分開應用,將NAP作為一種前端的特征補償算法,結合高斯混合模型建立說話人確認算法。
本文借鑒文獻[13]中的方法,結合高斯混合模型,利用NAP算法中的干擾空間投影方法來解決本征音中的信道失配問題。將特定訓練集的信道信息矩陣結合主成分分析法生成干擾投影空間矩陣,并利用該空間矩陣對語音均值矢量進行逐條干擾投影,生成無信道干擾的語音特征矢量,最后結合最大似然估計算法,估計出本征音的說話人因子。該方法能夠準確估計說話人的特征參數,有效地提高了本征音算法的抗干擾能力。圖1為本文算法(EV-NSP)的流程圖。在離線操作中首先訓練SD模型和一個SI模型,將生成的模型語音進行干擾空間處理,將處理過的特征模型使用PCA算法找到特征值最大的K個本征音,在線階段利用語音數據和語音的SI模型自適應得到與本征音所對應的說話人因子,即圖中的權重W。

圖1 算法流程圖

(1)
式(1)的維數為D×C,S個說話人的矢量可以定義為M={μ(s),s=1,2,…,S},μS處于一個說話人空間中,該空間包含一個說話人的所有信息,對M矢量利用主成分分析PCA的方法將找到S個基矢量,記為e(1…k…S),其中e(k)就是第k個本征音。
假設所有的高斯矢量都落入一個K維的干擾空間(0 (2) 圖2 本征音干擾空間投影 利用訓練數據中標注信息的建立信道關聯矩陣W,其表示每一條語音之間的信道關聯性,W的形式如式子: (3) Z=diag(W·I)-W (4) 式中:I為全是1的列矢量。計算 KZKV=KVΛ (5) 按照PCA的方法求解式(5)中的廣義特征值Λ和廣義特征向量V,通常選取的特征值個數為幾個到十幾個,并將這些特征值所對的特征矢量V作為包含信道信息的矩陣,規整V:X=A·V,并由于信道投影矩陣與噪聲投影矩陣的和是單位矩陣I,則計算投影空間矩陣如下: P=I-XXT (6) 得到說話人干擾空間投影矩陣P。假設得到訓練數據μ={μ1,μ2,…,μN},則投影數據為μ′如下: (7) 式中:N為語音的幀數,P為投影矩陣。 自適應的目的是找到一組權值因子坐標w(1),w(2),…,w(k),使式(1)成立。采用最大似然準則和最大期望EM(Expectation Maximization)算法,自適應的過程等同于求解一個最優化問題。假設自適應的數據為O={o1,o2,…,oT},則無信道失配數據O′為: (8) 求解系數說話人因子x(s′)公式如下: (9) 式中:λn(t)是屬于說話人無關模型的第n個高斯分量的后驗概率,P為干擾空間投影矩陣。 將式(9)對x求導,令導數為0,能夠計算出說話人矢量的最大似然估計值: (10) 式(10)即為無信道失配的說話人因子最大似然本征估計。 本文語音數據集采用NIST08部分語音以及實測語音共100條,每條語音時長約2 min,模型混合度為256。訓練高維空間映射矩陣P時,選取NIST08中的帶有標注的測試語音和訓練語音以及部分實測語音,訓練P矩陣的實測語音中的信道干擾來自不同強度的高斯白噪聲和設備差異,并將所加的高斯白噪聲和錄制設備進行標注,用于計算P矩陣。對于所有的訓練和測試語音,使用短時過零率及短時能量作為獲取語音端點的方法,并提取13維MFCC及其一階差分和二階差分共39維參數作為特征向量。 一般衡量說話人確認算法有效性時一般采用等錯誤率EER(Equal error rate)、檢測代價函數DCF(Detection cost function)、DET圖(Detection error trade-off)等評價手段,本文采用了等錯誤率、DET圖以及最小檢測代價函數(MinDCF)作為算法的評價指標。DCF可以用以下式子表示: Cfv·FR·Ptar+Cfa·FA·Pimp (11) 式中:Cfv為錯誤拒絕的代價;Cfa為錯誤接受的代價;Ptar為真實說話人出現的先驗概率;Pimp為冒充的說話人出現的先驗概率。一般的NIST數據集中在評測任務時定義Cfv=10,Cfa=1,Ptar=0.01,Pimp=0.99。 圖3為算法DET曲線,刻畫了識別算法在兩個數據集中分別采用EV和NSP-EV的性能四條曲線從上到下分別為Reality data EV、Reality data EV-NVP、NIST08 EV以及NIST08 NSP-EV。NIST08 EV表示輸入語音數據集為NIST08,識別算法為傳統本征音自適應算法;NIST08 NSP-EV表示語音數據集使用NIST08,識別算法為基于擾動空間投影的本征音算法;Reality data EV表示語音數據集使用實測數據,識別算法為傳統本征音自適應算法;Reality data EV-NVP表示語音數據集使用實測數據,識別算法為基于擾動空間投影的本征音算法。圖3中的曲線離原點越近,表示識別性能越好,圖中的錯誤接受率FR(False Rejection rate)和錯誤拒絕率FA(False Acceptance rate)相等點為算法等錯誤率。由圖知,同樣的數據集中使用EV-NVP方法能夠有效地提高算法性能,并且使用NIST08語音數據集的算法性能要由于使用實測數據。 圖3 算法DET曲線 表1為針對兩種數據集本征音矢量選取不同數量時的等錯誤率比較。NIST08 ERR表示使用NIST08數據集在不同矢量數量時的等錯誤率。RD EER表示使用實測數據在不同矢量數量時的等錯誤率。從表中能看出,算法的本征音矢量數量為16時算法識別性能達到最優。過高的本征音矢量個數會引起過擬合問題,過低的本征音矢量個數會引起欠擬合問題。 表1 兩種數據集本征音個數 表2為GMM、EV以及NSP-EV三種算法在兩種數據集中的EER和MinDCF比較,其中EV和NSP-EV兩個本征音矢量個數為16。其中N-MinDCF表示使用NIST08數據集的算法MinDCF ,R-MinDCF表示使用實測數據的算法MinDCF。實驗結果表明基于NSP-EV的說話人確認算法性能要明顯優于其他兩個算法,在兩個數據集中均取得了較好的識別效果。相對于傳統的本征音自適應算法,本文的NSP-EV算法在實測數據中相比于傳統的GMM系統算法的EER降低了7%左右,在NIST08數據集中相比于傳統的GMM系統算法的EER降低了5%左右。在實測數據和NIST08兩個數據集中與傳統的GMM算法相比,MinDCF分別降低了12.46%和30.54%。 表2 3種算法的EER和MinDCF 本文提出一種基于本征音的干擾空間投影方法,為解決本征音自適應說話人識別中的信道失配問題,本文干擾空間投影方法引入本征音自適應算法中,在生成本征音之前對語音數據逐條的進行干擾投影,消除了信道失配的影響。同時因為本征音對說話人語音特征矢量進行特征分解,消除了說話人語義干擾,在實測語音和NIST08中均取得較好的識別效果。 [1] Li H S, Liu J, Liu R S. Technology of speaker adaptation in speech recognition and its development trend[J]. Acta Electronica Sinica, 2003, 31(1):33-36. [2] 齊耀輝, 潘復平, 葛鳳培,等. 鑒別性最大后驗概率線性回歸說話人自適應研究[J]. 北京理工大學學報, 2015(9):946-950. [3] Kuhn R, Junqua J C, Nguyen P, et al. Rapid speaker adaptation in eigenvoice space[J]. Speech & Audio Processing IEEE Transactions on, 2000, 8(6):695-707. [4] 屈丹, 楊緒魁, 張文林. 特征空間本征音說話人自適應[J]. 自動化學報, 2015, 41(7):1244-1252. [5] Jeong Y, Kim H S. New speaker adaptation method using 2-D PCA[J]. Signal Processing Letters IEEE, 2010,17(2):193-196. [6] 張文林, 張連海, 牛銅,等. 基于正則化的本征音說話人自適應方法[J]. 自動化學報, 2012, 38(12):1950-1957. [7] Lü Gang, Zhao Heming. Joint factor analysis of channel mismatch in whispering speaker verification[J]. Archives of Acoustics, 2012, 37(4):555-559. [8] 潘鐳, 郭武, 李軼杰,等. 基于本征音因子分析的短時說話人識別[J]. 數據采集與處理, 2009, 24(4):449-452. [9] 張慶芳, 趙鶴鳴, 龔呈卉. 基于因子分析和特征映射的耳語說話人識別[J]. 數據采集與處理, 2016, 31(2):362-369. [10] Campbell W M, Sturim D E, Reynolds D A, et al. SVM Based Speaker Verification using a GMM Supervector Kernel and NAP Variability Compensation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. IEEE Xplore, 2012. [11] Yifrach A, Novoselsky E, Solewicz Y A, et al. Improved nuisance attribute projection for face recognition[J]. Pattern Analysis and Applications, 2016,19(1):69-78. [12] Dehak N, Kenny P J, Dehak R, et al. Front-End Factor Analysis for Speaker Verification[J].IEEE Transactions on Audio Speech & Language Processing, 2011,19(4):788-798. [13] 郭武, 戴禮榮, 王仁華. 采用主成分分析的特征映射[J]. 自動化學報, 2008,34(8):876-879. APPLICATIONOFNUISANCESPACEPROJECTIONINEIGENVOICESPEAKERADAPTATION Liu Jianhang Yang Xipeng Li Shibao Chen Haihua Huang Tingpei (CollegeofComputerandCommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,Shandong,China) Eigenvoice adaption is a fast and efficient adaptive algorithm which is widely used in speaker recognition. However, the speaker factor of eigenvoice adaption from the same speaker has different channel characteristics and noise feature, thus reduced the recognition accuracy. To solve this problem, we propose an eigenvoice speaker recognition algorithm based on nuisance space projection (EV-NSP). We calculated the nuisance space projection matrix by principal component analyzing training data, and then run the eigenvoice vector algorithm by using projection matrix. The maximum likelihood estimation algorithm was used to adaptively estimate the speaker factor. Experimental results indicate that EV-NSP algorithm have better performance compared with traditional adaptive eigenvoice algorithm. Eigenvoice adaption Nuance space projection PCA Channel mismatch 2017-02-28。國家自然科學基金青年基金項目(61601519,61402433);山東省自然科學基金項目(ZR2014FM017);青島市科技創新計劃項目(15-9-80-jch)。劉建航,副教授,主研領域:車聯網,模式識別。楊喜鵬,碩士生。李世寶,副教授。陳海華,博士。黃庭培,博士。 TP3 A 10.3969/j.issn.1000-386x.2017.11.035

2 本征音的干擾空間投影



3 基于干擾空間投影的本征音自適應



4 實驗性能分析



5 結 語