999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大似然可變子空間的快速說話人自適應方法

2012-09-19 11:30:26張文林張連海李弼程
電子與信息學報 2012年3期
關鍵詞:方法模型

張文林 牛 銅 張連海 李弼程

(解放軍信息工程大學信息工程學院 鄭州 450002)

1 引言

在語音識別中,說話人相關(Speaker Dependent,SD)模型的識別性能比說話人無關(Speaker Independent,SI)模型要好得多[1]。然而實際中,由于難以獲得充足的訓練數(shù)據(jù),直接訓練SD模型往往是不現(xiàn)實的。對于一個實用的連續(xù)語音識別系統(tǒng),需要利用少量的說話人相關數(shù)據(jù)對SI模型進行自適應得到SD模型,從而提高系統(tǒng)的識別性能。

說話人自適應方法通常可以分為三大類[2]:基于最大后驗概率(Maximum A Posteriori,MAP)的方法、基于線性變換的方法和基于說話人聚類的方法。在基于MAP的方法中,假設SD模型參數(shù)服從某種先驗分布,利用給定的自適應數(shù)據(jù)對模型參數(shù)進行最大后驗估計,從而得到最大后驗意義下的SD模型;這種方法具有良好的漸近性能,當訓練數(shù)據(jù)越來越多時,可以得到較精確的SD模型。基于線性變換的方法,典型的代表是最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)[3],其基本原理是在最大似然準則下,估計一組線性變換對 SI模型參數(shù)進行變換得到 SD模型;相比MAP自適應方法,這種方法需要的自適應數(shù)據(jù)量較少,但漸近性能較差。而基于說話人聚類的方法則利用說話人之間相關性,通過訓練集中SD模型參數(shù)的某種線性組合來逼近新的 SD模型參數(shù)。相比于前兩類方法,這類方法需要估計的參數(shù)數(shù)量最少,適合于極少量自適應數(shù)據(jù)下的快速說話人自適應,其典型代表是基于本征音(Eigen Voice,EV)[4]的自適應方法和基于參考說話人加權(Reference Speaker Weighting,RSW)[5,6]的自適應方法。在本征音自適應方法中,通過對訓練集中的SD 模型參數(shù)進行主分量分析(Principal Component Analysis,PCA),找到SD模型參數(shù)的一組基;在自適應階段,將新的SD模型參數(shù)限制在這組基所張成的子空間中,通過估計SD模型的坐標,從而達到快速說話人自適應的目的。而在RSW 方法中,用若干參考說話人模型參數(shù)的線性組合來逼近當前說話人相關模型。在文獻[6]提出的可變參考說話人加權(Variable Reference Speaker Weighting,VRSW)算法中,在自適應階段,根據(jù)“說話人系數(shù)”的大小動態(tài)選取與當前說話人最相似的若干個SD模型參數(shù),進而重新計算其線性組合來逼近當前說話人相關模型。

近年來,盡管出現(xiàn)了各種基于2D-PCA[7]及基于張量分解[8]的說話人自適應方法,它們分別利用了SD模型參數(shù)的某種矩陣分解或張量分解的形式,需要估計的參數(shù)數(shù)量大于MLLR 方法,在自適應數(shù)據(jù)足分時,可以達到比MLLR方法更好的自適應效果,然而在少量自適應數(shù)據(jù)條件下,易于出現(xiàn)過訓練的問題,性能反而不如經(jīng)典的本征音方法。

本文針對基于隱馬爾可夫模型的聲學模型,研究其在極少量自適應數(shù)據(jù)下的快速說話人自適應方法。與經(jīng)典本征音自適應方法的基本思想相同,新方法也是基于說話人子空間的,需要在訓練階段利用 PCA得到說話人空間的基矢量;與傳統(tǒng)方法不同的是,新方法中說話人子空間不是在自適應前預先確定的,而是在自適應過程中動態(tài)選擇的;在選擇說話人子空間的方法上,與可變參考說話人加權算法[6]不同的是,子空間基矢量是直接通過最大似然準則選擇的,而不是通過“加權系數(shù)”的大小進行選擇,從而得到一種基于最大似然可變子空間的說話人自適應方法。根據(jù)子空間的維數(shù)是否固定,本文分別提出了固定維數(shù)最大似然子空間方法和可變維數(shù)最大似然子空間方法及其快速實現(xiàn)流程。在基于微軟語料庫[7]的連續(xù)語音識別實驗中,在有監(jiān)督和無監(jiān)督的條件下,新方法均優(yōu)于經(jīng)典的基于本征音的方法和MLLR方法。

本文如下的章節(jié)安排如下:第2節(jié)簡要給出了基于本征音的說話人自適應,并引入相關數(shù)學符號;第 3節(jié)給出了說話人子空間最大似然基的選取算法,及在此基礎之上的固定維數(shù)與可變維數(shù)子空間說話人自適應方法;第4節(jié)給出了實驗結果及分析;最后一節(jié)給出了本文的結論。

2 基于本征音的說話人自適應

設訓練集中共S個說話人,聲學特征矢量為D維,聲學模型中共有M個高斯分量。令SI模型中第m個高斯分量的均值矢量和協(xié)方差矩陣分別為μm和∑m,對第s個說話人,其SD模型中第m個高斯分量的均值矢量為μm(s)。本文僅討論聲學模型中高斯分量均值矢量的自適應。

2.1 說話人子空間與本征音

在基于本征音的說話人自適應中,定義第s個說話人的超矢量為

其中每一個說話人超矢量的維數(shù)為M×D維,則所有訓練說話人超矢量Υ={y(s),s=1,2,…,S}構成了一個說話人子空間,其維數(shù)最大為S。對Υ進行主分量分析,最多可以得到S個基矢量,按其對應的特征值從大到小可以表示為e(1),e(2),…,e(S),其中e(k)即稱為第k個“本征音(eigenvoice)”。

在經(jīng)典的本征音說話人自適應中,假設所有的說話人超矢量落入一個K維的子空間中(0<K<S),則對于一個未知說話人相關模型,其說話人超矢量可以表示為

其中為訓練說話人超矢量的均值矢量,xk為對應第k個本征音的系數(shù)。

估計未知說話人超矢量y在K維說話人子空間中的坐標即可進行說話人自適應,通常稱x為“說話人因子(speaker factor)”。

2.2 基于說話人子空間的自適應方法

設自適應數(shù)據(jù)的特征矢量序列為O={o1,o2,…,oT},其中T為語音幀數(shù)。采用最大似然準則和期望最大(Expectation Maximization,EM)算法,說話人自適應過程等價于求解如下最優(yōu)化問題[3]:

其中γm(t)表示第t幀特征矢量屬于SI模型中第m個高斯分量的后驗概率,給定自適應數(shù)據(jù)的標注,它可以通過經(jīng)典的 Baum-Welch前后向算法[9]計算得到。

設第k個本征音e(k)中對應第m個高斯分量的子矢量為em(k),高斯超矢量均值對應第m個高斯分量的部分為em(K)],則。代入式(3)中的目標函數(shù),并對x求導,令其導數(shù)等于 0,可以得到說話人超矢量的最大似然估計為

式(4)即為最大似然本征分解(Maximum Likelihood Eigen Decomposition,MLED)[3]求解說話人因子的表達式。

3 基于最大似然可變子空間的說話人自適應

圖1 2維說話人子空間示例

為了簡單起見,圖1中僅給出前2維本征音e(1)和e(2)所張成的2維子空間;虛線所示橢圓表示訓練說話人在這2維子空間中的分布,由于第1個本征音e1所對應的特征值較大,訓練說話人在其上分布的方差也越大,對應圖1中表現(xiàn)為橢圓長軸。然而,對于某一個說話人s(實心圓圈所示),其在第2個本征音e2上的坐標值大于第1個本征音e1上的坐標值,所以若強制選擇1維的子空間,應該選擇由e2所確定的1維子空間,而不是e1所確定的子空間。實際中說話人子空間維數(shù)K的典型值取為10~20,在這種較高維子空間中,說話人分布的稀疏性將會更為明顯,上述現(xiàn)象也將會更為突出。因此,簡單地取前K個最大特征值對應的本征音所張成的子空間作為所有測試說話人的子空間是不合理的。本節(jié)將討論如何在最大似然準則下,針對每個說話人選取最優(yōu)的子空間。

3.1 最優(yōu)本征音選擇

最優(yōu)子空間的確定,其本質上是最優(yōu)基矢量的選擇,即最優(yōu)本征音的選擇。在RSW算法中,最佳參考說話人的選擇也可以視為說話人子空間中一組非正交基的選擇;在文獻[6]提出的 VRSW 算法中,通過參考說話人模型的加權系數(shù)來進行選擇,然而加權系數(shù)與EM算法的目標函數(shù)是不完全一致的,因此從最大似然的角度來看,選擇得到的這組參考說話人模型并非“最大似然基”。因此,本文的算法思路是,針對每一個本征音,假設說話人超矢量落入其張成的1維子空間中,計算對應的最大似然說話人因子及其對數(shù)似然值(即 EM 算法的目標函數(shù)值);選擇似然度最大的K個本征音作為最優(yōu)子空間的基矢量,這樣所得到的基矢量可以認為是“最大似然基矢量”,所得到說話人子空間可認為是“最大似然子空間”。

在說話人子空間的基矢量僅由ek組成的情況下,由式(4),最大似然說話人因子的計算可簡化為

式(5)即為忽略各本征音之間相關性的說話人因子估計公式。由此得到對應說話人相關模型均值矢量為,將式(5)結果代入式(3)中的目標函數(shù),整理可得其對數(shù)似然值為

其中C為與本征音e(k)無關的常數(shù)項。

因此,對每個可能的本征音e(k)(k=1,2,…,S),計算式(6),并對其從大到小排序,對應的前K個本征音即為最大似然意義下的最佳K維說話人子空間的基,設其為{(k),k=1,2,…,K},根據(jù)式(4)重新進行最大似然本征分解,即可得到該最佳K子空間下說話人因子。

3.2 基于固定維數(shù)最大似然子空間的快速說話人自適應算法實現(xiàn)流程

上述基于最大似然子空間的說話人自適應算法可以高效地實現(xiàn),具體算法流程如下:

(1)預先選定說話人子空間維數(shù)K(1≤K≤S);

(2)計算M×S2個加權內積,其中1 ≤m≤M,1 ≤k1≤S,1≤k2≤S;

(3)在給定自適應數(shù)據(jù)及其標注情況下,進行狀態(tài)強制對齊及Baum-Welch前后向算法,累積其零階和一階充分統(tǒng)計量,即和

(4)利用(1)中預先計算好的加權內積值,計算

其中 1 ≤k1≤S,1 ≤k2≤S,1≤k≤S;

(5)計算Lk=b(k)2/A(k,k)(即式(6)),1≤k≤S;對其從大到小進行排序,選擇前K個最大的kL,設其所對應的序號分別為l1,l2,…,lK;

(6)由(3)中計算結果,構造矩陣

3.3 基于可變維數(shù)最大似然子空間的快速說話人自適應算法

在3.2節(jié)中,最大似然子空間維數(shù)K的選擇是一個難點,需要通過多次試驗來確定。本節(jié)給出一種基于可變維數(shù)最大似然子空間的快速說話人自適應算法。其基本思想是,通過最大似然本征音的對數(shù)似然值計算一個門限,對于其它本征音,只有當其似然值大于該門限時才被保留。此時,3.2節(jié)中算法流程的(1),(4),(5)步分別替換為:

(1)選定門限值α(0<α<1);

4 實驗結果及分析

為了驗證本文算法的有效性,我們針對一個典型的連續(xù)語音識別系統(tǒng)進行了實驗。實驗語料采用微軟語料庫[10],其中訓練語料包含100個男性說話人,每個人200句話,共約33 h的語音數(shù)據(jù);測試語料包含另外20個男性說話人,每人20句話,每句話大約5 s的話音。實驗中,特征參數(shù)采用13維美爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)及其一階差分和二階差分,總的特征矢量維數(shù)為39維。基線系統(tǒng)中的SI模型利用開源隱馬爾可夫模型工具包(Hidden Markov Toolkit,HTK)[9]訓練得到,采用上下文相關的三音子有調音節(jié)作為聲學建模單元,采用自左向右?guī)ё原h(huán)無跳轉三狀態(tài)的HMM模型,每個狀態(tài)8個高斯混元,利用HTK進行三音子聚類后共19136個高斯混元。訓練階段利用基于回歸樹(32個回歸類)的MLLR自適應方法得到100個訓練說話人相關模型,進而利用PCA得到100個本征音矢量。測試階段解碼器采用HTK自帶的一遍解碼器HVite,不采用語法模型,解碼參數(shù)配置與文獻[10]中相同。在說話人自適應實驗中,分別從每個測試說話人語音中隨機抽取1句話(小于5 s)語音作為自適應數(shù)據(jù),剩下的19句話作為測試數(shù)據(jù),利用HTK中的HResult工具在所有測試語音上統(tǒng)計有調音節(jié)的平均識別率作為實驗結果。

為了比較算法的有效性,我們分別實現(xiàn)了基于MLLR的自適應和經(jīng)典的基于本征音的自適應方法。對于本征音(EV)方法和固定維數(shù)最大似然可變子空間(MLEV)方法,分別在說話人子空間維數(shù)K取為10,20和30的情況下進行了實驗。對于可變維數(shù)最大似然子空間(VMLEV)方法,對門限α取為0.1,0.08和0.06的情況分別進行了測試,并對測試說話人的平均最大似然子空間維數(shù)(用表示)進行了統(tǒng)計。各種自適應方法均在有監(jiān)督(給定自適應數(shù)據(jù)標注)和無監(jiān)督條件下(不給定自適應數(shù)據(jù)標注)分別進行了實驗。自適應實驗結果匯總如表1所示,其中基線系統(tǒng)(SI模型)的有調音節(jié)平均識別率為52.71%(文獻[10]中報道結果為51.21%)。

由表1的實驗結果可以看出,對于MLLR算法,由于自適應數(shù)據(jù)量過少(每個測試說話人平均少于5 s),無法進行有效的自適應,有調音節(jié)平均識別率相比SI模型幾乎沒有任何提高。

對于經(jīng)典的本征音自適應算法,系統(tǒng)平均識別率可以得到較大的提高,隨著說話人子空間維數(shù)的增加,所需要估計的參數(shù)個數(shù)也相應地增加,識別率先增后降。

對于本文提出的固定維數(shù)最大似然子空間的方法,相比經(jīng)典的本征音自適應算法,在相同的子空間維數(shù)下,識別率有了更進一步的提高。而對于可變維數(shù)最大似然子空間方法,可以在自適應階段自動確定最大似然子空間的維數(shù),具有更好的穩(wěn)健性;當α=0 .08時,無論是在有監(jiān)督還是無監(jiān)督條件下,相比其它幾種方法,均具有最佳的自適應效果。

實驗中,我們還統(tǒng)計了在相同的子空間維數(shù)下,最大似然子空間方法與經(jīng)典的本征音方法所選擇的本征音基矢量的相同個數(shù),平均統(tǒng)計結果如表2所示(括號外為有監(jiān)督自適應實驗統(tǒng)計結果,括號內為無監(jiān)督自適應實驗統(tǒng)計結果):

表1 一句話(5 s)自適應實驗結果(有調音節(jié)平均識別率)

表2 VMLEV與傳統(tǒng)本征音方法的相同本征音個數(shù)的平均值

由表2可以看出,在經(jīng)典的本征音自適應方法中根據(jù)最大特征值所確定的K維子空間,對于每一個測試說話人而言并非是最佳的,需要提高子空間維數(shù)才能夠盡量覆蓋到最佳的子空間;但提高子空間維數(shù)就會增加所要估計的參數(shù)個數(shù),在自適應數(shù)據(jù)量極少的情況下,這會增加過訓練的風險。本文提出的最大似然可變子空間方法可以選擇出最佳的K維子空間,通過自動確定子空間維數(shù)K,在盡量少的待估參數(shù)個數(shù)下得到盡可能好的自適應效果,有效地避免了過訓練的問題。

5 結論

本文提出了一種基于最大似然可變子空間的說話人自適應算法。與經(jīng)典基于說話人子空間的本征音自適應方法不同,新方法中說話人子空間的基矢量是在自適應階段、通過最大似然準則動態(tài)選取的,從而可以得到盡量低維的(最大似然意義下的)最佳說話人子空間,進而可以在極少量的自適應數(shù)據(jù)條件下得到盡量好的自適應效果。實驗結果表明,本文方法的自適應效果相比經(jīng)典 MLLR方法和本征音方法均有明顯的提高。

[1]Lee C H,Lin C H,and Juang B H.A study on speaker adaptation of the parameters of continuous density hidden Markov models[J].IEEE Transactions on Signal Processing,1991,39(4):806-814.

[2]李虎生,劉加,劉潤生.語音識別說話人自適應研究現(xiàn)狀及其發(fā)展趨勢[J].電子學報,2003,31(1):103-108.Li Hu-sheng,Liu Jia,and Liu Run-sheng.Technology of speake adaptation in speech recognition and its development trend[J].Acta Electronica Sinica,2003,31(1):103-108.

[3]Ghoshal A,Povey D,Agarwal M,et al..A novel estimation of feature-space MLLR for full-covariance models[C].International Conference on Acoustics,Speech and Signal Processing,Dallas,Texas,USA,2010:4310-4313.

[4]Kuhn R,Junqua J C,Nguyen P,et al..Rapid speaker adaptation in eigenvoice space[J].IEEE Transactions on Speech and Audio Processing,2000,8(6):695-707.

[5]Teng W X,Gravier G,Bimbot F,et al..Rapid speaker adaptation by reference model interpolation[C].Interspeech,Antwerp,Belgium,2007:258-261.

[6]Teng W X,Gravier G,Bimbot F,et al..Speaker adaptation by variable reference model subspace and application to large vocabulary speech recognition[C].International Conference on Acoustics,Speech and Signal Processing,Taipei,China,2009:4381-4384.

[7]Jeong Y and Sim H S.New speaker adaptation method using 2-D PCA[J].IEEE Signal Processing Letters,2010,17(2):193-196.

[8]Jeong Y.Speaker adaptation based on the multilinear decomposition of training speaker models[C].International Conference on Acoustics,Speech and Signal Processing,Dallas,Texas,USA,2010:4870-4873.

[9]Young S,Evermann G,Gales M,et al..The HTK Book.HTK Version 3.4,2009.

[10]Chang E,Shi Y,Zhou J,et al..Speech lab in a box:a Mandarin speech toolbox to jumpstart speech related research[C].EUROSPEECH-2001,Aalborg,Denmark,2001:2799-2802.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 人禽伦免费交视频网页播放| 91成人试看福利体验区| 午夜高清国产拍精品| 国产日本欧美在线观看| 国产夜色视频| 男人天堂亚洲天堂| 久久特级毛片| 乱人伦99久久| 首页亚洲国产丝袜长腿综合| 午夜精品福利影院| 91精品国产一区| 精品无码一区二区在线观看| 日韩在线第三页| 午夜福利无码一区二区| 久久久久久久久久国产精品| 欧美视频在线不卡| 亚洲欧美激情小说另类| 91无码人妻精品一区二区蜜桃| 精品国产自在在线在线观看| 91免费国产在线观看尤物| 91精品视频播放| 国产幂在线无码精品| 国产主播喷水| 中国一级特黄大片在线观看| 中文字幕免费视频| 午夜天堂视频| 中文字幕免费视频| 色网在线视频| 久久香蕉国产线| 亚洲Va中文字幕久久一区| 国产精品视频导航| 天天爽免费视频| 美臀人妻中出中文字幕在线| 久久精品人人做人人爽| 国产微拍精品| 国产精品亚洲日韩AⅤ在线观看| A级毛片无码久久精品免费| 亚洲国产综合自在线另类| 国产精品视频观看裸模| 蜜桃臀无码内射一区二区三区| 欧美成人午夜在线全部免费| 欧美综合成人| 国产午夜人做人免费视频中文| 国产91线观看| 欧美亚洲激情| 国产视频资源在线观看| 国产无码网站在线观看| 日韩精品无码免费一区二区三区 | 国产网站在线看| 无码丝袜人妻| 国产精品一区在线麻豆| 国产一级毛片高清完整视频版| 人妻21p大胆| 欧美97色| 四虎影视库国产精品一区| 亚洲精品自产拍在线观看APP| 青青久在线视频免费观看| 亚洲AV无码乱码在线观看裸奔 | 午夜人性色福利无码视频在线观看| 91久久大香线蕉| 久久精品人人做人人爽| 国产精品久久久久婷婷五月| 亚洲中文字幕国产av| 超级碰免费视频91| 国产在线98福利播放视频免费| 国产精品男人的天堂| 最新国产精品鲁鲁免费视频| 国产 在线视频无码| 欧美日韩国产综合视频在线观看| 国产在线观看91精品| 亚洲一级色| 日本伊人色综合网| 永久免费AⅤ无码网站在线观看| 国产亚洲视频中文字幕视频| 97se亚洲综合在线天天| 99久久精品国产自免费| 成年免费在线观看| 亚洲第一区在线| 久久精品丝袜高跟鞋| 亚洲精品另类| 97国产在线视频| 国产成人精品日本亚洲|