999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CHMM語音識別初值選擇方法的研究

2012-03-22 02:20:46劉伶俐王朝立
上海理工大學學報 2012年4期

劉伶俐, 王朝立, 于 震

(上海理工大學光電信息與計算機工程學院,上海 200093)

隱馬爾科夫模型(HMM)作為語音信號的一種統計模型,語音識別效果好,能夠很好地描述語音信號的特點,在數字語音處理中應用非常廣泛.

HMM包括離散的模型(DHMM—Discrete HMM)、連續混合密度模型(CHMM—Continuous HMM)以及半連續模型(SCHMM—Semi-Continuous HMM).相比較DHMM,CHMM系統識別率更高,這是由于在CHMM中輸入向量X即觀察值向量,不需要經過矢量量化轉變,這個輸入向量直接就是每一幀語音信號的特征矢量.基于CHMM系統識別率高的特點,它的應用非常廣泛.文獻[1]給出了基于性別的CHMM語音識別方法,文獻[2]研究了駕駛員意圖識別的可能性,文獻[3]討論了基于聲音的軸承故障診斷等.

在HMM模型建立后用Baum-Welch迭代算法求解HMM模型,其中一個重要的問題就是初始模型的選取[4],不同的初始參數模型將產生不同的訓練結果與識別結果.關于DHMM初值的研究,文獻[5]說明了DHMM初始參數選擇的一般規律和最佳選擇方法,但是CHMM的初始參數至今還沒有一個最佳的選擇方法.傳統CHMM參數初始化方法是隨機分布之值、K均值算法,但是由于K-means方法存在對初始中心的依靠較重、對孤立點影響較大和聚類結果不穩定的缺點[4,6],因此,有人提出了對初值中心選擇的改進方法:基于密度的方法[7]和最大最小距離法[8].基于密度的方法首先去除孤立點,在密度所在的區域內隨機選擇初始中心,但是密度相似性大小相差較大時,聚類結果不好;而最大最小距離方法雖然可以使類間相似性最弱,類內相似性最強,但是忽略了孤立點對聚類結果的影響.

本文在研究連續混合密度模型(CHMM)初始參數選擇時,為了更好地平滑逼近語音特征,使語音特征矢量類間相似性最小,類內相似性最大,采用最大距離選擇初始聚類中心、最小距離將語音特征矢量分類、平均距離去除類內干擾點的K-means方法.這種方法不僅去除了聚類中的干擾點,而且克服了傳統算法的缺點,為語音訓練識別節省了時間,提高了語音的識別率.

1 CHMM的基本元素

設S={Si},i=1,2,…,N,為模型的N狀態空間,CHMM常用M={S,X,A,B,π,F }6個模型參數來定義,不過一般簡化用M=(A ,B,π)表示.

A表示狀態轉移概率矩陣,A={aij},aij=P[qt+1=j|qt=i],1≤i,j≤N,q為狀態序列;B表示概率密度分布函數集合,B={bj(X)},1≤j≤N;X為觀察向量;π表示系統初始狀態概率的集合,πi表示初始狀態是qi的概率即πi=p [q1=i],1≤i≤N;F為系統終了狀態矩陣.

2 CHMM模型

研究對象選取連續的無跨越自左向右的CHMM,觀察參數矢量為X=x1,x2,…,xT,狀態序列為q=q1,q2,…,qn,狀態數為N,CHMM初始模型為λ=(A,B,π).

一般認為π和A初值的選取對結果的影響不大,但B的初值對HMM的影響比較大[6].所以本文主要研究B的初值對CHMM的影響.

無跨越自左向右的CHMM,由于輸出的是連續值,不是有限的,所以不能用矩陣表示輸出概率[4],而用概率密度函數來表示,即用bj(X)表示.bj(X)稱為參數X的概率分布函數,輸出X的概率可以通過bj(X)計算出來.一般bj(X)用高斯密度函數表示,由于X是多維矢量,所以用多元高斯概率密度函數表示為

這里p是X的維數,μj是概率密度的均值矢量,T為轉置,∑j是概率密度的協方差矩陣(為計算方便一般用對角協方差矩陣).

在實際的語音信號處理系統中,往往用一個高斯概率密度函數不足以表示語音參數X的輸出概率分布,所以常采用混合模型將所有的局部特征綜合在一起,形成一個更為全面的分布函數.這里使用多個高斯概率分布的加權組合,表示輸出概率密度函數[4]為

這里ωjm是混合系數,又叫分支概率,即第m個分量權重,滿足為分支概率密度,即表示狀態為j的第m個分量的高斯概率密度函數.μjm和∑jm是狀態j中第m個混合分量的均值矢量和協方差矩陣.

bj(X)概率密度特性滿足由式(2)可以看出,混合概率密度函數由各個概率密度函數組合而成,概率密度函數可由均值矢量、協方差和混合分量來描述.為求得輸出概率密度必須要先確定初值μjm,∑jm,ωjm,這對后面參數的重估至關重要.對各狀態的混合高斯函數的均值、方差和權系數的初始化,傳統采用K均值算法.

2.1 傳統初始化方法

K-means算法以每類的均值矢量和協方差矩陣為類中心作為分類準則度量,則最終k個高斯分量的均值估計和方差估計即為每類數據的均值矢量和協方差矢量.

具體步驟如下:

a.由某一狀態的訓練語音,隨機選取k個點(即特征矢量),每個點代表一個類的初始中心或平均值;

b.其余點根據相似度準則(歐氏距離)將相同或相似的數據歸為一類;

c.如果相鄰的兩次聚類中心沒有任何變化,說明對象調整結束,否則調整新的聚類中心,重復b;

d.計算每一類的均值矢量,作為高斯概率密度函數的均值估計和高斯概率密度函數的初值.

以上是傳統的計算方法,優點是過程簡單、操作容易.但是這種方法有很大的缺點:第一,由于初始聚類中心是隨機選取,所以不同的初始中心可以得到不同的初始均值和方差,造成不同的局部最大,聚類結果穩定性較差;第二,K-means算法對噪聲和孤立點數據比較敏感.

2.2 一種改進的CHMM參數初始化方法

基于傳統算法的缺點,本文提出一種改進算法:首先選擇相互距離最遠的k個對象作為初始聚類中心;然后按相似性最強分類,為不受干擾點的影響,聚類結束后去除每類中的干擾點.這樣的好處是所選擇的初始中心更具有代表性,使得類內相似性最強,每類均值特征與語音特征偏離度較小,能更好地平滑逼近語音特征.

從式(1)中可以看出,bj(X)由均值和協方差矩陣決定,其實主要由均值決定.假定δii(x)是協方差矩陣中的元素,δii(x)表示X與μj(x)的偏離程度,按輸出概率密度最大來說,一般總希望δii(x)應盡可能的?。ǖ荒転榱悖@樣X與μj(x)越接近,bj(X)就越大.

由式(3)可以看出,當X與μj(x)的偏離程度最小時,說明它們的相似性最強,即每個概率密度函數也就取得最大值,根據這個原則定義相似性.

定義1 樣本X中的元素xi是p維的,一個樣本特征向量與另一個樣本特征向量之間的相似性公式為

d的數值小說明xi,xj的相似性強,反之它們的相似性弱.式(4)選擇的是歐式距離的平方,相似性的判別與歐式距離相同,但是算法的效率要比歐式距離高.

該算法主要有3步:一是求距離;二是分類;三是去除干擾點.將樣本分為k類的具體算法描述如下:

a.某一狀態的訓練語音X=x1,x2…xt,按式(4)分別計算兩兩特征矢量(點與點間的)距離,各特征矢量間相互獨立;

b.選出距離最大的兩個點(xi,xj)作為兩個初始中心y1=xi,y2=xj,將X中的其余點以y1,y2為初始中心按式(4)求取距離,按最小距離的原則將X分為D1,D2兩類;

c.在D1,D2中找出與y1,y2相似性最弱的特征向量xi,xj,并分別代入式(4),得到d=max(max d(y1,xi),max d(y1,xj),max d(y2,xi),max d(y2,xj)),將距離最大的xi(xj)作為y3,并以y3為中心按式(4)分類;

d.在已經找到的m個初始中心共有D1,D2,…,Dm類,按式(4)尋找與初始中心最遠的點,并按max(max d(yi,xi),max d(yi,xj),max d(yj,xi),max d(yj,xj))選下一個初始中心,并重新劃分歸類,直到分為k類;

e.分類結束后,計算每類中其它點與聚類中心的距離,并求平均距離,將與聚類中心距離大于平均距離的點從此類中刪除;

f.將每類中的剩余點計算均值;

g.ωjm的值等于每類中的特征矢量個數,除以所有類中特征矢量個數之和.

以上算法是按兩點之間相似性的大小,進行初始聚類中心的選擇,有一定的規律性,克服了一般K-means的初值選擇無序的狀況;而且根據所定義的相似性公式所選的初始聚類中心滿足協方差偏離程度最小,并且刪除了每類中的干擾點,這樣所得的均值向量與特征值向量相似性最好,聚類效果好,有利于參數的估計和語音的識別.

3 不同CHMM參數初始化方法對識別結果的影響

連續無跨越自左向右的CHMM,系統初始狀態概率的集合為π=[1,0,0,…,0],即從第一個狀態開始執行.狀態轉移概率矩陣A,aij為A中的元素,0<aij<1,滿足

轉移概率矩陣初值選擇

B的初值分別由傳統K-means方法與改進后的K-means方法進行選擇.對于傳統K-means方法隨機選擇初始聚類中心,然后按最小距離準則對輸入樣本分類,更新聚類中心,通過迭代最后得到初始參數;而對于改進的K-means方法先按照最大距離選擇k個相似性最弱的點,然后按最小距離準則對輸入樣本分類,更新聚類中心,最后將每類中的孤立點去除,計算每類的均值矢量、協方差矩陣以及混合權值作為初始參數.

實驗是在matlab 7.0環境下實現,語音樣本為非特定人孤立數字0~9共400個.每個數字錄音40個,其中20個用于語音訓練,20個用于語音識別.采用不同的初始化方法進行語音識別所得到的識別率結果如表1所示.

表1 不同參數初始化方法Tab.1 Different parameters initialization ways

從表1可以看出,采用改進后的K-means算法所得到的CHMM初始參數得到的識別率更好,這是因為此方法克服了傳統算法的缺點,并去除了干擾點對識別結果的影響.

4 結 論

研究了CHMM的初始參數概率密度函數的選擇,在傳統的初值選擇方法的基礎上提出了改進后的K-means方法.在規定的條件下,改進后的初值選擇方法,克服了語音在初值的選擇上不穩定性和孤立點的影響,更逼近語音特征,提高了聚類的準確性和語音的識別率.

[1] 張捍東,李金煒.基于性別識別的分類CHMM語音識別[J].計算機工程與應用,2007,21(7):187-189.

[2] Jin L S,Hou H J,Jiang Y Y.Driver intention recognition based on continuous hidden Markov model[C]//International Conference on Transportation,Mechanical,and Electrical Engineering(TMEE).Changchun,2011:739-742.

[3] Wu B,Wang M J,Lou Y G.Cyclostationarity and CHMM based bearing fault diagnosis approach in start-up process[C]//2010 2nd International Conference on Computer Engineering and Technology(ICCET).Chengdu,2010:433-436.

[4] 趙力.語音信號處理[M].北京:機械工業出版社,2008.

[5] 馬明,張杰,王建宇,等.語音識別中隱馬爾科夫模型初值的估計[J].數據采集與處理,1997,2(7):96-100.

[6] 韓紀慶.語音信號處理[M].北京:清華大學出版社,2004.

[7] 汪中,劉貴全,陳恩紅,等.一種優化初始中心點的K-means算法[J].模式識別與人工智能,2009,2(4):299-304.

[8] 蘇中,馬少平,楊強.基于Web-Log Mining的Web文檔聚類[J].軟件學報,2002,13(1):99-104.

主站蜘蛛池模板: 免费激情网站| 欧美不卡视频一区发布| 国产区人妖精品人妖精品视频| 国产喷水视频| 欧美人与动牲交a欧美精品| AV不卡在线永久免费观看| 亚洲制服中文字幕一区二区| 91激情视频| a色毛片免费视频| 午夜精品久久久久久久无码软件 | 在线毛片免费| 日本午夜三级| 日韩精品高清自在线| a级毛片免费播放| 粉嫩国产白浆在线观看| 26uuu国产精品视频| 欧美成人免费午夜全| 99成人在线观看| 亚洲日韩Av中文字幕无码| 亚洲av无码人妻| 午夜久久影院| 亚洲AV永久无码精品古装片| 日韩a在线观看免费观看| 国产全黄a一级毛片| 99精品一区二区免费视频| 国产精品三级专区| 久久人妻系列无码一区| 国产午夜精品一区二区三| 日韩成人在线网站| 国产经典在线观看一区| 激情网址在线观看| 色吊丝av中文字幕| 美女无遮挡免费网站| 久久综合九色综合97婷婷| 国产理论一区| 国产成人精品男人的天堂| 夜夜操国产| 国产激情无码一区二区免费| 无码在线激情片| 任我操在线视频| 国产成人av一区二区三区| 国产毛片网站| 亚洲国产精品日韩av专区| 无码在线激情片| 久久国产香蕉| 国产女人18毛片水真多1| 在线看片免费人成视久网下载 | 毛片免费在线| 中文字幕久久精品波多野结| 成人午夜久久| 欧美视频免费一区二区三区| 97超碰精品成人国产| 亚洲第一成年网| 日韩视频福利| 午夜性刺激在线观看免费| 美女啪啪无遮挡| 国产高清不卡| 特级欧美视频aaaaaa| 欧美成人免费一区在线播放| 激情视频综合网| 国产香蕉一区二区在线网站| 久久中文无码精品| 久久精品66| www亚洲精品| 亚洲女同一区二区| 亚洲精品va| 国产小视频在线高清播放| 日本一区二区三区精品国产| 国产青榴视频在线观看网站| 欧美啪啪一区| 亚洲成a人在线播放www| 91偷拍一区| 日韩免费中文字幕| 午夜一级做a爰片久久毛片| 亚洲aaa视频| 色网站免费在线观看| 国产成人午夜福利免费无码r| 日韩久草视频| 亚洲成人免费在线| 国产欧美在线观看一区| 国产av色站网站| 71pao成人国产永久免费视频|