摘要:本文在深入介紹線性預(yù)測(cè)編碼、倒譜及Gabor濾波法等三種語音特征抽取方法的基礎(chǔ)上,提出基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引、分段索引以及二重索引的方法用于多媒體聲音的自動(dòng)檢索。該方法彌補(bǔ)了傳統(tǒng)索引方法的不足,適應(yīng)語音特征,有效地將語音特征動(dòng)態(tài)索引。仿真結(jié)果顯示,該方法的查詢效率要遠(yuǎn)遠(yuǎn)優(yōu)于順序查找,基本達(dá)到了特征索引的要求。
關(guān)鍵詞:聲音檢索;分段索引;二重索引
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)27-1872-04
The Technique of the Voice Characteristic Index Base on SOM and the Covariance Examinations
JIE Ming
(Computer Engineering Department,Huaiyin Industrial Technology College,Huai'an 223001,China)
Abstract:This text code, pours the foundation that three kinds of speech characteristics, such as table and a method of the Gabor. sample the method in the thorough introduction line estimate up, put forward according to SOM and statistics the examination of index, an index of cent and two heavy indexes of method used for the auto index of the multimedia voice.That method made up the shortage of traditional index method, the orientation speech characteristic, availably speech characteristic dynamic state index.Imitate to really as a result show, the search efficiency of that method want to be far better than the sequence checks to seek, basic come to a the request of the characteristic index.
Key words:multidimensional indexing;self-organized map;sectional index
1 引言
語音識(shí)別技術(shù)是多媒體信息研究領(lǐng)域的重要組成部分,可用于人機(jī)對(duì)話、語音打字及語言之間的通信等一系列重要場(chǎng)合。語音識(shí)別模型起始于用戶創(chuàng)建的語音信號(hào),以完成一個(gè)給定任務(wù)。遵循任務(wù)的語法、語義、語用,將輸入信號(hào)分解成一系列單詞。根據(jù)初步處理結(jié)果,使用動(dòng)態(tài)知識(shí)表述的高級(jí)處理來修正語法、語義、語用,使其成為有意義的詞句。用這種方法將不合理的推理或結(jié)論刪去,以減小被誤解的概率。
語音識(shí)別系統(tǒng)的基本任務(wù)是準(zhǔn)確地識(shí)別、理解講話的內(nèi)容,是對(duì)語音共性的識(shí)別。以所要識(shí)別的單位來分,有孤立詞識(shí)別、音素識(shí)別、音節(jié)識(shí)別、單句識(shí)別、連續(xù)語言識(shí)別和理解。語音理解是在語音識(shí)別的基礎(chǔ)上,用語言學(xué)知識(shí)來推斷語音的含義。語音理解系統(tǒng)是更高一級(jí)的語音識(shí)別系統(tǒng)。這類語音識(shí)別的發(fā)展情況是先從最原始的單音節(jié)識(shí)別,到限定數(shù)量的單詞識(shí)別,再到對(duì)內(nèi)容進(jìn)行某種程度限制的會(huì)話識(shí)別。以說話人來分,有單個(gè)特定說話人,有限的說話人和無限的說話人。特定說話人的語音識(shí)別比較簡(jiǎn)單,能得到較高的識(shí)別率。研究人員正在為提高識(shí)別率而努力,這種系統(tǒng)如能夠?qū)嵱没?,將?huì)有很高的經(jīng)濟(jì)價(jià)值和深遠(yuǎn)的社會(huì)意義。以識(shí)別方法來分,有模板匹配法、隨機(jī)模型法和概率語法分析法。
本文主要針對(duì)非特定說話人的孤立詞識(shí)別技術(shù)進(jìn)行初步的探討與研究。在分析了特征表征聲音的效果后,提出了適應(yīng)于聲音特征的基于神經(jīng)網(wǎng)絡(luò)SOM(Self-Organizing Map,特征影射網(wǎng)絡(luò))和統(tǒng)計(jì)檢驗(yàn)的索引方法,以滿足常規(guī)查詢的需要。流程框圖見圖1所示。
2 語音特征抽取技術(shù)
由上述可知,非特定說話人的孤立詞識(shí)別技術(shù)的首要任務(wù)是提取語音特征。在研究聲音的性質(zhì)時(shí),不直接處理信號(hào)波形,而是變換成頻譜和自相關(guān)函數(shù),即變換成與頻譜相關(guān)聯(lián)的特征后進(jìn)行處理。抽取的特征是否能正確表征聲音的特征是能夠正確識(shí)別語音的先決條件。下面介紹幾種常見的提取方案。
2.1 線性預(yù)測(cè)編碼方案
設(shè)有一線形系統(tǒng):V(Z),為之建立一個(gè)模型,對(duì)模型的參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計(jì),這種算法稱為“參數(shù)解卷”。如果所取的模型中只包含有限極值點(diǎn)而沒有有限值零點(diǎn),則系統(tǒng)的函數(shù)可以表示為:V(Z)=1/A(Z),其中, 。這時(shí)算法可以歸結(jié)為對(duì)各模型參數(shù)αi進(jìn)行估計(jì),即可稱為“全極點(diǎn)模型”或稱為“AR模型”。如果采用最小均方差準(zhǔn)則對(duì)AR模型參數(shù)進(jìn)行估計(jì),就得到了線形預(yù)測(cè)編碼(Linear Predictive Coding,LPC)算法。
經(jīng)過統(tǒng)計(jì)計(jì)算、推導(dǎo),容易得到AR模型參數(shù)估計(jì)表達(dá)式:
得AR模型:
Xt=φxt-1+…+φnxt-n
建立AR模型的關(guān)鍵問題是模型的定階。在原有算法中,是采用逐一實(shí)驗(yàn)的方法來確定模型的階數(shù)。這顯然不是個(gè)好方法。但通過研究原有算法可知,如果計(jì)算階數(shù),從其計(jì)算復(fù)雜程度來看,幾乎是不可能實(shí)現(xiàn)的。為了有效的縮短定階時(shí)間,先根據(jù)以前的建模經(jīng)驗(yàn),將模型階數(shù)的初始值定得大一些。因?yàn)閭鹘y(tǒng)的建模方法要將階數(shù)建得盡量低,主要原因就是要減少計(jì)算量。而這部分計(jì)算量對(duì)計(jì)算機(jī)來說是可忽略的,所以原來階數(shù)盡量低的要求不需要考慮。需要考慮的是如果階數(shù)過高,有些系數(shù)很小,趨進(jìn)于零,會(huì)影響矩陣的求逆。這時(shí)要考慮降階。
在實(shí)現(xiàn)中,先按照初始化的階數(shù)建立AR模型,如果階數(shù)過高,下調(diào)階數(shù),重算模型;如模型不符合精度要求,上調(diào)階數(shù),直至獲得準(zhǔn)確的模型。實(shí)踐證明,下調(diào)步長(zhǎng)大于上調(diào)步長(zhǎng)可以更快地得到模型階數(shù)。
要檢驗(yàn)建立的模型,首先計(jì)算F統(tǒng)計(jì)量:
其中,Q0是r階AR模型的殘差和,Q1是r-s階AR模型的殘差和,N是觀察值個(gè)數(shù)。
F應(yīng)滿足關(guān)系式:P(F≥Fa)=a
其中,a是預(yù)先給定的顯著性水平。通過查表獲得Fa值。如果F小于等于Fa,就認(rèn)為r-s階AR模型和r階模型沒有顯著差別,即模型的階數(shù)可定為r-s;否則,要重新考慮模型的階數(shù)。得到平穩(wěn)AR模型后,取AR系數(shù)作為特征向量。
2.2 倒譜Cepstrum
功率譜Gxx(f)是只具有振幅信息的實(shí)函數(shù),和相位無關(guān)。定義如下:
對(duì)數(shù)功率譜取其對(duì)數(shù),又因?yàn)檎Z音信號(hào)的傅立葉譜Gx(f)為聲門激勵(lì)頻譜和聲道傳移函數(shù)的積,有
公式右邊第一項(xiàng)表示頻譜上的微細(xì)結(jié)構(gòu),即表示比較精細(xì)的周期圖案,第二項(xiàng)表示頻譜包絡(luò),即表示頻率變化所產(chǎn)生的平緩的圖形。利用高部位的峰值就能求出音源的基本周期;利用低部位,根據(jù)傅立葉變換,就能求出對(duì)數(shù)頻譜包絡(luò)。
式中,G(f)為聲門激勵(lì)頻譜,v(f)為聲道傳移函數(shù)。對(duì)對(duì)數(shù)功率譜取傅立葉變換,就得到倒譜(cepstrum):
采用離散傅立葉變換(DFT)求解C(τ)時(shí),因?yàn)閷l(fā)生折疊,所以需要把N取得足夠大。公式如下:
(0≤n≤N-1)
采用對(duì)數(shù)倒頻譜方法提取基本周期和頻譜包絡(luò)的流程如圖2示。
2.3Gabor濾波
將一維Gabor濾波函數(shù)用于聲音韻律特征抽?。?/p>
式中,
對(duì)ω取不同的值(0,2π,…,2kπ),然后分別計(jì)算Wf(ω,τ)的均值和方差:
用得到的數(shù)值構(gòu)造特征向量 ,這里k值取2。
3 基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法
由于多媒體的特征是多維的,記錄間是一種相似關(guān)系,因而這種關(guān)系運(yùn)算只具有自反性、對(duì)稱性,卻沒有傳遞性。例如,A記錄與B記錄相似是由于它們的第一、第二、和第三維的值相同,B記錄與C記錄相似是由于它們的第四、第五維的值相同,但A記錄與C記錄卻不相似。因此,傳統(tǒng)的構(gòu)造索引樹的方法不再適用。聲音索引主要解決查找的正確性問題。單詞內(nèi)容的最后判定是根據(jù)所獲得的相似結(jié)果集得到的。一個(gè)高效的索引算法要能保證查找的結(jié)果是有效和可用的。
3.1 基本思想
已有的SOM算法通過無監(jiān)督的競(jìng)爭(zhēng)學(xué)習(xí),將特征空間分類。以SOM節(jié)點(diǎn)圖為底面,使用投影方法構(gòu)造出一個(gè)有層次的樹。搜索時(shí)自頂向下,直至里面是屬于該類的所有記錄指針的搜索列表。雖然SOM索引法大大減少了搜索的次數(shù),但卻存在一些問題,如預(yù)定義類間距離和類個(gè)體數(shù)目的閾值是一種硬分類方法,該方法的分類效果較為粗糙,不能適應(yīng)個(gè)體數(shù)目的多樣性;沒有考慮類邊界的個(gè)體的特殊性;停留在靜態(tài)構(gòu)造階段,還沒有考慮增加和刪除時(shí)索引的動(dòng)態(tài)維護(hù)問題等。基于此,文章提出基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法。該算法充分考慮了SOM和統(tǒng)計(jì)檢驗(yàn)的特點(diǎn),將兩者有機(jī)的結(jié)合在一起。其思想如下:
1) 創(chuàng)建SOM聚類
SOM的拓?fù)浣Y(jié)構(gòu)如3所示。
SOM網(wǎng)絡(luò)的一次訓(xùn)練過程就是訓(xùn)練樣本模式組向網(wǎng)絡(luò)輸入一次模式向量。當(dāng)每一樣本模式出現(xiàn)后,通過一系列算法,網(wǎng)絡(luò)選出“優(yōu)勝節(jié)點(diǎn)”,然后在節(jié)點(diǎn)鄰域內(nèi)調(diào)整各網(wǎng)絡(luò)節(jié)點(diǎn)的權(quán)值,結(jié)果是各權(quán)值形成能反映輸入模式向量概率密度的一個(gè)簇集。當(dāng)網(wǎng)絡(luò)已經(jīng)形成自組織能力時(shí),訓(xùn)練也就完成了。這時(shí)拓?fù)渖媳舜讼嘟墓?jié)點(diǎn)對(duì)相似的輸入樣本模式的反應(yīng)作用相似。以采樣語音作為訓(xùn)練樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可將聲音的特征空間初步分類,發(fā)音相似的語音將被聚入同一類。
2) 調(diào)整分類
根據(jù)統(tǒng)計(jì)的方法,檢驗(yàn)分類的合理性,調(diào)整分類。因?yàn)镾OM方法并沒有提供任何分類合理性的檢驗(yàn)標(biāo)準(zhǔn)。在此,借鑒多元統(tǒng)計(jì)分析中的聚類檢驗(yàn)方法。構(gòu)造統(tǒng)計(jì)量,表征兩個(gè)分類的類間距與類內(nèi)距的比。如果類間距相對(duì)類內(nèi)距顯著,就認(rèn)為分類是合理的;否則將兩類合并,生成新類。
3) 構(gòu)造索引樹
逐一將數(shù)據(jù)庫的記錄加入所屬的類,構(gòu)造搜索鏈表。將待分類的樣本與搜索鏈表的類比較,如果樣本特征與比較類無顯著差別,就將此樣本插入該類。根據(jù)構(gòu)造方法,一個(gè)樣本可以插入多個(gè)類。允許一個(gè)樣本插入多個(gè)查詢子樹的規(guī)則主要是針對(duì)處于兩類邊緣的樣本的。多媒體字段的“相似性”查詢是索引需要完成的主要功能。在實(shí)際情況中,某一樣本既與A類相似,又與B類相似的情況是很可能出現(xiàn)的。而聚類的目標(biāo)就是要把比較相似的樣本聚在一類中。只要樣本Y與某類X相似的概率大于α,就可以把它聚入X類。如果Y與X1類和X2類相似的概率均大于α,就把Y既聚入X1類又聚入X2類,而不應(yīng)只將Y只聚入與它最相似的一類。這樣聚類的結(jié)果可以保證類內(nèi)樣本的相似性。
見圖4,應(yīng)把填充區(qū)域中的樣本同時(shí)聚入兩類。
顯然,根據(jù)上述方法建立的索引是一個(gè)樹形結(jié)構(gòu),而且一個(gè)葉節(jié)點(diǎn)可以同時(shí)屬于兩棵子樹,即一個(gè)樣本可以插入兩類。
4) 查詢
首先,將查詢樣本與搜索鏈表中的各類比較,確定與它最為相似的一類。然后,計(jì)算類中所有樣本與查詢樣本的向量距離,查找出最相似的樣本集合。
查詢的方法是首先確定與查詢樣本最相似的類,然后再在類內(nèi)查詢。如果樣本只能唯一地插入一棵索引樹,那么有一些與查詢樣本確實(shí)很相似的樣本就不能被查到,如圖5所示。同時(shí),類內(nèi)的查詢保證了樣本間的相似度,比完全用距離判別樣本的相似程度可靠。
3.2 基于SOM聚類構(gòu)造索引
綜上所述,實(shí)現(xiàn)基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法的核心是構(gòu)造索引??煞譃槿竭M(jìn)行:
第一步,創(chuàng)建SOM聚類。本算法采用廚師帽函數(shù)作為學(xué)習(xí)方法:只有在偏離優(yōu)勝節(jié)點(diǎn)為中心的r半徑以內(nèi)的節(jié)點(diǎn)為相同的正調(diào)整權(quán)。具體過程如下:
1) 初始化權(quán)值
2) 迭代
① 計(jì)算激勵(lì)
② 尋找優(yōu)勝節(jié)點(diǎn)
③ 調(diào)整優(yōu)勝節(jié)點(diǎn)及其鄰近節(jié)點(diǎn)的權(quán)值
④ 縮小鄰域范圍
⑤ 判斷:如果 誤差<=0結(jié)束;否則 繼續(xù)迭代
3) 輸出結(jié)果權(quán)值
第二步,類的調(diào)整。SOM聚類是比較粗糙的,類間的邊界比較模糊,因此,需要對(duì)類進(jìn)行調(diào)整,將相似的類合并,去掉一些雜類,留下特征顯著的類。由于SOM聚類后每個(gè)類都有一定的訓(xùn)練樣本,兩個(gè)類的相似性可以通過構(gòu)造F統(tǒng)計(jì)量來判斷。過程如下:
1) 迭代
① 選出兩個(gè)距離最近的類
② 計(jì)算兩類樣本的組內(nèi)距和組間距,構(gòu)造F統(tǒng)計(jì)量
③ 如果組間距顯著。則認(rèn)為現(xiàn)有分類合理,調(diào)整算法結(jié)束;否則合并兩類,繼續(xù)迭代。
2)掃描所有的類,如果該類沒有判別距陣(協(xié)方差距陣),刪除該類,否則留下。
第三步,搜索鏈表的構(gòu)造。在聚類和調(diào)整后,可以將數(shù)據(jù)庫的訓(xùn)練記錄加進(jìn)索引中。索引文件由聚出的類和一個(gè)雜類的搜索鏈表組成。搜索鏈表的構(gòu)造如下:
1) 各類的搜索鏈表初始為空
2) 迭代,直到最后一條記錄
① 選出下一個(gè)記錄m
② 計(jì)算m與所有類的標(biāo)準(zhǔn)向量的距離,選出距離最小的k個(gè)類
③ 逐一檢驗(yàn)(類內(nèi)的F檢驗(yàn)),若m在該類的置信區(qū)間內(nèi),將m加進(jìn)該類的搜索鏈表。類內(nèi)的F檢驗(yàn)的公式如下:
④
其中,n為樣本數(shù),p為維數(shù),uA為A類的特征向量,Σ為A類的判斷矩陣(協(xié)方差矩陣)。
⑤ 若m不屬于任何類,將m加入雜類。
索引構(gòu)造成功后,就可以進(jìn)行相關(guān)的操作,如添加操作、搜索操作、刪除操作等。
4 分段索引
語音信號(hào)只有在一個(gè)短時(shí)段中才可以認(rèn)為是平穩(wěn)的,因此對(duì)語音信號(hào)的LPC分析必須是一種短時(shí)分析。這就是說,只能利用一短段語音來估計(jì)其模型參數(shù),這一短段的持續(xù)時(shí)間一般選擇為20ms左右。一般單音節(jié)單詞以正常語速讀出約需0.5秒。這樣計(jì)算,每個(gè)音節(jié)要被分為25小段,分別計(jì)算其LPC系數(shù)。在實(shí)際實(shí)驗(yàn)中,每段LPC系數(shù)約為6個(gè),若將各段系數(shù)拼接為一個(gè)大向量,這個(gè)向量將有150維。因?yàn)橛?xùn)練樣本有限,根據(jù)前述索引算法很難求得其協(xié)方差矩陣,不能保證有效索引的建立,必然影響查詢的結(jié)果。
針對(duì)LPC特征向量的特點(diǎn),設(shè)計(jì)了分段索引算法。其主要思想是創(chuàng)建LPC系數(shù)的分段索引,在查詢的時(shí)候,綜合各段查詢結(jié)果,給出最后結(jié)果。對(duì)每段LPC系數(shù)使用基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法創(chuàng)建子索引,各子索引間相互獨(dú)立。
查詢算法具體步驟如下:
① 已知樣本群P和查詢樣本q。
② 計(jì)算查詢樣本q的分段LPC系數(shù)L1,…LN,N為分段數(shù)。
③ 以Ln(1≤n≤N)為查詢樣本,在子索引In中查出與之最相似的類Cnk。
④ 計(jì)算Ln(1≤n≤N)與Cnk中樣本的距離,得到,dnl1,…dnkM(n,k)其中M(n,k)為Cnk中的樣本個(gè)數(shù)。
⑤ 計(jì)算綜合距離。樣本p與查詢樣本q的距離為 ,gnp為p與q的第n段距離,其具體定義為:
gnp=dnkp,p在Cnk中
,p不在Cnk
⑥ 根據(jù)綜合距離,查找出與q最相似的h個(gè)記錄作為查詢結(jié)果。
5 二重索引
在語音信號(hào)的處理與識(shí)別中,不同的特征抽取方法體現(xiàn)了語音信號(hào)的不同特性,如果能夠?qū)⑻卣骶C合,最充分利用語音信號(hào)的各種特征顯然可以提高語音的識(shí)別率。
由于各特征含義不同,數(shù)據(jù)完全沒有可比性。如何綜合度量向量間的距離就成為關(guān)鍵所在。二重索引的算法可以比較簡(jiǎn)單有效地解決這一問題。具體算法如下:
1) 已知樣本群M,及查詢樣本n。
2) 按照不同方法分別計(jì)算索引X1,X2。
3) 根據(jù)索引X1計(jì)算出與n最相似的h個(gè)樣本m1,1,m1,2…,m1,15,根據(jù)索引X2計(jì)算出與n最相似的h個(gè)樣本m2,1,m2,2…,m2,15。
4) 將n與m1,1,m1,2…,m1,15,n與m2,1,m2,2…,m2,15的距離分別歸一化,得到d1,1,d1,2…,d1,15及d2,1,d2,2…,d2,15。
5) 將歸一化的距離疊加,獲得最終判別距離。具體疊加規(guī)則為:
① 如果m1,i與m2,j是同一樣本,則n與此樣本的距離為d1,i+d2,j。
② 如果m1,i(或m2,j)不在m2,1,m2,2…,m2,1(或m1,1,m1,2…,m1,15)中,則n與此樣本的距離為d1,i+2(或d2,j+2)。
6) 將疊加后的距離重新排序,從中選出與n最接近的h個(gè)記錄作為查詢結(jié)果
二重索引算法以結(jié)果集的排序信息為主,兼顧距離的數(shù)值信息,可以比較合理地綜合不同特征信息。在二重索引中,還可以加入用戶的主觀意見,調(diào)整二原始索引所占比重。只需將E中的距離計(jì)算公式d1,i+d2,j更換為ad1,i+(1-a)d2,j(其中0≤a≤1 )即可。
(下轉(zhuǎn)第1878頁)
(上接第1875頁)
6 實(shí)驗(yàn)結(jié)果與分析
在基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法的非特定人語音識(shí)別系統(tǒng)中,語音特征抽取是關(guān)鍵,可分別LPC、倒譜、Gabor濾波等特征抽取方法;索引處理是核心算法所在,它提供了基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法,以及加權(quán)二重索引算法。
語音識(shí)別是計(jì)算索引算法查詢出的相似聲音文件的加權(quán)相似度,對(duì)查詢樣本作出最終判斷。測(cè)試數(shù)據(jù)分為兩部分。一部分是12個(gè)人朗讀的從0到9十個(gè)數(shù)字,共120個(gè)采樣樣本,每個(gè)數(shù)字采樣時(shí)間為0.5秒鐘。另一部分是23個(gè)人朗讀的40個(gè)指定中文單詞,共920個(gè)采樣樣本,每個(gè)單詞由兩個(gè)字組成,單詞采樣時(shí)間為1秒鐘。全部采樣均保存為WAV格式,采樣頻率為11.4Hz。
從實(shí)驗(yàn)數(shù)據(jù)上看,倒譜系數(shù)的索引算法效果略強(qiáng)于LPC索引算法。這與倒譜的共振峰值有實(shí)際物理意義有關(guān)。當(dāng)兩個(gè)原始索引的識(shí)別效果相近的時(shí)候,使用二次索引可以提高識(shí)別率。加重效果比較好的索引在二重索引中的權(quán)值可以提高識(shí)別率。當(dāng)兩個(gè)原始索引的識(shí)別效果相差比較多的時(shí)候,二重索引的使用已沒有效果。因?yàn)樾Ч容^好的索引受到效果較差的索引的影響,兩個(gè)索引已不能互為補(bǔ)充,較差的索引將給較好的索引加入噪音。以Gabor濾波方法抽取的特征建立的索引查詢效率不如LPC系數(shù)和倒譜系數(shù),識(shí)別率偏低。Gabor濾波方法的設(shè)計(jì)主要是獲得采樣聲音的韻律特征,也就是表征了聲音波形的變化規(guī)律。觀察查詢的結(jié)果集,噪音中很多是音調(diào)變化與查詢樣本相似的。例如,“禁令”為查詢樣本的結(jié)果級(jí)中會(huì)混入“運(yùn)用”樣本。聲母中含“h”的單詞比較容易相混。例如,“戰(zhàn)栗”、“恥笑”這兩個(gè)單詞會(huì)以比較大的概率出現(xiàn)在“山坡”的查詢結(jié)果集中。這種特征抽取方法在某種程度上反映了單詞的語音特征。
不同方法的特征抽取速度也有差別,見下表:
可見Gabor濾波法所需時(shí)間遠(yuǎn)多于其它兩種方法,求倒譜系數(shù)的時(shí)間也比求LPC系數(shù)要多。如果系統(tǒng)對(duì)時(shí)間的要求比較高,則應(yīng)選擇LPC系數(shù)法。否則,應(yīng)根據(jù)系統(tǒng)識(shí)別需求選擇倒譜或Gabor濾波法。
7 結(jié)束語
基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法使用統(tǒng)計(jì)檢驗(yàn)的方法來判斷分類的合理性,該方法比預(yù)定義距離閾值方法更科學(xué),而且具有比較廣泛的適應(yīng)性,同時(shí)充分考慮類邊界的個(gè)體的特殊性。對(duì)于邊界的個(gè)體,它會(huì)加入與其類似的多個(gè)類,因此,對(duì)邊界個(gè)體的查找就不會(huì)出現(xiàn)“缺一半”的情況。另外使用雜類的方法,保證類內(nèi)樣本的相似,而不是簡(jiǎn)單的將記錄加入最近的類中,這種處理能避免邊遠(yuǎn)的個(gè)體對(duì)類的干擾。多段索引和二重索引技術(shù)適應(yīng)了聲音短時(shí)分析的特殊性,實(shí)現(xiàn)了少量樣本的高維聚類,同時(shí)保持了合理的索引,綜合了特征信息,使查找結(jié)果更加可靠,具有很高的使用價(jià)值。
參考文獻(xiàn):
[1] Umesh S,Cohen L, Marinovic N,Douglas J.Scale Transform in Speech Analysis,IEEE Transactions on Speech and Audio Processing,2001,7(1).
[2] Hui Jiang, Keikichi Hirose and Qiang Huo, Robust Speech Recognition Based on a Bayesian Presiction Approach,IEEE Transactions on Speech and Audio Processing,2004,7(4):7.
[3] Tan L,P. C. Ching.Cantonese Syllable recognition Using Neural Networks,IEEE Transactions on Speech and Audio Processing, 2005,7(4).
[4] Rivarol V.Douglas O'Shaughnessy and Azarshid Farhat, Generalized Mel Frequency Cepstral Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech Recognition,IEEE Transactions on Speech and Audio Processing, 2006,7(5).
[5] 張焱,張杰,黃志同.基于聽覺模型的魯棒性語音識(shí)別的研究[J].模式識(shí)別與人工智能,2002,(11)3:341-346.
[6] 肖國有,屠慶平.聲信號(hào)處理及其應(yīng)用[M].西北工業(yè)大學(xué)出版社,2003,12.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文?!?/p>