易雪蓉,黃 巍*,2,胡 迪,蔣 怡
1.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205;2.智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室(武漢工程大學(xué)),湖北 武漢 430205
語言是人類溝通的重要工具,語音識(shí)別是人工智能研究的重要領(lǐng)域。20世紀(jì)50年代,貝爾實(shí)驗(yàn)室設(shè)計(jì)了第一個(gè)語音識(shí)別系統(tǒng),實(shí)現(xiàn)了對(duì)孤立數(shù)字的語音識(shí)別[1]。20世紀(jì)60年代,提出了時(shí)間歸一化打分機(jī)制、音素動(dòng)態(tài)跟蹤技術(shù)和動(dòng)態(tài)規(guī)劃算法,有效地解決了語音信號(hào)的特征提取和不等長語音匹配問題[2]。20世紀(jì)70年代,模式識(shí)別思想、線性預(yù)測(cè)編碼等技術(shù)被應(yīng)用于語音識(shí)別中,識(shí)別對(duì)象從孤立詞轉(zhuǎn)移到連續(xù)語音[3]。20世紀(jì)90年代及以后,隱馬爾科夫模型(hidden markov modol,HMM)、高斯混 合 模 型(gaussian mixed model,GMM)被提出[4],基于GMM-HMM的語音識(shí)別框架得到廣泛使用和研究,文獻(xiàn)[5]通過改進(jìn)語音特征參數(shù)相鄰幀的相關(guān)性,進(jìn)一步提高GMM-HMM的準(zhǔn)確度;文獻(xiàn)[6-7]使用GMM-HMM識(shí)別了連續(xù)語音的聲調(diào)。目前,深度學(xué)習(xí)技術(shù)也被應(yīng)用于語音處理系統(tǒng)[8-11],由于它對(duì)訓(xùn)練數(shù)據(jù)和硬件資源有著極高的要求,限制了其使用范圍。
現(xiàn)代漢語是一種有聲調(diào)的特殊語音,音素和聲調(diào)組合可以構(gòu)成無數(shù)個(gè)多音字和同音字的發(fā)音。一方面,同一個(gè)漢字在不同的聲調(diào)下代表不同的意義,另一方面,相同的讀音可能代表完全不同的漢字,因此,與印歐語系的語言相比,聲調(diào)和上下文信息對(duì)漢語語音的識(shí)別具有更重要的作用[12]。
本文在語音模型中添加聲調(diào),并使用字轉(zhuǎn)移概率捕獲上下文信息,修改HTK[13]工具包以適應(yīng)漢語語音識(shí)別問題,實(shí)驗(yàn)結(jié)果證明了聲調(diào)對(duì)近音字識(shí)別的重要性,同時(shí)字轉(zhuǎn)移概率的引入能有效提高同音字識(shí)別的準(zhǔn)確率。……