羅洋+周蘭江
摘 要:根據領域術語的音節關聯特點,提出一種基于術語音節關聯特性的領域術語聲學模型建模方法。該方法首先根據領域術語字間發音的特點,以聲韻母作為識別基元,構建融合零聲母音節的擴展聲韻母集合(Extended Initial Final-EIF),然后根據術語發音的聲韻母組合情況制定出識別單元的組合規則,并構建上下文相關的三音子模型(Triphone-Tri),最后通過Tri-EIF模型實現領域術語識別。對比實驗結果表明,Tri-EIF模型具有較好的識別效果,術語識別正確率與上下文無關模型相比提高了28%。
關鍵詞:語音識別;領域術語;聲學建模;上下文關聯
DOIDOI:10.11907/rjdk.172367
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)002-0012-03
0 引言
聲學建模是語音識別領域中的一個關鍵問題。在建模過程中,建模單元的選擇尤為重要,目前可選用的建模單元有詞、音節和聲韻母等[1]。其中基于詞作為識別基元的聲學建模方法適用于小詞表語音識別系統[2];基于音節作為識別基元的聲學建模方法常用于構建上下文無關的聲學模型[3],該方法雖然能很好地刻畫出音節內部變化,但未考慮詞語發音時音節間的協同發音問題,當運用于大詞匯量語音識別時效果并不理想;基于聲韻母作為識別基元常用于構建上下文相關的聲學模型[4],此模型考慮了詞匯發音時音節內和音節間的關聯關系,有效緩解了音節間協同發音的問題,在大詞匯量語音識別和連續語音識別中得到了廣泛運用。
通用領域詞匯[5]識別時,常選用標準聲韻母集合(聲母和有調韻母總數接近200個)[6]。由于音節間上下文關系復雜,以聲韻母作為建模單元構建上下文相關的聲學模型時,模型數量級達到105,使得模型不容易被訓練,導致詞匯識別率低。在對領域術語進行識別時,由于領域術語詞匯量遠小于通用領域詞匯量[7],同時領域術語發音時常出現的聲韻母數量遠小于或等于標準聲韻母集合,另外領域術語發音時上下文關系相對簡單。因此,在對領域術語進行識別時,研究減少建模單元數量和根據領域術語發音特性制定建模單元組合規則,建立上下文相關的聲學模型是非常必要的。
1 基于領域術語發音規則的識別單元集合構建
對自然語言的識別和理解,首先必須將連續的講話分解為詞、音素、聲韻母等識別單元。通過對領域術語發音特點的研究發現,聲韻母的劃分比較符合術語發音特點。比如,術語中的音節通常由聲韻母構成,可以比較統一地表示領域術語的發音。另外,在領域術語發音中,聲韻母的上下文信息也只會是聲韻母或靜音。聲母和韻母的搭配使上下文發音的表示變得容易,也有利于模型的訓練和識別。
由于領域術語詞匯量規模遠遠小于通用領域詞匯量規模,故可以通過統計篩選出領域術語發音時常出現的聲母和韻母。得到適合領域術語發音的聲韻母集合后,還需對術語發音時出現的聲韻母組合情況進行統計并制定組合規則,以減少模型數量。經過統計,領域術語發音時聲韻母組合情況主要有:音節1(聲母-韻母)、音節2(聲母+韻母)、音節1+聲母、韻母-音節2。在此基礎上統計出所有可能出現的聲韻母單元組合情況,從而過濾出不存在的聲韻母組合,比如:“b-e”、“g-v”等。同時,由于領域術語中聲韻母的上下文關系比較復雜,聲母的上下文只能是韻母,而韻母的上下文既可以為聲母,還可以為韻母。在此,增加了6個零聲母音節{-a,-e,-i,-o,-u,-v}構建出擴展的聲韻母集合。引入零聲母音節后,每個韻母的上下文都只能是聲母,因此兩個韻母相鄰的情況將不再出現,從而簡化了領域術語中聲韻母的上下文關系。
2 領域聲學模型庫構建
在聲學模型中,識別基元與特征矢量存在一一對應關系,而聲學模型則是描述這二者之間對應的過程。通過聲學建模,可以估計待識別特征矢量序列所對應的語音識別基元,從而完成特征矢量序列到語音識別基元的識別轉換。
本文首先對擴展聲韻母集合(XIF)中的所有聲母和有調韻母建立模型,分別對應initial模型和final模型,再加上靜音模型sil和字間暫停模型sp,成為上下文無關的XIF模型。在此采用的模型為經典的連續概率密度隱馬爾可夫模型(CDHMM)[8]。針對領域術語的發音特點,主要采用了以下3種HMM結構,如圖1所示。
圖1中,(a)表示initial和final模型;(b)表示SP(Short Pause)模型,用來描述語音中的短暫停頓,一般只用一個狀態表示即可;(c)表示靜音模型silence,采用3個狀態表示,并且狀態間可以前后跳轉。
其次,根據領域術語發音特點:音節1(聲母-韻母)、音節2(聲母+韻母)、音節1+聲母、韻母-音節2,擴展XIF模型構建上下文相關聯的三音子模型(tri-XIF)。例如:領域術語可以用半音節序列來描述,即sil ini fin (sp) ini (sp) …ini fin sil,括號表示此處的sp可以被跨越。當擴展為tri-XIF時,initial模型可以表示為fin-ini+fin或者sp/sil-ini+fin的形式,final可以表示為ini-fin+ini或者ini-fin+sp/sil的形式。例如,單詞“西雙版納(XiShuangBanNa)”可以表示為圖2。其中,第一個狀態和最后一個狀態只起連接作用,沒有輸出概率。
然后,對模型進行訓練時,首先標注出用于訓練的語音數據對應發音字典的詞序列、起始時刻和終止時刻;接著利用Viterbi算法[9]對模型進行初始化,將對應于某個HMM的語音數據段按照固定的狀態序列進行最優的狀態切分,再利用切分到每個狀態的語音數據估計狀態參數;最后,利用Baum-Welch算法對初始化后的模型進行訓練。領域術語聲學模型庫的構建流程如圖3所示。endprint
最后,識別工作就是在給定領域術語聲學模型庫的基礎上,利用語法和詞典建立的詞網絡,根據一定的搜索策略在該網絡中找到一個最佳路徑作為識別結果。
3 領域術語識別實驗與結果分析
3.1 實驗數據
本文錄制了旅游領域術語的語音語料。其中旅游術語詞匯是從互聯網上抓取并經過整理的旅游詞匯,共計約5 000個。其中旅游景點名有3 741個,還包含一些旅游機構名﹑常用口語等。朗讀的旅游領域問句和術語主要以略帶方言的口音為主,包括來自云南、山東、湖北、湖南等地方言。語音庫有10人的語音數據,共計20h。語音標注采用手工標注為主,輔以機器切分的方式獲得。實驗中選用7人的語音數據作為訓練集,剩下3人的語音數據作為測試集。測試語音數據集不在訓練中使用。
其中基于領域術語的發音特性構建出的擴展聲韻母集合如表1所示。
在實驗中,使用了劍橋大學開發的HTK語音識別工具包[10],版本為v3.3。測試結果使用模型數量進行詞匯識別正確率評價。
3.2 術語識別中領域聲學模型引導概率權重選取
在本文構建的聲學模型中,領域聲學庫對領域術語的識別準確率有著一定影響。本節通過實驗選擇合適的引導概率,使領域聲學庫和通用聲學模型有較好的融合,從而達到較好的識別效果。為更好地表現識別率的變化,本文在2 000個詞匯的數據集上進行了測試,結果如圖4所示。
由圖4可以看出,在λ=0時,聲學模型中并沒有加入領域聲學庫,識別錯誤率與通用系統相同;隨著λ的增大,在取值為0.6~1.4時,識別錯誤率下降明顯,最低達到16.7%。與通用系統相比,識別率下降了4.6%;然而λ繼續增大時,識別錯誤率沒有進一步下降,反而上升。
從本質上講,領域聲學庫是通過加大當前音節與后續音節的聯系概率,以增大術語詞匯的區分能力。在包含一定比例術語的數據集上,當取值一定時,這種影響能較好地區分出前后音節的關聯。而過大地增加權重,會干擾正常詞語的概率計算,反而使識別錯誤率上升。
3.3 聲學模型性能比較
為了說明基于領域術語音節關聯特性的聲學建模方法不僅能減少模型規模,還能提高領域術語的識別率,所以設置了如下實驗,在實驗中分別使用擴展聲韻母集合(EIF)作為識別基元構建了上下文無關的聲學模型(EIF-Monophone)和上下文相關的聲學模型(EIF-Triphone),另外使用標準聲韻母集合(IF)作為識別基元構建了上下文無關的聲學模型(IF-Monophone)和上下文相關的聲學模型(IF-Triphone)。這4種模型在不同詞匯量下對于領域術語詞匯的識別正確率如表2所示。
首先從表2中可以看出,無論是上下文無關的聲學模型(Monophone)還是上下文相關的聲學模型(Triphone),在同等詞匯量下使用EIF作為識別單元,識別正確率都高于以IF作為識別基元的聲學建模方法。說明擴展的聲韻母集合由于考慮了領域術語發音特性選取出適合的識別基元,同時在建立模型時基于術語發音規則優化基元組合,使聲學模型數量大大減少,從而使聲學模型得到了充分訓練,達到了提高領域術語識別正確率的效果。其次從表2中還可看出,無論是選用IF還是EIF作為識別基元,上下文相關的聲學模型(Triphone)在同等詞匯量下識別正確率都遠高于上下文無關的聲學模型。說明本文研究的基于術語音節關聯特性的領域術語聲學建模方法,由于考慮了領域術語間協同發音的問題,針對術語發音時音節之間的關聯關系,使術語識別正確率得到了顯著提高,此方法尤其適用于對大詞匯量領域術語的識別中。
上下文無關的聲學模型無論選用IF還是EIF作為識別基元,模型規模都遠高于上下文相關的聲學模型規模。另外,IF-Triphone模型的規模也是EIF-Triphone模型規模的4倍左右。以上兩個現象分別說明了在大詞表術語識別中,上下文無關的聲學模型由于基元組合情況較為復雜,導致模型規模異常龐大。而建立通用領域上下文相關的聲學模型(IF-Triphone)時,由于沒有很好地考慮到術語發音時音節間的組合規則,導致模型數量也遠高于本文提出的擴展聲韻母集合(EIF)作為識別基元構建的上下文相關的聲學模型(EIF-Triphone)。
4 結語
本文提出的基于術語音節關聯特性的領域術語聲學建模方法,結合了術語發音時音節間的關聯關系,構建出擴展聲韻母集合,并基于術語發音規則構建上下文相關聯的聲學模型,不僅降低了聲學模型訓練時的計算復雜度,同時提高了術語識別正確率。
參考文獻:
[1] 陳方,高升.語音識別技術及發展[J].電信科學,1996,12(10):54-57.
[2] 汲清波,盧侃,李康.在孤立詞語音識別中動態時間規正的改進算法[J].計算機工程與應用,2010,46(25):55-57.
[3] BAGHDASARYAN A G, BEEX A. Signals,automatic phoneme recognition with segmental hidden markov models systems and computers (ASILOMAR)[C].2011 Conference Record of the Forty Fifth Asilomar Conference on, Pacific Grove, CA,2012:569-574.
[4] GEORGE E DAHL, DONG YU, LI DENG, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech & Language Processing,2012,20:30-42.
[5] 邵佳.旅游領域問句語音識別中規則語言模型自動構建研究[D].昆明:昆明理工大學,2013.
[6] 劉連國.基于聲韻母結構的漢語語音識別研究[D].哈爾濱:哈爾濱工業大學,1998.
[7] 司圣濤.領域知識庫的構建方法及其應用研究[D].昆明:昆明理工大學,2009.
[8] FARSI, H, SALEH R. Implementation and optimization of a speech recognition system based on hidden Markov modelusing genetic algorithm,Intelligent Systems (ICIS)[C].2014 Iranian Conference on,Bam,2014:1-5.
[9] 蔣冬梅,傅國康,趙榮椿.考慮狀態持續時間的改進Viterbi算法及語音識別[J].西北工業大學學報,2000,18(4):595-59.
[10] S YOUNG, J JANSEN, J ODELL, et al. The HTK book[R].UK:Cambridge University Engineering Department,2009.endprint