楊林國
(安徽職業技術學院,安徽合肥230061)
近年來,自動語音識別ASR(Automatic Speech Recognition)在移動互聯網中受到越來越多的重視。其中,基于N-gram的統計語言模型LM(Language Model)訓練是ASR中聽寫(dictation)應用的重要組成部分。但是N-gram語言模型面臨兩個重大的問題,即數據的稀疏性[1]和對訓練語料的強依賴性。一般情況下,要訓練相應的N-gram的語言模型,必須在相應的領域搜集大量的領域語料,并且利用各種有效的平滑算法[2]來解決數據的稀疏性。但是,在實際的應用中,對于領域相關的語料需要大量的人力來搜集或者無法得到,同時特定領域具有特定的分類(如歌手名)和實時性,這限制了在特定領域中語音識別的應用。因此,在這種情況下,基于特定領域的詞類擴充方法在語音識別中十分重要[3]。
通常情況下,傳統的特定領域的語言模型流程是將一個通用的、訓練充分的通用語言模型和一個特定領域的、訓練不充分的特定領域模型通過某種方式組合成一個新的模型。因此,這種自適應技術通常也叫話題自適應或者領域自適應技術。可以使用大量的文本訓練成一個通用的語言模型M,在給定特定領域的少量語料S后,語言模型自適應的目標就是利用M和S為該特定領域生成一個特定領域模型。用這種方法能夠取得比較好的結果[4-5]。但是,這種傳統的方法無法滿足特定領域詞表的不斷擴充和實時性。
為了解決特定領域的詞類擴充和自適應問題,本文設計了基于分類的語言模型和HCLG[6]結合的新型解碼方法,如圖1所示。首先需要設計帶標簽的詞類的語言模型,將通用和特定領域語料中的類別用標簽替代,訓練生成基礎詞類模型,通過構圖生成相應的HCLG。同時,將類別的詞表生成有限狀態圖。最后通過標簽將兩個HCLG圖替換合并,生成自適應特定領域HCLG。此外,由于類別詞表相當于語料變動很小,可以不斷更新并快速地應用到實際的環境中。

N-gram模型[6]于1980年提出,是一種應用廣泛的統計語言模型。它采用Markov的假設,即每個詞的出現只與前n-1個歷史詞有關,即:

其中s=w1,w2,w3…wn,w1,w2,w3…wn表示n個詞。

其中,c(w1,w2,w3…wn)表示w1,w2,w3…wn在語料中出現的次數。
N-gram語言模型被廣泛應用在語音識別、文本處理等各種領域。但是,N-gram語言模型存在一個問題,當一些詞匯在學習語料集中沒有出現而出現在測試集中時,則會出現數據的稀疏性問題。在特定領域的應用中,這種數據的稀疏性問題[7]尤為突出。雖然目前提出了很多平滑算法來解決此類問題。但是在特定領域中不能解決專業詞匯或者新詞的問題,如歌曲識別中的歌手名和歌曲名,在互聯網中每天都在更新且數量巨大。另一種方法是通過對單詞的聚類減小模型空間來解決數據的稀疏問題。本文基于改進的分類的語言模型來快速擴充詞匯,解決數特定領域的數據稀疏問題。
在上文中,特定領域中語言模型的數據稀疏問題尤為突出。而基于詞類的語言模型是對基于詞的語言模型的改進,可以解決此類問題。
假設類別用tag表示,如“我想聽青花瓷(tag)”,即:

其中s=w1,w2,w3…tag,w1,w2,w3…v表示n個詞。

由式(4)可以看出,tag是類別標志,在學習訓練時,將語料中的類別詞用tag來替換,訓練生產的語言模型就是關于tag分類的語言模型,如圖2所示。

目前的分類的語言模型在計算類別詞的概率時是通過平均類別的概率來計算的,在語音識別中,不能快速產生新的解碼圖結構,并且類別間的空間均分在實際的特定領域中時存在識別率降低的情況。因此,本文將帶標簽的分類的語言模型在HCLG上進行合并,提高生成新模型的速度和特定領域的語音識別率。
以加權有限狀態轉換器WFST(Weighted Finite State Transducer)[7-8]為框架的大詞匯量連續語音識別系統被廣泛的應用,目前很多主流的語音識別系統均采用這一框架。語音識別的解碼任務可以看成是在語言模型、發音詞典規律、上下文相關和隱馬爾可夫模型等知識源限制下,尋找一個最有可能的隱馬爾可夫模型狀態序列的過程。
語音識別解碼就是在給定輸入特征序列下尋找最優的次序列w,即在式(5)中尋找最優的次序列。將式(5)進行分解,表示成不同的知識源,并將它們表示成加權有限狀態轉換器的形式,如表1所示。


表1 語音識別中各種知識源的WFST表示[9]
語音識別中的加權有限狀態轉換器(HCLG)的整體結構如圖3所示[8-10]。
通過分析可以看到,本文中主要是對語言模型(G)進行修改和改進。因此在下面的討論中,將HCLG簡化為G的圖結構來討論,但是G具體包含了HCLG的所有信息,只是表示上方便。
在上一小節中,對HCLG的結構進行了解析,在本小節中,對之前產生的帶標簽的分類的語言模型在HCLG進行合并。以歌曲特定領域為例分析HCLG的合并過程,其中文中的HCLG是簡化了的HCLG。
如圖4所示是一般的HCLG圖結構,在節點間的弧上是N-gram語言模型產生的連續連接詞。在1.2小節中介紹了帶標簽的分類語言模型,如圖5所示即為產生的帶標簽的分類的HCLG,即將圖4中的歌曲名和歌手名用tag-song和tag-singer來代替。帶標簽的分類的HCLG是由圖產生的ALPA語言模型通過OpenFst工具產生G.fst,再通過和發音詞典(L)、上下文相關音字模型(C)和隱馬爾科夫模型(H)一系列操作進行生產。
對于類別的詞匯,需要建立字的HCLG,即將單個字做為一個詞建立ALPA,然后按照建立HCLG的流程生成類別的HCLG,如圖6所示。

圖3 語音識別中的HCLG

圖4 一般HCLG圖結構

圖5 帶標簽的HCLG

圖6 歌手和歌曲的HCLG
有了以上帶標簽的分類的HCLG和類別的HCLG,即可以通過替換進行圖的合并。如圖7所示,將圖5中的tag-singer和tag-song的弧用類別的HCLG來代替,在替換弧的前后加上eps弧,以使在進行圖搜索的過程中與改變之前保持一致。
實驗所采用的聲學模型是由100 h的863語言庫采用Kaldi[9-10]的DNN訓練工具訓練所得。實驗采用39維特征參數,包括2維Mel頻率參數(MFCC)和normalized Log能量值以及它們的一階、二階差分和倒譜均值正規化CMN(Cepstral Mean Normalization)。音素集合使用CMU重音詞典中定義的39個音素,加上一個3狀態的靜音模型和一個單狀態可跨越的短暫停模型。
對于語言模型,針對歌曲特定領域,選取了兩個類別:歌曲名和歌手名。歌手列表2 000個,歌曲列表5 000個,語料是由百度歌曲知道和搜狗開放語料庫的文本混合而成(10 GB)。
使用3個小型的測試集進行測試,每個測試集包括音樂相關的問題200句。在使用音樂的限定模型進行體驗測試,語音識別效果相對于普通的方面在3個測試集上都有所提高,并且歌手名和歌曲名的識別率得到提高,這使得在實際應用中可以較好地利用這些準確信息,例如QA系統的實體識別。
本文提出了一種限定領域的詞類擴充方法,該方法從語言模型的改進和HCLG的合并兩方面來提高限定領域的語音識別結果。這種方法可以使得語言模型變得平滑,以適應限定領域的詞匯擴充。同時,通過HCLG的標簽替換可以減少HCLG的體積大小,從而提高搜索的效率。只要有分類的限定領域的詞表和合適的領域語料,該方法就能在語音識別中獲得不錯的識別結果。所以,這種方法在限定領域中有很多應用。不過,在本文中沒有對詞類間的聯系進行統計和使用,使得在詞類間的查找缺乏一定的選擇方案,在接下來的研究中,將會探究詞類間的關系,進一步提高限定領域的語音識別效率。
[1]邢永康,馬少平.統計語言模型綜述[J].計算機科學,2003,30(9):22-26.
[2]FEDERICO M.Efficient language model adaptation through MDI estimation[C].Eurospeech,1999:1583-1586.
[3]戴海生.實用的家電語音控制系統的設計與實現[J].電子技術與應用,2005,31(9):43-45.
[4]ROSENFELD R.A maximum entropy approach to adaptive statistical language modelling[J].Computer Speech&Language,1996,10(3):187-228.

圖4 兩種不同算法對不同人臉庫識別率的比較
[5]JELINEK F,MERCER R L.Interpolated estimation of Markov source法的人臉識別的方法。在ORL和Yale人臉數據庫上進行了實驗,并對實驗結果進行分析,結果表明,該方法能對人臉庫中由于光照條件引起的圖像過亮或者過暗起到很好的補償作用,使得人臉圖像更加清晰,提高了人臉識別的識別率。在下一步研究中可以考慮人臉圖像表情變化或者人臉某些部位被遮擋時對人臉識別帶來哪些影響。
參考文獻
[1]阮秋琦.數字圖像處理學(第二版)[M].北京:電子工業出版社,2007.
[2]謝賽琴,沈福明,邱雪娜.基于支持向量機的人臉識別方法[J].計算機工程,2009,35(16):186-188.
[3]張健,肖迪.基于多尺度自適應LDA的人臉識別方法[J].計算機工程與設計,2012,33(1):332-335.
[4]石蘭芳,姚靜蓀,溫朝暉,等.擾動激光脈沖放大器增益通量系統的漸近解法[J].南開大學學報,2012,45(5):19-23.
[5]WRIGHT J,GANESH A,YANG A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[6]鄭慶,閔帆,陳雷霆.基于復合變換的人臉光照補償方案[J].計算機應用研究,2008,25(2):507-508.
[7]張錚,王艷平,薛桂香.數字圖像處理與機器視覺[M].北京:人民郵電出版社,2010.
[8]邊肇祺,張學工.模式識別(第二版)[M].北京:清華大學出版社,2000.