一種基于聲韻母分割的漢語語音識別方法

2014-11-10 15:52:38鐘明輝

科技創新導報 2014年18期

鐘明輝

摘要：漢語語音識別研究中，識別單元的選取是很重要的。該文提出一種基于聲韻母分割的，以韻母為基本識別單元的大詞匯量孤立詞的語音識別方法，并與以漢語詞為基本識別單元的語音識別方法進行比較識別實驗。結果表明，基于韻母為基本識別單元的語音識別性能優于以漢語詞為基本識別單元的語音識別方法。

關鍵詞：識別單元聲韻母分割大詞匯量漢語詞

中圖分類號：TN912.34 文獻標識碼：A 文章編號：1674-098X（2014）06（c）-0249-01

語音識別是近年來十分活躍的一個研究領域。在不遠的將來，語音識別技術有可能作為一種重要的人機交互手段，輔助甚至取代傳統的鍵盤、鼠標等輸入設備，在個人計算機上進行文字錄入和操作控制。按可識別詞匯的多少分，語音識別可分為小詞匯量語音識別和大詞匯量語音識別。兩種語音識別系統所采用的處理方法也不完全一樣。小詞匯量語音識別基本都是以漢語詞為基本識別單元，而大詞匯量語音識別則多以音素為基本識別單元。該文中，我們主要的研究對象是大詞匯量漢語語音識別問題。所以，這里的音素是指漢語的音素，它與英語的音素有比較大的區別。因此，在漢語音素分割處理方面也有不同于通常對英語音素的處理方法。該文介紹了一種基于漢語聲韻母分割的，以韻母為識別單元的語音識別方法。

1 漢語語音的聲韻母分割

漢語普通話是以字為單位的。從聲學角度看，漢語中一個字就對應一個音節。因此，音節是漢語語音識別中最自然的識別單位。目前，漢語語音識別逐漸向大詞匯量連續語音識別的方向發展，音節作為識別單元已經慢慢被取代。這是因為當詞匯量增大時，不可能要求在進行語音數據訓練中每個音節重復出現很多次，以得到可靠的結果，那么如何合理地選取語音識別單元，并建立相應的聲學模型，是漢語語音識別的關鍵。因此，必須選取比音節更小的單元（音素）作為訓練和識別的基本語音識別單元。

1.1 漢語音節的結構

按照我國傳統音素分類方法，漢語的一個字節可以看成是由聲母和韻母拼合而成，即聲—韻母結構是漢語音節結構的顯著特點。該結構構成使得漢語音節的聲學單元組合具有一定的規律性，在這種結構中漢語音節的過渡音體現了音節的一種過渡性質。即在過渡階段的起始段保留了較多的聲母特性而韻母特性較少；在過渡音末段則保留的聲母特性較少而包含較多的韻母特性。其中，核心目標值是絕大多數音節的核心部分，具有典型的頻譜模式。也即本文提出的基于聲韻母分割的以韻母為識別單元的識別方法的理論依據。因此，將音節劃分成聲韻母音素作為識別單元是符合漢語特點的。

1.2 漢語的波形特征

漢語的每一個字都是一個單音節字。每個單音節又都是由聲母和韻母拼音而成。每個韻母又由若干個音節組成有多種聲調。因此共組成1200多個有調音節。從漢語的波形特征上看，聲母部分的變化很快，周期特性不明顯；到了過渡音段，逐漸呈現出周期性，而到了韻母部分，周期特性非常明顯，波形顯得穩定而有規律；最后能量逐漸減少，但依然保持周期性的特征。因此，任何一個漢語音節（零聲母除外），其波形運動周期性呈現無序-基本有規律-有規律。所以只要檢測到語音信號波形的變化，才能夠很好地進行聲韻母的分割了。

2 實驗

本實驗主要是驗證基于聲韻母分割的，以韻母為識別單元的方法對于漢語語音識別的識別率和識別速度的有效性，作者進行了特定人及非特定人的語音識別實驗，并與以漢語詞為基本識別單位的語音識別模型進行比較識別實驗。

2.1 實驗用語音庫

實驗采用了兩組數字語音庫。（1）特定人的漢語數字（0～9）語音識別時，每個數字100次發音（共1000個樣本），其中30次發音（共300個樣本）用作訓練集，另外70次發音（共700個樣本）用作測試集；（2）非特定人的漢語數字（0～9）語音識別時，共10人，5男5女，每人每個數字10次發音（共1000個樣本），其中每人每個數字3次發音（共300個樣本）用作訓練集，另外7次發音（共700個樣本）用作測試集。

2.2 實驗條件

該實驗在實驗室環境下完成，采用Cool Edit軟件錄音，數據采樣率為16000 Hz，量化精度為16 bits，幀長取32 ms（512點），幀移16 ms，本文將在此環境下得到的語音視為純凈語音。本實驗是在基于連續HMM的孤立詞語音識別系統上完成。經實驗比較，確定HMM的最佳狀態數為4，最佳混合度為3（12階MFCC+12階△MFCC，△表示一階差分）訓練模型。

2.3 實驗結果

見表1。

3 結語

該文提出了基于聲韻母切割的漢語語音識別方法，對該識別單元在特定人和非特定人在漢語語音識別中的應用進行了實驗分析，并與傳統的漢字詞為識別單元的語音識別方法進行了比較。結果表明，本文提出的基于聲韻母切割的以韻母為識別單元的識別方法，盡管與傳統的基于漢字詞為識別單元的識別率差不多，但是，這種基于音素的識別方法能使識別基元大大減少，從而使運算量和貯存量減少，而訓練數據量卻能相對增多，使得識別速度得到了大大的提高。因此，這種方法應用于大詞匯量的漢語語音識別時，優于以漢語詞為識別單元的語音識別方法。

參考文獻

[1] 何強，何英.MATLAB擴展編程[M].北京：清華大學出版社，2002.

[2] 張靜亞.基于CHMM的高性能連續數字語音識別算法[J].常熟理工學院學報，2005（3）.

[3] 何新，王曉蘭.漢語語音識別中的一種音節分割方法[J].火力與指揮控制，2004（12）.

[4] 王寧，萬旺根.漢語語音音素分割的一種新方法[J].上海大學學報（自然科學版），2002（4）.endprint

科技創新導報2014年18期

科技創新導報的其它文章: 一種中藥材粉末的永久玻片的制備方法; 充分利用圖書館資源優化讀者服務工作; 信息技術在語文教學中的運用; 電力電子技術在綠色照明電路中的應用; 分析混凝土孔板護岸技術在河道整治中的應用; 注塑機綜合節能技術改造