鐘穎



摘要:本文介紹了基于DSP TMS320VC5509A的語音識別系統,主要通過采用DTW算法,初步研究和探討在MATLAB軟件環境下實現孤立詞語的語音識別。系統由 TMS320VC5509A 芯片控制和TLV320AD50對原始語音進行采樣和A/D轉換,內部存儲器用來存放程序數據,外部存儲器用來存放各種語音數據。
關鍵詞:語音識別;DSP;Mel頻率倒譜系數(MFCC);動態時間規整(DTW)
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1007-9416(2017)05-0048-02
1 概述
伴隨科技進步,語音識別系統在越來越多的領域得到了廣泛的應用。本文主要是研究基于DSP的特定人、小詞匯量語音識別系統,提出更為優化和快速計算的算法,采用DSP芯片TMS320VC5509A 控制和TLV320AD50對原始語音進行采樣和A/D轉換,目的是研究出能識別人話的機器,通過接受人話口呼命令,掌握人發出的指令,從而做出指令要求的反映。
2 語音識別的實現流程
語音識別主要包括五個步驟。首先人口命令的模擬的語音信號輸入,通過A/D轉換后變成數字信號,但這時信號很難被直接識別,需要對信號進行特征提取,端點檢測在分析處理之前把要分析的部分從語音信號中找出來,提取了指定的語音信號特征參數后進行模式匹配,最后進行后處理,也就是對匹配節后的響應。一個典型語音識別系統[1]的實現過程如圖1所示。
3 系統的硬件設計
本語音識別系統以TI公司TMS320VC5509A DSP為核心用來處理各種數據和程序,對原始語音進行采樣和A/D轉換,程序寄存在內部存儲器,語音數據寄存在外部存儲器。這種基于DSP的語音識別系統比傳統的語音實時性強,功能好,而重要的是可以移植到手機手持設備中,這也是本系統設計開始就選用DSP開發板的原因。
4 系統的軟件實現
程序設計流圖如圖2所示。
4.1 端點檢測
本語音系統采用雙門限法來檢測端點,清音過零率檢測,濁音用短時能量。首先分別確定一個較低的、數值小的門限,和另一個較高的、數值大的門限。靜音段,如果連續幾個幀的過零率超過低門限,表示信號進入過渡區,信號開始。當兩個參數值低于低門限以下,則表示信號進入靜音區,信號結束。當兩個參數值高于高門限,則進入到語音段。當降低到門限以下,則認為是噪音,繼續掃描,標記好結束端點。
(1)短時平均能量和幅度。分別比較矩形窗和hamming窗長的短時能量函數,得出如下結論:不同的窗函數以及相應窗的長短均有影響。矩形窗的效果比hamming窗要差一些。如圖3圖4所示。
(2)短時平均過零率。實驗中用某一語音在矩形窗條件下求得的短時能量和短時平均過零率。由此看出:清音的短時能量較低,過零率高,濁音的短時能量較高,過零率低。如圖5所示。
4.2 特征提取
本系統選擇MFCC(Mel倒譜參)作為基本識別參數。Mel刻度根據主觀音高均勻劃分,與線性頻率關系[2]為:
(4-1)
在實際語音信號處理中,MFCC的計算過程較復雜,具體的計算過程:
(1)首先確定一幀語音信號的樣點數N,本系統N=212點。
(2)計算S(n)通過每一個三角形濾波器的輸出,得到M個參數h(m)。
m=1,2......M (4-2)
(3)對所有濾波器輸出進行對數運算,再進一步進行離散余弦變換(DCT)。i=1……16。
(4-3)
5 結語
系統最終在編程上實現了個別個體的特定語音的識別,基本上達到了預定的目標,識別所用各種算法經過驗證并且得到預想的結果。整個語音系統在硬件平臺DSP上實現,由此可以根據各個硬件的特點和社會的需要,設計出多種多樣的語音識別設備。
參考文獻
[1]蔡蓮紅,黃德智,蔡銳編著.現代語音技術基礎與應用[M].北京:清華大學出版社,2003.
[2]林坤輝,息曉靜,周昌樂.基于HMM與神經網絡的聲學模型研究[M].廈門:廈門大學學報(自然科學版),2006.
[3]陳立萬.基于語音識別系統中DTW算法改進技術研究[D].微計算機信息,2006.
[4]安鎮宙,楊鑒,王紅,余映.一種新的基于并行分段剪裁的DTW算法[C].計算機工程與應用,2007.endprint