劉明+卓嘎+王澤年
摘要:目前,藏語語音參數提取相關研究相對較少,藏語語音處理過程中的重要環節是對藏語語音中的參數提取,其準確性直接影響到系統的性能。語音信號的特征參數主要指的是語音信號的基音頻率和共振峰頻率。基于MATLAB GUI創建一個平臺將語音信號提取、預處理、分窗加幀可提高系統辨認度,讓其準確性增加從而更好地提高系統的性能。
關鍵詞:藏語語音;基音頻率;MATLAN GUI
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)34-0212-03
Abstract:At present, there are relatively few researches on the extraction of Tibetan speech parameters, and the extraction of Tibetan speech parameters is an important part in the process of Tibetan speech processing, and its accuracy directly affects the performance of the system. The characteristic parameters of speech signal are the pitch frequency and formant frequency. Based on the MATLAB GUI to create a platform to voice signal extraction, pretreatment, window frame can increase the system identification, so that the accuracy of the system to improve the performance of the better.
Key words: Tibetan speech; base tone frequency; MATLAN GUI
語音特征參數是人說話識別系統的關鍵組成部分,直接影響了系統的性能。藏語語音信號是冗余度相對較高的不穩定信號,將其特征參數提取并加以處理可以減少語音識別時所要處理的數據量,盡量能夠完整、準確地表達語音信號。語音信號的特征參數主要指的是語音信號的基音頻率和共振峰頻率。基音檢測作為藏語語音處理的關鍵環節直接影響整個語音處理系統的性能,基音檢測是根據濁音語音的周期性進行周期或頻率估算[1]。國內的藏語語音方面一般都在MFCC參數提取的理論基礎上進行運算與提取[2],本文運用MATLAB Guide藏語語音參數提取平臺的設計以及實現還是比較具有創新和實用的。
1 語音提取與函數處理
1.1 語音提取
藏語語音中濁音信號具有明顯的周期性,所以用Matlab wavread函數將語音中濁音部分提取出來。
1.2語音預處理[3-4]
語音信號的預處理中的預加重,主要是為了實現對語音的主要高頻部分進行加重和減小口唇輻射的一些影響,可以提高語音高頻部分的分辨率。大部分通過傳遞函數為[H(Z)=1-az-1]一階FIR高通數字濾波器來完成預加重,其中a是預加重的系數,0.9 1.3 分幀加窗[5] 進行了預加重數字濾波之后,信號就要進行加窗分幀的處理,因語音信號具有短時平穩性的特點(10-30ms內可以認為語音信號近乎不變),所以就可以把語音信號分為一個一個的短段來進行處理,這就是分幀,語音信號的分幀可以采用對可移動的一定長度的窗口用加權的方法來實現的。大多數每秒的幀數約為33~100幀,因情況而定。一般的分幀方法是交疊分段,前一幀和后一幀的交疊部分稱作幀移,幀移與幀長的比值大致為0~0.5。 漢明窗的時域與頻域波形,窗長N=61,如圖2所示。 2 MATLAB GUIDE界面設計[6-9] Matlab Guide是使用者與計算機程序之間的交互方式,是使用者與計算機進行信息交流的方式。通過GUIDE界面使用者不需要輸入命令,也不需要了解其內部是如何運行的。計算機在屏幕中顯示圖形和文本,而使用者可以通過輸入設備與計算機通信,用戶界面的功能是根據使用者來具體設定的。圖形用戶界面或GUI中包含多個圖形對象例如圖像窗口、圖軸、菜單、按鈕、文本框等組成的用戶界面,使用者點擊具體的對象,使其該功能被激活使用。Matlab guide既可以嵌入已有的仿真程序,又能把仿真之后的圖形化的結果以人機交互的動態形式直觀呈現出來,對于熟練使用MATLAB而又不想編寫大量VC代碼的人員來說,MATLAB GUI是一個最好的選擇。 MATLAB提供了兩種創建GUI的方法,一種是直接用編程的方法來開發創建整個GUI;另一種方法是通過MATLAB中GUI向導來開發創建GUIDE環境進而形成相應文件.GUIDE 給用戶提供了一個方便高效的集成運行環境,主要可分為菜單欄和工具欄、向GUI中添加控件還有用戶界面函數編輯窗口三部分,在使用GUIDE創建GUI時,可以把設計好的GUI界面保存成為一個用戶界面窗口定義文件(FIG),同時又可以自動生成對應的源程序文件(M).該M文件中包含了GUI的初始化代碼以及界面布局的控制代碼.因為這種GUI向導來開發創建GUIDE環境進而形成相應文件的方法比較簡單直觀,以及在M文件的管理和程序代碼的修改上相對比較方便,所以本文使用MATLAB中GUI向導來完成界面設計,設計過程主要包含兩大部分,分別為GUI界面設計和對象的響應。
圖形用戶界面的具體設計制作步驟如下:
① 分析用戶界面的主要功能,明確設計的主要任務;
② 繪出使用者想要的界面草圖,從使用者的角度來進行審查;
③ 啟動GUIDE,選擇相應的操作模版,按照之前設計好的草圖繪制靜態界面,并向GUI中添加相應的控件,以及對相應控件的屬性進行設置;
④ 編寫和調試相應對象的響應函數,從而實現用戶界面的動態功能;
⑤ 運行圖形用戶界面,進行功能的測試。在設計過程中,步驟之間一般都是交叉反復進行的,設計和實現過程都不可能一步到位的,因此我們要不斷進行調試,直到使我們滿意為止。
⑥ GUI藏語語音參數提取平臺包含了以上功能,實現了語音提取,預處理,分幀加窗等功能,使得語音信號辨認度更高,準確性增加。
3 結束語
藏語語音處理過程中的重要環節是對藏語語音中的參數提取,其準確性直接影響到系統的性能。但是藏語語音參數提取相關研究相對較少,語音信號的特征參數主要指的是語音信號的基音頻率和共振峰頻率。語音信號提取、預處理、分窗加幀可提高系統辨認度,讓其準確性增加從而更好地提高系統的性能。基于MATLAB GUI藏語語音參數提取平臺將滿足提高系統辨認度,使得基因頻率和共振峰頻率的準確性得到提高。藏語語音參數提取更容易。
參考文獻:
[1] 卓嘎,邊巴旺堆.基于Matlab的藏語語音基音檢測算法研究[J].現代電子技術,2015,38(10):20-22.
[2] 卓嘎,姜軍,邊巴旺堆.基于Matlab的藏語語音MFCC參數提取研究[J].西藏大學學報:自然科學版,2017,32(1):58-62.
[3] 耿李廣.語音信號的短時頻域分析[D]. 安徽財經大學,2012.
[4] 王璐.基于模塊化的語音信號預處理實現[D].大連理工大學,2009.
[5] 鄭中華.噪音環境下漢語連續數字識別與研究[D].合肥工業大學,2013.
[6] 王光艷,趙曉群,王霞.基于MATLAB GUI的語音信號特征提取系統設計[J]. 河北工業大學學報,2010,39(4):14-18.
[7] 楊超,聶仙娥,王鋒,等.基于GUI的聲信號采集系統界面設計[J].電聲技術,2012,36(3):66-68.
[8] 李俊旺,孫傳堯.基于MATLAB/GUI的礦物浮選動力學研究平臺設計[J].化工礦物與加工,2012,41(2):4-8.
[9] 薛山.MATLAB基礎教程[M].2版.清華大學出版社,2013.endprint