徐麗琍
【摘要】普通話水平測試是踐行“推廣普通話”這一基本國策的重要手段。隨著技術革新,傳統(tǒng)的“人工測試”轉變到由計算機進行輔助測試的方式。語言識別技術以及語言評測技術的應用,是不斷推動普通話水平測試走向成熟的關鍵。
【關鍵詞】語音識別技術 語音評測技術
【中圖分類號】G65 【文獻標識碼】A 【文章編號】2095-3089(2017)18-0215-01
經(jīng)過20多年的發(fā)展,現(xiàn)今的普通話測試是通過計算機輔助測試的方式來完成的,主要在其中運用了語音識別技術以及語音合成技術,但是采用的測試系統(tǒng)是科大訊飛公司生產(chǎn)的測試系統(tǒng)。
一、語音識別技術的基本概述
1.預處理
因為應試人員輸入到測試系統(tǒng)中的是一些計算機沒有辦法識別的模擬信號,所以在計算機對信號進行處理之前,必須把模擬信號轉化為數(shù)字信號。這就是預處理的作用,預處理包括預濾波、預加重、采樣和量化等步驟。
預濾波的主要作用是防止采樣頻率出現(xiàn)混疊干擾,同樣可以對電源工頻干擾進行抑制。
預加重是針對采樣部分高頻信號來進行的,主要就是為了提高高頻部分語音信號的分辨率,同時對發(fā)聲過程中聲帶以及嘴唇的干擾進行消除,使得高頻的共振峰更加突出。普通話水平測試系統(tǒng)中預加重的工作是通過一階高通濾波器來完成的。
采樣和量化是通過A/D轉換器來完成的,在每個周期之內,A/D轉換器都會測量以及量化信號各一次。這樣聲音信號就會轉變?yōu)閿?shù)字音頻信號。在模擬信號向數(shù)字信號轉換之前,首先需要對模擬信號波形進行分割,其實這就是采樣的本質。具體來說,是在采樣周期之內模擬信號的波形上取一個幅度值,這樣原本連續(xù)的模擬信號就會變?yōu)殡x散信號。采樣周期的倒數(shù)為采樣頻率,在采樣頻率高于聲音信號的最高頻率的2倍時,數(shù)學信號所表示的聲音才能夠被準確的還原,這是實際采樣過程中的一個難點。采樣結束之后,聲音音量的大小還會受到聲波幅度電壓值大小的影響,而對該數(shù)值的數(shù)字化表示,就是“量化”。量化首先要做的是對整個聲波幅度進行劃分,之后對區(qū)段內的值進行分類,然后用同一量化值進行賦值計算。對聲波幅度的劃分是按照2進制的方式來完成的。
2.特征參數(shù)的提取
語音識別系統(tǒng)中特征參數(shù)的提取是用梅爾倒譜系數(shù)來完成的(簡稱MFCC),該系數(shù)具有良好的抗噪音能力以及識別能力。
MFCC的提取是按照以下步驟來完成的:首先求Mel標準刻度,Mel標準刻度能夠描述人耳頻率的非線性特征。是通過處理之后的語音頻率來計算的,Mel標準刻度的單位為HZ。其次進行FFT操作,因為通常情況下很難根據(jù)信號本身的變化特征分析出信號時域上的變化特征。為了操作的準確性,我們通常用信號頻域上的能量變化來代替信號時域上的變化,不同的能量變化特征能夠代表語音信號本身的特征。因此如果我們將分幀之后的語音信號加上Hanmming窗,還應該對每幀信號進行FFT操作。這樣就能夠獲得信號在頻譜上的能量分布,語音信號的功率譜也是在這個基礎上計算得來的。然后需要進行的是三角帶通濾波器濾波,要求每個濾波器組輸出信號對數(shù)能量的準確值。在這里需要說明,MFCC并不受輸入信號的音高等因素的影響,所以說以MFCC為特征的語言識別系統(tǒng),即當前普通話水平測試之中所采用的系統(tǒng)也不會受到輸入語音音高等因素的影響。借助于三角帶通濾波器,我們就能夠對聲音頻譜進行平滑化處理,而且還能夠消除諧波的作用,突顯原本聲音信號的共振峰。測試系統(tǒng)所采用的三角形濾波器,每個頂點與相鄰濾波器的起點以及終點都能夠做到重合,這樣相鄰兩個濾波器之間就會出現(xiàn)重疊區(qū)域。然后對濾波之后的信號進行計算,就能夠求出濾波器組輸出的對數(shù)能量和倒譜系數(shù)。
二、語音評測技術的基本概述
1.工作原理
這項技術運作首先要做的是從發(fā)音資料庫中對標準語音資料進行特征提取,分析其中的顯著特征。之后要做的是對大量的非標準發(fā)音資料進行特征提取。然后對提取的這兩部分發(fā)音材料進行分析,系統(tǒng)自動生成一套完整的評分規(guī)則。最后才能夠對待測的語音資料進行分析,從而得出一個相對直觀、準確的評分。當前語音評測技術是普通話水平測試系統(tǒng)中最常用的技術。
2.語音評測技術在漢語評測中的應用
語音評測技術已經(jīng)能夠實現(xiàn)對用戶輸入的語音進行全部接收,所以說它已經(jīng)使得說話過程變的非常積極了,這也是將這項技術運用到普通話測試之中的重要原因之一。應用這項技術最關鍵的一個作用就是對說話者的語音進行反饋,要實現(xiàn)這一目標需要建立起完備的語音語料庫,這需要對大量的標準語音以及非標準語音進行分析。雖然說這一技術的存在我們已經(jīng)實現(xiàn)了對于語音的自動評測,但是目前所用的評分系統(tǒng)對于句子層的敏感度較低,而且評測的內容必須是已經(jīng)被收錄在系統(tǒng)之內的問題并沒有被解決。
對于漢語語音的識別是借助HTK平臺來實現(xiàn)的,因為漢語的特殊性,為了提高識別的準確度我們建立起了孤立詞語音識別系統(tǒng),對照標準發(fā)音模板而進行的特征比較,評測遵循的是發(fā)音與模板相似性越高分越高的原則。而相似性比較的參數(shù)有能量、基頻以及MFCC參數(shù)等等。
參考文獻:
[1]周曉蘭. 計算機輔助普通話水平測試中的語音識別技術探討[J]. 農(nóng)村經(jīng)濟與科技,2016,(22):240-241.
[2]周曉蘭. 普通話水平測試系統(tǒng)中語音識別和語音評測技術研究[J]. 中外企業(yè)家,2016,(29):265-266.
[3]萬濟萍,劉子菡,王玥,劉婉姬,張清濤,辛杰. 基于語音識別技術口語自動評測的專利分析[J]. 電聲技術,2012,(S1):53-56.