李學林 趙冬梅 梁明秀


摘? 要:音素分割是語音研究的一個主要組成部分,在大詞匯量連續語音識別及語音合成的過程中起著重要的作用。文章以貴州省中部苗語作為研究對象,對其進行特征的提取和音素邊界劃分。通過對錄音的頻譜能量進行低頻、中頻和高頻的均值計算,找到各個頻段均值點組成的波形突變點作為邊界,去掉寬度低于20 ms的邊界,然后將得到的邊界點進行排序,再一次篩選出寬度大于20 ms的邊界,得出劃分的邊界點。在一定的容錯范圍內,準確率能夠達到83%。
關鍵詞:苗族語音;Praat標注;語譜能量;語音分割
中圖分類號:TN912? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)03-0019-03
Abstract:Phoneme segmentation is a main components of speech research,it plays an important role in large vocabulary continuous speech recognition and speech synthesis. In this paper,Miao language in the middle of Guizhou Province is taken as the research object,and its feature extraction and phoneme boundary division are carried out. The mean value of low frequency,intermediate frequency and high frequency is calculated through the spectrum energy of recording. Find the wave mutation point composed of the mean points of each frequency band as the boundary and remove boundary with width less than 20 ms. Then the boundary points are sorted,and the boundary points with a width of more than 20 ms are screened out again to get the boundary points. The accuracy can reach 83% in a certain range of fault tolerance.
Keywords:Miao nationalitys voice;Praat annotation;spectrogram energy;speech segmentation
0? 引? 言
貴州省作為少數民族大省,少數民族的類別比較多,經過長期形成的語言也比較多,但對其在語音識別領域的研究還未深入。這其中一個重要的原因是沒有相應的數據庫為我省少數民族語言識別的研究提供素材。我校屬于少數民族院校,有相應的學科對地方少數民族語音進行研究和收集,少數民族語音素材豐富。在傳統的語音建庫中,一般是讓專業人員通過手工的方法進行音素標注。但這種方法往往存在工作量大、對人員的專業性要求高、個體差異大、工作周期長的缺點,給音素級的標注帶來了困難。特別是對于貴州省苗語等少數民族語言,由于缺乏相關的研究人員,利用手工標注的方法建立語音合成語料庫變得更為困難。因此,可以根據語音識別中的強制對齊方法,利用Viterbi算法來自動獲得語音的合成基元的時間標注,但這種方法仍然需要一個手工標注過的語料庫訓練語音識別所需的聲學模型。[1]對于缺乏專業標注人員的貴州省苗語來說,會造成訓練數據不足。
在當前語音研究領域,國內除了部分特殊部門或者公司有語音標注軟件之外,現在大多還是使用Praat軟件來完成語音的標注工作[2]。Praat軟件功能比較強大,能夠實現語音分析中各種參數的提取及輸出,也可以通過編寫腳本程序實現語音的特性分析,但在音素級標注方面依然需要大量的人工完成。構建大規模語音庫是語音系統的主要任務之一,標注的規范性和精度是決定語音庫質量的關鍵[3]。大量的語音數據標注需要許多的人力和物力,而且每個人對同一個音節的邊界劃分敏感度不同,產生的誤差較大[4]。因此設計一種音素標注方法來解決個人因素造成的影響顯得尤為必要。
本文設計的語音邊界劃分方法能提高音素標注的效率,統一相同音素的劃分精度,再通過人工對少量有問題的音素劃分進行校準,實現縮小誤差和減少錯誤現象。因此設計一種高精度的音素時長邊界劃分,對語音音素級的標注起著重要的作用。
1? 貴州中部苗族語音特征
貴州省苗族語言大致分為中部、東部和西部三個部分。本文主要以中部苗族語言為研究對象(既黔東方言),由北部土語、東部土語、南部土語3個部分組成,沒有帶鼻冠音的塞音、塞擦昔聲母,沒有連讀變調現象,其中聲母32個、韻母26個、聲調8個。
對10個來自貴州省中部苗語地區的同學的錄音材料進行采樣、整理、糾錯、標注工作。錄音環境選在安靜的教室中進行,使用常規筆記本電腦,錄音軟件為斐風,采樣率為44.1 KHz,精度為16 bit,單通道,共采集2 000個左右常用詞匯。因為并非專業錄音環境,可能存在一定的噪音,與專業錄音相比存在一定的偏差。語音音素邊界劃分及標注采用Praat軟件進行,采用國際音標進行標注。
通過對采集到的語音數據進行觀察,將語譜圖能量圖形狀和音素邊界相結合,把語音的語譜能量在所有頻率區域分為兩類,開口型和非開口型。這里從眾多詞匯當中篩選出兩個典型的發音展示,分別為翻譯成漢語的“蠱”和“八哥”,使用Praat打開觀察其特征情況。部分發音類型語譜圖如圖1所示,圖最上面為原始語音數據波形,中間是語譜圖,其中黑色的部分代表能量,顏色越深,能量越大,最下面是使用人工標注的音素,其中sil表示靜音段,最終用藍色的豎線分開兩個音素,從而得到各個音素邊界點的時刻。
圖1(a)為帶有開口型的語譜圖,從圖中可以看出,在中頻部分,音素的能量呈現一定的變化,其中多含有音素為a的元音或者相近的發音,且含有送氣音,能量較大的部分在時間軸上呈現一定開口形狀。圖1(b)語譜能量在低頻(0 kHz~1 kHz)、中頻(1 kHz~2.5 kHz)和高頻(2.5 kHz~5 kHz)區域相對比較規律,隨著時間軸具有明顯能量突變劃分點,稱為非開口型。通過大量的觀察比對,發現貴州省中部苗語語譜圖形狀多為這兩種情況的組合。
頻譜能量為開口型的音素,對依靠能量變化來進行音素邊界標定具有一定的迷惑作用,容易在中頻部分造成多分的情況,送氣音能量較低,易造成漏分的情況。
2? 語音音素分割
本文音素邊界檢測主要依靠語譜能量突變換作為劃分依據,用兩個步驟來完成。第一,對整個語音的語譜能量進行區域劃分,并進行均值計算,得到對應的波形圖;第二,根據得到的能量均值波形圖,設定閾值,切掉下半部分,將有波形數據的點作為每個區域的音素邊界,并進行寬度篩選,將各個區域的邊界數據融合,然后再次在時間軸上進行篩查。最后得到音素邊界的時刻點。
2.1? 音素邊界檢測
語音信號是一種時變信號,長時區間不具備穩定性。但在短時區間下,其波形基本保持穩定,這個時間長短在10 ms至30 ms的區間,為了使分割的數據更加細致,這里取6 ms為一幀。因此對語音信號的處理和分析大多在短時的基礎上。同一音素的兩幀之間,語譜能量值不會發生巨變。因此將能量值在低頻、中頻、高頻3個區域進行均值計算,得出均值組成的波形曲線,分別得出語音在3個區域的變化波形。波形出現聚變的地方,認為是兩個音素的邊界。
2.2? 音素邊界篩選
在進行分區域檢測邊界時,因為每個區域的頻譜能量有所區別,因此需要設不同的閾值,以便提高分割的準確性。通過大量實驗,在低頻區域取中心點大于0.4為閾值點,中頻區域也取0.4,高頻區域取0.25。為了避免出現兩條邊界時長過短的現象,需篩選相鄰邊界線的時長間距至少大于20 ms,以濾掉短時過沖情況。
在分割出各個區域的音素邊界點后,將各個區域的分割數據合并,并按照從大到小進行排序,篩選出所有大于0的數據,取出邊界點間寬度大于20 ms的數據作為分界點。最終得到音素的邊界時刻數據。
2.3? 結果評定
這里假定人工標注的時長數據為標準數據,通過比較邊界檢測算法得到的時長與人工標記的音素邊界時長的距離來評價檢測算法的性能。假定容錯時間差為t(ms),如果檢測結果與人工標注邊界的距離在t(ms)內,則正確檢測到該音素邊界;若在容錯時間范圍內得到n個邊界值,則多的n-1個值為錯誤檢測;若容錯時間內沒有檢測到對應的邊界,則認為出現漏分。[5]
3? 實驗結果
3.1? 實驗
實驗數據是收集的貴州省中部苗語詞匯2000個左右,基本覆蓋了中部苗語的日常用語范圍。人工使用Praat進行音素級標注,經過檢查、校驗,認為人工分割的音素為標準數據,可以作為算法檢測邊界正確性的參照。
邊界檢測在與人工標注的數據進行對比后,若容錯范圍在20 ms的時候,正確率為67.9%;若容錯范圍在30 ms的時候,正確率為75.4%;若容錯范圍在40 ms的時候,正確率為83%。
下面以“妻子”這個詞為例,“妻子”一詞程序標注邊界如圖2所示,在與人工使用Praat標注的邊界時刻比較,邊界檢測程序計算的時刻在容差范圍內。
3.2? 實驗分析
與人工劃分相比,本實驗方法的劃分準確性還需提高,仍然存在漏分的現象。主要是貴州省中部苗語的元音發音在頻譜能量上表現呈現一定開口等分布不均勻的情況,造成雖然是一個音素,但是中間能量分布不均勻,變化過大,超過閾值區間,造成誤分或者漏分。送氣音由于能量過低,造成均值的值過小,低于設定的閾值,造成漏分?!鞍取卑l音如圖3所示,右邊由于頻譜能量呈開口型,造成數據的交叉,最終合并后,造成多分的情況,左邊由于送氣音能量過低,造成漏分的情況。
4? 結? 論
本文根據貴州中部苗族語音的語譜能量特點,設計了一種邊界檢測的算法。此方法將語譜能量按頻率分布分成3個區域,分別為低頻、中頻和高頻,在每個區域內進行均值計算,因為相同音素相鄰兩幀的能量變化不會出現突變,各個區域的均值數據在時間軸上不會突然跳躍。因此把每個區域均值突變的地方當成兩個不同音素的邊界,然后進行數據合并,把不能重合的數據進行篩選合并,最后得出整個語音的邊界。通過實驗證明,該方法針對貴州省中部苗族語音音素邊界劃分具有良好的效果。
參考文獻:
[1] 劉豫軍,夏聰.語音合成音庫自動標注方法研究 [J].網絡安全技術與應用,2015(2):65-66.
[2] 楊艷珍.語音半自動標注系統的設計與實現 [D].蘭州:西北師范大學,2015.
[3] 李永宏,于洪志,孔江平.藏語連續語音語料庫設計與實現 [J].計算機工程與應用,2010,46(13):233-235+248.
[4] 楊辰雨.語音合成音庫自動標注方法研究 [D].合肥:中國科學技術大學,2014.
[5] 李立永,張連海,馮志遠.基于語譜能量的音素邊界檢測 [J].太赫茲科學與電子信息學報,2013,11(6):936-941.
作者簡介:李學林(1990.02-),男,漢族,貴州湄潭人,實驗室管理員,實驗師,碩士研究生,研究方向:風險管理與統計決策。