張瓏 李海峰 馬琳
摘 要:在發音質量自動評測任務中,韻律發音質量評測是非常重要的高級環節,對語音的自然度和可理解程度方面有著直接和重要的影響。本文在韻律相關的多種聲學特征的基礎上,進一步融合了韻律相關的多種語言學統計特征,并使用支持向量機為分類模型,實現對韻律發音質量的有效評測,人機相關性達到0.779,相對提升了3.45%。同時,采用基于浮動思想的SFFS算法進行特征篩選,去除了目標無關的特征,提高了支持向量機模型的精度和泛化能力,進一步提升了評測性能。
關鍵詞:發音質量評測;韻律評測;語言學統計特征;支持向量機;特征篩選
中圖分類號:TN912.3 TP391 文獻標識號:A 文章編號:2095-2163(2014)05-
Automatic Prosody Evaluation Method Combining Linguistics Statistics Features
ZHANG Long 1,2 , LI Haifeng1, MA Lin1
(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
2 College of Computer Science and Information Engineering, Harbin Normal University, Harbin 150025, China)
Abstract: Prosody has a direct and important influence on the naturalness and intelligibility of speech, and prosody evaluation is an important component of automatic pronunciation quality evaluation. Combining linguistic statistics features with various acoustic features related to prosody, an effective prosody evaluation system employing support vector machine model as classifier is realized and the human-machine correlation reaches 0.779, a relative increase of 3.45%. In the mean time, SFFS algorithm based on floating ideas for feature selection is adopted to remove some target-independent features, which improves the precision and generalization of support vector machine model, and then further improves the performance of the evaluation system.
Keywords: Pronunciation Quality Evaluation; Prosody Evaluation; Linguistic Statistics Features; Support Vector Machine; Feature Selection
0 引 言
人們在進行言語交流時,相互之間傳遞的不僅僅是語言文字信息,還包含著豐富的韻律信息。韻律信息屬于超音段信息,主要反映著說話人發音的抑揚頓挫(節奏),強調(重音),語調和語氣等。一方面,韻律信息有助于說話人更清楚、準確地表達所要表達的信息,提升語言的自然度水平和可理解程度;另一方面,韻律信息有助于聽話者更清楚、準確地理解所聽到的信息,甚至包含對說話人意圖、情感、態度、語氣等多個方面的把握和理解。
在發音質量自動評測任務中,對韻律發音質量進行評測是非常必要,也是非常重要的。然而,從音節層到音步層,聲調連讀會產生變調;從音步層到句子層,聲調會受到句調的影響再次發生變化;從句子層到語篇層,句調還會受到基調的影響,句調的高低、強弱、寬窄、長短將再次發生變化[1]。因此,對韻律發音質量進行準確評測,難度很大。本文首先對現有韻律發音質量評測方法的國內外研究現狀進行了考察;接著介紹了可用于韻律評測的相關特征,主要包括現有文獻中的主流的聲學特征,并增加了一些語言學統計特征;其后介紹了用于韻律評測的支持向量機分類模型,以及基于浮動思路的SFFS特征篩選算法;最后是實驗及實驗結果分析,同時對下一步工作進行了展望。
1國內外研究現狀
目前,國內外研究中,韻律發音質量自動評測大多是從整體聽感質量的角度進行評測,而針對具體子項的發音質量評測,比如重音發音質量評測、節奏發音質量評測等,仍相對較少。Chen等人先利用語音識別器進行音段切分和識別,然后在各音段上與參考語音進行比對,分別計算音量、基頻、后驗概率等方面的距離,并進行加權平均,最后映射為韻律得分[2]。Yamashita等人以基頻、時長、能量為主要特征,采用多重線性回歸的方法去計算待評測語音與參考語音的相似度,再轉化為韻律等級[3]。Jia等人則采用多個標準語音作為參考語音,分別從聲調、基頻走勢和節律組織三個方面計算待評測語音與其多個標準參考語音的韻律模式間的相似度[4]。Huang等人還提出了在Micro和Macro兩個層次上進行評測的多韻律匹配算法,并可以進行模板的自動獲取,在國內中學生外語口語考試中也取得了很好的效果[5]。
上述研究雖然取得了較好的應用效果,但是卻需要為每一條待評測語音都提供至少一個參考模板(即標準發音人的標準語音)作為對照,其應用范圍受到很大的限制。也有少量研究不需要提供參考模板,而是直接從語音信號中提取各種可能的韻律相關發音特征,對韻律發音質量直接進行評測。Teixeira等人即選擇了語調、詞匯重音分布、段長、停頓等多種特征集合,并利用線性回歸、分類器融合等技術手段,獲取可靠韻律等級[6]。Maier等人又綜合了文本相關和文本無關的韻律特征集共187維,利用SVM分類器對待評測語音進行了韻律評測[7]。上述這些不需要提供參考模板的研究工作的基本思路就是廣泛優選多種類別的韻律相關特征,優選合適的分類模型,分類的同時實現評測,相對比較困難,評測的人機相關度還有待進一步提高。
2韻律相關的發音特征
與韻律感知相關的三個最常用的聲學特征是音高、音強和音長,以及與其對應的統計特征和動態特征,但是到底哪些特征對評測真正有效,現有文獻還未給出一個廣泛而統一的共識[8]。因此,本文首先選擇傳統韻律評測文獻中已經實驗驗證的與韻律相關、且較為顯著的聲學相關特征,具體可參考文獻[7,8],而且又特別增加了語音學統計特征。
2.1聲學相關特征
首先提取最基本的聲學特征參數,包括基頻、能量、清音段和濁音段。然后針對每一個音節,提取如下聲學特征:基頻、能量及其相關特征,以及音節時長,共21個。下面即以基頻為例進行說明,具體參見圖1。能量相關的各類特征與基頻相關特征類似,其具體表征含義則如下:
A1-A4:基頻開始點、結束點的時間和幅值。
A5-A8:基頻最大值、最小值出現的時間和幅值。
A9-A10:基頻的回歸系數及回歸系數殘差。
A11-A20:能量相關的各類特征。
A21:音節的時長。
針對每一個句子,計算如下16個聲學特征:
U1-U4:整句的嗓音頻率微擾Jitter和嗓音振幅微擾Shimmer的均值和標準差。
U5-U13:整句中清音段、濁音段和靜音段的數量、平均時長和最大時長。
U14-U17:整句中清音段數量和濁音段數量的比值,清音段時長占整個語音段時長的比值,濁音段時長占整個語音段時長的比值,靜音段時長占整個語音段時長的比值。
U18:整句中基頻變化的幅度差。
針對以上39個特征,研究即在語篇級上計算其均值、最大值、最小值和方差四種統計特征,總共可得156維特征。
2.2語言學統計特征
語言學統計相關特征如下:
L1:每分鐘正確讀出音節的速率。這個特征代表說話人在朗讀語段的過程中正確朗讀的語速,和語速密切相關。如果漏讀、多讀或者錯讀都記為錯誤,不進行統計。
L2:每分鐘的讀出音節的速率。
L3:音節重復的數量占音節總數的比值。音節被重復朗讀的次數和朗讀的流暢度密切相關。當說話人讀錯,或者自我修正時,常常會出現重復的現象。
L4:朗讀句子的速率變化。自然度水平高的朗讀者無論句子難度的大小,其朗讀語篇中每個句子的速率基本相同。但是自然度水平低的說話人由于個別句子中出現的比較困難的音節,將會導致不同句子的速率也相應地有所不同。
L5: 整句標點符號(比如。、?、?。┨幍南嚓P特性。通過VAD程序檢出的整句標點符號處靜音段的個數和對照文本中出現的這類標點符號的個數的比值。
L6: 句中標點符號(比如,、:、;)處的相關特性。通過VAD程序檢出的在句中標點符號處的靜音段的個數和對照文本中出現的這類標點符號的個數的比值。
L7:標點符號處對應的靜音段的平均長度。
L8:標點符號處對應的靜音段時長和語音段中全部非語音時長的比值。一個字一個字地讀是朗讀水平低的說話人的顯著特征,本特征將有效檢測這種情況。
L9:兩個靜音段之間的音節的平均數目。這個特征非常適合檢測說話人的流利度。
L10:單位時間內靜音段的個數。
根據上述方法一共得到10維特征,如圖1所示。
圖1 音節內的各類基頻相關特征
Fig.1 The various features related to fundamental frequency in a syllable
3支持向量機
支持向量機(Support Vector Machine, SVM)是一種基于統計學習的模式分類技術。該技術通過結構風險最小化(Structural Risk Minimization,SRM)準則和核函數(Kernel function)的方法有效地解決了學習系統復雜性(complexity)與普適性(generalization)之間的矛盾。近些年來,SVM在手寫識別、指紋識別、文本分類、語音識別等諸多領域都取得了較大的成功,并通常表現出優于其他學習機制的良好性能[9]。為此,本文選用支持向量機作為分類模型,實現對韻律發音質量的有效評測。
樣本集中有 個樣本 , 為一個 維輸入特征, , 為分類類別(兩類), 。
定義分類超平面 ,其中 ,滿足:
(1)
可以統一表示為:
(2)
當樣本線性可分時,存在無數多個這樣的超平面。滿足上述條件且使 最小的分類超平面就是最優分類超平面。兩類樣本中距離分類超平面最近且平行于最優分類超平面的樣本點即可稱作支持向量。
此時,樣本分類問題可轉化為求解最優分類超平面,進而表示成一個約束優化問題,其對應目標函數為:
(3)
即: (4)
這是一個嚴格凸規劃問題,可轉換成拉格朗日問題進行求解,具體求解過程可參見文獻[10]。
對于近似線性可分問題,并不要求所有訓練樣本都滿足約束條件 ,為此對第 個訓練樣本 引入松弛變量(Slack Variable) 來“軟化” 約束條件,即將約束條件放松為 。同時,為避免 太大,還需在目標函數中對 進行懲罰,即引入一個懲罰參數 ,新的目標函數可演變為:
(4)
4特征篩選
對于SVM為標志的分類器,當輸入信息量噪聲太多,知識集太雜時,經常會造成“維數災難”,此時,分析特征和訓練模型的時間都非常長,模型構建更顯復雜,但推廣能力卻有所下降。此時,可以通過特征篩選的方式對特征進行降維,將高維特征中與目標無關的特征予以去除,只保留有用特征,以提高模型的精度,進而增強模型的泛化能力。
依據以上分析,本文將采用基于浮動思想的SFFS(Sequential Floating Forward Selection)算法[11]以展開后續研究。SFFS是一種貪婪算法,和傳統的特征篩選方法SFS(Sequential Forward Selection)相比,可以在正向選擇特征過程中考慮加入回退準則,隨著迭代次數的增加,適當地剔除一些與當前特征集組合時影響性能的特征。在SFFS算法中,每一步都利用貪婪算法將一個最好的特征加入到當前特征集,同時引入Floating機制。Floating機制的基本原則是,如果剔除一個最無用的特征之后,性能較上一步迭代有所增加,即進行刪除,反之則繼續加入。評價函數選擇封裝器方式,并采用分類器的分類錯誤率作為評價標準。由于引入了回退機制,在大多數據集上,SFFS的性能都較傳統算法更具優勢,由此而成為目前主流的特征篩選方法。
5實驗及實驗結果分析
5.1 實驗數據集
實驗數據集限定在國家漢語普通話水平測試現場錄音數據集范圍內,并于被評為一級乙等學生的朗讀短文中抽取部分語音數據,共1 498段,每段語音數據約170個音節,長度約1分鐘。這些學生的發音標準度很高,基本上沒有發音錯誤和口音,為此可將這個數據集記為ProsodyEval1498,并聘請語言學專家進行聽辨和評判,評判結果分為優秀和良好。過程中聘請3名專家進行評判,而且采用投票的方式決定最后的仲裁結果,專家間的相關度為0.776,0.792,和0.873,平均值為0.817,相關度明顯偏低,這也說明高水平發音人群的韻律評測(優中選優)的難度比較大,相關性較低。
5.2 實驗結果及結果分析
將ProsodyEval1498的數據集隨機拆分成一半訓練集、一半測試集,采用SVM分類器,RBF核函數,并通過十次實驗求取平均作為韻律評測的性能。
從表1可以看出,在韻律發音質量評測任務中,加入語言學統計特征后,評測性能得到較大提升,人機相關度從0.753提高到0.779,相對提高3.45%。通過對特征集進行特征篩選后,特征維數明顯降低,從166維減少到67維,同時評測性能也略有提升,人機評分相關度從0.779提高到0.784,相對提高0.64%。
6結束語
廣泛提取韻律相關的聲學特征是韻律發音質量評測的基本方法,本文在韻律相關的聲學特征提取的基礎上,進一步融合了語言學統計特征,并選用SVM作為分類模型,實現了對韻律發音質量的有效評測。同時,采用SFFS算法對評測特征進行篩選,去除了特征集中一些目標無關的特征,進一步強化了系統的評測性能,而且提高了系統的泛化能力。此外,在本文提出的技術框架下,還可以引入更多不同信息源的多種類別的韻律相關特征,比如聽覺感知特征、韻律模型參數特征等,期望能進一步提高系統的評測性能。接下來,關于如何提取更多的韻律相關的顯著特征,以及如何選擇更好的特征篩選方法即已成為需要進一步研究的重要內容。
參考文獻:
[1] 曹劍芬. 基于語法信息的漢語韻律結構預測[J]. 中文信息學報, 2003, 17(3): 41-46.
[2] CHEN J C, LO J L, JANG J S R. Computer assisted spoken English learning for Chinese in Taiwan[C]//Chinese Spoken Language Processing, 2004 International Symposium on. IEEE, 2004: 337-340.
[3] YAMASHITA Y, NOZAWA K. Automatic scoring for prosodic proficiency of English sentences spoken by Japanese based on utterance comparison[J]. IEICE transactions on information and systems, 2005, 88(3): 496-501.
[4] JIA H, TAO J, WANG X. Prosody variation: application to automatic prosody evaluation of Mandarin speech[C]//Proc. Speech Prosody, 2008: 547-550.
[5] HUANG S, LI H, WANG S, et al. Exploring goodness of prosody by diverse matching templates[C]// Proc. of INTERSPEECH, 2010: 1145-1148.
[6] TEIXEIRA C, FRANCO H, SHRIBERG E, et al. Prosodic features for automatic text-independent evaluation of degree of nativeness for language learners[C]// Proc. INTERSPEECH, 2000: 187-190.
[7] MAIER A, HONIG F, ZEI?LER V, et al. A language-independent feature set for the automatic evaluation of prosody[C]// Proc. INTERSPEECH, 2009: 600-603.
[8] BOLA?OS D, COLE R A, WARD W H, et al. Automatic assessment of expressive oral reading[J]. Speech Communication, 2013, 55(2): 221-236.
[9] HENGNIAN Q I. Support vector machines and application research overview [J]. Computer Engineering, 2004, 30(10): 6-9.
[10] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[11] MOLINA L C, BELANCHE L, NEBOT ?. Feature selection algorithms: A survey and experimental evaluation[C]// Proc. of International Conference on Data Mining, 2002: 306-313.