999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語音識別的英語發音相似性研究

2017-02-23 06:48:22李程程
現代計算機 2017年2期
關鍵詞:標準信號模型

李程程

(四川大學計算機學院,成都 610000)

基于語音識別的英語發音相似性研究

李程程

(四川大學計算機學院,成都 610000)

地道的英語發音在日常交流和相互理解中十分重要。隨著自動語音識別技術的完善,計算機輔助發音練習(CAPT)系統已可以給第二語言學習者提供有限的交互。發音相似性比較是構建系統的關鍵一步,設計一個可識別英語發音相似度的模型。通過計算學習者發音與標準語音的相似度,并與專家對學習者發音的評分進行比較,計算兩者的相關度,驗證模型的可行性和有效性。

端點檢測;梅爾倒譜系數;最大土地搬運距離;帶條件的最大匹配動態規劃

0 引言

閱讀相關文獻[1]后,本文認為基于自動語音識別技術(ASR,Automatic Speech Recognition)的計算機輔助學習系統(CALL,Computer Assisted Language Learning)的功能可以用五個階段來總結:

(1)語音識別階段:ASR引擎基于音素內部關系和語義模型將輸入語音信號轉換成一個詞序列。這是第一個也是最重要的環節,因為后續階段的實施都要依靠這個階段結果的準確性。

(2)評分:這個階段可以對發音質量以分數的形式給出評價。ASR系統能分析之前由語音識別階段識別出的語音。通過分析比較學習者語音的語音特征和標準語音的相關語音特征,兩者越靠近,分數就越高。

(3)錯誤檢測:基于ASR的CAPT系統還能夠檢測在一段語音中錯誤發音的位置,并告訴學習者哪里出現了錯誤,幫助他們在某部分提高關注并加強練習。

錯誤診斷:ASR系統能夠識別特定類型的錯誤,然后給出如何改進的意見。

(4)反饋:此功能需要考慮更多關于圖形用戶界面的設計問題,可以包含在給學習者展示第(2)(3)(4)階段的信息里。

(5)本文主要工作集中在(1)(2),包括語音信號特征參數前需要做的預處理,語音信號端點檢測的方法,學習者和標準語音特征參數的提取過程,并提出基于EMD和帶條件的最大匹配動態規劃兩種算法計算語音相似度。

1 語音信號數據的預處理

1.1 語音信號的預加重

語音信號的平均功率譜會受到聲門激勵和發音者口腔,鼻腔輻射的影響,其高頻部分大約在800Hz以上按6dB/倍頻程跌落[2]。所以高頻部分的頻譜比低頻部分更弱,求語音信號頻譜時,需要對語音信號做預加重,目的是消除發聲過程中聲帶和嘴唇輻射的影響,補充語音功率譜的固有衰落和受發音系統所壓抑的高頻部分,使高頻部分提高,使低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。

語音進行預加重處理后,主要的發聲片段和可能是噪聲的部分幅值差距變得更明顯,波形變化也更清晰,從而減少了噪音對之后端點檢測和特征參數提取模塊的影響。

1.2 語音信號的分幀與加窗

由于人自身的發音器官的運動,語音信號是一種典型的非平穩信號,但是相比于聲波振動的速度,發音器官的運動就顯得非常緩慢了,因此,技術人員通常認為10ms~30ms這樣長度的時間段中,即每秒大約有33~100幀,語音信號是平穩信號[3]。分幀雖然可以采用連續分的方法,但一般要采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續性。幀移是前一幀與后一幀的重疊部分,其長度通常是幀長的0~1/2。

用可移動的有限長度窗口對語音信號進行加權得到新的信號波形的過程稱為加窗,也就是通過特定的窗函數w(n)來乘以原始語音波形信號s(n)得到加窗波形信號Sw(n)。在時域上選取窗函數的標準是:因為是語音波形信號乘以窗函數,所以要減小加窗信號幀波形兩側的截斷效應,是邊緣平滑過渡到零而不至于發生急劇變化。所以相較于矩形窗,漢明窗適用于本模型的語音分幀加窗。

2 基于短時能量和過零率的端點檢測方法

本文結合端點檢測的兩種基本方法,將一段預處理后的錄音盡量劃分成獨立的單詞。理想情況是,從短時能量來看:無聲段的短時能量為零,清音段短時能量比濁音段小;從短時過零率來看,無聲段的過零率為零,清音段的過零率比濁音段大。因此,如果某部分語音短時能量小而且過零率低,則可認為它是無聲段;如果其短時能量大但過零率小,可以認為是濁音段;如果其短時能量小但過零率大,則可以認為它是清音段[4]。

3 特征參數提取

3.1 MFCC的提取

在學習者模仿標準語音的過程中,要求學習者在吐詞和聲調上與標準語音越相似越好,也就是盡量模仿母語說話者的發音習慣和發聲方式,由于梅爾倒頻譜系數(Mel-Frequence Cepstral Coefficients,MFCC)能表現聲道運動的動態特征,而且能較好地仿真人耳的聽覺特性,抗噪能力也較高,所以本文模型采用MFCCs來作為計算語音相似性的特征參數。

提取MFCCs的過程:首先對待測語音進行預處理,對其中每幀通過快速傅里葉變換(FFT)將語音從時域波形圖轉換到頻域圖,根據人耳的聽覺特性,通過梅爾濾波器組取得該幀語音的部分頻率特征,再通過離散余弦變換(DCT)以后就可以得到MFCC。

為了能更準確地表示語音的特點,本文同時提取語音的MFCCs的一階差分系數作為其動態變化表征,從而基于MFCCs計算得到了語音的24維特征參數。

3.2 提取語音強度

在學習者模仿標準語音的時候,會想象說話時的語境和說話者的情緒,聲音的高低往往能表達說話者情緒是高興還是悲傷,是激動還是平緩。所以學習者語音的強度變化可以在一定程度上反映其模仿發音的質量。本文提取了每幀語音短時能量的一階差分系數作為其動態變化的表征,從而基于短時能量計算得到1維特征。

至此本文模型特征參數提取過程結束,學習者語音和標準語音利用上述提取特征參數的方法得到的25維特征(24維MFCCs及其動態變化特征和1維短時能量動態變化特征)進行相似度計算。

4 語音相似度計算

準語音和學習者語音在端點檢測和特征提取后長度往往不相同,所以不能直接用余弦距離或者歐氏距離等來測量兩段語音的相似度,通過查閱相關文獻,本文模型采用EMD和帶條件的最大匹配動態規劃算法來解決上述問題。

4.1 EMD(Earth Movers Distance)算法

EMD是1997年由Rubner提出的一種有效圖像檢索的方法。EMD被定義為在供應商與顧客間運輸貨物最小工作量的問題。EMD基本計算框架可以用如下線性規劃問題來描述:

假設P={(p1,wp1),…,(pm,wpm)}代表供應商供貨的離散分布,例如直方圖,其中p1代表每個類的類中心,wpm代表相應類的權重,或該類中元素個數;Q={(q1,wq1),…,(qn,wqn)}代表顧客需求的離散分布;D=[dij]表示類中心和類中心的距離矩陣。現在需要找到一個運輸量矩陣,F=[fij],其中fij代表了pi到qj的運輸量,使得花費計算結果最小。

依據EMD的框架,本文將標準語音特征模型當做供應商的供貨分布,把學習者語音特征向量當做顧客的需求分布,計算EMD作為兩者的相似度,EMD值越大語音間相差越大,反之EMD值越小,則兩段語音越相似。過程可以用圖1表示。

圖1 基于EMD算法的相似度計算流程圖

提取標準語音和學習者語音的25維特征參數,再用LBG算法得到標準語音模型,即codebook的直方圖,接下來就利用EMD算法計算他們的相似度,由于EMD算法框架可以用線性規劃問題來描述,所以本文模型中采用了MATLAB自帶的optim工具箱中linprog函數來解決。

4.2 帶條件的最大匹配動態規劃算法

在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Wraping,動態時間彎折)算法,該算法基于動態規劃的思想,在語音識別中解決了發音長短不一的模板匹配問題,是出現較早、較為經典的一種算法[5]。本文借鑒DTW的思想并結合英語發音訓練模型的實際情況,采用了帶條件的最大匹配動態規劃算法來解決語音長短不一的特征參數匹配和相似度計算問題。

在英語發音訓練模型提取語音特征參數之前,先采用端點檢測算法找到每個單詞的起點和終點。假設標準語音模板用{S(1),S(2),…,S(n),…,S(N)}表示,n為標準語音幀的時序標號,n=1為起點語音幀,n=N為終點語音幀,S(n)為第n幀的語音特征矢量;學習者語音模板用{T(1),T(2),…,T(m),…,T(M)}來表示,m為學習者語音幀的時序標號,m=1為起點語音幀,m=M為終點語音幀,T(m)為第m幀的語音特征矢量。標準語音和學習者語音模板采用相同類型的特征矢量(12維的MFCCs,12維MFCCs動態變化特征,1維的短時能量動態變化特征)、相同的幀長(256個采樣點)、相同的窗函數(漢明窗)和相同的幀移(80個采樣點)。

假設標準語音和學習者語音模板分別用S和T表示,為了比較它們的相似度,模型中計算它們之間的匹配值D[S,T],匹配值越大則相似度越高。為了計算此匹配值,首先計算S和T中各個對應幀之間的匹配值,即d[S(n)][T(m)],其中n和m分別是S和T中任意選擇的幀號。

由于在實際的兩段語音中,N和M往往不等,本文采用帶條件的最大匹配動態規劃算法求最大匹配度,且使得語音中的兩幀在匹配無交叉項的情況下對齊。

如果把標準模板的各個幀號n=1~N在一個二維直角坐標系中的橫軸上標出,把待測模板的各幀號m= 1~M在縱軸上標出,通過這些表示幀號的整數坐標畫出一些縱橫線形成一個網絡,網格中每個交叉點(n,m)表示測試模式中某兩幀的交匯點[6]。帶條件最大匹配動態規劃算法可以歸結為尋找一條通過此網格中若干格點的路徑,路徑通過的格點就是標準語音和學習者語音模板中進行距離計算的幀號。

路徑不是隨意選擇的,雖然任何一種語音的發音快慢都可能變化,但是其各部分的先后次序不能變,按照上述狀態轉移方程,假設路徑已經通過了格點(ni-1,mj-1)那么下一個通過格點(ni,mj)可能是下列三種情況:

這使得每個幀號至多被對應一次,并且能找到的沿路徑的累積距離達到最大值。易于證明,限定范圍內的任何一個格點(ni,mj)只能有一條搜索路徑通過。

5 實驗結果

通過計算這兩組數據與專家評分結果的相關性,即可比較兩種語音相似度計算方法的優劣。用MATLAB計算20條學習者語音分別通過模型所得發音質量評級和專家評分得到:基于EMD算法的評級與專家1和專家2評分的相關性分別是0.5474,0.6715;基于動態規劃算法的評級與專家1和專家2評分的相關性分別是0.2064,0.2405。

但從時間復雜度來看,基于EMD算法的平均耗時更長為16.729s,而基于動態規劃算法的平均耗時為1.191s。

6 結語

實驗所取的兩位專家的評分相關性很高,說明該評分均有參考價值。由于模型給出的評分等級是1最高4最低;專家評分時采用評分10最高,0最低,所以本文模型評級與專家評分結果相關性越高,則相關系數的絕對值越靠近1,從實驗結果可以看出模型在EMD算法下計算相似度的評級結果與專家的評分結果更相關,也就能更真實地反饋學習者在模仿標準語音時的發音水平;同時基于EMD算法的模型耗時更多,而且有可能影響用戶體驗。綜合考慮學習者的需求和英語發音訓練的目的,EMD算法更適用于在CAPT系統中計算英語發音相似度。

[1]S.M.Witt,S.J.Young.Phone-Level Pronunciation Scoring and Assessment for Interactive Language Learning.Speech Communication,30,95-108,2000.

[2]吳恬盈,戴在平.基于Burg算法逆運算的計算機語音信號合成.福建電腦,2005(9):84-85.

[3]Li,Qi,Jing-song Zheng.Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker Recognition. Speech and Audio Processing.IEEE Transactions on(Volume:10,Issue:3)Mar 2002,146-157.

[4]馬莉,黨幼云.特定人孤立詞語音識別系統的仿真與分析.西安工程科技學院學報,2007,21(3):371-373.

[5]李邵梅,陳鴻昶,王凱.基于DSP的高速實時語音識別系統的設計與實現.現代電子技術,2007,30(15):109-111.

[6]維基百科.WAV.http://zh.wikipedia.org/wiki/WAV,2014/4/20.

Research on the Similarity of English Pronunciation Based on Speech Recognition

LI Cheng-cheng

(College of Computer Science,Sichuan University,Chengdu 610000)

Pronunciation is of great importance to second language learning.Computer assistance pronunciation training(CAPT)is therefore an efficient way to address this problem,which is able to detect the errors from a learner's speech and provide useful suggestions in a fully automatic manner.Studies the algorithms to compare two algorithms for speech similarity calculation.Through these experiments,finds that our model ranking based on EMD algorithm is more closer to experts scoring and verifies the feasibility and effectiveness of our model as well.

Endpoint Detection;MFCCs;EMD;DTW

1007-1423(2017)02-0016-04

10.3969/j.issn.1007-1423.2017.02.004

李程程(1991-),女,四川樂山人,碩士研究生,研究方向多媒體計算、機器智能

2016-11-01

2016-12-19

猜你喜歡
標準信號模型
一半模型
2022 年3 月實施的工程建設標準
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲黄色激情网站| 色综合五月| 无码精品一区二区久久久| 曰韩人妻一区二区三区| 国产精品三级专区| 国产精品国产三级国产专业不| 成人无码一区二区三区视频在线观看| 久久频这里精品99香蕉久网址| 欧美一级爱操视频| 亚洲天堂视频在线观看| 国产永久无码观看在线| 国产精品人人做人人爽人人添| 成人第一页| 一区二区午夜| 91色老久久精品偷偷蜜臀| 99无码熟妇丰满人妻啪啪| 熟妇无码人妻| 亚洲欧洲自拍拍偷午夜色| 亚洲首页国产精品丝袜| 精品99在线观看| 久久美女精品| 波多野结衣AV无码久久一区| 成人午夜久久| 亚洲日韩高清在线亚洲专区| 永久成人无码激情视频免费| 欧美日韩激情在线| 日韩无码视频专区| 性欧美在线| 精品人妻系列无码专区久久| 欧美一区二区三区不卡免费| 国产精品v欧美| 久久不卡国产精品无码| 国产h视频在线观看视频| 理论片一区| 国产成人精品在线1区| 亚洲男人的天堂在线观看| 国产成人精品亚洲日本对白优播| 中字无码精油按摩中出视频| 99re热精品视频中文字幕不卡| 99国产在线视频| 国产日韩欧美在线播放| 毛片手机在线看| 亚洲福利一区二区三区| 欧美日韩一区二区三区四区在线观看 | 亚洲第一视频免费在线| 国产精品手机视频| 福利在线不卡一区| 精品国产91爱| 亚洲天堂自拍| 日本道综合一本久久久88| 制服丝袜在线视频香蕉| 亚洲一区二区三区香蕉| 91精品人妻一区二区| 岛国精品一区免费视频在线观看| 国产成人禁片在线观看| 玖玖精品在线| 国产美女丝袜高潮| 久久福利网| 亚洲国产av无码综合原创国产| 日韩不卡高清视频| 美女毛片在线| 欧美一区二区福利视频| 在线精品视频成人网| 亚洲香蕉伊综合在人在线| 亚洲免费毛片| 专干老肥熟女视频网站| 奇米影视狠狠精品7777| 99精品福利视频| 国产精品久久久久久久久久98| 欧美丝袜高跟鞋一区二区 | 99精品视频在线观看免费播放| 制服丝袜国产精品| 一级一级一片免费| 超碰精品无码一区二区| 国产办公室秘书无码精品| 欧美一级在线看| 永久免费无码成人网站| 成人精品区| 国产欧美一区二区三区视频在线观看| 国产麻豆精品在线观看| 四虎精品国产永久在线观看| 无码日韩视频|