王 青 云
(鄭州大學體育學院 河南 鄭州 450044)
英語聽力作為學習英語語言必須掌握的技能,在提高英語學習者對于口語的發音與應用能力方面具有十分重要的作用,被越來越多的英語語言學習者所重視[1]。傳統的英語教學模式是教師通過錄音設備來播放錄好的英語磁帶,這種方式隨著教學體制的改革,逐漸被多媒體教學模式取代。多媒體語言教學支持課堂講解和自主學習兩種學習模式,這種教學方式更利于學生與教師之間的教學互動,深得學生的好評,且教學效果得到了顯著提高[2]。目前,多媒體英語信號源發出的標準語音信號參數單一,音頻信號分析儀測量結果缺乏多樣性,采用常規評價方法難以全面評價英語聽力信號的準確性,無法有效滿足多媒體英語聽力校準的實際需求,在此背景下,研究更有效的評價方法具有非常重要的現實意義。
音頻質量評價可以分為兩種,其中一種是文獻[3]給出的音頻質量評價方法,其屬于主觀評價方法,通過對測聽者的平均意見分直接顯現人對聽力的感覺,但該方法可重復性較差;另一種是文獻[4]給出的音頻質量評價方法,其屬于客觀評價方法,通過測量音頻信號特征參數來評價聽力質量,使客觀評價結果可以準確預測出音頻質量的主觀評價結果,但該方法無法實現實時評測語音質量。針對上述方法存在的問題,設計多媒體英語聽力自動評價系統,可應用于多媒體英語聽力音頻質量實際評價中。
MFCC參數能夠反映人類聽覺系統對聽力的幅頻感知特性,在噪聲環境下具有魯棒性。多媒體英語聽力自動評價系統開發框架結構如圖1所示。
在多媒體英語聽力自動評價系統中,選取三角形濾波器對輸入多媒體英語聽力信號實施濾波處理后,對濾波處理后信號分析音頻信號能量譜提取音頻信號MFCC特征參數,以MFCC特征參數為理論依據,根據MBSD測度值、噪聲幀與弱音幀占總音頻信號幀的比率及擬合獲得的估計結果,得到與MOS高度一致的音頻質量評價值,通過平衡控制支持向量機模型的復雜度與逼近誤差[5],以MOS值為評價測度分析與管理音頻質量,選取少量準確的聽力音頻數據采用支持向量機與擴展因子訓練,支持向量機模型輸出結果即可實現多媒體英語聽力質量的判斷,實現多媒體英語聽力自動評價。
設定經過預處理后的英語聽力音頻片段x(n)經過加窗分幀和FFT變換得到音頻信號頻譜Xk(f),采用Mel頻譜尺度更符合人類聽覺特性,以下給出Mel頻率與實際英語聽力音頻信號頻率的具體關系:
M(f)=2 595 lg(1+f/700)
(1)
式中:頻率f的單位是Hz。
采用三角形濾波器對音頻信號進行濾波處理時,近鄰頻帶之間存在頻譜能量彼此泄露[6],難以反映出共振特性。聽覺分析濾波器剛好可以彌補三角形濾波器這一不足,式(2)為聽覺分析濾波器在時域對音頻信號進行濾波處理的表達式:
gl(t)=tn-1e-2.038cos(2πflt+φl)u(t)
(2)
式中:n用于描述濾波器階數;bl表示第l個濾波器的等效矩陣帶寬;fl表示第l個濾波器的中心頻率;φl表示第l個濾波器的初始相位;u(t)表示濾波器階躍函數;L表示濾波器數量。
采用聽覺分析濾波器組在頻域對英語音頻信號能量譜進行濾波處理,可獲得各個聽覺分析濾波器的輸出能量:
(3)
MFCC參數將對數運算考慮為語音信號幅值轉換過程,但對數運算從本質上來看是屬于同態解卷積,其變換特性難以模擬英語聽力的強度-響度感知特性。非線性壓縮運算剛好能彌補此不足,采用非線性壓縮運算替換對數運算[7],使MFCC參數更符合人類聽覺生理模型。通過立方根函數來描述英語聽力的強度-響度感知變換,即:
Sk(l)=[Pk(l)]1/3
(4)
對各個濾波器的輸出能量求取對數,來模擬聽力強度-響度變換,對數能量通過DCT變換到音頻信號的倒譜域,獲得MFCC參數。
對于英語聽力音頻信號中的頻率常量采用RASTA濾波器進行濾波處理,即:
(5)
通過RASTA濾波和DCT變換后獲得優化后的MFCC參數:
(6)
式中:i=0,1,…,p,p表示MFCC參數的階數。
失真測度能夠較好地模擬人耳對英語聽力原始語音和失真語音的對比過程。利用MBSD作為失真語音大小的度量,以計算獲得的各幀音頻信號的不同臨界帶的響度和噪聲掩蓋門限,結合MBSD測度的設定獲得MBSD值。計算出信號失真幀與弱音幀之間的比率。為了計算出該值,需要計算各幀輸入信號與編碼信號的能量,再根據設置的能量門限值先判定該幀信號是失真幀還是弱音幀,再判斷該幀信號為失真幀和弱音幀時占總音頻信號幀總數的比例[8],由通過擬合獲得的音頻質量評價式獲得與MOS值高度相關的英語聽力質量評價值。
評價多媒體英語聽力音頻質量與人體感受聲音響度有著十分密切的關系,設定MBSD時,應當以每幀原始音頻信號和編碼信號響度間差值的平均來考慮。在進行響度計算時需要將音頻信號轉換到響度中,來模擬人類的聽覺感受特性[9]。
對于音頻信號臨界帶,原始音頻信號與編碼信號之間的能量差值與噪聲掩蔽門限值相比較小時,則在此臨界帶內信號失真將不會被感知;相反假設原始音頻信號和編碼語音之間的能量差值與噪聲掩蔽門限值相比較大時,則此臨界帶內信號失真將被感知。噪聲掩蔽門限經過臨界帶濾波、擴展函數作用與絕對門限聯合得到。通過臨界帶濾波處理后可獲得信號不同臨界帶的能量[10];擴展函數可用于描述不通過音頻信號臨界帶之間噪聲信號的相互作用。當通過擴展函數作用后獲得噪聲掩蔽門限值比其相應的臨界帶絕對門限值小時,MBSD測度值利用式(7)計算:
(7)

如果某幀音頻信號在初始階段能量較小,后期能量值明顯增大,則該幀音頻信號為噪聲信號;如果某幀音頻信號在編碼階段能量損失較為明顯,則該幀信號為弱音幀。信號噪聲幀以及弱音幀占整個聽力音頻幀的多少反映了該段音頻信號的失真程度[11]。各幀音頻信號的能量如下:
(8)
(9)
式中:X(i,j)和Y(i,j)分別用于表示與輸入的英語聽力音頻信號第j幀相應的短時功譜序列中第i個樣值點。
考慮到測試階段英語聽力的響度級在75 dB以上的占50%以上,門限值應當設定小于聽力音頻信號能量最大值的35 dB和45 dB,即:
(10)
(11)
當第j幀音頻信號的能量小于xt2,而第j幀編碼信號能量大于yt1時,說明該幀音頻信號經過編碼處理后能量被放大,則該幀為噪聲信號幀;當第j幀音頻信號的能量大于10 dB,而第j幀編碼后的音頻信號小于yt2時,說明該幀音頻信號經過編碼處理后能量損失較多,則該幀為弱音幀。信號噪聲幀與弱音幀占總聽力音頻信號幀總數的比率為Vnm。
在IBSD中,音頻信號質量評估值應當與主觀質量評價值存在正相關關系,英語聽力質量越好[12],相應的評估值越高。為了方便起見,將主觀質量評估值區間設定為[0,1],為1時說明音頻信號沒有失真現象,為0時說明音頻信號質量較差。
支持向量機(SVM)是基于結構風險最小原理及VC維理論所建立的,可有效解決高維數、小樣本以及容易陷入局部最小點等問題,是機器學習算法中解決非線性問題的重要方法[13],支持向量機模型具有較好的學習性能已廣泛應用于各種評價問題中。
用xk∈Rn表示輸入數據,用yk∈R表示輸出數據,可得待評價樣本集為B={(xk,yk)|k=1,2,…,N}。通過非線性特征映射將Rn映射至特征空間內用G表示,利用函數f(x)=ωTφx+b逼近未知函數g(x),函數f(x)屬于訓練集B內函數,ω與b分別表示特征空間G內權向量以及偏置,且b∈R。
支持向量機利用極小化結構風險獲取目標函數如下:
(12)
(13)

選取拉格朗日乘子建立拉格朗日泛函,獲取二次規劃問題的對偶公式如下:
(14)
(15)

(16)
在IBSD中,音頻質量評估結果受到MBSD和Vnm的影響,MBSD值越大,說明原始音頻信號和重建后的音頻信號之間譜失真情況較為嚴重[14],此時音頻質量將隨之下降。而隨著Vnm數值的不斷增大,音頻信號中含有的噪聲幀和弱音幀也不斷增加,此時英語聽力質量隨之下降。通過上述分析可知,IBSD和Vnm之間為反比關系,即受到有界的約束,可利用式(17)計算音頻信號的IBSD值:
(17)
由于聽力信號受信號節點的中繼位置的擴展因子影響,因此需結合該因子的分析對語音信號進行訓練,以實現多媒體英語聽力自動評價,其中聽力語音信號的中繼位置與擴展因子關聯性關系如圖2所示。
由圖2可知,發送端的坐標點為(0,0),轉發節點的坐標為(d,0)。將支持向量機中一組錯誤擴展因子作為螢火蟲算法個體,采用螢火蟲算法優化支持向量機模型參數擴展因子,采用少數準確的多媒體英語聽力音頻片段對SVM模型進行訓練,以實現多媒體英語聽力的自動評價。具體過程如下所述:
擴展因子可以控制SVM模型復雜度與逼近誤差之間的平衡,將SVM中一組錯誤擴展因子作為螢火蟲算法個體,對擴展因子C進行優化,具體步驟如下:
(1) 初始化種群中熒光素揮發函數ρ,增強因子γ,種群個體的感知范圍rs,鄰域變化率β,螢火蟲移動步長s。
(2) 確定SVM模型中擴展因子的取值區間。
(3) 在擴展因子C的取值區間內,隨機選取一個值,將其作為種群個體當前所在位置。采用英語聽力音頻數據,將音頻信號實際MBSD測度值的誤差作為種群適應度函數,誤差較小,SVM模型性能越好,種群適應度越大。
(4) 計算種群中每一個個體的熒光素濃度,其近鄰個體的熒光素濃度值確定個體的搜索方向[15]。
(5) 判斷是否達到終止條件,如果此時已達到中止條件,則將此時搜索得到的最優解視為模型的參數,否則轉至步驟(4)。
假設yi、yj分別表示ti、tj時刻兩段英語聽力音頻片段數據,則這兩個階段聽力音頻數據間的分段函數為:
(18)
設定兩次測試間分段函數可以偏離的能量損失為h,則ti、tj時刻英語聽力音頻數據的上限函數為:
(19)
在線測量數據的下限函數為:
(20)
假設兩次離線測試間的多媒體英語聽力音頻數據若超過了上限或是下限,則認為在線測量的音頻數據質量差。采用少數準確的英語聽力音頻數據對模型進行訓練,通過訓練好的SVM模型對英語聽力音頻信號質量進行自動評價。
為了驗證所提出的多媒體英語聽力自動評價系統設計的合理性,選取Intel Celeron Tulatin 1 GHz CPU和384 MB SD內存的硬件環境和MATLAB 6.1的軟件環境進行測試。表1列出了評價系統運行環境及實驗信息的基礎參數。

表1 實驗參數表
本文所設計多媒體英語聽力自動評價系統界面圖如圖3所示。
可以看出,所設計多媒體英語聽力自動評價系統可有效評價英語聽力的韻律、情感及重音情況,有效驗證了系統評價的有效性。
多媒體英語聽力樣本為語音數據庫中已知MOS值的聽力文件,對聽力文件進行數據轉化,得到語音信號幅值情況,結果如圖4所示。
可以看出,系統可有效將聽力文件數據轉化至語音信號幅值情況,所獲取語音信號幅值有助于提升多媒體英語聽力精準性。
選取專家評價法評價采用本文系統評價8段多媒體英語音頻片段韻律、情感及重音情況的評分準確性,滿分為10分,專家評分結果如表2所示。

表2 專家評分結果
可以看出,本文系統對于多媒體英語聽力8個音頻片段評價韻律、情感以及重音情況準確性的評分結果分別為9.2分、9.3分、9.2分,專家評分結果說明采用本文系統可準確評價多媒體英語音頻片段,具有較高的實用性。
本文系統對隨機音頻片段運行100 s內的幅值信號統計結果如圖5所示。
可以看出,所設計系統可直觀體現不同音頻片段的信號情況,依據所展示幅值可準確評估不同多媒體英語音頻片段的信號質量,有效驗證所設計系統評價多媒體英語聽力音頻信號質量有效性。
統計采用所設計系統評價8段多媒體英語音頻片段的評價時間,并選取基于層次分析法的評價系統及基于神經網絡的評價系統作為對比系統,對比結果如表3所示。
表3 不同系統評價時間對比

單位:ms
可以看出,采用本文系統評價8個多媒體英語聽力音頻片段平均評價時間僅為111 ms,對比結果說明所設計系統評價多媒體英語聽力具有較高的實時性。
本文提出一種多媒體英語聽力自動評價系統設計。該系統結合了人耳的聽覺生理模型、MBSD測度,并考慮了噪聲幀和弱音幀比率對多媒體英語聽力音頻質量的影響,將其應用于多媒體英語聽力的校準。實驗證明所設計系統可準確評價多媒體英語聽力音頻文件,相比其他系統具有較高的實時性。