摘要: 討論了基于MFCC (Melfrequency cepstral coefficients)特征參數的語音質量客觀評價方法MelCD (Melcepstral distance measure).根據心理聲學原理將Johannesma提出的人耳聽覺模型和非線性壓縮變換引入MFCC特征參數的提取過程,用Gammatone濾波器組對人耳基底膜進行仿真.利用改進后的MFCC作為語音信號特征參數,提出了一種更加符合人耳聽覺感知特性的客觀評價方法——MelGD (Melcepstral gammatone filter bank distance measure).性能測試結果表明:所提算法與MelCD算法在時間復雜度上保持一致,評價結果的主觀與客觀的相關度提高了4.9%,平均估計偏差改善了45.5%.
關鍵詞: 語音質量;MFCC;Gammatone濾波器組;非線性變換
中圖分類號: TN912文獻標志碼: AObjective Evaluation Method of Speech Quality Based on
Auditory Perceptual PropertiesTAN Xiaoheng,XU Ke,QIN Jiwei
(College of Communication Engineering, Chongqing University, Chongqing 400044, China)
Abstract:Based on Melfrequency cepstral coefficients (MFCC), Melcepstral distance measure (MelCD) algorithm used for the objective evaluation of speech quality was analyzed. According to the theory of psychoacoustics, a human auditory model proposed by Johannesma and nonlinear compression were applied to extracting MFCC. Gammatone filter bank was used to simulate the basilar membrane. Melcepstral gammatone filter bank distance measure (MelGD) based on the improved MFCC was proposed, which was more in accordance with the auditory perceptual properties. Performance testing results showed that the proposed algorithm compared favorably with the MelCD in time complexity, the correlation degree between objective evaluation and subjective evaluation was improved by 4.9%, and estimation bias was decreased by 45.5%.
Key words:speech quality; Melfrequency cepstral coefficients (MFCC); Gammatone filter bank; nonlinear transformation
語音質量評價是衡量語音通信系統性能優劣的根本標準之一,從評價主體上講可分為兩大類:主觀評價和客觀評價[12].ITUT建議書P.830提出的MOS(mean opinion score)方法[3]是一種廣泛使用的主觀評價方法,用測試者的平均意見分來直觀地反映人對語音質量的感覺,但此類方法可操作性和可重復性較差.客觀評價方法通過測量語音信號特征參數來評價語音質量,使客觀評價結果能夠準確預測出語音質量的主觀評價結果,具有更高的實用價值.ITUT建議書P.862提出的PESQ(perceptual evaluation of speech quality)感知語音質量評價[4]是當前性能很高的語音質量客觀評價方法,能夠較好地識別通信時延、環境噪聲和錯誤,但其是基于Bark譜的感知模型,運算復雜度較高,不利于實時評價語音質量.
MelCD (Melcepstral distance measure)失真測度以MFCC (Melfrequency cepstral coefficients)作為語音特征參數,運算復雜度較低,是一種簡便有效的語音質量評價方法[57],但研究中發現其評價性能與PESQ相差較大.通過分析表明,雖然MFCC特征參數提取過程中利用了人耳的聽覺原理和Mel倒譜的解相關特性,但是其采用了三角形濾波器組來模擬耳蝸基底膜的頻率選擇特性和采用對數運算來模擬幅值非線性變換過程,并不能充分地反映人耳的聽覺感應特性.因此,本文根據心理聲學原理對MFCC進行了改進:
(1) 用Gammatone濾波器組對耳蝸基底膜進行仿真,彌補了Mel倒譜中的三角形濾波器組濾波時相鄰頻帶間頻譜能量相互泄露嚴重的不足;
(2) 用非線性壓縮運算代替對數運算來更好地模擬強度響度變換過程.
并利用改進后的MFCC作為特征參數,提出了一種更加符合人耳聽覺感知特性的語音質量客觀評價方法——MelGD (Melcepstral gammatone filter bank distance measure)失真測度.1MelGD算法分析語音質量評價從評價結構上講可分為基于輸入輸出方式的和基于輸出方式的[1].目前,比較成熟的方法基本上都是基于輸入輸出方式的,包括:PESQ、MelCD和本文的MelGD等.基于輸入輸出方式的評價方法原理如圖1所示,原始語音和通過被測系統的失真語音經過預處理后提取其特征參數,通過對比兩者特征參數的差異來對被測系統語音質量進行評分,其本質上是一種誤差度量.
西南交通大學學報第48卷第4期譚曉衡等:基于聽覺感知特性的語音質量客觀評價方法圖1基于輸入輸出方式的客觀評價方法結構
Fig.1Structure diagram of objective evaluation
based on inputoutput model
1.1語音信號預處理原始信號和失真信號首先經過電平調整,將其強度統一到相當于79 dB SPL (sound pressure level)的能量水平,然后經過理想帶通濾波器(通帶范圍:300~3 400 Hz)對兩路信號進行輸入濾波[8],最后通過時間對齊來補償由被測系統產生的時延.1.2特征參數提取1.2.1MFCC參數提取
MFCC以較低的譜向量維數反映了人耳聽覺系統對語音的幅頻感知特性,在噪聲環境下具有較強的魯棒性[910].MFCC參數提取流程如圖2所示,預處理后的語音x(n)經過加窗分幀和FFT(fast fourier transformation)變換得到信號頻譜,用一組Mel尺度的三角形濾波器組在頻域對信號能量譜進行濾波,對每個濾波器的輸出能量求對數來模擬強度響度變換,對數能量經過DCT(discrete cosine transform)變換到倒譜域,即可得到MFCC參數.
圖2MFCC參數提取流程
Fig.2Extraction process of MFCC
1.2.2改進的MFCC參數提取
改進后的算法采用了與MFCC參數提取相同的處理框架,但根據人耳的聽覺生理模型和強度響度感知特性,在提取過程中做了相應的改進,具體處理流程如下所示.
(1) FFT加窗
對預處理后的語音信號x(n)進行加漢寧窗的FFT變換,得到信號頻譜Xk(f).
(2) 頻率扭曲
人耳所聽到聲音的高低與聲音的頻率并不呈線性正比關系,采用Mel頻率尺度更符合人耳的聽覺特性.Mel頻率與實際頻率的具體關系為
M(f)=2 595 lg(1+f/700),(1)
式中:實際頻率f的單位是Hz.
(3) 帶通濾波
MFCC中的三角形濾波器組濾波時相鄰頻帶間存在頻譜能量相互泄露,不利于反映共振特性.Gammatone濾波器源于耳蝸基底膜模型,用簡單的沖擊響應函數就能夠體現基底膜尖銳的濾波特性[1114],彌補了三角形濾波器組的不足.Gammatone濾波器組的時域表達式為
gl(t)=tn-1e-2.038πbltcos(2πflt+l)u(t),
l=1,2,…,L,(2)
式中:n為濾波器階數;bl、fl和l分別為第l個濾波器的等效矩形帶寬、中心頻率和初始相位;u(t)為階躍函數;L為濾波器個數.
在Mel頻率軸上配置具有L個通道的Gammatone濾波器組Gl(f),每個濾波器的中心頻率fl在Mel頻率軸上等間隔分布.一組Mel尺度的Gammatone濾波器組如圖3所示,中心頻率fl兩側斜率較大,表明Gammatone濾波器具有尖銳的頻率選擇特性[13];濾波器邊沿的衰減很緩慢,有效地避免了相鄰頻帶間的能量泄露.這些幅頻響應特性與基底膜的濾波特性是一致的,同時也補償了不同的人發同一音時共振峰的偏移對語音特征參數提取的影響.
圖3Mel尺度的Gammatone濾波器組
Fig.3Gammatone filter bank in Mel scale
通過一組Mel尺度的Gammatone濾波器組,在頻域對能量譜進行濾波,得到每個Gammatone濾波器的輸出能量:
Pk(l)=∑N-1f=0Gl(f)Xk(f)2,l=1,2,…,L.(3)
(4) 強度響度變換
MFCC參數將對數運算視為幅值非線性變換過程,但是對數運算源于同態解卷積,其變換特性不能很好地模擬語音的強度響度感知特性[9].非線性壓縮運算基于強度響度感知變換,用其代替對數運算能使特征參數的提取過程更好地符合聽覺生理模型.本文采用立方根函數來模擬強度響度的非線性壓縮關系,立方根函數與對數函數的曲線特性如圖4所示.
這不僅符合了人耳的聽覺感知特性,而且計算過程簡單.立方根非線性壓縮變換的計算公式為
Sk(l)=[Pk(l)]1/3.(4)
(5) RASTA(relative spectral)濾波
RASTA濾波處理用一個低端截止頻率很低的帶通濾波器對語音信號進行濾波,能有效地抑制信號頻譜中的常量或變化緩慢的非語音部分,增強動態成分[15].帶通濾波器H(Z)的表達式為
H(Z)=0.1×Z4(2+Z-1-Z-3-2Z-4)1-0.98Z-1.(5)
圖4立方根和對數的函數曲線
Fig.4Curve diagram of cube root and
logarithm operations
(6) DCT變換
立方根能量經過RASTA濾波和DCT變換到倒譜域,即可得到改進的MFCC參數.
Ck(i)=H(Z)∑Ll=1Sk(l)cos[πi(l-0.5)/L],
i=0,1,…,p,(6)
式中:p為參數的階數,本文取p=12.
綜上所述,改進的MFCC參數提取流程如圖5所示.雖然與基于同態處理倒譜分析的MFCC參數形式上保持一致,但是更加符合人耳的生理模型和聽覺感知特性,有利于提高語音質量客觀評價算法的性能.
圖5改進的MFCC參數提取流程
Fig.5Extraction process of the improved MFCC
1.3失真測度計算失真測度可以很好地模擬人耳對原始語音和失真語音的比較過程,本文采用平均歐氏距離作為失真大小的度量.
定義原始語音信號為x(n),失真語音信號為y(n),提取的p階特征參數為:Cx,k(i)和Cy,k(i),則原始信號與失真信號第k幀的Mel倒譜距離可定義為
d(k)=∑pi=0[Cx,k(i)-Cy,k(i)]21/2.(7)
平均動態Mel倒譜距離D為
D=∑Kk=1w(k)d(k)∑Kk=1w(k),(8)
式中:K為信號總幀數;權重w(k)為第k幀的能量.1.4預測主觀MOS值客觀評價方法的目的是使其評價結果能夠準確預測出語音質量的主觀MOS值.算法最后一步是將倒譜距離D按最小二乘法準則進行二次多項式擬合,以對應相應語音質量的客觀MOS值(或稱為預測MOS值).采用30對已知MOS值的語音樣本進行測試,根據MOS值和倒譜距離D的對應關系來確定二次多項式的系數.2實驗結果及分析2.1客觀評價的有效性語音質量客觀評價方法的性能優劣一般用客觀MOS值與主觀MOS值之間的相關程度和預測誤差衡量.相關程度采用Person相關系數r描述,r越接近1,客觀評價方法預測主觀MOS值越準確.
r=∑(aj-)(bj-)∑(aj-)2∑(bj-)2,(9)
式中:aj和bj分別為第j個語音樣本的主觀MOS值和客觀MOS值;和分別為兩者的算術平均值.
預測誤差采用標準估計偏差δ描述,δ越小,客觀評價失真測度的波動越小.
δ=∑(aj-bj)2/N,(10)
式中:N為樣本總數.2.2結果分析實驗中所使用的語音樣本為ITUT P.23語音庫中的已知主觀MOS值的語音文件.本文將PESQ的評價結果作為基準,來比較MelCD和MelGD的性能.為了驗證MelGD算法在語音通信系統中的通用性和有效性,根據語音編碼方式將實驗分為3組.按表1的參數來進行3組評測實驗,其中:X、Y、Z表示CSACELP、ADPCM、LDCELP、GSM、μPCM/APCM和VSELP編碼算法其中之一;→表示兩者串聯.
PESQ、MelCD和MelGD對3組實驗進行客觀評價的有效性分析如表2所示.由表2的數據可知,MelGD比MelCD的主觀與客觀的相關性提升了4.9%,平均估計偏差降低了45.5%,但總體性能比PESQ略低.
表1實驗參數設置
Tab.1Experimental parameter settings
實驗序號編碼算法文件對數1X942X→Y1023X→Y→Z98
表2PESQ、MelCD和MelGD有效性分析
Tab.2Validity analysis of PESQ, MelCD and MelGD
實驗
序號PESQrδMelCDrδMelGDrδ10.9380.2840.8540.6220.8990.43220.9070.4130.8140.8640.8690.40430.8860.3800.8270.7550.8520.384平均值0.9100.3590.8320.7470.8730.407
3種算法在平均運行時間方面的對比如表3所示.由表3可知,MelGD和MelCD的平均運行時間大致相同,算法復雜度基本一致;與PESQ相比,MelGD在平均運行時間上減少了26.7%,而評測結果的相關度僅下降了4.1%.
表3PESQ、MelCD和MelGD運行時間對比
Tab.3Running time comparison
of PESQ, MelCD and MelGDs
實驗序號PESQMelCDMelGD12.1411.3241.52522.2101.4391.67232.1731.4211.589平均值2.1751.3951.595
上述結果表明,MelGD算法保留了MelCD算法運行時間較短和算法復雜度低的優點,但評價準確性較MelCD算法有了很大的提高.與PESQ算法相比,評價準確性相差較小,但運行時間和算法復雜度減小明顯.3結論本文提出的MelGD算法結合人耳的聽覺生理模型和感知特性對MFCC特征參數進行了改進,比MelCD算法具有更好的主觀與客觀的相關性,且適應性好,是一種符合人耳聽覺感知特性且簡便有效的語音質量客觀評價方法,借助于各種語音信號處理方法可將其應用于語音編/解碼器和通信網絡的語音質量客觀評價.參考文獻:[1]陳國,胡修林,張蘊玉,等. 語音質量客觀評價方法研究進展[J]. 電子學報,2001,29(4): 15.
CHEN Guo, HU Xiulin, ZHANG Yunyu, et al. Research advance on objective measures of speech quality[J]. Acta Electroncia Sinica, 2001, 29(4): 15.
[2]李薇,胡智奇,尚秋峰,等. 語音質量客觀評價方法的研究[J]. 電力系統通信,2009,30(198): 6467,71.
LI Wei, HU Zhiqi, SHANG Qiufeng, et al. Research on objective evaluation of speech quality[J]. Telecommunications for Electric Power System, 2009, 30(198): 6467, 71.
[3]Telecommunication Standardization Sector of ITU. ITUT Recommendation P.830 Subjective performance assessment of telephoneband and wideband digital codecs[S]. Geneva: International Telecommunication Union, 1996.
[4]Telecommunication Standardization Sector of ITU. ITUT Recommendation P.862 Perceptual evaluation of speech quality (PESQ): An objective method for endtoend speech quality assessment of narrowband telephone networks and speech codecs[S]. Geneva: International Telecommunication Union, 2001.
[5]KUBICHEK R. Melcepstral distance measure for objective speech quality assessment[C]∥Proceedings of IEEE Pacific Rim Conference on Communications, Computer and Signal Processing. Piscataway: IEEE Press, 1993: 125128.
[6]DAVIS S B, MERMELSTEIN P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE Trans. on Acoustics, Speech and Signal Processing,1980, 28(4): 357366.
[7]陳華偉,靳蕃. 基于感知模型的美爾譜失真測度[J]. 西南交通大學學報,2006,41(6): 723728.
CHEN Huawei, JIN Fan. Melspectral distortion measure based on perception model for objective speech quality assessment[J]. Journal of Southwest Jiaotong University, 2006, 41(6): 723728.
[8]張軍,張德運,傅鵬. 一種改進的心理聲學語音質量客觀評價算法[J]. 微電子學與計算機,2007,24(3): 203206.
ZHANG Jun, ZHANG Deyun, FU Peng. An improved psychoacoustics speech quality evaluation algorithm[J]. Microelectronics Computer, 2007, 24(3): 203206.
[9]陳明義,孫冬梅,何孝月. 基于改進MFCC語音特征參數的語音質量評估的研究[J].電路與系統學報,2009,14(3): 111116.
CHEN Mingyi, SUN Dongmei, HE Xiaoyue. Study on speech quality evaluation based on improved MFCC[J]. Journal of Circuits and Systems, 2009, 14(3): 111116.
[10]鄧宗元,楊震. 一種改進的語音質量客觀評價參數[J]. 南京郵電大學學報:自然科學版,2008,28(2): 1418.
DENG Zongyuan, YANG Zhen. An improved object measure of speech quality[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science, 2008, 28(2): 1418.
[11]梁超. 一種基于Gammatone濾波的語音質量評價算法[J].長春工業大學學報:自然科學版,2010,31(4): 432436.
LIANG Chao. An algorithm for objective speech quality assessment based on Gammatone filter[J]. Journal of Changchun University of Technology: Natural Science Edition, 2010, 31(4): 432436.
[12]JOHANNESMA P I M. The preresponse stimulus ensemble of neurons in the cochlear nucleus[C]∥ Proceedings of the Symposium on Hearing Theory. Eindhoven: IPO, 1972: 5869.
[13]陳世雄,宮琴,金慧君. 用Gammatone濾波器組仿真人耳基底膜的特性[J]. 清華大學學報:自然科學版,2008,48(6): 10441048.
CHEN Shixiong, GONG Qin, JIN Huijun. Gammatone filter bank to simulate the characteristics of the human basilar membrane[J]. Journal of Tsinghua University: Science and Technology, 2008, 48(6): 10441048.
[14]李云鴻,胡修林,張蘊玉. 基于人耳聽覺模型的語音質量客觀評價方法[J]. 華中理工大學學報,2000,28(5): 6365.
LI Yunhong, HU Xiulin, ZHANG Yunyu. Objective evaluation method of speech quality based on human auditory model[J]. Journal of Huazhong University of Science and Technology, 2000, 28(5): 6365.
[15]王煒,劉峰,吳淑珍. RASTA濾波在語音通信質量客觀評價中應用的研究[J]. 北京大學學報:自然科學版,2003,39(5): 697702.
WANG Wei, LIU Feng, WU Shuzhen. A study for the application of RASTA on objective communication speech quality evaluation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2003, 39(5): 697702.