陳 靜
(中國人民解放軍91404部隊,河北 秦皇島 066001)
Wavelet-COH在通信語音質量評估算法中的應用研究*
陳 靜
(中國人民解放軍91404部隊,河北 秦皇島 066001)
將小波變換用于子帶分解,對純凈語音信號和受擾語音信號進行特征提取,包括質心、子帶能量和帶寬等,并進一步與一致性函數(COH)方法相結合對語音客觀音質評價方法進行了研究,即Wavelet-COH方法。通過最小二乘多項式擬合模型,對Wavelet-COH方法得到的客觀評測和主觀評測結果進行相關分析,得出相應算法的相關系數和方差值。通過對比,表明Wavelet-COH語音評估方法比傳統的COH客觀評價方法有很大改善。
小波變換; COH; 語音音質客觀評價
語音質量評估一直是通信領域以及語音編碼領域的研究熱點。在現代化通信系統中存在各種干擾,包括不可避免的通信噪聲干擾,以及一些以阻斷通信為目的人為干擾。如何對各種干擾進行評價,給出客觀的評測指標,以及如何評價通信系統在這些干擾下的抗干擾能力,對完善高質量的通信系統,確保通信任務順利進行起著至關重要的作用。
語音質量評估可以分為主觀評價和客觀評價兩種。主觀評價的依據是ITU-TP.800(傳輸質量的主觀評價方法),以人為主體的評價方法,利用人主觀感覺的滿意度以可懂度為原則給聽到的語音打分,并通過得分情況來評價端到端的語音質量[1]。與主觀評價不同的另一種評價方法是客觀評價,客觀評價的目的是建立一個人腦與耳朵的模型,來模擬聽眾環境,并通過這個模型來模擬聽覺的失真,計算出一個質量指標,來衡量發送語音和接收語音之間的質量下降程度[2]。
從語音質量客觀評價性能的提高過程來看,客觀評價方法研究大致經歷了這樣幾個階段:時域階段(如SNR等)、頻域譜分析階段(如SD、COH等)、模型參數(LPC分析)階段(如CD等)、聽覺模型階段(BSD、MBSD和PSQM等)[3]及聽覺模型與判斷模型的混合(hybrid)模型階段(如AD/MNB等)[4]。因此可以將客觀評價從使用的主要技術方法上分為基于SNR的評價方法、基于LPC技術的評價方法、基于譜距離的評價方法、基于聽覺模型的評價方法、基于判斷模型的評價方法、其它類評價方法[5]。
其中COH方法的實質是在頻域計算純凈語音和受干擾語音的相關性的一種度量。近年來小波分析在語音合成與識別、圖像與信號處理等領域有著廣泛應用。作為分析非平穩時變信號的有力工具,小波變換采用多分辨率分析的思想,非均勻的劃分時頻空間,通過伸縮和平移等運算功能對信號進行多尺度細化分析,達到可以分析信號概貌和信號細節[6,7]的能力,克服了采用短時傅里葉變換進行信號分析時,傅里葉變換固定分辨率的弱點[8,9]。本文對小波變換在語音通信質量客觀評價中的應用進行了研究,提出了一種新的評估方法——小波COH語音評估方法,與COH語音評估方法相比處理結果有一定的改善。
整體通信語音質量評估系統框架如圖1所示,其中語音信號在通信過程中受到一定的干擾。發送端的純凈語音信號和接收端的受擾語音信號,在經過同步環節之后,計算Wavelet-COH作為客觀評估分值,通過主客觀映射模型之后,得到主觀估計結果。

圖1 基于Wavelet-COH的通信語音質量評估系統框架
1.1 同步環節
由于通信系統本身的算法延遲以及在不同天氣下短波傳輸信道的傳輸延遲,發送端和接收端信號需要同步環節確定真正語音的起始點對應關系。這里采用在文件起始位置加入500 Hz和2 000 Hz的單頻純音交替出現作為同步信號,對受擾語音信號,同樣檢測語音頻譜峰值,作為檢測的同步點。
圖2給出發送端純凈語音信號和接收端受擾信號起始的500 Hz的同步信號的短時頻譜,可以看出,雖然受擾信號受到的各頻帶噪聲的干擾,但仍然在500 Hz處出現明顯的峰值。

(a)純凈語音信號的500 Hz的同步信號的短時頻譜

(b)受擾語音信號的500 Hz同步信號的短時頻譜
1.2 主客觀映射模型
給定n+1個數據點(ok,sk),其中ok為客觀評測的結果,而sk為主觀評測結果,k=0,…,n。其中客觀評價結果為Wavelet-COH結果,而主觀評價結果采用MOS分值進行評價。
這里采用一個m次的多項式模型刻畫主客觀映射關系,如式(1)所示,其中ai為多項式的系數,其由最小二乘法估計。
pm(o)=a0+a1×o+…+am×om,m (1) 下面實驗中m取值為2。 最小二乘法擬合的準則是:使訓練數據總的擬合誤差(即總殘差)達到最小。其目標函數為: (2) 在客觀評估中,這里提出Wavelet-COH計算方法,旨在將小波變換的多尺度分析的優點和傳統的COH評價結合。 2.1 Coherence Function (COH) 第i幀的COH函數值計算如下[10,11]: (3) 式中,Ci為第i幀的COH函數值,i為幀序號,k為線性頻域的頻率標號,Xi(k)為第i幀標準語音的離散頻譜,Yi(k)為 第i幀干擾語音的離散頻譜。 Ci取均值,既為失真語音對應標準語音的COH函數值,如下所示: (4) 2.2 小波特征提取 小波變換具有恒Q性質、并且可以同時兼顧時域、頻域分辨率,其實質是短時傅立葉分析方法的發展與延拓。其優于短時傅里葉變換在于其具有多分辨率分析的特點。從理想濾波器組的角度看,多分辨分析實質上是將信號按頻帶進行分解,在處理不同頻帶信號時,其頻率分辨率不同[12]。 (5) (6) (7) 圖3 小波特征和頻譜特征的對比 2.3 Wavelet-COH COH評價的標準是計算頻域內,信號頻譜之間的相關度。在公式(3)中,由于語音信號的頻譜是復數,因此存在共軛和取模的操作,而對于每一幀的小波特征而言,每一維特征均為實數,因此公式(3)可以重寫為: (8) 3.1 實驗方法 本文中應用的數據是實際現場采集,具體采集數據的方法框圖如圖4所示。實驗時按圖示聯接各設備。發射的標準語音文件為錄制的標準男女聲數碼報文,采用增加同步頭的方法使標準語音與受擾語音的同步誤差小于一定的指標值,保證客觀評估算法中的時間同步。在實驗中通信干擾設備發射不同程度的干擾信號,在通信接收設備處錄取發射的通信信號和通信干擾信號,形成了不同程度的受擾語音文件。本實驗中一共得到受擾語音文件24個。主觀MOS評分按軍標要求進行實施。實驗所使用的語音信號的采樣頻率為11 025 Hz,基本覆蓋了語音的基音與高次諧波頻率范圍(基音頻率為60 Hz~500 Hz,最高諧波頻率5 000 Hz左右)。 圖4 實驗聯接示意圖 3.2 實驗結果 圖5和圖6給出傳統的COH方法和Wavelet-COH方法對應文件主觀和客觀評價的映射模型。其中橫軸為客觀評價結果,縱軸為主觀評價結果。紅色的散點為實際每個文件的主觀評價和客觀評價對應值,而按照最小二乘法擬合出的曲線,為在根據客觀評價得到相應主觀估計評價的映射模型。 圖5 COH算法擬合曲線 圖6 Wavelet-COH方法擬合曲線 衡量客觀評價測度和主觀評價MOS值的相符程度一般用相關系數R表示。其公式如下: (9) 其中,s(d)和o(d)分別為文件d的主觀評測分值和客觀評測分值。R系數可以反映出主觀評測和客觀評測結果之間的線性相關度。 另一種衡量客觀評價測度和主觀評價測度之間擬合度的方法是用估計的主觀評測值代替實際主觀評測值之間的誤差的方差,即: (10) 其中,s′=|s-so|,表示用主觀和客觀評價的映射模型代替主觀評價時帶來的誤差,so為估計的主觀評測值。 用COH方法對受擾語音文件進行評價,與主觀MOS值擬合后得到的相關系數R為0.82,方差σ為0.27。用Wavelet-COH方法對受擾語音文件進行評價,與主觀MOS值擬合后得到的相關系數R為0.90,方差σ為0.18。 3.3 結果分析 從相關系數試驗以及方差結果來看,本文提出的Wavelet-COH方法性能優于傳統的COH方法。從圖2可以看出,在本實驗系統中,通信干擾帶來的噪聲分布在各個頻段,語音信號質量因此受到很大干擾。傳統的COH方法是在頻譜系數基礎上進行相關匹配,因此在這種條件下受到的影響較大。而小波系數和頻譜系數相比具有較好的頑健性,其可以在較強噪聲環境下較好地表現語音信號,更適合在強噪聲干擾下的通信語音質量評估。 本文提出了一種基于小波變換原理的語音客觀音質評價的方法,有效將小波變換的優點和COH方法結合。與主觀測量結果進行相關分析,通過對比相關系數和方差值,在強干擾下得到優于傳統COH方法的性能。實驗結果表明:由于小波特征對噪聲的頑健性,將其應用在COH客觀評價方法中時,使擬合曲線有較高的相關系數和較低的方差,可以很好的提高語音音質客觀評價的準確性,是一種可以推廣應用的分析方法。 [1] ITU-T Recommendation P.800, Methods for Subjective Determination of Transmission Quality[S]. Geneva: International Telecommunication Union,1996. [2] 陳國, 胡修林, 張蘊玉等. 語音質量客觀評價方法研究進展[J]. 電子學報, 2001, 29(4):1-5. CHEN Guo, HU Xiu-lin, ZHANG Yun-yu, et al. Research Progress of Objective Evaluation of Speech Quality[J], Acta Electronica Sinica,2001, 29(4):1-5. [3] ITU-T Recommendation P.862, Perceptual Evaluation of Speech Quality (PESQ): An Objective Method for End-to-End Speech Quality Assessment of Narrow-Band Telephone Networks and Speech Codecs [S]. Geneva: International Telecommunication Union, 2001. [4] 陳明義,陳里,桂衛華. 基于MNB2算法的編解碼器客觀評估的應用研究,電路與系統學報,2004,9(1):126-129. CHEN Ming, CHEN Li, GUI Wei-hua. Applied Research of Objective Evaluation of Speech Codecs based on MNB2, Journal of Circuits and Systems, 2004, 9(1):126-129. [5] 李薇,胡智奇,尚秋峰等.語音質量客觀評價方法的研究[J]. 電力系統通信, 2009,30(198): 64-67,71. LI Wei,HU Zhi-qi,SHANG Qiu-feng,et al.Study of Objective Evaluation of Speech Quality[J]. Telecommunications for Electric Power System,2009,30(198):64-67,71. [6] 許山川.基于小波變換的語音信號去噪研究[D].秦皇島:燕山大學,2006. XU Shan-chuan. The Research of Speech De-Nosing based on Wavelet Transform[D].Qinhuangdao: Yanshan University, 2006. [7] 付維勇.基于小波變換的語音信號處理的應用研究[D].昆明:昆明理工大學,2008. FU Wei-yong. The Research of Application on Speech Signal Processing based on Wavelet Transform[D].Kunming: Kunming University of Science and Technology,2008. [8] 譚喬來.語音增強方法研究及應用[D].長沙:湖南師范大學,2008. TAN Qiao-lai. The Research on Speech Enhancement Method and Its Application[D].Changsha: Hunan Normal University,2008. [9] 齊揚陽,于淼,陳建忠.一種基于小波包的單通道盲源分離跳頻通信抗干擾方法[J],通信技術,2014,47(12):1361-1362. QI Yang-yang, YU Miao, CHEN Jian-zhong. An Anti-Jamming Method for Frequency-Hopping Communication based on Single Channel BSS of Wavelet Packet[J]. Communications Technology, 2014,47(12):1361-1362. [10] 張建良.基于小波變換的語音信號的噪聲處理研究[D].蘭州:蘭州大學,2007. ZHANG Jian-liang. De-Nosing Study of Speech Signal Based on Wavelet Method[D]. Lanzhou: Lanzhou University, 2007. [11] 張璐琳.GJB4405A-2006,語音通信干擾效果評定準則[S].北京:總裝備部軍標出版發行部:12-13. ZHANG Lu-lin. GJB4405A-2006, Assessment Rule of Jamming Effect for Speech Communications[S].Beijing: The General Armaments Department Military Standard Publication Distribution Department: 12-13. [12] 陳靜,趙凌偉.基于小波變換的語音質量客觀評估方法研究[J],無線電工程,2012,42(10):14-15. CHEN Jing, ZHAO Ling-wei. Study of Objective Evaluation of Communication Speech Quality based on Wavelet Transform[J]. Radio Engineering, 2012,42(10):14-15. Application of Wavelet-COH in Communication Speech Quality Evaluation Algorithm CHEN Jing (Unit 91404of PLA, Qinhuangdao Hebei 066001,China) With the application of wavelet tranform in sub-band decomposition, the characteristics of both clean and jammed speech signals are extracted,such as centroid, sub-band energy and band width. These characteristics are further combined with COH (Coherence Function), i.e. Wavelet-COH, and applied to objective evaluation of speech quality. Based on least squares polynomial fitting model, the obtained results of both objective and subjective evaluations through Wavelet-COH are analyzed, and the relationship coefficient and error variance also acquired. Comparison indicates that the Wavelet-COH speech evaluation method enjoys even more significant improvement as compared with traditional COH objective evaluation method. wavelet transform; COH; objective evaluation of speech quality 2015-03-03; 2015-07-08 Received date:2015-03-03;Revised date:2015-07-08 TN912.3 A 1002-0802(2015)09-1032-05 10.3969/j.issn.1002-0802.2015.09.011 陳 靜(1975—),女,碩士,高級工程師。主要研究方向為通信對抗。2 Wavelet-COH




3 實驗及結果



4 結束語
