薛梅,周南
(電子科技大學 電子工程學院,四川 成都 610054)
人類語音的頻帶信息主要分布在50 Hz~8 kHz的頻率范圍之間。但是,由于在傳輸過程中受到位率等因素的影響,電話語音的頻帶被限制在300 Hz~4 kHz的范圍內,降低了語音的可懂度,聽起來也不太自然。為了在不增加額外成本的前提下得到寬帶語音,提高語音的可懂度和自然度,人們進行了語音帶寬擴展算法的研究。目前的語音帶寬擴展算法通常是基于線性源濾波器模型,該模型主要包括兩個部分:寬帶譜包絡的估計和寬帶激勵信號的估計。寬帶語音信號由寬帶激勵信號通過寬帶譜包絡合成濾波器生成。帶寬擴展的關鍵就是如何利用窄帶信號估計寬帶激勵信號和寬帶譜包絡。
當前,帶寬擴展算法中寬帶激勵信號的估計方法以譜折疊、白噪聲激勵、諧波噪聲模型最為典型。
迄今為止,譜包絡擴展算法主要有線性映射法、碼本映射法和統計映射法。線性映射法模型過于簡化,估計得到的高頻帶譜包絡失真較大;統計映射法無法找到表示譜包絡的最佳特征,并且特征之間沒有良好的區分標準;碼本映射法能有效地估計窄帶特征與寬帶特征之間的相關性,得到良好的寬帶譜包絡系數,并且計算量小,實時性好。因此,碼本映射法是最常用的映射法。
本文提出的加權的碼本映射算法比傳統的碼本映射法得到的帶寬擴展效果更好。
寬帶譜包絡的估計一般是通過提取窄帶信號的特征參數然后結合預先訓練得到的寬帶譜包絡信息來估計輸入信號的寬帶譜包絡。
基于碼本映射法的帶寬擴展算法大都源于信號壓縮中的矢量量化技術[1]。矢量量化就是用一個預先訓練好的碼本按照某一預定義好的距離測度來編碼輸入矢量,從而用碼本中最接近輸入矢量的碼本矢量來表示輸入矢量。設計矢量量化器的主要任務是設計碼本。
帶寬擴展算法的碼本映射法使用兩個碼本,一個用于窄帶矢量,另一個用于寬帶矢量。這兩個碼本一起訓練,并且它們之間存在一一對應的關系。碼本映射過程為通過窄帶碼本搜索與輸入的窄帶特征矢量最接近的碼字矢量,然后將最佳的窄帶碼字索引映射到寬帶碼本,使用相應的寬帶特征矢量來估計丟失的譜包絡[2]。
在碼本映射的過程中,預測的寬帶譜包絡的數量會受到碼本容量的限制。用加權的方式對寬帶碼本進行插值可以有效地減少這一限制。對某個輸入的窄帶譜包絡矢量選擇N個相近的窄帶碼本包絡矢量,通過碼本映射找到N個相應的寬帶碼本矢量。然后對這N個寬帶碼本矢量進行加權得到最終需要的寬帶譜包絡矢量。用w1,w2,…,wN對寬帶譜包絡向量進行加權求和。如圖1所示為N=3時估計寬帶譜包絡特征的加權求和。其中,n表示碼本容量,一般為2的整數次冪。

圖1 加權的碼本映射(N=3)Fig.1 Weighted codebook mapping(N=3)
激勵源包含了關于語音諧波結構的重要信息,因而其在合成寬帶譜的精細結構時是必不可少的。主要的寬帶激勵方法有以下幾種:
l)脈沖和噪聲激勵[3];
2)非線性失真[4];
3)譜折疊[5];
4)譜平移。
脈沖和噪聲激勵由于僅使用二元激勵而導致恢復出的語音效果有很大局限。非線性失真的主要缺點是由整流產生的頻譜成分有很大的不可預見性。因此,它經常產生類似噪聲的高頻成分,尤其是在語音為濁音時。譜折疊和譜平移的方法源于對基帶編碼器的研究,這兩種方法是目前的帶寬擴展里寬帶激勵源再生方法中使用最廣泛的方法。
譜折疊的實現方法很簡單,將殘差信號直接上采樣即可,如圖2所示。從語音信號線性預測分析的原理可知,濁音的殘差信號具有很強的周期性。因此,窄帶殘差信號幅度譜的低頻段具有明顯的諧波結構,譜折疊會給寬帶激勵信號的高頻段帶來明顯的諧波分量,這會使重建后的寬帶語音缺乏自然度。

圖2 譜折疊的實現過程Fig.2 The implementation of spectral fold
譜平移的實現方法如圖3所示。從圖中可以看出,譜平移在實現過程中需要經過兩次濾波,因此譜平移的實現要比譜折疊復雜。但是,譜平移可以有效地減弱使用譜折疊時由明顯的諧波結構而引起的缺乏自然度的寬帶語音信號。因此,譜平移的實際效果要好于譜折疊。在本文中使用譜平移的方法來產生寬帶激勵信號。

圖3 譜平移的實現過程Fig.3 The implementation of spectral translation
在本文設計的帶寬擴展系統中,寬、窄帶特征都用的是線譜對系數(LSP),因為它有很好的插值特性[6-7]。為了提高估計寬帶語音譜包絡的準確性,將映射碼本分為濁音碼本和清音碼本。帶寬擴展結構框圖如圖4所示。

圖4 語音帶寬擴展結構框圖Fig.4 Block diagram of speech bandwidth extention
訓練語音為從TIMIT語音數據庫中提取的時長為20 s、采樣率為8 kHz的窄帶語音和其對應的時長為20 s、采樣率為16 kHz的寬帶語音。測試語音先用此訓練語音中的窄帶語音,然后用從TIMIT語音數據庫中提取的,但是時長為100 s的,而且說話者不同于訓練語音中的窄帶語音。
Mel濾波器組個數為20。LSP參數設定為10維矢量。訓練采用LBG算法,碼本容量為1024。碼本映射中,N=5,w1=w2=…=wN=1/N。在重建語音時,窄帶語音幀長為160樣點,恢復出的寬帶語音幀長為320樣點(幀延時20 ms)。
為了測試此算法的有效度,對估計帶寬信號和原始帶寬信號進行對比,先用訓練語音中的窄帶語音做為測試語音。這樣,在理想情況下,重建后的估計寬帶信號就應該是訓練語音中的寬帶語音,即原始語音。看此算法的帶寬擴展情況最直觀的方法除了直接聽(主觀測試,3.4中介紹)以外就是看頻譜圖。圖5所示為原始寬帶語音(上圖)和估計寬帶語音(下圖)的頻譜圖。觀察可知,它們的頻譜包絡幾乎是相同的,這就說明從窄帶語音中恢復寬帶語音就達到了很好的帶寬擴展效果。

圖5 估計寬帶語音與原始寬帶語音的頻譜圖Fig.5 The frequency spectrum of estimated wideband speech and original wideband speech
所謂客觀測試就是用一定的標準來度量估計寬帶語音譜包絡與原始寬帶語音譜包絡之間的區別,也就是估計寬帶語音相對于原始寬帶語音的失真度,將估計寬帶語音的質量量化。
3.4.1 寬帶譜失真測度
本文使用的失真測度為:

其中,

Ak(w)和 A′k(w)分別為第 k 幀原始語音和合成寬帶語音的譜包絡;ws為寬帶語音信號采樣頻率(16 kHz)。補償增益因子GC可以有效地去除兩個原始包絡之間的均方誤差。此失真測度只測試譜包絡之間的失真。
3.4.2 客觀測試結果
客觀測試結果如表1中所示。

表1 客觀測試結果Tab.1 Objective test result
主觀測試就是用人對聽到的語音的主觀感覺來判斷聽到的語音(估計寬帶語音)的質量,并對其進行評分。
3.5.1 主觀測試標準
本文的主觀測試采用MOS評分。MOS(Mean Opinion Score)即平均意見評分,是目前國際上最常用的主觀評分方法。具體評分標準見表2。

表2 主觀測試標準Tab.2 Subjective test standard
3.5.2 主觀測試結果
測試結果如表3所示。

表3 主觀測試結果Tab.3 Subjective test result
在人工帶寬擴展算法的研究中,算法的選擇是首要的。但是除此之外,還有以下幾個問題值得注意:
1)濾波器的選取。不同類型的濾波器達到的濾波效果不一樣。在本文中,用的是5階橢圓濾波器。因為橢圓濾波器相比其他類型的濾波器,在階數相同的條件下有著最小的通帶和阻帶波動。
2)包絡特征的選取。合適的包絡特征可以給算法的實現帶來很大的幫助。在本文中使用的是語音信號的線譜對參數(具體原因在第三節一開始有介紹)。
3)碼本容量的選取。碼本容量過小就達不到好的帶寬擴展效果,過大則會增加計算復雜度。
4)對比圖5中上下兩圖可知,雖然頻譜很相似,但是在其開始部分和頻率為4 kHz處的幅度是不一樣的。這是需要改進和繼續研究的地方。
本文在現有帶寬擴展算法的基礎上提出了一種加權碼本映射的語音帶寬擴展算法,靈活地運用了寬窄帶譜包絡特征之間一一映射的原理,減少了區間劃分帶來的誤差。主、客觀測試表明,加權的碼本映射法優于一般的碼本映射法,其產生的譜包絡失真更小,能帶來更好的帶寬擴展效果,使得擴展后的語音具有更好的可懂度和自然度。
[1] 陳善學,李方偉.矢量量化與圖像處理[M].北京:科學出版社,2009.
[2] Hu R,Krishnan V,Anderson D V.Speech bandwidth extension by improved codebook mapping towards increased phonetic classification[J].Interspeech,2005:1501-1504.
[3] Avendano C,Hermansky H,Wan E A.Beyond Nyquist:Towards the recovery of broad-bandwidth speech from narrowband width speech[C]//Fouth European Conference on speech communication and Technolgy,1995:165-168.
[4] McCree A.A 14 kb/s wideband speech coder with a parametric highband model[C]//IEEE International Conference on Acoustics, Speech, Signal Processing,2000(2):1153-1156.
[5] 竇庚欣.4 kb/s快速 DP-CELP語音編碼與頻帶擴展技術研究[D].北京:北京工業大學,2006.
[6] Jax P.Artificial bandwidth extension of speech signal[C]//ICASSP, 2003:78-88.
[7] Neuendorf M,Gournay P,Multrus M,et al.Unified speech and audio coding scheme for high quality at low bitrates[C]//ICASSP,2009:1-4.