王迎雪 趙勝輝 于瑩瑩 匡鏡明
?
基于受限玻爾茲曼機的語音帶寬擴展
王迎雪 趙勝輝*于瑩瑩 匡鏡明
(北京理工大學信息與電子學院 北京 100081)
語音帶寬擴展是為了提高語音質量,利用語音低頻和高頻之間的相關性重構語音高頻的一種技術。高斯混合模型法是語音帶寬技術中被廣泛應用的一種方法,但是,由于該方法假設語音高頻、低頻服從高斯分布,且只表征了語音低頻、高頻之間的線性關系,從而導致合成的高頻語音出現失真。因此,該文提出一種基于受限玻爾茲曼機的方法,該方法利用兩個高斯伯努利受限玻爾茲曼機提取語音低頻和高頻中蘊含的高階統計特性;并利用前饋神經網絡將語音低頻高階統計特性參數映射為高頻高階統計特性參數。這樣,通過提取語音低頻和高頻中蘊含的高階統計特性,該方法可以深層挖掘語音高頻和語音低頻之間的實際關系,從而更加準確地模擬頻譜包絡分布,合成質量更高的語音。客觀測試、主觀測試結果表明,該方法性能優于傳統的高斯混合模型方法。
語音帶寬擴展;受限玻爾茲曼機;前饋神經網絡;高斯混合模型
1 引言
由于窄帶電話語音的帶寬限制在300 Hz到3.4 kHz之間,因此,電話語音的自然度不夠,語音質量有限,在一些對語音質量要求高的場合,窄帶電話語音不能滿足人們的需求。這些不足可以通過引入寬帶語音(50 Hz~7 kHz)通信得以改善。目前,電話網絡的終端系統和寬帶通信之間還存在兼容性等問題,寬帶語音通信還沒有被實際應用到公共電話網絡系統中。因此,可以通過語音帶寬擴展技術將窄帶語音擴展成寬帶語音,達到提高語音質量的目的。語音帶寬擴展技術不需要對現有通信網絡的發射端和網絡進行改變,利用語音低頻部分獲得語音高頻部分,然后將語音高頻部分與低頻部分疊加在一起,得到重構后的寬帶語音。語音帶寬擴展技術已被應用于多種任務,如語音識別[1],多播會議[2]等。
目前,應用最廣泛的語音帶寬擴展算法是源濾波器模型法,該方法的3個主要內容是:高頻頻譜包絡估計、高頻激勵信號的產生、能量調整。其中,高頻頻譜包絡估計是目前研究的重點。高頻頻譜包絡估計的方法主要包括碼本映射法[3, 4],線性映射法[5],分段線性映射法[6],高斯混合模型(Gaussian Mixture Model, GMM)法[7, 8],隱馬爾科夫模型(Hidden Markov Model, HMM)法[9, 10]和人工神經網絡法[11, 12]等。其中,GMM方法由于具有良好的帶寬擴展效果,得到了廣泛的應用。而且,近年來,許多學者在傳統GMM方法的基礎上,提出了許多改進的方法。如文獻[13]利用最大后驗概率準測和矢量泰勒級數相結合的方法針對被噪聲污染的窄帶語音進行語音帶寬擴展。文獻[14]對比了時域平滑頻譜系數和梅爾頻譜系數的互信息,并將互信息較大的時域平滑頻譜系數作為GMM的輸入數據,以此來估計高頻頻譜包絡。傳統GMM法需要對齊的低頻、高頻數據作為訓練數據,且只能對固定的語音頻段進行擴展,針對以上不足,文獻[15]采用子頻帶頻譜模型提取語音特征參數,并用非對齊的特征參數作為GMM模型的輸入數據,實現了對任意語音頻段的帶寬擴展。
但是,GMM法成立的前提是假設低頻、高頻特征參數服從高斯分布。實際上,高、低頻特征參數并不符合GMM法中的假設關系,而且GMM法只發掘了低頻、高頻特征參數之間的線性關系,忽略了兩者之間的非線性關系,因此導致映射得到的高頻頻譜包絡特征參數存在誤差,合成的高頻語音存在失真。為了更好地挖掘和模擬低頻特征參數和高頻特征參數之間的線性和非線性關系,從而更加準確地利用低頻特征參數估計高頻特征參數,本文提出了一種基于受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)的高頻頻譜包絡估計方法。該方法利用兩個高斯伯努利受限玻爾茲曼機(Gaussian-Bernoulli RBM, GBRBM)和前饋神經網絡(Feedforward Neural Network, FNN)組成一個深度神經網絡,提取了高、低頻語音的高階統計特征信息,從而更好地發現和模擬了低頻特征參數和高頻特征參數之間的關系。主觀測試和客觀測試表明,相比傳統的GMM方法,該方法重構的語音質量更高。
2 受限玻爾茲曼機
受限玻爾茲曼機是一個具有兩層結構的隨機神經網絡。這兩層結構中,一個為可見層,另外一個為隱含層。可見層與隱含層之間全連接,可見層內的節點之間或者隱含層內的節點之間相互無連
接[16]。根據可見層和隱含層所對應的建模單元類型的不同,受限制玻爾茲曼機有不同的構成形式。當可見層和隱含層的隨機變量都服從伯努利分布,即可見層和隱含層都由二值單元構成時,稱為伯努利-伯努利RBM(Bernoulli-Bernoulli RBM, BBRBM)。在語音帶寬擴展系統中,神經網絡的輸入數據是類似于線譜頻率(Line Spectral Frequency, LSF)的聲學特征,它們都是實數值的數據,使用二值分布對其進行建模并不合適。為使RBM能夠對底層聲學特征進行學習,將RBM可見單元建模為具有高斯噪聲的線性變量,而隱含層仍然由二值單元構成,這種類型的RBM稱為高斯-伯努利RBM (Gaussian-Bernoulli RBM, GBRBM)[17]。
GBRBM的能量函數定義為
可見層和隱含層變量的聯合分布為
3 受限玻爾茲曼機的語音帶寬擴展
在語音帶寬擴展技術中,高頻頻譜包絡的估計是目前研究的重點。本文采用受限玻爾茲曼機進行高頻頻譜包絡的估計。
3.1 深度神經網絡結構及參數估計
圖1給出了高頻頻譜估計的深度神經網絡的網絡結構。從圖1中可以看出,深度神經網絡由一個低頻GBRBM、一個高頻GBRBM和FNNs組成。其中,低頻GBRBM和高頻GBRBM的作用是將低頻特征參數和高頻特征參數分別映射為它們的高階統計特征信息和; FNNs負責將低頻高階統計特征映射為高頻高階統計特征。在使用低頻GBRBM、高頻GBRBM和FNNs之前,首先要對它們的網絡參數進行估計。參數的估計過程如圖1中虛線所示。

圖1高頻頻譜包絡估計的深層神經網絡結構圖
估計低頻GBRBM的網絡參數:將低頻語音的頻譜包絡特征參數(為維數)作為GBRBM的輸入,采用CD法對其進行非監督訓練,訓練完成后得到低頻GBRBM的權值等參數。這樣,已知時,可利用隱含節點的條件分布抽取隱含單元的樣值,。
估計高頻GBRBM的網絡參數:將高頻語音的特征參數(為維數)作為GBRBM的輸入,利用CD法對其進行訓練,得到高頻GBRBM的網絡參數。這樣,已知時,可利用隱含節點的條件分布抽取隱含單元的樣值,。
估計FNNs的網絡參數:將低頻GBRBM和高頻GBRBM隱含單元的樣值,分別作為FNNs的輸入、輸出數據,對其進行監督訓練,并通過最小化輸出和目標向量之間的誤差估計出FNNs的權值和偏移量,其中為網絡層數。這樣,已知低頻高階特征參數時,可利用訓練好的FNNs獲得高頻高階特征參數。當為2時,如式(11):
3.2 高頻頻譜包絡估計
獲得低頻GBRBM, FNNs,高頻GBRBM的網絡參數以后,將訓練好的低頻GBRBM, FNNs,高頻GBRBM 自底向上依次堆積搭建起來,正向傳導低頻GBRBM, FNNs的網絡結構參數,反向傳導高頻GBRBM網絡結構參數,從而實現低頻特征參數到高頻特征參數的映射,得到估計的高頻頻譜包絡。具體如下:
采用概率值時,
這里,我們使用概率值。
其次,把訓練完成的FNNs看作通用的泛函映射函數,對低頻語音信號的高階特征參數進行映射,得到高頻語音的高階特征參數;在重構時,當FNNs層數為1,且使用概率值時,
結合式(4),式(11)和式(13)得
4 實驗與結果
4.1語音數據庫及實驗設置
本文采用的數據庫包括NTT-AT漢語語音數據庫[20]、TIMIT語料庫和北京理工通信技術研究所和愛立信RCDCT (Research Center of Digital Communication Technology)共同錄制的漢語語音測試庫。NTT-AT漢語語音數據庫和RCDCT的漢語語音測試庫都包含96句男性和女性(4名女和4名男性)的發聲,每條語句的采樣率為16 kHz,數據格式為16位的PCM,每條語句的持續時間為8 s。TIMIT語料庫包含630個男性和女性的6300句發聲,由一個核心訓練集(462個說話人和4620條語句)和一個全測試集(168個說話人和1344條語句)組成,其中每條語句的采樣率為16 kHz,數據格式為16位的PCM。其中,TIMIT語料庫的全測試集包含一個核心測試集(24個說話人和192條語句)。本文的訓練集共包含TIMIT語料庫的核心訓練集、從NTT-AT漢語語音數據庫隨機選擇的64條語句和從RCDCT語料庫隨機選擇的64條語句。由于訓練樣本集合與測試樣本集不能重復,所以本文的測試集包含TIMIT語料庫的核心測試集合和2個漢語語料庫中沒有用于訓練的所有語音樣本。
特征參數提取時,采樣率為16 kHz的寬帶語音首先分別通過高、低通濾波器,然后下采樣,得到低頻語音(0~4 kHz)和高頻語音(4~8 kHz)。然后對高、低頻語音分別進行加漢明窗處理,幀長為20 ms,幀移為10 ms,預加重的系數為0.97。高、低頻聲學特征參數分別使用10維的LSF和16維的LSF。LSF作為低頻GBRBM和高頻GBRBM的輸入數據,在送入GBRBM訓練前,需在整個訓練集范圍內對其進行歸一化,使得每一維特征參數都滿足均值為0、方差為1的正態分布。
高頻激勵信號的產生和能量增益調整也是重構高頻語音時比較重要的問題。由于AMR-WB+直接采用低頻激勵信號作為高頻激勵信號[21],并取得了很好的帶寬擴展效果,因此,本文采用低頻激勵信號直接作為高頻激勵信號。采用文獻[22]中的碼本映射法對低頻激勵信號進行能量增益調整。
為了驗證本文方法的性能,將本文方法與傳統GMM方法[7]進行對比。GMM高斯模型中高斯分量的個數取為128,模型參數估計采用EM算法。GBRBM模型參數估計采用小批量(minibatch)的對比散度算法,每個批量的規模為128個訓練樣本。對比散度算法在梯度下降的過程中使用一次的吉布斯采樣完成對權重的更新,參數更新的迭代步長設為0.0001。對于低頻GBRBM,學習率為0.001,學習輪次(epoch)為225;對于高頻GBRBM,學習率為0.001,學習輪次為75;沖量值(momentum)在最初5輪設為0.5,然后增加至0.9;權值衰減因子為0.0002。對于低頻GBRBM模型,隱含層節點數設為200,而對于高頻GBRBM模型,隱含層節點數設為100。
為了評價所提方法的性能,分別進行了主觀評價、客觀評價及語譜圖比較,并且給出了不同帶寬擴展方法的主觀測試結果、客觀測試結果以及語譜圖。主觀評價采用A/B測試,客觀評價采用COSH距離測度和均方根對數譜距離測度。
4.2 客觀評價
COSH距離測度的定義[23]為
均方根對數譜距離(Root Mean Squared Log Spectral Distance, RMS-LSD):

表1 COSH距離值
從表1可以看出,相比傳統的GMM方法,本文提出的受限玻爾茲曼機語音帶寬擴展方法得到的COSH距離值和均方根對數譜距離值減小。而且,隱含層數為3時,COSH距離值和均方根對數譜距離值最小。這表明,就客觀評價而言,所提算法的性能優于傳統的GMM方法,它能夠提高重構語音的質量,且隱含層數越多,重構語音質量越高。
4.3 主觀評價
主觀評價采用了A/B測試。該測試中,A代表傳統GMM 方法擴展后的寬帶語音,B代表GBRBM&FNN方法擴展后的寬帶語音。該測試中,一共有12位測聽人對測試集中的所有語料進行測聽,并給出他們偏愛哪一種方法或者無偏愛的測試結果。表3給出了A/B測試的結果。
從表3可以看出,大多數人偏愛GBRBM & FNN擴展后的語音,且隨著隱含層數的增加,人們偏愛GBRBM&FNN擴展后語音的程度增加。這表明,就主觀測試而言,相比GMM方法,所提算法重構的語音質量更高。

表3 A/B測試結果(%)
4.4 語譜圖比較
圖2給出了原始寬帶語音信號、低頻語音信號以及經不同帶寬擴展方法擴展后的語音語譜圖。從圖2可以看出,相比傳統的GMM方法,GBRBM&FNN擴展后的語音語譜圖更加接近原始寬帶語音信號的語譜圖。尤其,在橢圓標記之處,GBRBM&FNN擴展后的語音頻譜與原始寬帶語音信號的頻譜更吻合。這表明所提算法可以更加準確的估計高頻頻譜包絡,性能優于傳統的GMM方法。

圖2 語音語譜圖
主觀測試、客觀測試以及語譜圖比較結果表明本文算法的性能優于傳統的GMM方法。這是由于所提算法采用受限玻爾茲曼機提取了語音信號的高階統計特性,深層挖掘了低頻語音和高頻語音之間的關系,從而更準確地模擬了高頻頻譜包絡,提高了合成語音的質量。
5 結束語
本文提出了基于高斯伯努利玻爾茲曼機和前饋神經網絡的語音帶寬擴展方法。算法分為高頻激勵信號的產生、能量增益的調整、高頻頻譜包絡估計3個部分。高頻激勵信號的產生采用低頻激勵信號作為高頻激勵信號。能量增益的調整采用碼本映射法。高頻頻譜包絡估計采用兩個高斯伯努利玻爾茲曼機和一個前饋神經網絡提煉了低頻語音和高頻語音的高階統計特性,將低頻頻譜包絡的特征參數映射為高頻頻譜包絡的特征參數。主觀測試、客觀測試及語譜圖實驗結果表明,相較于傳統的GMM語音帶寬擴展方法,所提的語音帶寬擴展方法可以提高重建語音的質量。
致謝:感謝北京理工大學--愛立信國際合作項目以及國家留學基金委對本論文的支持。
[1] BAUER P, ABEL J, FISCHER V,. Automatic recognition of wideband telephone speech with limited amount of matched training data[C]. Proceedings of the 22nd European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, 2013: 1232-1236.
[2] GANDHIMATHI G and JAYAKUMAR S. Speech enhancement using an artificial bandwidth extension algorithm in multicast conferencing through cloud services[J]., 2014, 13(12): 1953-1960. doi: 10.3923/itj.2014.1953.1960.
[3] YOSHIDA Y and ABE M. An algorithm to reconstruct wideband speech from narrowband speech based on codebook mapping[C]. Proceedings of the International Conference on Spoken Language Processing, Yokohama, Japan, 1994: 1591-1594.
[4] WANG Yingxue, ZHAO Shenghui,. Superwideband extension for AMR-WB using conditional codebooks[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Florence, Italy, 2014: 3695-3698.
[5] NAKATOH Yoshihisa, TSUSHIMA Mineo, NORIMATSU Takeshi,. Generation of broadband speech from narrowband speech using on linear mapping[J].2(), 2002, 85(8): 44-53. doi: 10.1002/ecjb.10065.
[6] DUY N D, SUZUKI M, MINEMSTSU N,. Artificial bandwidth extension based on regularized piecewise linear mapping with discriminative region weighting and long-Span features[C]. INTERSPEECH, Lyon, France, 2013: 3453-3457.
[7] PARK K Y and KIM H S. Narrowband to wideband conversion of speech using GMM based transformation[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Istanbul, Turkey, 2000: 1843-1846.
[8] PULAKKA H, REMES U, PALOMAKI K,. Speech bandwidth extension using gaussian mixture model-based estimation of the highband Mel spectrum[C]. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011: 5100-5103.
[9] JAX P and VARY P. Artificial bandwidth extension of speech signals using mmse estimation based on a hidden markov model[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Hong Kong, 2003: 680-683.
[10] BAUER P, ABEL J,. HMM-based artificial bandwidth extension supported by neural networks[C]. 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC), Juan-les-Pins, France, 2014: 1-5.
[11] LIU Haojie, BAO Changchun, and LIU Xin. Spectral envelope estimation used for audio bandwidth extension based on RBF neural network[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Vancouver, Canada, 2013: 543-547.
[12] LI K and LEE C H. A deep neural network approach to speech bandwidth expansion[C]. Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015: 4395-4399.
[13] SEO H, KANG H G, and SOONG F. A maximum a Posterior-based reconstruction approach to speech bandwidth expansion in noise[C]. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014: 6087-6091.
[14] LIU Xin and BAO Changchun. Audio bandwidth extension based on temporal smoothing cepstral coefficients[J].,,, 2014, 2014(1): 1-16.
[15] OHTANI Y, AMURA M, ORITA M,. GMM-based bandwidth extension using sub-band basis spectrum model[C]. Fifteenth Annual Conference of the International Speech Communication Association, Singapore, 2014: 2489-2493.
[16] ACKLEY D H, HINTON G E,. A learning algorithm for Boltzmann machines[J]., 1985, 9(1): 147-169. doi: 10.1207/s15516709cog0901_7.
[17] MOHAME A, DAHL G E, and HINTON G E. Acoustic modeling using deep belief networks[J].,,, 2012, 20(1): 14-22.
[18] HINTON G E. Training products of experts by minimizing contrastive divergence[J]., 2002, 14(8): 1771-1800.
[19] HINTON G E and SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks[J]., 2006, 313(5786): 504-507.
[20] NTT Advanced Technology Corporation. Multi-lingual speech database for telephonometry[OL]. http://www.nttat.
com/products e/speech, 1994.
[21] MAKINEN J, BESSETTE B, BRUHN S,AMR-WB+: A new audio coding standard for 3rd generation mobile audio services[C]. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Pennsylvania, USA, 2005: 1109-1112.
[22] 張勇, 胡瑞敏. 基于高斯混合模型的語音帶寬擴展算法的研究[J]. 聲學學報, 2009, 34(5): 471-480.
ZHANG Yong and HU Ruimin. Speech bandwidth extension based on Gaussian mixture model[J]., 2009, 34(5): 471-480.
[23] NOUR-ELDIN AMR H and KABAL P. Mel-frequency cepstral coefficient-based bandwidth extension of narrowband speech[C]. INTERSPEECH, Brisbane, Australia, 2008: 53-56.
Speech Bandwidth Extension Based on Restricted Boltzmann Machines
WANG Yingxue ZHAO Shenghui YU Yingying KUANG Jingming
(,,100081,)
Speech Bandwidth Extension (BWE) is a technique that attempts to improve the speech quality by recovering the missing High Frequency (HF) components using the correlation that exists between the Low Frequency (LF) and HF parts of the wide-band speech signal. The Gaussian Mixture Model (GMM) based methods are widely used, but it recovers the missing HF components on the assumption that the LF and HF parts obey a Gaussian distribution and gives their linear relationship, leading to the distortion of reconstructed speech. This Study proposes a new speech BWE method, which uses two Gaussian-Bernoulli Restricted Boltzmann Machines (GBRBMs) to extract the high-order statistical characteristics of spectral envelopes of the LF and HF respectively. Then, high-order features of the LF are mapped to those of the HF using a Feedforward Neural Network (FNN). The proposed method learns deep relationship between the spectral envelopes of LF and HF and can model the distribution of spectral envelopes more precisely by extracting the high-order statistical characteristics of the LF components and the HF components. The objective and subjective test results show that the proposed method outperforms the conventional GMM based method.
Speech bandwidth extension; Restricted Boltzmann machines; Feedforward Neural Networks (FNN); Gaussian mixture model
TN912.3
A
1009-5896(2016)07-1717-07
10.11999/JEIT151034
2015-09-14;改回日期:2016-03-03;網絡出版:2016-04-14
趙勝輝 shzhao@bit.edu.cn
王迎雪: 女,1989年生,博士生,研究方向為語音、音頻編碼的研究.
于瑩瑩: 女,1989年生,碩士生,研究方向為語音、音頻編碼的研究.
趙勝輝: 男,1970年生,副教授,主要從事移動通信及語音、音頻信號處理的研究和教學工作.