基于深度學(xué)習(xí)的語音增強方法研究

2019-12-05 08:35:54劉鵬

智能計算機與應(yīng)用 2019年5期

劉鵬

摘要：針對基于深度學(xué)習(xí)的語音增強方法展開研究，系統(tǒng)闡述了基于深度學(xué)習(xí)的語音增強方法提出的背景、模型原理和實施過程。在TensorFlow平臺上搭建了基于DNN的深度學(xué)習(xí)語音增強模型進行了實驗，驗證了基于DNN的語音增強方法，提高了增強語音的可懂度。

關(guān)鍵詞：深度學(xué)習(xí);語音增強;DNN;語音可懂度

【Abstract】 The background， model principle and implementation process of speech enhancement based on deep learning are systematically expounded. A DNN-based deep learning speech enhancement model is built on the TensorFlow platform to conduct experiments， and it is verified that the speech enhancement method based on DNN improves the intelligibility of enhanced speech.

【Key words】 ?deep learning; speech enhancement; DNN; speech intelligibility

0 引言

語音是人與人之間溝通交流的主要媒介，然而在現(xiàn)實生活中語音不可避免地會受到外界噪聲的干擾，影響人們對語音的正確理解，特別是對于那些基于語音技術(shù)的實際應(yīng)用領(lǐng)域。比如，自動語音識別技術(shù)（Automatic Speech Recognition ，ASR）和人工耳蝸技術(shù)（Cochlear Implant，CI）等，噪聲干擾嚴重制約了相關(guān)技術(shù)的發(fā)展。因此，研究如何從帶噪語音中估計出純凈語音即顯得尤為必要。

迄今為止，學(xué)者們提出了很多噪聲去除和語音增強的方法，比如維納濾波法（Wiener Filtering）、譜減法（Spectral Subtraction Method）、信號子空間方法（Signal Subspace Approach）和最小均方誤差方法（Minimum Mean Square Error ，MMSE）。然而，這些方法主要集中在研究語音與噪聲的統(tǒng)計特性差異上，需要保證語音和噪聲信號不存在相關(guān)關(guān)系，而且在降噪過程中會出現(xiàn)“音樂噪音”（music noise），導(dǎo)致語音失真[1]。此外，對于在語音增強中遇到的快速變化的噪聲（如機關(guān)槍）和負譜估計等問題，傳統(tǒng)的語音增強方法處理效果不佳[2]。

Rumelhart等3位學(xué)者在1988年發(fā)表的創(chuàng)新著作“Learning representations by back-propagating errors”中提出了多層神經(jīng)網(wǎng)絡(luò)，不僅可以用相對簡單的方法進行有效的訓(xùn)練，而且隱藏層可以用來克服感知器在學(xué)習(xí)復(fù)雜模式時的弱點[3]。Hinton等學(xué)者[4]在2006年發(fā)表了一篇題為“A Fast Learning Algorithm for Deep Belief Nets”的突破性論文，使得深度學(xué)習(xí)技術(shù)得以興起。這篇論文不僅首次提出了深度學(xué)習(xí)的概念，還展示了采用無監(jiān)督方法進行逐層訓(xùn)練的有效性，并在此基礎(chǔ)上進行了監(jiān)督微調(diào)（fine-tuning），實現(xiàn)了MNIST字符識別數(shù)據(jù)集的最新結(jié)果。此后，Bengio等學(xué)者[5]隨即發(fā)表了另一篇開創(chuàng)性的論文，即：Greedy Layer-wise Training of Deep Networks，揭示了為什么多層深度學(xué)習(xí)網(wǎng)絡(luò)能夠分層學(xué)習(xí)特性，而淺神經(jīng)網(wǎng)絡(luò)或支持向量機（SVM）則不能。該論文解釋說明了使用DBNs、RBMs和自動編碼器（AutoEncoder）的無監(jiān)督方法進行預(yù)訓(xùn)練（pre-training）不僅可以初始化權(quán)值以獲得最優(yōu)解，而且提供了良好的可被學(xué)習(xí)的數(shù)據(jù)表示形式。Bengio等人在其論文“Scaling Algorithms Towards AI”中通過CNN、RBM、DBN等架構(gòu)以及無監(jiān)督的預(yù)訓(xùn)練和微調(diào)等技術(shù)重申了進行深度學(xué)習(xí)的優(yōu)勢，并引發(fā)了新一輪深度學(xué)習(xí)的研發(fā)熱潮[6]。

近年來，隨著基于深度學(xué)習(xí)的語音處理技術(shù)的逐步成功，不斷有學(xué)者提出了基于深度學(xué)習(xí)的語音增強框架，期望從帶噪語音噪聲特征中預(yù)測出純凈語音特征來實現(xiàn)語音的降噪處理[7-11]。

1 語音增強和深度學(xué)習(xí)的概述

1.1 語音增強的過程和目標(biāo)

語音增強是利用各種算法（包括傳統(tǒng)的音頻信號處理技術(shù)和現(xiàn)如今的深度學(xué)習(xí)技術(shù)）來提高退化語音信號（degraded speech signal）的質(zhì)量（語音的聽覺舒適度）或可懂度（語音的可理解性）[1]。其中，降噪語音增強是語音增強領(lǐng)域中最重要的研究方向，被廣泛應(yīng)用于手機、VoIP、電話會議系統(tǒng)、語音識別、助聽器等領(lǐng)域。

1.2 語音增強的方法概述

傳統(tǒng)的語音增強降噪算法可分為3類：濾波技術(shù)（Filtering Techniques）、頻譜恢復(fù)（Spectral Restoration）和基于語音模型（Speech-Model-Based）的方法[1]。其中，濾波技術(shù)主要包括有維納濾波法（WF）、譜減法（SSM）和信號子空間方法（SSA）。頻譜恢復(fù)技術(shù)主要有最小均方誤差短時譜振幅估計器方法（Minimum Mean-Square-Error Short-Time Spectral Amplitude Estimator，MMSE-STSA）。

1.3 深度學(xué)習(xí)的基本概念

深度學(xué)習(xí)是機器學(xué)習(xí)研究的一種形式，將其引入是為了使機器學(xué)習(xí)更接近研究的最初目標(biāo)之一：人工智能。深度學(xué)習(xí)使計算機能夠從經(jīng)驗數(shù)據(jù)中學(xué)習(xí)，并根據(jù)概念的層次來理解世界。由于計算機從經(jīng)驗數(shù)據(jù)中收集知識，因此不需要人工指定計算機所需的所有知識。概念的層次結(jié)構(gòu)允許計算機從簡單的概念中通過構(gòu)建復(fù)雜的概念來學(xué)習(xí)，這使得層次結(jié)構(gòu)圖可有許多層。深度學(xué)習(xí)允許由多個處理層組成的計算模型中學(xué)習(xí)具有多個抽象級別的數(shù)據(jù)表示。這些方法極大地提高了語音識別、視覺目標(biāo)識別、目標(biāo)檢測以及藥物發(fā)現(xiàn)和基因組學(xué)等許多領(lǐng)域的技術(shù)水平。深度學(xué)習(xí)通過使用反向傳播算法（Back-propagation algorithm）來指出計算機應(yīng)該如何改變其內(nèi)部參數(shù)來發(fā)現(xiàn)大數(shù)據(jù)集中復(fù)雜的結(jié)構(gòu)，而這些參數(shù)用于從上一層的表示中來計算網(wǎng)絡(luò)層次中的每一層表示[12]。

2 基于深度學(xué)習(xí)的語音增強方法

3 基于深度學(xué)習(xí)的語音增強建模實驗

本節(jié)基于深度神經(jīng)網(wǎng)絡(luò)（DNN）建立語音增強模型，并與傳統(tǒng)的語音增強算法（子空間法）在語音增強的可懂度效果上進行了實驗對比。對此部分可詳述如下。

3.1 實驗步驟

3.1.1 實驗環(huán)境搭建及數(shù)據(jù)準(zhǔn)備

在TensorFlow深度學(xué)習(xí)框架中搭建了基于DNN的語音增強模型。噪聲信號選取為NOISEX-92標(biāo)準(zhǔn)庫中的4種噪聲，分別為babble、car、street和train，純凈語音句子來源于IEEE句子庫，信噪比分別為-15 dB、-10 dB和-5 dB。信號的量化精度為16 bit，采樣頻率設(shè)置為8 kHz。

DNN模型的訓(xùn)練集由IEEE句子庫中的前600個句子，依據(jù)4種類型噪聲×3種信噪比、共計12種加噪條件產(chǎn)生的帶噪語音和其所參考的清晰語音構(gòu)成。因此，實驗中由7 200個語音樣本對組成DNN模型的訓(xùn)練數(shù)據(jù)集。

DNN模型的測試集由IEEE句子庫中的后120個句子，依據(jù)4種類型噪聲×3種信噪比、共計12種加噪條件產(chǎn)生的帶噪語音組成。因此，由1 440個語音樣本組成實驗中DNN模型的測試數(shù)據(jù)集。

3.1.2 特征提取

在模型訓(xùn)練階段，首先對訓(xùn)練數(shù)據(jù)集中的帶噪語音和純凈語音信號樣本對進行短時傅里葉分析，分別計算每個重疊窗口幀的離散傅里葉變換（DFT），然后分別計算其對數(shù)功率譜（LPS）來作為DNN模型訓(xùn)練的特征數(shù)據(jù)。在語音增強階段，將測試數(shù)據(jù)集中的帶噪語音進行短時傅里葉分析后計算每個重疊窗口幀的離散傅里葉變換（DFT），再將其對數(shù)功率譜（LPS）作為模型的輸入數(shù)據(jù)。

3.1.3 DNN模型建立及參數(shù)配置

實驗中DNN模型由1個輸入層，3個隱藏層（每層500個神經(jīng)元）和1個輸出層構(gòu)成。每層的預(yù)訓(xùn)練輪數(shù)（epoch）設(shè)置為20，預(yù)訓(xùn)練的學(xué)習(xí)速率設(shè)置為0.000 5。在參數(shù)微調(diào)時，前10輪（epoch）的學(xué)習(xí)速率設(shè)置為0.1，此后每輪學(xué)習(xí)速率都下降10%，總共進行50輪訓(xùn)練。采用小批量（mini-batch）隨機梯度下降（stochastic gradient descent）算法進行調(diào)優(yōu)處理，小批量（mini-batch）數(shù)據(jù)集大小設(shè)置為N=128。

3.2 實驗結(jié)果及分析

本文的語音可懂度測試采用歸一化協(xié)方差法（NCM）。研究表明，子空間法是傳統(tǒng)的語音增強算法中語音可懂度增強效果較好的一種增強算法[14]。故而實驗選用了子空間法和加噪未增強兩種處理方式與本文的增強算法進行對比。實驗中語音可懂度的NCM評價結(jié)果見表1～表3。

實驗結(jié)果中的NCM數(shù)值越大，表示其可懂度越高，從表1～表3語音NCM測試值可以看出：對比其它2種對帶噪語音的處理（加噪未增強，子空間法增強），基于DNN的語音增強方法提高了增強后帶噪語音的可懂度。

由于噪聲或信噪比估計誤差會導(dǎo)致語音增強處理頻譜中出現(xiàn)偽峰，幾乎所有傳統(tǒng)的語音增強方法都出現(xiàn)了音樂噪聲。與之不同的是，基于深度學(xué)習(xí)的語音增強中沒有發(fā)現(xiàn)音樂噪聲。此外，深度學(xué)習(xí)模型可以恢復(fù)被噪聲掩蓋了的語音高頻頻譜[15]。因此，基于深度學(xué)習(xí)的語音增強方法較傳統(tǒng)的語音增強能夠表現(xiàn)出更好的語音可懂度增強效果。

4 結(jié)束語

本文針對基于深度學(xué)習(xí)的語音增強方法展開研究，系統(tǒng)闡述了基于深度學(xué)習(xí)的語音增強方法提出的背景、模型原理和實施過程。在TensorFlow平臺上搭建了基于DNN的深度學(xué)習(xí)語音增強模型，并進行了實驗，驗證后可知基于DNN的語音增強方法提高了增強語音的可懂度。

值得注意的是，基于深度學(xué)習(xí)的語音增強方法需要用到規(guī)模較大的語音訓(xùn)練集樣本對，特別是當(dāng)所構(gòu)建的模型規(guī)模較大而訓(xùn)練集的樣本數(shù)量又極少時，模型極易出現(xiàn)過擬合現(xiàn)象，這將最終使得模型在語音增強階段失效。

參考文獻

[1]LOIZOU P C. Speech enhancement： Theory and practice[M].2nd ed. Boca Raton， FL， USA： CRC Press， 2013.

[2]XU Yong， DU Jun， DAI Lirong， et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM transactions on audio， speech， and language processing， 2015， 23（1）：7-19.

[3]RUMELHART D E， HINTON G E， WILLIAMS R J. Learning internal representations by error propagation[M]∥ Neurocomputing： foundations of research.Cambridge， MA， USA： MIT Press， 1988： 696-699.

[4]HINTON G E， OSINDERO S， TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation，2006，18（7）：1527-1554.

[5]BENGIO Y， LAMBLIN P， POPOVICI D， et a1. Greedy layer-wise training of deep networks[C]∥ ?Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems. Vancouver， British Columbia， Canada：dblp，2006： 153-160.

[6]BOTTOU L， CHAPELLE O， DECOSTE D， et a1. Large-scale kernel machines[M]. Cambridge， MA， USA： MIT Press， 2007.

[7]KOLBK M， TAN Zhenghua， JENSEN J. Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems [J]. IEEE/ACM Trans Audio， Speech and Language Processing， 2017， 25（1）： 153-167.

[8]TU Y H， DU J， LEE C H. DNN training based on classic gain function for single-channel speech enhancement and recognition[C]∥ 2019 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. Bringhton：IEEE， 2019：910-914.

[9]ODELOWO B O， ANDERSON D V. A study of training targets for deep neural network-based speech enhancement using noise prediction[C]∥ 2018 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）.Calgary，AB，Canada：IEEE， 2018：5409-5413.

[10]LAI Y H， CHEN F， WANG S S， et al. A deep denoising autoencoder approach to improving the intelligibility of vocoded speech in cochlear implant simulation [J]. IEEE Transactions on Biomedical Engineering， 2017， 64（7）： 1568-1578.

[11]LAI Y H， TSAO Y， LU X， et al. Deep learning based noise reduction approach to improve speech intelligibility for cochlear implant recipients [J]. Ear Hear， 2018， 39（4）： 795-809.

[12]GOODFELLOW I， BENGIO Y， COURVILLE A. Deep learning [M]. Cambridge， MA， USA： MIT Press， 2016.

[13]LIU Ding， SMARAGDIS P， KIM M. Experiments on deep learning for speech denoising [C]∥15th Annual Conference of the International Speech Communication Association（INTERSPEECH-2014）.Singapore：ISCA，2014： 2685-2689.

[14]HU Yi， LOIZOU P C. A comparative intelligibility study of single-microphone noise reduction algorithms[J].The Journal of the Acoustical Society of America，2007，122（3）：1777-1786.

[15]XU Yong， DU Jun， DAI Lirong， et al. An experimental study on speech enhancement based on deep neural networks [J]. IEEE Signal Processing Letters， 2014， 21（1）：65-68.