999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的語音增強方法研究

2019-12-05 08:35:54劉鵬
智能計算機與應(yīng)用 2019年5期
關(guān)鍵詞:深度學(xué)習(xí)

劉鵬

摘 要:針對基于深度學(xué)習(xí)的語音增強方法展開研究,系統(tǒng)闡述了基于深度學(xué)習(xí)的語音增強方法提出的背景、模型原理和實施過程。在TensorFlow平臺上搭建了基于DNN的深度學(xué)習(xí)語音增強模型進行了實驗,驗證了基于DNN的語音增強方法,提高了增強語音的可懂度。

關(guān)鍵詞: 深度學(xué)習(xí);語音增強;DNN;語音可懂度

【Abstract】 The background, model principle and implementation process of speech enhancement based on deep learning are systematically expounded. A DNN-based deep learning speech enhancement model is built on the TensorFlow platform to conduct experiments, and it is verified that the speech enhancement method based on DNN improves the intelligibility of enhanced speech.

【Key words】 ?deep learning; speech enhancement; DNN; speech intelligibility

0 引 言

語音是人與人之間溝通交流的主要媒介,然而在現(xiàn)實生活中語音不可避免地會受到外界噪聲的干擾,影響人們對語音的正確理解,特別是對于那些基于語音技術(shù)的實際應(yīng)用領(lǐng)域。比如,自動語音識別技術(shù)(Automatic Speech Recognition ,ASR)和人工耳蝸技術(shù)(Cochlear Implant,CI)等,噪聲干擾嚴重制約了相關(guān)技術(shù)的發(fā)展。因此,研究如何從帶噪語音中估計出純凈語音即顯得尤為必要。

迄今為止,學(xué)者們提出了很多噪聲去除和語音增強的方法,比如維納濾波法(Wiener Filtering)、譜減法(Spectral Subtraction Method)、信號子空間方法(Signal Subspace Approach)和最小均方誤差方法(Minimum Mean Square Error ,MMSE)。然而,這些方法主要集中在研究語音與噪聲的統(tǒng)計特性差異上,需要保證語音和噪聲信號不存在相關(guān)關(guān)系,而且在降噪過程中會出現(xiàn)“音樂噪音”(music noise),導(dǎo)致語音失真[1]。此外,對于在語音增強中遇到的快速變化的噪聲(如機關(guān)槍)和負譜估計等問題,傳統(tǒng)的語音增強方法處理效果不佳[2]。

Rumelhart等3位學(xué)者在1988年發(fā)表的創(chuàng)新著作“Learning representations by back-propagating errors”中提出了多層神經(jīng)網(wǎng)絡(luò),不僅可以用相對簡單的方法進行有效的訓(xùn)練,而且隱藏層可以用來克服感知器在學(xué)習(xí)復(fù)雜模式時的弱點[3]。Hinton等學(xué)者[4]在2006年發(fā)表了一篇題為“A Fast Learning Algorithm for Deep Belief Nets”的突破性論文,使得深度學(xué)習(xí)技術(shù)得以興起。這篇論文不僅首次提出了深度學(xué)習(xí)的概念,還展示了采用無監(jiān)督方法進行逐層訓(xùn)練的有效性,并在此基礎(chǔ)上進行了監(jiān)督微調(diào)(fine-tuning),實現(xiàn)了MNIST字符識別數(shù)據(jù)集的最新結(jié)果。此后,Bengio等學(xué)者[5]隨即發(fā)表了另一篇開創(chuàng)性的論文,即:Greedy Layer-wise Training of Deep Networks,揭示了為什么多層深度學(xué)習(xí)網(wǎng)絡(luò)能夠分層學(xué)習(xí)特性,而淺神經(jīng)網(wǎng)絡(luò)或支持向量機(SVM)則不能。該論文解釋說明了使用DBNs、RBMs和自動編碼器(AutoEncoder)的無監(jiān)督方法進行預(yù)訓(xùn)練(pre-training)不僅可以初始化權(quán)值以獲得最優(yōu)解,而且提供了良好的可被學(xué)習(xí)的數(shù)據(jù)表示形式。Bengio等人在其論文“Scaling Algorithms Towards AI”中通過CNN、RBM、DBN等架構(gòu)以及無監(jiān)督的預(yù)訓(xùn)練和微調(diào)等技術(shù)重申了進行深度學(xué)習(xí)的優(yōu)勢,并引發(fā)了新一輪深度學(xué)習(xí)的研發(fā)熱潮[6]。

近年來,隨著基于深度學(xué)習(xí)的語音處理技術(shù)的逐步成功,不斷有學(xué)者提出了基于深度學(xué)習(xí)的語音增強框架,期望從帶噪語音噪聲特征中預(yù)測出純凈語音特征來實現(xiàn)語音的降噪處理[7-11]。

1 語音增強和深度學(xué)習(xí)的概述

1.1 語音增強的過程和目標(biāo)

語音增強是利用各種算法(包括傳統(tǒng)的音頻信號處理技術(shù)和現(xiàn)如今的深度學(xué)習(xí)技術(shù))來提高退化語音信號(degraded speech signal)的質(zhì)量(語音的聽覺舒適度)或可懂度(語音的可理解性)[1]。其中,降噪語音增強是語音增強領(lǐng)域中最重要的研究方向,被廣泛應(yīng)用于手機、VoIP、電話會議系統(tǒng)、語音識別、助聽器等領(lǐng)域。

1.2 語音增強的方法概述

傳統(tǒng)的語音增強降噪算法可分為3類:濾波技術(shù)(Filtering Techniques)、頻譜恢復(fù)(Spectral Restoration)和基于語音模型(Speech-Model-Based)的方法[1]。其中,濾波技術(shù)主要包括有維納濾波法(WF)、譜減法(SSM)和信號子空間方法(SSA)。頻譜恢復(fù)技術(shù)主要有最小均方誤差短時譜振幅估計器方法(Minimum Mean-Square-Error Short-Time Spectral Amplitude Estimator,MMSE-STSA)。

1.3 深度學(xué)習(xí)的基本概念

深度學(xué)習(xí)是機器學(xué)習(xí)研究的一種形式,將其引入是為了使機器學(xué)習(xí)更接近研究的最初目標(biāo)之一:人工智能。深度學(xué)習(xí)使計算機能夠從經(jīng)驗數(shù)據(jù)中學(xué)習(xí),并根據(jù)概念的層次來理解世界。由于計算機從經(jīng)驗數(shù)據(jù)中收集知識,因此不需要人工指定計算機所需的所有知識。概念的層次結(jié)構(gòu)允許計算機從簡單的概念中通過構(gòu)建復(fù)雜的概念來學(xué)習(xí),這使得層次結(jié)構(gòu)圖可有許多層。深度學(xué)習(xí)允許由多個處理層組成的計算模型中學(xué)習(xí)具有多個抽象級別的數(shù)據(jù)表示。這些方法極大地提高了語音識別、視覺目標(biāo)識別、目標(biāo)檢測以及藥物發(fā)現(xiàn)和基因組學(xué)等許多領(lǐng)域的技術(shù)水平。深度學(xué)習(xí)通過使用反向傳播算法(Back-propagation algorithm)來指出計算機應(yīng)該如何改變其內(nèi)部參數(shù)來發(fā)現(xiàn)大數(shù)據(jù)集中復(fù)雜的結(jié)構(gòu),而這些參數(shù)用于從上一層的表示中來計算網(wǎng)絡(luò)層次中的每一層表示[12]。

2 基于深度學(xué)習(xí)的語音增強方法

3 基于深度學(xué)習(xí)的語音增強建模實驗

本節(jié)基于深度神經(jīng)網(wǎng)絡(luò)(DNN)建立語音增強模型,并與傳統(tǒng)的語音增強算法(子空間法)在語音增強的可懂度效果上進行了實驗對比。對此部分可詳述如下。

3.1 實驗步驟

3.1.1 實驗環(huán)境搭建及數(shù)據(jù)準(zhǔn)備

在TensorFlow深度學(xué)習(xí)框架中搭建了基于DNN的語音增強模型。噪聲信號選取為NOISEX-92標(biāo)準(zhǔn)庫中的4種噪聲,分別為babble、car、street和train,純凈語音句子來源于IEEE句子庫,信噪比分別為-15 dB、-10 dB和-5 dB。信號的量化精度為16 bit,采樣頻率設(shè)置為8 kHz。

DNN模型的訓(xùn)練集由IEEE句子庫中的前600個句子,依據(jù)4種類型噪聲×3種信噪比、共計12種加噪條件產(chǎn)生的帶噪語音和其所參考的清晰語音構(gòu)成。因此,實驗中由7 200個語音樣本對組成DNN模型的訓(xùn)練數(shù)據(jù)集。

DNN模型的測試集由IEEE句子庫中的后120個句子,依據(jù)4種類型噪聲×3種信噪比、共計12種加噪條件產(chǎn)生的帶噪語音組成。因此,由1 440個語音樣本組成實驗中DNN模型的測試數(shù)據(jù)集。

3.1.2 特征提取

在模型訓(xùn)練階段,首先對訓(xùn)練數(shù)據(jù)集中的帶噪語音和純凈語音信號樣本對進行短時傅里葉分析,分別計算每個重疊窗口幀的離散傅里葉變換(DFT),然后分別計算其對數(shù)功率譜(LPS)來作為DNN模型訓(xùn)練的特征數(shù)據(jù)。在語音增強階段,將測試數(shù)據(jù)集中的帶噪語音進行短時傅里葉分析后計算每個重疊窗口幀的離散傅里葉變換(DFT),再將其對數(shù)功率譜(LPS)作為模型的輸入數(shù)據(jù)。

3.1.3 DNN模型建立及參數(shù)配置

實驗中DNN模型由1個輸入層,3個隱藏層(每層500個神經(jīng)元)和1個輸出層構(gòu)成。每層的預(yù)訓(xùn)練輪數(shù)(epoch)設(shè)置為20,預(yù)訓(xùn)練的學(xué)習(xí)速率設(shè)置為0.000 5。在參數(shù)微調(diào)時,前10輪(epoch)的學(xué)習(xí)速率設(shè)置為0.1,此后每輪學(xué)習(xí)速率都下降10%,總共進行50輪訓(xùn)練。采用小批量(mini-batch)隨機梯度下降(stochastic gradient descent)算法進行調(diào)優(yōu)處理,小批量(mini-batch)數(shù)據(jù)集大小設(shè)置為N=128。

3.2 實驗結(jié)果及分析

本文的語音可懂度測試采用歸一化協(xié)方差法(NCM)。研究表明,子空間法是傳統(tǒng)的語音增強算法中語音可懂度增強效果較好的一種增強算法[14]。故而實驗選用了子空間法和加噪未增強兩種處理方式與本文的增強算法進行對比。實驗中語音可懂度的NCM評價結(jié)果見表1~表3。

實驗結(jié)果中的NCM數(shù)值越大,表示其可懂度越高,從表1~表3語音NCM測試值可以看出:對比其它2種對帶噪語音的處理(加噪未增強,子空間法增強),基于DNN的語音增強方法提高了增強后帶噪語音的可懂度。

由于噪聲或信噪比估計誤差會導(dǎo)致語音增強處理頻譜中出現(xiàn)偽峰,幾乎所有傳統(tǒng)的語音增強方法都出現(xiàn)了音樂噪聲。與之不同的是,基于深度學(xué)習(xí)的語音增強中沒有發(fā)現(xiàn)音樂噪聲。此外,深度學(xué)習(xí)模型可以恢復(fù)被噪聲掩蓋了的語音高頻頻譜[15]。因此,基于深度學(xué)習(xí)的語音增強方法較傳統(tǒng)的語音增強能夠表現(xiàn)出更好的語音可懂度增強效果。

4 結(jié)束語

本文針對基于深度學(xué)習(xí)的語音增強方法展開研究,系統(tǒng)闡述了基于深度學(xué)習(xí)的語音增強方法提出的背景、模型原理和實施過程。在TensorFlow平臺上搭建了基于DNN的深度學(xué)習(xí)語音增強模型,并進行了實驗,驗證后可知基于DNN的語音增強方法提高了增強語音的可懂度。

值得注意的是,基于深度學(xué)習(xí)的語音增強方法需要用到規(guī)模較大的語音訓(xùn)練集樣本對,特別是當(dāng)所構(gòu)建的模型規(guī)模較大而訓(xùn)練集的樣本數(shù)量又極少時,模型極易出現(xiàn)過擬合現(xiàn)象,這將最終使得模型在語音增強階段失效。

參考文獻

[1]LOIZOU P C. Speech enhancement: Theory and practice[M].2nd ed. Boca Raton, FL, USA: CRC Press, 2013.

[2]XU Yong, DU Jun, DAI Lirong, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(1):7-19.

[3]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation[M]∥ Neurocomputing: foundations of research.Cambridge, MA, USA: MIT Press, 1988: 696-699.

[4]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation,2006,18(7):1527-1554.

[5]BENGIO Y, LAMBLIN P, POPOVICI D, et a1. Greedy layer-wise training of deep networks[C]∥ ?Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada:dblp,2006: 153-160.

[6]BOTTOU L, CHAPELLE O, DECOSTE D, et a1. Large-scale kernel machines[M]. Cambridge, MA, USA: MIT Press, 2007.

[7]KOLBK M, TAN Zhenghua, JENSEN J. Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems [J]. IEEE/ACM Trans Audio, Speech and Language Processing, 2017, 25(1): 153-167.

[8]TU Y H, DU J, LEE C H. DNN training based on classic gain function for single-channel speech enhancement and recognition[C]∥ 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Bringhton:IEEE, 2019:910-914.

[9]ODELOWO B O, ANDERSON D V. A study of training targets for deep neural network-based speech enhancement using noise prediction[C]∥ 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary,AB,Canada:IEEE, 2018:5409-5413.

[10]LAI Y H, CHEN F, WANG S S, et al. A deep denoising autoencoder approach to improving the intelligibility of vocoded speech in cochlear implant simulation [J]. IEEE Transactions on Biomedical Engineering, 2017, 64(7): 1568-1578.

[11]LAI Y H, TSAO Y, LU X, et al. Deep learning based noise reduction approach to improve speech intelligibility for cochlear implant recipients [J]. Ear Hear, 2018, 39(4): 795-809.

[12]GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning [M]. Cambridge, MA, USA: MIT Press, 2016.

[13]LIU Ding, SMARAGDIS P, KIM M. Experiments on deep learning for speech denoising [C]∥15th Annual Conference of the International Speech Communication Association(INTERSPEECH-2014).Singapore:ISCA,2014: 2685-2689.

[14]HU Yi, LOIZOU P C. A comparative intelligibility study of single-microphone noise reduction algorithms[J].The Journal of the Acoustical Society of America,2007,122(3):1777-1786.

[15]XU Yong, DU Jun, DAI Lirong, et al. An experimental study on speech enhancement based on deep neural networks [J]. IEEE Signal Processing Letters, 2014, 21(1):65-68.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 日韩精品成人在线| 国产欧美另类| www.亚洲一区| 三级毛片在线播放| 丰满的熟女一区二区三区l| 日韩色图在线观看| 高潮爽到爆的喷水女主播视频 | 亚洲一级毛片免费看| 中文成人无码国产亚洲| 国内精品视频区在线2021| 免费国产一级 片内射老| 欧美综合成人| a级毛片视频免费观看| 99青青青精品视频在线| 国产a在视频线精品视频下载| 亚洲色图欧美一区| 婷婷综合色| 在线不卡免费视频| 国产亚洲欧美另类一区二区| 久久一本精品久久久ー99| 国产真实二区一区在线亚洲| 天天激情综合| 日本免费新一区视频| 中文字幕在线永久在线视频2020| 老司机精品久久| 麻豆国产精品| 国产99欧美精品久久精品久久| 亚洲成A人V欧美综合天堂| 精品久久久无码专区中文字幕| 波多野结衣无码AV在线| 色噜噜狠狠狠综合曰曰曰| 中文无码精品A∨在线观看不卡 | 99精品国产电影| 欧美一级大片在线观看| 美女无遮挡免费视频网站| 亚洲一区二区视频在线观看| 国禁国产you女视频网站| 欧美亚洲日韩不卡在线在线观看| 国产另类视频| 97se亚洲| 天堂在线亚洲| 国产精品自在在线午夜| 26uuu国产精品视频| 国产在线视频欧美亚综合| 97se综合| 操国产美女| 日韩无码真实干出血视频| 亚洲日本中文字幕乱码中文| 日韩专区欧美| 国产一区二区三区在线精品专区| 久久精品国产999大香线焦| 91国内在线观看| 日韩精品无码免费一区二区三区 | 亚洲人成在线免费观看| 五月婷婷伊人网| 精品一区二区三区中文字幕| 福利一区在线| 欧美亚洲中文精品三区| 国产成人亚洲精品无码电影| 熟女视频91| 日本手机在线视频| 国产精品一区二区不卡的视频| 自拍偷拍欧美日韩| 超碰aⅴ人人做人人爽欧美 | 亚洲综合色婷婷中文字幕| 亚洲AV无码一区二区三区牲色| 欧美五月婷婷| 在线无码九区| 波多野结衣一级毛片| 国产99在线观看| 国产凹凸一区在线观看视频| 亚洲人成人无码www| 日韩精品毛片人妻AV不卡| 毛片大全免费观看| 国产主播福利在线观看| 亚洲区欧美区| 波多野结衣一二三| 性色在线视频精品| 91精品最新国内在线播放| 午夜不卡视频| 色婷婷视频在线| 欧洲成人在线观看|