999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聲紋嵌入的語音增強算法

2022-01-01 00:00:00高戈曾邦王霄尹文兵陳怡
計算機應用研究 2022年3期

摘 要:頻域語音增強算法在高信噪比的條件下有明顯的降噪效果,而在低信噪比條件下頻域語音增強算法的性能會大幅下降。針對這個問題,將基于聲紋的掩碼應用到頻域語音增強網絡,利用聲紋的先驗信息,提升網絡對說話人和噪聲的區分度。另外,為了進一步改善頻域語音算法在低信噪比條件下的性能,提出基于映射的聲紋嵌入語音增強算法,避免了可能因采用掩模方案造成的語音失真問題。實驗結果表明,在引入相同聲紋信息時,基于映射的聲紋嵌入語音增強網絡在低信噪比條件下的增強性能表現更好,特別是在改善語音失真方面優勢明顯。相較于基于掩模的聲紋掩碼網絡,基于映射的聲紋嵌入網絡在PESQ、STOI和SSNR這三項指標上分別實現了6.40%、1.46%和24.84%的相對提升。

關鍵詞:語音增強;低信噪比;聲紋嵌入;掩碼;映射

中圖分類號:TN912.35 文獻標志碼:A

文章編號:1001-3695(2022)03-007-0688-05

doi:10.19734/j.issn.1001-3695.2021.07.0325

作者簡介:高戈(1973-),男,湖北武漢人,副教授,碩導,主要研究方向為音頻信號處理(gaoge@whu.edu.cn);曾邦(1995-),男,湖北仙桃人,碩士研究生,主要研究方向為語音增強;王霄(1998-),男,江蘇鹽城人,碩士研究生,主要研究方向為語音增強;尹文兵(1997-),男,湖北荊州人,碩士研究生,主要研究方向為語音增強;陳怡(1972-)女,四川成都人,副教授,主要研究方向為博弈論.

Speech enhancement based on speaker embedding

Gao Ge1,Zeng Bang1,Wang Xiao1,Yin Wenbing1,Chen Yi2

(1.National Engineering Research Center for Multimedia Software,Wuhan University,Wuhan 430072,China;2.School of Computer Science,Central China Normal University,Wuhan 430077,China)

Abstract:Speech enhancement in the frequency-domain can achieve a good noise reduction effect and improve speech communication quality under the condition of a high signal-to-noise ratio.However,speech enhancement performance in frequency-domain decreases significantly under low SNR conditions.To address this problem,this paper applied a mask based on speaker embedding to a frequency-domain speech enhancement network,and used the a priori information of speaker embedding to improve the network’s ability to distinguish between speakers and noise.To further improve the performance of speech enhancement under low SNR conditions,this paper proposed a speech enhancement network with the introduction of mapping-based speaker embedding to avoid the problem of speech distortion,which may be caused by using the mask scheme.The experimental results show that the speech enhancement network with the introduction of mapping-based speaker embedding performs better in the low signal-to-noise ratio condition when the same speaker information is applied,especially in improving the speech distortion.Compared with the mask-based network,the mapping-based network achieves a relative improvement of 6.40%,1.46% and 24.84% in the three metrics of PESQ,STOI and SSNR,respectively.

Key words:speech enhancement;low signal-to-noise ratio;speaker embedding;masking;mapping

0 引言

語音增強技術的目的是盡可能地從背景噪聲中提取出干凈的語音信號,提高語音質量和語音可懂度,減少聽覺疲勞。語音增強是語音信號處理的一項基本任務,在現實生活中有很多方面的應用,如語音識別和語音通信等。幾十年來,語音增強技術發展迅速,先后出現了許多不同的優秀語音增強算法。

譜減法[1~3、維納濾波算法4、基于統計模型的語音增強算法5~7和信號子空間算法8,9是常見的幾種經典語音增強算法。傳統語音增強算法在線性平穩噪聲的環境中表現良好,但是對非平穩噪聲的處理能力較弱。近年來,隨著計算機硬件條件的快速發展,基于深度學習的增強算法應運而生。文獻[10]將深度學習應用到語音增強,該算法將理想二值掩模(ideal binary mask,IBM)作為深度神經網絡(deep neural networks,DNN)的訓練目標,得到帶噪語音和干凈語音的時頻關系。在上述工作的基礎之上,該團隊在文獻[11]將理想二值掩模替換為理想比例掩模(ideal ratio mask,IRM),更加準確地估計了噪聲和語音的頻帶分布。文獻[12~14]中以譜映射作為深度神經網的訓練目標,直接得到帶噪語音和干凈語音之間的對應關系。此后,循環神經網絡[15,16、長短時記憶網絡17,18、卷積神經網絡3,19相繼引入到語音增強任務中。文獻[20]提出了由卷積神經網絡和循環神經網絡組成的端到端語音增強網絡模型,這種網絡具有對語音時序信息建模的能力,且網絡參數量小。文獻[2,5,21]提出了一種新的卷積循環網絡(convolutional recurrent neural network,CRN)來解決實時單通道語音增強問題,其編解碼模塊由卷積編碼解碼器和長短時記憶網絡組成,是一種適合實時處理的因果系統。

在基于深度學習的語音增強算法中,CNN和LSTM網絡被廣泛應用于語音增強模型的建模。這兩種模型各有優缺點:CNN擅長提取數據的局部特征,通過參數共享的特性,用較小的網絡參數在空間維度上提取表征能力較強的高層特征,但其無法利用語音的時序信息;LSTM網絡能夠通過記憶單元提取語音的時序特征,解決長時依賴的學習問題,但其網絡復雜、參數量大、收斂困難?;贑onvLSTM的語音增強模型由CNN和LSTM兩種網絡層構成。相對于LSTM和CNN模型,基于卷積循環神經網絡的語音增強算法收斂速度更快,參數更少,性能更好。為了進一步減少網絡復雜度,經常用GRU網絡來代替LSTM網絡。

基于ConvGRU的語音增強網絡在高信噪比的環境下系統性能良好,但是在低信噪比條件下表現不佳。這是因為在低信噪比條件下,網絡無法提取高質量的特征,導致增強網絡無法得到有效訓練。文獻[22]提到了一種多說話人分離算法,該算法將說話人的聲紋作為一個embedding和網絡的輸入共同訓練一個掩模,以此來提升語音分離性能。受到該文獻的啟發,本文將基于聲紋的掩碼[22應用到ConvGRU語音增強,得到基于掩模的Mask-ConvGRU聲紋掩碼語音增強網絡。本文提出的Mask-ConvGRU利用聲紋信息的先驗知識,提升了網絡對說話人語音和噪聲的區分度,改善了ConvGRU語音增強網絡在低信噪比條件下的表現。

雖然Mask-ConvGRU在低信噪比條件下的增強表現有所提升,但是隨著信噪比的降低,其增強性能下降依然明顯。一般情況下由于掩碼學習具有約束性的動態范圍,并且收斂速度較快,基于掩模的增強方案要優于基于映射的增強方案[23,24,但是基于掩模的語音增強算法一般假設噪聲為加性噪聲,這會導致算法泛化性能不強。另外,在低信噪比條件下,掩碼的準確估計比較困難,較大的掩碼估計誤差可能會造成語音失真。這兩點原因使得基于掩模的聲紋掩碼語音增強網絡性能受環境變化影響較大,在低信噪比條件下性能下降尤為明顯。為了進一步提升ConvGRU增強網絡在低信噪比條件下的增強性能,本文提出基于映射的Map-ConvGRU聲紋嵌入語音增強網絡。該網絡同樣嵌入說話人的聲紋特征作為先驗信息,提升網絡對說話人語音和噪聲的區分度,但是與Mask-ConvGRU網絡不同的是,Map-ConvGRU語音增強網絡將譜映射作為網絡的訓練目標,避免了可能因采用掩模方案造成的語音失真和泛化性不強的問題,進而提升網絡在低信噪比條件下的增強性能。另外,聲紋特征的嵌入位置也會對增強網絡的性能造成影響,本文也對此進行了研究,并得到了聲紋嵌入的相對最佳位置。

1 基于聲紋掩碼的語音增強網絡

基于聲紋掩碼的語音增強網絡Mask-ConvGRU主要由增強模塊和聲紋提取模塊兩個模塊構成,其網絡結構如圖1所示。在Mask-ConvGRU增強網絡中,聲紋提取網絡會從說話人注冊的干凈語音中提取說話人的聲紋信息d-vector。聲紋提取得到說話人的聲紋信息d-vector之后,d-vector與帶噪語音的時頻幅度譜特征會一同作為增強網絡的輸入。這兩個輸入經過基于掩模的增強網絡處理后,網絡輸出得到基于聲紋的掩碼。該掩碼與帶噪語音幅度譜進行計算(一般為乘法計算)即可得到增強之后的語音幅度譜特征。

1.1 ConvGRU增強模塊

Mask-ConvGRU網絡的增強模塊與ConvGRU增強網絡結構類似,主要包含CNN和GRU模塊,ConvGRU增強網絡結構如圖2所示。以網絡輸入為幅度譜為例,在ConvGRU增強網絡模型中,語音數據首先經過特征提取,得到語音時頻特征的幅度譜和相位譜。接著,語音的幅度譜信息作為特征輸入被傳入到CNN模塊。CNN模塊由八層卷積層級聯而成,主要作用是提取語譜中的局部時頻特征,進而生成表征力更強的高層特征。然后,CNN模塊輸出的高級特征會作為輸入送到GRU模塊。GRU模塊由一層雙向GRU和兩層全連接層構成,主要作用是對帶噪語音中相鄰幀之間的動態關系進行建模。對高級特征的時序進行建模之后,全連接層對GRU網絡的輸出進行提取和分類。最后,預測的干凈語音幅度譜信息與此前保存的相位譜信息進行波形重構得到最終的增強語音。

在CNN模塊中,每次卷積后和激活函數運算之前都進行批歸一化,且激活函數都選用ReLU激活函數。批歸一化和ReLU激活函數都能解決網絡訓練中梯度消失或者梯度爆炸的問題,加速網絡的收斂,使網絡具有更好的魯棒性。前七層網絡的通道數為64,且對輸入特征進行padding操作,最后一層網絡通道數為8,不進行padding操作。另外,為了擴大卷積核感受野,捕獲更多上下文信息,每一層卷積神經網絡都使用了空洞卷積。在GRU模塊中,除第二層全連接層外,另外兩層神經網絡的激活函數均為ReLU,最后一層全連接層的激活函數為sigmoid函數。

1.2 TDNN聲紋提取模塊

Mask-ConvGRU的聲紋提取模塊的作用是從目標說話人事先注冊的一段干凈語音中提取出目標說話人的聲紋特征,即d-vector。聲紋提取模塊由輸入層、五層TDNN隱藏層、全連接層和softmax輸出層構成。Mask-ConvGRU的聲紋提取模塊實際上是一個TDNN聲紋識別網絡。TDNN[25在對說話人聲紋信息進行提取的同時,還能充分利用語音的時序信息,提升說話人識別的準確性。

TDNN是卷積神經網絡的前身,可以對語音信號中的時序特征進行建模。TDNN的兩個明顯特點是動態適應時域特征和參數量較少。TDNN的動態適應時域特征是因為它的網絡模型中引用了時延機制,其結構如圖3所示。這使得TDNN能夠捕獲連續多幀的輸入,從而具有對語音時序信息建模的能力。

TDNN模型由輸入層、時延神經網絡、統計池化層、全連接層和softmax輸出層組合而成,如圖4所示。其中,全連接層的輸出是一個固定維度的embedding,記為embedding A。embedding表示神經網絡某隱藏層的輸出,包含輸入特征更深層次的信息。將TDNN中統計池化層去除,即不對每一小段的語音輸出特征進行均值和偏差的計算,而是直接計算這些輸出特征的平均值。這樣的處理會得到另一種聲紋的embedding,這里記為embedding B。embedding A稱之為x-vector,embedding B稱之為d-vector,這兩種embedding均屬于段級聲紋特征。與圖4中描述的TDNN不同的是,為了使得從全連接層提取的聲紋embedding為d-vector,Mask-ConvGRU的聲紋提取模塊去除了TDNN中的統計池化層。

2 基于映射的聲紋嵌入語音增強網絡

在Mask-ConvGRU網絡的基礎上,本文提出基于特征映射的聲紋嵌入語音增強網絡Map-ConvGRU,Map-ConvGRU網絡整體結構如圖5所示。圖中上半部藍色框為聲紋提取模塊,下半部為ConvGRU語音增強模塊(見電子版)。在Map-ConvGRU語音增強網絡中,聲紋提取模塊的輸出會作為額外的輸入傳入到語音增強模塊。另外,與第1章中的Mask-ConvGRU語音增強網絡不同,Map-ConvGRU網絡是將提取的說話人聲紋嵌入到帶噪語音的幅度譜中,網絡直接學習從拼接特征到干凈語音幅度譜的映射關系。TDNN網絡模型中引用了時延機制,使其能夠捕獲連續多幀的輸入,從而具有對語音時序信息建模的能力。

語音增強模塊是Map-ConvGRU語音增強系統的核心功能模塊,由輸入層、八層卷積層、一層雙向GRU、兩層全連接層組成。Map-ConvGRU網絡語音增強模塊的網絡架構與第1章介紹的ConvGRU語音增強網絡大致相同。值得注意的是,聲紋embedding接口的選取將會直接影響Map-ConvGRU語音增強系統性能。聲紋特征embedding接口的位置有三種選擇,如圖5所示。a)將聲紋嵌入到低級特征,說話人注冊語音的聲紋embedding直接與帶噪語音時頻特征的幅度譜拼接之后傳入ConvGRU增強網絡中的CNN模塊;b)將聲紋嵌入到高級特征,帶噪語音時頻特征的幅度譜經過ConvGRU增強網絡中的CNN模塊之后,生成的高級特征與說話人注冊語音的聲紋embedding進行拼接,然后傳入到ConvGRU增強網絡的雙向GRU網絡層;c)將聲紋特征嵌入到全局特征,將說話人注冊語音的聲紋embedding與ConvGRU增強網絡中雙向GRU網絡層輸出的全局特征進行拼接,然后傳入全連接層。

3 實驗與討論

3.1 數據集與網絡參數設置

增強模塊網絡的帶噪語音訓練集由包含340個說話人、共150 h的Aishell-1干凈中文語音數據集和噪聲數據集MUSAN仿真而成。通過SOX工具給AIshell-1數據集中加上了-15 dB、-10 dB、-5 dB、0 dB、5 dB和10 dB這六組不同信噪比的隨機種類噪聲,可以得到不同信噪比的帶噪語音訓練數據集。增強模塊網絡的測試集由包含20個說話人、共10 h Aishell-1干凈語音數據集和噪聲數據集MUSAN仿真而成。通過SOX工具給AIshell-1數據集中加上了-15 dB、-10 dB、-5 dB、0 dB、5 dB和10 dB這六組不同信噪比的隨機種類噪聲,可以得到不同信噪比的帶噪語音測試數據集。實驗結果將由PESQ、STOI和SSNR這三種參數進行評估。

在本實驗中,語音信號采樣率為16 kHz,幀長為400,幀移為160,STFT采樣點數為1 200。另外,模型訓練的batchsize設為16,初始化學習率為0.001,損失函數采用最小均方誤差損失函數,優化方式采用Adam優化器。ConvGRU網絡的GRU網絡輸入大小為(301,5 064),輸出大小為(301,800)。ConvGRU網絡的CNN模塊具體配置如表1所示。聲紋提取網絡參數設置如表2所示。

3.2 不同聲紋嵌入方式的影響

針對聲紋嵌入接口位置的不同,本組實驗對三種不同聲紋嵌入方式的Map-ConvGRU語音增強網絡性能進行實驗對比。三種不同聲紋嵌入方式的Map-ConvGRU語音增強網絡在六組不同信噪比條件下PESQ、STOI和SSNR的測試結果如表3所示。

三種嵌入方式的PESQ的平均值分別為1.647、1.922和1.780。這說明在提升語音質量方面,采用dvector-embedding-2的效果最佳,采用dvector-embedding-1的性能最差。在信噪比為-15 dB、-10 dB、-5 dB、0 dB條件下,dvector-embedding-2和dvector-embedding-3的STOI值近似相等。信噪比為5 dB、10 dB情況下,dvector-embedding-2的STOI值略高于dvector-embedding-3。三種聲紋嵌入方式的平均STOI值分別為0.670、0.695和0.692,這說明在提升語音短時可懂度方面,采用三種不同聲紋嵌入方式的增強表現相當。dvector-embedding-2的性能表現相對最好,dvector-embedding-1的性能表現相對最差。在六種不同信噪比條件下,dvector-embedding-2的SSNR值均要高于dvector-embedding-1和dvector-embedding-3的SSNR值。這說明,在改善語音失真度方面,dvector-embedding-2的整體性能要優于dvector-embedding-1和dvector-embedding-3。另外,雖然在低信噪比時三種嵌入方式的SSNR表現相當,但是在高信噪比時,dvector-embedding-2的SSNR值與dvector-embedding-1和dvector-embedding-3的SSNR值都要大。這說明在改善語音失真方面,采用dvector-embedding-2的語音增強系統有著更穩定的增強性能。

綜合三種聲紋嵌入方式的Map-ConvGRU語音增強網絡在六組不同信噪比條件下PESQ、STOI和SSNR的實驗結果和分析表明:將說話人聲紋信息嵌入到ConvGRU增強網絡的CNN模塊之后雙向GRU之前,對系統的語音增強性能提升最大。將說話人聲紋信息直接嵌入到語音的STFT幅度譜中對系統的語音增強性能提升最小。將聲紋嵌入到低級特征的表現最差,是因為聲紋特征本身已經是一個非常緊湊的高級特征,卷積可能會破壞其原有特性。另外,卷積的一個假設是輸入特征具有相同的時間或者頻率性質,而語音的STFT幅度譜和聲紋特征的融合特征顯然不滿足這個假設條件[22。將聲紋嵌入到全局特征的效果不如第二種聲紋嵌入方式的原因是,聲紋并沒有在網絡提取特征時進行信息補償,而是直接與全局特征拼接之后傳入全連接層。而將聲紋特征嵌入到高級特征時,聲紋特征不會被卷積操作破壞原有特性。另外聲紋特征不僅會在雙向GRU建模時進行信息補償,還會在全連接層分類時加大噪聲和說話人語音的區分度。所以采用第二種聲紋嵌入方式的Map-ConvGRU語音增強網絡是最優網絡。

3.3 三種模型的語音增強效果

測試不同信噪比條件下Map-ConvGRU和Mask-ConvGRU語音增強網絡的增強性能。本組對比實驗中Map-ConvGRU語音增強網絡選取3.2節中性能最優的模型。

Map-ConvGRU、Mask-ConvGRU和ConvGRU語音增強網絡在六組不同信噪比條件下測試語音的PESQ對比如表4所示。在六組信噪比條件下,Map-ConvGRU和Mask-ConvGRU網絡的PESQ均值分別為1.922和1.806,都要高于ConvGRU。這說明在語音質量方面,聲紋信息的引入提升了ConvGRU網絡的性能。在四組種低信噪比條件下,本文基于Map-ConvGRU語音增強網絡模型的PESQ的值比Mask-ConvGRU的PESQ值都要高,且Map-ConvGRU的平均PESQ比Mask-ConvGRU高0.116。這說明語音經過基于Map-ConvGRU語音增強網絡模型增強后的語音質量在整體上要高于經過Mask-ConvGRU語音增強網絡模型增強后的語音質量。另外,在語音信噪比為-5 dB、-10 dB和-15 dB的條件下,Map-ConvGRU語音增強網絡模型對原語音PESQ的提升分別為52.0%、37.1%和31.5%,而Mask-ConvGRU語音增強網絡模型對原語音PESQ的提升分別為39.6%、17.1%和5.1%。這說明Mask-Conv-GRU語音增強網絡模型雖然對語音質量有所提升,但是其增強性能在低信噪比條件下并不穩定。而Map-ConvGRU語音增強網絡模型在低信噪比條件下對語音質量的提升表現穩定,優于Mask-ConvGRU。

基于Map-ConvGRU、Mask-ConvGRU和ConvGRU語音增強網絡在六組不同信噪比條件下測試語音的STOI對比如表5所示。在六組信噪比條件下,Map-ConvGRU和Mask-ConvGRU網絡的STOI均值要高于ConvGRU。這說明在語音可懂度方面,聲紋信息的引入提升了ConvGRU網絡的性能。在三組低信噪比條件下,本文基于Map-ConvGRU的STOI的值比Mask-ConvGRU都要高,但是Map-ConvGRU的平均STOI值僅僅比Mask-ConvGRU高0.01。這是因為除了三組低信噪比外,另外三組信噪比條件下兩種語音增強網絡模型的測試結果近似相同。另外,信噪比為-15 dB時,Map-ConvGRU對原語音STOI的提升為14.2%,而Mask-ConvGRU對原語音STOI的提升僅為6.1%。這說明在提升語音可懂度方面,Map-ConvGRU的優勢主要表現在極地信噪比條件環境,在高信噪比條件下Map-ConvGRU和Mask-ConvGRU表現相當。

基于Map-ConvGRU、Mask-ConvGRU和ConvGRU語音增強網絡在六組不同信噪比條件下測試語音的SSNR對比如表6所示。在四組低信噪比條件下,Map-ConvGRU和Mask-ConvGRU的SSNR均值要高于ConvGRU。這說明低信噪比條件下,在語音失真方面,聲紋信息的引入提升了ConvGRU的性能。在六種信噪比條件下,本文基于Map-ConvGRU的語音增強模型的SSNR均要高于Mask-ConvGRU。這說明在改善語音失真方面,Map-ConvGRU整體要優于Mask-ConvGRU。在信噪比為-5 dB、-10 dB和-15 dB時,Mask-ConvGRU對語音SSNR的性能提升分別為5.943、5.003和2.166。Map-ConvGRU在信噪比為-5 dB、-10 dB和-15 dB時對語音SSNR的提升分別為8.752、9.118和6.845,其表現要優于Mask-ConvGRU。這說明在改善語音失真方面,Map-ConvGRU在低信噪比條件下的性能良好且穩定性強,要優于Mask-ConvGRU。

綜合三種模型在六組信噪比條件下PESQ、STOI和SSNR的實驗結果和分析表明:a)Mask-ConvGRU和Map-ConvGRU的增強表現均優于ConvGRU,這是因為前兩種網絡引入了聲紋的先驗信息,提升了網絡對說話人語音和噪聲的分辨度,進而改善了網絡的增強性能;b)Mask-ConvGRU雖然在高信噪比條件下語音增強性能表現良好,但是當信噪比逐漸降低時,Mask-ConvGRU的語音增強表現會急劇下降。而在引入相同聲紋信息時,Map-ConvGRU在高信噪比條件下的增強效果與Mask-ConvGRU表現相當,在低信噪比條件下的增強性能要優于Mask-ConvGRU,在PESQ、STOI和SSNR三種標準上分別實現了6.40%、1.46%和24.84%的相對提升,其中,相比于Mask-ConvGRU,Map-ConvGRU在SSNR即改善語音失真方面的優勢尤為明顯。這是因為基于聲紋掩模的Mask-ConvGRU的建模單元沒有很好地利用語音上下文信息,無法充分發揮GRU模塊的長時依賴特性[21。其次,在低信噪比條件下,Mask-ConvGRU無法準確估計掩碼,過大掩碼誤差可能會破壞原始語音的頻譜,產生語音失真。最后,在引入相同聲紋信息的前提下,相較基于聲紋掩碼的Mask-ConvGRU,基于映射的Map-ConvGRU聲紋嵌入網絡在低信噪比環境對隨機噪聲的泛化性能更強。因此,Map-ConvGRU在低信噪比環境的增強性能更優。

4 結束語

本文重點介紹了ConvGRU語音增強網絡的兩種改進網絡,即基于掩模的Mask-ConvGRU和基于映射的Map-ConvGRU。Map-ConvGRU將Mask-ConvGRU網絡中的訓練目標替換為譜映射,提升了ConvGRU在低信噪比條件下的性能表現和泛化性能。另外,本文還對嵌入聲紋的位置進行了研究,并得到了嵌入聲紋位置的相對最佳設置。實驗結果表明基于Map-ConvGRU的語音增強系統在低信噪比條件下的表現更好,特別是在改善語音失真方面優勢明顯。相較于Mask-ConvGRU,Map-ConvGRU在PESQ、STOI和SSNR這三項指標上分別實現了6.40%、1.46%和24.84%的相對提升。盡管本文通過引入聲紋信息顯著提升了語音增強網絡的性能,但是實驗僅僅驗證了引入d-vector的有效性,并未研究不同種類的聲紋embedding對語音增強性能影響的差異性;另外,本文僅研究了頻域語音增強算法,還未研究時域語音增強網絡中引入聲紋的有效性,后續的研究工作將圍繞這兩點進行展開。

參考文獻:

[1]Boll S F.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Trans on Acoustics Speech amp; Signal Proces-sing,1979,27(2):113-120.

[2]Lockwood P,Boudy J,Blanchet M.Experiments with a nonlinear spectral subtractor(NSS),hidden Markov models and the projection,for robust speech recognition in cars[J].Speech Communication,1992,11(2-3):215-228.

[3]Virag N.Single channel speech enhancement based on masking pro-perties of the human auditory system[J].IEEE Trans on Speech and Audio Processing,1999,7(2):126-137.

[4]Lim J S,Oppenheim A V.Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE,2005,67(12):1586-1604.

[5]McAulay R J,Malpass M L.Speech enhancement using a soft-decision noise suppression filter[J].IEEE Trans on Acoustics,Speech,and Signal Processing,1980,28(2):137-145.

[6]Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J].IEEE Trans on Acoustics,Speech,and Signal Processing,1985,33(2):443-445.

[7]Scalart P,Filho J V.Speech enhancement based on a priori signal to noise estimation[C]//Proc of IEEE International Conference on Acoustics,Speech,and Signal Processing.Piscataway,NJ:IEEE Press,1996:629-632.

[8]Dendrinos M,Bakamidis S,Carayannis G.Speech enhancement from noise:a regenerative approach[J].Speech Communication,1991,10(1):45-57.

[9]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.

[10]Wang Yuxuan,Wang Deliang.Cocktail party processing via structured prediction[C]//Proc of the 25th International Conference on Neural Information Processing Systems.2012:224-232.

[11]Wang Yuxuan,Wang Deliang.Towards scaling up classification-based speech separation[J].IEEE Trans on Audio,Speech,and Language Processing,2013,21(7):1381-1390.

[12]Lu X,Tsao Y,Matsuda S,et al.Speech enhancement based on deep denoising autoencoder[C]//Proc of InterSpeech.2013:436-440.

[13]Han Kun,Wang Yuxuan,Wang Deliang.Learning spectral mapping for speech dereverberation[C]//Proc of IEEE International Confe-rence on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2014:4628-4632.

[14]Xu Yong,Du Jun,Dai L R,et al.A regression approach to speech enhancement based on deep neural networks[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2015,23(1):7-19.

[15]Erdogan H,Hershey J R,Watanabe S,et al.Phase-sensitive and recog-nition-boosted speech separation using deep recurrent neural networks[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2015:708-712.

[16]袁文浩,胡少東,時云龍,等.一種用于語音增強的卷積門控循環網絡[J].電子學報,2020(7):1276-1283.(Yuan Wenhao,Hu Shaodong,Shi Yunlong,et al.A convolutional gated recurrent network for speech enhancement[J].Acta Electronica Sinica,2020(7):1276-1283.)

[17]Weninger F,Hershey J R,Le Roux J,et al.Discriminatively trained recurrent neural networks for single-channel speech separation[C]//Proc of IEEE Global Conference on Signal and Information Proces-sing.Piscataway,NJ:IEEE Press,2014:577-581.

[18]張明亮,陳雨.基于全卷積神經網絡的語音增強算法[J].計算機應用研究,2020(S1):135-137.(Zhang Mingliang,Chen Yu.Speech enhancement based on fully convolutional neural network[J].Application Research of Computers,2020(S1):135-137.)

[19]Park S R,Lee J.A fully convolutional neural network for speech enhancement[EB/OL].(2016-09-22).https://arxiv.org/abs/1609.07132.

[20]Zhao Han,Zarar S,Tashev I,et al.Convolutional-recurrent neural networks for speech enhancement[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2018:2401-2405.

[21]Tan Ke,Zhang Xueliang,Wang Deliang.Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:5751-5755.

[22]Wang Quan,Muckenhirn H,Wilson K,et al.VoiceFilter:targeted voice separation by speaker-conditioned spectrogram masking[EB/OL].(2019-06-19).https://arxiv.org/abs/1810.04826.

[23]Wang Yuxuan,Narayanan A,Wang Deliang.On training targets for supervised speech separation[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2014,22(12):1849-1858.

[24]Chen Zhuo,Huang Yan,Li Jinyu,et al.Improving mask learning based speech enhancement system with restoration layers and residual connection[C]//Proc of InterSpeech.Piscataway,NJ:IEEE Press,2017:3632-3636.

[25]Waibel A,Hanazawa T,Hinton G E,et al.Phoneme recognition using time-delay neural networks[J].Readings in Speech Recognition,1990,1(3):393-404.

主站蜘蛛池模板: 精品无码国产自产野外拍在线| 欧美在线精品一区二区三区| 97视频免费看| 五月婷婷精品| 日韩天堂网| 日韩av手机在线| 精品国产成人高清在线| 亚洲欧美国产高清va在线播放| 乱码国产乱码精品精在线播放| 亚洲视频二| 91小视频在线| 欧美精品一二三区| 精品国产Ⅴ无码大片在线观看81| 丁香六月综合网| 免费中文字幕一级毛片| 国产欧美一区二区三区视频在线观看| 亚洲无码四虎黄色网站| 国产成人无码AV在线播放动漫| 精品伊人久久久久7777人| 人人看人人鲁狠狠高清| 99视频精品全国免费品| 成人亚洲视频| 国产美女精品一区二区| 亚洲天堂精品在线| 久久这里只精品国产99热8| 九九九精品成人免费视频7| 亚欧成人无码AV在线播放| 不卡无码网| 亚洲狼网站狼狼鲁亚洲下载| 无码福利日韩神码福利片| 久久久精品国产亚洲AV日韩| 丁香亚洲综合五月天婷婷| 国产精品第一区| 国产一区二区精品福利 | 欧美亚洲中文精品三区| 69av免费视频| 在线播放真实国产乱子伦| 日韩精品无码不卡无码| 青青国产视频| 国产午夜精品鲁丝片| 日韩在线视频网站| 国产爽爽视频| 国产精品第| 中文字幕久久波多野结衣| 久久久久九九精品影院| 久久精品人人做人人爽| 99在线观看视频免费| 国产不卡网| 人人爽人人爽人人片| 99热这里只有精品2| 免费中文字幕一级毛片| 狠狠色婷婷丁香综合久久韩国| 老司机午夜精品视频你懂的| 国产第一页亚洲| 91午夜福利在线观看精品| 色久综合在线| 一级毛片免费播放视频| 久久天天躁狠狠躁夜夜2020一| 国产成人精品优优av| 亚洲成a人片在线观看88| 热99精品视频| 国产精品妖精视频| 国产精品久久久久久久久久久久| 精品亚洲国产成人AV| 久久性妇女精品免费| 一区二区三区成人| 国产精品白浆在线播放| 婷婷色一二三区波多野衣| 亚洲成肉网| 香蕉色综合| 人妖无码第一页| 亚洲精品动漫在线观看| 在线精品欧美日韩| 九色视频线上播放| 高清久久精品亚洲日韩Av| 亚洲精品制服丝袜二区| 亚洲精品无码抽插日韩| 日本一区二区三区精品视频| 欧美午夜久久| 动漫精品中文字幕无码| 成人无码一区二区三区视频在线观看 | 欧美一级一级做性视频|