基于感知相關代價函數的深度學習語音增強

2020-11-17 06:28:36房慧保馬建芬田玉玲張朝霞

計算機工程與設計 2020年11期

房慧保，馬建芬+，田玉玲，張朝霞

(1.太原理工大學信息與計算機學院，山西晉中 030600； 2.太原理工大學物理與光電工程學院，山西晉中 030600)

0 引言

為了解決傳統單通道語音增強方法存在的語音失真和殘留噪聲過多問題，多名研究者提出了基于深度神經網絡(DNN)的語音增強算法[1-6]，但是，這些算法都是通過最小化干凈語音和增強語音之間的均方誤差(MSE)標準來訓練網絡的，而MSE標準并不是基于人耳聽覺感知的標準。針對這一問題，一些研究者提出了在DNN訓練期間引入基于人類聽覺感知特性的心理聲學標準[7,8]。由于在不同頻帶上，相同的MSE可能對語音質量及可懂度有不同的影響，一些研究者提出了對MSE代價函數進行加權的方法，他們將絕對聽閾、聽覺掩蔽等作為聽覺感知特征，引入代價函數的計算中[9-12]。

除了對MSE進行加權外，一種更為直接的方法是將已有的語音質量和語音可懂度客觀評價標準作為代價函數來訓練網絡[13,14]。所以，可以通過將這些評價標準解讀為合適的損失函數來建立恰當的代價函數用于端到端的語音增強。本文提出了一種基于頻域加權分段信噪比標準[15]的感知相關代價函數。在此基礎上，將頻域加權分段信噪比和感知加權均方誤差結合，得到一種聯合優化代價函數。接下來分別將這兩種代價函數用于DNN訓練，通過實驗對比，探討感知相關代價函數的應用是否可以進一步提高深度神經網絡語音增強性能。

1 信號模型

語音增強的目標是在給定含噪語音信號的情況下，估計出干凈語音信號。假設受噪聲干擾的輸入信號y(t) 是由干凈語音信號x(t) 和噪聲d(t) 疊加而成，即

y(t)=x(t)+d(t)

(1)

其中，t表示離散時間變量。兩邊同時做K點離散傅里葉變換(DFT)后，就可以得到第l幀上的第k個頻帶的含噪語音信號頻譜，即

Y(l,k)=X(l,k)+D(l,k),k=1,…,K

(2)

其中，Y(l,k)、X(l,k) 和D(l,k) 分別表示含噪語音頻譜、干凈語音頻譜和噪聲頻譜。l表示幀，k表示頻帶。此外，可以將式(2)以極坐標的形式表示，即

|Y(l,k)|ejφy(l,k)=|X(l,k)|ejφx(l,k)+|D(l,k)|ejφd(l,k)

(3)

其中，|Y(l,k)|、|X(l,k)| 和 |D(l,k)| 分別表示含噪語音信號、干凈語音信號和噪聲的幅度譜。φy(l,k)、φx(l,k) 和φd(l,k) 分別表示含噪語音信號、干凈語音信號和噪聲的相位譜。

2 基于DNN的語音增強方法

2.1 基于MSE代價函數的深度神經網絡語音增強方法(MSE-DNN)

在傳統的MSE-DNN框架中，DNN的輸入是含噪語音的對數功率譜(LPS)特征，它包含了2τ+1個相鄰幀的聲學上下文信息，訓練目標是干凈語音的LPS特征，訓練階段優化的代價函數為

(4)

但是，MSE代價函數和語音可懂度沒有必要的關聯性。MSE不關注干凈語音幅度譜和網絡輸出幅度譜之間的正負差異，正差異表示估計的幅度譜被衰減了，而負差異表示估計的幅度譜被放大了，這兩種失真對人耳聽覺感知的影響不一定相同。也就是說，簡單的通過最小化干凈語音和增強語音之間的MSE，并不能保證增強語音的可懂度一定提高。

2.2 基于感知相關代價函數的深度神經網絡語音增強方法

為了克服上述MSE代價函數的問題，本文提出了感知相關代價函數，并將其用于網絡訓練，以提高語音質量和語音可懂度。基于感知相關代價函數的深度神經網絡語音增強方法實驗框架如圖1所示。它包括兩個階段：訓練階段和增強階段，本文主要對特征提取、感知相關代價函數的構建和DNN訓練進行介紹。

圖1 所提方法實驗框架

2.2.1 特征提取

在訓練階段，通過將語料庫中的干凈語音和噪聲逐幀地相加得到含噪語音信號。由于語音信號的時間連續性，我們將相鄰時間幀的聲學特征合并為一個向量作為DNN的輸入。因此輸入特征是含噪語音的當前幀、3個過去幀和3個未來幀的所有頻帶的幅度譜特征，并將這7個幀的幅度譜特征合并成一個向量，即

Y=[y(l-3,1),…,y(l-3,K),…,y(l,1),…,
y(l,K),…,y(l+3,1),…,y(l+3,K)]

(5)

其中，y(l,k) 表示含噪語音信號的第l幀位于頻帶k的幅度譜分量。訓練目標是干凈語音當前幀的每個頻帶的幅度譜特征，即

X=[x(l,1),…,x(l,K)]

(6)

其中，x(l,K) 表示干凈語音信號的第l幀位于頻帶K的幅度譜分量。得到輸入特征和訓練目標后，將這些數據進行標準化，使它們服從均值為0、方差為1的高斯分布。接下來需要構建感知相關代價函數，將其用于DNN訓練。

2.2.2 感知相關代價函數的構建

頻域加權分段信噪比是一種語音可懂度客觀評價標準，它的優點主要包括：使用臨界帶頻率間隔可以對聽力正常聽眾的頻率選擇性進行恰當的建模，并且可以將感知激勵加權函數施加于各個頻帶。頻域加權分段信噪比的計算如下

(7)

(8)

具體來講，當某個頻帶的信噪比大于0時，設為1，反之設為0，這樣做考慮的是，當語音的能量超過噪聲能量一定數值時，噪聲將被掩蔽，并且不被人耳聽覺感知[16]。因此本文提出了在DNN訓練過程中通過最小化以下感知相關代價函數來優化網絡參數

(9)

在MSE代價函數的計算中，每一幀的均方誤差是通過對所有頻帶的干凈語音和增強語音對數功率譜之間的誤差平方和取平均值得到的，也就是說不同頻帶對基于梯度的網絡訓練有相同的貢獻。但是，不同頻帶的誤差對人耳聽覺感知的影響是不同的，這些誤差不應該被均勻加權，而是應該根據它們對聽覺的影響，對不同的頻帶的均方誤差施加不同的權重。此外，DNN應該更加關注對人耳聽覺感知更為重要的頻帶。根據這些理論分析，有研究者提出了一種感知加權均方誤差代價函數[17]，即

(10)

其中，Lm表示第m條干凈語音信號的頻帶個數，W(l,k) 是對不同頻帶施加的權重，仍然根據式(8)來動態選擇，以最小化所有頻帶的誤差之和的幾何平均。

在此基礎上，本文將上述感知加權誤差和頻域加權分段信噪比結合，提出了一種聯合優化代價函數，即

(11)

其中，感知加權誤差和頻域加權分段信噪比這兩項的權重都設為固定值1。構建出代價函數后，接下來通過訓練一個DNN來得到干凈語音的幅度譜估計。

2.2.3 DNN訓練

DNN模型的搭建參考了文獻[3]，它的輸入為7×257維的含噪語音幅度譜特征；然后經過3個全連接層(或隱藏層)，每個全連接層有2048個神經元；最后經過一個257維的全連接層，獲得神經網絡的輸出。除了輸出層的激活函數為線性(linear)函數以外，其它層的激活函數均為整流線型單元(relu)。為了防止過擬合，在3個隱藏層后面添加了0.2的Dropout，網絡訓練過程使用的自適應調整參數學習率的算法為Adam，學習率為0.0001。

基于感知相關代價函數的DNN訓練如圖2所示。首先對網絡的權重ω和偏差單元b進行初始化，再利用前饋神經網絡(FNN)得到每個頻帶的幅度譜估計，即

圖2 基于感知相關代價函數的DNN訓練流程

(12)

接下來利用干凈語音的幅度譜xm(l,k)，根據式(9)和式(11)，求出感知相關代價函數值。為了最小化MSSNR和wMSE+MSSNR代價函數值，通過反向傳播算法對DNN的權重進行訓練，由此得到訓練好的DNN。

3 實驗

3.1 實驗配置

在本研究中，訓練語音和測試語音都來自TIMIT數據集。TIMIT數據集是由630名說話人(男性438名，女性192名)每人說10句所組成的語音集合，它分為訓練集和測試集，訓練集中有4620句，測試集中有1680句，一共6300條干凈語音。訓練噪聲和測試噪聲分別來自Aurora2數據庫和NOISEX-92數據庫。在6種信噪比(-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB)條件下，通過將 TIMIT 訓練集中的所有4620條干凈語音與Aurora2數據庫中的100種噪聲類型疊加，可以得到2 772 000(4620×100×6)條含噪語音，這些含噪語音信號和對應的干凈語音信號共同形成一個多條件訓練集。在測試階段，為了使實驗條件更接近真實環境，使用一些和訓練集不匹配的噪聲類型。在上述6種信噪比條件下，將TIMIT測試集中的100條干凈語音信號與2種可見噪聲(汽車噪聲、鈴聲)和NOISEX-92數據庫中的8種未見噪聲(比如：exhibition、pink、Factory1等)疊加，得到一個包含1000(2×100+8×100)條含噪語音信號的測試集。實驗中所有語音波形文件和噪聲的采樣率均為16 KHz。然后對信號進行分幀、加漢明窗，其中幀長為32 ms(512個采樣點)，幀移為16 ms(256個采樣點)，再對每一幀做257點DFT，就可以將時域信號轉換為信號的頻譜，由此可以得到257維的幅度譜特征。

為了驗證本文提出的兩種代價函數可以進一步提高語音增強性能，將MSSNR和wMSE+MSSNR代價函數分別用于DNN訓練，并將這兩種方法與3種對比方法進行比較，3種對比方法分別是：傳統的最小均方誤差對數譜幅度估計(LogMMSE方法)、基于MSE代價函數的深度學習語音增強算法(MSE-DNN方法)和基于感知加權均方誤差代價函數的深度神經網絡語音增強算法(wMSE-DNN方法)。為了方便，將這3種對比方法用方法A、方法B和方法C來表示。將本文提出的基于MSSNR代價函數的深度神經網絡語音增強算法(MSSNR-DNN方法)和基于wMSE+MSSNR代價函數的深度神經網絡語音增強算法(wMSE+MSSNR-DNN方法)用方法D和方法E來表示。為了減少算法的復雜度，4種深度學習方法使用相同的網絡結構。

3.2 評價結果

本文利用語音質量感知評價(PESQ)和短時客觀可懂度(STOI)兩種語音評價方法對增強語音進行客觀評價。PESQ用來對語音信號的感知質量進行客觀評價，取值范圍是-0.5到4.5。通過比較增強語音和干凈語音，可以計算出PESQ分數。PESQ越高，語音質量越高。STOI用來對增強語音的可懂度進行客觀評價，取值范圍是0到1，也是關于干凈語音和增強語音的函數。STOI值越高，表明增強語音的可懂度越高。

表1列出了在6種信噪比條件下，含噪語音以及通過傳統的LogMMSE方法、4種基于不同代價函數的深度神經網絡語音增強方法得到的增強語音的平均PESQ結果。從表中可以看出，基于DNN的語音增強方法和傳統方法相比，在PESQ上實現了顯著的增益。wMSE-DNN方法和MSE-DNN方法相比，增強語音的質量提高，表明對均方誤差進行感知加權，并將其用于DNN訓練，可以進一步提高語音質量。在大多數情況下，本文提出的MSSNR-DNN方法得到的PESQ分數都優于MSE-DNN方法和wMSE-DNN方法，這表明在DNN的訓練過程中最小化基于頻域加權分段信噪比的感知相關代價函數，可以提高增強語音的質量。但是當SNR=20 dB時，MSSNR-DNN方法得到的PESQ分數略有下降，這表明在輸入信噪比高的情況下，通過這種方法會造成輕微的語音失真問題，但這種失真不會對人耳聽覺造成影響。此外，在6種信噪比環境下，wMSE+MSSNR-DNN方法可以得到比另外3種深度學習方法更好的語音質量，這是由于MSE沒有考慮人耳聽覺系統的感知特性，根據理想二值掩蔽對MSE加權，將其和頻域加權分段信噪比結合，作為代價函數來優化DNN，可以進一步提高增強語音的感知質量。

表1 不同信噪比下的平均PESQ結果

表2列出了在6種信噪比條件下，含噪語音以及通過傳統的LogMMSE方法、4種基于不同代價函數的深度神經網絡語音增強方法得到的增強語音的平均STOI結果。從表中很明顯可以看出，4種基于DNN的語音增強方法和傳統方法相比，STOI值顯著提高。在低信噪比條件下，基于感知加權均方誤差代價函數的DNN訓練有利于語音可懂度的提高。大多數信噪比下，經過wMSE+MSSNR-DNN方法處理以后的增強語音的STOI值高于其它3種深度學習方法，這是由于利用人耳聽覺系統的感知特性，對均方誤差進行感知加權，并將其和頻域加權分段信噪比結合，可以進一步提高增強語音的可懂度。但是，當SNR=5 dB時，wMSE+MSSNR-DNN方法得到STOI值下降，這可能是由于該方法通過采用感知加權，在一定程度上造成了語音信息丟失。在大多數信噪比條件下，MSSNR-DNN方法優于MSE-DNN方法和wMSE-DNN方法。但是，在高信噪比環境中，特別是當SNR=20 dB時,雖然通過MSSNR-DNN方法得到的語音質量和MSE-DNN方法、wMSE-DNN方法相比略有下降，但是增強語音的可懂度分別提高了0.012和0.003，這是由于頻域加權分段信噪比和語音可懂度高度相關。

3.3 語譜圖分析

圖3表示TIMIT語料庫中的一條干凈語音，SNR=-5 dB 的含噪語音，以及通過5種不同的方法得到的增強語音的語譜圖。從圖3(b)可以看出當SNR=-5 dB時，語音信息被噪聲掩蓋。從圖3(c)看出傳統的LogMMSE方法存在的殘留噪聲和語音失真問題嚴重。從圖3(e)可以看出wMSE-DNN方法和其它4種方法相比，殘留噪聲最少，但是語音信息的損失情況最為嚴重，因此難以提高語音可懂度。通過比較圖3(d)、圖3(e)和圖3(f)可以看出，MSSNR-DNN方法可以有效地恢復語音信息，從而提高增強語音的可懂度，但是語音段間仍然存在殘留噪聲。從圖3(g)可以看出，利用wMSE+MSSNR-DNN方法，可以進一步抑制殘留噪聲，同時保留更多的語音信息，這表明該方法可以保留更多對人耳聽覺感知有重要作用的語音段，因此語音可懂度進一步提高。

圖3 語音信號的語譜圖比較

4 結束語

本文提出了一種基于感知相關代價函數的深度神經網絡語音增強算法。在基于DNN的語音增強回歸問題中，使用基于本文提出的兩種感知相關代價函數進行DNN訓練，可以保留對人類聽覺感知更為重要的頻帶，并且有效提高增強語音的質量和可懂度。

今后可以嘗試將其它能夠表征人類聽覺感知特性的心理聲學特征引入代價函數的計算中。此外，下一步可以將本文提出的聯合優化代價函數中的wMSE和MSSNR進行權重設置，探究不同權重因子對語音增強性能的影響。