孫思雨,張海劍,陳佳佳
(武漢大學 電子信息學院,湖北 武漢 430072)
語音增強問題是語音信號處理領域的研究熱點,廣泛應用于助聽器、遠場語音識別等語音通信場景[1-4]。語音增強的目標在于從嘈雜的混合語音中提取出純凈人聲信號,抑制背景噪聲,從而提高各種語音通信場景下的語音質量和可懂度。語音增強通常分為單通道語音增強和多通道語音增強。與單通道語音增強僅使用混合語音波形或頻譜作為算法輸入來估計純凈語音不同,多通道語音增強還能利用陣列結構中包含的空間信息來輔助算法提取純凈語音,從而在更復雜的實際聲學場景中提升語音質量與清晰度。傳統的語音增強技術主要基于波束形成(Beamforming),通過增強來自目標方向的信號并抑制其他方向的信號來實現空間濾波[5],如最小方差無失真響應(Minimum Variance Distortion-less Response, MVDR)波束形成器[6]和廣義特征值(Ge-neralized Eigenvalue, GEV)波束形成器[7]等。
隨著深度學習在語音信號處理領域的興起,傳統的波束形成器開始結合深度神經網絡(Deep Neural Network, DNN)構成了廣義的神經波束形成器。得益于單通道語音增強技術的蓬勃發展,許多多通道語音增強技術通常是對單通道語音增強技術的簡單擴展。文獻[8-9]展示了多通道語音增強技術對每個通道的混合信號應用單通道語音增強網絡,來并行預測對應通道的時頻掩碼,接著利用這些時頻掩碼來計算空間協方差矩陣,進而利用統計優化準則去推導出MVDR波束權值。由于最終權重估計的準確度顯著依賴于第一階段的掩碼估計,在低信噪比、強混響等不利的聲學條件下,前一階段的掩碼估計精度會下降,帶來的掩碼預測誤差將會嚴重影響最終波束權值估計的準確度。另一種多通道增強策略是顯式或隱式地將空間信息作為聯合特征,喂給網絡去直接估計陣列參考麥克風通道對應的掩碼,或多個通道的波束權值。一種典型的顯式方法是直接利用輸入信號的相位來手動提取通道間相位差(Inter-channel Phase Difference, IPD)作為輔助特征,顯式地為輸入特征添加空間信息[10]。常用的隱式方法是將多通道輸入信號經過時頻變換后,將得到的復數譜的實部和虛部在通道維度進行堆疊作為輸入特征送給網絡去預測目標信號的復數時頻掩碼,這樣就將空間信息隱式地引入到輸入特征中[11-13]。上述策略本質上仍然沿用了單通道語音增強網絡的拓撲結構,沒有充分利用傳統波束形成方法可以進行空間濾波的優勢[14],對于實際中更復雜的聲學環境,這些算法的性能將會達到瓶頸。
最近,一些神經波束形成器的范式被提出。一類基于時域處理,如文獻[15]提出的FasNet在時域估計濾波器系數進行濾波求和。另一類是在時頻域進行處理,如文獻[16]提出了一種新的神經波束形成器的范式名為全深度學習的MVDR(All Deep Learning MVDR, ADL-MVDR),ADL-MVDR用不同的網絡模塊來模擬傳統MVDR計算空間協方差矩陣和求解波束權值的過程,并將這些網絡模塊集成到一個端到端網絡中。受該方法的啟發,文獻[14]提出了一種嵌入波束網絡(Embedding and Beamforming Network, EaBNet),與直接顯式地計算空間協方差矩陣不同,其在嵌入模塊提取包含空間信息和頻譜信息的嵌入張量,在波束模塊采用網絡的形式模擬波束權值計算過程。
盡管EaBNet展示了非常可觀的語音增強性能,但起決定性作用的嵌入模塊感受野有限,從而導致提取的嵌入張量中包含的頻譜和時間上下文信息不足。為解決以上問題,本文在嵌入模塊中引入傅里葉卷積[17]來增大頻率維度感受野,以及時頻卷積模塊(Time Frequency Convolutional Module, TFCM)[18]對時間上下文信息進行捕捉。此外添加注意力機制[19],進一步擴大感受野,更好地從輸入特征圖中提取上下文信息??焖俑道锶~卷積(Fast Fourier Convolution, FFC)的全局分支具有整個圖像范圍的感受野,并在文獻[20]中被證明適用于捕捉周期性結構。TFCM的原理與時間卷積網絡(Temporal Convolutional Network, TCN)[21]類似,均采用深度擴張卷積來實現對長時時序依賴建模,本文采用TFCM在編解碼器中捕獲時間上下文信息。在注意力機制方面,本文主要考慮空間注意力和通道注意力[19, 22-23]。基于以上幾種算子,本文提出了基于傅里葉卷積的上下文特征提取器,結合FFC全局分支和TFCM的特點,更好地從輸入特征圖中學習頻譜上下文信息。在此基礎上同時采用了一種新的卷積循環網絡(Convolutional Recurrent Network, CRN)結構來替換EaBNet中的嵌入模塊,用來學習包含豐富空間和頻譜聯合信息的嵌入張量,其編解碼器中嵌入了前述上下文特征提取器,并在跳連接部分嵌入卷積注意力模塊(Convolutional Block Attention Mo-dule, CBAM)[19],以更好地實現信息在網絡中的流通并學習跨通道間的特征。為了在不降低性能的前提下實現更輕量級的模型,采用深度反饋順序記憶網絡(Deep Feedback Sequential Memory Network, DFSMN)作為CRN中的循環模塊對長時依賴關系進行建模[24-25]。所提模型在增強性能方面優于原始的EaBNet,并且在2021年遠場語音識別比賽官方提供的開發集上達到了最優的效果。下面將詳細介紹本文所提出的基于傅里葉卷積的多通道語音增強方法。
假設混響室內有M個麥克風來記錄語音信號,第m個麥克風輸出的信號經過短時傅里葉變換(Short-Time Fourier Transform, STFT)后可表示為:
(1)

(2)
式中:{·}*表示共軛操作,Wm(n,f)表示第m個通道對應的波束權值。通過對估計得到的目標語譜圖進行逆短時傅里葉變換(Inverse STFT, ISTFT)得到最終增強的時域信號。
本文所提的多通道語音增強系統如圖1所示,其中包含了一個提取嵌入張量的CRN模塊和計算波束權值的長短時記憶(Long Short-Term Memory, LSTM)模塊以及全連接層。輸入噪聲譜經過STFT后得到時頻域語譜圖D∈B×M×F×T,其中B、M、F和T分別表示塊大小(batch size)、輸入通道數(一般指麥克風個數)、頻點個數以及幀數。將實數譜與復數譜在通道維度堆疊得到輸入帶噪復數譜C∈B×2M×F×T,將輸入帶噪復數譜作為網絡輸入估計波束權值。圖1中CRN結構用來提取包含空間信息和頻譜信息的嵌入張量,接著通過2層堆疊的LSTM結構導出波束權重。估計出的濾波系數用來對對應通道的噪聲復數譜按照式(2)進行濾波,最后將每個通道濾波得到的語譜圖相加再經過ISTFT得到目標信號。

圖1 算法流程Fig.1 Flowchart of the proposed algorithm
由于嵌入張量的提取準確度將直接影響最終波束形成權值估計的準確性。因此對于嵌入模塊CRN的設置至關重要。經典的CRN結構僅在循環模塊中考慮對時間上下文之間的依賴性建模,由于其突出的性能,許多CRN結構被廣泛應用于增強任務中[25-28]。經典的CRN結構的編解碼器模塊常采用簡單的卷積結構,對上下文信息的捕捉能力有限,在不利的聲學條件下,隨著目標語音所受的干擾增加,時間與頻率上下文信息對純凈信號的恢復變得至關重要,常用的CRN結構性能將會到達瓶頸。
為了處理常用CRN結構中編解碼器捕捉上下文信息能力有限的問題,提出了一種基于傅里葉卷積的大感受野的CRN結構,如圖1所示。所提出的CRN結構包含K組編解碼器結構、由DFSMN組成的循環模塊,以及由CBAM組成的跳連接模塊。相比傳統的CRN結構,本文所提CRN結構在編解碼器模塊部分具有較大感受野,能充分從輸入特征中捕捉頻譜-空間聯合信息,用于學習嵌入向量。
本文所提編解碼器結構如圖2所示,歸一化采用二維塊歸一化(BatchNorm2d),PReLU為激活函數,用來為網絡增加非線性映射能力。輸入語譜圖經過二維卷積映射到高維后,再通過上下文特征提取器捕捉時頻上下文特征。設第l個編碼器的輸入特征為F∈C×F×T,經過卷積模塊時的運算過程為:

圖2 編解碼器結構Fig.2 Structure of the encoder and decoder
G=δ(BN(W1F))∈C′×F′×T′,
(3)
式中:C、C′分別為2維卷積的輸入通道數和輸出通道數,G為上采樣后的特征圖,W1為該二維卷積的權重,δ(·)為PReLU激活函數,BN(·)表示塊歸一化。接著將特征圖G送入上下文特征提取器進行特征提取。
上下文特征提取器由傅里葉卷積的全局分支和TFCM組成,如圖3所示。傅里葉卷積中包含了一個由傳統卷積操作組成的局部分支,以及一個對輸入特征圖進行離散傅里葉變換的全局分支。傅里葉卷積的全局分支具有全圖像域的感受野,這是由于離散傅里葉變換(Discrete Fourier Transform, DFT)在變換域上任意一點的更新將會對原始域的信號產生全局影響[17, 20, 29]。因此本文對特征圖的頻率維度進行傅里葉變換,以在頻率特征維度上獲得全局感受野。

圖3 所提上下文特征提取器Fig.3 Proposed context feature extractor
此外,為了進一步提高對時間上下文信息的捕捉能力,本文引入了TFCM[17]對時序依賴信息進行建模,TFCM與TCN[21]原理類似,均采用深度擴張卷積來實現上下文建模,不同點在于TFCM采用二維深度卷積。
上下文特征提取器采用2個分支對輸入特征圖G進行并行處理。左分支用傅里葉變換操作來提取頻率維度的上下文信息,右分支用TFCM組提取時間上下文信息。
在左分支中,首先將特征圖G通過一個CBAM,CBAM由2個門控注意力模塊組成,分別為空間注意力模塊和通道注意力模塊,詳見文獻[15]。對于一個輸入CBAM的特征圖G,計算過程為:
Q=SA(CA(G))∈C′×F′×T′,
(4)
式中:
CA(G)=G*σ(W2(δ(Avg(G))+δ(Max(G)))),
(5)
SA(G)=G*σ(W3([Avg(G);Max(G)])),
(6)
SA(·)、CA(·)分別表示空間注意力模塊和通道注意力模塊,通過對輸入特征產生不同的權重,再將這些權重作用于輸入特征上,從而從輸入特征中提取空間-頻譜聯合信息;σ(·)表示sigmoid函數,W2、W3分別表示二維卷積權重,Avg(·)、Max(·)分別表示平均池化和最大池化操作。
接著對特征圖Q在頻率維度做一維實數傅里葉變換,得到一個新的復值特征圖:
H=f(Q)∈C′×F′/2×T′,
(7)
式中:f(·)表示一維實數傅里葉變換。接著將復值特征圖的實部與虛部在通道維度堆疊得到一個實數值張量H′∈2C′×F′/2×T′,接著用一個1×1卷積模塊對變換域的特征H′進行更新:
A=δ(BN(W4H′))∈2C′×F′×T′,
(8)
式中:W4為逐點卷積的權重。接著對特征圖A的通道維度進行切分,將其分為兩部分作為實部和虛部去組成一個新的復值特征圖用于逆傅里葉變換:
Jr,Ji=chunk(A)∈C′×F′/2×T′,
(9)
K=f′(Jr+Ji*i)∈C′×F′×T′,
(10)
式中:chunk(·)表示在通道維度將張量切分為兩部分,f′(·)表示一維逆傅里葉變換。
在右分支中,采用一組TFCM連接,通過控制深度擴張卷積中的擴張因子大小來實現時間上下文建模。右分支中包含L個TFCM,擴張因子分別為20,21,…,2L-1。最后將左分支和右分支得到的結果相加再經過逐點卷積得到一個編碼器的輸出。
左右分支分別提取頻率上下文和時間上下文信息,這使得所提出的傅里葉卷積編碼器具有較大感受野和較強的特征提取能力。此外,頻率維度的全局感受野有助于傅里葉卷積編碼器更好地從輸入語譜圖中學習諧波間的相關信息。
解碼器首先采用轉置卷積對高維特征圖進行下采樣,將特征圖恢復到低維空間,接著再將其通過所提的上下文特征提取模塊對特征圖進行恢復。
DFSMN是在前饋全連接層的基礎上,在其隱藏層中加入了一個記憶單元,記憶單元的作用是對該隱藏狀態的前后單元進行編碼,從而捕捉序列的上下文信息,具體可參見文獻[23-24]。在本文中,最后一層編碼器的輸入為M∈C×F×T,將其變換為一組序列S∈(C×F)×T送入DFSMN。對于一個時刻t,對序列st∈C×F處理過程為:
(11)
(12)
(13)

本文采用2種損失函數來衡量增強信號與參考信號的相似度。第一種采用常用的SI-SNR,用來衡量增強信號與參考信號的時域相似度。SI-SNR的計算過程可以表示為[28]:
(14)
(15)
(16)

第二種采用聯合冪律壓縮譜和非對稱損失函數來提升語音識別感知準確度,并防止對噪聲過抑制。它主要由壓縮幅度譜Lmag、壓縮復數譜Lspec以及非對稱壓縮幅度譜Lasym組成[30]:
L2=Lmag+Lspec+Lasym,
(17)
(18)
(19)
(20)
(21)

實驗數據來自2021年遠場語音增強比賽所提供的數據集[31]。純凈語音數據選自AISHELL-1[32]、AISHELL-3[33]、VCTK[34]以及LibriSpeech(train-clean-360)[35]四個語料庫,從每個數據集中挑選10 000條信噪比大于15 dB的語音段用來生成訓練數據,對訓練數據填充或剪裁到4 s。噪聲數據來自于開源的MUSAN[36]和AudioSet[37]語料庫。麥克風陣列設置為間隔為5 cm,包含8個麥克風的均勻線陣,并采用鏡像方法[38]生成超過5 000個多通道房間脈沖響應(Room Impulse Response, RIR)。仿真生成的房間長寬高隨機設置為3~8 m、3~8 m、3~3.5 m。混響時間隨機設置為0.1~0.9 s。語音和噪聲的位置隨機,與麥克風陣列間的位置間隔隨機設置為0.5~5 m,并設置語音與噪聲間隔大于20°。目標語音和干擾噪聲隨機以-5~25 dB的信噪比混合。驗證集按照官方提供的純凈語音集和噪聲集生成。最后,生成了大約60 000組訓練數據集和1 600組噪聲數據集。
本文在2021年遠場語音增強比賽官方提供的開發集上驗證算法的性能。采用4個客觀指標對性能進行評估:感知語音質量(Perceptual Evaluation of Speech Quality, PESQ)[39]、短時客觀可理解性(Short Time Objective Intelligibility, STOI)[40]、擴展短時客觀可理解性(Extended STOI, E-STOI)[41]以及尺度不變信噪比(Scale-invariant SNR, Si-SNR)。
首先將所有的語音信號重采樣到16 kHz,訓練數據填充或剪裁到4 s,驗證數據填充或剪裁到6 s。采用20 ms的漢寧窗對語音段進行分幀,幀移為10 ms。對每幀信號進行512點的STFT變換,將信號從時域變換到時頻域。對于所提的CRN結構,其中包含5對編解碼器,編解碼器中卷積參數設置如表所示。此外,每個編碼器中包含5個TFCM。循環模塊的DFSMN結構共享網絡權值,均包含64個隱藏單元。波束權值推理部分由2個包含64個隱藏單元的LSTM模塊堆疊而成。本文采用ADAM優化器對網絡模型進行參數優化,初始學習率設置為0.001,如果在驗證集上計算的損失值連續2個周期都不下降,則將學習率減半。

表1 編碼器卷積參數設置
本文首先在2021年遠場語音增強比賽官方提供的開發集上評估了所提方法的性能,損失函數采用L1損失函數,并與4個較優的基線系統進行了比較,方法分別為:oracle MVDR、文獻[17]方法、MIMO-Net[10]和EaBNet[12]。其中,oracle MVDR為理想條件下的MVDR波束形成器,利用參考信號估計出目標語音對應的導向矢量,再使用MVDR波束形成器對導向矢量對應的方向進行空間濾波,以估計目標純凈語音;文獻[17]的模型在比賽提供的開發集上表現出較好的性能,其在DCCRN[28]的基礎上提出了復數空間注意力和通道注意力模塊用來提取空間信息;MIMO-Net在2021年遠場語音增強比賽中獲得第一名,其采用一個簡單的因果Unet網絡來估計波束權值,采用濾波求和操作實現空間濾波;EaBNet是2022年中科院聲學所提出的多通道語音增強模型,是目前一種較為先進的多通道增強方法。表2展示了5個模型在比賽官方提供的開發集上的客觀指標。從表2可看出,所提方法大大優于比賽官方所提供的基線系統,也優于其他對比方法,達到了最優性能,這有力地說明了所提方法能有效從輸入混合信號中提取頻譜和空間聯合信息,從而提高增強后的語音質量。同時,與其他方法相比,所提模型參數量較小,進一步說明了所提方法的有效性。

表2 開發集上增強結果
為了更全面地對模型效果進行分析,本文從LibriSpeech數據集中隨機抽取與訓練集不重合的2 000條語音段作為純凈語音,并從AudioSet中抽取2 000條噪聲作為噪聲集。將每條噪聲和語音填充或剪裁到6 s,分別在-5、0、5 dB的信噪比條件下生成測試數據,驗證本文模型在低信噪比環境下的增強效果。其中每種低信噪比條件下仿真生成的RIR混響時間為[0.1, 0.9]s,按照均勻采樣的方式隨機從上述范圍中選擇一個混響時間生成每條RIR。表3展示了低信噪比下本文所提方法和對比算法的結果,該實驗中采用的模型是使用L1損失函數訓練好的模型。從表3整體來看,隨著信噪比的降低,所有方法的性能均下降,但所提方法在每種信噪比條件下都展示出最優的性能。此外,隨著信噪比降低,所提方法與EaBNet的差距逐漸增加,這表明所提方法能在低信噪比條件下更好地從輸入多通道信號中提取重要頻譜-空間聯合信息用以區分噪聲信號和語音信號。

表3 不同信噪比下的客觀指標對比
此外,為了驗證所提模型在不同混響程度下的增強效果,采用表3實驗中抽取的純凈語音和噪聲語音分別在[0.1, 0.3]s、[0.3, 0.6]s以及[0.6, 1.0]s三種范圍下分別生成1 000條RIR。每種條件下生成RIR時,其混響時間都在所對應的范圍內均勻采樣獲得。生成的RIR與純凈語音和噪聲進行卷積得到帶噪語音,每條帶噪語音的信噪比均為5 dB。表4展示了不同混響時間下所提算法與對比算法的實驗結果。從表4可以看出,在混響時間較小時,所提方法與對比方法都展現了較好結果。隨著混響時間增加,所有方法的性能都大幅下降,尤其是在混響時間接近0.9 s時,這是由于混響較大時,空間混疊增加,目標語音的空間信息受到較大干擾,從而導致空間信息提取困難,但本文所提方法仍大幅優于其他方法,也證明了本文方法在捕捉空間-頻譜信息方面的優越性。

表4 不同混響時間下的客觀指標對比
為驗證2種損失函數的性能,本文在2021年遠場語音增強比賽官方提供的開發集上評估了2種損失函數的性能,結果如表5所示。從表5可以看出,第二種混合損失函數L2整體優于Si-SNR損失函數L1,除了Si-SNR指標,這說明冪律壓縮譜損失函數能有效提高增強語音的感知度,故PESQ指標會明顯優于L1損失函數。

表5 不同損失函數結果對比
本文針對大多數多通道語音增強網絡缺乏對頻譜上下文充分學習的問題,提出了一種基于傅里葉卷積編碼器的卷積循環編解碼器CRN。所提傅里葉卷積編碼器以FFC為基礎,集成了注意力機制以及TFCM,用來擴大卷積感受野,從而更好地從輸入語譜圖中捕捉空間-頻譜聯合信息。此外在所提CRED中采用DFSMN作為循環模塊對時間上下文進行建模,大大減小網絡整體參數量。實驗結果表明,所提方法優于其他基線,且網絡參數量更小。此外,本文討論了2種損失函數的性能,實驗結果表明,聯合冪律壓縮譜損失函數能獲得更高的PESQ結果。