林文模,陳飛龍,孫成立,朱禎君
南昌航空大學 信息工程學院,南昌330063
在現實環境中,語音不可避免地會受到來自各種聲源的背景噪聲的干擾,當房間混響與背景噪音混在一起時,將給語音感知帶來較大影響和破壞,加劇了聽力受損(hearing impairment,HI)人員的聽力困難[1-2]。尤其是當信噪比(signal to noise ratio,SNR)處于較低水平時,這些畸變共同降低了語音的清晰度和質量[3-4]。在這些不利的混響噪聲條件下,許多語音處理任務,如自動語音識別(automatic speech recognition,ASR)和說話人識別(speaker identification,SID)將變得更加困難[5-7]?,F在逐漸興盛的智能設備行業,其產品的大部分功能,包括獲取實時信息、播放有聲讀物、設置鬧鐘和控制其他家庭設備,都是基于強大的ASR和SID系統。如果不能很好地應對背景噪聲和室內混響帶來的語音失真,智能設備的效用也將受到限制。
語音增強技術的主要目的是最大限度地從帶噪語音信號中恢復出干凈的語音信號,在噪聲條件下改善語音質量并提高可懂度,其在學術界和工業領域中得到了廣泛的研究和應用[8]。經過幾十年的發展,傳統多通道語音增強算法已經相對成熟,主要有波束形成、子空間等算法[9]。傳統波束形成算法包括延遲求和波束形成、超指向性波束形成、最小方差無失真響應(minimum variance distortion less response,MVDR)波束形成等[10]。大部分傳統波束形成方法都是線性的,當語音信號中含有的噪聲比較多時,算法效果將受到較大影響。近十年,基于深度神經網絡的語音增強方法有效解決了這一難題,并已成為語音增強的主流方法[11]。因此,后來多用神經網絡先將輸入信號進行噪聲分離再進行波束形成。神經波束形成主要有兩種方法:第一種是用時頻掩蔽得到頻譜圖,然后用頻譜圖去計算信號的空間信息[12],如空間協方差矩陣,其中時頻掩蔽的概念來自于計算聽覺場景分析(computational auditory scene analysis,CASA)[13];第二種則是基于輸出,語音分離部分不一定在時頻域進行,而是可能在時域,通過得到的波形以及輸出的頻譜圖去計算空間信息[14]。兩者主要是對目標聲源估計的方法不同。
L3DAS(learning 3D audio sources)團隊近兩年舉行了L3DAS挑戰賽,該挑戰賽的第一個任務就是3D語音增強(3D speech enhancement),目標就是設計一個多通道深度神經網絡來處理3D語音信號[15]。該挑戰賽模擬了人耳在辦公室混響環境下聽到遠場3D語音的場景,開發在現實相近場景中的語音增強技術極具挑戰性,且針對此場景的語音增強算法更能投入實際使用。
回顧近幾年的研究,3D 語音增強的成果與L3DAS競賽密不可分。其中,巴西圣保羅大學的參賽團隊提出了一種時域全卷積網絡(time domain fully convolutional network),該網絡以時域語音信號作為輸入,重復使用相同核的全卷積塊,卷積只采用一維卷積,避免了頻譜映射模型信號重建中常見的相位問題,并達到了語音增強的目的,在L3DAS21 3D語音增強競賽中獲得了第二名[16]。快手科技提出的MMUB(MIMO UNet beamforming)[17]采用了多通道神經波束形成。具體地說,它將多通道混合的串聯輸入到一個U-Net中,以估計每個通道的復雜權值。然后加權混合后的和即為目標信號的估計,以此完成語音增強的任務。它不需要顯式的空間特征,如雙耳相位差(IPD),最后在L3DAS21 競賽中奪得了第一名。而在2022 年L3DAS22 的3D 語音增強挑戰賽中,騰訊參賽的PCG-AIID 系統則取得了第三名。該系統第一階段進行多通道語音增強,在保留多信道信號空間特性的同時,去除背景噪聲。第二階段則進行空間濾波和后濾波從期望方向增強語音,其中的空間濾波對前一階段輸出的多通道信號進行了波束形成估計[18]。兩個階段所用網絡均是卷積循環網絡(convolutional recurrent network,CRN),不同的是,第二階段的CRN前還多了個頻率級長短時記憶網絡(frequency-wise LSTM)來進行空間濾波。由卡內基梅隆大學、馬奇理工大學、MetaAI、上海交通大學和臺北中央研究院合作提出的ESPNET-SE 采用了神經網絡和多幀多通道維納波束形成濾波器相迭代的結構。它使用了兩個多輸入單輸出的TCN-DenseUNet(temporal convolutional network-DenseUNet),兩個網絡分開訓練,用原始信號通過訓練后的第一個網絡首先生成一個目標估計語音,該目標估計信號與原始信號作為迭代結構的第一代輸入,迭代時輸入信號先進入多幀多通道維納波束形成濾波器,波束形成濾波結果與第一個網絡的估計信號連同原始信號一起輸入第二個網絡,用第二個網絡的輸出代替第一個網絡的估計信號,讓其與原始信號一起作為下一代迭代結構的輸入以逐步細化估計,通過這樣的一次次迭代來訓練第二個網絡。最終其在L3DAS22挑戰賽的3D語音增強任務中奪得第一名[19]。
綜上所述,本文針對固定幾何形狀的麥克風陣列,提出了兩級UNet 波束形成網絡去進行期望方向的3D語音增強。第一級網絡進行初步時頻濾波,并輸出初步波束形成濾波結果;第二級網絡則將前一級所估計的信號特征連同原始信號內全向信道的特征信息作為輸入,進一步改善波束形成濾波效果。本文方法不需要顯式的空間特征,且效果在STOI和WER上明顯優于L3DAS21 3D語音增強挑戰賽中冠軍模型MMUB。
3D 語音信號有a 和b 兩種格式,它們都是4 通道信號,且兩者可以通過矩陣乘法相互轉換[17]。3D 語音與普通多通道語音的區別在于,3D 語音每個通道采集的是來自不同方向的信號,每個通道內的信號是不一樣的且包含方位信息。
一個a格式的3D語音,每個通道的信號結構一致,且可表示為:
其中,α表示a 格式3D 語音信號的信道索引,FLU、FRD、BLD、BRU 分別表示前左上、前右下、后左下和后右上方位的通道。通常采用4 個心形麥克風四面體排列來采集3D語音,聲場結構如圖1所示。

圖1 a格式聲場麥克風概念結構Fig.1 a-format sound field microphone conceptual structure
聲場話筒廣泛應用于3D音頻行業,例如聲場SPS200和Rode NT-SF1。
mα(t)、sα(t)、nα(t)分別表示對應信道內的噪聲、干凈語音和噪聲信號。在短時傅里葉變換(short time Fourier transform,STFT)域中,式(1)可以表示為:
其中,l表示幀數,f表示頻率。因此完整的a格式信號可表示為:
b格式信號可以通過式(4)由a格式信號轉換得來:
W、Y、Z、X為b格式立體聲通道,它們分別表示一個所有方向信道相加的全向信道和部分方向信道相增減后的坐標軸方向的信道。b格式信號具有更好的空間特性,而且對于一些聲場麥克風,麥克風前置放大器已經在硬件[20]中完成了a到b格式的轉換,本文直接針對b格式信號進行語音增強。
估計b格式干凈語音的方法如下:
W(l,f)可被視為b 格式波束形成濾波器[17],可以用神經網絡進行估計。神經波束形成網絡結構如圖2 所示:首先將帶噪信號進行短時傅里葉變換,再用U-Net這一經典全卷積網絡[21]估計波束形成濾波器的參數,把經過網絡的信號與濾波器參數相乘,然后求和得到單通道信號。

圖2 b格式神經波束形成網絡結構Fig.2 b-format neural beamforming network structure
本文將兩個麥克風陣列采集到的b 格式語音信號拼接成一個八通道信號作為輸入,其形式為[WA,YA,ZA,XA,WB,YB,ZB,XB],A/B代表兩個麥克風陣列,W、Y、Z、X是陣列內麥克風信號的信道索引。
因此一個完整的輸入信號可表示為:
第一級估計的波束形成濾波器可表示為:
則第一級波束形成濾波的結果為:
本文將第一級濾波后信號的特征信息與原始信號全向信道中的特征信息拼接成的雙通道信息作為第二級的輸入。所謂全方位信號是指a格式信號轉換為b格式信號時,a 格式信號所有方位信號相加得到的信號。因此該信號所含的信息最全面,本文借此來進行第二級的深層波束形成濾波。
因此第二級的輸入可表示為:
第二級的波束形成濾波器可表示為:
因此最終的干凈語音估計結果為:
綜合所有的波束形成濾波,可以將語音增強的過程表示為:
它可以根據前一級濾波的效果與原始信號的部分信息進行自適應調整,從而逐步改善第一級濾波和總體濾波的效果,最終得到誤差最小的兩級波束形成濾波器。
圖3為本文方法的網絡結構,它由兩個多通道U-Net波束形成網絡串聯構成,命名為多通道單輸出W-Net(MISO-W-BeamformingNet,MSWB)。它包含三個主要模塊:編碼器用于逐步提取高級特征;解碼器用于從編碼器的輸出中重構輸入特征的大??;跳躍連接用于將編碼器中的每一層與解碼器中的相應層進行連接。將多路信號的復譜圖拼接后送入編碼器,用解碼器估計目標信號的實部譜圖和虛部譜圖。每個編碼器塊由一個二維卷積、二維批歸一化和LeakyReLU 激活組成。每個解碼器塊由二維反卷積、二維批歸一化和LeakyReLU激活組成。經過編解碼模塊后,再用一個二維卷積將特征圖重塑為輸入時的形狀。MSWB 的超參數如表1 所示,其中Cin表示輸入通道,兩級網絡只有Cin不同。第一級的輸入是將來自兩個麥克風陣列的b 格式音頻信號拼接為一個8 通道信號,作為原始的輸入信號,因此第一級的Cin設置為8。第二級網絡的輸入則是第一級波束形成濾波后的信號的特征與原始信號全向信道內信號的特征信息拼接而成的雙通道特征信息,故第二級網絡的Cin設置為2。

表1 模型超參數Table 1 Model hyperparameters

圖3 神經網絡模型架構Fig.3 Neural network model architecture
為了減小模型負載,將每條語音信號切成時長為1.912 s的多條短信號依次輸入,增強時相鄰兩條語音切片設置有一半重疊,如圖4所示。因為采樣速率為16 000 Hz,所以每個通道內的信號有30 592個采樣點。采用32 ms幀長,8 ms 幀移的512 點STFT 去提取信號的時頻域特征。每個通道內的信號提取240幀信息,每一幀里各有256個復譜圖的實部信息和虛部信息,然后將譜圖的實部和虛部在頻率軸上連接起來作為輸入到神經網絡的特征。本文提出的這種增強方法同樣也可以用在傳統的多通道語音增強上。

圖4 切片重疊區域示意圖Fig.4 Schematic diagram of overlapping area of slices
本文使用MSWB作為神經網絡來估計一個自適應權級矩陣。將b 格式噪聲信號的復譜圖與網絡估計的自適應權級參數矩陣進行元素對應相乘,然后將結果在通道軸上相加,估計出一個單通道增強復譜圖。然后再進行短時傅里葉逆變換(inverse short time Fourier transform,iSTFT),得到時域增強信號。由這個過程可以將神經網絡估計的空間矩陣理解為濾波和波束形成器的權值。圖3 中虛線方框中的內容從上到下依次是兩級的波束形成過程。兩級的增強過程均與傳統的波束形成過程相同,不同的是第二級的波束形成增強過程會根據前一階段的效果和原始信號內信息進行自適應調整,以改善最終增強效果。
鑒于之前MMUB 中進行的損失函數實驗,發現多通道波束形成U-Net 網絡采用時域內定義的平均絕對誤差(mean absolute error,MAE)作為損失函數時,效果最好[17],故本文亦采用MAE作為本系統的損失函數:
其中x與分別是干凈語音信號與系統估計語音信號。
本文僅使用L3DAS22 挑戰賽提供的最小的一個3D音頻數據集(L3DAS Task1 train100)進行模型訓練,將該數據集的70%用來訓練,剩下的30%用來驗證每輪的訓練結果。其中的多通道信號是通過對單通道純凈語音和多通道脈沖響應(impulse response,IR)信號進行卷積,再加入與另一種不同脈沖響應信號卷積的背景噪聲模擬而成。
干凈語音來自Librispeech語料庫[22],噪聲信號來自FSD50K[23]。
在一個尺寸為長6 m、寬5 m、高3 m 的大辦公室里進行信號捕捉。兩個Ambionics 麥克風陣列(MicA,MicB)放置在房間的中心。每個麥克風陣列有4個麥克風,并產生4 個通道信號。A 麥克風陣列與B 麥克風陣列之間的距離為20 cm,接近人耳之間的距離。兩個麥克風陣列都在高度1.3 m 的位置,這是接近一個坐著的人的耳朵高度。源信號的位置從252 個不同的位置中隨機選取。
3D 語音增強的評估指標是STOI 和WER 的組合體。在960h 的Librispeech 語料庫上進行預訓練,利用Wav2Vec[24]模型計算出語用效率。最后的度量標準定義為:
STOI在0-1范圍內,值越大越好。WER值在0-1范圍內,值越小越好。因此,最終的度量在0-1范圍內,值越高越好。
本文是將兩級波束形成網絡放在一起作為一個整體模型同時進行訓練,具體設置如下:在NVIDIA GTX1660 GPU上訓練批量大小為3的模型,并使用Adam梯度優化器更新參數。初始學習率為0.001,當驗證損失在2輪內不減少時,它將以每次減半的速度衰減。最低學習率設置為1E-8,且當驗證損失在5 輪內不減少時,也停止訓練,直接進入測試環節。
本文將所提出的系統與在L3DAS21挑戰賽中獲得3D語音增強第一名的MMUB和FaSNet-TAC進行了比較。
MMUB[17]使用多通道U-Net估計波束形成濾波器,然后將其與多通道復數頻譜圖相乘再對濾波后的多通道信號求和,得到目標信號的估計。
FaSNet-TAC[25]是在單級濾波與求和網絡(filter-andsum network,FaSNet)中加入轉換平均級聯(transformaverage-concatenate,TAC)模塊形成的。FaSNet 是一種時域波束形成模型,其核心思想是通過基于模型的方法估計波束形成濾波器,而TAC 則可以使系統利用來自所有麥克風的信息進行全局決策。
3.5.1 指標測試結果
首先將本文方法在L3DAS22挑戰開發集上與基線方法進行同實驗設置對比。不同方法的STOI 和WER結果比較如表2所示。

表2 開發集上不同方法的比較Table 2 Comparison of different methods on development set
表2顯示,本文方法(MSWB)在不同麥克風輸入數量情況下,在所有的指標上均優于其他兩個方法雙麥克風輸入的結果:與MMUB 相比在STOI 上最多提升了0.025,在WER上最多提升了0.049,與FaSNet-TAC相比則提升得更多,這說明U-Net網絡在估計波束形成器上有更好的性能。而本文提出的粗波束形成后借助原始信息自適應細波束形成結構的波束形成濾波效果更出色。且本文模型在單麥克風陣列(4ch)與雙麥克風陣列(8ch)信號上的結果表示隨著麥克風陣列的數量由1變2,性能也會提升。
接著在盲測試集上對本文模型進行評估。本文方法和L3DAS22挑戰最終公布結果的一些參賽模型及基線模型在盲測試集上的表現如表3所示。

表3 盲測試集上不同方法的比較Table 3 Comparison of different methods on blind test set
表3顯示,本文方法在STOI上表現非常優秀,可以達到0.923,WER可達13.6%,最終指標則為0.894。
3.5.2 波形及語譜圖分析
圖5、圖6 分別為隨機抽出的兩條語音在幾種方法增強前后以及干凈語音的波形及語譜圖。圖5 中(a)(b)表示A麥克風陣列的4通道含噪語音圖形及其語譜圖;(c)(d)代表用FaSNet-TAC 增強后的語音波形及語譜圖;(e)(f)代表MMUB增強后的語音波形及語譜圖;(g)(h)為本文提出的MSWB單麥克風輸入增強后的結果;(i)(j)為MSWB雙麥克風輸入增強后的結果;(k)(l)為目標干凈語音的波形及語譜圖。其中紅色橢圓虛線代表波形變化,白色橢圓虛線代表語音信號的諧波結構。對比紅色橢圓內的波形可以發現,MMUB 增強后的波形還殘留有噪聲波形,而MSWB 增強后的波形則與干凈語音信號的波形幾乎一致。雖然TAC紅色橢圓內沒有噪聲殘留,但它波形圖的大部分包絡的細微處都與其他波形有差距,比如開頭部分就有缺失。
另外圖5 語音1,(e)中波形明顯還存在有噪聲包絡,而(c)(g)(i)(k)中則是平直的。因此從波形圖上來看,MSWB的增強效果是最好的。
對比圖中白色橢圓內的頻譜分量可以看出,TAC增強后的語譜圖諧波信息很不明顯,很多縱向亮條沒有顯示出來;而MMUB增強后的語譜圖含有更多噪聲底色;MSWB增強后的語譜圖的信息則更清晰且更接近干凈語音的語譜圖,且雙麥克風陣列輸入增強后的噪聲更少,信息更清晰。
為了將MSWB 與MMUB 做更深的比較,本文又隨機挑選了一條語音。圖6語音2,(c)中包絡從橫向看還有包絡厚實的情況,而(e)(g)中的包絡則要纖細很多,且(c)中波形在細微處與其他兩者有所不同,比如紅色橢圓內波形是左低右高,而(e)(g)中則是左高右低。語譜圖的效果則與圖5類似,MSWB去除噪聲底色的效果更好且信息更清晰。對比兩圖白色橢圓內的頻譜分量可以看出,MMUB增強后的語譜圖含有更多噪聲底色,而MSWB增強后的語譜圖的信息更清晰且更接近干凈語音的語譜圖。
從聽覺上感受,可以明顯聽出MMUB 增強后的語音還摻有音量不小的噪聲,而MSWB 增強后的語音噪聲要小不少,更為清晰。
因此本文模型可以進行更準確的波束形成濾波,達到更好的語音增強效果。
本文提出了一個用于3D語音增強的兩級波束形成網絡,實驗結果表明,僅在L3DAS22 挑戰中最小的訓練集(train100)參與訓練的情況下,本文方法在語音清晰度和語音識別方面均具有良好的性能,并能夠在L3DAS22 挑戰中最終指標達到0.894,STOI 和WER 也均顯著優于MMUB。說明波束形成與多級結構相結合,尤其是第二級的自適應波束形成在3D 語音增強上有可取性。本文所用的基礎模型是最簡單的U-Net,且兩級結構基本一致,如果改進基礎模型或用更好的基礎網絡去分別替換前后兩級的濾波網絡,可能會取得更好的效果。特別是現如今U-Net 系列網絡很多且效果越來越好,這些都是本研究方向前進的一大助力。
雖然參賽的大部分模型都能夠達到很高的STOI和很低的WER,但它與實際應用還有一段距離。比如采用的語音數據均是從同一個辦公室進行采樣,如果換一個不同辦公室乃至換一個不同的場景,尚不知這些方法是否仍然可以表現優秀。還有一點,在3D 語音增強方面,顯式空間特征并沒有得到很好的應用,應用這樣的顯式空間特征可能會有助于3D 語音增強任務。另外,隨著麥克風數量的增多,性能會不會趨于飽和的問題也值得探究。