基于交叉注意力機制的波束形成后置濾波網(wǎng)絡(luò)

2022-01-01 00:00:00劉卓付中華

計算機應(yīng)用研究 2022年5期

摘要：針對經(jīng)典后置濾波器存在的對非平穩(wěn)噪聲抑制效果較差且存在目標(biāo)語音失真的問題，提出一種基于交叉注意力機制的后置濾波網(wǎng)絡(luò)，使用基于門控循環(huán)單元的編解碼器作為網(wǎng)絡(luò)框架，并在編解碼器組之間添加殘差連接；使用基于伽馬通域的波束輸出信號與噪聲參考信號功率譜的子帶增益作為雙特征輸入；使用特征交叉的多頭歸一化點積注意力捕獲序列輸入的長距離依賴信息并進行特征融合。實驗結(jié)果表明，該算法在不同信擾比和噪聲條件下的語音質(zhì)量和可懂度指標(biāo)均優(yōu)于基線系統(tǒng)，具有較強的魯棒性；在對非平穩(wěn)噪聲具有較好抑制效果的同時，能最小化目標(biāo)語音的失真；且相較端到端的深度學(xué)習(xí)方法，具有輕量化和低時延的特點，能滿足實際工程應(yīng)用的需求。

關(guān)鍵詞：波束形成；后置濾波；交叉注意力機制；編解碼器；伽馬通域；特征融合

中圖分類號： TP391"" 文獻標(biāo)志碼： A

文章編號： 1001-3695（2022）05-026-1444-05

doi：10.19734/j.issn.1001-3695.2021.10.0445

Beamforming post-filter networks based on cross-attention mechanism

Liu Zhuo1，2， Fu Zhonghua1，2

（1.Xi’an Iflytek Super-Brain Information Technology Co.， Ltd.， Xi’ an 710076， China； 2.School of Computer Science， Northwestern Polytechnical University， Xi’ an 710129， China）

Abstract： Aiming at problems of poor inhibition of non-stationary noise and target speech distortion in classical post-filters，this paper proposed a post-filter network based on cross-attention mechanism，which used gated recurrent unit based codec groups adding skip connections as the network framework.It used the subband gains of the beamforming output and noise refe-rence power spectrums based on GammaTone domain as the dual features，and used the crossed multi-head scaled dot-product attention to integrate the features and to capture the long-distance dependency of input sequences.The experimental results show that the proposed algorithm is superior to baselines in speech quality and intelligibility under different signal-to-interfe-rence ratios and noise conditions，and has strong robustness.It can not only reduce the non-stationary noise，but also minimize the distortion of the target speech.Compared with the deep learning based end-to-end methods，it is lightweight and has low time delay，which meets the needs of practical engineering applications.

Key words： beamforming； post-filter； cross-attention； encoder-decoder； GammaTone domain； feature integration

0 引言

噪聲會干擾人耳對語音的感知，也會降低語音信號的質(zhì)量和可懂度，嚴重影響語音系統(tǒng)的性能。語音增強可以抑制或分離目標(biāo)語音信號中的各類噪聲信號，被廣泛應(yīng)用于各類商業(yè)設(shè)備，如移動通信、會議系統(tǒng)、助聽器等；以及語音處理的預(yù)過程，如聲紋識別、語音識別等。語音增強技術(shù)是音頻信號處理的核心問題，隨著技術(shù)和需求的發(fā)展，研究的問題也更為復(fù)雜，傳統(tǒng)的近場、單通道已經(jīng)演進到遠場、多通道輸入。麥克風(fēng)陣列對聲場進行空間采樣，利用目標(biāo)語音和噪聲的空間關(guān)系差異抑制噪聲［1］，其提供的語音增強潛力通常大于單通道輸入。這部分技術(shù)包括傳統(tǒng)的波束形成和廣義的多通道降噪技術(shù)等。

波束形成（空域濾波）能夠抑制與目標(biāo)聲源方向不同的相干噪聲源［2］。基于線性約束最小方差（LCMV）自適應(yīng)波束的廣義旁瓣抵消器（GSC）及其變體［3］是使用最廣泛的波束成形方法。但是當(dāng)目標(biāo)與干擾聲源位置靠近或存在混響擴散噪聲和不相干噪聲時效果較差；同時，波束的性能受到系統(tǒng)穩(wěn)健性和算法收斂問題的影響；自適應(yīng)波束基于對信號統(tǒng)計量的估計，誤差也會嚴重影響性能。

在波束形成后級聯(lián)一個后置濾波器，已被廣泛證明能夠顯著抑制殘余噪聲［4］。在最小均方誤差（MMSE）意義上最優(yōu)的多通道維納濾波（MCWF）可以分解為一個LCMV自適應(yīng)波束級聯(lián)一個單通道維納濾波器（SCWF）［5］，傳統(tǒng)的后置濾波算法［6～8］實質(zhì)上是其在一定噪聲假設(shè)下的特例。但是傳統(tǒng)的后置濾波器仍然基于噪聲短時平穩(wěn)的假設(shè)，對非平穩(wěn)噪聲的抑制效果不佳；對功率譜估計的誤差也會造成噪聲的過度抑制和目標(biāo)語音的失真；同時無法捕獲長時序列的依賴信息，難以跟蹤語音和噪聲的波動。

深度學(xué)習(xí)的興起為復(fù)雜聲學(xué)環(huán)境下的多通道語音增強提供了新的思路，深度神經(jīng)網(wǎng)絡(luò)（DNN）基于數(shù)據(jù)驅(qū)動的方法，能夠?qū)W習(xí)信號的潛在規(guī)律，從而分離語音和噪聲。

結(jié)合傳統(tǒng)空域濾波方法中，一些使用單通道DNN計算每個通道的時頻掩模（T-F Mask）［9］，或?qū)⒖臻g特征和譜特征結(jié)合［10］，估計語音和噪聲的二階統(tǒng)計特性；一些則使用時頻掩模估計改進的語音和噪聲的功率譜（PSD）［11］，或直接使用DNN預(yù)測濾波器權(quán)重系數(shù)［12］。此外還有與時域波束形成算法結(jié)合的方法［13］。這些方法都以不同的方式使用DNN來預(yù)測波束濾波器系數(shù)。

純神經(jīng)網(wǎng)絡(luò)的一些方法直接將時域多通道帶噪語音輸入網(wǎng)絡(luò)并輸出單通道增強語音［14］；一些則嘗試學(xué)習(xí)一個時域或頻域濾波器［15］以替代傳統(tǒng)的波束形成算法。此外還有基于深度空間聚類的方法［16］；最近的一些方法則引入了注意力機制［17］或圖神經(jīng)網(wǎng)絡(luò)［18］，以隱式執(zhí)行空域濾波。

傳統(tǒng)波束形成算法有嚴格的數(shù)學(xué)定義和前提假設(shè)，在廣泛聲學(xué)場景下都能正常工作，較為魯棒并且性能開銷較小。上述方法驗證了基于深度學(xué)習(xí)的多通道降噪的可行性，但大多忽略了后置濾波對系統(tǒng)最終性能的影響，在這一方向的研究仍存在空白［19］。深度學(xué)習(xí)基于大量數(shù)據(jù)訓(xùn)練的方法，對數(shù)據(jù)分布具有依賴性，在未知聲學(xué)場景下可能失效。完全基于深度學(xué)習(xí)的多通道語音增強算法通常計算復(fù)雜度和資源開銷較大，難以滿足工程落地對輕量化和實時性的要求。

本文算法結(jié)合傳統(tǒng)信號處理方法與深度學(xué)習(xí)，仍然基于MCWF框架，充分利用波束形成前端有效的空間濾波特性，后置濾波則使用深度神經(jīng)網(wǎng)絡(luò)代替，發(fā)揮其非線性映射能力。其能夠彌補傳統(tǒng)維納后置濾波器無法有效追蹤噪聲變化，對非穩(wěn)定噪聲條件的抑制較差，且存在目標(biāo)語音失真的問題。本文提出基于交叉注意力機制的后置濾波網(wǎng)絡(luò)：a）使用基于伽馬通域的波束輸出信號和噪聲參考信號功率譜的子帶增益作為特征輸入；b）使用特征交叉的多頭歸一化點積注意力捕獲序列輸入的長距離依賴信息并進行特征融合；c）使用基于門控循環(huán)單元的編解碼器作為網(wǎng)絡(luò)框架，并在編解碼器組之間添加殘差連接。

3 實驗設(shè)計

3.1 數(shù)據(jù)構(gòu)建

使用TIMIT開源語音數(shù)據(jù)集生成滿足覆蓋較全標(biāo)準英文音素，且包含不同年齡和性別的說話人的干凈語音數(shù)據(jù)；使用NoiseX-92噪聲數(shù)據(jù)集生成包含各種噪聲類型，包括平穩(wěn)噪聲、非平穩(wěn)噪聲以及空間白噪聲的背景噪聲數(shù)據(jù)。

構(gòu)建麥克風(fēng)陣列拾音空間。放置近場點聲源模擬直達目標(biāo)聲源和相干噪聲源，放置多個遠場聲源模擬擴散場混響聲源；以目標(biāo)聲源為基準設(shè)置不同的信擾比（SIR）條件；待房間混響趨于穩(wěn)定，使用具有8個拾音單元的均勻線陣（ULA）拾取上述噪聲和信擾比條件下的混合信號，錄制約120 min的8通道陣列數(shù)據(jù)，重采樣至16 kHz，分割為訓(xùn)練集、測試集和開發(fā)集，開發(fā)集用于模型超參數(shù)的調(diào)整。

3.2 實驗設(shè)置

前端GSC使用稀疏的阻塞矩陣［28］，濾波器均使用非因果FIR濾波器實現(xiàn)。將8通道陣列數(shù)據(jù)進行STFT，幀長為15 ms，使用漢寧窗和50%幀混疊；使用歸一化最小均方誤差（normali-zed least mean square，NLMS）算法優(yōu)化相對傳輸函數(shù)廣義旁瓣抵消［29］（RTF-GSC）波束。

后端網(wǎng)絡(luò)模型由六對編解碼層和六組多頭注意力模塊構(gòu)建；計算增強后的語音幀與目標(biāo)信號功率譜的均方誤差（MSE）損失，并進行反向傳播。在開發(fā)集上進行粗細粒度的全局遍歷，以進行超參數(shù)的調(diào)整；短時譜塊的大小根據(jù)噪聲的時域平穩(wěn)性調(diào)整，噪聲平穩(wěn)時適當(dāng)增加塊大小，范圍為［300，1 000］幀；殘差連接的編碼器的加權(quán)系數(shù)α的值根據(jù)輸入數(shù)據(jù)信噪比進行調(diào)整，取值在［0.2，0.5］時表現(xiàn)出最好的性能；訓(xùn)練達到200多輪，重復(fù)訓(xùn)練選取損失最優(yōu)的模型。

3.3 基線系統(tǒng)

使用具有代表性的傳統(tǒng)后置濾波器以及較為先進的深度學(xué)習(xí)算法作為后端基線系統(tǒng)：

a）全局最優(yōu)的最小二乘后置濾波［20］（LSPF），是MMSE意義下最優(yōu)的后置濾波器。其將經(jīng)典的Zelinski［6］、McCowan等人［7］后置濾波器納入統(tǒng)一的相干函數(shù)模型框架下，并引入Leukimmiatis對后置濾波功率譜的修正［8］。

b）帶跳線連接的全卷積神經(jīng)網(wǎng)絡(luò)［30］（SC-FCN），是基于殘差網(wǎng)絡(luò)的端到端語音增強算法。文獻［31］將其視為一種廣義的單通道后置濾波器，直接作用于傳統(tǒng)的空域濾波輸出信號，以期進一步抑制殘余噪聲。

4 結(jié)果分析

4.1 評價指標(biāo)

為了評價輸出信號的語音質(zhì)量、可懂度以及失真程度，使用以下指標(biāo)作為客觀度量：a）語音質(zhì)量感知評價［32］（PESQ），取值為［-0.5，4.5］，越大表示語音質(zhì)量越好；b）短時客觀可懂度［33］（STOI），取值為［0，1］，越大表示語音可理解性越好；c）信號失真比［34］（SDR），取值為［0，1］，越小表示目標(biāo)信號失真程度越低。

4.2 有效性分析

表1給出在不同混合噪聲信擾比條件下，各算法在測試集輸出信號上的PESQ和STOI指標(biāo)的平均得分。

LSPF基于相干函數(shù)信號模型，在理想的信擾比條件下能夠較好地改善語音質(zhì)量，但在低信擾比條件下的改善有限；SC-FCN與本文算法利用大量的數(shù)據(jù)訓(xùn)練，不需要對噪聲場作出假設(shè)，輸出信號語音質(zhì)量較LSPF有顯著提高；在理想信擾比條件下，本文算法與SC-FCN的語音質(zhì)量接近，但在低信擾比條件下表現(xiàn)更優(yōu)，這可能得益于特征融合對于噪聲先驗的充分利用。本文算法的可懂度指標(biāo)均優(yōu)于基線，這可能得益于基于伽馬通域的特征輸入更符合人耳的非線性感知以及頻率選擇特性，因而信噪比較低時仍能具有較好的性能。

橫向評估表明，本文算法在不同信擾比條件下輸出信號的平均語音質(zhì)量和可懂度均優(yōu)于基線，特別是在低信擾比條件下的提升較為顯著，驗證了本文算法的有效性。對于計算復(fù)雜度的分析表明，本文算法使用頻域子帶能量作為特征輸入，并采用短時譜塊的流式處理結(jié)構(gòu)，其相較于SC-FCN的端到端全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，在模型復(fù)雜度和時間延遲上具有顯著優(yōu)勢。

4.3 泛化能力分析

如表2所示，在不同背景噪聲主導(dǎo)條件下進行一系列消融實驗，其中PESQ和STOI指標(biāo)是不同信擾比的平均得分。

LSPF仍基于噪聲寬平穩(wěn)和不相關(guān)的假設(shè)，在非平穩(wěn)噪聲和相干噪聲條件下的語音質(zhì)量和可懂度較差；SC-FCN算法得益于神經(jīng)網(wǎng)絡(luò)的非線性映射能力，能夠緩解一部分相干噪聲的影響，但是對于非穩(wěn)態(tài)噪聲的抑制有限；本文算法對于非穩(wěn)態(tài)噪聲也有較好的抑制效果，這可能得益于注意力機制能夠捕獲序列的長距離依賴以獲得噪聲時頻分布的先驗信息，能夠?qū)W習(xí)非平穩(wěn)噪聲序列的時間相關(guān)性。

對算法的縱向評估表明，所提出的算法在各種噪聲條件下都能很好地增強語音，特別是對傳統(tǒng)算法難以解決的相干噪聲和非平穩(wěn)噪聲，具有較強的魯棒性。

4.4 語音失真分析

GSC存在固有的系統(tǒng)噪聲以及一定的語音泄露，而功率譜估計誤差也會造成語音的失真。基于此，給定GSC前端并模擬目標(biāo)信號的偏置角度，以評估算法輸出信號的失真情況。表3給出了在一定偏轉(zhuǎn)誤差下的SDR平均得分。

結(jié)果表明，基線算法造成的信號失真會隨偏轉(zhuǎn)誤差的增加繼續(xù)劣化；本文算法使用子帶增益矢量作為輸出，在各個頻帶都不存在對頻譜的非線性變換，保證了在任何實際目標(biāo)方向偏轉(zhuǎn)誤差的情況下始終不會造成更嚴重的失真。

5 結(jié)束語

本文方法嘗試將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于多通道語音增強的后置濾波算法，使用基于伽馬通域的信號功率譜的子帶增益作為特征輸入，其更符合人耳對聲音的感知特性，降低了模型的復(fù)雜度，并在信擾比較低時仍具有可用性；使用特征交叉的多頭歸一化點積注意力捕獲序列輸入的長距離依賴信息，并進行特征融合以獲得噪聲時頻分布的先驗信息，增強了模型在復(fù)雜噪聲條件下的降噪能力。使用基于門控循環(huán)單元的編解碼器作為網(wǎng)絡(luò)框架，并添加殘差連接，使網(wǎng)絡(luò)可以利用輸入特征包含的信號增益的低級信息，增強了網(wǎng)絡(luò)的魯棒性，并緩解了過擬合現(xiàn)象。實驗表明，本文算法在語音質(zhì)量和可懂度指標(biāo)上均優(yōu)于基線系統(tǒng)，且在低信噪比條件下具有較強的魯棒性。在對傳統(tǒng)維納后置濾波算法難以解決的相干噪聲和非平穩(wěn)噪聲具有較好抑制作用的同時，能夠最小化目標(biāo)語音的失真現(xiàn)象。相較于端到端的神經(jīng)網(wǎng)絡(luò)方法，本文算法能夠滿足輕量級和實時性的需求，對實際工程應(yīng)用具有指導(dǎo)意義。

參考文獻：

［1］Benesty J，Cohen I，Chen J.Fundamentals of signal enhancement and array signal processing［M］.Hoboken：Wiley，2017.

［2］Gannot S，Vincent E，Markovich S，et al.A consolidated perspective on multimicrophone speech enhancement and source separation［J］.IEEE/ACM Trans on Audio，Speech，and Language Proces-sing，2017，25（4）：692-730.

［3］Gannot S，Burshtein D，Weinstein E.Signal enhancement using beamforming and nonstationarity with applications to speech［J］.IEEE Trans on Signal Processing，2001，49（8）：1614-1626.

［4］Gannot S，Cohen I.Speech enhancement based on the general transfer function GSC and postfiltering［J］.IEEE Trans on Speech and Audio Processing，2004，12（6）：561-571.

［5］Simmer K，Bitzer J，Marro C.Post-filtering techniques［M］//Microphone Arrays.Berlin：Springer，2001：39-60.

［6］Zelinski R.A microphone array with adaptive post-filtering for noise reduction in reverberant rooms［C］//Proc of International Conference on Acoustics，Speech and Signal Processing.Washington DC：IEEE Computer Society，1988：2578-2581.

［7］McCowan I，Bourlard H.Microphone array post-filter based on noise field coherence［J］.IEEE Trans on Speech and Audio Proces-sing，2003，11（6）：709-716.

［8］Leukimmiatis S，Maragos P.Optimum post-filter estimation for noise reduction in multichannel speech processing［C］//Proc of the 14th European Signal Processing Conference.Piscataway，NJ：IEEE Press，2006：1-5.

［9］Higuchi T，Ito N，Yoshioka T，et al.Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2016：5210-5214.

［10］Wang Zhongqiu，Wang Deliang.Combining spectral and spatial features for deep learning based blind speaker separation［J］.IEEE/ACM Trans on Audio，Speech，and Language Processing，2018，27（2）：457-468.

［11］Chakrabarty S，Habets E.Time-frequency masking based online multi-channel speech enhancement with convolutional recurrent neural networks［J］.IEEE Journal of Selected Topics in Signal Proces-sing，2019，13（4）：787-799.

［12］Sainath T，Weiss R，Wilson K，et al.Multichannel signal processing with deep neural networks for automatic speech recognition［J］.IEEE/ACM Trans on Audio，Speech，and Language Proces-sing，2017，25（5）：965-979.

［13］Luo Yi，Han Cong，Mesgarani N，et al.FasNet：low-latency adaptive beamforming for multi-microphone audio processing［C］//Proc of IEEE Automatic Speech Recognition and Understanding Workshop.Piscataway，NJ：IEEE Press，2019：260-267.

［14］Lee H，Kim H，Kang W，et al.End-to-end multi-channel speech enhancement using inter-channel time-restricted attention on raw waveform［C］//Proc of Interspeech.2019：4285-4289.

［15］Xiao Xiong，Watanabe S，Erdogan H，et al.Deep beamforming networks for multi-channel speech recognition［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2016：5745-5749.

［16］Wang Zhongqiu，Le J R，Hershey J.Multi-channel deep clustering：discriminative spectral and spatial embeddings for speaker-independent speech separation［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2018：1-5.

［17］Tolooshams B，Giri R，Song A，et al.Channel-attention dense U-Net for multichannel speech enhancement［C］//Proc of IEEE Internatio-nal Conference on Acoustics，Speech and Signal Processing.Pisca-taway，NJ：IEEE Press，2020：836-840.

［18］Tzirakis P，Kumar A，Donley J.Multi-channel speech enhancement using graph neural networks［C］//Proc of IEEE International Confe-rence on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2021：3415-3419.

［19］Wang Deliang，Chen Jitong.Supervised speech separation based on deep learning：an overview［J］.IEEE/ACM Trans on Audio，Speech，and Language Processing，2018，26（10）：1702-1726.

［20］Huang Yiteng，Luebs A，Skoglund J，et al.Globally optimized least-squares post-filtering for microphone array speech enhancement［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2016：380-384.

［21］Breed B，Strauss J.A short proof of the equivalence of LCMV and GSC beamforming［J］.IEEE Signal Processing Letters，2002，9（6）：168-169.

［22］Gannot S，Burshtein D，Weinstein E.Analysis of the power spectral deviation of the general transfer function GSC［J］.IEEE Trans on Signal Processing，2004，52（4）：1115-1120.

［23］王文冠，沈建冰，賈云得.視覺注意力檢測綜述［J］.軟件學(xué)報，2019，30（2）：416-439. （Wang Wenguan，Shen Jianbing，Jia Yunde.Review of visual attention detection［J］.Journal of Software，2019，30（2）：416-439.）

［24］石磊，王毅，成穎，等.自然語言處理中的注意力機制研究綜述［J］.數(shù)據(jù)分析與知識發(fā)現(xiàn)，2020，4（5）：1-14. （Shi Lei，Wang Yi，Cheng Ying，et al.Review of attention mechanism in natural language processing［J］.Data Analysis and Knowledge Discovery，2020，4（5）：1-14.）

［25］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Advances in Neural Information Processing Systems.2017：5998-6008.

［26］張瑩瑩，錢勝勝，方全，等.基于多模態(tài)知識感知注意力機制的問答方法［J］.計算機研究與發(fā)展，2020，57（5）：1037-1045. （Zhang Yingying，Qian Shengsheng，F(xiàn)ang Quan，et al.Multi-modal knowledge-aware attention network for question answering［J］.Journal of Computer Research and Development，2020，57（5）：1037-1045.）

［27］Giri R，Isik U，Krishnaswamy A.Attention Wave-U-Net for speech enhancement［C］//Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.Piscataway，NJ：IEEE Press，2019：249-253.

［28］Markovich-Golan S，Gannot S，Cohen I.A sparse blocking matrix for multiple constraints GSC beamformer［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2012：197-200.

［29］馬子驥，倪忠，余旭.基于TF-GSC的多通道后置濾波語音增強算法［J］.傳感器與微系統(tǒng)，2018，37（5）：105-107，111. （Ma Ziji，Ni Zhong，Yu Xu.Multichannel postfiltering speech enhancement algorithm based on TF-GSC［J］.Transducer and Microsystem Technologies，2018，37（5）：105-107，111.）

［30］Wang D，Bao C.End-to-end speech enhancement using fully convolutional networks with skip connections［C］//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway，NJ：IEEE Press，2019：890-895.

［31］Wang Dujuan，Bao Changchun.Multi-channel speech enhancement based on the MVDR beamformer and postfilter［C］//Proc of IEEE International Conference on Signal Processing，Communications and Computing.Piscataway，NJ：IEEE Press，2020：1-5.

［32］Rix A，Beerends J，Hollier M，et al.Perceptual evaluation of speech quality（PESQ）：a new method for speech quality assessment of telephone networks and codecs［C］//Proc of IEEE International Confe-rence on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2001：749-752.

［33］Taal C，Hendriks R，Heusdens R，et al.An algorithm for intelligibility prediction of time-frequency weighted noisy speech［J］.IEEE Trans on Audio，Speech，and Language Processing，2011，19（7）：2125-2136.

［34］Vincent E，Gribonval R，F(xiàn)évotte C.Performance measurement in blind audio source separation［J］.IEEE Trans on Audio，Speech，and Language Processing，2006，14（4）：1462-1469.

計算機應(yīng)用研究2022年5期

計算機應(yīng)用研究的其它文章: 基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)視頻場景分割優(yōu)化算法; 基于多尺度殘差視覺信息融合的牧場牛只數(shù)量估計方法; 學(xué)習(xí)點云鄰域信息的三維物體形狀補全; PNet：融合注意力機制的多級低照度圖像增強網(wǎng)絡(luò); 結(jié)合結(jié)構(gòu)重參數(shù)化方法與空間注意力機制的圖像融合模型; 基于注意力機制的紅外與可見光圖像融合網(wǎng)絡(luò)