999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進窗函數的低時延語音增強算法

2022-03-15 09:45:20吳君欽王迎福
計算機仿真 2022年2期
關鍵詞:信號方法

吳君欽,王迎福

(江西理工大學信息工程學院,江西 贛州 341000)

1 引言

隨著現代通信技術的不斷演進和突破,人們對于其在智能設備上的語音質量和清晰度的需求也極大的提高了。在實際中,信號在通信設備中進行傳遞時往往會受到來自周圍情景中各種干擾源的污染,從而導致終端收到的源信號出現變形或失真。這一問題在一些室外的工作場所或者嘈雜的工廠環境中是普遍存在的,而語音增強技術使其獲得極大的改善。語音增強技術是指發送端發送的語音信號在傳遞過程中被周圍環境中各種噪聲、干擾污染或者是覆蓋后,能從污染后的語音信號中分離出所需要的純凈語音信號,從而達到有效抑制或減弱噪聲干擾的技術。語音增強技術屬于語音數字信號處理中的一個預處理模塊,對于提升語音總體質量和可識別度等方面起到了不可忽視的作用。其主要作用為:盡可能提升語音信號的總體質量和可辯別度。語音增強已經應用在很多領域。例如:殘疾人助聽設備、多說話人識別、微信、QQ等語音通話、智能手機通話、語音識別等。在這些模塊中,語音增強技術是整個系統至關重要的一部分,其結果直接關系到最終語音識別的質量和準確性。因而,語音增強技術是現代語音通信系統中的關鍵技術之一。

近年來,各國的學者和研究者根據現有的非負矩陣分解(Non-negative Matrix Factorization,NMF)算法,推出大量以NMF為理論基礎的語音增強算法并在這些算法基礎上進行改進和優化。然而在進行問題的目標函數的確定時,大部分的NMF增強算法采用了Lee等人[1]提出的乘性迭代更新算法,這樣導致算法產生的結果并不理想。為解決這一問題,稀疏和卷積非負矩陣分解方法[2]先后被提出來,從而增加了字典學習的速度和字典的精確性。A.T.Cemgil將NMF算法與統計模型相結合,提出了貝葉斯非負矩陣分解(Bayesian NMF,BNMF)[3]。N.Mohammadiha等[4]將該算法結合到語音增強技術上以及進行改進[5][6],均獲得了較大的提升。

NMF從非負數據中學習基于部分的表示形式。對于語音信號,通常將NMF使用幅度譜圖進行表示,以便學習并捕獲典型聲源模式的頻譜或者時間譜原子。在語音增強的背景下,必須確定哪些原子屬于目標說話者,哪些原子屬于干擾。基于監督的基于模型的方法通過獨立的預學習每個聲源的字典來解決此問題,從而允許實時操作,因為在運行時僅需要當前或者是之前的頻譜幀進行實時操作。基于模型的無監督方法利用基礎源的空間分布來學習沒有先驗信息的單個源字典,這些單獨的詞典沒有語音和噪聲的單獨數據集的形式。這些無監督方法無法實時操作,因為空間信息不適用于一些未知的場景。基于此,需要對語音和噪聲信號的字典原子進行更深入的研究。

2 非負矩陣分解和廣義互相關聲源定位法

在本節中,介紹了GCC-NMF增強算法的基礎,即NMF字典學習算法和廣義互相關(Generalized Cross Correlation,GCC)聲源定位方法。

2.1 非負矩陣分解

當將NMF應用到音頻信號中時,假設輸入語音信號的幅度譜為|Vft|,f和t分別表示頻率和時間。NMF將頻譜分解為兩個非負矩陣:字典矩陣Wfd(見圖1(a)),其列包含的原子譜由d表示和一組對應的激活系數矩陣Hdt,使得|V|=WH,例如NMF字典原子(見圖1(b))。輸入語音信號的幅度譜|Vft|的每一列,即每一幀t,可以近似為NMF詞典原子與來自H對應列的激活系數的線性組合。對于本文研究的立體聲譜圖,沿時間軸將左右輸入聲譜圖連接起來,V=[VL|VR],即對于大小分別為F×T的左聲譜圖和右聲譜圖,連接矩陣的大小為F×2T。這樣,生成的NMF詞典原子僅捕獲譜信息,而在相應的激活系數矩陣中捕獲的左右聲道之間的差異為H=[HL|HR]。

圖1 NMF在混合語音信號中學習的詞典

在傳統的NMF中,字典學習和激活系數推斷是通過隨機初始化字典和激活系數矩陣,然后根據乘法更新規則迭代更新它們來同時進行的。更新規則收斂到β散度重構代價函數的局部最小值,其一般情況是廣義Kullback-Leibler(KL)散度,定義如下

D(|V|,Λ)=|V|(log|V|-logΛ)+(Λ-|V|)

(1)

其中,Λ=WH為重構的輸入矩陣V。從而得到KL散度的代價函數更新規則如下

(2)

(3)

其中,矩陣的次方、除法和Hadamard乘積是逐元素計算的,而I是全值為1的矩陣。NMF字典原子通常在每次更新后進行標準化,并且其激活系數會相應縮放。

2.2 GCC聲源定位方法

在有噪聲、干擾和混響的情況下,GCC是一種穩健的聲源定位方法。GCC函數利用任意頻率加權函數擴展了頻域互相關定義,從而在計算互相關時提供了對信號組成頻率相對重要性的控制,GCC函數定義如下

(4)

其中,Re為取實部運算符,ψft為任意頻率加權函數,VLft和VRft是通過STFT計算得到語音信號的左右復制的時頻變換,*是復共軛,f、t和τ分別表示頻率、時間和到達時間差(Time Difference of Arrival,TDOA)。

(5)

然后,可以隨時間合并生成GCC-PHAT相位頻譜圖,其中3個最高峰分別對應于3個源的TDOA估計,用藍色虛線標識,如圖2所示。

圖2 說話人混合信號的源定位

時間t(s)到達時間差(s)

3 基于GCC-NMF的語音增強算法

在本節中,首先介紹了GCC-NMF增強算法和其二進制系數掩碼方法,并根據其空間來源進行分組,然后獨立地重建每組原子。此外,提出了一種替代的軟掩碼方法,并介紹了字典預學習、激活系數矩陣以及在線定位方法。

3.1 GCC-NMF

根據2.2小節知識,考慮到GCC定義中的任意頻率加權函數ψft,以及單個NMF詞典原子本身就是頻率的非負函數這一事實,可以構造一組原子特定的GCC頻率加權函數,定義如下

(6)

這樣,對于給定的原子d,頻率將根據其在原子中的相對大小進行加權。然后,將所得的原子特定的GCC-NMF相位譜定義如下

(7)

(8)

(9)

該掩碼消除了干擾產生的原子,從而將目標語音從混合信號中分離出來,然后通過類似于維納濾波器對輸入信號隨時間變化來估計復雜目標的頻譜。該濾波器在頻域中被構造為目標估計頻譜和混合信號估計頻譜之間的比率,即語音信號的幅度輸入頻譜|Vcft|的重構估計。然后,將濾波器與復雜的輸入頻譜圖Vcft相乘,即

(10)

Λcft=∑dWfdHcdt

(11)

(12)

3.2 系數掩碼

在時頻域中,軟掩碼[9][10]替代二進制掩碼是提高語音增強性能的常用技術。在本節中,提出了一種軟掩碼替代方法,用來替代式(8)中的二進制激活系數掩碼方法。該NMF激活系數軟掩碼函數定義如下

(13)

3.3 字典預學習

使用NMF進行有監督語音增強的一種典型方法是預先學習一對NMF字典:一個使用單獨的語音信號作為NMF字典進行預學習,另一個使用單獨的噪聲信號為NMF字典進行預學習。對于給定的測試信號,在保持字典不變時,推測出兩個字典的激活系數。通過從包含單獨語音和噪聲信號中的數據集中預學習單個NMF字典,并將這種方法推廣到無監督的情況。

與有監督方法相反,由于無需使用任何先驗知識就可以為語音和噪聲信號學習單個字典,因此該方法是純無監督的。由于單個預學習的NMF字典同時包含了語音和噪聲信號的特征,然后根據式(8)和(13)將各個NMF字典原子在每個時間點與目標說話者或者干擾相關聯。這種方法允許單個NMF字典原子在不同的時間點對語音或噪聲信號進行編碼,從而克服了有監督情況下單個字典原子只能編碼單個源的限制。因此,字典預學習方法能夠在這些條件下適用,從而避免了當訓練和測試數據源自不同數據集時引起的不匹配問題。

3.4 激活系數

通過隨機初始化激活系數向量并根據式(2)進行迭代更新,可以逐幀推導出輸入混合語音信號預學習字典的激活系數。由于估計目標信號為W(H⊙M),估計干擾信號為W(H⊙(1-M)),因此可以得到估計混合信號為WH(目標和干擾信號之和)。因此,混合信號的系數矩陣H與掩碼系數矩陣M的估計是相互獨立的。然后,系數掩碼根據其TDOA估計值抑制屬于噪聲信號的字典原子。在實驗中證明:將激活系數H去掉,可以實現更好的性能。在這種情況下,可以將激活系數矩陣Hdt替換為單位矩陣,從而將式(10)定義的類似維納濾波器簡化為如下形式

(14)

3.5 在線定位

(15)

其中,L是滑動窗口的大小。窗口大小的影響可以實時交互地探究,其中較小的窗口可跟蹤源位置中更快的變化,但可能會在語音短暫停頓期間切換到背景噪聲,而較大的窗口會在追蹤更多緩慢的移動揚聲器時表現更加穩定。

4 基于低延遲的GCC-NMF語音增強算法

由于以短時傅里葉變換(Short-Time Fourier Transform,STFT)為基礎的語音增強算法會產生固有的算法等待時間,即窗口大小加跳數,這與計算機的處理速度無關。在充分考慮頻譜分辨率和窗口大小的情況下,包括在線GCC-NMF在內依賴高頻譜分辨率的算法通常具有大于64ms的延遲。但是,這樣的高延遲對于包括助聽器等的語音增強的許多實際應用來說容忍度很低。因此,本節提出了將非對稱STFT窗口化方法與在線GCC-NMF語音增強算法相結合,從而將算法的延遲大大降低。

4.1 STFT和低延遲

STFT以幀為單位處理語音信號,即較短時間的語音信號重疊段,其中在計算其傅里葉變換之前,將每一幀信號都乘以分析窗口,即對信號加窗。而幀的重新合成則是通過對加窗后的幀進行傅里葉逆變換,再將所得樣本乘以合成窗口并通過重疊相加(Overlap-Add,OLA)方法[12][13]合并相鄰幀來實現的。如果幀變換具有恒定的重疊相加(Constant Overlap-Add,COLA)特性,即如果分析和合成窗口矩陣點積的重疊和不隨時間改變,則可以實現理想的幀重構。常用的分析和合成窗是逐點平方根的周期性漢寧窗,其中幀大小的周期性漢寧函數定義如下

(16)

其中n表示窗函數的長度,N表示窗口大小。以上通過OLA重新合成的重疊信號加窗過程產生了等同于窗口大小N的延遲LOLA。為了保持實時性,包括傅里葉變換及其逆變換在內的所有處理都應在單個幀內提前R進行,從而使得系統總共產生了N+R的延遲。例如,對以16kHz采樣的輸入語音信號進行GCC-NMF語音增強,其窗口大小為1024個采樣和256個采樣超前幀,將導致系統總共產生80ms的延遲。

減少實時GCC-NMF語音增強系統延遲的一種簡單方法是直接減小窗口大小N。但是這種方法不僅會降低頻譜的分辨率,而且會使得客觀語音增強質量和清晰度顯著降低。因此,本文提出了一種基于非對稱STFT窗口化方法來減少GCC-NMF系統的延遲。

4.2 非對稱的STFT窗口化方法

與傳統的具有相同周期的對稱分析和合成窗口不同,非對稱窗口能夠通過將長的分析窗口與短的合成窗口相結合來同時實現高頻譜分辨率和低延遲。本文使用的非對稱窗口方法源自于文獻[14]的改進,其它非對稱窗口化方法可以參考其它文獻[15]-[17]。

對于給定的幀大小N,非對稱分析和合成窗口的設計應滿足它們的乘積是大小為2M

圖3 幀長為N的對稱和非對稱STFT窗函數

(17)

(18)

這些窗口函數相對于分析窗和合成窗乘積得漢寧窗的中心分為兩部分,即n=N-M。在N-M的右側范圍內,分析和合成窗均由大小為2M平方根的漢寧窗口的右半部分組成。在左側范圍內,分析窗口由大小為N-M的漢寧窗口的左半部分組成,而合成窗定義為分析窗與乘積漢寧窗兩者的比值,其范圍限制為N-2M≤n

4.3 實驗測試與結果分析

在本小節中,使用語譜圖分析法、盲源分離(Blind Speech Separation,BSS)評測[18]、聲源分離的感知評價方法(Perceptual Evaluation for Audio Source Separation,PEASS)[19]、短時客觀可懂度(Short-Time Objective Intelligibility,STOI)[20]、擴展短時客觀可懂度(ExtendedShort-Time Objective Intelligibility,ESTOI)[21]作為客觀語音評測指標對該算法在語音質量和清晰度方面進行評估,并將所提出的無監督的低延遲語音增強算法與其它無監督和半監督方法進行對比,然后探究了合成窗大小對對稱方法與非對稱方法的影響。

4.3.1 實驗參數設置

在本小節中,在噪聲開發數據集中的SiSEC 2016語音集[18]上評估實時GCC-NMF算法,該語音數據集包括語音和實際背景噪聲的雙通道混合信號,麥克風相隔8.6cm。在CHiME 2016開發集的一個子集[22]上進行無監督的詞典預學習,并在單個麥克風的語音和背景噪聲信號之間平均分配隨機選擇的幀。SiSEC和CHiME的采樣率均為16 kHz,使用STFT具有1024個采樣窗口(64 ms),采樣大小為256跳(16 ms)以及平方根漢寧的分析和合成窗函數的對稱窗口情況。默認的GCC-NMF參數設置為字典大小為1024,NMF字典預學習更新次數為100,運行時NMF激活系數推斷更新次數為100,TDOA樣本數為128和目標TDOA窗口大小為總范圍的3/64,即6個TDOA樣本。

語音增強質量使用PEASS方法工具包和BSS Eval性能測量工具進行量化。PEASS是一種基于感知的方法,與BSS Eval提供的基于SNR的傳統指標相比,它與主觀評估的相關性更好。這些開源工具包都提供了總體增強質量,目標保真度,干擾抑制和偽像的度量,這些分數越高越好。對于PEASS,分別將與總體感知有關、與目標感知有關、與干擾感知有關和與偽像感知有關的值分別命名為總體感知分數(Overall Perceptual Score,OPS)、與目標相關的感知分數(Target-related Perceptual Score,TPS)、與干擾相關的感知分數(Interference-related Perceptual Score,IPS)、以及與偽像相關的感知分數(Artifacts-related Perceptual Score,APS),在BSS Eval情況下分別命名為信號失真率(Source to Distortion Ratio,SDR)、噪聲抑制比(Interferencesto Source Ratio,ISR)信號干擾率(Source to Interferences Ratio,SIR)、和信號偽像率(Sources to Artifacts Ratio,SAR)。語音清晰度通過STOI和ESTOI度量進行量化,其中相比STOI,ESTOI與聽力測試分數相關性更好[23]。

4.3.2 實驗結果分析

1)非對稱窗口和NMF字典原子

在圖4(a)中,使用了不同延遲的對稱STFT窗口方法學習NMF字典原子。隨著窗口尺寸的減小,字典原子的頻帶越來越寬,并且使用更長周期的窗口捕獲的譜細節也會丟失。與傳統的加窗方法相反,非對稱加窗可以保留較長的分析窗口,同時減小了合成窗口的大小。隨著合成窗口大小2M的減小,分析窗口的大小固定為幀大小N,其形狀越來越接近理想化。圖4(c)顯示使用了不同延遲的非對稱窗方法學習的NMF字典原子。學習的NMF字典原子保留了譜細節,而與合成窗口大小無關。因為在所有情況下均使用了相同的訓練數據和隨機種子,從而使得所得的字典原子在所有算法的延遲中非常相似,在學習的NMF字典原子中的細微差異是由不同的分析窗口所產生的。

圖4 NMF字典和對應的STFT分析窗口

2)非對稱窗口以及語音增強質量評估

在表1、2和3中,使用ESTOI、PEASS、STOI以及BSS分別對所提出來的方法進行評估,并將該方法與其它語音增強算法的在相同的數據集得到的測試結果進行比較。其中,實驗數據都是以平均分離分數±標準偏差呈現,從而確保實驗結果的相對穩定,數據集取自SiSEC dev1實時語音記錄數據集。除了文獻[28]提出的方法外,所提出方法在各項性能上均由于其它方法,這些方法大都依賴于監督學習或不適合在線環境。略優于所提方法的是一種使用區域增長排列對齊方法的頻域盲源分離技術。盡管作者表示該方法具有在線運行的可能性,但并未提供在線方法的實現。而相對于傳統的對稱窗口化方法,本實驗采用的是改進的非對稱漢寧窗,所提方法在語音增強質量和可懂度兩項指標上均略好于對稱窗方法,且其各項評測值相對更加穩定,因此可以說所提出STFT非對稱窗口化對GCC-NMF方法在性能上是有所提升的。

表1 PEASS評測值

表2 STOI和ESTOI評測值

表3 BSS評測值(單位:dB)

3)合成窗大小對增強性能的影響

在圖5(a)中,給出了對稱窗口情況下客觀語音增強質量和可懂度度量與算法延遲之間的關系。注意到,總體質量得分以及清晰度得分都隨著窗口尺寸的減小而降低,而對于小于8ms的窗口,PEASS總體性能會顯著下降。這很可能是由于語音和噪聲源與圖4(a)中所示的帶寬較大的NMF字典原子可分離性降低,從而導致所得在線GCC-NMF語音增強的質量下降。同時還注意到干擾抑制與目標保真度和偽像PEASS分數之間存在重大折衷,其中較小的窗口尺寸會導致干擾抑制增加,但代價是明顯的偽像和較差的目標保真度。在圖5(b)中,展示了在與上述相同的條件下非對稱加窗方法的延遲的影響。這里的分析窗口在16 kHz(64 ms)時固定為1024個樣本,而合成窗口的大小則從512到32個樣本(32到2 ms)變化,在每種情況下,每個窗口使用的合成窗口都有75%的重疊部分。從圖中可以看到,對于不同的合成窗口大小,所有評測值都保持相對恒定,即使對于低至2 ms的延遲也是如此。這些結果表明,提出的非對稱加窗方法是一種可行的解決方案,可將GCC-NMF算法的延遲降低到遠低于聽力設備所需閾值,同時還能保持較高延遲的對稱加窗方法的質量。因此,該方法能小幅提升傳統對稱窗法的性能,還能降低算法的延遲。

圖5 不同的合成窗大小對語音增強性能的影響

此外,在圖6中,分別給出了對稱加窗法和非對稱加窗法結合GCC-NMF進行語音增強后的語譜圖,相比于源信號,增強后的語音信號大大減弱了靜音段和幀間的底噪干擾,同時保留了高頻段的有用信號成分,實現了源語音信號的降噪和增強。

圖6 源信號與增強后的語音信號語譜圖

5 結論

本文提出了一種將廣義互相關方法與非負矩陣相結合的兩通道語音增強算法。該方法通過對輸入混合信號進行字典預學習,然后隨機初始化激活系數向量并進行迭代更新,從而可以逐幀推導出輸入混合語音信號預學習字典的激活系數。此外,使用了最大池化廣義互相關相變技術進行在線目標定位,不僅確保了算法的實時性,而且極大地保證了重構后的語音質量和辨識度。在此基礎上,針對以STFT為基礎的語音增強算法會產生固有的算法延遲,提出了一種非對稱短時傅里葉變換的窗口化方法代替傳統的對稱窗方法,該方法使用較長的分析窗和較短的合成窗相結合來實現算法的低時延。實驗證明,該算法能將固有算法時延降低至2ms而不會降低語音的質量和清晰度。

猜你喜歡
信號方法
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
學習方法
孩子停止長個的信號
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美国产日韩另类| 国产午夜小视频| 伊人久久精品亚洲午夜| 国产高清免费午夜在线视频| 国产精品久久久久久搜索| 久久99久久无码毛片一区二区| 国产精品久久久久无码网站| 日本不卡在线视频| 黄片在线永久| 亚洲国产91人成在线| 久久亚洲国产视频| 日本人又色又爽的视频| 久久毛片网| 在线观看免费国产| 国产成人精品高清在线| 在线综合亚洲欧美网站| 欧美日韩国产综合视频在线观看| 久久人人妻人人爽人人卡片av| 亚洲av无码成人专区| 精品无码视频在线观看| 色悠久久久久久久综合网伊人| 国产精品福利社| 色综合成人| 亚洲精品无码不卡在线播放| 亚洲人成影院在线观看| 宅男噜噜噜66国产在线观看| 国产尤物jk自慰制服喷水| 国产91高清视频| 国产浮力第一页永久地址| 中文纯内无码H| 日韩av电影一区二区三区四区| 亚洲欧美在线综合一区二区三区| 天天躁日日躁狠狠躁中文字幕| 国产成人高清在线精品| 在线无码九区| 爱爱影院18禁免费| 五月激情综合网| 高清不卡毛片| 亚洲精品天堂在线观看| 国产91导航| 色偷偷一区| 欧美a在线| 国产黄色片在线看| 国产在线精品网址你懂的 | 97se亚洲综合不卡| 在线毛片网站| 99视频精品全国免费品| 国产网友愉拍精品| 成人永久免费A∨一级在线播放| 波多野结衣AV无码久久一区| 欧美精品不卡| 综合天天色| 成人欧美在线观看| 国产美女主播一级成人毛片| 日韩欧美国产中文| 毛片免费在线视频| 亚洲欧美日韩中文字幕一区二区三区| 毛片卡一卡二| 男女性午夜福利网站| 成人字幕网视频在线观看| 日韩小视频在线观看| 亚洲综合精品第一页| 日韩av在线直播| 中文字幕久久亚洲一区| 色香蕉影院| 农村乱人伦一区二区| 中文无码毛片又爽又刺激| 国产精品免费入口视频| 国产免费a级片| 日韩欧美高清视频| 三级毛片在线播放| 99久久国产精品无码| 无码AV高清毛片中国一级毛片 | 在线无码九区| 国产成人欧美| 天堂成人在线视频| 亚洲午夜久久久精品电影院| 亚洲国产看片基地久久1024| 国产丝袜无码精品| 91小视频在线播放| 青青草欧美| 欧美a在线看|