999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深層聲學特征的端到端語音分離①

2019-10-18 06:40:40李娟娟李子晉
計算機系統應用 2019年10期
關鍵詞:特征信號模型

李娟娟,王 丹,李子晉

1(復旦大學 計算機科學技術學院,上海 201203)2(盲信號處理國家級重點實驗室,上海 200434)3(中國音樂學院 音樂科技系,北京 100101)

語音作為一項最為便捷的交流工具,實現了人類社會高效快速的信息交換,成為人類文明的一個重要助力.然而在現實環境中,感興趣的語音信號通常會被其他聲源干擾,嚴重損害了語音的可懂度,降低了語音交互的性能.為了解決以上問題,語音分離是最為關鍵的技術之一.

語音分離是指從多個說話人的混合語音中分離得到想要的語音數據,源于著名的“雞尾酒會問題”[1],主要是研究如何能夠從混合的語音信號中同時得到目標和干擾語音信號,它在語音識別、殘疾人助聽領域具有廣泛的應用.本文主要探究兩個說話人混合的情況.圖1是語音分離技術的示意圖,圖中左邊的兩張語譜圖分別是兩個說話人的語音的語譜圖,經過混合后得到中間的混合語音的語譜圖,而經過語音分離以后得到的是右邊分離出的語音的語譜圖.從圖1可以看出,由于不同的說話人的語音的發音特性有差異和說話內容、語速等不同,以及語音信號這種時變信號本身具有一定的短時平穩特性,從而使得語音分離具有可行性[2].

圖1 語音分離技術示意圖

語音分離作為一個重要的研究領域,幾十年來,受到國內外研究者的廣泛關注和重視.近年來,監督性語音分離技術取得了重要的研究進展,特別是深度學習的應用,極大地促進了語音分離的發展.在基于深度神經網絡的語音分離算法中,特征提取是至關重要的步驟.傅里葉變換域特征是最常用的語音分離特征,Xu[3]、Huang[4]、Weninger[5]等使用傅里葉幅度譜或者傅里葉對數幅度譜作為語音分離的輸入特征.Wang等在文獻[6]中總結了Gammatone濾波變換域特征,并且利用Group Lasso的特征選擇方法得到AMS+RASTAPLP+MFCC的特征組合.Chen等在文獻[7]中提取的多分辨率特征MRCG具有明顯的優勢,逐漸取代了組合特征成為語音分離中最常用的特征之一.然而以上這些傳統聲學特征的提取需要經一系列復雜的操作,會造成語音能量損失以及長時間延遲.

近年來,端到端的方法已經用于語音識別、語音合成和語音增強等語音任務中,并在這些任務中取得了較優的效果.Luo等人在文獻[8]中首次提出了基于非負矩陣分解思想的端到端語音分離,并取得了較優的效果.為了進一步說明端到端的方法在語音分離這一方向的可行性,本文提出以語音信號的原始波形作為深度神經網絡的輸入,通過網絡模型來學習語音信號的更深層次的深層聲學特征,實現端到端的語音分離.

1 基于傳統聲學特征的語音分離

語音分離旨在分離混合語音信號中的信號,這個過程能夠很自然地表達成一個監督性學習問題[3-5].一個典型的監督性語音分離系統通常通過監督性學習算法,例如深度神經網絡,學習一個從混合語音的傳統聲學特征到分離目標的映射函數[9].算法1為基于傳統聲學特征的語音分離算法.

算法1.基于傳統聲學特征的語音分離算法1)時頻分解,通過信號處理的方法將輸入的時域信號分解成二維的時頻信號表示;2)特征提取,提取幀級別或者時頻單元級別的聽覺特征(短時傅里葉變換譜或者短時傅里葉功率譜等);3)模型訓練,利用大量的輸入輸出訓練對通過機器學習算法學習一個從混合語音特征到分離目標(理想二值掩蔽或者理想比例掩蔽等)的映射函數;4)波形合成,利用估計的分離目標以及混合信號,通過逆變換(逆傅里葉變換或者逆聽覺濾波)獲得目標語音的波形信號.

在提取傳統聲學特征時,先要進行時頻分解,一般都是將時域信號通過短時離散傅里葉變換(Short-time Fourier Transform,STFT)、離散余弦變換(Discrete Cosine Transform,DCT)或者通過一些聽覺濾波器組(如Gammatone濾波器組)得到二維的時頻域表示.在這個過程中產生了兩個問題.一是忽略了在提取特征的過程中造成語音的高頻部分以及相位信息的損失,以及在變換過程中可能會引入虛假的信息,從而對語音分離的性能造成影響.二是由于變換域中的有效語音分離對高頻分辨率的需求,導致相對較大的時間窗口長度,對于語音通常超過32毫秒[3,10-12],音樂分離超過90毫秒[13].因為系統的最小延遲受STFT時間窗的長度限制,所以當需要非常短的延遲時,這限制了此類系統的使用,例如電信系統或可聽設備這類實時性系統.克服這些問題的一種自然方法是直接建模時域中的信號.有研究結果表明,語音原始波形相比基于傅里葉變換的梅爾倒譜系數等特征,在某些研究領域具有更好的語音性能[14].所以本文選擇以語音信號的原始波形作為深度神經網絡的輸入,通過網絡模型來學習語音信號深層次的深層聲學特征(Deep Acoustic Feature,DAF),實現端到端的語音分離.

2 基于深層聲學特征的端到端語音分離

圖2是基于深層聲學特征的端到端語音分離算法的整體流程,主要分為4個部分:(1)信號預處理,對混合信號的原始波形進行分段及規整.(2)深層聲學特征提取,提取時域信號的DAF作為分離模型的輸入.(3)分離模型,訓練分離模型得到各個信號的特征掩蔽值.(4)信號重建,利用得到的信號的特征掩蔽值及混合信號的DAF,通過信號重建得到各個分離信號的時域波形.

圖2 算法整體流程

2.1 信號預處理

數據預處理在許多機器學習算法中起著很重要的作用,如果輸入的特征向量在整個訓練集上均值接近零,那么模型的收斂速度會很快.語音信號的預處理模塊包括兩部分,分段、規整.

首先將混合信號分成K段,每段長度為L,再對每段使用單元L2規整,Xk是分段后的信號,規整方式如下:

單元L2規整即可以削弱時不變信道的影響,還能減少加性噪聲的影響,同時時域信號被縮放到相似的動態范圍內,使得后續模型的學習過程也能取得較好的效果.

2.2 深層特征提取

在基于深度神經網絡的語音分離算法中,語音分離任務能夠被表達成一個學習問題,對于深度學習問題,特征提取是至關重要的步驟.提取好的特征能夠極大地提高語音分離的性能[15].

針對傳統聲學特征提取方法需要經過傅里葉變換、離散余弦變換等操作,提取復雜特征作為輸入,會造成能量損失的問題,本文選擇以語音信號的原始波形作為深度神經網絡的輸入,通過網絡模型來學習語音信號深層次的聲學特征,DAF提取過程如圖3所示.

圖3 DAF提取過程

在DAF的提取過程中,參考語言建模[16]中的門限卷積方法,在第二層全連接層后引入門限機制如下:

其中,ReLU為線性整流函數,σ為Sigmoid激活函數,⊙表示逐元素乘積操作.引入門限機制可以控制模型中的信息流動,幫助模型的神經元之間有更加復雜的聯系.相比于語音建模中的門限卷積,本文中使用全連接代替卷積操作,雖然使用卷積操作能減少訓練參數從而縮短訓練時間,但是使用全連接操作能減少語音損失的能量,提取的特征也能更多地挖掘深層次的聲學特征,提升語音分離的性能.

2.3 分離模型

雙向長短時記憶網絡(Bi-derectional Long Short Term Memory,BiLSTM)結構能夠有效抓住音頻數據中的長時依賴,對語音建模非常有效[17,18].本文中,分離網絡由4層深度BiLSTM后面接著一個全連接層構成,在第二層隱藏層的輸出與第四層隱藏層的輸出之間增加了跳躍連接[19],改善了多層網絡反向傳播的梯度消散問題,提升網絡性能.

網絡的輸入是混合信號的DAF,網絡的輸出是各個信號的掩蔽值.已有研究證明在語音分離任務中把掩蔽值(mask)作為分離目標能顯著地提高語音分離的可懂度和感知質量.其中,最常使用的分離目標之一為理想比例掩蔽(Ideal Ratio Mask,IRM)[20].基于IRM的定義,本文中使用的信號的掩蔽值,特征比例掩蔽(Feature Ratio Mask,FRM)的定義如下:

使用掩蔽值作為分離模型的輸出比使用特征DAF的效果更好.全連接層的激活函數為Softmax函數.為了加速訓練進程及維持訓練過程中的穩定性,對分離網絡的輸入即混合信號的DAF要進行層級歸一化.

2.4 信號重建

將混合信號的DAF逐元素乘以各個信號的FRM,經過一層全連接層后.得到規整的目標信號的時域波形,最后通過逆規整和整合,重建各個信號的時域信號.

2.5 損失函數

網絡模型的最終輸出是估計的干凈信號的時域波形,由于模型效果的重要評價指標之一是尺度不變信噪比(Scale-invariant Source-to-noise Ratio,SI-SNR)[8],所以在這里不使用估計語音的時域波形和干凈的時域波形的均方誤差,而是基于SI-SNR來設計損失函數.SI-SNR的定義如下:

3 實驗結果和分析

3.1 實驗配置

華爾街日報語料庫(Wall Street Journal,WSJ0)是語音分離任務常用的數據集[11-13],每條語音大約在5 s左右.混合語音由隨機選取WSJ0訓練集si_tr_s中的任意兩個說話人,以隨機選取的0-5 dB信噪比混合而成,最終形成30個小時的訓練集和10小時的驗證集.測試集使用WSJ0的si_dt_05和si_et_05的未知說話人以相同的混合方式產生,最終生成5小時的測試集.

實驗中所使用的語音波形文件具有8 kHz的采樣頻率.分段時的長度L=40 (5 ms),每段之間有50%的重疊,提取的DAF長度為500.深度BiLSTM采用4層隱藏層,每層隱藏層的結點是500,在第二層隱藏層的輸出與第四層隱藏層的輸出之間有跳躍連接,最后一層全連接層的結點數為1000,使用Softmax激活函數.在訓練過程中,使用隨機初始化的網絡,采用的最小批訓練方法中每個最小批的訓練集包含128個樣本.初始的學習率設置為1e-3,當驗證集上的損失在連續3個迭代次數(epoch)沒有降低時,就將學習率設置為當前學習率的一半.當驗證集上的損失在連續10個epoch都沒有降低時停止訓練.選用Adam優化函數,Adam優化器的超參數具有很好的解釋性,通常無需調整或僅需很少的微調,適用于大規模數據及參數的場景.

3.2 評價指標

本實驗中采用的評價指標為BSS-EVAL指標.BSSEVAL工具箱通常用來評估模型的分離性能,它是由Vincent 等人在 2006年提出的語音分離指標[21],并開源的語音分離評估工具箱,廣泛被研究者用于語音分離評價中.根據 BSS-EVAL 指標,語音分離評估使用3個定量值分別是,信噪干擾比(Source to Interference Ratio,SIR),信噪偽影比(Source to Artifact Ratio,SAR)和信噪失真比(Source to Distortion Ratio,SDR).3個值均是越高越好.其中,SDR計算分離聲音中存在多少總失真,SDR值越高表示語音分離系統整體上的失真越小,語音分離系統性能越好.SIR直接比較非目標聲源噪音與目標聲音的分離程度.SAR是指在語音分離過程中引入的人工誤差,SAR值越高,表明引入誤差對語音分離系統影響越小.

3.3 實驗結果和分析

(1)基于DAF的語音分離算法的效果

表1為所提的基于DAF的語音分離算法在測試集(3000條語音)上的分離語音的平均SDR、SIR及SAR值,分別為11.60、22.58和12.38.從客觀評價指標來看,本文所提出的語音分離算法在測試集上的有效性.

表1 測試集平均SDR、SIR、SAR值

圖4是本文所提語音分離算法在測試集(3000條語音)上的SDR值(每條混合語音分離出來的兩條語音的SDR值取平均)的分布.其中分離后語音的SDR值大于10的有75%,分離效果很好,語音質量清晰可懂.SDR值在5到10范圍內的有8%,分離效果較好,語音不夠清晰,但是可懂.SDR值在0到5范圍內的有10%,分離效果一般,不明顯.SDR值<0的有7%,分離效果差,分離前與分離后沒有差別.經觀察分析,這7%的混合語音,混合的兩個不同的說話人基本是同性別并且發音特性較為相似,導致分離算法在這部分數據上處理效果不好.

圖4 測試集上SDR值分布

圖5分別是混合語音、分離語音1和2的DAF的可視圖.從圖中可以看出,DAF中有一條條的類似于頻譜圖中的“聲紋”的東西,并且不同的說話人對應的“聲紋”的位置不同,說明深度網絡確實可以從語音的時域信號中學習到不同說話人的聲音特性并且能做出相應的區分.

圖5 語音DAF的可視圖

圖6是所提語音分離算法的一個效果示例,每張小圖的上方是語音信號的原始波形,下方是其對應的語譜圖.圖中左邊的兩張小圖分別是測試集中的兩個說話人的語音,以0.27 dB的信噪比經過混合后得到中間的混合語音,右邊是分離出的兩個說話人語音,分離后的SDR值分別為14.20和12.39.無論是從客觀評價指標SDR,還是從主觀地比較分離前后的語音原始波形和語譜圖,均能看出所提出語音分離算法的有效性.

圖6 一個語音分離效果示例

(2)不同聲學特征的效果對比

在這一部分實驗中,為了探究本文使用的深層聲學特征的有效性,與語音分離任務中最常用的傳統聲學特征,經過STFT變換的257維對數功率譜特征(Log Power Spectrum,LPS)做對比.同時為了驗證DAF中使用的門限機制的有效性,與單獨使用ReLU、Sigmoid激活函數做對比,其他實驗配置與3.1小節的配置相同.

表2為使用不同聲學特征的測試集上的平均SDR、SIR和SAR值.使用門限機制DAF、單獨使用ReLU評價指標比使用LPS特征高,說明使用網絡去學習語音信號深層特征比使用傳統基于STFT的特征有效.而單獨使用Sigmoid的深層特征比使用LPS評價指標低,說明了提取深層特征中選取恰當激活函數的重要性,選取不當會導致沒有傳統特征效果好.另外,使用DAF特征比使用單獨ReLU和單獨使用Sigmoid的評價指標高,說明本文所提出的深度聲學特征中使用門限機制的有效性.

表2 不同聲學特征的測試集平均SDR、SIR、SAR值

(3)不同分離網絡的效果對比

在這一部分實驗中,為了驗證分離網絡中使用的BiLSTM的雙向的有效性,使用普通LSTM(非雙向)與之做對比.深度LSTM網絡有4層隱藏層,每層隱藏層的結點為1000.其他實驗配置與3.1小節的配置相同.

表3為使用不同分離網絡(BiLSTM vs 普通LSTM)在測試集上的平均SDR、SIR和SAR值.使用BiLSTM比使用普通LSTM的分離網絡的SDR值高了5左右.因為普通LSTM在時序上處理序列沒有考慮未來的上下文信息,忽略了未來時刻的影響.而使用BiLSTM看到未來信息對當前時刻的影響,更適用于本算法中的分離網絡.

表3 不同分離網絡的測試集平均SDR、SIR、SAR值

(4)不同損失函數的效果對比

在本實驗中采用了1/SI-SNR的損失函數,其他最常用的損失函數是直接基于時域信號的最小均方差(Minimum Mean Squared Error,MMSE)損失函數,直接優化估計語音與干凈語音的時域信號差.該損失函數定義如下:

表4為使用不同損失函數(1/SI-SNRvs MMSE)在測試集上的平均SDR、SIR和SAR值.使用基于SI-SNR的損失函數比使用MMSE的SDR值高了4左右.因為SI-SNR本身就是評價語音分離效果的重要指標,SI-SNR越高則語音質量越高,相對于直接優化語音原始波形的損失,使用基于SI-SNR的損失函數更適用于本算法的模型優化.

表4 不同損失函數的測試集平均SDR、SIR、SAR值

(5)不同語音分離算法的效果對比

在這一部分實驗中,為了探究所提算法在語音分離任務上的性能優劣,使用目前四種具有代表性的語音分離算法與之做對比,分別為深度聚類(Deep Clustering,DC)語音分離算法[10],置換不變性(Permutation Invariant Training,PIT)語音分離算法[11]、時域語音分離算法Tasnet[8]和在音樂分離任務上表現很好的多任務Chimera模型[13].這四種方法中有基于時域的方法,也有基于頻域的方法.在測試集上的測試結果如表5所示.這可以發現,本文所提出的算法的在語音分離任務上的有效性.

表5 不同語音分離算法的測試集平均SDR值

(6)時間延遲

在這部分實驗中,為了探究基于傳統聲學特征的分離算法和本文所提算法的時間延遲,選用最常用的STFT特征與之做對比,實驗結果如表6所示.算法延遲T等于建模所需的時域波形時間T1、特征提取所需的時間T2、分離網絡的時間T3和波形重建的時間T4的和.實驗中保證分離網絡的結構相同,即T3相同,T4與T2成正比.所以實際的時間延遲由T1和T2決定.實驗所使用的GPU為GTX1070.在8 kHz的采樣率下,提取STFT特征時,每幀的采樣點數最少為256,對應時域波形為32 ms.本文對5 ms的時域波形進行建模,通過模型對5 ms提取DAF特征的時間為0.002 ms.5.002 ms遠小于32 ms,本文所提算法能極大地降低時間延遲.

表6 時間延遲實驗(單位:ms)

4 總結與展望

本文提出了基于深層聲學特征的語音分離算法,該算法通過網絡模型來學習語音信號的更深層次的深層聲學特征,實現端到端的語音分離.在實驗部分,選取了SDR、SIR和SAR作為客觀評價指標在WSJ0數據集上進行了一系列對比實驗.結果表明,本文提出的深層聲學特征在語音分離任務中的有效性,提出的算法提升了語音分離的性能.并且本文對5 ms的時域波形進行建模,極大地降低了時間延遲.但是測試集中仍然有7%的數據分離效果不好,對于這部分發音特性較為相似的語音分離任務,是今后的研究重點.

猜你喜歡
特征信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久99精品久久久久纯品| 亚洲人成在线精品| 久久综合丝袜日本网| 国产一二三区在线| 国产91特黄特色A级毛片| 国产成人久视频免费 | 一级香蕉视频在线观看| 欧美一区二区啪啪| 成人精品午夜福利在线播放| 国产成人高清在线精品| 亚卅精品无码久久毛片乌克兰| 国产打屁股免费区网站| 欧美精品在线观看视频| 91亚瑟视频| 日本AⅤ精品一区二区三区日| AV不卡在线永久免费观看| 欧美性精品| 午夜爽爽视频| 高清国产va日韩亚洲免费午夜电影| 久久久亚洲色| 亚洲色婷婷一区二区| 狼友av永久网站免费观看| 国产福利小视频高清在线观看| 伊人久久大香线蕉成人综合网| 午夜精品国产自在| 亚洲va欧美ⅴa国产va影院| 中国一级毛片免费观看| 国产中文一区a级毛片视频| 国内99精品激情视频精品| 在线国产三级| 九九线精品视频在线观看| 丁香婷婷久久| 久久久久青草线综合超碰| 国产成人亚洲无吗淙合青草| 国产成人1024精品下载| 日韩欧美国产三级| 天天色综网| 中文字幕在线永久在线视频2020| 国产成人调教在线视频| 亚洲无码高清免费视频亚洲| 中文无码精品A∨在线观看不卡 | 国产毛片基地| 国产最新无码专区在线| 三上悠亚一区二区| 国产在线一区视频| 992Tv视频国产精品| 亚洲天堂网2014| 在线播放91| 九色国产在线| 中文字幕有乳无码| 成人午夜网址| 亚洲欧洲日本在线| 一本大道无码日韩精品影视| 99在线视频网站| 欧美成a人片在线观看| 青青青亚洲精品国产| 国产精品永久不卡免费视频| 日韩美毛片| 毛片免费在线| 欧美三級片黃色三級片黃色1| 久久精品这里只有精99品| 亚洲不卡av中文在线| 九九热视频精品在线| 成人无码区免费视频网站蜜臀| 亚洲精品高清视频| 凹凸国产熟女精品视频| 国产女同自拍视频| 国产毛片久久国产| 色婷婷在线影院| 亚洲狼网站狼狼鲁亚洲下载| 欧美成人午夜视频免看| 2020国产免费久久精品99| 午夜福利亚洲精品| 国产麻豆精品久久一二三| 视频在线观看一区二区| 亚洲人成色在线观看| 九色视频在线免费观看| 制服丝袜一区| 欧美国产综合色视频| 老司机久久精品视频| 国产精品免费入口视频| 手机成人午夜在线视频|