999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN 和Transformer 的雙路徑語音分離*

2023-08-17 12:38:16王鈞諭
通信技術 2023年5期
關鍵詞:特征模型

王鈞諭,高 勇

(四川大學,四川 成都 610065)

0 引言

Transformer[1]在現(xiàn)代深度學習中已被廣泛使用。合理地應用Transformer 可以在許多自然語言處理(Natural Language Processing,NLP)和語音處理任務中取得優(yōu)秀的成果,例如機器翻譯、語音識別、語音增強、文本分類和許多其他應用程序[2-7]。Transformer 可以對長期依賴關系進行更精確地建模,這一特性使其適用于音頻處理,文獻[8]已經(jīng)證明長期建模對語音分離性能有顯著影響。另外,卷積在語音處理中也取得了很大的成功[9-11],它通過局部感受域逐層漸進地捕獲局部上下文。

然而,基于Transformer 或卷積的模型都有其局限性。一方面,雖然Transformer 擅長建模長序列,但它不太能夠提取細粒度的局部特征;另一方面,卷積神經(jīng)網(wǎng)絡以分層方式利用局部信息。通過一個本地窗口學習共享的基于位置的內(nèi)核,能夠捕獲邊緣和形狀等特征。但使用本地連接的一個限制是需要更多的層或參數(shù)來捕獲全局信息。為了解決這個問題,本文提出了DPCFNet,這是一個將自注意力、卷積和雙路徑網(wǎng)絡相結合的模型。在公開的中文和英文數(shù)據(jù)集上進行的大量實驗表明,相比于單一使用卷積和Transformer 的模型,本文方法實現(xiàn)了更好的分離效果。

1 改進Transformer 和Dense block

Transformer 由編碼器和解碼器組成[1]。本文選擇Transformer 編碼器作為基本模塊。為避免混淆,本文中對Transformer 的引用是指Transformer 的編碼器部分。原始的Transformer 編碼器通常包含位置編碼、多頭自注意和位置前饋網(wǎng)絡3 個模塊。本文的Transformer 與文獻[12]一樣,通過在多頭自注意力模塊后插入深度卷積來對局部上下文信息進行更充分的建模,簡稱為Conformer。

Conformer 結構示意圖如圖1 所示。它由幾個模塊組成,包括前饋模塊、多頭自注意力模塊、卷積模塊(ConvModule)和層歸一化模塊。前饋模塊由線性層、swish 激活函數(shù)[13]、dropout 和第2 層線性層組成。ConvModule 開始是逐點卷積和GLU 激活函數(shù)[14],接著通過具有批量歸一化、swish 激活和逐點卷積的一維深度卷積層。多頭自注意力模塊由自注意力和相對位置編碼結合而成,相對位置編碼可以使自注意力模塊對不同的輸入長度進行更好的泛化,所得到的Conformer 塊對語音長度的變化具有更強的魯棒性。本文使用帶dropout 的前范數(shù)殘差單元[15],這有助于訓練和正則化更深層次的模型。

圖1 Conformer 結構

基于卷積的密集連接塊最近在文獻[16]中被提出。密集連接塊基于特征重用的思想,使給定層的輸出在后續(xù)層中被重用多次。因為給定層與后續(xù)層直接連接,使其可以避免DNNs 中的梯度消失問題。在密集連接塊的基礎上,本文提出了一個新的用于語音分離的Dense block,它由5 個二維卷積層組成,卷積核大小為(2,3),每個卷積層后添加層歸一化和PReLU 非線性激活[17]。給定層的輸入由前一層的輸出和最開始的輸入連接形成。連續(xù)層中的輸入通道數(shù)量分別為C,2C,2C,2C和2C。每次卷積后的輸出都有C個通道。本文提出的Dense block 如圖2所示,其中,卷積核(X,Y)中的X和Y分別表示輸入和輸出通道數(shù)。與原始密集連接塊相比,Dense block 的計算復雜度較低,更適用于實時語音處理。

圖2 提出的Dense block 結構

2 本文提出的DPCFNet

本文提出的DPCFNet 結構如圖3 所示,它由編碼器、分離層和解碼器組成。首先,使用編碼器將混合波形轉(zhuǎn)換為中間特征空間中的相應特征。然后將特征輸入到分離層,為每個源構造掩碼。最后,通過對掩碼特征的轉(zhuǎn)換,實現(xiàn)源波形的重構。

圖3 DPCFNet 的結構框架

2.1 分割和重疊相加

分割階段拆分原始混合語音x∈R1×L,L為輸入混合語音的長度,幀長為F,跳躍步長為H。然后將所有幀進行堆疊,形成一個三維張量X∈R1×K×F,K表示所給的幀數(shù),其計算式為:

采用重疊疊加法作為分割的逆運算,用于恢復分離波形。

2.2 編碼器

編碼器使用兩個卷積層,其中第1 層使用大小為(1,1)的卷積濾波器將通道數(shù)量增加到64 個,第2 層使用大小為(1,3)的濾波器將幀大小的尺寸減半,步幅為(1,2),兩個卷積層之間添加包含5 個膨脹卷積層的Dense block。所有卷積層之后進行層歸一化和PReLU 非線性激活。編碼器的輸入為混合語音分割后得到的X∈R1×K×F,輸出為高維混合特征I∈R64×K×F/2。

2.3 分離層

分離層由雙路徑Conformer(Dual-path Conformer,DPCF)和掩碼模塊共同構成。編碼器的輸出I被傳遞給N個DPCF,如圖3 所示,每個DPCF 由1個Intra-Conformer 塊 和1 個Inter-Conformer 塊 組成,其中Intra-Conformer 塊學習局部信息,Inter-Conformer 塊學習全局信息。Intra-Conformer 塊首先對輸入特征的局部進行獨立建模,作用于I的第2維,Intra-Conformer 的公式如下:

然后使用Inter-Conformer 塊匯總所有Intra-Conformer 塊的輸出信息,以學習語音信號的全局信息,作用于I的最后一個維度,Inter-Conformer的公式如下:

掩碼網(wǎng)絡利用DPCF 的輸出特征獲取掩碼進行分離。通過第2 個二維卷積,DPCF 的輸出沿通道維數(shù)按分離源的個數(shù)加倍,以匹配輸出分離語音。然后經(jīng)過兩路二維卷積和非線性運算,將輸出相乘后經(jīng)過ReLU 激活函數(shù),得到掩碼。最終的掩碼編碼器特征是通過掩碼和編碼器輸出之間的逐元素乘法獲得的。

2.4 解碼器

解碼器由一個(1,1)卷積層和一個Dense block組成,其中Dense block 與編碼器中的相同。分離層輸出的特征通過Dense block 重構為分離語音特征。然后采用卷積核大小為(1,1)的二維卷積濾波器將分離語音特征的通道維數(shù)恢復為1,最后通過重疊相加法得到最終語音波形。

3 實驗與結果分析

3.1 實驗配置

為了證明本文所提出的語音分離網(wǎng)絡對不同語種具有普適性,使用了英文數(shù)據(jù)集和中文數(shù)據(jù)集進行了評估,其中英文數(shù)據(jù)集來源于WSJ0 數(shù)據(jù)語料庫[18],中文數(shù)據(jù)集基于DiDiSpeech 中文語音數(shù)據(jù)庫[19]創(chuàng)建。

實驗所使用的英文數(shù)據(jù)集是從WSJ0 數(shù)據(jù)語料庫中隨機選擇不同說話者的語音進行混合,混合信號的信噪比(Signal-Noise Ratio,SNR)在-5 dB至5d B 之間隨機生成,其中訓練集為10 000 條語音,測試集和驗證集各為1 000 條語音。為了保證實驗的一致性,將數(shù)據(jù)集的采樣率統(tǒng)一降采樣至8 kHz。

中文數(shù)據(jù)集基于DiDiSpeech 中文語音數(shù)據(jù)庫[18]創(chuàng)建,數(shù)據(jù)集包括500 個說話者,每個說話者約有100 個WAV 格式的語音,每個語音時長為3~6 s,原始采樣率為48 kHz,在數(shù)據(jù)預處理時將其降采樣至8 kHz。從DiDiSpeech 數(shù)據(jù)集中隨機選擇兩條不同語音樣本生成混合語音,在-2.5 dB 至2.5 dB 之間均勻采樣各種信噪比。生成的混合數(shù)據(jù)集包含訓練、驗證和測試集中的5 000 個、800 個和800 個話語。

語音分離的目標是提高語音信號的清晰度。為了更好地評估本文提出的模型,實驗采用排列不變 訓 練(utterance-level Permutation Invariant Training,uPIT)[20]來訓練所提出的模型,以最大化尺度不變信噪比(Scale-Invariant Singal-Noise Ratio,SI-SNR)[9]。

在分割和重疊相加階段,每個幀的大小為512個樣本(64 ms)、重疊256 個樣本(32 ms)。分離層設置雙路徑ConformerN為5 個,每個Conformer塊包含4 個注意力頭。

在訓練階段,將周期epoch 設置為100,使用Adam[21]作為優(yōu)化器。訓練停止的標準是在連續(xù)10個epoch 的驗證集上損失函數(shù)(SI-SNR)沒有下降。初始學習率為0.001,每兩個epoch 衰減0.98。

3.2 實驗結果分析

為了更好地衡量本文提出的DPCFNet 的分離性能,使用SI-SNR 和信號失真比(Signal-distortion ratio,SDR)作為評價指標,這兩個指標經(jīng)常用于各種語音分離系統(tǒng)。

首先將本文模型與幾種基線模型在英文數(shù)據(jù)集上進行得分比較。實驗結果如表1 所示,本文模型在SI-SNR 和SDR 指標上分別達到了18.2 dB 和18.6 dB,兩者得分均優(yōu)于所有基線模型。結果表明,本文所提出的模型在保持尺寸最小的情況下,仍然能夠獲得更好的語音質(zhì)量。

表1 在英文數(shù)據(jù)集上與其他模型的SI-SNR、SDR 和模型大小的比較

為了證明DPCFNet 模型具有通用性,本文在中文數(shù)據(jù)集上進行了相關實驗,并以兩個經(jīng)典的語音分離模型Conv-Tasnet[10]和DPTNet[6]作為基線模型。表2 列出了DPCFNet 和兩個基線模型的平均SI-SNR 和SDR 得分。結果表明,本文提出的將Transformer 和卷積相結合的模型DPCFNet 仍然明顯優(yōu)于基線模型。這說明本文方法具有通用性,并進一步證明了該方法的有效性。

表2 在中文數(shù)據(jù)集上與其他模型的比較

為了驗證Dense block 相對于原始密集連接塊具有更低的計算復雜度,本文設計了兩個模型,分別由10 個Dense block(模型1)和10 個密集連接塊(模型2)組成。通過在Intel(R) Core(TM) i9-12900KF CPU 上處理一條4 s 的中文語音,并進行100 次實驗取平均值,得到計算時間。從表3 的結果中可以發(fā)現(xiàn),相較于原始密集連接塊,Dense block 的參數(shù)數(shù)量減少了18%,計算時間縮短了24%。

表3 模型大小和計算時間的比較

4 結語

本文提出了一種基于雙路徑Conformer 和Dense block 的神經(jīng)網(wǎng)絡,用于端到端多說話人單耳語音分離,該網(wǎng)絡能充分地提取長序列語音的局部和全局上下文信息。在英文和中文數(shù)據(jù)集上的兩個實驗證明了所提出模型的有效性和通用性。此外,與其他現(xiàn)有模型相比,本文提出的模型在性能更好的情況下具有更少的可訓練參數(shù)。在未來的工作中,可以考慮擴展這種機制以進行實時處理。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 日韩av手机在线| 中国一级特黄大片在线观看| 亚洲黄色网站视频| 伊人久久精品无码麻豆精品| 国产精品成| 久久伊伊香蕉综合精品| 国产精品网拍在线| 国产精品视频导航| 全部无卡免费的毛片在线看| 亚洲免费福利视频| 色偷偷男人的天堂亚洲av| 亚洲AⅤ综合在线欧美一区| 99在线国产| 欧美www在线观看| 成人精品视频一区二区在线 | 国产精品嫩草影院av| 精品综合久久久久久97| 日韩欧美一区在线观看| 最新国产精品第1页| 中文字幕乱妇无码AV在线| 亚洲国产黄色| 欧美a√在线| 欧美亚洲日韩中文| 亚洲成人高清无码| 国产拍揄自揄精品视频网站| 1级黄色毛片| 国产乱子伦无码精品小说| 亚洲动漫h| 久久亚洲美女精品国产精品| 国产美女91呻吟求| 国产91成人| 日韩欧美网址| 美女视频黄频a免费高清不卡| 动漫精品中文字幕无码| 中文字幕丝袜一区二区| 久久国产av麻豆| 国产精品私拍在线爆乳| 日韩第一页在线| 伊人蕉久影院| 免费国产福利| 中文字幕亚洲第一| 亚洲精品男人天堂| 国产亚洲成AⅤ人片在线观看| 亚洲欧洲自拍拍偷午夜色| 久久精品国产精品青草app| 国产高清免费午夜在线视频| 91极品美女高潮叫床在线观看| 国产区免费精品视频| 青草91视频免费观看| 依依成人精品无v国产| 在线国产综合一区二区三区 | 国产精品男人的天堂| 日韩在线欧美在线| 欧美在线中文字幕| 欧美成人免费午夜全| 亚洲成av人无码综合在线观看| 国产熟女一级毛片| 亚洲愉拍一区二区精品| 精品无码国产自产野外拍在线| 高清视频一区| 免费久久一级欧美特大黄| 日韩精品亚洲精品第一页| 综合五月天网| 亚洲精品视频免费| 国产美女自慰在线观看| 全午夜免费一级毛片| 欧美日本不卡| 久久精品最新免费国产成人| 成年人国产视频| 久久永久免费人妻精品| 国产成人精品无码一区二| 一级黄色片网| 国产网站免费看| 91亚洲视频下载| 久久人搡人人玩人妻精品| 国产精品第| 日韩精品免费在线视频| 亚洲AⅤ无码日韩AV无码网站| 无码福利视频| 欧美日韩一区二区三区在线视频| 99国产精品国产高清一区二区| 亚洲欧美另类专区|