999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN 濾波的廚房環(huán)境語音降噪技術(shù)研究

2023-11-01 06:52:02孫穎楷鐘益明
日用電器 2023年9期
關(guān)鍵詞:信號方法模型

孫穎楷 鐘益明

(廣東萬和新電氣股份有限公司 佛山 528000)

引言

隨著智能家居以及大模型的快速發(fā)展,語音識別在家庭環(huán)境中的應(yīng)用越來越廣泛,然而,這些應(yīng)用常常受到家庭環(huán)境中各種背景噪音的干擾,包括人聲、電視聲音、家電噪音等。這些噪音對語音識別的精度造成了一定影響。

針對上述問題,一系列的降噪方法被提出,包括經(jīng)典的噪音抑制方法和人工智能算法。傳統(tǒng)的語音增強方法主要包括頻譜消減,Wiener 濾波器,以及小波變換等濾波技術(shù),Boll 等提出的頻譜消減方法通過估計噪聲頻譜來抑制噪聲,這是一種典型的頻域方法[1]。Zhenli 等提出采用分?jǐn)?shù)Fourier 變換對噪聲語音進行濾波[2]。Seok等提出在小波域內(nèi)消減噪聲分量的語音增強方法[3]。這些方法在相對靜態(tài)和簡單的噪聲環(huán)境下能夠達到一定的增強效果,但是在復(fù)雜和非靜態(tài)的環(huán)境中,其效果會大打折扣,主要是這類方法通常依賴于事先獲得的噪聲信息和統(tǒng)計特征,而實際環(huán)境中的噪聲往往復(fù)雜多變,難以準(zhǔn)確建模和估計。另外,基于濾波的方法也面臨的是噪聲和語音譜重疊嚴(yán)重的情況,濾波操作難以完全區(qū)分噪聲和語音,導(dǎo)致語音質(zhì)量損傷。

近年來,神經(jīng)網(wǎng)絡(luò)在語音增強領(lǐng)域展示出強大的建模能力,許多研究工作采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進行語音增強。Pandey 等提出了基于CNN 框架來進行時域語音增強[4,5]。另一類方法關(guān)注訓(xùn)練數(shù)據(jù)的獲取,鑒于清晰語音數(shù)據(jù)往往難以獲取,Mimura 等人提出了基于多目標(biāo)學(xué)習(xí)的降噪自動編碼器和DNN 語音模型的聯(lián)合優(yōu)化方法[6]。Fujimura 等人提出了不依賴清晰語音的“噪聲目標(biāo)”訓(xùn)練策略,使用增強前和增強后的語音作為模型輸入和輸出來實現(xiàn)基于DNN 的語音增強訓(xùn)練[7]。其中,RNN 由于其出色的時間序列處理能力和較低的計算需求,逐漸引起了研究者的關(guān)注,一些初步的研究顯示,其在噪音抑制任務(wù)上具有一定的潛力,如Strake 等人提出將LSTM 用于噪聲抑制,然后使用CNN 進行語音復(fù)原的方法[8]。

雖然CNN、RNN、DNN 等人工智能算法表現(xiàn)出強大的建模能力,能夠更好地處理復(fù)雜的噪聲環(huán)境,但也存在一些挑戰(zhàn),例如模型的復(fù)雜性、計算資源的需求,以及對大量標(biāo)記訓(xùn)練數(shù)據(jù)的依賴。RNN 模型在家庭廚房環(huán)境噪音抑制上的應(yīng)用和優(yōu)化,尤其是對不同種類和強度噪音的處理,還缺乏深入的研究。本文旨在通過對RNN模型優(yōu)化方面的研究,探索RNN 等算法在實際廚房環(huán)境中噪音處理的應(yīng)用,在兼顧計算資源及語音識別度的同時,提高其噪音抑制性能。

1 RNN 網(wǎng)絡(luò)模型建立

傳統(tǒng)的處理算法中,譜減法基于頻譜域的操作,通過計算清晰語音和噪聲的頻譜差,得到去噪后的語音。這種方法對于穩(wěn)態(tài)噪聲處理效果顯著,但在處理非靜態(tài)噪聲,尤其是背景噪聲復(fù)雜、變化劇烈的廚房等環(huán)境,效果有限。Wiener 濾波器基于最小均方誤差原理,提供了一種優(yōu)化的線性濾波方法。然而,這種方法假設(shè)噪聲為高斯白噪聲,并且需要知道噪聲和信號的功率譜密度,這在實際應(yīng)用中往往很難獲取,使得它在處理復(fù)雜噪聲環(huán)境中的效果受限。

相較于上述傳統(tǒng)技術(shù),近年來,由于深度學(xué)習(xí)算法的巨大成功,現(xiàn)在趨向于用深度神經(jīng)網(wǎng)絡(luò)來解決整個問題,這種被稱為端到端的模型,已應(yīng)用于算力豐富的語音識別和語音合成解決方案。其中比較典型的是RNN 網(wǎng)絡(luò),由于其對語音等序列數(shù)據(jù)的處理能力,顯示出了更好的適應(yīng)性和效果,是其能夠處理變化性強的噪聲環(huán)境,已經(jīng)被成功應(yīng)用于語音增強和噪聲抑制中[11]。這主要歸功于RNN 的網(wǎng)絡(luò)結(jié)構(gòu),能夠捕捉長期的時間序列信息,從而使模型具有很好的動態(tài)適應(yīng)性,這在廚房環(huán)境下尤其重要,因為這種環(huán)境的噪聲往往具有高度的動態(tài)性和非靜態(tài)特性,比如洗衣機、煙機、洗碗機、烤箱等的運轉(zhuǎn)聲音、馬路的嘈雜聲等等。

RNN 網(wǎng)絡(luò),主要分為LSTM 網(wǎng)絡(luò)和門控循環(huán)單元(GRU)網(wǎng)絡(luò),都是RNN 的變種,均可用來處理序列數(shù)據(jù),如語音和文本等。它們之間的主要差別在于網(wǎng)絡(luò)結(jié)構(gòu)和更新狀態(tài)的方式。而GRU 模型,其主要優(yōu)點和改進之處有以下幾點:其一,更簡單的模型結(jié)構(gòu),GRU 只有兩個門(更新門和重置門),而LSTM 有三個門(輸入門、遺忘門和輸出門),這使得GRU 的結(jié)構(gòu)相對簡單,參數(shù)數(shù)量也較少,從而減少了模型的復(fù)雜性;其二,更快的訓(xùn)練速度,由于其結(jié)構(gòu)相對簡單且參數(shù)較少,GRU通常能夠比LSTM 更快地進行訓(xùn)練,在處理大規(guī)模數(shù)據(jù)時,這種優(yōu)勢尤其明顯;其三,減少梯度消失問題,雖然LSTM 和GRU 都設(shè)計來解決RNN 的梯度消失問題,但由于GRU 直接讓隱藏狀態(tài)與新的記憶拼接,在一定程度上進一步減少梯度消失的問題?;谝陨蠋c,本文選擇GRU 來構(gòu)建RNN 網(wǎng)絡(luò),RNN 網(wǎng)絡(luò)單元以及GRU網(wǎng)絡(luò)單元結(jié)構(gòu)如圖1 所示[9]。

圖1 RNN 及GRU 網(wǎng)絡(luò)單元結(jié)構(gòu)圖

本文的出發(fā)點是結(jié)合神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)處理方式的優(yōu)點,訓(xùn)練RNN 神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)音頻信號的時間相關(guān)性和局部模式,以減少噪音的影響并恢復(fù)原始音頻的清晰度,基于此可以對實時語音用訓(xùn)練后的網(wǎng)絡(luò)模型進行前端降噪處理,而具體的語音識別則由語音識別模塊去執(zhí)行,因此方案的側(cè)重點是在降噪的同時如何保持語音的可識別度。

在具體實施方案上,考慮到RNN 模型的復(fù)雜度,RNN 神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)降噪處理,將采集的語音信號經(jīng)MFCC 計算后輸入RNN 網(wǎng)絡(luò),由RNN 網(wǎng)絡(luò)進行訓(xùn)練,識別語音和噪音的特征,建立網(wǎng)絡(luò)模型結(jié)構(gòu)參數(shù)。訓(xùn)練結(jié)束后,實時含噪語音信號輸入RNN 模型,經(jīng)處理后輸出降噪后的語音信號。

處理步驟中,梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficients)是一種廣泛應(yīng)用于語音識別和音頻處理領(lǐng)域的特征提取技術(shù)[10]。MFCC 模擬了人耳在接收聲音時的特性,能夠有效地提取語音信號中的關(guān)鍵信息,其關(guān)鍵處理步驟包括預(yù)處理、分幀、加窗、FFT、Mel 濾波器組以及倒譜分析。基于RNN 模型的語音降噪處理示意框圖如圖2 所示。

圖2 RNN 網(wǎng)絡(luò)噪音信號處理框圖

2 RNN 網(wǎng)絡(luò)模型降噪流程

根據(jù)圖2 所示RNN 網(wǎng)絡(luò)噪音信號處理框圖,建立具體處理流程,如下所示。

1)數(shù)據(jù)準(zhǔn)備。收集一組包含噪音的音頻文件作為訓(xùn)練數(shù)據(jù)集,文件包含訓(xùn)練數(shù)據(jù)需要的家庭廚房環(huán)境下語音控制信號和環(huán)境噪音的各種情況。在此階段,為了增加數(shù)據(jù)多樣性和模型的魯棒性,可以應(yīng)用一些數(shù)據(jù)增強技術(shù),如隨機添加噪音、改變音頻音量等,進一步豐富樣本集;

2)預(yù)處理。處理步驟包括去除靜音區(qū)域,應(yīng)用窗函數(shù)將語音文件分割成較小的幀,減少后續(xù)階段的計算量,更方便對信號進行分析和處理;

3) 提取特征。使用梅爾頻率倒譜系數(shù)(MFCC)來有效提取語音信號的頻域信息;

4) 訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。使用門控循環(huán)單元(GRU)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,目標(biāo)是學(xué)習(xí)從輸入特征MFCC 到輸出增益的映射,用于區(qū)分語音和噪音,從而進行有效的濾波后處理;

5) 評估和優(yōu)化。訓(xùn)練結(jié)束時需要評估濾波效果,并根據(jù)評估結(jié)果進行優(yōu)化。評估方法包括主觀聽感評價和客觀質(zhì)量指標(biāo)(如信噪比、PESQ、STOI 等)。在此基礎(chǔ)上進行包括調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化訓(xùn)練參數(shù)、增強訓(xùn)練數(shù)據(jù)等的優(yōu)化處理;

6) 濾波處理。使用訓(xùn)練好的模型對新的含噪音音頻文件進行預(yù)測,輸入噪音音頻數(shù)據(jù)到模型中,模型將輸出降噪后的音頻數(shù)據(jù)。

3 預(yù)測結(jié)果及分析

為驗證RNN 語音降噪模型的性能,在語音訓(xùn)練集上,考慮到樣本的豐富性,采用微軟語音庫MS-SNSD 以及廚房實測語音組成訓(xùn)練樣本,采樣頻率16 kHz,采樣深度為16 位,訓(xùn)練樣本經(jīng)MFCC 處理后,以13 個MFCC分量,以及前10 個MFCC 特征的第一倒數(shù)和第二導(dǎo)數(shù),共同組成33個語音識別特征量輸入GRU網(wǎng)絡(luò)進行訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 RNN 降噪網(wǎng)絡(luò)結(jié)構(gòu)圖

為進一步比對RNN 處理效果,對測試樣本分別采用譜減法、維納濾波以及RNN 模型進行濾波,結(jié)果如圖4所示。

圖4 濾波方法處理波形圖

在完成濾波后,對濾波結(jié)果以PESQ、SNR、SegSNR、STOI 指標(biāo)分別進行計算,結(jié)果如表1 所示。

表1 不同濾波算法性能評價結(jié)果

在評價指標(biāo)中,SNR(Signal-to-Noise Ratio),是一個廣泛用于信號處理領(lǐng)域的評價指標(biāo),用于衡量信號的強度與噪聲的強度之間的比值,SNR 值越高,表示信號質(zhì)量越好。根據(jù)結(jié)果,譜減法濾波器的SNR 最高,說明其在整體信號強度和噪聲強度的比例上做得最好。

而SeqSNR(Segmental Signal-to-Noise Ratio),這也是一個衡量信號與噪聲比例的指標(biāo),但它是在較短的時間段內(nèi)計算SNR,然后取平均值,這能更好地反映人耳對噪聲的感知。根據(jù)結(jié)果,譜減法濾波器的SeqSNR 也是最高的,說明在短時間內(nèi),譜減法濾波器做得最好。

PESQ(Perceptual Evaluation of Speech Quality)是一個基于人耳聽覺特性的音頻質(zhì)量評價指標(biāo),越高的PESQ得分代表越好的音質(zhì)。根據(jù)結(jié)果,RNN 方法的PESQ 分?jǐn)?shù)最高,意味著在人耳的感知上,RNN 降噪方法給出了最好的音質(zhì)。

STOI(Short Time Objective Intelligibility)是一個評價語音清晰度的指標(biāo),衡量的是語音內(nèi)容能否被理解,值越高,代表語音的可理解性越好。根據(jù)結(jié)果,RNN 方法的STOI 得分最高,意味著RNN 方法對于語音的可理解性做出了最好的貢獻。

綜合以上指標(biāo)值,可以看到這三種方法中,沒有哪一種算法在所有指標(biāo)上都表現(xiàn)最好。RNN 方法在人耳感知上(PESQ 和STOI)表現(xiàn)最好,但在信噪比(SNR 和SeqSNR)上卻較差。而譜減法濾波器在信噪比上表現(xiàn)最好,但在人耳感知上表現(xiàn)較差。這正說明在降噪方法方面,RNN 濾波算法更關(guān)心的是語音的可理解性,以方便后續(xù)的語音識別模塊進行處理,達到了本文中方案的設(shè)計要求。

4 結(jié)語

本文結(jié)合傳統(tǒng)降噪方法和機器學(xué)習(xí)算法所構(gòu)建的RNN 濾波模型,綜合了深度學(xué)習(xí)和傳統(tǒng)信號處理的優(yōu)點,從處理結(jié)果來看,有較高的可行性和效果。但在實際應(yīng)用中,由于家庭廚房環(huán)境的復(fù)雜性,還有進一步調(diào)整和優(yōu)化的空間,例如選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整訓(xùn)練參數(shù)、處理實時性等,這都是接下來需要進一步研究和探索的方向。另外,自注意力機制(Self-Attention)在處理序列數(shù)據(jù)上,尤其是在處理語音信號等長序列數(shù)據(jù)上,有很大的優(yōu)勢,未來可以嘗試在RNN 濾波模型中引入自注意力機制,更好地捕捉序列的特征來改善模型的性能。

猜你喜歡
信號方法模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
基于FPGA的多功能信號發(fā)生器的設(shè)計
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于LabVIEW的力加載信號采集與PID控制
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲最大福利视频网| 久久亚洲天堂| 成人蜜桃网| 亚洲欧洲日韩久久狠狠爱| 国产手机在线观看| 亚洲人成网7777777国产| 久久美女精品| 欧美视频二区| 色有码无码视频| 免费人成网站在线观看欧美| 亚洲欧美日韩精品专区| 欧美性久久久久| 国产亚洲美日韩AV中文字幕无码成人 | 女人18毛片一级毛片在线 | 九九免费观看全部免费视频| 国产精品真实对白精彩久久 | 国产综合另类小说色区色噜噜| 欧美色视频网站| 亚洲精品欧美日韩在线| 亚洲中字无码AV电影在线观看| 国产18在线播放| 国产毛片片精品天天看视频| 新SSS无码手机在线观看| 日韩色图在线观看| 欧美日韩精品综合在线一区| 国产三级毛片| 亚洲高清中文字幕在线看不卡| 亚洲国产理论片在线播放| 国产精品成人一区二区| 精品国产网| 国产精品原创不卡在线| 久久久黄色片| 丰满人妻中出白浆| 国产第一页免费浮力影院| 9999在线视频| 国产福利在线观看精品| 欧美国产精品不卡在线观看 | 好紧太爽了视频免费无码| 一区二区在线视频免费观看| 尤物特级无码毛片免费| 国产免费一级精品视频| V一区无码内射国产| 成人无码一区二区三区视频在线观看| 国产尤物视频在线| 无码AV日韩一二三区| 伊人成色综合网| 亚洲看片网| 999国内精品久久免费视频| 亚洲黄网在线| 国产毛片一区| 国产AV无码专区亚洲精品网站| 国产毛片基地| 漂亮人妻被中出中文字幕久久| 亚洲精品黄| 一级毛片免费不卡在线| 青青国产视频| 熟妇无码人妻| 婷婷激情五月网| 国产真实乱子伦精品视手机观看| 国产福利观看| 在线高清亚洲精品二区| 国产jizzjizz视频| 亚洲天堂网在线播放| 亚洲69视频| 五月婷婷丁香综合| 国产性生大片免费观看性欧美| 亚洲国产欧洲精品路线久久| 久久国语对白| 国产在线一二三区| 亚洲成A人V欧美综合| 精品国产91爱| 在线欧美a| 亚洲国产成人麻豆精品| 国产一区二区三区夜色| 久久福利网| 亚洲美女久久| 日韩在线中文| 欧美三级日韩三级| 亚洲国产日韩在线成人蜜芽| 欧美亚洲第一页| 亚洲欧美日本国产综合在线 | 亚洲精品自拍区在线观看|