999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不同時頻掩模神經網絡語音增強的研究

2020-02-22 03:09:35邵榕梓富曉乾田愛生蒲俞姣陳凱
現代信息科技 2020年18期
關鍵詞:學習目標

邵榕梓 富曉乾 田愛生 蒲俞姣 陳凱

摘? 要:在基于時頻掩模的深度神經網絡語音增強系統中,學習目標的選擇對于整體語音增強性能的影響極大,文章針對目前最常用的學習目標——理想二值掩模和理想浮值掩模在語音增強中的效果進行了研究,為驗證不同時頻掩消除噪聲模性能的好壞,設計了多組對比實驗,為以后深度學習訓練過程中直接選擇學習目標提供依據。仿真結果表明:在不同信噪比和不同噪聲條件下,理想浮值掩模的性能均好過理想二值掩模。

關鍵詞:語音增強;學習目標;理想二值掩模;理想浮值掩模

中圖分類號:TN912.3? 文獻標識碼:A ? 文章編號:2096-4706(2020)18-0084-03

Abstract:In the deep neural network speech enhancement system based on time-frequency mask,the choice of learning target has a great influence on the overall speech enhancement performance. The article studies the effects of the most commonly used learning goals——ideal binary mask and ideal floating mask in speech enhancement. In order to verify the performance of different time-frequency masks to eliminate noise modes,multiple sets of comparative experiments were designed to provide a basis for direct selection of learning targets in the subsequent deep learning training process. The simulation results show that the performance of the ideal float mask is better than the ideal binary mask under different signal to noise ratio and different noise conditions.

Keywords:speech enhancement;learning goals;ideal binary mask;ideal floating mask

0? 引? 言

在我們的周圍,有這樣一個特殊人群,他們外表看起來和正常人一樣,但是卻聽不到我們的聲音,無法和人們進行正常的交流。此外,隨著我國人口老齡化,老年人口增多,老人們的聽覺也多數存在著問題,他們選擇佩戴助聽器來提高聽力。這對于當前的醫學水平來說,確實是最直接的方法之一,但是,助聽器也存在著很多的不足,例如當人們處于嘈雜的環境中時,助聽器把噪聲也放大傳入人的耳朵,使得助聽器的性能被嚴重影響,導致聽力障礙的人們無法聽清。因此,我們迫切需要一種可以彌補這一不足的方法來幫助我們的患者,而基于深度神經網絡的語音增強就是一種比較有價值的研究方向。

基于深度神經網絡的語音增強技術作為解決助聽器在嘈雜環境中性能下降這一缺點的關鍵技術,在保證語音不失真的條件下,能夠盡可能減少或消除有噪聲語音中的噪聲干擾,以獲得清晰高質量的增強語音。語音增強技術作為一種基本的信號處理方法得到了廣泛的研究,其還可以應用在語音識別、音視頻會議以及其他領域,目的就是為了提高語音的質量和可懂度。近幾十年來已經出現了許多傳統的基于單通道語音增強的算法,其中最具代表性的主要是譜減法[1]、Wiener濾波[2]等,它們通過信號統計信息進行降噪,但當噪聲是非平穩信號時,傳統算法增強效果差。隨著深度學習的發展,人們又提出了幾種在機器學習領域中通過有效訓練深層神經網絡的深度學習算法[3],這一算法在一定程度上提高了深度神經網絡語音增強的性能。由于語音信號的時空結構和非線性關系十分明顯,傳統的語音增強方法無法有效地挖掘語音譜的非線性結構[4],而深度神經網絡則通過逐層訓練和反向微調,自動學習語音信號的高階統計信息,因此,基于深度神經網絡的語音增強技術成為語音增強技術新的研究熱點[5]。

在基于深度神經網絡(Deep Neural Network,DNN)的語音增強中,提高人耳對帶噪語音的可懂度和感知質量依賴于學習目標的選擇。Wang等人提出以理想二值掩蔽(Ideal Binary Mask,IBM)為目標的語噪分離方法[6]。隨后,Wang等人在語音分離這一任務中分析對比了一系列基于時頻掩蔽的訓練目標[7],包括目標IBM、理想浮值掩蔽(Ideal Ratio Mask,IRM)等驗證其增強效果。

本文通過基于DNN的語音增強算法,提取語音信號的梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC),來探討在不同信噪比條件下,IRM和IBM對語音增強性能的影響。首先提取帶噪語音的特征參數,在此基礎上,獲得信號的訓練目標,即IRM和IBM。通過比較不同信噪比條件下主觀語音質量(Perceptual Evaluation of Speech Quality,PESQ)和短時客觀可懂度(Short Term Objective Intelligibility,STOI)值的大小,驗證IRM和IBM在不同信噪比條件下性能的差異,以便在不同的環境下直接使用合適的學習目標,不同的訓練目標增強效果不同,驗證需要花費大量的時間和精力,本研究為以后研究者的工作節省了時間。

1? 不同時頻掩蔽的深度神經網絡的語音增強

1.1? 深度神經網絡結構

深度神經網絡結構主要包括輸入層、隱含層和輸出層。其中輸入層僅負責接收數據,而隱含層將輸入數據從原特征空間經過一定轉換,轉換到適合處理信號的特征空間,促使模型學習數據規律,從而預測數據更加容易。最后將處理完畢后的數據傳遞至輸出層。圖1所示為深度神經網絡結構圖。

1.2? 提取MFCC特征

提取的語音特征MFCC,基于人耳聽覺感知縮放原理,將感覺到的純音的頻率或音高與其實際測量的頻率相關聯。與高頻時相比,人類在分辨低頻時音調的細微變化方面要好得多,此時轉換成梅爾(Mel)標度使人聽到的聲音與實際語音更加匹配。圖2所示為MFCC特征提取框圖[8]。首先,將信號進行預處理,傅里葉變換并取絕對值。然后,將其通過Mel濾波器組映射得到相應的Mel頻譜。最后,對Mel頻譜取對數并通過離散余弦變換(Discrete Cosine Transform,DCT)[8],即可獲得MFCC特征。

1.3? 時頻掩模

在基于時頻掩模的DNN語音增強系統中,對于整體語音增強性能的影響較大的是學習目標的選擇,其直接影響到去除含噪語音中噪聲時的語音失真程度或者殘留噪聲的數量。目前最常用的學習目標包括理想二值掩模和理想浮值掩模等。

1.3.1? 理想二值掩模

IBM是基于DNN語音增強方法中的最早使用的學習目標。IBM不僅適用于為具有正常聽力的聽眾,而且適用于聽力受損的聽眾。IBM是由預混語音信號和噪聲構成的時頻掩模。對于每個時頻單元,將IBM定義為:

式中,S2(t,f)和N2(t,f)分別表示第t幀、第f頻帶的語音能量和噪聲能量。對于每個時頻單元,如果其局部信噪比大于設置的閾值LC,則將相應的掩模值設置為1,否則將其設置為0。LC的選擇對語音清晰度有顯著影響,通常將LC設置為比帶噪語音信噪比低5 dB,避免丟失語音信息。例如,當帶噪語音信噪比為0 dB時,則相應的LC設置為-5 dB。IBM結果中的非零值代表純凈語音占比重較大的時頻單元。

1.3.2? 理想浮值掩模

IRM是目前基于時頻掩模的DNN語音增強中最廣泛應用的學習目標,它代表目標純凈語音能量在帶噪語音能量中所占的比重,也可看作是一個自適應的IBM,其值在0~1的范圍內變化,是一個軟判決。IRM的計算表達式為:

式中,(·)χ表示用于縮放掩模值的可調參數,χ可調。

VIRM的取值介于0和1之間,仔細觀察發現,在公式的計算形式上IRM與頻域維納濾波器極為相似。當取0.5時,形式上與維納濾波器的平方根估計類似,是功率譜的最優估計。根據文獻[9]中的多次嘗試,證明其取0.5是最佳的選擇。

2? 實驗與結果分析

2.1? 實驗數據

在實驗中,從IEEE數據庫[10]中隨機選擇20條純凈的語音數據,選取NoiseX-92噪聲庫[10]中的Babble、White、Pink、Factory四種噪聲,且信噪比從-15 dB到15 dB,步長間隔為5 dB,合成對應的560條帶噪語音。選取其中280條作為訓練語音,其余280條為測試語音,信號的采樣率為16 kHz。

2.2? 網絡參數

在實驗過程中,我們主要的設計思路是保證每次運行時采集的數字必須是隨機的,然后在通過采取隨機初始化的設計方法和步驟來進行設定預訓練的模型參數信息和數據。這次設置學習率的數據信息為0.004(當學習率過大就會導致迭代不收斂,當學習效率太小則會造成收斂速度變得過慢);調優階段的迭代次數信息為30,學習動量的系數為0.5,迭代前的5次動量設置都為0.5,之后就會設定增到0.9。

2.3? 評價語音的標準

文中選用的語音評價標準包括:SNR、PESQ和STOI。其中PESQ近似平均主觀意見得分(Mean Opinion Score,MOS),用來評價語音的主觀試聽效果,PESQ評分范圍為0.5~4.5,對應于從低到高的語音質量。STOI是一種較新的可懂度評估方法,STOI的評價度會更加精確、更加客觀,并且與語音的實際可懂度高度相關,如果STOI數值越高則表示可懂的程度越高。

2.4? 實驗比對與結果分析

為了證明IBM和IRM性能的好壞,表1、表2分別給出在不同信噪比和不同噪聲條件下基于IBM和IRM的神經網絡語音增強算法的PESQ和STOI值,以此分析不同時域掩模的效果。

從表1和表2可以看出:在MFCC特征下,IBM和IRM均對語音有增強的效果,增強的程度不同,IRM對語音增強的效果更好一些;在不同SNR下IRM的STOI值和PESQ值更高,說明經過IRM處理的語音可懂度和舒適度更高。

3? 結? 論

通過實驗,我們得出下面結論:在不同信噪比條件下,基于IRM軟判決的神經網絡的語音增強算法和基于IBM軟判決神經網絡的語音增強相比,前者的方法會相對更好一些。之所以IBM的性能較差,其原因主要有兩點:第一,IBM對處理信號進行幅度調制的力度更大或者能忽略相位的影響;第二,IRM對參數的估計誤差具有魯棒性。以上兩點原因可以歸結于IRM能夠更好地保留目標信號包絡線。如果對參數的估計存在誤差,那么IBM就會完全忽略潛在必要的時間頻率區域,而IRM對這些區域的處理方式是縮放這些區域。所以,在以后的相關研究中,可以首先考慮使用IRM學習目標,或者將兩者結合使用,這樣可以為深度學習語音增強算法的訓練節約時間。

參考文獻:

[1] BOLL S. Suppression of acoustic noise in speech using spectral subtraction [J]. Acoustics,Speech and Signal Processing,IEEE Transactions on,1979,27(2):113-120.

[2] LIM J S,OPPENHEIM A V. All-pole modeling of degraded speech [J]. Acoustics Speech & Signal Processing IEEE Transactions on,1978,26(3):197-210.

[3] HINTON G E,OSINDERO S,TEH Y W. A Fast Learning Algorithm for Deep Belief Nets [J]. Neural Computation,2006,18(7):1527-1554.

[4] 戴禮榮,張仕良.深度語音信號與信息處理:研究進展與展望 [J].數據采集與處理,2014,29(2):171-179.

[5] 韓偉,張雄偉,閔剛,等.基于感知掩蔽深度神經網絡的單通道語音增強方法 [J].自動化學報,2017,43(2):248-258.

[6] WANG Y X,WANG D L. Towards Scaling Up Classification-Based Speech Separation [J]. IEEE Transactions on Audio Speech & Language Processing,2013,21(7):1381-1390.

[7] WANG Y X,NARAYANAN A,WANG D L. On Training Targets for Supervised Speech Separation [J]. IEEE/ACM transactions on audio,speech,and language processing,2014,22(12):1849-1858.

[8] KANG T G,SHIN J W,KIM N S. DNN-based monaural speech enhancement with temporal and spectral variations equalization [J]. Digital Signal Processing,2018,74:102-110.

[9] NARAYANAN A,WANG D L. Ideal ratio mask estimation using deep neural networks for robust speech recognition [C]//IEEE International Conference on Acoustics. IEEE,2013:7092-7096.

[10] ROTHAUSER E H ,CHAPMAN W D ,GUTTMAN N,et al. IEEE Recommended Pratice for Speech Quality Measurements [J]. IEEE Transactions on Audio and Electroacoustics,1969,17(3):225-246.

作者簡介:邵榕梓(1997—),女,漢族,山西太原人,本科,

研究方向:電子信息工程;富曉乾(1996—),男,漢族,山西天

鎮人,本科,研究方向:電子信息工程;田愛生(1973—),男,

漢族,山西榆社人,本科,研究方向:語音信號處理;蒲俞姣(1998—),女,漢族,山西霍州人,本科,研究方向:通信工程;陳凱(1997—),男,漢族,山西晉中人,本科,研究方向:通信工程。

猜你喜歡
學習目標
“教學評一致性”在中學英語閱讀課堂中的實踐與運用
試論高中歷史研究性學習的目標構建
談談小學數學教學中學生學習意志的培養
未來英才(2016年3期)2016-12-26 20:24:28
編織英語課堂交往的經緯線
高中數學《統計》淺析
實施高效課堂有感
“從目標入手”,設計高效課堂任務單
考試周刊(2016年89期)2016-12-01 12:43:59
小學數學教學學習目標思考
初中英語教學中如何規避“男生危機”現象
考試周刊(2016年71期)2016-09-20 18:10:30
數學學困生學習共同體的有效構建
主站蜘蛛池模板: 国产91精品调教在线播放| 亚洲国产天堂久久综合| 欧美一级夜夜爽www| 天天综合网在线| 伊人久久大香线蕉aⅴ色| 国产成人综合亚洲欧美在| 成年女人18毛片毛片免费| 久热精品免费| 九九久久99精品| 久热99这里只有精品视频6| 在线色国产| 久久毛片网| 青青草综合网| 欧美天堂久久| 色婷婷狠狠干| 亚洲第一综合天堂另类专| 在线观看免费黄色网址| 欧美成人手机在线视频| 草草影院国产第一页| 国产又色又刺激高潮免费看 | 美女视频黄又黄又免费高清| 国内精品久久久久久久久久影视 | 任我操在线视频| 一区二区三区高清视频国产女人| 高清国产在线| 日韩精品免费在线视频| 一级爱做片免费观看久久| 小蝌蚪亚洲精品国产| 美女亚洲一区| 四虎精品国产AV二区| 啪啪永久免费av| julia中文字幕久久亚洲| 91伊人国产| 日韩AV无码免费一二三区| 国产日韩精品欧美一区喷| 亚洲午夜国产片在线观看| 思思热在线视频精品| 日韩国产综合精选| 天堂岛国av无码免费无禁网站| 91蝌蚪视频在线观看| 久久久久久久久久国产精品| 日韩a在线观看免费观看| 在线精品自拍| 一区二区三区在线不卡免费| 国产91成人| 精品少妇人妻无码久久| 日韩经典精品无码一区二区| 亚洲综合色在线| 2020国产精品视频| 欧美在线视频不卡第一页| 国产毛片不卡| 在线亚洲精品自拍| 成人午夜网址| 欧美成a人片在线观看| 欧美成人午夜影院| 丰满少妇αⅴ无码区| 中文字幕免费在线视频| 亚洲中文字幕国产av| 内射人妻无码色AV天堂| 成人在线天堂| 欧美a网站| 色婷婷在线影院| 亚洲一区二区约美女探花| 国产精品va| 国产成人一区免费观看| 亚洲色图欧美视频| 色妞www精品视频一级下载| 午夜一区二区三区| 伊人无码视屏| 一区二区三区成人| 国产精品亚洲一区二区在线观看| 免费看久久精品99| 亚洲精品桃花岛av在线| 欧美亚洲第一页| 2021国产精品自产拍在线观看 | 亚洲天堂日韩av电影| 中文字幕天无码久久精品视频免费| 天堂在线www网亚洲| 亚洲一区精品视频在线| 欧美性猛交一区二区三区| 97视频免费在线观看| 精品久久国产综合精麻豆|