李文志 屈曉旭
(海軍工程大學電子工程學院 武漢 430000)
隨著通信技術的發(fā)展,語音增強技術是信號處理領域的一個重要的研究熱點,它可以從被噪聲污染的語音信號中提取有用的語音信號,改善語音質量和可懂度,廣泛應用于各種語音信號處理中[1]。
傳統(tǒng)的語音增強算法包括譜減法[2]、維納濾波法[3]、最小均方誤差法[4]和基于小波分解[5~6]的語音增強算法等。傳統(tǒng)的這些增強算法一般需要各種假設才能有較好的效果,但是對于非平穩(wěn)信號,增強效果會明顯下降。近年來,深度學習技術不斷發(fā)展,基于深度學習的有監(jiān)督的語音增強算法取得了重大進展,主要有基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)[7~9]、卷積神經(jīng)(Convolutional Neural Network,CNN)[10~14]和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[15~16]。基于有監(jiān)督的深度學習方法不需要假設,只需要從大量的含噪語音信號中學習語音與噪聲之間的非線性關系,得到一個訓練模型,從而通過這個模型增強語音信號,具有較好的去噪效果。
本文提出的基于注意力機制和殘差卷積網(wǎng)絡的語音增強算法,該方法將殘差學習和注意力機制融合到卷積神經(jīng)網(wǎng)絡中,通過設計網(wǎng)絡結構,將含噪語音的語譜圖作為輸入特征,輸出為增強后語音的語譜圖,最后重構語音信號。
卷積神經(jīng)網(wǎng)絡一般由卷積層、池化層,上采樣層和全連接層組成,通過這些網(wǎng)絡層就可以構建一個卷積神經(jīng)網(wǎng)絡。卷積層是通過卷積核和前一網(wǎng)絡層輸出進行卷積運算來提取特征的,然后偏置項相加,得出當前層的特征。……