董嫻 邵玉斌 杜慶治 龍華 馬迪南



摘 要: 針對現有頻譜稀疏化方法在復雜環境語音增強上性能不佳的問題,提出一種基于主成分分析的迭代頻譜稀疏化方法. 首先,對輸入信號的語譜圖進行二維中值濾波處理,得到行分量頻譜和列分量頻譜;對包含語音主音的行分量頻譜序列進行主成分分析(PCA),以去除噪聲部分并保留主要語音結構;然后聯合列分量頻譜序列和縮放因子進行混合重構原信號,并采用動態縮放因子實現對列分量頻譜噪聲的有效控制. 在此基礎上,利用稀疏化對噪聲的抑制作用,對頻譜進行多次稀疏化,以減弱噪聲. 實驗結果表明,該方法增強了不同類型噪聲下語音的信噪比,包括White、Pink、Babble、Volvo 和Factory 等五種噪聲,輸入信噪比為15 dB,所提方法的信噪比分別提升了13. 89 dB,11. 97 dB,5. 65 dB,5. 26 dB 和4. 73 dB,該方法在其他信噪比下也能有效地抑制噪聲和保留有效特征信息,并減少因背景噪聲引起的語音失真.
關鍵詞: 語音增強; 多維度頻譜分析; 譜稀疏化; 主成分分析
中圖分類號: TN912. 3 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 033007
1 引言
在自動語音識別(Automatic Speech Recognition,ASR)系統中,語音增強是一個必不可少的過程,語音信號處理在其中發揮著重要作用. 語音增強是指對被污染的語音信號進行處理,減少噪聲的干擾,改善噪聲環境下的語音質量,從而增強語音的可懂度和主觀聽覺質量[1]. 對于聽覺受損的人群來說,語音增強技術旨在提升人工耳蝸在噪聲環境中的語音清晰度,以解決困擾多數聽障人群聽不清的難題[2]. 為了……