王韻琪 張微 楊博云

摘 要
本文提出運用具有自適應擬合特點的高斯混合模型算法以提升系統在噪聲環境下的識別性能。通過實驗,結果顯示在噪聲環境下本文運用的自適應高斯混合模型算法可以提高系統的識別率。
關鍵詞
說話人識別;自適應高斯混合模型;模型擬合
中圖分類號: TN912.34 ? ? ? ? ? ? ? ? 文獻標識碼: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 17 . 15
Abstract
This paper proposes to use a Gaussian mixture model algorithm with automatically adaptive fitting feature to improve the speaker recognition system in recognition performance under noisy environment. The recognition experiment results show that the automatically adaptive Gaussian mixture model algorithm used in this paper can effectively improve the recognition performance of the speaker recognition system under noisy environment.
Key words
Speaker Recognition; Adaptive Gaussian Mixture Model; Model Fitting
0 引言
說話人識別系統通常有如下三種提高系統的魯棒性方法:第一種是模型補償,即在說話人模型中引入噪聲模型,補償模型中的噪聲擬合,比如,并行模型合并;第二種是在說話人識別前利用降噪來減少語音中的噪聲,比如,前端處理即預處理中加入語音增強環節;第三種是尋找具有魯棒性的特征參數。
1 雙線性頻率倒譜系數BFCC
基于人耳聽覺特性的美爾頻率倒譜系數MFCC,不需要依賴于全極點模型假設,因此它與LPCC相比更具有噪聲魯棒性。對于說話人識別系統而言,基于人耳聽覺感知特性的MFCC雖然普遍使用且效果不錯,但它同時增強了語義信息和個性特征,這樣是不合理的。所以,辨別出哪些頻帶包含更多說話人個性特征,通過計算每個頻帶對識別性能貢獻水平獲得每個頻帶包含的說話人個性特征信息量[3]。計算過程介紹如下:
(1)對語音信號s(n)進行預處理。
(2)通過DFT變換后獲得線性頻譜,再通過Bilinear變換獲得頻譜的邊界點。
(3)再放置等寬三角形濾波器組。
(4)經過對數變換后再DCT變換,從而獲得新的Bilinear倒譜系數BFCC。
2 自適應高斯混合模型AGMM
說話人語音分布用傳統GMM固定不變的高斯混合數是不準確的[4],過擬合或者欠擬合現象仍然不可避免。在AGMM訓練過程當中,高斯分量依據吸收、合并和分裂動態地調整。假如高斯分量權重很小,就認為這個分量沒有實際價值分量可以直接消除;假如兩個高斯分量間隔很近,就可以認為它們具有相同的聲學特征分布,所以將這兩個高斯分量合并;假如某個分量包含了過多的樣本,可以采用分裂方式。
具體訓練步驟如下:
步驟1:設置各類參數:AGMM初始混合數K,EM訓練次數H,以及閾值αt1,αt2,αt3,Dt,σt。
步驟2:訓練模型由EM算法實現。
步驟3:對于步驟2獲得的模型,假如某一高斯分量(wi,μi,∑i)權重小于,即需要消除此分量,用最近分量(wj,μj,∑j)吸收這個分量,按照以下方式吸收:
3.2 AGMM實驗結果及分析
本節實驗環境與實驗條件與4.1節相同。當使用BFCC參數時,噪聲為高斯白噪聲,在不同訓練語音長度下AGMM和傳統GMM識別準確率比傳統GMM都要高。
4 結論
本文結合BFCC,采用AGMM訓練語音,在高斯白噪聲實驗環境下能夠提高說話人識別率,說明在其他條件一致下,提取表征說話人個性信息的特征參數BFCC和訓練自適應高斯混合模型AGMM,系統具有較高的魯棒性。目前只實驗了高斯白噪聲,今后會進一步實驗其他噪聲環境下說話人識別率。
參考文獻
[1]芮賢義,俞一彪.噪聲環境下說話人識別的組合特征提取方法[J].信號處理,2006(10):673-677.
[2]曾春艷,馬超峰,等.深度學習框架下說話人識別研究綜述[J].計算機工程與應用,2020(07):8-16.
[3]俞一彪,袁冬梅,薛峰.一種適于說話人識別的非線性頻率尺度變換[J].聲學學報,2008(09):450-455.
[4]徐利敏,唐振民,等.基于自適應直方圖均衡化的魯棒性說話人辨認研究[J].自動化學報,2008(07):752-759.