陳 樹, 于海波
(江南大學 物聯網工程學院,江蘇 無錫 214122)
對于一個具體的語音識別系統,會存在噪聲問題(環境噪聲或者說話人因素造成的噪聲),這種差異性信息,必然會帶入到建模的過程中。而在測試階段,這種差異性往往會發生變化,從而導致訓練模型和識別數據的失配,進而導致系統的誤識率提高[1]。
目前,使用最為廣泛的特征參數為線性預測倒譜系數(linear prediction cepstral coefficients,LPCC)和梅爾頻率倒譜系數(mel frequency cepstral coefficients,MFCC)[2],但是2種參數在噪聲環境下的識別性能較差,如何在噪聲環境中提取具有較高識別率的特征參數一直是研究熱點之一。2011年,Li Q首次提出了耳蝸倒譜系數(cochlear filter cepstral coefficient,CFCC)[3],在噪聲環境中的識別性能優于MFCC參數,但在低信噪比時,識別率仍然出現了大幅下降且CFCC的特征區分能力不強。此外,國內外的許多學者也提出了諸多對原有特征提取的優化方法。文獻[4]將MFCC和線性預測編碼(linear predictive coding,LPC)結合后使用,取得了一定的抗噪聲效果,但是實時性較差;文獻[5]將LPC參數在梅爾頻率下進行非線性變換,再進行微分等操作,提高了二次特征提取的實時性,但識別精度無明顯提高;文獻[6]提出了一種針對MFCC特征參數的后處理算法,有效降低了噪聲對系統的影響;文獻[7]將語音幀的能量算子加入到CFCC參數中,文獻[8]將語音信號的相位信息與CFCC結合,并應用于說話人識別系統,獲得了較好的魯棒性,但對語音識別系統的效果有限。
因此,為了進一步提高在噪聲環境中的語音識別的識別率,本文分析了CFCC特征參數,引入了一種后處理算法針對CFCC區分能力低的缺點,對特征提取后的特征參數進行線性變換,即通過一種改進的線性判別分析(linear discriminant analysis,LDA)線性變換方法對語音特征參數進行線性變換后,得到了更具有語音區分能力的特征,引入均值方差歸一化,對特征參數歸一化處理,進一步降低噪聲對系統的干擾。實驗結果表明:經過本文算法提取的特征參數通過隱馬爾可夫模型(hidden Markov model,HMM)[9]進行訓練和識別,提高了在噪聲環境中語音識別率,取得了較好的效果。
CFCC是基于聽覺變換的特征參數,在噪聲環境下的識別性能優于傳統的MFCC特征參數,具有較好的抗噪聲和識別效果。CFCC特征參數的提取方法如圖1所示。

圖1 CFCC特征提取框圖
1)耳蝸濾波:Li Q[3]定義了耳蝸濾波器組模擬耳蝸基底膜的作用,濾波器對語音信號的處理稱聽覺變換其過程為[3]
(1)
式中f(t)為時域語音信號;ψa,b(t)為耳蝸濾波函數
(2)
式中α,β均為大于0的實數,經驗值為3和0.2,α和β決定了ψa,b(t)的頻域形狀和寬度;u(t)為單位階躍函數;θ為初始相位;b為隨時間可變的實數;a為尺度變量,由濾波器組的中心頻率fC和最低中心頻率fL決定
(3)
耳蝸濾波器的頻率響應如圖2所示。

圖2 耳蝸濾波器的頻率響應
2)毛細胞窗口:用于模擬耳蝸毛細胞將基底膜振動轉換為聽覺神經信號的過程,可由式(4)~式(5)來表示
h(a,b)=[T(a,b)]2,?a,b
(4)

(5)
3)非線性響度變換:將毛細胞窗口的輸出由能量值轉化為感知響度
y(i,j)=[S(i,j)]1/3
(6)
4)離散余弦變換:進行離散余弦變換(discrete cosine transform,DCT)得到最后的CFCC特征參數。
本文借鑒對MFCC參數改進的方法,引入了一種改進的LDA[10]的方法對CFCC參數進行了改進,在降維的同時獲得了區分性更高的新特征。
HMM用于語音識別時,對角形式的協方差矩陣是最佳的選擇,可以在有限的訓練語料下,通過較少的模型參數得到較高的識別性能。經過LDA變換的語音特征向量雖然已具有了很好的區分能力,但并不是對角形式,因此,本文使用最大似然線性變換(maximum likelihood linear transformation,MLLT)對LDA變換得到的協方差矩陣對角化。
LDA的轉換公式為
y=WTx
(7)

(8)

Sb計算如下
(9)

假設經過LDA求取的矩陣為W,為經MLLT變換后的協方差矩陣,有
(10)
式中N為訓練語料的個數;Nj為第j個樣本的語料個數;θj為第j個樣本的協方差矩陣。
本文對經過LDA和MLLT變換后的語音特征參數進行歸一化處理,引入了倒譜均值方差歸一化[11](cepstral mean and variance normalization,CMVN)的方法,進而提升語音識別系統的識別率。語音特征提取的步驟如下:
1)采用CFCC方法提取語音特征參數。

3)獲得對角矩陣,在步驟(2)轉化后的特征上進行MLLT更新,產生對角矩陣。得到滿足HMM的矩陣。
4)利用CMVN對特征向量進行歸一化處理,得到最終的語音特征參數。CMVM是將語音特征向量先經過均值歸一化后再進行方差歸一化處理,分別如式(11)和式(12)所示
(11)
(12)
式中μ為特征向量的均值;σ為標準差。
經上述4個步驟得到的語音特征參數具有原CFCC特征參數幀間的信息,區分能力更強,且特征維數和計算復雜度未增加,利用均值方差歸一化,降低了加性噪聲和卷積噪聲對語音信號的影響。
實驗數據是從清華大學公開語音數據庫中截取的語音數據,語音信號采樣頻率為19 980 Hz,16 bit量化。截取后的語音庫共有114個說話人(男性57人,女性57人),每人10條語音數據。實驗,采用104人的語音數據作為訓練數據,10人為測試數據(其中5人為女性,5人為男性)。噪聲數據庫采用了NOISEX—92噪聲數據庫中的3種典型噪聲:white噪聲、pink噪聲和f16噪聲,將噪聲按不同信噪比分別添加到純凈語音中形成帶噪語音。整個語音識別系統采用卡內基梅隆大學開發的Sphinx開源工具搭建,聲學模型為連續HMM,訓練工具為Sphinxtrain,語言模型的訓練工具為Cmucmltk。
仿真系統中對輸入系統的語音信號進行了預加重,系數為0.97,按幀長400個采樣點進行分幀,幀移為160,使用漢明窗進行加窗處理。語音的特征參數選取39維CFCC參數,噪聲信噪比分別選擇-5,0,5,10,15 dB。
實驗一將MFCC和CFCC 2種特征參數分別應用于語音識別系統中,比較其在不同信噪比的噪聲中的系統識別正確率,然后將本文改進的特征提取方法應用于語音識別系統中,并對各個方法在不同信噪比噪聲中的性能進行比較,實驗結果如圖3所示。

圖3 不同測試條件下識別正確率對比
圖3(a)的數據表明:在信噪比較高(10 dB和15 dB)時,3種特征參數均達到了95 %以上的識別率。但隨著信噪比的降低,使用MFCC參數的識別正確率急劇降低,在信噪比為-5 dB時,識別正確率為19 %。而CFCC特征參數的識別率雖然也隨之降低,但相較于MFCC參數在各個信噪比的條件下,識別率均高于MFCC。利用本文提出的特征提取方法在各個信噪比條件下的識別正確率均優于MFCC和CFCC參數,在-5 dB條件下,達到了44 %。
同樣,由圖3(b)和圖3(c)可知,在pink噪聲和f16噪聲的環境下,MFCC參數在信噪比低于5 dB的條件下,識別正確率也出現急劇降低的情況,而CFCC參數和本文改進的CFCC方法有較好的噪聲魯棒性,尤其在信噪比低于0 dB時,本文方法的識別正確率遠優于MFCC和CFCC。在f16噪聲中,-5 dB的條件下,識別正確率仍達到了50 %。因此,本文方法在語音識別系統中對提高各種噪聲環境中的識別正確率均起到了一定的作用,具有較好的實用價值。
實驗二研究了對特征參數進行LDA轉換后的不同維度對系統識別性能的影響,修改LDA維數,比較訓練后模型的識別正確率數值變化,找出關聯。實驗的聲學模型采用傳統的連續密度HMM,每個模型的狀態數3個,均為高斯混合分布。實驗以white噪聲0 dB時的實驗數據為例,得到的實驗結果如表1所示。

表1 0 dB下不同LDA維度系統識別正確率
由表1可知,在實際聲學模型訓練時,要根據訓練數據找合適的維數值。而且對不同訓練數據對狀態數不同的聲學模型,正確率改善效果也會不同。針對于本文采用的實驗數據,經實驗證明,最佳的LDA維度為29。
為了進一步提高CFCC參數的抗噪性,提出了一種改進的基于CFCC的特征提取方法。新的特征參數不僅降低了特征維度,并且提高了特征參數的區分能力,通過對語音數據庫構建隱馬爾科夫模型,實現了一個完整的語音識別系統。實驗結果表明:系統能夠減小不同噪聲不同信噪比條件下對系統識別正確率造成的較大影響。本文方法能提高語音識別系統的識別正確率,下一步將研究算法的實際應用。
參考文獻:
[1] 何勇軍,付茂國,孫廣路.語音特征增強方法綜述[J].哈爾濱理工大學學報,2014,19(2):19-25.
[2] Gupta K,Gupta D.An analysis on LPC,RASTA and MFCC techniques in automatic speech recognition system[C]∥2016 6th International Conference on Cloud System and Big Data Enginee-ring,IEEE,2016:493-497.
[3] Li Q,Huang Y.An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions[J].IEEE Transactions on Audio Speech & Language Processing,2011,19(6):1791-1801.
[4] Islam M Babul,Rahman Md Mahfuzur,Islam M Babul,et al.Performance evaluation of blind equalization for Mel-LPC-based speech recognition under different noisy conditions[J].Inter-national Journal of Computer Applications,2013,65(4):4-8.
[5] 羅 元,吳承軍,張 毅,等.Mel頻率下基于LPC的語音信號深度特征提取算法[J].重慶郵電大學學報:自然科學版,2016,28(2):174-179.
[6] 張 毅,謝延義,羅 元,等.一種語音特征提取中Mel倒譜系數的后處理算法[J].智能系統學報,2016,11(2):208-215.
[7] 李晶皎,安 冬,楊 丹,等.噪聲環境下說話人識別的TEO-CFCC特征參數提取方法[J].計算機科學,2012,39(12):195-197.
[8] 李作強,高 勇.基于CFCC和相位信息的魯棒性說話人辨識[J].計算機工程與應用,2015,51(17):228-232.
[9] Karpagavalli S,Chandra E.Phoneme and word-based model for tamil speech recognition using GMM-HMM[C]∥2015 Inter-national Conference on Advanced Computing and Communication Systems,IEEE,2015:1-5.
[10] Haeb-Umbach R,Ney H.Linear discriminant analysis for improved large vocabulary continuous speech recognition[C]∥1992 IEEE International Conference on Acoustics,Speech,and Signal Processing,ICASSP’92,IEEE,1992:13-16.
[11] 肖云鵬,葉衛平.基于特征參數歸一化的魯棒語音識別方法綜述[J].中文信息學報,2010,24(5):106-116.