侯玉寶,王景芳
湖南涉外經濟學院信息科學與工程學院,長沙 410205
拉普拉斯混合分布語音模型研究
侯玉寶,王景芳
湖南涉外經濟學院信息科學與工程學院,長沙 410205
語音信號處理[1-2]以語音為研究對象,涉及心理學、生理學、語言學、人工智能和模式識別等多項研究領域,甚至還涉及到說話時的表情、手勢等人的體態語言信息。由于語音是人們在日常生活中的主要交流手段,因此語音信號處理在現代信息社會中占有重要地位。近年來,隨著語音信號處理技術的日益成熟,出現了新的基于語音識別的應用方向,如語音撥號、呼叫中心、移動設備中的嵌入式命令控制、發音學習以及基于關鍵詞檢出的口語會話系統等。隨著語音信號處理技術在實際生活中的應用在不斷發展,語音信號處理技術已經被廣泛地接受和使用。由于語音比其他形式的交互方式具有更多的優勢,因此這項技術已經越來越貼近人們的生活。目前,語音信號處理技術處于蓬勃發展時期,不斷有新的產品被研制開發,市場需求逐漸增加,具有良好的應用前景。
語音研究離不開其分布模型[3-9],以往大多假設在正態分布基礎上;中心極限定理從理論上闡述了產生正態分布的條件,中心極限定理簡單直觀的闡述是:如果決定某一隨機變量結果的是大量微小的、獨立的隨機因素之和,并且每一隨機因素的單獨作用相對均勻得小,沒有一種因素可起到壓倒一切的主導作用,那么這個隨機變量一般近似服從于正態分布。正態分布廣泛存在于自然現象、社會現象、科學技術以及生產活動中,在實際中遇到的許多隨機現象都服從或者近似服從正態分布。但事實上語音是具有重尾特性的非平穩過程。Laplace分布具有峰度為6的重尾特性,本文研究Laplace分布語音模型與混合Laplace分布語音模型,并將兩者語音模型進行對比分析。
2.1 重尾與峰度
相對于正態分布而言,以四階中心矩為基礎。四階中心矩具有峰度(kurtosis)的含義,峰度是統計中描述分布狀態的一個重要特征值,用以判斷概率密度函數曲線相比于正態分布的尖平程度。如果將正態分布視為常峰態,密度函數曲線的形狀比正態分布更高更瘦的稱為高峰態,否則稱為低峰態。正態分布的峰度為3。Laplace分布的峰度為6。正態云分布峰度在3~9之間[10]。

圖1 正態云分布仿真結果
定義[7]隨機變量X稱為是重尾[11]的,如果峰度:

其中μ,σ分別為X的期望和標準差。
2.2 模型參數估計

2.3 實例驗證與分析
取AURORA語音庫[12]純凈語音“The birch canoe slid on the smooth planks.”文件sp01.wav,背景噪聲選自Noisex-92數據庫[13]。用純語音、含babble噪聲信噪比SNR=5、0 dB語音的正態云分布仿真結果如圖1。圖上RMS為平均誤差,直方圖等分區間200個。
Laplace分布隨機變量X的峰度為:K(X)=6,單個Laplace分布應用范圍受限制。有必要研究混合Laplace模型使其適用于超重尾信號,如一般的純語音峰度大都大于9。
3.1 EM算法原理
EM算法是Dempster,Laind,Rubin[14-15]于1977年提出的求參數極大似然估計的一種方法,它可以從非完整數據集中對參數進行MLE估計,是一種非常簡單實用的學習算法。這種方法可以廣泛地應用于處理缺損數據,截尾數據,帶有噪聲等所謂的不完全數據(incomplete data)。
假定集合Z=(X,Y)由觀測數據X和未觀測數據Y組成,Z=(X,Y)和X分別稱為不完整數據和完整數據。假設Z的聯合概率密度被參數化地定義為P(X,Y|Θ),其中Θ表示要被估計的參數。Θ的最大似然估計是求不完整數據的對數似然函數L(X;Θ)的最大值而得到的:

EM算法包括兩個步驟:由E步和M步組成,它是通過迭代地最大化完整數據的對數似然函數Lc(X;Θ)的期望來最大化不完整數據的對數似然函數,其中:

假設在算法第t次迭代后Θ獲得的估計記為Θ(t),則在(t+1)次迭代時,
E-步為計算完整數據的對數似然函數的期望,記為:

M-步為通過最大化Q(Θ|Θ(t))來獲得新的Θ。
通過交替使用這兩個步驟,EM算法逐步改進模型的參數,使參數和訓練樣本的似然概率逐漸增大,最后終止于一個極大點。直觀地理解EM算法,它也可被看作為一個逐次逼近算法:事先并不知道模型的參數,可以隨機選擇一套參數或者事先粗略地給定某個初始參數λ0,確定出對應于這組參數的最可能的狀態,計算每個訓練樣本的可能結果的概率,在當前的狀態下再由樣本對參數修正,重新估計參數λ,并在新的參數下重新確定模型的狀態,這樣,通過多次的迭代,循環直至某個收斂條件滿足為止,就可以使得模型的參數逐漸逼近真實參數。
EM算法的主要目的是提供一個簡單的迭代算法計算后驗密度函數,它的最大優點是簡單和穩定。
3.2 混合Laplace模型設計與實現
(1)數量性狀表型值的有限混合Laplace分布
假定數量性狀在某分離的表型值X為一隨機變量,其概率密度為:

(2)有限混合正態分布參數的極大似然估計(MLE)



圖2 EM仿真結果

(4)極大似然估計EM算法中成分分布數k的確定
EM迭代由確定k開始并完成,對于一個確定的k,EM迭代除了給出所估計的參數外,還給出相應的對數似然函數值l?k)。
1977年,Akaike根據最大熵原理得出了極大似然函數與熵之間的關系。根據這個關系,有限混合正態分布參數的極大似然估計中,確定k的最佳方案應使AIC準則最小。
3.3 實例仿真
混合模型參與個數k=2,取上述純語音、含babble噪聲信噪比SNR=5,0 dB的語音。EM仿真結果見圖2。
純語音、含babble噪聲信噪比SNR=5,0 dB語音的混合Laplace分布模型的平均誤差RMS分別為5.38、0.45、0.59,它們的混合Laplace分布模型的平均誤差RMS分別為1.96、0.44、0.46,效率分別提升了63.57%、2.22%、22.03%。
本文研究了Laplace分布模型與Laplace混合分布模型,做了理論分析與實驗仿真。Laplace混合分布模型階數的選定值可用AIC、BIC準則確定,也可選密度函數的加權系數確定,先把階數給得稍大點,若其最小的系數小于5%以下除去這項,這樣就把參數估計與確定模型階數一并進行。為了提高參數估計的軟件速度也可采用類似有限混合正態分布[8]估計方法,每步先估計各分密度的均值與方差,再依Laplace分布參數與它們之間的關系求出。本文提出了語音Laplace混合分布建模新思路,這些研究為語音增強、語音編碼、語音識別等提供了新的理論基礎。
[1]韓紀慶.語音信號處理[M].北京:清華大學出版社,2010.
[2]趙力.語音信號處理[M].北京:機械工業出版社,2009.
[3]周彬,鄒霞,張雄偉.基于多元Laplace語音模型的語音增強算法[J].電子與信息學報,2012,43(7):1568-1573.
[4]鄒霞,吳其前,張雄偉.一種基于Laplacian語音模型的語音增強算法[J].信號處理,2007,23(2):195-199.
[5]Zou Xia,Zhang Xiongwei.Speech enhancement using an mmse short time dct coefficients estimator with supergaussian speech modeling[J].Journal of Electronics,2007,24(3):332-337.
[6]應娜,趙曉暉,董婧,等.一種諧波正弦語音模型的最佳相位估計算法[J].電子學報,2009,37(4):860-863.
[7]孫艷,于鳳芹.小波多分辨率的諧波正弦語音建模[J].計算機工程與應用,2011,47(17):151-153.
[8]粱巖,鮑長春,夏丙寅,等.基于高斯混合模型的壓縮域語音增強方法[J].電子學報,2012,40(10):2031-2038.
[9]劉明輝,黃中偉.結合高斯混合模型和VOT特征的音素發音錯誤檢測[J].科學技術與工程,2013(7):1789-1793.
[10]李德毅,劉常昱,淦文燕.正態云模型的重尾性質證明[J].中國工程科學,2011,13(4):20-23.
[11]陳琳,劉維奇.重尾分布族及其關系圖[J].高校應用數學學報,2009,24(2):166-174.
[12]Spib noise data[EB/OL].[2013-08-05].http://spib.rice.edu/ spib/select_noise.html.
[13]Speech&noise data[EB/OL].[2013-08-05].http://www. utdallas.edu/~loizou/speech/noizeus/.
[14]Dempster A P,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society,Series B(Methodological),1977,39(1):1-38.
[15]譚鮮明.有限正態混合模型的參數估計與應用[D].天津:南開大學,2005.
HOU Yubao,WANG Jingfang
College of Information Science and Engineering,Hunan International Economics University,Changsha 410205,China
For overweight tail characteristics of the speech signal,this paper proposes a mixed-laplace distribution acoustic model.Laplace mixture distribution model parameter estimation is discussed theoretically,and which can be achieved from the principles and algorithms.The maximum expected(Expectation Maximization,EM)algorithm has been applied to obtaining good results.The hybrid Laplace model has been creatively used to study speech signal processing.
mixture Laplace model;speech signal;Expectation Maximization(EM);kurtosis;heavy-tailed distribution
針對具有超重尾特性的語音信號,提出了混合拉普拉斯分布語音模型。從理論上探討了混合拉普拉斯分布模型的參數估計,從原理與算法得以實現。通過最大期望(Expectation Maximization,EM)算法取得了良好效果。創新運用混合拉普拉斯模型研究語音信號處理。
混合Laplace模型;語音信號;最大期望算法;峰度;重尾分布
A
TPl82
10.3778/j.issn.1002-8331.1310-0328
HOU Yubao,WANG Jingfang.Mixture Laplace distribution speech model research.Computer Engineering and Applications,2014,50(18):202-205.
侯玉寶(1982—),男,講師,主要研究方向:信號處理。E-mail:matlab_wjf@126.com
2013-10-25
2013-12-15
1002-8331(2014)18-0202-04
CNKI網絡優先出版:2014-01-26,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1310-0328.html