樊菊蘭
摘 要 有限混合模型是用于分析復雜問題的一個有效的建模工具。在諸多的混合模型中,混合高斯模型的應用更為廣泛,尤其是在圖像處理、人臉識別、通信和信號處理等。理論及數值試驗充分證明:混合高斯分布模型能夠逼近任何一個光滑分布,而對該模型參數的有效估計是準確分析、模擬復雜問題的必要前提。EM算法自從提出,就已成為一種非常流行地處理不完全數據的極大似然估計的方法。恰好我們經常處理的樣本數據集通常可看作是不完全數據,進而EM算法就為混合高斯模型的參數估計提供了一種標準框架。
關鍵詞 EM算法 R軟件 混合模型 高斯混合 參數估計
中圖分類號:O212 文獻標識碼:A
0引言
EM 算法就是一種一般的從“不完全數據”中求解模型參數的極大似然估計的方法,它是在觀察數據的基礎上添加一些“潛在數據”,從而簡化計算并完成一系列簡單的極大化或模擬。EM 算法的每一步迭代中包括一個 E 步――期望步(Expectation Step)和一個M 步——極大似然步(Maximum Likelihood Step)。算法的優勢在于它在一定意義下可靠地收斂到局部極大,也就是說在一般條件下每次迭代都增加似然函數值,當似然函數值是有界的時候,迭代序列收斂到一個穩定值的上確界。缺點是當缺失數據比例較大時候,它的收斂比率比較緩慢。混合分布是有限個分布的組合,它綜合了各個分支的性質和特點,它具有許多優勢:
(1)可以用來模擬復雜的數據或問題。由于混合模型擁有許多不同類型的混合形式,有相同總體的混合,也有各種不同總體的混合。因此,可以根據數據的不同情況,來選擇與之相符的混合模型來進行模擬。
(2)為同性質和異性質的模擬提供了一個方法。當m= l時,該模型就是一個單一分布。當m〉l時,它就是分布的線性組合。在現實生活中,許多現象都非常復雜,不同元素往往具有各不相同的性質,這時,混合模型是一個最合適的工具,因為它可以把元素所滿足的分布都綜合起來,組合成一個新的分布,在這個新的混合分布的基礎上,再進行下一步的分析。它具比單一分布有更多的益處。
綜上所述,混合分布可以對大量的數據進行有效的模擬,尤其是在對數據先驗知識了解較少的情況下,混合分布是一個很好的選擇,它更加靈活、有效。
1同分布同類型的混合分布
一種類型的混合分布有:二項分布,指數分布,泊松分布,正態分布等等。下面我們以二項分布和正態分布為例研究混合分布的EM算法的過程。
1.1 L階混合二項分布參數估計的EM算法
L階混合二項分布的概率密度函數為
其中,且為未知參數。
現在設是來自于混合二項分布的樣本。我們的目的是求未知參數的極大似然估計。為此先考査其對數似然函數
不難看化直接求它的最大值點很難,我們下面將推導該問題的EM算法:
引入潛在變量,其中,且相互獨立,是取值為0或1的指示變量,表示來自于第j個分支密度,且
1.2 M階混合正態分布(高斯分布)的EM算法估計
隨著社會、科學的不斷發展,混合模型已經越來越被大家熟悉和認識。有限混合高斯分布的以其獨有的特性更是被大家熟知,并被用于實際生活中的各個領域。根據混合模型的介紹我們可以知道,有限混合正態分布就是有限個(2個或2個以上)正態分布的加權組合。它們的組合具有比單一高斯分布更豐富的性質和特點,并且當混合正態分布的階數不斷增加時,它可以逼近任何連續的概率分布。正因為如此,它的應用非常廣泛,如在股票、金融、證券、醫藥、農業等領域都可以用到它。如今,利用它對數據進行擬合,即對其參數的估計已經成為人們非常關心的問題。每個分支都有兩個參數需要估計,并且待估計參數的先驗分布也比較復雜。
1.2.1當M己知時,用EM算法估計參數
1.2.2當M未知時,基于聚類的EM算法
以上的EM算法是設定混合元個數在計算過程中是不變的,而在實際應用中,混合高斯模型中的混合元個數M一般未知。下面就M未知時給出一種參數估計方法,該方法是建立在聚類算法和EM算法基礎上的一種方法,即初始狀態的混合元數比最終得到的混合元數要大(通常情況下將初始混合數設定為最終混合數的兩倍以上能得到比較好的結果)。這樣,在建模過程中可以將相近的兩個高斯分量并為一個聚類,然后在重新有EM算法進行建模,以此往復,最終得到想要的混合數,具體步驟如下
(1)設置初始混合數(一般將初始混合數設置為目標混合數的兩倍以上)。
(2)用以上方法算得到元混合高斯分布參數估計為。
(3)尋找相近(指均值和方差接近)的兩個高斯分量,將它們合并成一個新的高斯分量,并且將混合數減1。合并規則如下:設兩個相近高斯分量的參數分別為和,合并后新的高斯分量的參數為,則
(4)這時混合個數減小一個,返回步驟(2)進行EM算法估計,依次下去直到混合數達到需要的混合數M即可。
基于聚類的EM算法在識別率上有所提高,而且其實際運算速度也加快了。這是因為在將聚類算法融合進來以后,相似的高斯分量合并在一起,因而提高了識別率;并且通過不斷地合并相似的高斯分量,使EM算法的收斂速度加快,迭代次數降低,從而提高了運算效率.聚類方法的選取和聚類數目的判定是聚類分析中經常遇到的兩大問題一般說來,混合元個數越大,用樣本對總體擬合度越高,但是計算越復雜,如何選取合適的混合元個數很關鍵,混合模型聚類常通過貝葉斯信息準則(BIC)選擇模型。計算不同模型的BIC值,一般情況下模型的BIC值越大,該模型就越符合實際。BIC值的計算依賴于模型的參數估計,因此EM算法直接影響BIC值的計算。
1.2.3基于EM算法的實例
以3—分支混合高斯分布模型為例做模擬試驗來說明EM算法估計混合高斯模型參數的具體過程并且驗證該算法的可行性,實驗步驟如下:
(1)按照上述產生隨機樣本點的方法隨機產生2000個三分支二維混合高斯分布模型的樣本點。
(2)設定EM算法迭代計算過程中所涉及到的各參數的初始值,在本試驗中初始值的選擇為:先對混合比例執行平均分配原則,各分支的均值從各樣本的最大值與最小值之間隨機產生,各分支參數的初始值及估計結果如下:
從上表可以看出,通過大樣本的數值模擬試驗,證實了用EM算法對混合高斯分布模型的概率密度函數做參數估計時,其收斂速度比較快。尤其是在大樣本的情況下,其估計結果更加接近參數的真值。
2結語
EM算法可通過對不完全數據進行擴充之后成為完全數據,再對參數進行極大似然估升,使得分析的結果更加有效。
參考文獻
[1] 肖枝洪,朱強.統計模擬及其R實現[M].武漢:武漢大學出版社,2010.
[2] 連軍艷. EM算法及其改進在混合模型參數估計中的應用研究[D].西安:長安大學, 2006.
[3] 王愛平,張功營,劉方. EM算法研究與應用[J].計算機技術與發展, 2009,19(09):108-110.
[4] 楊基棟.EM算法理論及其應用[J].安慶師范學院學報(自然科學版),2009,15(04): 30-35.
[5] 張士峰,混合正態分布參數極大似然估計的EM算法[J].飛行器測控學報,2004,23(04):47-52.
[6] Dempster,A.P.&D.B.Rubin; . Maximum likelihood estimation from incomplete data via the EM algorithm (with discussion[C].Journal of the Royal Statistical Society Series B,1977:1-3.