王景中 尉朋朋
(北方工業(yè)大學(xué) 北京 100144)
基于無限逆狄利克雷混合模型的變分學(xué)習(xí)*
王景中 尉朋朋
(北方工業(yè)大學(xué) 北京 100144)
近期的研究表明,有限逆狄利克雷混合模型是一種建模非高斯數(shù)據(jù)的重要的模型。然而,它存在參數(shù)估計及模型選擇困難的問題。利用常用的EM算法無法對其進(jìn)行準(zhǔn)確地估計參數(shù)及選擇最佳的混合分量數(shù)。因此,論文研究無限逆狄利克雷混合模型,提出一種變分近似推理算法對其進(jìn)行學(xué)習(xí)。該算法能夠同時解決這兩個問題。為了驗證算法的有效性,論文在人工數(shù)據(jù)集上進(jìn)行了大量的實驗,實驗結(jié)果表明利用變分貝葉斯推理來估計混合無限逆狄利克雷分布是一種非常有效的方法。
逆狄利克雷; 變分推理; 貝葉斯估計; 參數(shù)估計; 模型選擇
當(dāng)今,大量數(shù)據(jù)的統(tǒng)計分析與數(shù)據(jù)建模在科學(xué)工程領(lǐng)域中的地位變得越發(fā)重要。有限混合模型(Finite Mixture Models,FMM)就是分析復(fù)雜數(shù)據(jù)的一個概率建模工具,它提供了一種用簡單密度擬合復(fù)雜密度的學(xué)習(xí)方法。其中,高斯混合模型(Gaussian Mixture Models,GMM)作為有限混合模型中的一種,依賴其模型參數(shù)方便計算、靈活性能強(qiáng)、能以很高的精度逼近任意概率密度等優(yōu)點,成為應(yīng)用最為廣泛的有限混合模型。
但是,對于高斯分布來說,高斯分布是無界的,而有些實際數(shù)據(jù)卻是有界或半有界的[3~4]。大量研究表明高斯混合模型對非高斯分布數(shù)據(jù)的描述并不理想[3~4]。近年來,研究者提出了若干的其它分布模型,如文獻(xiàn)[5]提出貝葉斯非對稱混合模型,在醫(yī)學(xué)圖像分割領(lǐng)域得到了很好地性能;文獻(xiàn)[6]提出非對稱學(xué)生t混合模型,并成功應(yīng)用于非高斯數(shù)據(jù)的聚類。目前,非高斯統(tǒng)計模型研究已經(jīng)成為了一個熱門的研究領(lǐng)域[5~9]。
對于有限分布來說,有限混合模型主要研究的問題有兩點:混合模型參數(shù)的估計和混合分量數(shù)的確定(通常也被稱為模型選擇)。對于混合分量數(shù),如果選擇的過多,會引起模型過擬合(Over-fitting);而混合分量數(shù)過少則會引起模型的欠擬合(Under-fitting)。而無限混合模型(Infinite Mixture Models,InMM)可以很好地解決這個問題:無限混合模型的分量數(shù)是無限的,會自動確定準(zhǔn)確的分量數(shù),避免了模型選擇的問題。所以,無限混合模型主要研究的問題是混合模型參數(shù)估計。
綜上所述,結(jié)合非高斯分布與無限分布的優(yōu)點,即無限非高斯混合模型(Infinite non-Gauss mixture model,InnGMM),既可以擬合非高斯分布的數(shù)據(jù),又可以避免模型過擬合、欠擬合問題,并避開模型選擇問題,是一個好的研究重點。
本文提出了一種基于無限逆狄利克雷混合模型的變分貝葉斯方法,使得該算法在模型聚類上有很好的效果。
通過有限逆狄利克雷模型入手,引出無限狄利克雷混合模型:假設(shè)具有M個分量的有限逆狄利克雷混合模型的定義為[8]
(1)

(2)
IDir(xn|αm)是代表D維逆狄利克雷分布的概率密度函數(shù)[9],其表達(dá)式為
(3)

p(
(4)
根據(jù)stick-breaking描述可知,π的先驗分布是一個Beta分布:
(5)
根據(jù)給定的隱變量Z的條件分布,可得數(shù)據(jù)集X的條件分布為
p(χ|,
(6)
在進(jìn)行變分貝葉斯估計前,需要為模型參數(shù)ζ指定適當(dāng)?shù)南闰灧植肌S捎跓o限逆狄利克雷分布的共軛先驗分布中存在高維積分計算問題,于是本文選擇Gamma分布作為無限逆狄利克雷分布的近似的先驗分布[10]。先驗分布為
(7)
其中pmd>0,qmd>0,并假設(shè)無限逆狄利克雷模型參數(shù)相互獨立。
3.1 算法介紹
無限混合模型的參數(shù)學(xué)習(xí)經(jīng)典算法有EM算法和Bayes估計法。其中EM算法需要預(yù)先指定混合分量數(shù)M、過度依賴參數(shù)初始值等,從而易產(chǎn)生欠擬合和過擬合等問題;而Bayes估計法可以通過Bayes算法將模型參數(shù)的先驗分布轉(zhuǎn)化為后驗分布,從而確定模型的參數(shù),這樣就可以避免擬合問題。但是求解Bayes模型的后驗分布會涉及高維積分計算的問題,需要用近似推理算法[11~13],它被用來逼近真實的貝葉斯推斷,能夠有效地解決這個問題。近似推理算法分兩種:隨機(jī)近似和確定性近似。隨機(jī)近似中主要的算法有馬爾科夫鏈蒙特卡羅(Markov Chain Monte Carlo,MCMC)算法[14],但該算法局限于小規(guī)模的數(shù)據(jù)集,同時其收斂速度慢。確定性近似方法中主要的算法有拉普拉斯近似推理算法[15~16],其在單峰的模型上有很好的效果,但無法對無限混合模型這種多峰模型進(jìn)行有效的后驗近似。
對于以上各種算法的優(yōu)缺點,本文提出一種變分貝葉斯方法,該方法在Bayes估計法的基礎(chǔ)上,利用stick-breaking構(gòu)造建立起一種逆狄利克雷混合過程,在變分推理過程中采用截斷作用,并自動反復(fù)修正截斷模型,使得模型選擇和推理過程有機(jī)地結(jié)合在一起,并利用后驗得到關(guān)于模型參數(shù)的分布,從而在一定程度上避免了模型選擇過程中的過擬合問題。
3.2 算法過程

(8)
其中〈·〉n≠s表示除n=s之外的所有服從Qn(Ωn)的期望。受到文獻(xiàn)[20]的啟發(fā),可以在M值上做一個變分分布的截斷,比如當(dāng)m>M時:
(9)
截斷級M是一個變化的參數(shù),可以任意初始化,而且在變分學(xué)習(xí)的過程中自動最優(yōu)化。因此,通過采用棒斷裂性表示和因式分解假設(shè),可以獲得:

(10)
通過式(8),可以得到每一個變量變化后的后驗概率的最優(yōu)結(jié)果:
(11)
(12)
(13)
參數(shù)更新方程中的期望值如下
〈znm〉=rnm
(14)
(15)
(16)
(17)
其中ψ(·)是定義為ψ(a)=dlnΓ(a)/da的雙伽馬函數(shù)。
由于每一個變分變量的解是與其它變量的期望值相互耦合的,所以模型的優(yōu)化可以通過一個類似期望最大化(EM)算法來求解,完整的算法可以概括如下:
1) 初始化:選擇初始階段混合分量數(shù)M=15,以及初始化超參數(shù)pmd、qmd、um、vm等的值,其中{pmd,qmd}={1,0.1}。采用K均值(K-Means)算法初始化rnm的值。
2) 變分步驟:使用當(dāng)前的模型參數(shù)分布估計式(14)~(17)的期望值。

4) 重復(fù)步驟2)和3)直至算法收斂。

6) 忽略混合系數(shù)M小于閾值(本實驗選取的閾值為10-5)的分量并且確定最終的分量數(shù)。
為了驗證本文所提出的變分貝葉斯算法(記變分無限逆狄利克雷混合模型為varInIDMM,Variational Infinite Inverted Dirichlet Mixture Model)的性能,在合成數(shù)據(jù)集上進(jìn)行了大量的實驗。試驗中各參數(shù)的初始值選擇如下:初始混合分量數(shù)為15,超參數(shù)(pmd,qmd)=(1,0.1),閾值為10-5,初始混合權(quán)重和樣本值見表1。
以下通過對合成數(shù)據(jù)的實驗給出本文所提算法(varInIDMM)的性能。試驗中用程序?qū)崿F(xiàn)并生成了可以指定維數(shù)、分量數(shù)和權(quán)重的服從InIDMM分布的四個2維合成數(shù)據(jù)集,其中樣本容量不同(分別為400、800、800、1000)。進(jìn)行以下實驗。
4.1 實際參數(shù)與不同合成數(shù)據(jù)集的估計參數(shù)對比

4.2 概率密度
圖1給出了變分貝葉斯算法對于四個合成數(shù)據(jù)集學(xué)習(xí)得到的概率密度圖,由圖可見,InIDMM的概率密度函數(shù)既可以是對稱的,也可以是非對稱的,因此它對比例數(shù)據(jù)有很強(qiáng)的描述能力。

圖1 合成數(shù)據(jù)集變分學(xué)習(xí)后的混合密度
4.3 模型選擇后的有效分量
算法初始化時給定的混合逆狄利克雷分量個數(shù)為15,由于變分貝葉斯算法設(shè)置了隱變量,每次迭代循環(huán)中都要首先更新超參數(shù)的值,然后會重新計算各個分量的權(quán)值。當(dāng)隱變量所指示的分量在加權(quán)求和權(quán)重過小時,該分量就是冗余分量,可忽略它的存在,即認(rèn)為Znm=0。變分算法對于四個合成數(shù)據(jù)集的有效分量學(xué)習(xí)結(jié)果如圖2所示。由此可見,四個合成數(shù)據(jù)集的混合分量數(shù)分別為:2、3、4、5,混合權(quán)重分別為(0.5,0.5)、(0.25,0.25,0.5)、(0.25,0.25,0.25,0.25)、(0.2,0.2,0.2,0.2,0.2),混合分量數(shù)和混合權(quán)重均符合實際樣本參數(shù),證明該算法最終收斂后通過模型選擇。

圖2 模型選擇后的有效分量
4.4 算法的迭代次數(shù)和收斂時間
統(tǒng)計本文變分貝葉斯算法的收斂速度,表2量化的給出了算法對于四個合成數(shù)據(jù)集學(xué)習(xí)的收斂時間(單位為:s)和迭代次數(shù)。由此可見,本文提出的varInIDMM算法在簇數(shù)和樣本數(shù)量增加的情況下,收斂時間增加較少,基本處于一個穩(wěn)定的區(qū)間內(nèi);迭代次數(shù)也總體小于600次。總體優(yōu)于其他算法。

表1 實際參數(shù)與不同合成數(shù)據(jù)集的估計參數(shù)

表2 算法的迭代次數(shù)和收斂時間(s)
對于無限逆狄利克雷混合模型(InIDMM)的模型參數(shù)估計問題,本文提出了一種變分貝葉斯學(xué)習(xí)方法。該方法可以很好地解決貝葉斯模型的后驗分布會涉及高維積分計算困難的問題。大量的仿真實驗驗證了該方法能夠有效地估計模型參數(shù)和混合權(quán)重,并大大地加快了算法的計算速度。此外,通過實驗統(tǒng)計了變分貝葉斯算法的參數(shù)結(jié)果和迭代時間等數(shù)據(jù),并與實際參數(shù)進(jìn)行了對比:在估計精度上有很好的結(jié)果,在聚類問題上有更好的性能。因此該算法是有效和可行的。變分貝葉斯算法將可用于比例數(shù)據(jù)統(tǒng)計建模、無監(jiān)督學(xué)習(xí)和自然語言處理等領(lǐng)域。
[1] Bishop C M. Pattern Recognition and Machine Learning[M]. NewYork, NY, USA: Springer-Verlag,2006:461-571.
[2] Permuter H, Francos J, Jermyn I. A study of Gaussian Mixture Models of Color and Texture Features for Image Classification and Segmentation[J]. Pattern Recognition,2006,39(4):695-706.
[3] Thanh M N, Wu Q M J. Gaussian Mixture Model Based Spatial Neighborhood Relationships for Pixel Labeling Problem[J]. IEEE Transaction on System, Man,and cybernetic, part B,2012,42(1):193-202.
[4] Constantinopoulos C, Titsias MK, Likas A. Bayesian Feature and Model Selection for Gaussian Mixture Models[J]. IEEE Transactions on Patterns Analysis and Machine Intelligence,2006,28(6):1013-8.
[5] Nguyen T M, Wu Q M J, Zhang H. Bayesian Bounded Asymmetric Mixture Model with Segmentation Application[J]. IEEE Journal of Biomedical and Health Informatics,2014,18(1):109-118.
[6] Nguyen T M, Wu Q M J. Bounded Asymmetrical Student’s-t Mixture Model[J]. IEEE Transactation on Cybernetics,2014,44(6):857-869.
[7] Fan W T, Bouguila, Ziou N. Variaional learning for finite Dirichlet mixture models and applications[J]. IEEE Transaction on Neural Networks and Learning Systems,2012,23(5):762-774.
[8] Bdiri T, Bouguila N. Positive vectors clustering using interted Dirichlet finite mixture Models[J]. Expert Systems with Applications,2012,39(2):1869-1882.
[9] Beal M J, Ghahramani G. The variational Bayesian EM algorithm for incomplete data: With Application to Scoring Graphical Model Structures. Bayesian Statistics, J. M. Bernardo, M. J. Bayarri, J. O. Berger, A. P. Dawid, D. Heckerman, A. F. M. Smith, and M. West, Eds[M]. New York: Oxford Univ. Press,2003:453-464.
[10] Ma Zhan-yu, Arne Leijon. Bayesian estimation of beta mixture models with variational inference[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(33):2160-2173.
[11] Kulesza A, Pereira F. Structured Learning with Approximate Inference[J]. Advances in Neural Information Processing Systems,2007,20:785-792.
[12] Breslow N E, Clayton D G. Approximate Inference in Generalized Linear Mixed Models[J]. Journal of the American Statistical Association,1993,88(421):9-25.
[13] Grimmer J. An Introduction to Bayesian Inference via Variational Approximations[J]. Political Analysis,2011,19(1):32-47.
[14] Robert C P, Casella G. Monte Carlo Statistical Methods[M]. New York: Springer-Verlag,1999.
[15] Husmeier D. The Bayesian Evidence Scheme for Regularizing Probability-density Estimating Neural Networks[J]. Neural Computing,2000,11(12):2685-2717.
[16] Shun Z, McCullagh P. Laplace Approximation of High Dimensional Integrals[J]. Journal of the Royal Statistical Society. Series B (Methodological),1995,57(4):749-760.
[17] Lewis S M, Raftery A E. Estimating Bayes Factors via Posterior Simulation with the Laplace-Metropolis Estimator[J]. Journal of the American Statistical Assocation,1997,92(438):648-655.
[18] J Zhang. The mean field theory in em procedures for markov random fields[J]. Signal Processing, IEEE Transactions on,1992,40:2570-2583.
[19] G Parisi. Statistical Field Theory[M]. New Jersey: Addison-Wesley,1988.
[20] D M Blei, M I Jordan. Variational inference for dirichlet process mixtures[J]. Bayesian Analysis,2005,1:121-144.
Variational Learning Based on Infinite Inverted Dirichlet Mixture Model
WANG Jingzhong YU Pengpeng
(North China University of Technology, Beijing 100144)
Recent studies have shown that finite inverse Dirichlet mixture model is an important model for modeling non Gauss data. However, it has the problem of parameter estimation and model selection. The EM algorithm can not be used to accurately estimate the parameters and select the optimal number of mixture components. Therefore, this paper studies the infinite inverse Dirichlet mixture model, presents a novel variational approximate inference algorithm for learning. The algorithm can solve these two problems at the same time. In order to verify the effectiveness of the algorithm, this paper carries out experiments on artificial data sets. Experimental results show that the variational Bayesian inference to estimate mixed infinite inverse Dirichlet distribution is a very effective method.
inverted Dirichlet, variational inference, Bayesian estimation, parameter estimation, model selection Class Number TP393
2016年10月9日,
2016年11月17日
國家自然科學(xué)基金(編號:61371142);北方工業(yè)大學(xué)校內(nèi)專項(編號:XN060)資助。
王景中,男,碩士,教授,研究方向:數(shù)字圖像處理與識別、計算機(jī)通信網(wǎng)絡(luò)與信息安全。尉朋朋,男,碩士研究生,研究方向:機(jī)器學(xué)習(xí)、信息安全。
TP393
10.3969/j.issn.1672-9722.2017.04.010