易瑩瑩
(南京郵電大學,南京 210046)
貝葉斯方法通過利用現有的樣本信息和某具體的先驗信息來推導參數的后驗分布,從而得出更為合理的推斷。它是由英國學者T.貝葉斯的死后發表的一篇論文《論有關機遇問題的求解》最先提出,隨著Jeffreys、Wald、Savage、De Finetti等貝葉斯學者對貝葉斯方法在觀點、方法和理論上不斷的完善,使得貝葉斯方法漸趨成熟。
在貝葉斯方法中,先驗分布的選擇是至關重要的,無論選擇何種分布,都必須以合理性和計算的方便性作為選擇標準。然而,目前并沒有統一的先驗分布構造方法,理想狀態下,先驗分布應該能夠容納主觀地表達個人信念,但將其定量化并不容易,特別在高維情形下非常困難。一旦所作的假設或選擇是不恰當的,就會得到不恰當的后驗估計。由于很難在參數空間上找到恰當的先驗分布,因此,有學者轉而尋求非參數方法。Dirichlet過程是基于Dirichlet分布而生成的,雖然從Dirichlet過程抽取的分布都是離散分布,但是由于不能僅使用有限個參數對它進行描述,因而把它歸類為非參數分布。
本文根據國內外的大量文獻,對現有的基于Dirichlet過程的非參數貝葉斯方法進行了系統的綜述,介紹了這一領域的最新進展,并討論了進一步研究的方向。
非參數貝葉斯方法由Ferguson在1973年發表的一篇論文《A Bayesian Analysis of Some Nonparametric Problems》正式提出?;贔erguson的觀點,對于非參數問題,對先驗分布有兩方面的要求:(a)樣本空間中,先驗分布必須有足夠大的支撐,甚至是包括空間中所有的分布。這就保證了先驗選擇的靈活性與廣泛性,以便于找到最適合模型的分布函數。(b)在真概率分布中,給定樣本觀測值的后驗分布必須易于分析。這就要求后驗分布或者是共軛分布,或者是容易分析,從而保證在實際中的應用價值。然而這兩個要求常常是相悖的。Ferguson證明Dirichlet過程滿足這兩個要求,且它具有一些優良性質。
設G是可測空間(?,Ω)上的有限非零測度,Ω是由?的子集構成的σ代數。令α是正實數,如果對任意j=1,2,…,k和?的任意有限可測剖分(Β1,Β2,…,Βk),隨 機 向 量 (G(Β1),…,G(Βk)) 服 從 參 數 為(αG0(Β1),αG0(Β2),…,αG0(Βk))的 Dirichlet分布,將它記作(G(Β1),…,G(Βk))~Dir((αG0(Β1),αG0(Β2),…,αG0(Βk))),那么 ,稱G是 (?,Ω) 上 的 Dirichlet過 程 ,記 為G~DP(α,G0)。Dirichlet過程的靈活性就在于它允許模型參數的實際先驗分布G隨機偏離基礎測度G0。并且,Dirichlet過程的后驗分布依然是Dirichlet過程這就使得其后驗推斷的計算比較易于分析。從直觀上講,它是先驗分布G0和經驗分布估計的加權平均,前者的權重為,后者的權重為很明顯可以看出,當α→0時,Dirichlet的后驗分布也就是其經驗分布。
針對Dirichlet過程的諸多優良性質,有許多學者(Ferguson,1973;Blackwell&MacQueen,1973;Aldous,1985;Sethuraman,1994)提出構造Dirichlet過程的方法。
既然可以用Gamma分布表示Dirichlet分布,那么同樣道理,也可以利用Gamma過程來表示Dirichlet過程(Ferguson,1973)。Gamma分布 Γ(α,1)(α>0)的特征函數為:(1)其中,現在定義一組新的變量J1,J2,…,它滿足分布:


令式(1)中的α=α(?),P是 (?,Ω)上的隨機概率測度,(Β1,Β2,…,Βk)
是?的任意可測剖分,那么有(P(B1),…,P(Bk))∈Dirichlet(α(B1),…,α(Bk))③Ferguson(1973)[17]給出了證明。證明如下:由于,則 Mj=(δVj(B1),…,δVj(Bk))服從獨立多項分布 (Q(B1),…,Q(Bk)),且與具 有相 同 的 分 布 。 這 里 的是 Gamma 過 程 ,G(t)滿 足因此,是獨立隨機變量,且有根據 Z是這些獨立 Gamma 變量的和,所以有1,因此,P滿足Dirichlet過程的定義。
1.2.2 使用波里亞罐子模型構造
許多概率分布可以通過使用罐子模型獲得,對應Dirichlet分布的罐子模型是Pólya罐子模型(Blackwell&MacQueen,1973)。在有限域中,從Dirichlet分布抽樣等價于產生一個Pólya序列。Blackwell&MacQueen證明這個結果可以擴展到無限域情形,從Dirichlet過程抽樣等價于產生一個Pólya序列。
假設一個罐子中總共裝了α個球,顏色為j的球最初個數為αj④這里假設αj是整數。(1≤j≤k)。現在每隔單位時間隨機地從罐子中取出一個球后把原球放回,并同時加入一個與該球顏色相同的球。假設第i次從罐子中取出球的顏色為j的概率為p(Xi=j),很容易知道有:

通過不斷重復從給定X1,…,Xn-1下抽取Xn的過程構造序列X1,…,Xn-1的分布,令n≥1,有:

這個隨機序列是無窮可交換的,即P(X1,…,Xn)=P(Xξ(1),…,Xξ(n)),符號ξ表示任意順序。根據de Finetti定理⑤de Finetti(1935)定理:如果序列 y1,y2,…,yn是無窮可交換的,那么存在一個隨機分布G,使得該序列服從獨立同分布G:

,隨機分布
P
(
G
)的先驗分布是Dirichlet過程
DP
(
α
,
G
0
),因此,這也就證實了Dirichlet過程的存在性。
1.2.3 使用中國餐館過程構造
Dirichlet過程與中國餐館過程緊密聯系(Aldous,1985)。假設一個中國餐館里有無數張桌子1,2,…,每張桌子能容納下無數個顧客。進入餐館中的每個顧客用i表示,第一個顧客1進入餐館后選定第一張桌子坐下。第二個顧客2進入餐館后要么會和第一個顧客坐在一起,要么會另選一張桌子坐下。……。第n個顧客會以的概率選擇已經占有的桌子,其中c表示選擇該桌子坐下的人數;以的概率選擇另一張新桌子。α是此過程的標量參數,θi表示顧客i占有的桌子,每種座位排列構成一個剖分。
從上可以看出,任何兩種座位排列只要它們包括相同的成份個數并且每個成份個數的大小相等,則這兩種座位排列的概率相等。比如,有10個顧客進入一個餐館,排列(1,3,8),(2,5,9,10),(4,6,7)⑥其概率為:和排列(1,4,6),(2,3,5,7),(8,9,10)⑦其概率為:的概率相等。因此,該序列是無窮可交換序列。根據de Finetti定理,也證實了Dirichlet過程的存在性。
如果將每張桌子看成是一個群,選擇該桌子坐下的顧客看作是具有相同的取值,令所有的顧客表示為X1,…,Xn,將其中唯一的取值表示為X*1,…,X*m,具有該相同取值的顧客人數分別為n1,…,nm,那么,第Xn+1個顧客選擇的預測分布為:


從式(5)中可以看出,nk越大,第Xn+1個顧客越有可能選擇已選擇過的桌子坐下,即越大的群越容易變大(richer-gets-richer)。這個構造表明Dirichlet過程具有“集群(clustering)”性質。
1.2.4 通過stick-breaking模型構造
Sethuraman(1994)給出了另一種Dirichlet過程的構造方法。假設某棍子單位長度為1。先在β1的長度將棍子折斷,β1為剛剛折斷的棍子長,剩下的棍子長為1-β1,然后每次將剩下的棍子以的長度折斷,因此,在第i次折斷后棍子的長度變為重復無窮次,由此構造的序列滿足條件因此,我們可以定義隨機測度G為:

Sethuraman證明用這個方法構造的隨機概率測度G滿足Dirichlet過程DP(α,G0)。
盡管基于Dirichlet過程的非參數貝葉斯模型形式靈活,但是由于靈活所付出的代價是其計算相當復雜。這極大地阻礙了其發展,直至最近隨著計算機性能的提高和計算算法的改進,該方法開始得到了廣泛的應用。將其算法進行歸納可以分為兩種,分別是蒙特卡羅抽樣(MCMC sampling)算法和變分推斷(Variational inference)算法。
1.3.1 蒙特卡羅抽樣算法
由于蒙特卡羅算法可以獲得模型的“精確”推斷,它逐漸成為人們估計Dirichlet過程的首選。利用蒙特卡羅算法計算需要建立馬爾可夫鏈對未知變量進行抽樣模擬,當馬爾可夫鏈達到穩態分布時即得到所求的后驗分布。它實現了由計算機從后驗分布模擬抽樣然后用樣本估計值來推斷總體特征,其基本思想是:依據馬爾可夫鏈性質,從條件后驗概率分布中連續抽取出多組樣本,則這些樣本最后將會各自收斂到某種分布,由這些模擬的抽樣值計算的各種特征值,如期望值、方差等,可直接用來描述各該參數后驗概率分布的特征,而不必再通過多重積分求解邊際后驗概率分布。于是,如何基于蒙特卡羅的穩態分布從概率密度函數中抽樣,成為運用蒙特卡羅算法的關鍵。
Escobar(1994)和 Escobar&West(1995)提出波里亞罐子Gibbs抽樣法(Pólya urn Gibbs sampler),雖然該方法能產生一條遍歷的馬爾可夫鏈,但是該鏈收斂于穩定分布的速度會很慢,這是由于許多觀察值可能會具有相同的分布值。為此,MacEachern&Müller(1998)提出加速波里亞罐子Gibbs抽樣法(accelerated Pólya urn Gibbs sampler),該方法能提高抽樣效率,但是它只適用于先驗分布是共軛分布情形。Neal(2000)在MacEachern&Müller的研究基礎上,將先驗分布擴展到了非共軛情形,當增加的變量個數為1時,它等價于MacEachern&Müller(1998)中的“no gaps”算法。其它研究包括Bush&MacEachern(1996)、Walker&Damien(1998)、Ishwaran&James(2001)、Green&Richardson(2001)、Dahl(2005)、Jain&Neal(2007)、Dahl et al.(2008)等等。在最新的研究中,Papaspiliopoulos&Roberts(2008)和 Walker(2007)分別提出了回顧抽樣(retrospective sampling)和切片抽樣(slice sampling),這兩種方法都是基于條件增加(conditional augmentation)的基礎上,使得復雜的多層結構變得更加靈活,抽樣結果更加精確。蒙特卡羅算法的不足之處是其抽樣速度比較慢,特別對于大量高維數據。
1.3.2 變分推斷算法
變分推斷算法廣泛應用于漸進概率的推斷。它的基本思想是使用Jesen不等式⑧對于可觀察變量x和隱變量h,Jesen不等式是指:來得到對數似然函數的一個可變下界。本質上說,就是使用帶索引的變分參數得到一個下界函數族,然后通過使兩者的KL距離最小,從而得到一個最緊的下界。Blei&Jordan(2006)和Kurihara et al.(2006)提出了stick-breaking變分推斷算法。Wang&Blei(2009)在前人基礎上提出了嵌套中國餐館變分推斷算法。這些學者發現變分推斷算法使用易處理的一簇分布來逼近模型中間隱變量的后驗分布,從而一方面能夠加快計算速度,另一方面可以避免最大似然估計的參數奇異問題。但與蒙特卡羅算法相比,它的缺陷是其抽樣結果的精確度要更差些。
目前,Dirichlet過程在貝葉斯統計和機器學習中都是研究的熱門領域。它放松了先驗分布為參數分布的限制,將先驗分布擴展到了非參數分布,從而使得后驗分布的推斷更為靈活。它正處于不斷發展研究的階段,還有許多問題可以進行拓展分析,主要體現在以下幾個方面。
(1)改進計算算法。如前所述,蒙特卡羅抽樣算法的精確度較高,但是抽樣速度較慢,而變分推斷算法雖然速度較快,但是精確度不太高。因此,設計出一種既能在精確度方面也能在抽樣速度方面都改進的算法是值得深入分析的問題。
(2)擴展非參數先驗分布Dirichlet過程。比如對Pitman-Yor過程、層級Dirichlet過程(hierarchical Dirichlet process)、嵌套Dirichlet過程(nested Dirichlet process)、印第安蝴蝶過程(Indian buffet process)以及依賴Dirichlet過程(dependent Dirichlet process)等等的分析,使得非參數貝葉斯估計方法更加的完善。
(3)應用非參數貝葉斯方法。目前非參數貝葉斯方法的應用研究領域主要是密度估計、分層線性模型、有序數據以及生存數據的分析。除了進一步在這些領域進行深入分析以外,還可以將其應用于探索聚類分析、空間統計估計、分位回歸估計等等。
非參數貝葉斯估計方法結合了貝葉斯方法和非參數方法的許多優點,既充分利用樣本信息,又將一些信息不充分的變量納入模型,因而,它可以充分描述和概括模型的特點,隨著計算算法的提出和計算技術的提高,它的研究具有廣闊的前景。
非參數貝葉斯估計方法有著廣闊的理論研究和實際應用前景,其研究才剛剛起步,但它自出現以來一直是相關領域的研究熱點,相關的非參數過程以及新的算法是近年來的研究重點。非參數貝葉斯方法具有許多優勢,能夠解決更復雜的問題。本文綜述了非參數貝葉斯方法的發展,并說明了其未來研究的關鍵問題和發展方向。
[1]茆詩松.貝葉斯統計[M].北京:中國統計出版社,2005.
[2]Kotz&吳喜之.現代貝斯統計學[M].北京:中國統計出版社,2000.
[3]Ferguson,T.A Bayesian Analysis of Some Nonparametric Problems[J].The Annals of Statistics,1973,1(2).
[4]Blackwell,D.,MacQueen,J.B.Ferguson Distribution via Pólya urn Schemes[J].The Annals of Statistics,1973,(1).
[5]Aldous,D.J.Exchangeability and Related Topics.In P.-L.Hennequin(ed.),Ecole d é té de Probabilités de Saint-Flour XIII.Lecture Notes in Math.1117[M].Berlin:Springer-Verlag,1999.
[6]Sethurman,J.A Constructive Definition of Dirichlet Priors[J].Statisti?ca Sinica,1994,(4).
[7]Doss,H.Bayesian Nonparametric Estimation for Incomplete Data Via Successive Substitution Sampling[J].Annals of Statistics,1994,(22).
[8]Muliere,P.,Tardella,L.Approximating Distributions of Random Func?tional of Ferguson Dir-ichlet Priors[J].Journal of Statistics,1998,26(2).
[9]Geweke,J.Evaluating the Accuracy of Sampling-based Approaches to Calculating Posterior Moments[M].Oxford:Clarendon Press,1992.
[10]Escobar,M.D.Estiamting Normal Means with a Dirichlet Process Pri?or[J].Journal of the American Statistical Association,1994,(89).
[11]Escobar,M.,West,M.Bayesian Density Estimation and Inference Us?ing Mixture[J].Journal of the American Statistical Association,1995,90(7).
[12]MacEachern,S.N.Estimationg Normal Means with a Conjugate Style Dirichelt Process Prior[J].Communications in Statistics:Simulation and Computation,1994,(23).
[13]MacEachern,S.N.Müller,P.Estimating Mixtures of Dirichlet Process Models[J].Journal of Computational and Graphical Statistics,1998,7(6).
[14]Müller,P.,Quintana,F.Nonparametric Bayesian Data Analysis[J].Sta?tistical Science,2004,19(1).
[15]Neal,R.M.Markov Chain Sampling Methods for Dirichlet Process Mixture Models[J].Journal of Computational and Graphical Statistics,2000,9(2).
[16]Bush,C.A.,MacEachern,S.N.A Semiparametric Bayesian Model for Randomized Block Designs[J].Biometrika,1996,(83).
[17]Walker,S.,Damien,P.Sampling Methods for Bayesian Nonparametric Inference Involving Stochastic Processes[M].New York:Springer-Ver lag,2001.
[18]Ishwaran,H.,James,L.F.Gibbs Sampling Methods for Stick-breaking Priors[J].Journal of the American Statistical Association,2001,(96).
[19]Green,P.J.,Richardson,S.Modelling Heterogeneity with and without the Dirichlet Process[J].Journal of Statistics,2001,(28).
[20]Dahl,D.B.Sequentially-allocated Merge-split Sampler for Conju?gate and Nonconjugate Diric-hlet Process Mixture Models[J].Jour?nal of Computational and Graphical Statistics,2005,(11).
[21]Jain,S.,Neal,R.M.Splitting and Merging Components of a Nonconju?gate Dirichlet Process Mixture Model[J].Bayesian Analysis,2007,2(3).
[22]Dahl,D.B.Mo,Q.,Vannucci,M.Simultaneous Inference for Multiple Testing and Clustering Via a Dirichlet Process Mixture Model[J].Sta tistical Modelling,2008,8(1).
[23]姚宗靜.基于Dirichlet過程的非參數貝葉斯分析[D]成都:西南交通大學,2007.
[24]Papaspiliopoulos,O.,Roberts,G.O.Retrospective Mcmc for Dirichlet Process Hierarchical Models[J].Biometrika,2008,(95).
[25]Walker,S.Sampling the Dirichlet Mixture Model with Slices[J].Comm.Statist.Sim.Comput,2007,(36).
[26]Blei,D.,Jordan,M.Variational Inference for Dirichlet Process Mix?tures[J].J.Bayesian Anal,2006,(1).
[27]Kurihara,K.,M.Welling,N.A.Vlassis.Accelerated Variational Dirichlet Process Mixtures[Z].In NIPS,2006.
[28]C.Wang,D.Blei.Variational Inference for the Nested Chinese Res?taurant Process[Z].Neural Information Processing Systems,2009.
[29]Ghahramani,Z.Nonparametric Bayesian Methods[EB/OL].http://www.gatsby.ucl.ac.uk,1998.