999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Dirichlet過程的非參數貝葉斯方法研究綜述

2012-07-24 09:34:46易瑩瑩
統計與決策 2012年4期
關鍵詞:方法

易瑩瑩

(南京郵電大學,南京 210046)

0 引言

貝葉斯方法通過利用現有的樣本信息和某具體的先驗信息來推導參數的后驗分布,從而得出更為合理的推斷。它是由英國學者T.貝葉斯的死后發表的一篇論文《論有關機遇問題的求解》最先提出,隨著Jeffreys、Wald、Savage、De Finetti等貝葉斯學者對貝葉斯方法在觀點、方法和理論上不斷的完善,使得貝葉斯方法漸趨成熟。

在貝葉斯方法中,先驗分布的選擇是至關重要的,無論選擇何種分布,都必須以合理性和計算的方便性作為選擇標準。然而,目前并沒有統一的先驗分布構造方法,理想狀態下,先驗分布應該能夠容納主觀地表達個人信念,但將其定量化并不容易,特別在高維情形下非常困難。一旦所作的假設或選擇是不恰當的,就會得到不恰當的后驗估計。由于很難在參數空間上找到恰當的先驗分布,因此,有學者轉而尋求非參數方法。Dirichlet過程是基于Dirichlet分布而生成的,雖然從Dirichlet過程抽取的分布都是離散分布,但是由于不能僅使用有限個參數對它進行描述,因而把它歸類為非參數分布。

本文根據國內外的大量文獻,對現有的基于Dirichlet過程的非參數貝葉斯方法進行了系統的綜述,介紹了這一領域的最新進展,并討論了進一步研究的方向。

1 基于Dirichlet過程的非參數貝葉斯方法研究

1.1 概述

非參數貝葉斯方法由Ferguson在1973年發表的一篇論文《A Bayesian Analysis of Some Nonparametric Problems》正式提出?;贔erguson的觀點,對于非參數問題,對先驗分布有兩方面的要求:(a)樣本空間中,先驗分布必須有足夠大的支撐,甚至是包括空間中所有的分布。這就保證了先驗選擇的靈活性與廣泛性,以便于找到最適合模型的分布函數。(b)在真概率分布中,給定樣本觀測值的后驗分布必須易于分析。這就要求后驗分布或者是共軛分布,或者是容易分析,從而保證在實際中的應用價值。然而這兩個要求常常是相悖的。Ferguson證明Dirichlet過程滿足這兩個要求,且它具有一些優良性質。

設G是可測空間(?,Ω)上的有限非零測度,Ω是由?的子集構成的σ代數。令α是正實數,如果對任意j=1,2,…,k和?的任意有限可測剖分(Β1,Β2,…,Βk),隨 機 向 量 (G(Β1),…,G(Βk)) 服 從 參 數 為(αG0(Β1),αG0(Β2),…,αG0(Βk))的 Dirichlet分布,將它記作(G(Β1),…,G(Βk))~Dir((αG0(Β1),αG0(Β2),…,αG0(Βk))),那么 ,稱G是 (?,Ω) 上 的 Dirichlet過 程 ,記 為G~DP(α,G0)。Dirichlet過程的靈活性就在于它允許模型參數的實際先驗分布G隨機偏離基礎測度G0。并且,Dirichlet過程的后驗分布依然是Dirichlet過程這就使得其后驗推斷的計算比較易于分析。從直觀上講,它是先驗分布G0和經驗分布估計的加權平均,前者的權重為,后者的權重為很明顯可以看出,當α→0時,Dirichlet的后驗分布也就是其經驗分布。

1.2 構造Dirichelt過程的方法

針對Dirichlet過程的諸多優良性質,有許多學者(Ferguson,1973;Blackwell&MacQueen,1973;Aldous,1985;Sethuraman,1994)提出構造Dirichlet過程的方法。

12.1 通過對Gamma過程一般化構造

既然可以用Gamma分布表示Dirichlet分布,那么同樣道理,也可以利用Gamma過程來表示Dirichlet過程(Ferguson,1973)。Gamma分布 Γ(α,1)(α>0)的特征函數為:(1)其中,現在定義一組新的變量J1,J2,…,它滿足分布:

令式(1)中的α=α(?),P是 (?,Ω)上的隨機概率測度,(Β1,Β2,…,Βk)

是?的任意可測剖分,那么有(P(B1),…,P(Bk))∈Dirichlet(α(B1),…,α(Bk))③Ferguson(1973)[17]給出了證明。證明如下:由于,則 Mj=(δVj(B1),…,δVj(Bk))服從獨立多項分布 (Q(B1),…,Q(Bk)),且與具 有相 同 的 分 布 。 這 里 的是 Gamma 過 程 ,G(t)滿 足因此,是獨立隨機變量,且有根據 Z是這些獨立 Gamma 變量的和,所以有1,因此,P滿足Dirichlet過程的定義。

1.2.2 使用波里亞罐子模型構造

許多概率分布可以通過使用罐子模型獲得,對應Dirichlet分布的罐子模型是Pólya罐子模型(Blackwell&MacQueen,1973)。在有限域中,從Dirichlet分布抽樣等價于產生一個Pólya序列。Blackwell&MacQueen證明這個結果可以擴展到無限域情形,從Dirichlet過程抽樣等價于產生一個Pólya序列。

假設一個罐子中總共裝了α個球,顏色為j的球最初個數為αj④這里假設αj是整數。(1≤j≤k)。現在每隔單位時間隨機地從罐子中取出一個球后把原球放回,并同時加入一個與該球顏色相同的球。假設第i次從罐子中取出球的顏色為j的概率為p(Xi=j),很容易知道有:

通過不斷重復從給定X1,…,Xn-1下抽取Xn的過程構造序列X1,…,Xn-1的分布,令n≥1,有:

這個隨機序列是無窮可交換的,即P(X1,…,Xn)=P(Xξ(1),…,Xξ(n)),符號ξ表示任意順序。根據de Finetti定理⑤de Finetti(1935)定理:如果序列 y1,y2,…,yn是無窮可交換的,那么存在一個隨機分布G,使得該序列服從獨立同分布G:

,隨機分布

P

(

G

)的先驗分布是Dirichlet過程

DP

(

α

,

G

0

),因此,這也就證實了Dirichlet過程的存在性。

1.2.3 使用中國餐館過程構造

Dirichlet過程與中國餐館過程緊密聯系(Aldous,1985)。假設一個中國餐館里有無數張桌子1,2,…,每張桌子能容納下無數個顧客。進入餐館中的每個顧客用i表示,第一個顧客1進入餐館后選定第一張桌子坐下。第二個顧客2進入餐館后要么會和第一個顧客坐在一起,要么會另選一張桌子坐下。……。第n個顧客會以的概率選擇已經占有的桌子,其中c表示選擇該桌子坐下的人數;以的概率選擇另一張新桌子。α是此過程的標量參數,θi表示顧客i占有的桌子,每種座位排列構成一個剖分。

從上可以看出,任何兩種座位排列只要它們包括相同的成份個數并且每個成份個數的大小相等,則這兩種座位排列的概率相等。比如,有10個顧客進入一個餐館,排列(1,3,8),(2,5,9,10),(4,6,7)⑥其概率為:和排列(1,4,6),(2,3,5,7),(8,9,10)⑦其概率為:的概率相等。因此,該序列是無窮可交換序列。根據de Finetti定理,也證實了Dirichlet過程的存在性。

如果將每張桌子看成是一個群,選擇該桌子坐下的顧客看作是具有相同的取值,令所有的顧客表示為X1,…,Xn,將其中唯一的取值表示為X*1,…,X*m,具有該相同取值的顧客人數分別為n1,…,nm,那么,第Xn+1個顧客選擇的預測分布為:

從式(5)中可以看出,nk越大,第Xn+1個顧客越有可能選擇已選擇過的桌子坐下,即越大的群越容易變大(richer-gets-richer)。這個構造表明Dirichlet過程具有“集群(clustering)”性質。

1.2.4 通過stick-breaking模型構造

Sethuraman(1994)給出了另一種Dirichlet過程的構造方法。假設某棍子單位長度為1。先在β1的長度將棍子折斷,β1為剛剛折斷的棍子長,剩下的棍子長為1-β1,然后每次將剩下的棍子以的長度折斷,因此,在第i次折斷后棍子的長度變為重復無窮次,由此構造的序列滿足條件因此,我們可以定義隨機測度G為:

Sethuraman證明用這個方法構造的隨機概率測度G滿足Dirichlet過程DP(α,G0)。

1.3 后驗計算算法

盡管基于Dirichlet過程的非參數貝葉斯模型形式靈活,但是由于靈活所付出的代價是其計算相當復雜。這極大地阻礙了其發展,直至最近隨著計算機性能的提高和計算算法的改進,該方法開始得到了廣泛的應用。將其算法進行歸納可以分為兩種,分別是蒙特卡羅抽樣(MCMC sampling)算法和變分推斷(Variational inference)算法。

1.3.1 蒙特卡羅抽樣算法

由于蒙特卡羅算法可以獲得模型的“精確”推斷,它逐漸成為人們估計Dirichlet過程的首選。利用蒙特卡羅算法計算需要建立馬爾可夫鏈對未知變量進行抽樣模擬,當馬爾可夫鏈達到穩態分布時即得到所求的后驗分布。它實現了由計算機從后驗分布模擬抽樣然后用樣本估計值來推斷總體特征,其基本思想是:依據馬爾可夫鏈性質,從條件后驗概率分布中連續抽取出多組樣本,則這些樣本最后將會各自收斂到某種分布,由這些模擬的抽樣值計算的各種特征值,如期望值、方差等,可直接用來描述各該參數后驗概率分布的特征,而不必再通過多重積分求解邊際后驗概率分布。于是,如何基于蒙特卡羅的穩態分布從概率密度函數中抽樣,成為運用蒙特卡羅算法的關鍵。

Escobar(1994)和 Escobar&West(1995)提出波里亞罐子Gibbs抽樣法(Pólya urn Gibbs sampler),雖然該方法能產生一條遍歷的馬爾可夫鏈,但是該鏈收斂于穩定分布的速度會很慢,這是由于許多觀察值可能會具有相同的分布值。為此,MacEachern&Müller(1998)提出加速波里亞罐子Gibbs抽樣法(accelerated Pólya urn Gibbs sampler),該方法能提高抽樣效率,但是它只適用于先驗分布是共軛分布情形。Neal(2000)在MacEachern&Müller的研究基礎上,將先驗分布擴展到了非共軛情形,當增加的變量個數為1時,它等價于MacEachern&Müller(1998)中的“no gaps”算法。其它研究包括Bush&MacEachern(1996)、Walker&Damien(1998)、Ishwaran&James(2001)、Green&Richardson(2001)、Dahl(2005)、Jain&Neal(2007)、Dahl et al.(2008)等等。在最新的研究中,Papaspiliopoulos&Roberts(2008)和 Walker(2007)分別提出了回顧抽樣(retrospective sampling)和切片抽樣(slice sampling),這兩種方法都是基于條件增加(conditional augmentation)的基礎上,使得復雜的多層結構變得更加靈活,抽樣結果更加精確。蒙特卡羅算法的不足之處是其抽樣速度比較慢,特別對于大量高維數據。

1.3.2 變分推斷算法

變分推斷算法廣泛應用于漸進概率的推斷。它的基本思想是使用Jesen不等式⑧對于可觀察變量x和隱變量h,Jesen不等式是指:來得到對數似然函數的一個可變下界。本質上說,就是使用帶索引的變分參數得到一個下界函數族,然后通過使兩者的KL距離最小,從而得到一個最緊的下界。Blei&Jordan(2006)和Kurihara et al.(2006)提出了stick-breaking變分推斷算法。Wang&Blei(2009)在前人基礎上提出了嵌套中國餐館變分推斷算法。這些學者發現變分推斷算法使用易處理的一簇分布來逼近模型中間隱變量的后驗分布,從而一方面能夠加快計算速度,另一方面可以避免最大似然估計的參數奇異問題。但與蒙特卡羅算法相比,它的缺陷是其抽樣結果的精確度要更差些。

2 未來發展方向

目前,Dirichlet過程在貝葉斯統計和機器學習中都是研究的熱門領域。它放松了先驗分布為參數分布的限制,將先驗分布擴展到了非參數分布,從而使得后驗分布的推斷更為靈活。它正處于不斷發展研究的階段,還有許多問題可以進行拓展分析,主要體現在以下幾個方面。

(1)改進計算算法。如前所述,蒙特卡羅抽樣算法的精確度較高,但是抽樣速度較慢,而變分推斷算法雖然速度較快,但是精確度不太高。因此,設計出一種既能在精確度方面也能在抽樣速度方面都改進的算法是值得深入分析的問題。

(2)擴展非參數先驗分布Dirichlet過程。比如對Pitman-Yor過程、層級Dirichlet過程(hierarchical Dirichlet process)、嵌套Dirichlet過程(nested Dirichlet process)、印第安蝴蝶過程(Indian buffet process)以及依賴Dirichlet過程(dependent Dirichlet process)等等的分析,使得非參數貝葉斯估計方法更加的完善。

(3)應用非參數貝葉斯方法。目前非參數貝葉斯方法的應用研究領域主要是密度估計、分層線性模型、有序數據以及生存數據的分析。除了進一步在這些領域進行深入分析以外,還可以將其應用于探索聚類分析、空間統計估計、分位回歸估計等等。

3 結語

非參數貝葉斯估計方法結合了貝葉斯方法和非參數方法的許多優點,既充分利用樣本信息,又將一些信息不充分的變量納入模型,因而,它可以充分描述和概括模型的特點,隨著計算算法的提出和計算技術的提高,它的研究具有廣闊的前景。

非參數貝葉斯估計方法有著廣闊的理論研究和實際應用前景,其研究才剛剛起步,但它自出現以來一直是相關領域的研究熱點,相關的非參數過程以及新的算法是近年來的研究重點。非參數貝葉斯方法具有許多優勢,能夠解決更復雜的問題。本文綜述了非參數貝葉斯方法的發展,并說明了其未來研究的關鍵問題和發展方向。

[1]茆詩松.貝葉斯統計[M].北京:中國統計出版社,2005.

[2]Kotz&吳喜之.現代貝斯統計學[M].北京:中國統計出版社,2000.

[3]Ferguson,T.A Bayesian Analysis of Some Nonparametric Problems[J].The Annals of Statistics,1973,1(2).

[4]Blackwell,D.,MacQueen,J.B.Ferguson Distribution via Pólya urn Schemes[J].The Annals of Statistics,1973,(1).

[5]Aldous,D.J.Exchangeability and Related Topics.In P.-L.Hennequin(ed.),Ecole d é té de Probabilités de Saint-Flour XIII.Lecture Notes in Math.1117[M].Berlin:Springer-Verlag,1999.

[6]Sethurman,J.A Constructive Definition of Dirichlet Priors[J].Statisti?ca Sinica,1994,(4).

[7]Doss,H.Bayesian Nonparametric Estimation for Incomplete Data Via Successive Substitution Sampling[J].Annals of Statistics,1994,(22).

[8]Muliere,P.,Tardella,L.Approximating Distributions of Random Func?tional of Ferguson Dir-ichlet Priors[J].Journal of Statistics,1998,26(2).

[9]Geweke,J.Evaluating the Accuracy of Sampling-based Approaches to Calculating Posterior Moments[M].Oxford:Clarendon Press,1992.

[10]Escobar,M.D.Estiamting Normal Means with a Dirichlet Process Pri?or[J].Journal of the American Statistical Association,1994,(89).

[11]Escobar,M.,West,M.Bayesian Density Estimation and Inference Us?ing Mixture[J].Journal of the American Statistical Association,1995,90(7).

[12]MacEachern,S.N.Estimationg Normal Means with a Conjugate Style Dirichelt Process Prior[J].Communications in Statistics:Simulation and Computation,1994,(23).

[13]MacEachern,S.N.Müller,P.Estimating Mixtures of Dirichlet Process Models[J].Journal of Computational and Graphical Statistics,1998,7(6).

[14]Müller,P.,Quintana,F.Nonparametric Bayesian Data Analysis[J].Sta?tistical Science,2004,19(1).

[15]Neal,R.M.Markov Chain Sampling Methods for Dirichlet Process Mixture Models[J].Journal of Computational and Graphical Statistics,2000,9(2).

[16]Bush,C.A.,MacEachern,S.N.A Semiparametric Bayesian Model for Randomized Block Designs[J].Biometrika,1996,(83).

[17]Walker,S.,Damien,P.Sampling Methods for Bayesian Nonparametric Inference Involving Stochastic Processes[M].New York:Springer-Ver lag,2001.

[18]Ishwaran,H.,James,L.F.Gibbs Sampling Methods for Stick-breaking Priors[J].Journal of the American Statistical Association,2001,(96).

[19]Green,P.J.,Richardson,S.Modelling Heterogeneity with and without the Dirichlet Process[J].Journal of Statistics,2001,(28).

[20]Dahl,D.B.Sequentially-allocated Merge-split Sampler for Conju?gate and Nonconjugate Diric-hlet Process Mixture Models[J].Jour?nal of Computational and Graphical Statistics,2005,(11).

[21]Jain,S.,Neal,R.M.Splitting and Merging Components of a Nonconju?gate Dirichlet Process Mixture Model[J].Bayesian Analysis,2007,2(3).

[22]Dahl,D.B.Mo,Q.,Vannucci,M.Simultaneous Inference for Multiple Testing and Clustering Via a Dirichlet Process Mixture Model[J].Sta tistical Modelling,2008,8(1).

[23]姚宗靜.基于Dirichlet過程的非參數貝葉斯分析[D]成都:西南交通大學,2007.

[24]Papaspiliopoulos,O.,Roberts,G.O.Retrospective Mcmc for Dirichlet Process Hierarchical Models[J].Biometrika,2008,(95).

[25]Walker,S.Sampling the Dirichlet Mixture Model with Slices[J].Comm.Statist.Sim.Comput,2007,(36).

[26]Blei,D.,Jordan,M.Variational Inference for Dirichlet Process Mix?tures[J].J.Bayesian Anal,2006,(1).

[27]Kurihara,K.,M.Welling,N.A.Vlassis.Accelerated Variational Dirichlet Process Mixtures[Z].In NIPS,2006.

[28]C.Wang,D.Blei.Variational Inference for the Nested Chinese Res?taurant Process[Z].Neural Information Processing Systems,2009.

[29]Ghahramani,Z.Nonparametric Bayesian Methods[EB/OL].http://www.gatsby.ucl.ac.uk,1998.

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 99久久99视频| 国产高清精品在线91| 亚洲综合日韩精品| 国产精品观看视频免费完整版| 亚洲欧美日韩成人高清在线一区| 亚洲精品自产拍在线观看APP| 高清免费毛片| a亚洲天堂| 99视频在线看| 国产激情在线视频| 国产黄色免费看| 中文字幕在线播放不卡| 99久久国产自偷自偷免费一区| 嫩草国产在线| 久久国产香蕉| 五月婷婷激情四射| 亚洲视频黄| 爽爽影院十八禁在线观看| 国产AV毛片| 国产第一页免费浮力影院| 精品无码一区二区三区在线视频| 日韩无码真实干出血视频| 国产一区二区精品福利| 99久久99这里只有免费的精品| 日本久久久久久免费网络| 日本亚洲欧美在线| 国产在线视频福利资源站| 91精品国产自产在线老师啪l| 久久综合色88| AV不卡国产在线观看| 九色在线视频导航91| 国产精品毛片一区视频播| 四虎永久在线精品国产免费| 国产成人91精品免费网址在线| 国产精鲁鲁网在线视频| 女同久久精品国产99国| 无码精油按摩潮喷在线播放| 天堂成人在线视频| 国产特一级毛片| 国产sm重味一区二区三区| 欧美精品在线免费| 日韩精品无码免费专网站| 久久精品视频亚洲| 欧美天堂久久| 97视频精品全国在线观看| 一本色道久久88综合日韩精品| 免费a级毛片18以上观看精品| 一本大道视频精品人妻| 免费一级全黄少妇性色生活片| 她的性爱视频| 色九九视频| 精品少妇人妻av无码久久| 中文字幕人成人乱码亚洲电影| 蜜芽一区二区国产精品| 国产波多野结衣中文在线播放| 国产又粗又猛又爽| 亚洲精品无码不卡在线播放| 2021国产在线视频| 成人一级免费视频| 亚洲午夜18| 动漫精品中文字幕无码| 久久夜色撩人精品国产| 欧美狠狠干| 国产精品污视频| 亚洲精品黄| 色综合日本| 91香蕉视频下载网站| 国产极品嫩模在线观看91| 亚洲啪啪网| 91麻豆国产视频| 黄片在线永久| 亚洲人成网站在线播放2019| 激情亚洲天堂| 亚洲AV无码精品无码久久蜜桃| 玖玖精品视频在线观看| 亚洲日韩Av中文字幕无码| 欧美69视频在线| 欧美在线视频a| 国产美女91视频| vvvv98国产成人综合青青| 天天综合天天综合| 亚洲中文字幕23页在线|