999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在R語言中實現Bayes方法對logistic的回歸分析

2016-08-07 11:53:57李曉毅付志慧
關鍵詞:方法模型

田 薇, 李曉毅, 付志慧

(沈陽師范大學 數學與系統科學學院, 沈陽 110034)

?

統計學

在R語言中實現Bayes方法對logistic的回歸分析

田 薇, 李曉毅, 付志慧

(沈陽師范大學 數學與系統科學學院, 沈陽 110034)

對于logistic回歸分析的處理辦法,一直采用的都是極大似然估計的EM算法,由于計算方法的固定及計算過程的復雜性,例如,該算法對于初值的選取要求很高,否則收斂速度很慢。Gibbs抽樣法作為一種高效靈活的估計方法廣泛應用于廣義線性回歸模型,其中Probit回歸模型由于聯系函數為正態分布,使得回歸系數的后驗分布為共軛正態,從而抽樣簡單快捷。而Logit模型的后驗分布比較復雜,無法直接抽取。本文基于增加數據的Gibbs抽樣方法,通過引入Plya-Gamma分布族的潛在變量,使得模型中的回歸系數參數的滿條件分布為共軛正態分布,從而回歸系數的馬氏鏈很容易構造,回歸系數的估計為后驗均值估計。通過一組實際數據,分別調用R語言Glm包和 BayesLogit包,并對比2種方法的估計結果,二者差別不大,表明Plya-Gamma潛變量Bayes估計法在處理logistic回歸模型時的可用性、準確性。

logistic回歸模型; Plya-Gamma分布; MCMC; R語言

0 引 言

logistic回歸模型常用在尋找危險因素、預測、判別3個方面。由于線性回歸模型只能分析連續型數據,具有很強的局限性,而實際中的logistic回歸用途是極為廣泛的,logistic回歸幾乎已經成了流行病學和醫學中最常用的分析方法,logit模型在處理屬性數據或分類數據方面極具優勢。在估計logistic回歸模型時,一般采用極大似然法。若引入合理的先驗分布函數,Bayes方法對于許多模型的參數估計問題一直特別有效,對提高統計推斷質量具有實際意義。另外,忽略參數的先驗信息,有時是一種浪費,甚至還會導致不合理的結論。logit回歸模型聯系函數為logistic分布函數,回歸系數的后驗分布無具體形式,需要采用Metropolis-Hastings抽樣法,該方法在應用過程中若建議分布選取的不合理,會導致接受概率很小,因此馬氏鏈收斂很慢。

本文嘗試使用一種由Albert提出的數據添加新方法,該方法在一定程度上區別于常見的數據添加方式。引入一個來自Plya-Gamma分布的隨機變量(具體的構造方法將在文中加以說明)。為了提高估計的質量,除了當前樣本數據,還可以利用客觀信息和經驗累積的信息,先驗信息的加入,參數估計更加穩定,也更合理和符合實際?;貧w系數的共軛分布仍為正態分布,使得抽樣及后驗估計很容易得到,更加方便計算。在R語言的BayesLogit程序包中,MCMC抽樣及數據處理均可得以實現。最后通過一組實際數據,利用Glm包實現傳統似然估計方法,并與MCMC估計方法相比較。

定義1 隨機變量X是帶有參數b(b>0),和c∈R的Plya-Gamma分布,其中變量Χ分布記為X~PG(b,c), 形式為

這里gk~Ga(b,1),是獨立的伽瑪隨機變量。

其中:Vw=(XTΩX+B-1)-1;mω=Vω(XTκ+B-1b);κ=(y1-n1/2,…,yN-nN/2);Ω為ωi的對角線矩陣。

接下來開始對上面所得到的抽樣方法進行演繹證明,先從一些定理和積分公式開始。

定理p(ω)為隨機變量ω的密度函數,且ω~PG(b,0),b>0。對于所有的a∈R,有下列恒等式:

其中κ=a-b/2 。

對式子(2)的非正態化聯合密度處理,可得ω的條件分布

通過定理和積分,可以得到第i個觀測值的似然函數為

(4)

其中p(ωi|ni,0)為帶參數隨機變量(ni,0),服從Plya-Gamma分布的密度函數。

在n組數據下,β的后驗條件分布為

從整理得到的分布形式知,β的后驗條件分布服從正態分布,即P(β|ω,y)∝N(mω,Vω)。

其中:mω=Vω(XTκ+B-1b);Vw=(XTΩX+B-1)-1。其理論依據為正態分布(方差已知)的共軛先驗還是正態分布。此處:z=(κ1/ω1,…,κN/ωN);Ω=diag(ω1,…,ωN)。由式(5)可知,β的條件分布為高斯似然,且先驗p(β)也服從高斯分布,因此該線性模型得以簡單計算。

2 模擬研究

在二項分布族中,logistic回歸模型是最重要的模型。對于響應變量Y有p個自變量(或稱為解釋變量),記為X1,X2,…,Xp。在p個自變量作用下出現成功的條件概率為P=P{Y=1|X1,X2,…,Xp},那么其logistic回歸模型可表示為

其中:稱β0為截距;稱β1,β2,…,βp為logistic回歸模型系數。

對上式作logit變換,logistic回歸模型可以變成下列線性形式:

可以使用線性回歸模型對參數進行估計,這也是logistic回歸模型屬于廣義線性模型的原因。

當logistic回歸模型的分布函數為

農村集體土地上不動產登記工作中,不動產登記權利人主體不一致的情況很常見,突出表現在以下3個方面:①規劃審批手續的建房人與土地審批手續的使用人不同;②土地使用權人與登記簿中房屋所有人不同;③房屋所有權與土地所有權人的主體不一致。

其聯合分布函數為

通常利用極大似然法,對該線性回歸模型中的參數進行估計。

通過一組實際數據,用R語言中BayesLogit包對數據進行處理,得到spambase數據包的其他特征數,詳見表1。并與原始方法得到的模型系數估計值進行比照,詳見表2(logistic回歸模型系數估計值表)。其結果表明利用BayesLogit方法處理logistic回歸分析問題的可行性。

表1 spambase數據包其他特征數Tab.1 spambase packet number of other features

表2 logistic回歸模型系數估計值表Tab.2 logistic regression coefficient estimates table

3 結 論

[ 1 ]GAMERMAN D. Sampling from the posterior distribution in generalized linear mixed models[J]. Statistics and Computing, 1997(7):57-68.

[ 2 ]HOLMAN R, GLAS C A W. Modeling non-ignorable missing data mechanisms with item response theory models[J]. BRIT J MATH STAT PSY, 2005,58(1):1-17.

[ 3 ]HAMBLETON R K. Fundamentals of item response theory[M]. NewYork:Sage Publication, 1991.

[ 4 ]RUBIN D B. Inference and missing data[J]. Biometrika, 1976,63(3):581-592.

[ 5 ]LITTLE R J A, RUBIN D B. Statistical analysis with missing data[M]. Manhattan:John Wiley&Sons, 2014.

[ 6 ]MASTERS G N.ARasch model for partial credit scoring[J]. Psychometrika, 1982,47(2):149-174.

[ 7 ]ALBERT J H. Bayesian estimation of normal ogive item response curves using Gibbs sampling[J]. J EDUCBEHAV STAT, 1992,17(3):251-269.

[ 8 ]JONES D H, NEDIAK M S. Item parameter calibration of LSAT items using MCMC approximation of Bayes posterior distribution[M]. Newtown:Law School Admission Coucil, 2005.

[ 9 ]GELMAN A, RUBIN D B. Inference from iterative simulation using multiple sequences[J]. STAT SCI, 1992:457-472.

[10]MARIS G,BECHGER T M. An introduction to the DAT Gibbs sampler for the two-parameter logistic(2PL) model and beyond[J]. International Journal of Methodology and Experimental Psychology, 2005,26(2):327-352.

[11]LUDLOW L H, O’LEARY M. Scoring omitted and not-reached items: practical data analysis implications[J]. EDUC PSYCHOL MEAS, 1999,59(4):615-630.

[12]HUISMAN M. Imputation of missing itemresponses:Some simple techniques[J]. QUAL QUANT, 2000,34(4):331-351.

[13]MURAKI E, BOCK R D. PARSCALE:IRT based test scoring and item analysis for graded open-ended exercises and performance tasks[M]. Scientific Software International, 1993.

[14]LORD F M. Maximum likelihood and Bayesian parameter estimation in item response theory[J]. J EDUC MEAS, 1986,23(2):157-162.

[15]MOUSTAKI I, KNOTT M. Weighting for item non-response in attitude scales by using latent variable models with covariates[J]. J R STAT SOC B, 2000,163(3):445-459.

Bayesian inference for logistic models in R Language

TIAN Wei, LI Xiaoyi, FU Zhihui

(College of Mathemetics and Systems Science, Shenyang Normal University, Shenyang 110034, China)

For the approach to logistic regression analysis, using a maximum likelihood estimation are the EM, due to the complexity and fixity of calculation, for example, the initial value of the algorithm is demanding, otherwise the convergence rate is slow. Gibbs sampling as an efficient and flexible estimation is widely used for generalized linear regression models, due to the contact function is normal in Probit model, so that the posterior distribution of the regression coefficients is Conjugated Normality and sampling is easier.The posterior of Logit model is complex, unable to directly extract, based on Gibbs to increase data by introducing latent variables Plya-Gamma distribution families, making the regression coefficient parameters of full conditional distribution Conjugated Normality, thereby Markov chains regression coefficient is easy to construct the estimated regression coefficients for the posterior mean estimate. Through a set of actual data, respectively, calling R language package of BayesLogit and Glm, and comparing the results of the two methods, the difference is small, indicating Plya-Gamma latent variable Bayesian estimation in dealing with the accuracy of logistic regression model.

logistic regression model; Plya-Gamma distribution; MCMC; R language

2016-04-16。

國家自然科學基金青年基金資助項目(11201313)。

田 薇(1990-),女,遼寧葫蘆島人,沈陽師范大學碩士研究生; 通信作者: 李曉毅(1956-),女,遼寧葫蘆島人,沈陽師范大學教授。

1673-5862(2016)03-0321-04

O212.8

A

10.3969/ j.issn.1673-5862.2016.03.014

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲福利一区二区三区| 自慰网址在线观看| 国产亚洲欧美在线中文bt天堂| 又大又硬又爽免费视频| 国产精品视频导航| 日韩资源站| 亚洲免费福利视频| 这里只有精品在线| 日韩区欧美区| 四虎精品国产AV二区| 看国产一级毛片| 亚洲天堂免费在线视频| 9丨情侣偷在线精品国产| 免费看av在线网站网址| 日本少妇又色又爽又高潮| 国产自在线拍| 亚洲AV无码乱码在线观看代蜜桃 | 日韩无码视频专区| 亚洲av无码专区久久蜜芽| 日本不卡免费高清视频| 最新日本中文字幕| 亚洲精品视频免费| 欧美一道本| 国产在线拍偷自揄观看视频网站| 99精品国产自在现线观看| 亚洲天堂免费| 免费在线成人网| 国产成人精品高清不卡在线| 亚洲三级成人| 精品国产乱码久久久久久一区二区| www.99在线观看| 97久久超碰极品视觉盛宴| 91人妻在线视频| 成人在线观看不卡| 国产精品女熟高潮视频| 日本一区二区三区精品国产| 日韩在线网址| 亚洲国产日韩欧美在线| 亚洲精品图区| 在线观看免费AV网| 91无码网站| 成人年鲁鲁在线观看视频| 欧美亚洲国产视频| 欧美亚洲欧美| 久久精品91麻豆| 国产精品久久久久无码网站| 午夜国产大片免费观看| 污视频日本| 国产本道久久一区二区三区| 免费无码网站| 国产午夜一级淫片| 国产精品丝袜视频| 玖玖免费视频在线观看| 国产一级在线播放| 亚洲,国产,日韩,综合一区| 久久福利网| 国产精品国产主播在线观看| 99视频在线精品免费观看6| jizz在线观看| 亚洲人成高清| 99久久这里只精品麻豆| 国产色婷婷| 亚洲AV永久无码精品古装片| 在线观看国产网址你懂的| 色婷婷丁香| 五月天综合网亚洲综合天堂网| 四虎永久在线视频| 免费在线色| 国产精品第三页在线看| 最近最新中文字幕免费的一页| 日本在线免费网站| 一本大道无码日韩精品影视| 免费一级毛片在线观看| 欧美一级片在线| 97国产成人无码精品久久久| 国产91无码福利在线 | 亚洲视频四区| 毛片网站观看| 久久久久亚洲精品无码网站| 久久天天躁狠狠躁夜夜躁| 免费av一区二区三区在线| 国产亚卅精品无码|