李楚進 張翠霞


摘 要 為避免模型出現(xiàn)過擬合,將自適應(yīng)LASSO變量選擇方法引入二元選擇分位回歸模型,利用貝葉斯方法構(gòu)建Gibbs抽樣算法并在抽樣中設(shè)置不影響預(yù)測結(jié)果的約束條件‖β‖=1以提高抽樣值的穩(wěn)定性.通過數(shù)值模擬,表明改進的模型有更為良好的參數(shù)估計效率、變量選擇功能和分類能力.
關(guān)鍵詞 應(yīng)用統(tǒng)計數(shù)學(xué);分位回歸;自適應(yīng)LASSO; 變量選擇;二元選擇模型
中圖分類號 O212.1 文獻標(biāo)識碼 A
Abstract Binary quantile regression model with the adaptive LASSO penalty is proposed for overfitting problems by presenting a Bayesian Gibbs sampling algorithm to estimate parameters. In the process of sampling, the restriction on ‖β‖=1 is motivated to improve the stability of the sampling values. Numerical analysis show there are better improvements of the proposed method in parameter estimation, variable selection and classification.
Key words applied statistics & mathematics; quantile regression; adaptive LASSO; variable selection; binary regression
1 引 言
二元選擇模型是一種離散選擇模型,被廣泛用于經(jīng)濟、醫(yī)學(xué)、生物和教育等領(lǐng)域,其常見形式有線性概率模型、Probit模型和Logit模型等.這些模型均為條件均值模型,刻畫的是響應(yīng)變量的平均水平.當(dāng)數(shù)據(jù)出現(xiàn)尖峰后尾或結(jié)構(gòu)突變等特征時,用條件均值并不能夠準(zhǔn)確揭示變量之間的關(guān)系.Koenker和Bassett(1978)[1]系統(tǒng)介紹了分位回歸的思想.分位回歸聚焦在條件分位數(shù)上,通過變動分位水平來揭示特定情形下響應(yīng)變量與解釋變量的關(guān)系,挖掘的信息更加具體、豐富.特別的,Manski(1975)[2]闡述了二元選擇分位回歸的思想,并提出模型參數(shù)的極大得分估計.Yu和Moyeed(2001)[3]證明了在不考慮數(shù)據(jù)原始分布時,利用非對稱拉普拉斯分布(ALD)來建立貝葉斯分位數(shù)回歸是一種非常自然且有效的方法.Benoit和Van den Poel(2012)[4]年提出了基于ALD 的二元選擇分位回歸模型的貝葉斯估計方法.
為了消除因缺少重要解釋變量而造成的模型偏差,通常將盡可能多的變量納入模型,而這又可能會使模型出現(xiàn)過擬合問題.因此,如何從眾多變量中選出重要變量來構(gòu)建模型意義重大.Tibshirani(1996) [5]提出LASSO方法,通過對解釋變量施加非線性約束以實現(xiàn)變量的壓縮與選擇.但實際上,解釋變量對響應(yīng)變量的影響程度往往是各不相同的,從而添加LASSO懲罰項得到的估計量一般是有偏的.Zou(2006) [6]考慮引入權(quán)重向量來克服LASSO過度壓縮參數(shù)的問題,提出了改進的自適應(yīng)LASSO算法;并且指出,如果能合理選擇權(quán)重向量,自適應(yīng)LASSO的效果會很好.Benoit、Alhamzawi和Yu(2013)[7]將LASSO方法引入二元選擇分位回歸模型以研究高維問題,利用Laplace似然比與似然先驗構(gòu)建估計,并通過貝葉斯MCMC實現(xiàn)參數(shù)估計,證實模型改進效果很好.Hashem、Vinciontti、 Alhamzawi和Yu(2016)[8]將組LASSO引入二元選擇分位回歸模型,利用貝葉斯Gibbs抽樣估計模型參數(shù),并實現(xiàn)對群組內(nèi)變量的選擇.Ji、Lin和Zhang(2012)[9]用隨機搜索變量方法結(jié)合二元選擇分位回歸進行建模,實證和數(shù)值分析都有很好的表現(xiàn).
這里,嘗試利用貝葉斯方法構(gòu)建基于自適應(yīng)LASSO的二元選擇分位回歸模型,通過數(shù)值模擬和實證分析來驗證該模型的參數(shù)估計效率、變量選擇功能和分類能力等.
5 結(jié) 論
為避免分位回歸模型出現(xiàn)過擬合,引入自適應(yīng)LASSO變量選擇方法改進模型. 首先,提出一種自適應(yīng)的Laplace先驗,對不同的解釋變量系數(shù)考慮不同程度的懲罰,建立基于自適應(yīng)LASSO二元選擇分位回歸的貝葉斯分層模型.接著,構(gòu)造一種容易實現(xiàn)的Gibbs抽樣算法,特別在抽樣過程中施加不影響預(yù)測結(jié)果的約束條件‖β‖=1以提高抽樣值的穩(wěn)定性,并基于后驗樣本對模型進行參數(shù)估計.隨后,通過數(shù)值模擬表明,所采用的貝葉斯Gibbs算法是恰當(dāng)?shù)?、有效的,得到的參?shù)估計值能夠準(zhǔn)確和全面地反應(yīng)各解釋變量對響應(yīng)變量的影響程度,并通過比較分析說明基于自適應(yīng)LASSO變量選擇方法改進的模型具有良好的變量選擇能力和分類能力.最后,利用改進模型對UCI機器學(xué)習(xí)公開數(shù)據(jù)集中的德國信用數(shù)據(jù)進行建模分析,并考慮與其它模型進行對比分析.實證結(jié)果表明,自適應(yīng)LASSO二元選擇分位回歸方法能夠準(zhǔn)確刻畫數(shù)據(jù)的分布特征,識別出對個人信用有重要影響的因素,便于信貸機構(gòu)決策者有針對性地對申請者進行信用評估,降低非重要因素的搜集成本和管理成本等.
參考文獻
[1] Roger Koenker, Gilbert Bassett, Regression Quantiles [J]. Econometrica, 1978, 46(1):33-50.
[2] Charles F. Manski, Maximum score estimation of the stochastic utility model of choice [J]. Journal of Econometrics, 1975, 3(3):205-228.
[3] Keming Yu, Rana A. Moyeed, Bayesian quantile regression [J]. Statistics & probability Letters, 2001, 54(4):437-447.
[4] Dries F. Benoit, Dirk Van den Poel, Binary quantile regression: a Bayesian approach based on the asymmetric Laplace distribution [J].Journal of Applied Econometrics, 2012, 27(7):1174-1188.
[5] Robert Tibshirani, Regression shrinkage and selection via the LASSO [J].Journal of the Royal Statistical Society, Series B, 1996, 58(1):267-288.
[6] Hui Zou, The adaptive LASSO and its oracle properties [J]. Journal of the American Statistical Association, 2006, 101(476):1418-1429.
[7] Dries F. Benoit, Rahim Alhamzawi, Keming Yu, Bayesian lasso binary quantile regression [J].Computational Statistics, 2013, 28(6):2861-2873.
[8] Hussein Hashem, Veronica Vinciontti, Rahim Alhamzawi, Keming Yu., Quantile regression with group lasso for classification [J]. Advances in Data Analysis and Classification, 2016, 10(3):375-390.
[9] Yonggang Ji, Nan Lin, Baoxue Zhang, Model selection in binary and tobit quantile regression using the Gibbs sampler[J]. Computational Statistics & Data Analysis, 2012, 56(4): 827-839.
[10]Beong In Yun, Transformation methods for finding multiple roots of nonlinear equations [J]. Applied Mathematics and Computation, 2010, 217(2): 599-606.