慕娟


摘要:隨著計算機技術的不斷發展,越來越多的高維數據產生,且在許多應用中,所調查的數據集顯示的是異方差的狀態。另一方面,模型中存在異常值可能會導致最小二乘估計量產生較大誤差,特別是當誤差不是高斯分布且分布尾部足夠大時,不清楚變點前后兩個時刻誤差發生的變化,這時更適合考慮分位數回歸。因此嘗試利用貝葉斯方法建立貝葉斯單變點分層分位回歸模型。利用shrinkage 和 diffusion先驗,我們對變點進行了充分的后驗推斷,通過高效的Gibbs取樣,同時得到了每段變量選擇的后驗概率。使用該方法,在計算上更加便捷有效。
Abstract: With the continuous development of computer technology, a large amount of high-dimensional data is generated. And in many applications, the data set has heteroscedastic characteristics. On the other hand, if the assumptions on the first two moments of the model error are not satisfied, then the LS framework breaks down. The quantile regression is robust and allows relaxation of the two first moment conditions of the model error, especially when the error is not a Gaussian distribution and the tail of the distribution is large enough. So we try to use Bayesian method to establish Bayesian single-change point hierarchical quantile regression model. Using shrinkage and diffusion priors, we have performed sufficient posterior inference on the change points, and obtained the posterior probability of each segment variable selection at the same time through efficient Gibbs sampling. This method is more convenient and effective in calculation.
關鍵詞:高維數據;分位回歸;貝葉斯方法
Key words: high-dimensional data;quantile regression;Bayesian method
中圖分類號:O212.8? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)10-0268-03
0? 引言
復雜數據集的出現使得現代統計建模和推理不斷地發展與更新。其中,數據集中的觀測數據的維數超過了數據集的大小時則稱為高維數據集。由于科技的發展,使得數據的獲取來源更廣且更容易,這種高維數據集現在普遍存在于各種不同的領域,包括生物學、天文學、經濟和社會科學,因此我們也不能使用傳統統計工具研究這些數據集。
在許多應用中,獲得的數據集顯示的是異方差的狀態,這時使用變點線性模型將更為便捷和準確,變點線性回歸模型是一個變點問題的子類,其中將響應與預測變量相關的線性模型表示為不同的數據段上發生變化。另一方面,模型中存在異常值可能會導致最小二乘估計量產生較大誤差,特別是當誤差不是高斯分布且分布尾部足夠大時,不清楚變點前后兩個時刻誤差發生的變化,這時更適合考慮分位數回歸。數據集的分割通常基于閾值變量的未知變點,如時間或年齡,或者數據中觀察到的其他相關變量的綜合影響。經濟數據集是變點線性模型應用的主要領域。許多經濟時間序列數據集可以在不同的政治和金融體制下收集,可以通過變點的判斷分析政策效應。在低維背景下,Carlin等人[1](1992)使用Gibbs抽樣利用貝葉斯推斷變點線性模型中每段的變點位置和回歸系數。盡管有關高維回歸和變化點模型的貝葉斯文獻很多,但關于高維變點模型的貝葉斯方法很少。
目前對于低維情況下的變點線性回歸已經做了大量的工作,但是高維變化點回歸嚴重不足。懲罰最小二乘方法,如Lasso(Tibshiani [2]1994)、SCAD(FAN和Li[3]2001),彈性網(Zou和Hastie[4]2005)、自適應Lasso(Zou[5]2006)等被廣泛應用于高維回歸分析。貝葉斯方法通常通過對回歸系數使用分層先驗來進行變量選擇。貝葉斯變量選擇方法包括隨機搜索變量選擇(George和McCulloch[6]1993),spike and slab先驗(Ishwaran和Rao[7]2005),Bayes Lasso(Park和Casella[8]2008),shrinkage and diffusion先驗(Narisetty和He[9]2014年)。貝葉斯對于變點問題的研究我們參考了龍振環,張飛鵬,周小英[10](2017),他們先通過Lasso和廣義貝葉斯信息準則確定變點個數,再通過線性化技巧來估計變點的位置與回歸系數,且周小英[11](2018)探索單變點和多變點的逐段連續線性分位回歸模型,研究模型中變點的存在性、變點的個數以及參數的估計與統計推斷問題。
本文在貝葉斯的框架下來擬合高維變點的分位回歸模型,利用分段shrinkage and diffusion先驗,我們對變點進行了充分的后驗推斷,通過高效的Gibbs取樣,同時得到了變點參數及每段變量選擇的后驗概率。
1? 貝葉斯分位數回歸模型Gibbs抽樣方法
普通回歸模型表示為: ,在經典分位回歸模型文獻中,誤差密度fp(·)往往是不確定的。因此,參數βp的分位數回歸估計是通過最小化下式得到
式中ρp(·)是損失函數,且定義為:ρp(u)=u{p-1(u<0)}。并假定εi具有密度不對稱拉普拉斯分布
由上述分布性質我們可以得到誤差分布的均值和方差為并將誤差項進行改寫
其中?準(x)表示標準正態分布的密度。我們觀察到,βk,Zkj和σ2的全條件服從共軛分布,很容易通過Gibbs抽樣更新。只有p(τ|·)不符合任何標準可能性,我們在Gibbs“采樣器”內使用隨機行走Metropolis-Hastings步驟來更新。
3? 總結
本文首次將貝葉斯推斷方法引入到高維變點分位回歸中,利用shrinking 和 diffusio先驗進行降維判斷不同階段變點的存在,利用貝葉斯分位分層模型其特有的性質,更加簡便快速的估計出變點參數及分位系數。
參考文獻:
[1]Narisetty N N , He X . Bayesian variable selection with shrinking and diffusing priors[J]. The Annals of Statistics, 2014, 42(2):789-817.
[2]Carlin B P, Smith G A F M. Hierarchical Bayesian Analysis of Changepoint Problems[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1992, 41(2):389-405.
[3]Tibshirani R . Regression Shrinkage and Selection Via the Lasso[J]. Journal of the Royal Statistical Society Series B (Methodological), 1996, 58(1):267-288.
[4]Fan J, Li R. Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Publications of the American Statistical Association, 2001, 96(456):1348-1360.
[5]George, E. I. and McCulloch, R. E. Variable Selection via Gibbs Sampling[J]. Journal of the American Statistical Association, 1993, 88, 881-889.
[6]Ishwaran H, Rao J S. Spike and slab variable selection: Frequentist and Bayesian strategies[J]. The Annals of Statistics, 2005, 33(2):730-773.
[7]Park, T. and Casella, G. The Bayesian Lasso[J]. Journal of the American Statistical Association, 2008, 103, 681-686.
[8]Narisetty, N. N. and He, X. Bayesian Variable Selection with Shrinking and Diffusing Priors[J]. The Annals of Statistics, 2014, 42, 789-817.
[9]龍振環,張飛鵬,周小英.帶多個變點的逐段連續線性分位數回歸模型及應用[J].數量經濟技術經濟研究,2017(08):151-162.
[10]周小英.逐段連續線性分位數回歸模型的統計推斷及其應用[D].湖南大學,2018.