王 玲, 趙為華
(南通大學 理學院,江蘇 南通 226019)
在對眾多領域的實際問題進行統計分析時,取值在(0,1)區間上的比例數據是很常見的,比如股息率、考試通過率、工作效率、次品率以及資本比率等。對于(0,1)上的連續分布,最簡單明確的方法是線性回歸建模,并用普通最小二乘法估計回歸系數。然而線性回歸并不能保證擬合值或預測值完全落在區間(0,1)內,這使得結果很難解釋,還會產生異方差問題。因此對分數響應變量建模時,直接線性回歸是不合適的。為此,Ferrari 和CribariNeto(2004)針對這樣的響應變量提出了Beta回歸模型,對Beta分布的密度函數進行參數重變換后,y~Beta(μ,φ),即
其中0<μ<1,φ>0,通過鏈接函數建立了Beta均值回歸模型
(1)
其中β=(β0,β1,…,βk)T是一個未知回歸參數向量,x1,…,xk是k個解釋變量。由于Beta分布是一個雙參數的分布,因此利用Beta回歸刻畫比例數據具有很好的靈活性。
在初始回歸建模時通常引入許多解釋變量去擬合響應變量。然而,這些潛在的解釋變量中通常只有一小部分對響應變量有影響,而大部分解釋變量的影響都是非常小甚至為零的。選擇重要的變量以達到精簡模型、提高預測精度近年來成為重要的話題。已有的很多文獻都是基于懲罰函數的正則化變量選擇方法,如LASSO,SCAD、MCP等罰函數方法。就基于Beta回歸模型的變量選擇而言,方匡南和王秉權(2016)基于SCAD罰函數方法研究正則化Beta回歸;Zhao等(2014)基于坐標算法提出了變散度Beta回歸模型的變量選擇問題。事實上,變量選擇問題是一個有挑戰性的任務,在任意實際數據集中,真實的回歸系數要么為零要么很大是不可能的,通常是趨向于零。因此,問題不在于找到零系數,而是找到那些足夠小到可以認為不重要的系數,把它們縮小到零。最近興起的貝葉斯變量選擇方法相比于基于懲罰函數的變量選擇方法具有更多的優勢,主要體現在:(1)懲罰函數的變量選擇方法需要選擇懲罰參數,懲罰參數通常通過一些準則或交叉核實方法獲得,懲罰參數選擇的好壞影響最終的結果,對于復雜的模型很難得到滿意的結果,而貝葉斯方法通過選取合適的先驗進而通過后驗分布的抽樣或經驗貝葉斯方法獲取,得到的結果相對比較可靠;(2)貝葉斯變量選擇方法能得到參數的全后驗分布而不是單個估計值,因而對估計參數的了解更全面,進而易得參數的可信區間估計及其他感興趣變量的估計;(3)對于小樣本數據,經典的統計方法往往不夠準確,貝葉斯方法由于利用數據的先驗信息從而使得估計和推斷精度較高。近幾年貝葉斯變量選擇方法受到廣大研究者的青睞,在計量經濟、金融統計、數據挖掘、模式識別、人工智能等領域有很好的應用?;陔S機搜索的貝葉斯變量選擇方法最早由George和Mcculloch(1997)提出,是一種目前比較流行的貝葉斯變量選擇方法。





由于從得分方程Uβ(β,φ)=0和Uφ(β,φ)=0中無法直接得到β和φ的極大似然估計的確切表達式,因此需要使用數值計算方法最大化對數似然函數來獲得,通??梢允褂门nD算法或者擬牛頓法進行迭代直至收斂。R語言中軟件包“betareg”可以獲得β和φ的極大似然估計。
為應用貝葉斯變量選擇方法,我們引進一個二進制指示向量γ=(γ1,…,γp)′,γi∈{0,1},其中γi=1表示模型中包含第i個變量xi。選取β的spike-and-slab高斯混合先驗
π(β|σ2,γ,v0,v1)=Np(0,Dσ2,γ)
其中Dσ2,γ=σ2diag(a1,…,ap),ai=(1-γi)v0+γiv1,0v0v1。假定σ2的先驗服從逆伽馬分布π(σ2)=IG(v/2,vλ/2)。對于散度參數φ,假定其先驗服從伽馬分布π(φ)=Ga(ν/2,νλ/2)。對于指示變量γ=(γ1,…,γp)′,γi∈{0,1},取
π(γ|θ)=θ|γ|(1-θ)p-|γ|

π(β,φ,θ,σ2,γ|y)=p(y|β,φ)×π(β|σ2,γ)×π(σ2)×π(γ|θ)×π(θ)
由于指示變量γ總共有2p個可能取值,相當于有2p個候選模型需要選擇,因此直接應用基于隨機搜索的貝葉斯變量選擇方法(SSVS)計算量特別大。EMVS基于EM算法替代常用的MCMC隨機搜索方法,將指示變量γ視為潛在變量,對聯合后驗分布的對數似然取期望得到目標函數
Q(β,φ,θ,σ2|β(k),φ(k),θ(k),(σ2)(k))=Eγ|.[logπ(β,φ,θ,σ2,γ|y)|β(k),φ(k),θ(k),(σ2)(k),y],
其中Eγ|.(·)表示條件期望Eγ|β(k),φ(k),θ(k),(σ2)(k),y(·),通過重復最大化目標函數來間接最大化π(β,φ,θ,σ2|y)。在第k次迭代,給定(β(k),φ(k),θ(k),(σ2)(k)),首先是E-步驟,計算目標函數右邊的期望來獲得Q。接著是M-步驟,在(β,φ,θ,σ2)下最大化Q來產生(β(k+1),φ(k+1),θ(k+1),(σ2)(k+1))的值。
目標函數Q可以進一步寫成如下形式
Q(β,φ,θ,σ2|β(k),φ(k),θ(k),(σ2)(k))
=C+Q1(β,φ,σ2|β(k),φ(k),θ(k),(σ2)(k))+Q2(θ|β(k),φ(k),θ(k),(σ2)(k))其中
Q1(β,φ,σ2|β(k),θ(k),φ(k),(σ2)(k)

Q2(θ|β(k),θ(k),φ(k),(σ2)(k)
下面給出E-步和M-步的快速計算形式。
E-步

其中
M-步


對于Q2,其最大化是通過下面的表達式獲得的,

重復以上E步和M步,直至各參數收斂。



則有
ci≥di




所以可以得到

上式即為第i個變量是否進入最終模型的門限值,在應用中很容易實施。
這一節我們將使用前面提出的變量選擇方法對中國上市公司的股息率及其影響因素進行分析。股息率指以年化基準表示的投資、基金或投資組合的預期派息總額,再加上投資者在該期間可能獲得的任何額外的非經常性股息。根據公司的偏好和戰略,股息率可以固定或調整?,F金流動性強的公司通常會派發股息,而快速增長的公司則會將產生的現金重新投資于業務,并不向股東派發任何股息。股息率是衡量企業投資價值的重要指標。因為滬深300指數覆蓋了滬深兩個證券市場大部分的流通市值,能夠反映市場主流投資的收益情況,所以這里選取滬深300指數的300只成分股作為研究對象。數據來源于wind金融數據庫。
影響上市公司股息率的因素有很多,根據金融方面的相關資料,我們選取了19個變量(見表1),分別從上市公司的資本規模、市場表現、投資潛力、盈利能力、風險系數、償債能力等多角度反映公司的情況。當我們試圖確定如何最有效地使用自變量來模擬或分析多元回歸模型時,解釋變量之間存在的高度相關關系會扭曲或誤導結果。這樣的多重共線性通常會導致解釋變量的置信區間變大,可靠概率值(P值)變低。不相干變量進入最終模型,不僅干擾對變量間關系的理解,還費時費力,因此篩選掉不相干變量是非常有必要的。

表1 變量解釋及說明

表2 參數估計結果及變量選擇

續表2變量系數估計是否進入模型資產負債率(%)β120.00000總資產周轉率(%)β130.00060每股收益同比增長率β140.08331凈資產同比增長率β150.18551稅后每股股利β160.21421年度分紅總額β170.000103年累計分紅占比(%)β180.75921每股現金凈額β19-0.00070φ275.4165θ0.4501門限值0.0097
表2給出了這種變量選擇方法下各參數的估計值,得到門限值為0.0097,并認為如下變量應該進入最終模型:年漲跌幅、市凈率、機構評級、凈資產收益率、每股收益同比增長率、凈資產同比增長率、稅后每股股利及3年累計分紅占比,而其他變量則認為對股息率沒有顯著影響。年漲跌幅是對漲跌值的描述,表現價格波動情況;市凈率則表示該股票的投資潛力;機構評級是指由信用評級機構對股票進行的等級評定,體現了市場評價;凈資產收益率直接反映了上市公司的盈利能力,而盈利能力體現著上市公司投資價值,決定了企業的投資價值;每股收益同比增長率反映了每一份公司股權可以分得的利潤的增長程度,很好的體現了公司的成長能力;凈資產同比增長率反映了企業的發展能力,高而穩定的增長率是顯而易見的期望結果;稅后每股利體現了企業的分紅政策;3年累計分紅占比則體現了再融資條件。