林盼盼, 張鳳月, 王立春
(北京交通大學理學院,北京 100044)
線性模型是現代統計學中應用最為廣泛的模型之一,生物、醫學、經濟和管理等領域的眾多現象都可以用線性模型近似描述.目前,關于其無約束條件下的參數估計方法已經十分成熟,但在許多情況下,需要對約束條件下的回歸參數進行估計.約束條件可能是真實的,例如,經濟計量中支出份額模型要求支出總和等于收入或者成本函數中投入價格的總和為常數;約束條件也有可能是假定的,例如,解決復共線性時往往會對參數施加約束條件.眾所周知,當回歸自變量存在著近似線性關系時,最小二乘估計表現不理想,有時某些回歸參數的估計的絕對值異常大,有時回歸參數的估計值的符號與問題的實際意義相違背等.因此,在約束條件下對回歸參數進行估計具有重要意義.
線性貝葉斯估計是由Rao[1]首先提出并且持續受到關注,相關的文獻有[2-4].Wei 和Zhang[5]在加權平方損失下獲得了回歸參數的線性貝葉斯估計,并且證明了在均方誤差矩陣準則和Pitman closeness 準則下線性貝葉斯估計相對于最小二乘估計的優越性;進一步,Zhang 等[6]研究了分塊線性模型中回歸參數的線性貝葉斯估計的優良性;Qiu 等[7]考察了平衡損失下回歸參數的線性貝葉斯估計.然而,上述文獻關注的多是無約束條件下回歸參數的估計問題.
本文主要結合貝葉斯方法討論在約束條件下的回歸參數的估計問題,提出了回歸參數的線性貝葉斯估計并論證其優越性.文章安排如下:第2 節,提出線性貝葉斯估計的表達式;第3 節,考察其性質;第4 節,借用蒙特卡洛模擬和實際數例佐證其性質;第5 節,給出結論.
考慮下面的約束線性模型

其中rank(X)=p, rank(R)=m <p,σ2為方差參數.
若d ?= 0,設β0是(2)式的特解,有R(β ?β0) = 0.令β1= β ?β0,上述模型可以轉變為

這里y1=y ?Xβ0,故(2)式中只考慮d=0 的情形.
將所有滿足約束條件的β 記為集合Gβ={β :Rβ =0},那么,由約束條件可知

這里M(R′)⊥表示R′的列向量張成的子空間M(R′)的正交補空間.因此,可將β 與無約束最小二乘估計?β =(X′X)?1X′y 建立如下關系式

由于A 列滿秩,所以τ 的廣義最小二乘估計為

從而β 的約束最小二乘估計為



和

將(7)式代入下式,有

此處

為對稱冪等矩陣.定理證畢.
假設π(β)為參數β 的先驗分布,并滿足下列條件



由(11)式可得b=(I ?B)E(β)=(I ?B)μ,因此

這里H =A[A′(X′X)A]?1A′,且我們利用了下列事實

和


下面給出線性貝葉斯估計的性質:


和

因此,由無偏性的定義有

由協方差矩陣的定義有

將B =Σ(σ2H +Σ)?1代入上式并化簡得

于是,由(17)和(20)式有

注意到,由σ2H+Σ ≥Σ >0 可推得(σ2H+Σ)?1≤Σ?1,因此,Σ(σ2H+Σ)?1Σ ≤Σ.從而

定理證畢.

證明 由均方誤差矩陣的定義知

和

由(23)式和(24)式知

定理證畢.
本小節利用蒙特卡洛模擬闡明線性貝葉斯估計的優越性.
設模型如下

其中rank(X)=p, rank(R)=m <p,σ2為方差常數.


若根均方誤差越小,則說明相對應的估計量對真值近似的效果越好.

其中

由(9)式可獲得剩余參數βp?m的先驗分布π(βp?m),再和樣本似然函數f(y|βp?m)結合來獲得βp?m的后驗分布f(βp?m|y).為了研究先驗分布的類型對估計量估計效果的影響,對于β 選取兩種先驗分布:正態先驗和均勻先驗,且為了便于比較,兩種分布在模擬時選取的均值與協方差矩陣相等.
情形1由于β 具有正態先驗,導出剩余參數βp?m具有正態先驗Np?m(β0,Σ0),從而βp?m的后驗為

此為正態分布Np?m(β1,Σ1),其中

C1和C2為常數.
情形2由于β 具有均勻先驗,導出剩余參數βp?m具有均勻先驗,即βp?m在區域D 上服從均勻分布,從而βp?m的后驗為

此為截斷的正態分布Np?m(β2,Σ2)ID(βp?m),其中ID(βp?m)為示性函數,C3和C4為常數.

注意到二次損失下,βp?m的貝葉斯估計為后驗均值.在表1 至表4 中,我們針對不同的β 維數和不同約束條件個數的組合進行了模擬.

表1: p=2 和m=1 時,估計量的根均方誤差

表2: p=3 和m=1,且剩余參數的各分量先驗獨立時,估計量的根均方誤差

表3: p=3 和m=1,且剩余參數的各分量先驗不獨立時,估計量的根均方誤差

表4: p=3 和m=2 時,估計量的根均方誤差
由表1 至表4 可知,當β 的維數、約束條件個數和先驗分布相同時,三種估計量與真值β 的距離隨著樣本量的增大均有減小的趨勢,表明隨著樣本信息增多,估計效果越好;此外,從表1、表2 和表3 中可以發現,正態先驗分布下LBE與BE近似相等,且它們與β 的距離均小于CLS與β 的距離,而均勻先驗分布下?βLBE與β 的距離小于CLS和BE與β 的距離.還可以發現,無論βp?m的各分量獨立與否,LBE均有著良好的近似效果.進一步,在表4 中,三種估計量與真值的距離近似相等且與表2 和表3 對比存在明顯減小,此表明隨著約束條件增多,有關回歸參數的信息增加,LBE、CLS和BE的近似差異逐漸減小.總體來看,線性貝葉斯估計不僅具有顯示表達式,其在模擬方面也要優于約束最小二乘估計和貝葉斯估計,而且對于先驗分布的改變具有一定的穩健性.
下面研究當先驗參數改變時,估計量的根均方誤差的變化情況.這里考察正態先驗下的情形,取p = 2 和m = 1,且選取的先驗均值相同、相關系數相同,但先驗的方差不同,如表5 所示.

表5: 正態先驗分布的參數取值

表6: 正態先驗分布下,?βCLS 和?βLBE 的根均方誤差

圖1: 正態先驗分布下,根均方誤差隨樣本量的變化
下面用硅酸鹽水泥的數據來驗證我們的結論.數據來自于文獻[8],并且被Hamaker[9],Gorman 和Toman[10]以及Nomura[11]廣泛分析.數據主要探究的是硅酸鹽水泥在凝固和硬化過程中產生的熱量與四種化合物所占百分比的關系.這四種成分是:鋁酸三鈣、硅酸三鈣、鐵鋁酸四鈣和硅酸二鈣,分別記為X1, X2, X3, X4.固化180 天后產生的熱量用每克水泥所含的卡路里來計算,并用y 表示.Hald 和Friedman[8], Gorman 和Toman[10]以及Daniel 和Wood[12]對該數據用非齊次線性回歸模型進行擬合,如公式(26),收集數據如下

其中矩陣X 是13×5,第一列為常數列,剩余4 列分別對應變量X1, X2, X3, X4,對應參數分別為β0, β1, β2, β3, β4,并且矩陣X′X 的特征值為

X′X 的條件數為最大特征值與最小特征值之比,即14372006,故可以認為矩陣X 存在嚴重的復共線性.根據Ka?ciranlar 等[13]的建議,添加約束條件:β1?β2+β3=0,并且該約束條件在5%的顯著水平下是不被拒絕的.令β3= ?β1+β2,代入(26)式中,化為如下無約束模型

令

故
y =X1θ+ε, ε ~N13(0,σ2I13),

β =(β0,β1,β2,β3,β4)′的先驗均值和協方差陣及相應的模擬結果如下:
這里βp?m各分量獨立時計算所得

βp?m各分量不獨立時計算所得

表7: 正態先驗分布下CLS 及LBE 與BE 的距離

表7: 正態先驗分布下CLS 及LBE 與BE 的距離
β E(β) Cov(β) ‖?βCLS ??βBE‖ ‖?βLBE ??βBE‖βp?m各分量獨立 01210 4 0 0 0 0 0 9 0 ?8 0 0 0 16 16 0 0 ?8 16 25 0 0 0 0 0 25 141.190 0.024 βp?m各分量不獨立 01210 4 0 0 0 ?4 0 9 6 ?2 0 0 6 16 10 0 0 ?2 10 13 0?4 0 0 0 25 141.422 0.010
本文主要研究了約束線性模型中回歸參數的線性貝葉斯估計的表達式及其性質,證明了線性貝葉斯估計相對于約束最小二乘估計的優越性,并利用蒙特卡洛模擬和數值實例驗證了相關理論結果.