侯瑞環 徐翔燕
二項分布參數的無先驗信息Bayes估計與點估計的思考
侯瑞環 徐翔燕
結合《數理統計》教學過程中的對點估計和Bayes估計的講解,從實際應用的角度出發思考二項總體參數的無先驗信息Bayes估計與點估計之間的關系:當樣本容量n≥971時,兩種估計的誤差達到0.001甚至更小;并且,隨著樣本量不斷增加兩種估計結果趨于一個穩定的真實值。
點估計作為大學《數理統計》的教學中最簡單、最有效的參數估計方法顯得非常重要,也是統計推斷中不可或缺的內容。通常,點估計的方法主要有矩估計和極大似然估計。然而,無論是矩估計還是極大似然估計都有著非常明顯的優點和缺陷。矩估計應用樣本信息對總體分布部分特征做統計推斷以達到對整個總體特征的推斷,這顯然很難完成;極大似然估計較多的注重總體信息的應用,與矩估計相比有顯著的改善。但是,這些經典參數估計方法都缺少了對參數本身的思考,只是從樣本本身出發,將未知參數默認為未知常數來完成統計推斷,導致了參數本身信息的流失,這是一種明顯的信息浪費。區別于經典統計學派的Bayes學派提出了參數的Bayes估計很大程度上解決了這一問題,有效的利用了參數本身的信息和樣本信息,使得估計效果在一般情況下都優于點估計方法。Bayes估計方法主要依賴于參數的后驗分布,一般情況下,參數的后驗分布借助條件概率得到,這種求解后驗分布的方法存在爭議。目前,在沒有更好解決后驗分布的情況下可以認為這種辦法比較有效,但是參數的后驗分布在很多情況下較難得到。正因為如此,本文做出這樣的思考:在對二項分布參數的先驗信息一無所知時,對參數的估計有沒有必要堅持用Bayes估計?能否得到一個樣本容量使得Bayes估計和點估計幾乎一致?
參數的點估計。設X1,L,Xn是來自于二項分布總體b(n,p)的樣本,計算總體參數p矩估計和極大似然估計,以定理2.1形式給出。
定理2.1 在上述假設的基礎上p的矩估計和極大似然估計分別為:

定理2.1簡要證明:
由樣本總體分布可知,二項分布(,)bnp的總體矩為()EXnp=,所以根據矩法估計的思想用樣本矩代替總體矩可得到

由此可以計算參數p的矩估計。
總體分布的密度函數為:

因此可以得到對數似然函數為:

對(1)式關于參數p求導可以得到其極大似然估計。
根據上述定理可以得到這樣一個推論:在n次試驗中某一事件發生xi次,參數所對應極大似然估計為。
參數的Bayes估計。在此假設對參數先驗信息一無所知,根據Bayes本人的建議按“同等無知”的原則處理,即可以設定參數p的先驗分布π(p)=U (0,1)。在這種假設下可以得到參數的Bayes估計如定理2.2。
定理2.2設在上述先驗分布的假設下,二項分布b(n,p)的參數p的Bayes估計為:

其中x=xi,i=1,2,L,n。
定理2.2簡要證明:由上述假設可知,π(p)=U(0,1),同時可以寫出隨機變量X與參數p的聯合分布

可以得到X的邊緣密度

即可得到參數p的后驗分布

上式表明參數p的后驗分布為貝塔分布Be(x+1,n-x+1),因此可以得到參數的估計為:

結果得證。
數據模擬與誤差分析。對二項分布參數基于點估計結果和Bayes估計樣本容量分別為15、30、100和200的數據模擬結果見圖1~4,并進行誤差的比較與分析。
對二項分布參數估計而言,當樣本容量較小時,可以看出極大似然估計結果與Bayes估計結果相差較大(圖1、2),然而在中位數處取值相等;同時可以看出Bayes估計在極端情況下,估計結果更符合人們的正常理念。當樣本容量不斷增大時,極大似然估計與Bayes估計在結果上差異越來越小(圖3、4),當971≥n時,這兩個估計結果只差達到0.001甚至更小,此時就二項分布參數估計的應用而言,可以考慮用點估計得到參數的結果代替Bayes估計的結果。

圖1 樣本容量為15的估計擬合

圖2 樣本容量為30的估計擬合

圖3 樣本容量為100的估計擬合

圖4 樣本容量為200的估計擬合
為了更好地說明這一觀點,在此通過取不同的樣本容量n對同一個二項分布的參數分別用點估計和Bayes 估計方法做數據模擬。得到在不同估計方法下估計值與參數真實值之間的誤差,結果見表1。
由表1結果可知,點估計與Bayes估計結果都隨著樣本容量的增加而減小,其中點估計得到結果與真實值之間是一個固定的單點誤差值,而Bayes估計與真實值之間誤差是一個區間,這個區間隨著樣本容量增加精度不斷提高,當樣本容量為30時,精度為0.192,樣本量為500時,精度為0.104。總體而言,它們都隨著樣本容量的增加趨向真實值。

表1 點估計和Bayes估計與參數真實值誤差結果
二項分布的參數估計在對參數信息一無所知的情況下,當樣本容量較大時,兩種方法對參數的估計結果相差很小,并且隨著樣本容量的增加參數的估計值最終趨向一個穩定的數值,即分布參數的真實值。所以單從二項分布的應用角度思考,在樣本容量較大和對參數信息知之甚少的情況下,可以直接用點估計來完成參數的估計,從而得到估計值。這樣既可以減少計算參數后驗分布的困難,也可以很快的得到參數估計結果。
(作者單位:塔里木大學信息工程學院)
塔里木大學青年創新校長基金(TDZKQN201615)