劉瑞香
數理統計是具有廣泛應用的數學分支,而區間估計問題在其中占有很重要的地位。在固定的置信度下,一般認為置信區間的長度越短越好。而用傳統方法得到的置信區間一般不是最短的。因此最短區間估計就成為文獻中研究較多的問題之一。文[1]研究了正態總體方差的最短區間估計,文[2]研究了伽瑪分布參數的最短置信區間。在區間估計問題中,常常構造的樞軸量是單峰分布,如正態分布,t分布,χ2分布,F分布等。文[3]研究了當未知參數的分布為單峰分布時的最短區間估計問題。本文在文[3]基礎上用構造樞軸量的方法來討論樞軸量為單峰分布的最短區間估計,證明了當未知參數分別在樞軸量的分子和分母上時最短置信區間是存在且唯一的;進一步給出了求參數最短區間估計需滿足的條件。
定義1[3]設連續型隨機變量X的概率密度為 f(x),在(-∞,+∞)(或(0,+∞))內有唯一極大值點 x0,則稱X的分布為單峰分布,點x0稱為其峰點。
從定義可以看出,若X為單峰分布的隨機變量,其概率密度為 f(x),x∈(-∞,+∞)(或(0,+∞)),x0為其峰點,則當 x<x0時,f′(x)>0; 當x>x0時,

引理[4]若連續型隨機變量X為單峰分布,x0為其峰點,其概率密度為 f(x),x∈(-∞,+∞)(或(0,+∞)),且當x→±∞(或x→0+,+∞)時,f(x)→0,則對任意 b>x0,必存在唯一的a<x0,使 f(a)=f(b).
下面只討論 f(x)定義在(0,+∞)內情況,在(-∞,+∞)內情況同樣可以討論。
設X1,X2,…,Xn是來自總體X的樣本,總體X的分布函數為 F(x,θ),其中
θ>0,θ∈Θ為未知參數。
對θ進行區間估計,構造樞軸量T=T(X1,X2,…,Xn;θ)是樣本 X1,X2,…,Xn和θ的函數,其分布密度為 g(x),(g(x)與 θ無關),分布函數。適當選擇兩個常數T1,T2,使對給定置信水平α(0<α<1),有

假如能將T1≤T≤T2進行不等式等價變形化為a≤θ≤b,則

這時(a,b)就是未知參數θ的置信度為1-α的置信區間。
注意到滿足(1)的T1,T2可以有很多,選擇T1,T2的目的是希望(2)中的平均長度Eθ(b-a)盡可能短。
定義2使Eθ(b-a)達到最短時的參數θ的置信區間(a,b)稱為θ的最短置信區間。
從定義可以看出,所謂最短置信區間就是尋找T1,T2,使Eθ(b-a)在滿足(1)式條件下達到最小,屬于條件極值問題。
定理1 若樞軸量T=T(X1,X2,…,Xn;θ)=Y(X1,X2,…,Xn)θ是單峰分布,x0為其峰點,且當x→0+,+∞時,g(x)→0,則參數θ的最短置信區間是存在且唯一的,且這時T1,T2滿足:

證明 因P(T1≤T≤T2)=1-α,所以
P(T1≤Yθ≤T2)=1-α,即

要使Eθ(b-a)最短,只要T2-T1最小。
又T=T(X1,X2,…,Xn;θ)的分布密度為 g(x),分布函數為G(x),所以

因此,最短置信區間問題就轉化為條件極值:求T1,T2,使

成立。
利用Lagrange乘子法,令


因為 T=T(X1,X2,…,Xn;θ)=Y(X1,X2,…,Xn)θ是單峰分布,x0為其峰點,且當x→0+,+∞時,g(x)→0,為保證T2>T1且(3)式成立,必須

由引理,對任意滿足(4)的T2,可以由(3)唯一地解出T1=u(T2),且T1是T2的單調減函數:

又注意到G(T2)-G(T1)=G(T2)-G(u(T2))是T2的單調增函數,且

故由中值定理,存在唯一的T2=T?2,使G(T?2)-G(u(T?2))=1-α成立。
取T?1=u(T?2),則T?1,T?2是滿足條件的T1,T2的唯一解。
定理2若樞軸量T=T(X1,X2,…,Xn;θ)=是單峰分布,函數x2g(x)在(0,+∞)內有唯一極大值點x0,且當x→0+,+∞時,x2g(x)→0,則參數θ的最短置信區間是存在且唯一的,且這時T1,T2滿足:

類似定理1的證明。
對于常見分布,如正態分布,指數分布,伽瑪分布等的參數的最短區間估計問題都可以由定理1,2找到相應的T1?,T2?及需滿足的條件。
對于傳統的置信區間,T1,T2的選取,只要滿足

即按照概率對稱的方式選取。由以上討論可以看出,滿足(5)的T1,T2一般不是達到最短置信區間的T?1,T?2;但是當樞軸量T的分布是正態分布,t分布等單峰對稱分布,且未知參數θ位于樞軸量T的分子上時,二者是一致的。因為這時

是等價的。
實例 對正態總體N(μ,σ2)方差σ2進行區間估計。
所以x2g(x)在(0,+∞)內有唯一極大值點x0=n+1,且當x→0+,+∞時,x2g(x)→0。
因此,由定理2,參數θ的最短置信區間是存在且唯一的,且這時T1,T2滿足:

這正是文[1]給出的結論。
鑒于解方程組(6)的復雜性,文[1]還制作了表格,找到T1,T2的近似值,方便查閱。并通過實例將最短區間與傳統區間進行了比較,結果是對中小樣本,二者差異顯著;對大樣本差異非常小。這是因為當樣本容量n增大時,χ2(n)的分布密度關于其峰值的對稱性在提高。所以,對于中小樣本,研究未知參數的最短區間估計是很有必要的。
[1]王建華,張來成.正態總體方差的最短區間估計與最佳雙邊檢驗[J].數學的實踐與認識,2003,33(2).
[2]袁長迎,徐明民.伽瑪分布參數的最短置信區間[J].數理統計與管理,2006,25(4).
[3]錢瑛.單峰分布的置信區間[J].北京聯合大學學報,1996,10(4).
[4]孫慧玲.取定統計量下的最優置信區間的估計[J].統計與決策,2009,(7).