王理峰
(南京鐵道職業技術學院 數學系,南京 210031)
的定義為:若隨機變量服從 p(x),則稱p(x)dx為隨機變量x的微分熵。
在分子生物學、分子物理學及化學中,熱力學性質的計算(包括熵)是非常重要的問題。分子的內熵取決于內部原子的隨機振動,其振動的幅度決定了熱力學性質和分子的形狀。為了計算分子的熵,研究者提出了許多概率模型,其中最簡單的是正態分布模型。若p維隨機變量的密度函數是:

的熵為:

在分子生物學中,通常用 Hp(∑)的極大似然函數(Mle)來估計熵Hp(∑),∑的極大似然估計為為樣本協方差矩陣,n為隨機樣本的大小),則Hp(∑)的極大似然估計[1]。從統計學上看,定是最優的,可以找到更好的估計去代替它。
熵Hp(∑)的估計等價于估計ln | ∑ |,許多學者研究了廣義協方差陣的行列式 | ∑ |以及 | ∑-1|的估計問題,對于ln | ∑ |的估計,Misra等(2005)[2]首次在二次損失下進行了研究。本文將在更具有廣泛意義的Linex損失下給出ln| ∑ |的最優仿射同變估計δc*,研究其性質,通過計算觀察δc*能否改進分子生物學中通常采用的極大似然估計,特別在高維情況下,δc*是否更具優良性。
為了以下計算和討論的需要,首先介紹幾個定義及引理。
定義1[1](:Wishart分布)若A~Wp(μ,∑),n>p,∑>0,則A的密度函數為:

定義2[1]:(逆Wishart分布)若 B~IWp(n,V),n>p ,V>0,則B的密度函數為:

引理1[1]:若 A~Wp(μ,∑),μ>p,∑>0,則:

引理2[1]:若V~Wp(n,∑),A~Wp(n,I),則:

其中 x[r]=x(x+1)…(x+r-1)。
引理3[1]:(1)若 A~Wp(n,∑),則 A-1~IWp(n+p+1,∑-1);(2)若 B~IWp(n,V),則 B-1~Wp(n-p-1,V-1)。
引理4[3]:(Jensen不等式),設測度 u(X)=1,f:X→(a,b)是可積函數,φ:(a,b)→R是凸函數,則:

引理5[4]:在給定的Bayes決策問題中,若給定先驗分布 π(θ)下,θ 的 Bayes估計 δB(X)是唯一的,則它是可容許的。
令 X1,…,Xn為服從正態分布 Np(μ,∑)的隨機樣本分布 (n>p+1),其中 μ∈Rp,∑p×p> 都未知。利用 X1,…,Xn來估計熵估計,相應的

X、S相互獨立,(X,S)為最小充分統計量,因此可僅通過(X,S)來估計ln | ∑ |。
下面介紹一下仿射同變估計,Hp(∑)的估計問題在下面的仿射變換下是不變的:(X,S)→(CX+D,CSC'),(μ,∑)→(Cμ+D,C∑C'),其中C 為任意的 p×p階非奇異陣,D為 p×1維向量。在這種仿射變換下ln| ∑|→ln | ∑|+ln| C|2,因此要求估計δ(X,S)滿足:對于任意的 p×p階非奇異陣C、對于任意的 p×1維向量D,有:

稱滿足式(1)形式的估計δ(X,S)為仿射同變估計。
由Misra等(2005)[2]知,任意的仿射同變估計具有如下形式:

其中,c為某一實常數。ln| Σ|仿射同變估計不依賴θ=(μ,∑),若記損失函數為 L(δc,ln| ∑ |),則風險函數R(δc,θ)=EθL(δc,ln| ∑ |)=ΔR(δc),偏差 B(δc,θ)=ΔB(δc)。
若記損失函數為 L(δ,ln| ∑ |)=(δ-ln| ∑ |)2,ln| ∑ |的最優仿射同變估計為(證明詳見Misra等[2]):

本文所采用的損失函數為 Linex損失,即L(δ,θ)=b{ea(δ-θ)-a(δ- θ)-1},它由Varian(1975)[5]提出來的。當 | a|足夠小時,有Taylor展開知Linex損失變成二次損失,而b僅是一個系數,不失一般性,常假定b=1,關于Linex損失的性質詳見Zellner(1986)[6]。本文中取a=1,此時 Linex損失為 L(δ,θ)=eδ-θ-(δ-θ)-1。
定理1:在Linex損失下,ln | ∑ |的最優仿射同變估計為:


而 Linex 損失為嚴格下凸函數,則 R(δc(X,S),θ)在 c*處取得唯一的最小值,最優仿射同變估計為δc*(X,S)=ln|S|-c*,綜上即證。
下面的定理將說明最優仿射同變估計δc*也是Bayes估計。
定理2:當 (μ,∑)的先驗分布為:

在Linex損失下,最優仿射同變估計δc*也是Bayes估計,并且是唯一的Bayes估計。
證明:給定(μ,∑)時,X~Np(μ,∑),S~Wp(N-1,∑),X、S獨立,則(X,S)的似然函數為:


給定(X,S)時,(μ,∑)的后驗分布為:

∑的后驗分布為:

乘上正則化因子,∑的后驗分布為:

由定義2知,∑~IWp(n+p,S),則由引理3知∑-1~Wp布。
在 Linex 損失下,后驗風險為 E∑(L(δ,ln| ∑ |))= ∫L(δ,ln | ∑ |)P(∑|(X,S))d∑ ,令:

所以ln| ∑ |的Bayes估計為:

由于 Linex損失是嚴格下凸函數,則 δB是 E∑(L(δ,ln | ∑|))唯一的極小值點,即 δc*為ln | ∑ |唯一的 Bayes估計。
性質1:在僅依賴于 | S|的估計類中,最優仿射同變估計δc*為Linex損失下ln | ∑ |的可容許估計。
證明:由定理2知,在Linex損失函數下,最優仿射同變估計δc*也是Bayes估計,并且是唯一的Bayes估計。由引理5知,最優仿射同變估計δc*為ln| ∑ |的可容許估計。
plnn=c1,而 δc0(X,S)為 ln| ∑ |的無偏估計[2],由此可知最優仿射同變估計δc*和極大似然估計δc1都是ln| ∑ |的負的有偏估計,δc1比 δc*與ln | ∑ |偏離的遠。
性質2:記則在Linex損失下,有如下結論:
(1)最優仿射同變估計 δc*與 ln | ∑ |的偏差為:B(δc*,ln|∑ |)=Eθ(δc*-ln | ∑ |)=c0-c*
(2)極大似然估計δc1與最優仿射同變估計δc*的絕對(n-i)為 p的增函數。
(3)最優仿射同變估計δc*的風險
(4)極大似然估計 δc1的風險
(5)極大似然估計δc1與最優仿射同變估計δc*的風險差 D(p)=R(δc1)-R(δc*)是 p(1≤p≤n-1)的增函數。
(6)Linex損失下,最優仿射同變估計δc*的風險最小,則 R(δc*)≤R(δc0)。
證明:(1)因為 δc0為 ln| ∑ |的無偏估計[2],所以 Eθ(δc0-ln| ∑|)=0。最優仿射同變估計 δc*與ln| ∑ |的偏差為:

(2)極大似然估計δc1與最優仿射同變估計δc*的絕對偏差為:

(3)在Linex損失下,最優仿射同變估計δc*的風險-c0+c*-1=c*-c0
(4)在Linex損失下,極大似然估計δc的風險為:

(5)極大似然估計δc1與最優仿射同變估計δc*的風險差記為 D(p)=R(δc1)-R(δc*),則:

當0<x<y<1時,由中值定理,?ξ∈(x,y),lnx-lny
+lnn-ln(n-p-1)=ln(n-p-1)-lnn+lnn-ln(n-p-1)=0
即證 D(p)=R(δc1)-R(δc*)是 p(1≤p≤n-1)的增函數。
(6)由定理1知,R(δc*)為 R(δc(X,S))的唯一最小值,故 R(δc*)≤R(δc0)。
為了具體的度量最優仿射同變估計δc*對分子生物學中通常采用的極大似然估計δc1的改進程度,采用如下兩個指標。
(1)極大似然估計δc1與最優仿射同變估計δc*的絕對偏差:

(2)極大似然估計δc1與最優仿射同變估計δc*的相對風險率:

對于不同的的n和 p(n≥p+1),計算 | B(δc1)-B(δc*)| 和RI(δc1,δc*),結果具體見表1。
從表1中可以看出,極大似然估計δc1和最優仿射同變估計δc*的絕對偏差與相對風險率隨著維數 p的增加而增大,δc*改進了分子生物學中通常采用的極大似然估計δc1,特別是在高維(如分子遺傳學)情況下,δc*更具有良性,另外對于比較大的 p,δc1與δc*相比和ln ||∑ 偏差越來越嚴重。

表1 不同n和p情況下,| B (δc1)-B(δc*)| 和 RI(δc1,δc*)比較