季文奇,馮 予
(南京理工大學 理學院, 南京 210094)
右刪失數據下廣義線性模型的統計診斷
季文奇,馮 予
(南京理工大學 理學院, 南京 210094)
研究了帶有右刪失數據的廣義線性模型的統計診斷問題。首先構造了右刪失數據下的似然函數,推導出了參數的極大似然估計。基于數據刪除模型,推導出了數據刪除前后參數估計的一階近似公式,推廣了廣義Cook距離和似然距離等用來判定異常點或強影響點的診斷統計量,并證明了兩者的等價性。最后通過實際數據分析,驗證了該理論的正確性和實用性。
廣義線性模型;右刪失數據;極大似然估計;廣義Cook距離;似然距離
統計診斷是數理統計學中的一個重要分支,主要研究數據對模型的影響,最基本的方法是數據刪除法[1]。廣義線性模型[2]可以分析不同類型的數據,包括缺失數據[3-4]、刪失數據,近幾年在缺失數據下應用研究很多,但在刪失數據下的研究較少。右刪失數據是當前生存分析中研究的最重要的數據類型。本文在最廣泛的廣義線性模型框架下,研究了右刪失數據的統計診斷問題,具有重要的理論意義和應用價值。
1.1 右刪失數據下的廣義線性模型
設(x1,y1),(x2,y2),…,(xn,yn)表示n個可以觀察的數據點,其中yi∈R是獨立的隨機變量,xi∈Rp是給定的自變量,yi服從自然形式的指數族分布,則廣義線性模型(GLM)定義為
(1)
其中:β為未知參數;g(·)為嚴增可微函數,稱為聯系函數(link function);yi的密度函數可表示為
式中θi稱為自然參數,并記μ=(μ1,…,μn)T,θ=(θ1,…,θn)T。根據指數族分布的性質,有

由于yi右刪失,觀測值yi為:① -∞ 1.2 右刪失數據下的似然函數 設Y1,Y2,…,Yn是來自分布F的獨立同分布隨機變量,通常稱為生存時間,一般為非負,其概率密度函數為f(x,θ),θ為未知參數。如果存在右刪失時間Ci(i=1,2,…,n),其分布為G。假設Yi和Ci相互獨立,記Zi=min(Yi,Ci),δi=I(Ci≤Yi),實際觀察樣本為(Zi,δi),則刪失數據下的似然函數[5]為 1.3 模型的極大似然估計 對于模型(1) ,設yi服從自然形式的指數族分布,其分布函數為F,從而似然函數為 取對數得 其中h(yi)不依賴于β,對估計β無影響,故可略去,從而對數似然函數為 對于右刪失數據,考慮如下的情形[6]:① -∞ (2) e(β)=Y-μ(β),ei(β)=yi-μi(xi,β); 其中:i=1,2,…,n;a,b=1,2,…,p;D(β)、Dθ(β)和J(β)為n×p階矩陣;W(β)、Wθ(β)和K(β)為n×p×p階立體陣;M是前r個分量為1的n×1列向量;N是n階方陣;I是n-r階方陣。 證明 計算l(β)關于β的導數時,始終把θi視為中間變量,由式(2)對β求導得到 (3) 所以 該式代入式(3)即可得到第2式。式(3)繼續求導可得 βi+1=βi+[-MTK(βi)+DT(βi)NV-1(βi)D(βi)]-1·[JT(βi)M+DT(βi)V-1(βi)Ne(βi)] 2.1 數據刪除模型 要評價第i個數據點(xi,yi)在回歸分析中的作用與影響,可比較第i個點(xi,yi)刪除前后統計推斷結果的變化,用以觀測該點是否為異常點或強影響點,刪除第i(r+1≤i≤n)個點以后的模型稱為數據刪除模型。基于數據刪除模型,對于模型(1),本研究只刪除觀測到的數據部分,對右刪失的數據點不討論異常點問題。考慮模型(1)中刪除第i個數據點(xi,yi)以后的模型,以及刪除后參數的估計,這個刪除模型可以表示為 其中觀測值yj為如下的情形: 1) -∞ 2)yj為確切已知值,r+1≤j≤n。 (4) 其中:D(i)(β)為D(β)刪除第i行以后的(n-1)×p階矩陣;V(i)(β)為V(β)刪除第i行、第i列以后的(n-1)×(n-1)階對角陣;e(i)(β)為e(β)刪除第i點以后的n-1維向量。 (5) 證明 記: I(β)=ST(β)U(β) 將該式代入式(4)可得 利用和式求逆公式得 故 即 (6) 由于r+1≤i≤n,所以nii=1,故 故由式(6)即可得到式(5)。證明完畢。 2.2 模型的診斷統計量 2.2.1 廣義Cook距離 其中:M為正定的權矩陣;c>0為尺度因子。本文取 M=I(β)=-MTK+DTNV-1D,c=1 其中P=-MTK+DTV-1ND。 2.2.2 似然距離 除了正態線性模型等少數模型之外,似然距離一般沒有顯式解,因此實用上主要依靠數值解和近似解。本研究采用似然距離的1階近似公式 由此可知,廣義Cook距離和似然距離的2階近似相等。 通過實例進行分析,驗證帶有右刪失數據的廣義線性模型的統計診斷的有效性。先進行參數估計,再觀察標準殘差值和廣義Cook距離,判定模型的異常點或強影響點。 表1數據[9]為50位急性淋巴細胞白血病病人生存數據。在入院治療時取得了外轅血中的細胞數(x1,千個/mm3),淋巴結浸潤等級(x2,分為0,1,2,3級)以及出院后有無鞏固治療(x3,“1”表示有鞏固治療,“0”表示無鞏固治療),通過隨訪取得病人的生存時間,并以變量y=0表示生存時間在1a以內,y=1表示生存時間在1a或1a以上。關于x1,x2,x3和y的觀測數據,用Logistic回歸模型分析病人生存時間的概率與x1,x2,x3的關系: 考慮到y的前5個數據右刪失,假設yi>a≡0(1≤i≤5)。數據如表1所示。 表1 生存數據 3.1 參數估計 針對這個數據,可以求出參數β的估計值: 3.2 影響分析 在參數估計的基礎上,對其進行殘差分析,并計算廣義Cook距離。圖1、圖2分別是標準化殘差和廣義Cook距離的散點圖。 從圖1、圖2可以看出:第7、11、13、16個觀測點的數值較大。從圖2中可直接看出:第11、13、16號點異于其他的點,而且這些異常點不涉及刪失部分。綜合以上分析可知,第11、13、16號點為異常點。 圖1 殘差圖 本文在最廣泛的廣義線性模型框架下,主要研究了右刪失數據下廣義線性模型的統計診斷問題,首先得到了參數的極大似然估計,基于數據刪除模型,推導出了數據刪除前后估計量之間的關系式;根據這個關系式,提出了廣義Cook距離、似然距離等診斷統計量;最后通過實際數據分析,驗證了統計診斷方法的有效性和正確性。 [1] 翟爽.基于數據刪除的廣義線性模型診斷方法[D].哈爾濱:東北林業大學理學院,2012. [2] 光琳,宗序平.Logistic模型的統計診斷[J].江南大學學報(自然科學版),2012,11(1):113-117. [3] 閆莉,陳夏.缺失數據下廣義線性模型的經驗似然推斷[J].統計與信息論壇,2013,28(2):14-17. [4] 閆莉,陳夏.響應變量隨機缺失下廣義線性模型的經驗似然[J].陜西師范大學學報(自然科學版),2015,43(3):1-5. [5] 周勇.廣義估計方程估計方法[M].北京:科學出版社,2013. [6] 胡宏昌,崔恒建,秦永松,等.近代線性回歸分析方法[M].北京:科學出版社,2013. [7] COOK R D.Detection of influential observations in linear regression[J].Technometrics,1977,19:15-18. [8] 韋博成,林金官,解鋒昌.統計診斷[M].北京:高等教育出版社,2009. [9] 薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2007. (責任編輯 林 芳) Statistical Diagnostics for Generalized Linear Models with Right-Censored Data JI Wenqi, FENG Yu (School of Science, Nanjing University of Science and Technology, Nanjing 210094, China) This paper investigates statistical diagnosis problem of the generalized linear models with right-censored data. First, we derive the likelihood function under right-censored data to obtain maximum likelihood estimates for the parameters. Based on the case-deletion models and using the first order Taylor approximation of parameter estimates, we then propose the diagnostic tools such as the generalized cook distance and the likelihood distance to determine outfielders and/or influential cases in the data. We also prove the equivalence of two distances. Finally, we use a real data example to verify the efficiency and feasibility of the proposed diagnostic methods. generalized linear model; right-censored data; maximum likelihood estimation; generalized cook distance; likelihood distance 2017-03-22 基金項目:國家自然科學基金資助項目(11271189) 季文奇(1992—),女 ,山東濟寧人,碩士研究生,主要從事概率論與數理統計研究,E-mail:875063250@qq.com。 季文奇,馮予.右刪失數據下廣義線性模型的統計診斷[J].重慶理工大學學報(自然科學),2017(8):174-181. format:JI Wenqi, FENG Yu.Statistical Diagnostics for Generalized Linear Models with Right-Censored Data[J].Journal of Chongqing University of Technology(Natural Science),2017(8):174-181. 10.3969/j.issn.1674-8425(z).2017.08.029 O212 A 1674-8425(2017)08-0174-08













2 模型診斷
















3 實例分析




4 結束語