999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

右刪失數據下廣義線性模型的統計診斷

2017-09-12 06:35:12季文奇
關鍵詞:模型

季文奇,馮 予

(南京理工大學 理學院, 南京 210094)

右刪失數據下廣義線性模型的統計診斷

季文奇,馮 予

(南京理工大學 理學院, 南京 210094)

研究了帶有右刪失數據的廣義線性模型的統計診斷問題。首先構造了右刪失數據下的似然函數,推導出了參數的極大似然估計。基于數據刪除模型,推導出了數據刪除前后參數估計的一階近似公式,推廣了廣義Cook距離和似然距離等用來判定異常點或強影響點的診斷統計量,并證明了兩者的等價性。最后通過實際數據分析,驗證了該理論的正確性和實用性。

廣義線性模型;右刪失數據;極大似然估計;廣義Cook距離;似然距離

統計診斷是數理統計學中的一個重要分支,主要研究數據對模型的影響,最基本的方法是數據刪除法[1]。廣義線性模型[2]可以分析不同類型的數據,包括缺失數據[3-4]、刪失數據,近幾年在缺失數據下應用研究很多,但在刪失數據下的研究較少。右刪失數據是當前生存分析中研究的最重要的數據類型。本文在最廣泛的廣義線性模型框架下,研究了右刪失數據的統計診斷問題,具有重要的理論意義和應用價值。

1 右刪失數據下廣義線性模型的極大似然估計

1.1 右刪失數據下的廣義線性模型

設(x1,y1),(x2,y2),…,(xn,yn)表示n個可以觀察的數據點,其中yi∈R是獨立的隨機變量,xi∈Rp是給定的自變量,yi服從自然形式的指數族分布,則廣義線性模型(GLM)定義為

(1)

其中:β為未知參數;g(·)為嚴增可微函數,稱為聯系函數(link function);yi的密度函數可表示為

式中θi稱為自然參數,并記μ=(μ1,…,μn)T,θ=(θ1,…,θn)T。根據指數族分布的性質,有

由于yi右刪失,觀測值yi為:① -∞

1.2 右刪失數據下的似然函數

設Y1,Y2,…,Yn是來自分布F的獨立同分布隨機變量,通常稱為生存時間,一般為非負,其概率密度函數為f(x,θ),θ為未知參數。如果存在右刪失時間Ci(i=1,2,…,n),其分布為G。假設Yi和Ci相互獨立,記Zi=min(Yi,Ci),δi=I(Ci≤Yi),實際觀察樣本為(Zi,δi),則刪失數據下的似然函數[5]為

1.3 模型的極大似然估計

對于模型(1) ,設yi服從自然形式的指數族分布,其分布函數為F,從而似然函數為

取對數得

其中h(yi)不依賴于β,對估計β無影響,故可略去,從而對數似然函數為

對于右刪失數據,考慮如下的情形[6]:① -∞

(2)

e(β)=Y-μ(β),ei(β)=yi-μi(xi,β);

其中:i=1,2,…,n;a,b=1,2,…,p;D(β)、Dθ(β)和J(β)為n×p階矩陣;W(β)、Wθ(β)和K(β)為n×p×p階立體陣;M是前r個分量為1的n×1列向量;N是n階方陣;I是n-r階方陣。

證明 計算l(β)關于β的導數時,始終把θi視為中間變量,由式(2)對β求導得到

(3)

所以

該式代入式(3)即可得到第2式。式(3)繼續求導可得

βi+1=βi+[-MTK(βi)+DT(βi)NV-1(βi)D(βi)]-1·[JT(βi)M+DT(βi)V-1(βi)Ne(βi)]

2 模型診斷

2.1 數據刪除模型

要評價第i個數據點(xi,yi)在回歸分析中的作用與影響,可比較第i個點(xi,yi)刪除前后統計推斷結果的變化,用以觀測該點是否為異常點或強影響點,刪除第i(r+1≤i≤n)個點以后的模型稱為數據刪除模型。基于數據刪除模型,對于模型(1),本研究只刪除觀測到的數據部分,對右刪失的數據點不討論異常點問題。考慮模型(1)中刪除第i個數據點(xi,yi)以后的模型,以及刪除后參數的估計,這個刪除模型可以表示為

其中觀測值yj為如下的情形:

1) -∞

2)yj為確切已知值,r+1≤j≤n。

(4)

其中:D(i)(β)為D(β)刪除第i行以后的(n-1)×p階矩陣;V(i)(β)為V(β)刪除第i行、第i列以后的(n-1)×(n-1)階對角陣;e(i)(β)為e(β)刪除第i點以后的n-1維向量。

(5)

證明 記:

I(β)=ST(β)U(β)

將該式代入式(4)可得

利用和式求逆公式得

(6)

由于r+1≤i≤n,所以nii=1,故

故由式(6)即可得到式(5)。證明完畢。

2.2 模型的診斷統計量

2.2.1 廣義Cook距離

其中:M為正定的權矩陣;c>0為尺度因子。本文取

M=I(β)=-MTK+DTNV-1D,c=1

其中P=-MTK+DTV-1ND。

2.2.2 似然距離

除了正態線性模型等少數模型之外,似然距離一般沒有顯式解,因此實用上主要依靠數值解和近似解。本研究采用似然距離的1階近似公式

由此可知,廣義Cook距離和似然距離的2階近似相等。

3 實例分析

通過實例進行分析,驗證帶有右刪失數據的廣義線性模型的統計診斷的有效性。先進行參數估計,再觀察標準殘差值和廣義Cook距離,判定模型的異常點或強影響點。

表1數據[9]為50位急性淋巴細胞白血病病人生存數據。在入院治療時取得了外轅血中的細胞數(x1,千個/mm3),淋巴結浸潤等級(x2,分為0,1,2,3級)以及出院后有無鞏固治療(x3,“1”表示有鞏固治療,“0”表示無鞏固治療),通過隨訪取得病人的生存時間,并以變量y=0表示生存時間在1a以內,y=1表示生存時間在1a或1a以上。關于x1,x2,x3和y的觀測數據,用Logistic回歸模型分析病人生存時間的概率與x1,x2,x3的關系:

考慮到y的前5個數據右刪失,假設yi>a≡0(1≤i≤5)。數據如表1所示。

表1 生存數據

3.1 參數估計

針對這個數據,可以求出參數β的估計值:

3.2 影響分析

在參數估計的基礎上,對其進行殘差分析,并計算廣義Cook距離。圖1、圖2分別是標準化殘差和廣義Cook距離的散點圖。

從圖1、圖2可以看出:第7、11、13、16個觀測點的數值較大。從圖2中可直接看出:第11、13、16號點異于其他的點,而且這些異常點不涉及刪失部分。綜合以上分析可知,第11、13、16號點為異常點。

圖1 殘差圖

4 結束語

本文在最廣泛的廣義線性模型框架下,主要研究了右刪失數據下廣義線性模型的統計診斷問題,首先得到了參數的極大似然估計,基于數據刪除模型,推導出了數據刪除前后估計量之間的關系式;根據這個關系式,提出了廣義Cook距離、似然距離等診斷統計量;最后通過實際數據分析,驗證了統計診斷方法的有效性和正確性。

[1] 翟爽.基于數據刪除的廣義線性模型診斷方法[D].哈爾濱:東北林業大學理學院,2012.

[2] 光琳,宗序平.Logistic模型的統計診斷[J].江南大學學報(自然科學版),2012,11(1):113-117.

[3] 閆莉,陳夏.缺失數據下廣義線性模型的經驗似然推斷[J].統計與信息論壇,2013,28(2):14-17.

[4] 閆莉,陳夏.響應變量隨機缺失下廣義線性模型的經驗似然[J].陜西師范大學學報(自然科學版),2015,43(3):1-5.

[5] 周勇.廣義估計方程估計方法[M].北京:科學出版社,2013.

[6] 胡宏昌,崔恒建,秦永松,等.近代線性回歸分析方法[M].北京:科學出版社,2013.

[7] COOK R D.Detection of influential observations in linear regression[J].Technometrics,1977,19:15-18.

[8] 韋博成,林金官,解鋒昌.統計診斷[M].北京:高等教育出版社,2009.

[9] 薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2007.

(責任編輯 林 芳)

Statistical Diagnostics for Generalized Linear Models with Right-Censored Data

JI Wenqi, FENG Yu

(School of Science, Nanjing University of Science and Technology, Nanjing 210094, China)

This paper investigates statistical diagnosis problem of the generalized linear models with right-censored data. First, we derive the likelihood function under right-censored data to obtain maximum likelihood estimates for the parameters. Based on the case-deletion models and using the first order Taylor approximation of parameter estimates, we then propose the diagnostic tools such as the generalized cook distance and the likelihood distance to determine outfielders and/or influential cases in the data. We also prove the equivalence of two distances. Finally, we use a real data example to verify the efficiency and feasibility of the proposed diagnostic methods.

generalized linear model; right-censored data; maximum likelihood estimation; generalized cook distance; likelihood distance

2017-03-22 基金項目:國家自然科學基金資助項目(11271189)

季文奇(1992—),女 ,山東濟寧人,碩士研究生,主要從事概率論與數理統計研究,E-mail:875063250@qq.com。

季文奇,馮予.右刪失數據下廣義線性模型的統計診斷[J].重慶理工大學學報(自然科學),2017(8):174-181.

format:JI Wenqi, FENG Yu.Statistical Diagnostics for Generalized Linear Models with Right-Censored Data[J].Journal of Chongqing University of Technology(Natural Science),2017(8):174-181.

10.3969/j.issn.1674-8425(z).2017.08.029

O212

A

1674-8425(2017)08-0174-08

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 色欲不卡无码一区二区| 熟妇丰满人妻| 国产视频自拍一区| 在线国产毛片| 亚洲综合在线最大成人| 亚洲无码视频一区二区三区| 狠狠综合久久| 114级毛片免费观看| 国产成人福利在线| 国产经典免费播放视频| 国产青榴视频| 日韩国产一区二区三区无码| 婷婷亚洲综合五月天在线| 99热这里只有精品免费| 波多野结衣久久精品| 91系列在线观看| 国产精品极品美女自在线网站| 国产乱子伦视频在线播放| 青青久视频| 尤物精品视频一区二区三区| 国产精品综合久久久| 亚洲黄网在线| 免费一级毛片完整版在线看| 2020国产精品视频| 欧美黄色网站在线看| 欧美人与动牲交a欧美精品| 国产又黄又硬又粗| 亚洲天堂777| 综合亚洲网| 人人艹人人爽| 国产91av在线| 在线无码av一区二区三区| 又大又硬又爽免费视频| 国产成人精品免费视频大全五级| 国产成人亚洲综合a∨婷婷| 国产真实乱子伦精品视手机观看 | 亚洲va欧美ⅴa国产va影院| 亚洲开心婷婷中文字幕| 久久国产亚洲欧美日韩精品| 色九九视频| 高清无码手机在线观看| 成人国产免费| 91视频首页| 中文字幕乱码二三区免费| a级毛片毛片免费观看久潮| 精品少妇人妻一区二区| 中文字幕亚洲乱码熟女1区2区| 亚洲综合婷婷激情| 亚洲综合日韩精品| 国产精品亚洲片在线va| 国产91视频免费观看| 制服丝袜一区二区三区在线| 亚洲精品国产乱码不卡| а∨天堂一区中文字幕| 青草视频久久| 波多野结衣在线se| 欧美精品综合视频一区二区| 91成人精品视频| 欧美一级大片在线观看| 美女裸体18禁网站| 色噜噜狠狠色综合网图区| 网久久综合| 萌白酱国产一区二区| 国产精品大尺度尺度视频| 无码aaa视频| 亚洲免费黄色网| 九九久久精品国产av片囯产区| 97视频在线观看免费视频| 亚洲精品欧美日本中文字幕| 久久黄色免费电影| 伊人久综合| 亚洲av无码人妻| 一级福利视频| 国产玖玖视频| 欧美啪啪精品| 国产尤物视频在线| 精品国产电影久久九九| 尤物精品视频一区二区三区| 亚洲爱婷婷色69堂| 国产精品美女在线| 亚洲天堂网2014| 特级aaaaaaaaa毛片免费视频 |