999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

半?yún)?shù)方法在缺失數(shù)據(jù)中的研究及應(yīng)用

2019-03-01 08:17:16樊思敏施三支翟芳慧
關(guān)鍵詞:機(jī)制方法

樊思敏,施三支,翟芳慧

(長春理工大學(xué) 理學(xué)院,長春 1300222)

在現(xiàn)實應(yīng)用中,由于人為、機(jī)械等因素,數(shù)據(jù)缺失比較普遍。數(shù)據(jù)缺失造成的部分信息丟失,在不同程度上影響統(tǒng)計推斷,導(dǎo)致得出結(jié)果存在一定的失真。數(shù)據(jù)缺失的處理研究引起了更多的關(guān)注。從缺失數(shù)據(jù)的缺失值排列方式來看,數(shù)據(jù)缺失可分為單調(diào)缺失和非單調(diào)缺失。從缺失數(shù)據(jù)的缺失影響因素來看,分為隨機(jī)缺失(MAR)、非隨機(jī)缺失(NMAR)和完全隨機(jī)缺失(MCAR),缺失機(jī)制概念及三種缺失機(jī)制由 Rubin(1976)[1]提出。非隨機(jī)依賴完全觀測變量時,也可稱為不可忽略機(jī)制(NI)。在不可忽視機(jī)制的基礎(chǔ)上,由Samiran Sinha等(2014)[2]提出了NI-機(jī)制。本文主要討論隨機(jī)缺失下的非單調(diào)缺失情況。

缺失數(shù)據(jù)加大了數(shù)據(jù)分析和挖掘的困難程度,提高了分析結(jié)果的偏差。最簡單的方式是刪除帶有缺失項的樣本,即完全數(shù)據(jù)分析(CC)。樣本量缺失項較少時,CC帶來的偏差較少,當(dāng)缺失項較多時,由于一部分的數(shù)據(jù)信息缺失,CC方法的偏差很大。為糾正由缺失數(shù)據(jù)導(dǎo)致的結(jié)論偏倚,缺失數(shù)據(jù)處理方法相繼被提出。Horvitz和Thompson(1952)[3]最先提出了逆概率加權(quán)方法。Rubin和Laird(1977)[4]提出了用于處理缺失數(shù)據(jù)的EM算法。Zhao(1994)[5]提出了一類在MAR機(jī)制下的逆概率加權(quán)方法。Chen等(1999)[6]提出了一種用EM算法的全似然方法。Robins(2000)[7]提出了一種基于逆概率加權(quán)的改進(jìn)方法,即逆概率刪失加權(quán)法(IPCW)。Ibrahim,Chen(2004)[8]在不同缺失機(jī)制情況下,把半?yún)?shù)方法應(yīng)用到多缺失協(xié)變量上。Samiran Sinha、Wang S.J和K.Saha(2014)[2]將半?yún)?shù)方法與NI-機(jī)制結(jié)合,應(yīng)用到多變量缺失中。Jiwei Zhao和Jun Shao(2015)[9]基于不可忽視(NI)機(jī)制下提出了一種半?yún)?shù)似然方法。

本文對完全數(shù)據(jù)進(jìn)行隨機(jī)缺失,在隨機(jī)缺失的背景下,使用了Samiran Sinha、Wang S.J和K.Saha(2014)[2]相似的半?yún)?shù)方法處理來達(dá)到估計Logistic模型中參數(shù)的目的,并與單一均值插補、多重插補和EM算法進(jìn)行了比較分析。

1 半?yún)?shù)方法

記Y為因變量,X為帶有缺失數(shù)據(jù)的自變量,Z為完全數(shù)據(jù)自變量,設(shè)定缺失自變量為2維的情況,樣本量為h,數(shù)據(jù)類型為離散型。示性函數(shù)為I,當(dāng)數(shù)據(jù)可觀測時,示性函數(shù)為1,不可觀測為0。

設(shè)Xij(i=1,2,…,h;j=1,2)表示為第i行第j列的觀測值,Xi(-j)則表示為此觀測值缺失。本文關(guān)注數(shù)據(jù)缺失的隨機(jī)缺失,即缺失的數(shù)據(jù)與完全數(shù)據(jù)相關(guān),假設(shè)缺失機(jī)制的選擇概率為π,有:

設(shè)回歸模型為g(Y|θ,Z,X),θ為模型的參數(shù)。則似然函數(shù)為:

對上述似然函數(shù)取對數(shù),對參數(shù)求導(dǎo),得到得分函數(shù)如下:

其中,S=?log(g(Y|θ,Z,X))/?θ,ki,m(P)=g(Yi|θ,Zi,Xi)*P*f(Xir|Xi(-m),Zi)。

m的取值為1,2,12。P為相應(yīng)的缺失選擇概率,f(Xim|Xi(-m),Zi)為缺失項Xi(-m)的條件分布。由于缺失變量的條件分布未知,根據(jù)Chatterjee.N、Chen.Y.-H.和 Breslow.N.E(2003)[10]的理論可知:

當(dāng)Ii1=Ii2=1,Ii=1。將得到的估計值代入得分函數(shù),產(chǎn)生新的得分函數(shù)。對得分函數(shù)求導(dǎo),得出目標(biāo)參數(shù)θ。

與文獻(xiàn)中不同的是,Samiran Sinha、Wang S.J和 K.Saha(2014)[2]在似然方程中與NI-機(jī)制結(jié)合,文中的應(yīng)用數(shù)據(jù)模擬時進(jìn)行隨機(jī)缺失,故而在MAR的背景下,將似然函數(shù)方程(2)中缺失機(jī)制的選擇概率設(shè)置為與MAR相對應(yīng)的選擇概率。

2 模擬與實證分析

文中采用的數(shù)據(jù)為太平洋車險數(shù)據(jù)[11],數(shù)據(jù)量為50,數(shù)據(jù)量均為布爾型數(shù)值。因變量為車險理賠情況,自變量分別為調(diào)研者的性別、視力情況、抽煙史、是否有駕駛教育和相關(guān)年齡。由汪靜波(2015)[11]變量與因變量的相關(guān)性可知,理賠與視力情況、抽煙史有關(guān)。設(shè)視力情況為X1,抽煙史為X2,由于半?yún)?shù)方法的需要,自變量的數(shù)量偏少,且MAR機(jī)制與完全數(shù)據(jù)相關(guān),本文中再添加輔助變量Z=X1*X2作為完全觀測數(shù)據(jù)。對兩個自變量及輔助變量作共線性診斷,k的值為18.31,在100之內(nèi),可認(rèn)為三者之間共線性小。

表1 自變量與因變量之間單因素logistic顯著性

三個自變量與因變量的單因素Logistic分析結(jié)果如上,均呈現(xiàn)出顯著性。

表2 Logistic回歸分析

表2為因變量與自變量之間的回歸分析結(jié)果,視力情況和抽煙史極為顯著,視力*抽煙對方程的顯著性不如視力情況和抽煙史。因此可得出實際應(yīng)用數(shù)據(jù)的回歸方程為:

設(shè)自變量X1、X2帶有缺失項,Z為可完全觀測數(shù)據(jù),設(shè)置的缺失率分別為10%、20%、30%、40%,數(shù)據(jù)缺失模擬結(jié)果如表3所示。

表3為在不同缺失率的情況下不同缺失數(shù)據(jù)處理方法的結(jié)果。從表中可以看出,當(dāng)缺失率為10%時,綜合偏差和標(biāo)準(zhǔn)差來看,后三種方法相比均值方法效果稍微好些,當(dāng)缺失率升至20%時,EM和半?yún)?shù)方法較均值插補和MI方法估計偏差更少。MI方法與均值插補相差不大。隨著缺失率的進(jìn)一步增大,這四種方法明顯受到缺失率的影響,估計精度變差。而半?yún)?shù)方法較其他三種方法估計效果更好。

3 結(jié)論

在實際問題中,由于信息缺失,缺失的數(shù)據(jù)給研究者帶來不少困擾。本文在離散變量背景下對完整的車險數(shù)據(jù)采用了Logistic回歸,對自變量模擬了四種缺失率,在不同缺失率的情況下運用四種缺失數(shù)據(jù)處理方法來處理缺失數(shù)據(jù)以得到模型參數(shù)估計。從分析結(jié)果表中可知,缺失率越小,幾種方法的估計精度越高。缺失率增加時,插補類方法明顯差于模型法,而半?yún)?shù)方法受到的影響較其他幾種方法小,有較好的魯棒性。

插補類方法依賴數(shù)據(jù)之間的關(guān)系,對數(shù)據(jù)插補時有一定的偏倚,EM方法和半?yún)?shù)方法未直接對數(shù)據(jù)填補,利用似然函數(shù)處理缺失部分,對數(shù)據(jù)缺失處理有更大優(yōu)勢,而半?yún)?shù)方法自身結(jié)合參數(shù)和非參數(shù)優(yōu)點,合理利用缺失部分信息,參數(shù)估計準(zhǔn)確度和魯棒性均高于EM算法,但半?yún)?shù)方法也受限于缺失機(jī)制,實現(xiàn)過程中受到初始參數(shù)的影響,這兩者在將來都是值得探討和改進(jìn)的地方。

表3 不同缺失率模擬結(jié)果

猜你喜歡
機(jī)制方法
構(gòu)建“不敢腐、不能腐、不想腐”機(jī)制的思考
學(xué)習(xí)方法
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
定向培養(yǎng) 還需完善安置機(jī)制
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機(jī)制要分步推進(jìn)
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
注重機(jī)制的相互配合
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 久久久无码人妻精品无码| 日日噜噜夜夜狠狠视频| 91最新精品视频发布页| 国产成人综合在线观看| 成人国产一区二区三区| 自拍欧美亚洲| 激情国产精品一区| 婷婷六月天激情| 亚洲女同一区二区| 乱人伦中文视频在线观看免费| 少妇高潮惨叫久久久久久| 色网在线视频| 国内精品小视频在线| 无码福利视频| 国内视频精品| 毛片免费观看视频| 午夜三级在线| 狠狠色丁香婷婷| 日韩在线网址| 无码一区二区三区视频在线播放| 欧美一区福利| 天堂网亚洲综合在线| 欧美成人精品一级在线观看| 97在线公开视频| 国产福利2021最新在线观看| 好紧好深好大乳无码中文字幕| 亚洲高清无在码在线无弹窗| 朝桐光一区二区| 中字无码av在线电影| 亚洲成人在线网| 日本午夜精品一本在线观看| 国内自拍久第一页| 亚洲自偷自拍另类小说| 欧美日韩另类国产| 91亚洲国产视频| 天天综合色网| 在线观看亚洲精品福利片| 精品无码视频在线观看| 国产欧美日韩18| 日韩a在线观看免费观看| 日韩欧美国产精品| 五月婷婷伊人网| 色噜噜狠狠狠综合曰曰曰| 美美女高清毛片视频免费观看| 无码专区国产精品一区| 中文字幕人成乱码熟女免费| 日日拍夜夜操| 亚洲—日韩aV在线| 精品久久人人爽人人玩人人妻| 国产亚洲视频免费播放| 国内精品伊人久久久久7777人| 日韩人妻精品一区| 草逼视频国产| 伊人五月丁香综合AⅤ| 欧洲免费精品视频在线| 99久久精彩视频| 欧美日韩一区二区三区在线视频| 成人久久18免费网站| 国产一国产一有一级毛片视频| 亚洲国产成人无码AV在线影院L| 欧美色图第一页| 欧美色亚洲| 国产一区三区二区中文在线| 思思热在线视频精品| 国产精品区网红主播在线观看| 国产视频一二三区| 91丝袜乱伦| 丰满人妻中出白浆| 久久久久国产精品嫩草影院| 国产精品黑色丝袜的老师| 免费人成视频在线观看网站| 欧美精品成人一区二区在线观看| 最新亚洲人成无码网站欣赏网| 亚洲高清在线天堂精品| 久久综合丝袜日本网| 国产最新无码专区在线| 欧美精品另类| 亚洲国产系列| 四虎成人免费毛片| 国产专区综合另类日韩一区 | 亚洲久悠悠色悠在线播放| 国产18在线|