999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

完全隨機缺失條件下連續型隨機變量數據缺失插補方法的比較研究

2015-03-09 12:56:56中國醫學科學院基礎醫學研究所北京協和醫學院基礎學院流行病學與衛生統計學系100005
中國衛生統計 2015年4期
關鍵詞:效果方法模型

中國醫學科學院基礎醫學研究所,北京協和醫學院基礎學院流行病學與衛生統計學系(100005)

張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

完全隨機缺失條件下連續型隨機變量數據缺失插補方法的比較研究

中國醫學科學院基礎醫學研究所,北京協和醫學院基礎學院流行病學與衛生統計學系(100005)

張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

目的探討完全隨機缺失條件下連續型隨機變量數據缺失對研究結果的影響,對各方法插補效果進行比較。方法基于上海地區35歲及以上吸煙人群吸煙與肺癌死亡關系的完整數據集,在5%、10%、20%及30%缺失率下,模擬單變量(吸煙年數sy)缺失,采用了7種方法處理單變量缺失;模擬多變量(吸煙年數sy和每天吸煙支數smd)缺失,采用了4種方法處理多變量缺失。對插補效果從缺失變量均值的變化、插補精確性及插補后模型參數的變化三個方面進行評價。結果單變量缺失:各缺失率下,回歸插補sy均值的偏差最小,MI/REG、MI/PMM和MI/MCMC插補后模型參數的偏差均較小,刪除法sy均值與模型參數的偏差均最大。多變量缺失:各缺失率下,回歸插補sy均值的偏差最小,刪除法最大;條件均值插補smd均值的偏差最小,MI/MCMC最大;條件均值插補模型參數的偏差最小,MI/MCMC最大。結論用不同指標對各方法插補效果進行評價會得出不同的結果,應根據統計分析的目的和關注點選擇最合適的缺失數據處理方法。總體來看,插補法處理缺失數據的效果優于刪除法,缺失率越高,優勢越顯著。

缺失數據 多重插補

在醫學研究中,數據缺失是一個普遍存在的問題[1]。數據缺失會導致樣本信息減少和統計檢驗效能降低,降低研究結果的有效性[2],增加統計分析的復雜性[3-4]。對缺失數據插補是國內外常用的缺失數據處理方法,完全隨機缺失是各插補方法最理想的應用環境,并且從理論上講,完全隨機缺失條件下的參數估計是無偏的,即完全隨機缺失是可忽略的缺失,但在一次具體研究中是否真的可以忽略完全隨機缺失值得探討。本研究基于完整數據集模擬完全隨機缺失數據集,探討連續型隨機變量數據缺失對研究結果的影響,采用不同方法插補缺失數據,并對插補效果進行比較及評價。

資料與方法

1.數據來源 研究數據源于1989-1991年開展的“中國吸煙與全死因關系”橫斷面調查,選取上海地區35歲及以上吸煙人群吸煙與肺癌死亡關系的數據進行插補方法研究,共14911條完整觀測。

2.研究涉及的變量 詳見表1。

表1 研究涉及變量情況

3.不完整數據集的構建 基于完整數據集模擬完全隨機缺失的不完整數據集。

(1)單變量缺失:模擬sy缺失的不完整數據集,在5%、10%、20%和30%的缺失率下各模擬100次。

(2)多變量缺失(任意缺失模式):模擬sy與smd均缺失的不完整數據集,缺失觀測中僅sy缺失占30%,僅smd缺失占20%,兩者均缺失占50%(該比例分布基于原始調查數據集實際缺失情況),缺失率及模擬次數與單變量缺失相同。

4.插補方法及效果評價

單變量缺失:采用七種方法處理缺失值[5-8],①刪除法:刪除sy缺失的觀測。②條件均值插補:按sex、agefz和sagefz將數據交叉分組分為20組。計算各組中sy的均值,將組均值作為該組中缺失項的插補值。③回歸插補:以sy為因變量,sex、age及sage為協變量建立回歸方程,用回歸預測值作為缺失數據的插補值。④多重插補-趨勢得分法(MI/PS):按照sex分層,每層中以sy缺失指示變量R(R=1,缺失;R=0,未缺失)為因變量,age、sage為協變量建立logistic回歸方程,sy缺失的概率為趨勢得分,基于趨勢得分將觀測分為20組,在每組中應用近似貝葉斯Bootstrap方法分別對缺失值進行3次、5次和10次插補。⑤多重插補-回歸法(MI/REG):以sy為因變量,sex、age和sage為協變量建立回歸方程,分別對缺失值進行3次、5次和10次插補。⑥多重插補-預測均數匹配法(MI/PMM):以sy為因變量,sex、age和sage為協變量建立回歸模型,選取與缺失數據的預測值最接近的5個真實值,從中抽樣對缺失數據進行3次、5次和10次插補。⑦多重插補-馬爾科夫蒙特卡洛法(MI/MCMC):按sex分層,每層中采用sy、age和sage建立馬爾科夫鏈對缺失數據進行3次、5次和10次插補。

多變量缺失:采用四種方法處理缺失值[5-8],①刪除法:刪除sy或smd缺失的觀測。②條件均值插補:按sex、agefz及sagefz組將全部觀測分為20組,以每組中sy和smd的均值來插補相應的缺失值。③回歸插補:以sex、age和sage為協變量,分別以sy及smd為因變量建立回歸模型,插補缺失值。④MI/MCMC:按sex分層,每層中采用sy、age、sage和smd建立馬爾科夫鏈,對缺失數據進行3次、5次和10次插補。

對各方法的插補效果從以下三方面進行評價:

(1)插補后缺失變量均值的改變[9]:計算插補后缺失變量均值的絕對偏差和均值的相對偏差其中為缺失變量插補后的均值,μ為真實的均值。再計算100次模擬的MAD及MRD的均數,即為均值的平均絕對偏差MADM及平均相對偏差MRDM,MADM和MRDM越小插補效果越好。

(2)插補的精確性[9-11]:計算插補值的平均絕對偏差MADD和平均相對偏差MRDD,插補的均方誤平方根RMSE,插補方差占總方差的百分比PMSE。

(3)插補后模型參數的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、sy和smd的關系。將插補數據集的模型參數估計結果與完整數據集的結果相比較,計算模型參數的平均絕對偏差MADP和平均相對偏差MRDP。

其中,k為重復模擬次數,s為模型中估計的參數個數,δ為完整數據集的參數估計值,δ′ij為插補數據集的參數估計值。MADP和MRDP越小插補效果越好。

結 果

1.單變量缺失

表2及表3顯示了5%缺失率下各法插補后sy均值及模型參數的改變。sy均值的偏差由大到小為:刪除法>MI/PS>MI/PMM>MI/REG>條件均值法>MI/MCMC>回歸插補法;插補精確性由高到低為:回歸插補法>MI/PMM>條件均值法>MI/MCMC>MI/REG>MI/PS;模型參數偏差由高到低依次為:刪除法>MI/PS>回歸插補法>條件均值法>MI/PMM>MI/MCMC>MI/REG。

表2 5%缺失率下對sy進行插補后均值的變化及插補精確性

表3 5%缺失率下對sy進行插補后模型參數的變化

由于篇幅限制,其他缺失率下各插補方法的結果不再一一列出,而以簡表的形式直觀展示不同缺失率下各方法的插補效果。由于同一多重插補方法在不同插補次數下的效果相近,選擇插補效果最好時對應的次數列表。

表4顯示,sy均值的偏差隨著缺失率的增加而增加;在各缺失率下,回歸插補sy均值的偏差均最小,刪除法的偏差最大;當缺失率≥10%時,各法插補后sy均值偏差的增加速度加快。

表4 不同缺失率下采用各種方法處理缺失數據后sy均值的平均絕對偏差

表5顯示,在各缺失率下,各方法插補值與真實值間的偏差均穩定在某一水平上,回歸插補的偏差最小,MI/PS最大。

表6顯示,模型參數的偏差隨著缺失率的增加而增加。當缺失率為5%時,MI/REG插補后模型參數的偏差最小,缺失率大于5%時,MI/PMM的偏差最小。但各缺失率下MI/REG、MI/MCMC和MI/PMM的插補效果接近,明顯優于其他方法,刪除法及MI/PS的偏差較大。當缺失率≥10%時,MI/REG、MI/PMM和MI/MCMC模型參數偏差的增長速度加快但不顯著,其他方法的增長速度明顯加快。

2.多變量缺失

對于多變量缺失,主要結果見表7~11。

表7顯示,缺失率為5%時條件均值法sy均值的偏差最小,但與回歸插補非常接近,當缺失率大于5%時,回歸插補的偏差最小。各缺失率下刪除法的偏差最大。

表8顯示,各缺失率下,各方法插補值與真實值之間的平均絕對偏差均穩定在某一水平上,且回歸插補的偏差最小,MI/MCMC最大。

表5 不同缺失率下各種方法插補sy后插補值與真實值的平均絕對偏差

表6 不同缺失率下采用各種方法處理缺失數據模型參數的平均絕對偏差

表7 不同缺失率下各法處理缺失數據后sy均值的平均絕對偏差

表8 不同缺失率下采用各種方法插補sy后插補值與真實值的平均絕對偏差

表9顯示,各缺失率下回歸插補與條件均值插補smd均值的平均絕對偏差非常接近且較小,MI/MCMC偏差最大。

表9 不同缺失率下采用各種方法處理缺失數據后smd均值的平均絕對偏差

表10顯示,各缺失率下smd插補值與真實值之間的平均絕對偏差均穩定在某一水平上,條件均值法的偏差最小,MI/MCMC最大。

表10 不同缺失率下各種方法插補smd后插補值與真實值的平均絕對偏差

表11顯示,各缺失率下條件均值插補后模型參數的平均絕對偏差最小,MI/MCMC最大。當缺失率≥10%時,模型參數偏差增加的速度加快。

表11 不同缺失率下各種方法插補缺失值后模型參數的平均絕對偏差

討 論

1.研究結果小結

在實際應用中,完全隨機缺失仍不可忽視,會影響研究結果的有效性。缺失率越大,對研究結果影響越大,對各方法插補效果的影響越大,且影響加大的程度也隨缺失率的增加而增加,當缺失率≥10%時,缺失變量均值偏差增長的速度、模型參數偏差增長的速度均明顯加快。對刪除缺失觀測后缺失變量均數的相對偏差與模型參數的相對偏差進行比較發現,模型參數的相對偏差遠遠大于缺失變量均數的相對偏差,提示模型對于數據缺失的敏感性高于缺失變量本身,即缺失數據對模型產生的影響大于對缺失變量均值的影響。盡管依據不同的指標對各缺失值處理方法進行評價、比較會得出不同的結論,但總體來看,插補法處理缺失數據的效果優于刪除法,基于統計建模的插補法優于未建模的缺失值處理方法,多重插補法的效果優于單值插補法,缺失率越大優勢越顯著,這與文獻[5,10,12]的研究結果一致,多重插補法處理缺失數據的有效性已得到國內外學者的普遍認可。但本研究是基于較大樣本量得到的研究結果,將其推廣到小樣本情形可能會受到一定限制,因此,在小樣本量條件下,數據缺失對研究結果的影響及插補方法的效果值得進一步研究。

2.對各插補方法的思考

本研究中的插補法不僅利用了缺失變量的信息,還利用了輔助變量的信息,輔助變量與缺失變量之間的相關性越強,信息利用越充分,插補的效果越好,如連續變量多變量缺失時采用回歸法對sy和smd進行插補時,對sy的插補效果明顯要優于對smd的插補效果,這主要是由于輔助變量與sy之間的相關性較好,而與smd的相關性較差。在僅sy缺失條件下,MI/MCMC對sy的插補效果較好,當sy與smd同時缺失時,增加了與其他變量相關性較弱的smd建立馬爾可夫鏈,此時對smd的插補效果較差,同時也影響了對sy的插補效果。MI/REG與MI/PMM均通過擬合回歸模型實現多重插補,缺失率較低時(≤10%)兩法插補效果接近,但隨著缺失率的增加,MI/PMM的插補效果要明顯優于MI/REG,這是由于MI/PMM是用數據集中與預測值最鄰近的真實值對缺失數據進行插補,使填補更加準確,當缺失率較大和預測值與實際值差異較大時,MI/PMM具有明顯的優勢。

3.對各插補方法進行比較時評判指標的選擇

目前,還沒有統一的指標來衡量各缺失數據插補方法的優劣,本研究綜合了以往其他研究的指標對插補效果進行評價。結果顯示,用不同的指標對各方法插補效果進行評價會得出不同的結論,如對單變量缺失插補時若以吸煙年數sy均值的改變為評價指標,回歸法插補效果最好,若以插補后模型參數變化的偏差為評價指標,則MI/PMM、MI/MCMC及MI/REG均較好。因此,在對缺失數據進行插補時,首先明確統計分析的關注點,若進行t檢驗、方差分析那么應關注缺失變量均值的變化,如果要建立統計模型則更應關注整個模型參數的變化,根據統計分析目的確定評價指標,選擇最合適的插補方法。本文討論了連續型隨機變量缺失對研究結果的影響,及相應插補方法的比較,對于離散型隨機變量缺失的插補方法及比較將另撰文討論。

[1]Abraham,Todd W,Russell,et al.M issing data:a review of current methods and applications in epidem iology research.Current opinion in psychiatry,2004,17(4):315-321.

[2]Streiner DL,Finkle WD.The case of the m issing Data:Methods of dealing with dropouts and other research vagaries.Research Methods in Psychiatry,2002,47(1):68-75.

[3]吳秋紅,張裕青,李國平,等.不同模型處理縱向缺失數據的模擬研究及應用.中國衛生統計,2013,30(6):855-861.

[4]曹陽,張羅漫.運用SAS對不完整數據集進行多重填補——SAS 9中的多重填補及其統計分析過程(一).中國衛生統計,2004,21(1):56-63.

[5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對醫院調查資料中缺失數據的多重估算.中國衛生統計,2013,30(6):837-841.

[6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition,North Carolina:SAS Institute Inc,2009.

[7]趙飛,張志杰,劉建翔.疾病監測資料中缺失值最佳填充次數的研究.中國衛生統計,2009,29(5):455-458.

[8]帥平,李曉松,周曉華,等.缺失數據統計處理方法研究進展.中國衛生統計,2013,30(1):135-142.

[9]蘭妥,江弋,劉光生.基于Sas的時間序列缺失值處理方法比較.計算機技術與發展,2008,10(18):43-45.

[10]張橋,李寧,張秋菊,等.任意缺失模式缺失數據不同填補方法效果比較,2013,30(5):690-692.

[11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with M issingData:Application to a Large MedicalDatabase.Connecting Medical Informatics and Bio-Informatics,2005:181-186.

[12]魏昕.缺失數據對微觀計量影響研究-以農民收入與消費為例.成都:西南交通大學,2010.

[13]莊嚴,邢艷春,馬文卿.含有缺失機制的多元縱向數據分析.中國衛生統計,2008,25(5):489-493.

(責任編輯:郭海強)

△通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com

猜你喜歡
效果方法模型
一半模型
按摩效果確有理論依據
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
3D打印中的模型分割與打包
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 激情乱人伦| 永久免费无码成人网站| 69综合网| 麻豆精品在线视频| 午夜视频免费一区二区在线看| 国产成人高清精品免费| 国产啪在线| 欧美色图第一页| 国产好痛疼轻点好爽的视频| 婷婷六月激情综合一区| 欧美在线一二区| 国产女同自拍视频| 日韩中文精品亚洲第三区| 制服丝袜无码每日更新| 成人亚洲天堂| 一区二区无码在线视频| 国产免费福利网站| 亚洲一道AV无码午夜福利| 亚洲国产清纯| 国产精品观看视频免费完整版| 最近最新中文字幕在线第一页| 亚洲看片网| 久青草网站| 999国产精品| 国内精自线i品一区202| 熟妇丰满人妻| 日韩精品一区二区三区免费| 九色视频一区| 亚洲精品天堂在线观看| 91久久国产综合精品| 日韩午夜福利在线观看| 91福利免费| 亚洲中文字幕在线精品一区| 日本少妇又色又爽又高潮| 国产av剧情无码精品色午夜| 欧美日韩国产在线播放| 国产综合精品一区二区| 亚洲国产亚洲综合在线尤物| 精品人妻系列无码专区久久| 1769国产精品视频免费观看| 视频二区亚洲精品| 欧美日在线观看| 2020最新国产精品视频| 狠狠v日韩v欧美v| 亚洲高清免费在线观看| 久久伊人操| 久久91精品牛牛| 特级aaaaaaaaa毛片免费视频| 91免费国产高清观看| 在线观看亚洲天堂| 国产微拍一区二区三区四区| 亚洲Av综合日韩精品久久久| 一级成人a毛片免费播放| 成人免费网站久久久| 久久亚洲高清国产| 54pao国产成人免费视频| 在线另类稀缺国产呦| 亚洲高清无码久久久| 亚洲v日韩v欧美在线观看| 精品国产一区91在线| 久久婷婷综合色一区二区| 亚洲视频在线青青| 青青青国产精品国产精品美女| 青青青视频91在线 | 又爽又大又黄a级毛片在线视频| 激情在线网| 五月天在线网站| 亚洲人在线| 欧美翘臀一区二区三区 | 日本一区二区不卡视频| 亚洲国产精品无码AV| 国产亚洲视频在线观看| 国产99久久亚洲综合精品西瓜tv| 一本久道热中字伊人| 狠狠色成人综合首页| 免费A级毛片无码免费视频| 欧美激情视频一区二区三区免费| 久久中文无码精品| 国产主播一区二区三区| 麻豆国产精品| 欧美日本视频在线观看| 国产91小视频在线观看|