999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

任意缺失模式缺失數(shù)據(jù)不同填補方法效果比較*

2013-09-07 09:02:12張秋菊劉美娜
中國衛(wèi)生統(tǒng)計 2013年5期
關(guān)鍵詞:效果評價方法

張 橋 李 寧 張秋菊 劉美娜△

任意缺失模式缺失數(shù)據(jù)不同填補方法效果比較*

張 橋1李 寧2張秋菊1劉美娜1△

目的 探討任意缺失模式下缺失數(shù)據(jù)的填補方法,并對不同方法填補效果進行比較和評價。方法 結(jié)合我國北方絕經(jīng)期婦女鈣需要和膳食評估應(yīng)用研究課題的數(shù)據(jù),調(diào)用SAS軟件中IML模塊產(chǎn)生任意缺失模式模擬數(shù)據(jù),通過MI和MIANALYZE過程實現(xiàn)缺失數(shù)據(jù)的填補,同時應(yīng)用準確度和穩(wěn)定度兩個評價指標來評價各方法填補的效果。結(jié)果 PS方法填補3次在本文模擬的任意缺失模式的缺失數(shù)據(jù)中填補效果最佳,MCMC方法填補效果并不理想。結(jié)論 在填補任意缺失模式的缺失數(shù)據(jù)時,MCMC并不是唯一的多重填補方法,通過多重填補的PS方法、PMM方法和REG方法把數(shù)據(jù)填補成單調(diào)缺失后,再用相同方法進行一次填補也是一種可選擇的填補方法。

缺失數(shù)據(jù) 任意缺失模式 多重填補 數(shù)據(jù)模擬

1.哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)

2.寧波市疾病預(yù)防控制中心免疫預(yù)防所

△通信作者:劉美娜,E-mail:liumeina369@163.com

數(shù)據(jù)缺失是實驗研究和調(diào)查研究中一個普遍存在的問題〔1〕,如何正確的處理、分析所缺失的數(shù)據(jù)在數(shù)據(jù)分析中占有重要地位。缺失數(shù)據(jù)的類型按照不同的分類方法可劃分不同類別,按缺失機制分類和按缺失模式分類兩種劃分方法〔2-3〕。

按照由Little和Rubin在1976年提出的缺失機制分類,缺失數(shù)據(jù)可以分為完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(not missing at random,NMAR)三類〔4〕。如果所缺失的數(shù)據(jù)發(fā)生的概率既與已觀察到的數(shù)據(jù)無關(guān)也與未觀察到的數(shù)據(jù)無關(guān),則該缺失數(shù)據(jù)類型為MCAR;如果缺失數(shù)據(jù)的發(fā)生概率與所觀察到的變量是有關(guān)的,而與未觀察到的數(shù)據(jù)特征無關(guān),則該缺失數(shù)據(jù)類型為MAR;若數(shù)據(jù)既不屬于完全隨機缺失也不屬于隨機缺失,那么該缺失數(shù)據(jù)類型就屬于NMAR〔5〕。按照數(shù)據(jù)缺失模式可以分為單調(diào)缺失模式和任意缺失模式兩類〔6-7〕,為了簡單明了可以通過圖1來形象的理解,其中是5個變量,1~5是5個樣本,“×”表示數(shù)據(jù)能觀察到,“.”表示數(shù)據(jù)缺失。

圖1 數(shù)據(jù)缺失模式

單調(diào)缺失模式如圖1(a)所示,對數(shù)據(jù)集進行適當?shù)男辛凶儞Q后,可以得到這樣一個矩陣,它呈現(xiàn)出一種層級缺失的模式,矩陣中的元素yj缺失時,則對任意的P≥j,元素yp也是缺失的;任意缺失模式如圖1(b)所示,數(shù)據(jù)缺失具有隨意性,沒有任何規(guī)律可循,即使通過行列變換也無法看出任何規(guī)律。

對于任意缺失模式的數(shù)據(jù)處理,查閱相關(guān)文獻發(fā)現(xiàn)常用的就是把缺失值直接刪除即Ad Hoc法或多重填補(multiple imputation,MI)中的馬爾科夫鏈蒙特卡洛(markov chain monte carlo,MCMC)方法〔8〕,對于縱向數(shù)據(jù)有時也采用單一填補中的LOCF(last observation carried forward)方法〔9〕。本文將探討 Ad Hoc法、LOCF填補、多重填補中的回歸方法、預(yù)測均數(shù)匹配(predictive mean matching,PMM)方法、趨勢得分(propensity score,PS)方法、MCMC方法這六種方法對任意缺失模式下缺失數(shù)據(jù)的填補效果。

資料與方法

1.資料來源

本文所用數(shù)據(jù)來源于國家科技支撐計劃項目:我國北方絕經(jīng)期婦女鈣需要和膳食評估應(yīng)用研究。此課題是一個為期兩年人群干預(yù)研究,研究對象282名,通過分層隨機方法分為四組,3個鈣干預(yù)組和1個信息干預(yù)組。分別在干預(yù)前、干預(yù)1年后、干預(yù)2年后三個時間點對干預(yù)對象進行調(diào)查和樣品采集,獲得研究對象的體格檢查、一般情況、飲食情況、體力活動情況和心理與應(yīng)對等信息,同時對研究對象進行骨密度檢測,所采用儀器是美國Norland XR-36雙能X線骨密度儀,包括腰椎、髖骨和全身骨三個部位,獲得相應(yīng)部位的骨密度T值。本文主要選用志愿者的身高、體重、年齡以及三次骨密度檢查的腰椎骨密度T值作為模擬實驗的參考數(shù)據(jù)。

2.數(shù)據(jù)基本狀況

參考數(shù)據(jù)中身高、體重、年齡和第一次腰椎骨密度T值為完整數(shù)據(jù),共282例,第二次和第三次腰椎骨密度T值分別缺失63人和80人,因此剩余人數(shù)分別是219和202例。參考數(shù)據(jù)中各變量的均數(shù)和標準差見表1。

表1 參考數(shù)據(jù)各變量的均數(shù)和標準

表2是參考數(shù)據(jù)中各變量間的相關(guān)系數(shù)矩陣。

表2 參考數(shù)據(jù)各變量的相關(guān)系數(shù)矩陣

3.分析方法及評價標準

本文的數(shù)據(jù)分析思路為:根據(jù)實際研究所獲數(shù)據(jù)模擬出100個完整數(shù)據(jù)集,在此基礎(chǔ)上,分別根據(jù)完整數(shù)據(jù)中第二次和第三次腰椎骨密度T值的數(shù)據(jù)缺失率(分別為22.34%和28.37%)生成100個有數(shù)據(jù)缺失的數(shù)據(jù)集,然后再用各種缺失數(shù)據(jù)填補方法對缺失數(shù)據(jù)集進行填補,最后根據(jù)評價指標來評價各填補方法的優(yōu)劣。

數(shù)據(jù)分析軟件為SAS 9.1,模擬數(shù)據(jù)集采用IML模塊和SAS宏程序,缺失數(shù)據(jù)的處理和分析主要采用了PROC MI和PROC MIANALYZE過程。由于REG方法、PMM方法和PS方法只能對單調(diào)缺失模式的數(shù)據(jù)進行填補,所以在用如上三種方法進行缺失數(shù)據(jù)填補時,本文首先對第二次腰椎骨密度T值填補N(N=3、5、10、15、20)次,使數(shù)據(jù)變成單調(diào)缺失后,再用相應(yīng)的填補方法對第三次腰椎骨密度T值填補1次。

針對缺失數(shù)據(jù)填補效果優(yōu)劣的評價指標本文采用準確度和穩(wěn)定度〔10〕。對于變量Y,100個完整數(shù)據(jù)集有100個均數(shù)Y1,Y2,…,Y100,這 100 個均數(shù)的平均值為Ymean,缺失數(shù)據(jù)經(jīng)過處理后也會有100個均數(shù),…,均數(shù)的平均值為,則準確度指標定義為:BIASmeanmean

BIASmean指標的絕對值越小說明估計均數(shù)時偏差越小,準確度越高。

MSEmean指標越大說明估計均數(shù)時穩(wěn)定度越好〔11〕。

同理可以計算100個標準誤的BIASstderr和MSEstderr。

結(jié) 果

用不同填補方法對模擬的缺失數(shù)據(jù)集進行填補,第二次和第三次腰椎骨密度T值填補效果較好的前五位的評價指標結(jié)果分別如表3和表4所示:

表3 不同填補方法對第二次腰椎骨密度T值填補效果

從表3中可以看出對于第二次腰椎骨密度T值均數(shù)準確性的評價指標BIASmean絕對值最小的前五位為:0.0005、0.0006、0.0009、0.0009、0.0012、0.0012 分別為Ad Hoc方法、MCMC方法填補10次、MCMC方法填補5次、PS方法填補3次、MCMC方法填補3次、PMM方法填補15次。對于第二次腰椎骨密度T值均數(shù)穩(wěn)定性的評價指標MSEmean最大的前五位為:2.4732、1.9634、1.9466、1.9107、1.9023 分別為 Ad Hoc方法、PS方法填補15次、PS方法填補10次、PS方法填補20次、PS方法填補3次。

對于第二次腰椎骨密度T值標準誤準確性的評價指標BIASstderr絕對值最小的前五位為:0.0001、0.0007、0.0008、0.0009、0.0012 分別為 LOCF 方法、PMM方法填補20次、PMM方法填補15次、PMM方法填補10次、PMM方法填補3次。對于第二次腰椎骨密度T值標準誤穩(wěn)定性的評價指標MSEstderr最大的前五位為:0.0362、0.0280、0.0136、0.0118、0.0112 分別為PS方法填補3次、PS方法填補5次、PS方法填補10次、Ad Hoc方法、PS方法填補15次。

表4 不同填補方法對第三次腰椎骨密度T值填補效果

從表4中可以看出對于第三次腰椎骨密度T值均數(shù)準確性的評價指標BIASmean絕對值最小的前五位為:0.0014、0.0020、0.0030、0.0032、0.0039 分別為 PS方法填補3次、REG方法填補3次、PS方法填補15次、PS方法填補5次、REG方法填補5次。對于第三次腰椎骨密度T值均數(shù)穩(wěn)定性的評價指標MSEmean最大的 前 五 位 為:2.0351、1.8190、1.8099、1.7976、1.7753分別為Ad Hoc方法、PS方法填補5次、PS方法填補10次、PS方法填補3次、PS方法填補15次。

從如上的結(jié)果綜合來看,PS方法填補3次在本文模擬的數(shù)據(jù)中填補效果最佳,而MCMC方法除在第二次腰椎骨密度T值的BIASmean指標上表現(xiàn)較好外,在其他指標中都沒有進入填補效果最好的前五位。

討 論

在多重填補的四種方法里,PS方法在第二次和第三次腰椎骨密度T值的MSEmean指標和MSEstderr指標上都有很好的效果,REG方法在第三次腰椎骨密度T值的BIASstderr指標上有很好的效果,PMM方法在第二次腰椎骨密度T值的BIASstderr指標上有很好的效果,而MCMC方法只在第二次腰椎骨密度T值的BIASmean指標上有較好的效果。填補次數(shù)越多填補效果不一定越好。

因此從本文可以看出,對于任意缺失模式的缺失數(shù)據(jù)集,多重填補的MCMC并不是唯一的多重填補方法,采用單調(diào)缺失模式下的多重填補方法把任意缺失數(shù)據(jù)填補成單調(diào)缺失,在此基礎(chǔ)上再進行一次該方法的填補,在某些條件下比MCMC填補的效果好。對于填補的次數(shù)并不是越多越好,而是要根據(jù)實際情況,進行數(shù)據(jù)模擬,從而找出最佳的填補次數(shù)。

1.Amold AM,Kronmal RA.Multiple imputation of baseline data in the cardiovascular health study.American Journal of Epidemiology,2003,157(1):74-84.

2.Abraham,Todd W,Russell,et al.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

3.James M,Robins,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.

4.Little RJ,Rubin DB.Statistical Analysis with Missing Data.New York:John Wiley&Sons,1987.

5.Little RJ,Rubin DB.Statistical Analysis with Missing Data.2nd ed.Hoboken,NJ:John Wiley&Sons,2002.

6.曹陽,謝萬軍,張羅漫.多重填補的方法及其統(tǒng)計推斷原理.中國醫(yī)院統(tǒng)計,2003,10(2):77-81.

7.李新華,夏結(jié)來.多重填補處理有缺失數(shù)據(jù)的2×2交叉設(shè)計資料的應(yīng)用.2004中國衛(wèi)生統(tǒng)計學術(shù)會議論文集,2004:181-187.

8.張熙,林燧恒.多重填補在隨機干預(yù)實驗研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2011,28(5):537-539.

9.茅群霞.缺失值處理統(tǒng)計方法的模擬比較研究及應(yīng)用.四川大學碩士畢業(yè)論文,2005.

10.Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern missing data procedures.Psychol Methods,2001,6(4):330-351.

11.李寧.鈣干預(yù)試驗骨密度缺失值的填補研究.哈爾濱醫(yī)科大學碩士畢業(yè)論文,2010.

A Simulated Comparison between Different Imputation Meth-ods in Arbitrary Missing Data

Zhang Qiao,Li Ning,Zhang Qiuju,et al.Department of Health Statistics,Harbin Medical University(150086),Harbin

ObjectiveTo evaluate the imputation effect of different imputation methods in arbitrary missing data.MethodsFirst of all,we use the IML model in SAS software to simulate arbitrary missing data,which is about the calcium requirements and dietary evaluation of postmenopausal women in the north of china.Imputing the missing data through the MI and MIANALYZE processes.Accuracy and stability were used for the evaluation indices to compare the imputation effect of different methods.ResultsThe effect of PS method when imputing 3 times is the best in this data,while the effect of MCMC method is not ideal.Conclusion The MCMC is not the unique multiple imputation method when imput arbitrary missing data.The PS,PMM,REG methods could turn the arbitrary missingness pattern into monotone missingness pattern,then we use the same method to imput once again.It is also an alternative imputation method.

Missing data;Arbitrary missingness pattern;Multiple imputation;Data simulation

國家科技支撐計劃(2011BAI09B02)

(責任編輯:郭海強)

猜你喜歡
效果評價方法
按摩效果確有理論依據(jù)
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學習評價
保加利亞轉(zhuǎn)軌20年評價
主站蜘蛛池模板: 亚洲精品免费网站| 久久久精品无码一区二区三区| 91成人精品视频| 熟妇无码人妻| av手机版在线播放| 国产成人午夜福利免费无码r| 丰满人妻一区二区三区视频| 国产 在线视频无码| 欧美在线伊人| 久久久91人妻无码精品蜜桃HD| 国产99久久亚洲综合精品西瓜tv| 波多野结衣AV无码久久一区| 欧美福利在线观看| 国产福利小视频在线播放观看| 国产成人精品2021欧美日韩| 亚洲男人在线| 国模粉嫩小泬视频在线观看| 欧美成人亚洲综合精品欧美激情| 99视频国产精品| 精品国产Av电影无码久久久| 福利姬国产精品一区在线| 亚洲欧美人成人让影院| 熟女视频91| 亚洲综合第一区| 国产欧美日韩免费| 久久综合九色综合97婷婷| 国产激情在线视频| 好久久免费视频高清| 999在线免费视频| 99热这里只有精品2| 青草视频免费在线观看| 国产手机在线小视频免费观看| 波多野结衣在线se| 日韩毛片免费视频| 中文字幕乱码中文乱码51精品| 97免费在线观看视频| 91年精品国产福利线观看久久 | 国产香蕉在线视频| 在线欧美日韩国产| 久久性妇女精品免费| 国产精品美女在线| 视频二区国产精品职场同事| 日韩AV手机在线观看蜜芽| 亚洲男人的天堂久久香蕉网| 成人在线观看一区| 激情乱人伦| 强奷白丝美女在线观看| 国产91九色在线播放| yjizz国产在线视频网| 亚洲日韩精品无码专区97| 国产女人综合久久精品视| 亚洲国产天堂在线观看| 国产激爽爽爽大片在线观看| 黄色三级网站免费| 久久99国产综合精品1| 欧美不卡二区| 国产在线精品网址你懂的| 2021精品国产自在现线看| 黄色网址手机国内免费在线观看| 欧美视频在线第一页| av无码久久精品| 内射人妻无套中出无码| 在线日韩日本国产亚洲| 国产成人一区在线播放| 亚洲第一福利视频导航| 日本不卡在线播放| 免费国产高清视频| 呦视频在线一区二区三区| 青草午夜精品视频在线观看| 亚洲系列中文字幕一区二区| 国产成人h在线观看网站站| 激情网址在线观看| 亚洲男女在线| 高h视频在线| 色综合天天综合| 极品私人尤物在线精品首页 | 青青操国产视频| 无码精品国产dvd在线观看9久| 亚洲成人网在线观看| 欧美第一页在线| 成人精品免费视频| 91啦中文字幕|