999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

完全隨機缺失條件下分類隨機變量數據缺失插補方法的比較研究

2015-01-27 12:28:51龐海玉王子興王鈺嫣姜晶梅
中國衛生統計 2015年5期
關鍵詞:分類效果方法

張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅

中國醫學科學院基礎醫學研究所&北京協和醫學院基礎學院流行病學與衛生統計學系(100005)

·方法介紹·

完全隨機缺失條件下分類隨機變量數據缺失插補方法的比較研究

張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

中國醫學科學院基礎醫學研究所&北京協和醫學院基礎學院流行病學與衛生統計學系(100005)

目的 探討完全隨機缺失條件下分類隨機變量數據缺失對研究結果的影響,對各方法插補效果進行評價。方法 基于上海地區35歲及以上吸煙人群吸煙與肺癌死亡關系的完整數據集,在5%、10%、20%及30%缺失率下,模擬有序分類變量(吸煙年數分組syfz)缺失和二分類變量(性別sex)缺失,重復模擬100次。采用刪除法、眾數插補法、多重插補-logistic回歸法(MI/logistic)及多重插補-判別分析法(ML/discrim)對分類變量數據缺失進行處理。對插補效果從插補正確率及插補后模型參數的變化兩個方面進行評價。結果 有序分類變量缺失:各缺失率下,MI/logistic插補的正確率最高,MI/logistic和MI/discrim插補后模型參數的偏差均較小,對于吸煙年數sy以分組形式syfz納入模型數據缺失導致模型參數的相對偏差更小,對syfz插補后模型參數相對偏差也小于連續變量sy插補后模型參數相對偏差。二分類變量缺失:各缺失率下,眾數插補的正確率最高,刪除法處理缺失數據后模型參數的偏差最小。結論 連續變量缺失對模型結果的影響大于分類變量缺失,對于有數據缺失的連續變量可將其離散化,以分類變量的形式進行分析。缺失數據插補模型的擬合效果會直接影響插補效果,當模型擬合效果較差時可能會帶來更大的偏差。

分類變量 數據缺失 多重插補

在醫學研究中,數據缺失是一個普遍存在的問題[1]。數據缺失會導致樣本信息減少和統計檢驗效能降低,損害研究結果的有效性[2],增加統計分析的復雜性[3-4]。對缺失數據進行插補是國內外普遍應用的缺失數據處理方法,但目前研究多集中于對連續變量的數據缺失進行插補,對分類變量數據缺失的插補研究較少,完全隨機缺失是對插補方法的插補效果進行評價的理想環境。本研究基于完整數據集模擬缺失數據集,探討分類隨機變量數據缺失對研究結果的影響,并對各方法的插補效果進行比較及評價。

資料與方法

1.數據來源:研究數據源于1989-1991年開展的“中國吸煙與全死因關系”橫斷面調查,選取上海地區35歲及以上吸煙人群吸煙與肺癌死亡關系的數據進行插補方法研究,共14911條完整觀測。

2.研究涉及的變量:詳見表1。

3.不完整數據集的構建:基于完整數據集模擬完全隨機缺失的不完整數據集。

(1)有序分類變量缺失:模擬syfz缺失的不完整數據集,分別在5%、10%、20%和30%的缺失率下各模擬100次;

(2)二分類變量缺失:模擬sex缺失的不完整數據集,分別在5%、10%、20%和30%的缺失率下各模擬100次。

4.插補方法及效果評價

有序分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除syfz缺失的觀測;②眾數插補法,按sex和sagefz將數據交叉分組分為8組。計算各組中syfz的眾數,并將其作為該組中缺失項的插補值。③多重插補-logistic回歸法(MI/logistic),以syfz為因變量,sex、age和sage為協變量擬合有序多分類logistic回歸模型,計算缺失觀測syfz取值為1,2,…,5的概率分別為p1,p2,…,p5,然后產生一個服從均勻分布的隨機變量μ,其取值介于0和1之間,若μ

二分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除sex缺失的觀測。②眾數插補法,按agefz及sagefz將全部觀測分為16組,以每組中sex的眾數插補相應的缺失值。③多重插補-logistic回歸法(MI/logistic),以sex為因變量,age、sage、smd和sy為協變量擬合二分類logistic回歸模型,插補過程與有序多分類logistic回歸多重插補相同,分別對缺失值進行3次、5次和10次插補。④多重插補-判別分析法(MI/discrim),利用變量age、sage、smd和sy構建sex的判別模型,分別對缺失值進行3次、5次和10次插補。

對各方法的插補效果從以下二方面進行評價:

(1)插補正確率[9-11]:計算插補后各插補方法的插補正確率,正確插補的觀測數占總缺失觀測數的比例。重復模擬100次,計算100次正確率的均值,得到各方法的平均插補正確率。插補正確率越高插補效果越好。

(2)插補后模型參數的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、syfz(或sy)和smd的關系。將插補數據集的模型參數估計結果與完整數據集的結果相比較,計算模型參數的平均絕對偏差MADP和平均相對偏差MRDP。

其中,k為重復模擬次數,s為模型中估計的參數個數,δ為完整數據集的參數估計值,δij為插補數據集的參數估計值。MADP和MRDP越小插補效果越好。

結 果

1.有序分類變量缺失

表2顯示了在5%缺失率下各法對syfz插補的正確率及插補后模型參數的變化。Syfz插補正確率由高到低為:MI/logistic>MI/discrim>眾數插補;從模型參數偏差來看,MI/logistic與MI/discrim插補后模型參數的偏差較小且極為接近,均遠小于眾數插補與刪除法。

其他缺失率下各插補方法的結果列于表3~6,由于同一多重插補方法在不同插補次數下的效果相近,選擇插補效果最好時對應的次數。

表3顯示,各方法的插補準確率較為穩定,不隨缺失率的變化而變化。MI/logistic插補的正確率最高,眾數插補的正確率最低。

表4顯示,模型參數的偏差隨著缺失率的增加而增加。各缺失率下,眾數插補的偏差均最大,MI/logistic與MI/discrim的偏差較小且極為接近,明顯優于眾數插補和刪除法。

syfz是由連續變量sy離散化得到的,當sy有數據缺失時,分別以連續變量形式sy和分組變量形式syfz進入模型,數據缺失導致模型參數的相對偏差情況見表5。

表5顯示,在各缺失率下,以分類變量形式syfz進入模型時模型參數的相對偏差小于連續變量形式sy的相對偏差。隨著缺失率的增加,syfz與sy的模型參數相對誤差的差值有增大的趨勢。

采用刪除法、條件均值插補、回歸插補、多重插補-趨勢得分法、多重插補-回歸法、多重插補-預測均數匹配法及多重插補-馬爾科夫蒙特卡洛法對sy的缺失數據進行處理,采用刪除法、眾數插補、多重插補-logistic回歸及多重插補-判別分析對syfz的缺失數據進行處理。將插補后的sy和syfz分別納入模型,計算各方法插補后模型參數的相對偏差,選擇最小的相對偏差作圖,可得對連續變量sy和分類變量syfz插補后模型參數的相對偏差,詳見表6。

表6顯示,在各缺失率下,分類變量syfz插補后進入模型的模型參數相對偏差均小于連續變量sy插補后進入模型的模型參數相對偏差。隨著缺失率的增加,syfz與sy的模型參數相對誤差的差值有增大的趨勢。通過表6與表5的比較可見,插補后模型參數的相對偏差明顯降低。

2.二分類變量缺失

對二分類變量sex缺失數據處理的主要結果見表7-8。

表7顯示,各方法的插補準確率穩定在一定水平上;眾數插補的正確率最高,MI/logistic與MI/discrim插補的正確率相近且均較低。

表8顯示,模型參數的偏差隨著缺失率的增加而增加。各缺失率下,刪除法的偏差最小,MI/logistic與MI/discrim的偏差均較大。

討 論

缺失率越大,數據缺失導致研究結果的偏差越大,各缺失值處理方法的效果也越差。本研究將吸煙年數測量指標分別以連續變量sy和分組變量syfz納入模型,結果顯示,syfz進入模型數據缺失導致的模型參數的相對偏差較小,對syfz進行插補后模型參數的相對偏差更小。這提示連續變量缺失對模型結果的影響大于分類變量缺失,在實際中遇到有數據缺失的連續變量可將其離散化,以分類變量的形式進行處理。

本研究對缺失變量的插補充分利用了輔助變量的信息,輔助變量與缺失變量之間的相關性越強,信息利用越充分,插補的效果越好。對syfz進行插補時,MI/logistic與MI/discrim的插補效果較好,明顯優于刪除法與眾數插補法,然而對sex進行插補時,MI/logistic與MI/discrim的插補效果較差,明顯差于刪除法與眾數插補法,究其原因是由于輔助變量能對syfz進行較好的預測,而對sex的預測效果較差。如進行MI/logistic插補時,對syfz進行預測的logistic回歸模型其矯正R2為0.8513,預測一致百分比為94.8%,而對sex進行預測的回歸模型矯正R2為0.2003,預測一致百分比為72.9%。這提示基于統計建模對缺失數據進行插補時,模型擬合效果會直接影響插補效果,當模型擬合效果較差時會帶來更大的偏差,但模型擬合優度與插補效果之間的定量關系有待進一步的研究。

[1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321.

[2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75.

[3]吳秋紅,張裕青,李國平,等.不同模型處理縱向缺失數據的模擬研究及應用.中國衛生統計,2013,30(6):855-861.

[4]曹陽,張羅漫.運用SAS對不完整數據集進行多重填補-SAS9中的多重填補及其統計分析過程(一).中國衛生統計,2004,21(1):56-63.

[5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對醫院調查資料中缺失數據的多重估算.中國衛生統計,2013,30(6):837-841.

[6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009.

[7]趙飛,張志杰,劉建翔.疾病監測資料中缺失值最佳填充次數的研究.中國衛生統計,2009,29(5):455-458.

[8]帥平,李曉松,周曉華,等.缺失數據統計處理方法研究進展.中國衛生統計,2013,30(1):135-142.

[9]蘭妥,江弋,劉光生.基于Sas的時間序列缺失值處理方法比較.計算機技術與發展,2008,10(18):43-45.

[10]張橋,李寧,張秋菊,等.任意缺失模式缺失數據不同填補方法效果比較.中國衛生統計, 2013,30(5):690-692.

[11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186.

[12]魏昕.缺失數據對微觀計量影響研究——以農民收入與消費為例.成都:西南交通大學,2010.

[13]莊嚴,邢艷春,馬文卿.含有缺失機制的多元縱向數據分析.中國衛生統計,2008,25(5):489-493.

(責任編輯:郭海強)

△通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com

猜你喜歡
分類效果方法
按摩效果確有理論依據
分類算一算
分類討論求坐標
迅速制造慢門虛化效果
數據分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數的分類
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产精品制服| 国产成人免费高清AⅤ| 热99精品视频| 成年片色大黄全免费网站久久| 国产精品网址在线观看你懂的| 国产综合欧美| 99精品这里只有精品高清视频| 国产人成网线在线播放va| 久久黄色一级视频| 日本午夜精品一本在线观看 | 欧美国产菊爆免费观看| 亚洲国产亚综合在线区| 国产精品福利尤物youwu| yjizz视频最新网站在线| 国产福利免费在线观看| 婷五月综合| 亚洲国产天堂久久综合| 亚洲国产精品日韩专区AV| 欧洲av毛片| AⅤ色综合久久天堂AV色综合| 小蝌蚪亚洲精品国产| 丰满的少妇人妻无码区| 无码中文字幕乱码免费2| 国产精品区视频中文字幕 | 国产黄色免费看| 波多野结衣久久高清免费| 亚洲中文字幕手机在线第一页| 亚洲欧美精品一中文字幕| 无遮挡一级毛片呦女视频| 亚洲欧美综合在线观看| 国产美女精品人人做人人爽| 午夜不卡视频| 亚洲第一视频区| 亚洲av色吊丝无码| 亚洲精品日产精品乱码不卡| 22sihu国产精品视频影视资讯| 国产97视频在线| 日韩欧美国产三级| 亚洲欧美日韩高清综合678| av大片在线无码免费| 亚洲婷婷丁香| 蜜芽国产尤物av尤物在线看| 亚洲婷婷丁香| 亚洲三级影院| 久久综合五月| 国产精品一区二区国产主播| 天天躁夜夜躁狠狠躁躁88| 国产清纯在线一区二区WWW| 国产精品不卡永久免费| 亚洲国产中文精品va在线播放| 亚洲无码精品在线播放| 国产激情第一页| 国产精品.com| 国产呦精品一区二区三区下载| 九九九久久国产精品| 成年女人a毛片免费视频| 成人午夜在线播放| 久久毛片网| 2019年国产精品自拍不卡| 国产在线观看91精品亚瑟| 日本黄色不卡视频| 999精品在线视频| 黑人巨大精品欧美一区二区区| 中日无码在线观看| 黑人巨大精品欧美一区二区区| 日本不卡免费高清视频| 欧美精品高清| 成人一区专区在线观看| 欧美国产成人在线| 中文天堂在线视频| 在线精品欧美日韩| 欧美成人一级| 有专无码视频| 亚洲天堂在线视频| 午夜天堂视频| 亚洲欧美另类色图| 999国产精品| 欧美劲爆第一页| 在线观看国产小视频| 成人年鲁鲁在线观看视频| 2021国产精品自产拍在线| 五月激情综合网|