山東大學公共衛生學院流行病與衛生統計學系(250012) 章 濤 朱 麟 季加東 袁中尚 薛付忠 李秀君
基于R軟件的缺失數據MICE填補效果研究*
山東大學公共衛生學院流行病與衛生統計學系(250012) 章 濤 朱 麟 季加東 袁中尚 薛付忠 李秀君△
目的研究不同缺失率、不同缺失機制下,MICE(multivariate imputation by chained equations)多重填補的效果,探討該填補方法的適用情況。方法依托某現況調查的完全數據,使用R軟件構造不同缺失率、不同缺失機制的缺失數據。計算列表刪除和MICE多重填補后分析結果的標準偏倚,并進行比較。單獨對分類變量計算多重填補后的平均錯分率。結果在單變量缺失率分別為10%、20%和30%的隨機缺失三種情況下,MICE多重填補表現優良;其他模擬情況下,MICE多重填補相比于列表刪除并未表現出明顯的優勢。對于分類變量,MICE填補后的平均錯分率均超過60%。結論對于隨機缺失數據,且單變量缺失率不超過30%時,建議采用MICE多重填補進行處理;但對于資料中的分類變量,不建議直接引用MICE填補后的具體數值。
MICE 缺失數據 模擬研究 多重填補
缺失數據(m issing data)是指那些未被觀察到的、對數據分析有意義的數據[1]。缺失數據可能會導致參數估計的偏倚,增大Ⅰ類或Ⅱ類錯誤。并且數據的缺失常伴隨著信息的缺失,因此缺失值可能導致統計檢驗效能的降低[2]。目前缺失數據的處理方法大致分為三類[3-5]:刪除法、填補法和不處理。刪除法包括列表刪除(listw ise deletion,LD)和配對刪除。填補法又可分為單一填補和多重填補。不處理的方法包括貝葉斯網絡和人工神經網絡的方法等[6-7]。
多數統計軟件在進行缺失數據的分析時默認采用列表刪除法,因而在實際應用中最常用的缺失數據處理方法之一還是列表刪除。列表刪除,即刪除含有缺失變量的觀測。單一填補方法盡管簡單,但可能會導致目標變量分布的扭曲,并且無法解釋填補的不確定性。而多重填補(multiple imputation,MI)在一定程度上可以克服這些不足。
多重填補的方法較多,近些年發展了一種新的多重填補方法——MICE多重填補。該方法的基本思想是全條件定義法(fully conditional specification,FCS)。相比于一般的MI方法,MICE多重填補由于其在算法上的優化而具有更快的收斂速度,節省了運算時間。該方法并不依賴于數據滿足多元正態分布的假定,對填補模型的設定也不是很嚴格,即使在填補模型并不非常適合原始數據類型時也能取得較好的填補效果。此外,MICE多重填補能夠處理多種數據類型,具有靈活的適用性[8-10]。MICE多重填補在Van Buuren[9]的模擬研究中表現出了很好地處理缺失數據的能力。在實際應用中MICE多重填補也具有不錯的表現[11-12],且MICE多重填補在軟件中實現起來語句簡單,存在著較好的應用潛力[13]。但Van Buuren僅研究了在MAR缺失機制下的填補效果[9,14]。本研究旨在進一步探究在不同缺失率、不同缺失機制下MICE多重填補處理缺失數據的效果以及MICE多重填補的適用情況。目前可以實現MICE多重填補的軟件包括R軟件的mice程序包(package)和Stata軟件,由于Stata軟件屬于收費軟件,故本次研究采用R軟件實現。
1.MICE多重填補原理[14]
假設完整數據Y是從含p個變量的多變量分布P(Y|θ)中隨機抽取的觀測值,其中θ為未知參數向量,它決定了Y的分布。因此,只要我們得到θ的分布,便可從P(Y|θ)中抽取數值進行缺失填補。在MICE填補中,θ的后驗分布通過Gibbs迭代抽樣得到。
具體做法為:從觀察到的邊際分布開始,進行t次迭代的Gibbs抽樣,第t次迭代時得到:

對于填補后的多個完整數據集,根據Rubin的理論,mice包提供了語句可以對每個數據集分別進行統計分析,最后將多個分析結果綜合起來。
2.資料情況
依托某現況調查的數據進行缺失模擬。該數據中包含多個變量,本次研究選取數據中區域分布(x1)、平均處方費用(x2)、配備國家藥物目錄西藥品種數(x3)、配備省增補藥物目錄西藥品種數(x4)、醫生平均收入水平(y)等5個變量,共522條觀測。其中x1為二分類變量,x2、y為連續型數值變量,x3、x4為離散型數值變量。所有觀測均無缺失值。
3.模擬思路
缺失數據根據其缺失機制,可分為完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(notmissing at random,NMAR)[2,15-16]。不同缺失機制,會影響缺失值填補效果。故本研究模擬了各種缺失機制下,單個變量缺失率(缺失率=某變量中缺失值個數/完全數據中該變量的值個數)分別為10%、20%和30%的各種數據。
MCAR:所缺失的數據發生的概率,既與已觀察到的變量無關,也與未觀察到的數據無關。故采用完全隨機的方法在完整數據集中制造缺失。
MAR:缺失數據發生的概率與所觀察到的變量值有關,而與未觀察到的數據的特征無關。因此在本數據中依據醫生平均月收入,將收入水平進行從小到大排序以后,按順序分為5個收入等級,按收入等級由低到高,對每個等級的其他變量賦予一定的缺失概率。不同等級的缺失概率取值分別為p1~p5,具體見表1。
NMAR:當缺失數據既不屬于MCAR,也不屬于MAR,我們就稱該缺失屬于NMAR。NMAR數據的缺失概率,多依賴于缺失值本身。因此在本數據中,各變量的缺失概率按變量值自身大小分別給定相應的缺失概率。具體做法為:針對數值型變量,對每個變量從小到大排序,按順序分為5個等級,對每個等級賦予一定的缺失概率,不同等級的缺失概率取值分別為p1~p5;對于二分類變量(區域分布x1),由于只有兩個變量值,故根據其數值不同,賦予兩個缺失概率(p6~p7),據此隨機產生缺失。
不同的變量缺失率通過不同的缺失概率搭配實現。為保證結果的可靠性,對每種缺失類型、缺失率都進行500次的模擬。

表1 不同缺失率下的缺失概率搭配
4.分析及評價方法
本研究中以y為因變量,其他所有變量為自變量,采用多元線性回歸的方法對數據進行統計分析(對原始完整數據建立多元線性回歸模型,模型及各變量均有統計學意義)。
產生缺失數據以后,分別使用列表刪除和MICE填補,然后應用多元線性回歸的方法進行分析。對各回歸系數,計算其原始偏倚(bias)、標準偏倚[17-18](standard bias,SB),變量x1~x4對應的標準偏倚為SB1~SB4。對于原始偏倚,采用均數±標準差(±s)進行描述。對于分類變量,計算多重填補后數據集的平均錯分率。本研究中定義:錯分率=填補值與對應真實值不相等的個數/缺失值個數×100%。
5.評價標準
(1)分類變量評價標準
優:平均錯分率≤10%;良:10%<平均錯分率≤30%;中:30%<平均錯分率<50%;差:平均錯分率≥50%,此時多重填補效果與隨機取值填補效果相當,甚至更差。
(2)多元線性回歸結果評價標準
優:標準偏倚≤10%。此時缺失數據處理后的多元分析回歸系數精確度高,準確度高;良:10%<標準偏倚≤20%;中:20%<標準偏倚≤40%;差:標準偏倚>40%,此時偏差極大,可能會出現與真實情況相反的結果[17]。
1.分類變量填補效果
對于分類變量多重填補的效果,從表2中可以看出在任一種缺失機制下,三種缺失率對應的二分類變量平均錯分率均超過60%。說明MICE多重填補對于分類變量值本身的填補效果不好。

表2 分類變量的錯分情況
2.填補后多元線性回歸分析結果
不同缺失機制下,應用多元線性回歸后,各變量的回歸系數偏倚情況見表3~5。
(1)完全隨機缺失(表3)
在當前的教學模式下,教師在講授相關理論知識時,普遍采用的是視頻文件、幻燈片、文檔等形式,而學校往往因為各類因素的限制,導游課程教學與實訓難以與實際結合起來,學生與社會需求的人才普遍脫節,導致學生社會適應能力下降。
10%缺失率時,MICE填補后分析結果與列表刪除分析結果相比,標準偏倚均低于40%,多元線性回歸系數估計效果達到優良的均為3個,兩種方法效果相當。
20%缺失率時,MICE填補后有1個系數標準偏倚低于20%,而此時列表刪除法有2個系數滿足優良的標準,兩種方法的標準偏倚均未超過40%,說明此時MICE填補效果不如列表刪除。
30%缺失率時,MICE填補后系數估計達優良的有1個,而列表刪除為2個。但此時列表刪除中存在標準偏倚超過40%的情況,說明在實際分析中缺失值可能導致該系數估計的偏差極大,甚至出現與原始完整數據分析結果相反的情況。

表3 MCAR多元線性回歸分析回歸系數偏倚情況
(2)隨機缺失(表4)
10%缺失率時,MICE填補后所有系數標準偏倚均低于20%,表現優良,而此時列表刪除標準偏倚低于20%的有2個,且有1個系數標準偏倚超過40%。說明此種情況下,MICE填補表現更好,列表刪除效果欠佳。

表4 MAR多元線性回歸分析回歸系數標準偏倚
20%缺失率時,MICE填補后估計回歸系數表現優良,而此時列表刪除偏倚很大,在實際應用中可能會使回歸系數的估計產生極大的偏差。
30%缺失率時,MICE填補的效果依然表現優良,而列表刪除后回歸系數估計偏倚很大。
(3)非隨機缺失(表5)
20%缺失率時,兩種方法回歸系數估計的標準偏倚中均有2個低于20%,2個超過40%,說明此時MICE填補和列表刪除效果相當。
30%缺失率時,MICE填補后分析有2個回歸系數標準偏倚低于20%,而列表刪除只有1個低于20%,說明此種情況下MICE填補較列表刪除效果好,但需要注意的是,此時兩種方法處理后分析結果均有2個回歸系數標準偏倚超過50%,回歸系數估計很不穩定。

表5 NMAR多元線性回歸分析回歸系數標準偏倚
在日常的統計分析中,如果沒有對缺失值進行特別的處理,一般統計軟件默認使用列表刪除的方法進行分析,這無疑會丟失一部分的樣本信息。本文著重對列表刪除和MICE多重填補后分析結果進行比較。
本研究發現,對于MCAR資料,當缺失率不超過20%,在應用多元線性回歸分析時,MICE多重填補相比列表刪除并未表現出明顯的優勢;當缺失率達到30%時,列表刪除可能會導致分析時產生異常結果,但總體而言此時MICE多重填補產生的偏倚較大。
MAR缺失的機制下,MICE多重填補后的分析結果相比列表刪除的分析結果要好,即使在各種變量的缺失率都高達30%的情況下,MICE填補后多元線性回歸系數標準偏倚依然不超過20%,表現穩健。
Van Buuren和Oudshoorn[14]認為MICE多重填補可用于NMAR的資料,但其應用效果卻并不清楚。因此本次研究模擬了NMAR缺失,并進行MICE多重填補。本研究發現,非隨機缺失下,在缺失率不超過20%時,MICE多重填補相比于列表刪除表現不佳;當缺失率達到30%時,MICE多重填補優于列表刪除,但此時MICE多重填補后也有半數回歸系數標準偏倚超過50%,此時若應用MICE多重填補可能會導致分析結果明顯偏離實際情況,甚至產生相反的結果。
對于分類變量,有時候研究者會關心該缺失值對應的真實數值是多少。通過計算不同缺失率、不同缺失類型下的錯分率發現MICE多重填補后具有很高的錯分率。
MICE填補的使用建議:
當缺失數據的缺失機制為隨機缺失時,建議采用MICE多重填補。因為在單變量缺失率不超過30%的情況下,MICE填補后可以取得較好的分析效果。這也與Van Buuen[9]的模擬結果相符。當資料為完全隨機缺失且各變量缺失率超過20%時,可以考慮采用MICE多重填補代替列表刪除。當資料為非隨機缺失時,不建議采用MICE多重填補處理缺失數據,且此時也不建議采用列表刪除的方法處理,因為可能會產生不合理的研究結果。
對于缺失資料中的分類變量,不建議直接引用MICE多重填補以后產生的具體數值,這可能會產生嚴重的錯誤分類。
本研究主要關注MICE多重填補效果,故僅將MICE多重填補與列表刪除進行比較,未將其他缺失數據處理方法納入研究。部分缺失數據處理方法的比較已有一些相關研究,其研究結論可查閱相關文獻[4,16,18-21]。
[1]Little RJ,D′Agostino R,Cohen ML,et al.The Prevention and Treatment of M issing Data in Clinical Trials.New England Journal of Medicine,2012,367(14):1355-1360.
[2]Enders CK.Applied missing data analysis.Guilford Press,2010.
[3]李璐.基于R語言的缺失值填補方法.統計與決策,2012,(17):72-74.
[4]劉鵬,雷蕾,張雪鳳.缺失數據處理方法的比較研究.計算機科學,2004,(10):155-156.
[5]帥平,李曉松,周曉華,等.缺失數據統計處理方法的研究進展.中國衛生統計,2013,30(1):135-139.
[6]徐麗紅,劉志永,劉桂芬,等.縱向監測連續非隨機缺失數據變系數模型及其應用.中國衛生統計,2012,29(3):314-317.
[7]季家超,王剛,張瀟雅,等.數據非隨機缺失機制的混合效應模式混合模型分析與應用.中國衛生統計,2013,30(2):221-225.
[8]Lee KJ,Carlin JB.Multiple imputation for m issing data:fully conditional specification versus multivariate normal imputation.American journal of epidem iology,2010,171(5):624-632.
[9]Van Buuren S,Brand JPL,Groothuis-Oudshoorn CGM,et al.Fully conditional specification in multivariate imputation.Journal of Statistical Computation and Simulation,2006,76(12):1049-1064.
[10]Van Buuren S,Oudshoorn K.Flexible multivariate imputation by MICE.Leiden,The Netherlands:TNO Prevention Center,1999.
[11]Waljee AK,Mukherjee A,Singal AG,et al.Comparison of imputation methods for m issing laboratory data in medicine.BMJ open,2013,3(8).
[12]Faris PD,GhaliW A,Brant R,et al.Multiple imputation versus data enhancement for dealing with m issing data in observational health care outcome analyses.Journal of Clinical Epidem iology,2002,55(2):184-191.
[13]Kabacoff R.R in Action:Data Analysis and GraphicsW ith R.Greenw ich:Manning Publications Company,2011.
[14]Van Buuren G.m ice:Multivariate Imputation by Chained Equations in R.Journal of Statistical Software,2011,45(3):1-67.
[15]Allison PD.M issng data techniques for structural equationmodeling.Journal of abnormal psychology,2003,122(4):545-557.
[16]茅群霞.缺失值處理統計方法的模擬比較研究及應用.四川大學,2005.
[17]Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern m issing data procedures.Psychol Methods,2001,6(4):330-351.
[18]趙俊康.不同缺失機制并存時偏倚校正的模擬研究.山西醫科大學,2012.
[19]王曼,施念,花琳琳,等.成組刪除法和多重填補法對隨機缺失的二分類變量資料處理效果的比較.鄭州大學學報(醫學版),2012(5):642-645.
[20]武建虎,賀佳,賀憲民,等.多變量缺失數據的不同處理方法及分析結果比較.第二軍醫大學學報,2004,(9):1013-1016.
[21]張橋,李寧,張秋菊,等.任意缺失模式缺失數據不同填補方法效果比較.中國衛生統計,2013,30(5):690-692.
(責任編輯:郭海強)
A Study on Effects of M ultivariate Im putation by Chained Equation Based on R Software
Zhang Tao,Zhu Lin,Ji Jiadong,etal.(DepartmentofEpidemiologyandHealthStatistics,SchoolofPublicHealth,ShandongU-niversity(250012))
ObjectiveTo evaluate the effects ofmultivariate imputation by chained equations(MICE)for datawith differentm issingmechanisms and variousm issing proportions,and explore the application situations of thismethod.MethodsA complete dataset from a cross-sectional study was used to simulatem issing datasetswith differentm issingmechanisms and variousm issing proportions by R software.The standard bias of the incomplete datasets obtained by listw ise deletion was compared with that of the imputed datasets obtained by MICE.Additionally,for binom ial variable,the average m isclassification ratio was calculated.ResultsMICE performed well for“m issing at random”data with the univariatemissing proportion of 10%,20% and 30%.In other scenarios,MICE failed to show advantage over listw ise deletion.For binom ial variable,the averagem isclassification ratiosweremore than 60%.ConclusionWhen the data wasmissing at random and the univariatem issing proportion was nomore than 30%,MICE was recommended to use,but the imputed value in binom ial variable was not suggested to be represented in raw data directly.
MICE;M issing data;Simulation;Multiple imputation
*:山東省科技發展計劃(No.2014GGH218019)
△通信作者:李秀君,E-mail:xjli@sdu.edu.cn