王 威 綜述 楊 帆 審校
在基于臨床數據的研究中,無論是回顧性還是前瞻性的研究,常常會出現數據缺失的情況。當出現了缺失值,我們應給予妥當的處理,以便做出可靠的統計推斷。目前,應對缺失值的方法是多種多樣的,主要有刪除法和填補法。刪除法又稱完整案例分析(complete case analysis)或列表刪除(listwise deletion),即刪除存在缺失值的所有觀測,對保留下來的無缺失值的觀測進行統計分析。此方法的操作是最簡單易行的,因此為大多數研究者所采用,也是多數統計分析軟件所默認采用的方法。然而,此方法在實際運用中可能會存在兩點不足:一是缺失值的存在可能不是隨機的,即存在缺失值的觀測與完整觀測之間存在某些方面的差異,且這些差異會給后續的參數估計帶來偏倚;二是在研究變量數較多的情況下,所有研究變量均無缺失的觀測可能會比較少,運用此法會舍棄過多觀測,不僅會嚴重降低投入產出比,而且會增大參數估計的標準差和置信區間,降低統計功效。只有在存在缺失值的觀測占比很小的時候(比如<5%),所造成的參數估計的偏倚和統計功效的降低才可以近似忽略[1]。因此,多建議對缺失值進行填補后再進行分析。填補又稱插補,可分為單一填補法和多重填補法。單一填補包括均值填補,啞變量填補和基于回歸模型的單一填補等。單一填補因為會降低被填補變量的不確定性,縮小參數估計的標準差,已逐漸被淘汰,本文不作詳細介紹[2]。多重填補法因其考慮了缺失的不確定性等優點越來越受到大家的推崇[3]。另外,廣義線性模型(generalized linear models, GLM),囊括線性回歸模型、二元Logistic回歸模型、Poisson回歸模型等,在臨床數據分析中占據著重要地位,其中二元Logistic回歸常常作為主要的多因素模型,用以產出因果推斷的統計學依據[4-5]。目前,雖然二元Logistic回歸與多重填補技術的結合在危險因素分析的醫學研究中的應用越來越多,如Foerster等[6]通過二元logistic回歸和多重填補方法建立了一個風險分層模型以更好的識別適合上尿路上皮癌內鏡下保留腎臟手術的患者,但以實例分析介紹兩者如何結合應用的文獻較少。本文就數據缺失的模式和比例、多重填補的流程進行簡單的梳理,并使用急性腎損傷的數據演示多重填補(mice程序包)與廣義線性模型的結合應用,以期為含缺失值的臨床數據的統計分析提供參考依據。
多重填補的創始人Little和Rubin教授將數據缺失的原因分為以下三種模式:完全隨機缺失(missing completely at random, MCAR)、隨機缺失(missing at random, MAR)和非隨機缺失(missing not at random, MNAR)。完全隨機缺失指的是數據的缺失與否既不能歸因于已觀測的變量,也不能歸因于未觀測的變量,即存在缺失的觀測與完整觀測來自于同一個分布的總體,完整案例分析方法僅適用于這種缺失模式[7]?!?br>