于力超 金勇進

摘要:大數據時代市場調查中缺失數據的處理問題引起越來越多的關注。文章透過威斯康星縱向調查,總結了美國縱向調查中缺失數據的處理方法,重點介紹了采用多變量序貫回歸的方法進行多重插補的方法及IVEware軟件的應用情況,研究了多重插補法處理縱向缺失數據的優勢所在。作者總結了國外先進經驗,結合中國實際,提出研究大數據背景下縱向缺失數據處理方法的思路和幾點建議。
關鍵詞:多重插補法;縱向調查;缺失數據;大數據
一、 引言
在大數據背景下進行數據分析,數據的質量是關鍵。有數據顯示,對于收集到的調查數據,80%的時間要花在包括缺失數據處理、不合理值刪除等數據清洗工作上,獲得較高質量數據后方可進一步進行數據分析。我國縱向抽樣調查對缺失數據多采用直接刪除法進行處理,只利用數據完全的樣本進行分析,不僅造成大量信息浪費,而且可能導致估計結果有偏。本文以作者在威斯康星大學學習期間參與的威斯康星縱向調查(Wisconsin Longitudinal Survey)為例,介紹美國專業調查機構如何應對缺失數據問題,并結合我國實際,給出今后相關工作的建議。
二、 美國縱向抽樣調查中缺失數據的應對方法
美國許多大型縱向調查已開展多年,積累了豐富的數據和實踐經驗。例如著名的“威斯康星縱向調查”,這項由威斯康星大學麥迪遜分校調查中心組織開展的研究跟蹤調查威斯康星州1957年的1萬多名高中畢業生,已經持續了50多年的時間。……