鄧居敏 陳 羽 關 穎
(南方醫科大學公共衛生學院生物統計學系 廣州 510515)
近年來,結構方程模型在心理、教育、醫學等領域中被廣泛使用[1]。在結構方程模型分析中,我們常依靠一些可直接測量的觀測變量來預測不能準確、直接測量的潛變量(Latent Variable)。在結構方程模型統計分析中,缺失值的處理是不可避免的問題,而缺失數據的存在會對統計分析結果造成偏移,降低檢驗效能[2]。因此,我們需要充分分析缺失數據的信息,對缺失數據進行估計,尋求較為合理的處理方法。在結構方程模型中,缺失值的處理方法大致可以分為刪除法(Listwise Deletion,LD)、填補法(Multiple Imputation,MI),EM算法(Expectation Maximization Algorithm)和似然估計法(Full-formation Max-Likelihood,FIML)4種。國內外學者的研究主要采用單種方法對結構方程模型中的缺失數據進行處理[3~6],缺少各方法間的比較。因此,對于結構方程模型中缺失數據的處理還未見較權威的方法,不同處理方法之間也缺少合理的評價標準。本研究旨在通過采用以上4種處理方法對缺失數據進行填補,比較其處理效果,為以后分析存在缺失值的結構方程模型提供方法學參考。
本研究數據來自一項對于廣東省某醫學高校共計2503人在內的大學新生的學前調查。調查所用的量表是在美國高等教育研究機構(Cooperative Institutional Research Project,CIRP)所編制的大學新生調查表基礎上根據中國的實際情況改編而成的[7]。我們將調查表與錄取通知書一起郵寄給新生,并在學生到學校進行入學報到時回收調查表。調查表總共14個條目,分為4個維度:學術自我效能、學術目標、社會目標以及經濟目標,各條目采用Likert 4~7點計分方式。
數據分析均采用SAS9.3進行相應的分析。本研究采用LD、EM、MI以及FIML 4種方法對缺失數據進行處理。選取比較適配指數(Comparative Fit Index,CFI),調整后良適性適配指標(Adjusted goodness-of-fit index, AGFI), 標準化殘差均方和平方根(Standardized Root Mean Square Residual, SRMR )和漸進殘差均方和平方根( Root Mean Square Error of Approximation,SRMR)4個指標來作為模型的評價標準。總的來說,SRMR和RMSEA的值越小越好,這兩個值在0.05~0.08之間可接受,當SRMR≤0.05、RMSEA≤0.05時較為理想。CFI和AGFI的值在0~1之間波動,越接近1表示模型擬合的越好。一般將臨界值定為0.9。
從表1的分析結果可知,使用4種方法對缺失數據進行處理,模型擬合指標均可達到可接受范圍。使用多重填補和全息極大似然估計方法對缺失數據進行處理可以得到相近的結果,兩種方法對缺失數據進行處理會使模型的擬合效果略強于其他兩種方法。而EM算法的各個擬合指標雖不如多重填補以及全息極大似然估計方法好,但是標準誤是最小的。與EM算法相反,刪除法的標準誤是最大的,這表明缺失數據的確會對模型產生影響,因此不能直接忽略缺失數據,只對完整數據進行分析。
表1 不同處理方法的擬合指標比較

處理方法CFIAGFISRMRRMSEADL0.9400.9500.0420.050EM0.9280.9510.0410.053MI0.9400.9520.0400.050FIML0.9350.9510.0410.050
本研究采用基于多重填補的數據進行驗證性因子分析,建立測量模型,計算測量模型的組合信度 (CR)、聚合效度以及區別效度。研究表明各因子載荷在0.51~0.81之間,說明條目信度較好,各條目能較好的解釋潛變量。由表2可見,除經濟目標的組合信度略低外(CR=0.48<0.50),其他潛變量的組合信度以及各潛變量之間的區別效度均可達到可接受范圍,說明所構建的測量模型的擬合效果在合理范圍之內。
表2 信效度分析

潛變量CRAVE學術自我效能學術目標社會目標經濟目標自我學習期望學術自我效能0.780.370.37學術目標0.660.400.230.40社會目標0.850.460.100.320.46經濟目標0.480.340.010.140.100.34自我學習期望0.670.510.250.280.150.0040.51
注:CR指組合信度,AVE是平均方差提取值。
本研究將驗證性因子分析中各潛變量中標準因子載荷最大的條目的路徑系數固定為1,求各個標準回歸系數和擬合指標的平均值作為最終的估計值。以自我學習期望為內生潛變量,學術自我效能、學術目標 、社會目標、經濟目標為外生潛變量構建結構模型結果,其擬合指標CFI,AGFI,SRMR和RMSEA分別為0.93,0.95,0.04和0.05,各個擬合指標基本可達到接受標準,顯示建構的模型對觀察數據的擬合尚可接受。
本研究使用來自2011級廣東某高校新生的調查數據闡明了結構方程模型中處理缺失數據的4種方法對模型擬合的影響。使用刪除法的優點在于這種方法可以在各種軟件中實現,簡單快捷。但是由于這種方法是將存在缺失的觀測直接進行刪除,因此有可能導致有偏估計或者標準誤偏大。與刪除法不同的是,多重填補、EM算法和全息極大似然估計均使用了數據中所有變量的信息。其中,全息極大似然估計方法的簡便之處在于其不需對數據進行填補或其他處理,也不需要計算協方差矩陣或相關矩陣,而是直接對數據進行估計,并建立模型。而多重填補法則是直接給出缺失值的估計值,將不完整數據集填補成完整數據集之后,再進行結構方程模型的構建。多重填補方法的好處在于填補后的完整數據可用于傳統的統計分析中。但是這種方法的缺點在于不能像EM算法和FIML方法一樣給出直接的結果,研究者需要對統計結果進行進一步的分析。因此,本研究認為處理缺失數據并沒有所謂唯一最佳的方法。在進行缺失數據處理時,應該嘗試使用多種方法進行比較,選取最合適的方法,而不能片面的完全肯定或完全否定某一種處理方法。
1 陳炳為,陳啟光,許碧云.潛在變量模型及其在中醫證候中的應用概述.中國衛生統計,2009,29(5):535~538.
2 Stafford RE,Runyon CR,Casabianca JM,et al.Comparing imputation methods for trait estimation using rating scale mode .Journal of Applied Measurement,2017,18(1):12~27.
3 Wallace ML,Anderson SJ,Mazumdar S.A stochastic multiple imputation algorithm for missing covariate data in tree-structured survival analysis .Statistics in Medicine,2010,29(29):3004~3016.
4 帥平,李曉松,周曉華,等.缺失數據統計處理方法的研究進展.中國衛生統計,2013,1:135~139;142.
5 李保東,亢金軒.結構方程建模缺失數據填補方法研究.統計與咨詢,2011,1:38~39.
6 Van Buuren S.Multiple Imputation of Discrete and Continuous Data by Fully Conditional Specification .Statistical Methods in Medical Research,2007,16(3):219~242.
7 Cooperative Institutional Research Project.Annual Freshmen Survey.Los Angeles,CA: American Council on Education and UCLA Graduate School of Education ,2011.