楊 梅 肖 靜△ 蔡 輝
在醫學領域研究中,變量間存在多重共線性的現象十分普遍,其結果可能導致治療效果或暴露因素作用的估計產生偏性。研究者常常通過調整某些協變量或混雜因素來調整變量間的多重共線性,以評價某些治療方法或暴露因素與疾病間的關系〔1-2〕。但這樣不僅會損失掉信息,而且某些混雜因素難以達到治療組間或暴露因素各水平間的平衡,降低檢驗效能,甚至使分析結果失真。不同的解決變量間多重共線性的統計學處理方法〔3-5〕均有各自的優缺點和適用范圍,至今仍沒有一種通用的解決方法。本文闡述目前常用的幾種方法:嶺回歸、主成分回歸、逐步回歸、偏最小二乘法和傾向評分等,并闡述了各方法的優缺點以及這些方法的有效性和適用范圍,以供研究者根據需要和數據特征選擇合適的處理方法。
“多重共線性”一詞最早由R.Frisch于1934年提出〔6〕。共線性是指線性模型中兩個自變量之間存在相關關系,而多重共線性是指線性回歸模型中的兩個自變量或者多個自變量之間由于存在相關關系而使模型估計失真或難以估計準確〔7〕。最初指模型中某些自變量線性相關。當自變量X1、X2…Xn滿足k1X1+… +kiXi+ … +knXn=0,常數 ki(i=1、2…,n)不全為0時稱為完全多重共線,是多重共線性的極端情況,在實際工作中較為少見;當自變量滿足k1X1+k2X2+…+kiXi+Vi=0,Vi為隨機誤差項,稱為不完全多重共線,變量間有某種關系但又不是完全的線性關系,這種情況是在醫學研究中普遍存在的。
一般多重共線性產生的根源有二方面〔8〕:一是自變量自身的性質,即兩個或多個自變量間高度相關,與數據形式,樣本含量大小無關。這時如果把這些自變量納入模型前不對條件加以任何限制或考慮,很多時候得不到理想的結果,甚至導致錯誤的結論。二是數據的問題。各自變量間并不存在線性關系,但由于樣本含量較小,小于模型中的自變量個數,也可能會產生多重共線性。如當樣本含量為2(n=2),兩點連成一條直線,易造成共線性。隨著研究的深入,20世紀80年代后期研究者開始關注異常觀測值對多重共線性的影響。Hadi〔9〕、Walker〔10〕等人研究表明,異常觀測值會導致或掩蓋多重共線性現象從而影響正確的參數估計。另外如果模型自變量是高階單整時序變量,那么也會導致多重共線性,因為這種時序變量之間高度相關。
Yohanan〔11〕指出雖然回歸模型擬合較好,但由于共線性的存在,會出現下列現象:某些回歸系數通不過假設檢驗;或者某個自變量與因變量有很強的相關性,而在回歸模型中該變量的回歸系數卻沒有通過假設檢驗,導致錯誤剔除有用的自變量;再或者回歸系數的符號與相關專業相反導致無法得到合理的專業解釋等。因此,多重共線性的存在,會使模型與實際相差甚遠。

處理多重共線性的方法很多,如增加新變量〔3〕、剔除不重要變量〔4〕、利用 Bayes技術〔5〕、數據分組處理算法(group method of data handling,GMDH)〔18〕、Lasso回歸〔19〕、嶺回歸(RR)、主成分回歸(PCR)、逐步回歸、偏最小二乘法(PLS)以及傾向評分法(PS)等。這些方法在某些方面對多重共線性問題的解決起到了很好的作用,但在應用條件上或在結果解釋方面都存在局限性。就目前常用的幾種方法逐一介紹。
1.嶺回歸
Hoerl〔20〕1962 年提出,Hoerl和 Kennard〔21-22〕1970年發展了嶺回歸,嶺回歸是一種改進最小二乘估計的有偏估計方法。當自變量間存在多重共線性,自變量的相關矩陣X為奇異陣,X'X也是奇異的。嶺回歸技術從減少誤差均方角度改善矩陣的奇異性,將X'X加上一常數矩陣kI,相應嶺估計^β(k)=(X'X+kI)-1X'Y,(0<k<+∞),當k=0時,^β(k)為最小二乘估計;當k趨于+∞,^β(k)趨于0,因此k值不宜太大,不同k值估計得到不同的回歸系數,再將不同k值時的回歸系數連成一條曲線,所得的曲線稱為嶺跡。當嶺跡趨于平穩,且回歸系數沒有不合理的符號時對應的k值即為所求〔23-24〕。薛美玉〔25〕進一步提出了廣義嶺估計^β(k)=(X'X+QkQ')-1X'Y,實質是將X'X加上不同常數矩陣QkQ'。但廣義嶺估計的計算量相當大。有學者認為〔26-27〕嶺回歸雖然不是無偏估計,但它通過對最小二乘法的改進對回歸系數的有偏估計量進行補救從而顯著增強估計的穩定性。其局限性在于無法進行一般的統計推斷,且未知其精確分布,所得回歸方程符合實際但效果稍差。此外,嶺參數的選取和確定非常麻煩,偏倚常數k人為確定,帶有一定的主觀判斷,因此不唯一。國內一些學者如王思珍〔28〕、汪明瑾〔29〕等人對確定k值的方法進行了一些探討及推廣,縮小了k值的范圍,改進了Hoerl和Kennard的結果,但是對怎樣才能完全逼近極值點,還有待進一步研究〔30-31〕。
2.主成分回歸
主成分回歸是Massy〔32〕于1965年提出的一種處理多重共線性的新參數方法,是建立在主成分分析思路上的一種有偏估計。其基本思想是首先將原自變量線性組合成若干個主成分,然后建立因變量與主成分的回歸方程,再根據主成分與原自變量間的對應關系最后求得原自變量回歸模型的估計方程。因轉換后的各主成分間不存在共線性,從而消除了共線性的危害。
王惠文〔33〕、陳偉〔34〕和舒曉惠〔35〕等人對主成分回歸消除共線性的有效性并不樂觀,王惠文甚至認為利用主成分分析消除多重共線性實際上是一種錯誤觀念。然而作為多元分析的一種常用方法,主成分回歸具有一定的優越性,其降維的優勢是明顯的。在一定程度上會使得回歸方程及參數估計更加可靠。但由于主成分回歸只針對自變量去尋找有代表性的成分,可能造成選取的主成分雖可反映自變量的重要信息,但與因變量的關系卻極小,而與因變量相關性極大、在自變量中所占比例小的成分有可能被刪除。此時得到的回歸方程反映真實情況的效果較差,且主成分一般不具有實際意義,使得模型很難對實際問題做出合理解釋。趙海清〔36〕結合主成分估計和嶺估計的思想和方法提出廣義嶺型估計,降低了均方誤差,便于對原變量做出解釋的同時大大減少了計算量。此外,一些學者將根據主成分思想改進的主成分條件logistic回歸〔37〕以及主成分Weibull〔38〕回歸模型應用于處理多重共線性問題,發現這兩種改進的方法能減小部分偏回歸系數的標準誤并在提高回代符合率上取得了較為理想的結果。
3.逐步回歸
逐步回歸法是建立在多元回歸基礎上的一種思維方法和建模策略。其基本原理是從所有自變量中選擇對因變量Y影響最為顯著的變量建立模型,事先給定一剔選標準,每選入或剔除一個變量,都要對模型中和模型外的變量進行檢驗,對低于剔除標準或符合入選標準的變量都要重新考慮剔除或選入,以保證每次引入變量前回歸方程中只包括顯著性變量,反復進行,直到方程內沒有變量可被剔除,方程外沒有變量可引入為止。從變量間的相關系數矩陣可看出各變量間是否有相關關系,將高度相關的各自變量間進行比較,剔除對因變量影響較小的,保留影響較大的自變量,而被剔除的自變量對因變量的解釋由與之高度相關的其他自變量承擔,以消除多重共線性,這時所得的回歸方程即最優回歸方程。
逐步回歸法在一定程度上克服了多重共線性,但模型F檢驗的檢驗水準α的選擇帶有主觀性,不同α所得結果不同。且逐步回歸分析一般需要較大樣本,為此,肖筱南〔39〕提出了利用分階段、分批逐步回歸的方法處理小樣本問題。譚啟華〔40〕認為個別異常點對逐步回歸分析的影響作用是不容忽視的,分析時要注意異常點的存在。于雷〔41〕認為加權逐步回歸可更好地避免樣本中可能存在的多重共線性造成的模型失真。針對逐步回歸在消除多重共線性的同時,也可能刪掉一些對Y有解析力的變量,張華嘉〔42〕提出一種方法,在逐步回歸后,使每一前進(后退)步為一單元步,用F檢驗來判別這單元步的去留,使回歸式子比逐步回歸納入更多的解析變量,同時能減低向后消元法產生多重共線性的可能性。汪仁宮〔43〕以傳統逐步回歸為基礎,提出了基法逐步回歸,認為該法既保持了傳統逐步回歸法的長處,也在一定程度上緩解了其局限性。在傳統逐步回歸法的基礎上做多種形式的修正與推廣,這有待進一步探索與分析。
4.偏最小二乘回歸
Wold等人〔44〕于1983年首次提出,近年來,在理論和應用方面都得到了迅速的發展〔45-47〕。偏最小二乘回歸根源于主成分分析和主成分回歸,它的基本做法是分別在自變量X與因變量Y中提取出因子t和u,要求t和u應盡可能大地攜帶它們各自變異信息并且相關程度能夠達到最大。在第一個因子被提取后,通過偏最小二乘法分別建立X對t的回歸以及Y對u的回歸。如果回歸方程已經達到滿意的精度,則算法終止;否則,將利用X被t解釋后的殘余信息以及Y被u解釋后的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較滿意的精度為止。若最終對X共提取了k個成分,偏最小二乘回歸將通過施行yk對X的這些成分的回歸,然后再表達為Y與原自變量的回歸方程式。
Wold〔48〕、Skuldson〔49〕和 Geladi〔50〕的研究均指出當多個因變量間以及多個自變量間存在嚴重的多重相關時,偏最小二乘回歸是構造預測模型的一種有效方法。該模型只要選取的因子足夠多,完全可以包容自變量系統的全部信息,因子的選擇比較容易。從模型系數的解釋能力來看,偏最小二乘回歸最終得到整個自變量空間的線性組合,在充分考慮了單因素間的綜合作用對預測值的影響下對因變量進行全面合理的解釋。該方法對樣本的要求較為寬松〔51〕,綜合了多元線性回歸分析、典型相關分析和主成分分析的基本功能,但也有一定的局限性,如動態多變量過程的模型建立等,尚待進一步研究。
5.傾向評分
1983年,Rosenbaum 和 Rubin〔52〕首次提出了利用傾向評分法來消除觀察研究中混雜因素引起的偏倚。傾向評分法最初并未受到廣大研究者的重視,直到20世紀末才被逐漸應用至臨床試驗評價、流行病學等領域〔53-54〕。傾向評分是指在給定觀察協變量(xi)的條件下,研究對象i(i=1,…,n)被分配到特定處理組(Zi=1)或對照組(Zi=0)的條件概率,即e(xi)=pr(Zi=1|Xi=xi)或e(xi)=pr(Zi=0|Xi=xi)。假定在給定的一組特征變量Xi下,分組變量Zi是獨立的,則:pr(Zi=z1,…,Z=zn|X1=xi,…,XN=xN)=
ΠN
i=1ezi
(xi){1 - e(xi)}1-zi〔54〕。也就是所有可觀察的協變量在兩組間(處理組與對照組)或多組間均衡性的一個近似函數。它通過調整各協變量在組間的分布差異從而提高組間的可比性。
傾向評分法是對傳統多元回歸方法的補充,若將其思想結合到傳統方法中(如多元logistic回歸),可以改善組間均衡性,而且不受協變量數量的限制,有助于減少偏倚和提高精度。但與隨機試驗相比,傾向評分僅控制了可觀察的混雜因素。換而言之,偏倚的問題仍然存在。同時傾向評分在觀察研究中往往在樣本較大時效果更好,小樣本中仍難以避免某些協變量間的嚴重失衡〔55〕。
蔣平〔56〕提出了在解決選擇自變量和降低其相關性的問題上采用聚類回歸分析能在一定程度上降低多重共線性,但是該方法首先要在動態聚類中給定一個參數k,而k是人為確定的,也就是說,該方法的主觀性很強。而林樂義〔57〕提出了基于聚類分析和因子分析的方法也能夠很好的消除多重共線性,并且還能改善某些消除共線性方法中過分剔除自變量的缺陷,使得某些重要變量能夠保留下來。另外王玉梅〔58〕提出的不相關法,也能在一定程度上改善多重共線性。Oscar〔59〕曾指出差分法主要針對時間序列數據的樣本可以較有效地消除存在于原模型中的多重共線性,但是同時也指出了差分法只有在很少情況下能夠改善估計效應。當Cox模型中出現多因子共線性時,張丕德〔60〕提出首先應用因子分析法將多因子的信息分解為公因子和特殊因子兩部分,然后對這兩部分信息分別進行Cox模型擬合,這樣兩個模型互為補充,也可以避免信息的損失,使模型的解釋更加全面。另外,曾繁會〔61〕用具體實例說明了神經網絡(GRNN)也是一種可以將存在多重共線性的統計問題映射為線性可分問題來解決的方法。
在實際應用中,為了更全面分析問題,往往涉及到的相關變量較多,然而,較多的變量易造成變量間的多重共線性,進而嚴重影響參數估計,增大模型誤差,把一些重要變量排除在模型之外,破壞模型的穩定性,給合理地分析問題和解決問題帶來困難。各多重共線性處理方法本身也存在著許多亟待解決的問題。因此,迫切需要我們發展一些新的、適用性強,效果更理想的處理變量共線性的方法。將現有不同共線性處理方法有機地結合是個很好的思路,它能夠綜合利用各種方法的優點,提高模型估計的精度和準確性。如:結合主成分估計和嶺估計的思想和方法提出的廣義嶺型估計,降低了均方誤差的同時便于對原變量做出解釋〔36〕。隨著科技的發展,這些探索性方法必將在生物學和醫學研究中得到檢驗。再者,共線性處理方法要與生物醫學實際充分結合起來,根據醫學實際情況選擇變量共線性的處理方法。同時,我們認為應尋求新的思路和發展方向,如不相關法〔58〕、神經網絡法〔61〕,來解決多重共線性問題等新方法。最后,優化及完善較成熟的方法,進一步探索與研究一些技術性方法,如Fabrycy〔62〕于1975年提出通過改變模型形式改變共線性等,將其應用到實際問題中,這些都將是對處理多重共線性問題的挑戰。
1.Joffe MM,Rosenbaum PR.Invited commentary:propensity scores.Am J Epidemiol,1999,150(4):327-333.
2.Hosmer DW,Lemeshow S.Applied logistic regression.2nd ed,New York:Wiley,2000:31-43.
3.Lardaro L.Applied econometrics.New York:Harper collins,1992:441-464.
4.Schrocder MA.Diagnosing and dealing with multicollinearity.Western Journal of Nursing Reserch,1990,12(2):175.
5.Leamer EE.Multicollinearity:a bayesian interpretation.Review of Economics and Statistics,1973,55(3):371-380.
6.Frisch R.Statistical confluence analysis by means of complete regression systems.Pub.No.5,Economic Institute,Oslo University,1934.
7.陳希儒,王松桂主編.近代回歸分析.合肥:安徽教育出版社,1987:217-278.
8.Chatterjee S,Hadi AS.Sensitivity analysis in linear regression.New York:John Wiley and Sons,1988:39-59.
9.Hadi AS.Diagnosing collinearity-influential observations.Computational Statistics and Data Analysis,1988,7:143-159.
10.Walker E.Detection of collinearity-influential observations.Communication in Statistics,1989,18(5):1675-1690.
11.Yohanan W.Collinearity diagnosis for a relative risk regression analysis:an application to assesment of diet cancer relationship in epidemiological studies.Statistics in medicine,1992,11:1273-1287.
12.Chatterjee S,Price B.Regression analysis by example.2nd ed.New-York:Wiley,1991:186-197.
13.Kenneth N.Tolerance and condition in regression copmputations.J of America Statistical Association,1977:863-866.
14.Stewart GW.Collinearity and least squares regression.Statistical Science,1987,2(1):68-100.
15.Farrar DE,Glauber RR.Multicollinearity in regression analysis:the problem revisited.Review Econmics and Statistics,1967,49:92-107.
16.Kendall MG.A course in multivariate analysis.Griffin:London,1957:68-86.
17.Silevy SD.Multicollinearity and imprecise estimation.J.Roy.Stasist.1969,31:539-552.
18.Ivakhnenko AG.Heuristic self-anization in problem of engineering.Cyberneties Automatiea,1970,6:207-219.
19.Tibshitani R.Regression shrinkage and selection via the lasso.J.Roy.Statistsocser,1994,58:267-288.
20.Hoerl AE.Application of ridge analysis to regression problems.Chemical Engineering Progress,1962,58:54-59.
21.Hoerl AE,Kennard RW.Ridge regression:biased estmiation for nonorthogonal problems.Techometrics,1970,12(1):55-68.
22.Hoerl AE,Kennard RW.Ridge regression:application for nonorthogonal prolems.Techometrics,1970,12(1):69-72.
23.Hadgn A.An application of ridge regression analysis in the study of syphilis data.Statistics in Medicine,1984,3(3):293.
24.陳峰主編.醫用多元統計分析方法.第二版.北京:中國統計出版社.2006:46-48.
25.薛美玉,梁飛豹.廣義嶺估計參數的迭代算法.福州大學學報,2002,30(2):167-171.
26.栗麗,趙偉,王志福.在解決多重共線性問題上嶺回歸法比LS法的優越性.渤海大學學報(自然科學版),2006,27(2):124-126.
27.楊楠.嶺回歸分析在解決多重共線性問題中的獨特作用.統計與決策,2004,3:14-15.
28.王思珍,李良臣,王維.嶺選擇指數及其應用.哲里木畜牧學院學報,1998,8(1):50-58.
29.汪明瑾,王靜龍.嶺回歸中確定K值的一種方法.應用概率統計,2001,17(1):7-13.
30.何中市,何良才.嶺回歸估計K值選取迭代算法的收斂性定理和極限.應用數學學報,1994,17(1):59-64.
31.葛宏立,方陸明.無偏的嶺回歸迭代算法.數學的實踐與認識,1997,27(4):320-326.
32.Massy WF.Principle Components Regression in Exploratory Statistical Research.JAmer Statist Assoc,1965,60:234-266.
33.王惠文主編.偏最小二乘回歸方法及其應用.北京:國防工業出版社,1999:67-84.
34.陳偉.主成分分析法用于評價需注意的若干問題.人類工效學,2002,3(8):30-33.
35.舒曉惠,劉建平.利用主成分回歸法處理多重共線性的若干問題.理論新探,2004,10:25-26.
36.趙海清,詹環.復共線性與廣義嶺型估計.大學數學,2009,25(3):31-34.
37.陳雄飛,董曉梅,汪寧,等.多因子共線性的主成分logistic回歸分析.中國衛生統計,2003,20(4):212-215.
38.吳彬,羅仁,夏田俊.多因子共線性的主成分Weibull回歸分析.中國衛生統計,2008,25:513-514.
39.肖筱南.小樣本多元逐步回歸的最優篩選分析.統計與信息論壇,2002,17:22-24.
40.譚啟華,何大衛.異常點對逐步回歸分析的影響.現代預防醫學,1993,20(1):18-20.
41.于雷,鄭云龍.逐步回歸響應面法.大連理工大學學報,1999,39(6):792-796.
42.張華嘉,舒元.逐步回歸分析的拓展.山大學學報(自然科學版),1998,37(5):11-14.
43.汪仁宮,劉婉如.基法逐步回歸.數理統計與應用概率,1994,9(3):80-84.
44.Lindberg W,Persson JA,Wold S.Partial least squares method for spectrofluorimetric analysis of mixtures of humicacid and ligninsulfonate.A-nal Chem,1983,55:643.
45.Wegelin JA.A survey of partial least squares(PLS)methods with emphasis on the two block case.Seattle:Department of Statistics,University of Washington,2000:1-35.
46.Xu RJ,Liu HL,Chen NY,et al.An expert system for 16Mn steel industrial process designed by PLS method.Computers and Applied Chemistry,2000,17(1/2):50.
47.Wen X,Zhou WH,Liu XL,et al.Studies on phosphorus containing angiotensin converting enzyme in hibitors.Computers and Applied Chemistry,2000,17(1/2):13-14.
48.Wold S.Modeling data tables by principal component and PLS:class patterns and quantitative predictive relations.Analysis,1984,12:477-485.
49.Hoskuldson A.PLS regression methods.Journal of Chemometrics,1988,2:211-228.
50.Geladi P,Qkowlaski B.Partial least squares regression:A tutorial.Analytical chemical Acta,1986,35:1-17.
51.Wise BM,Gallagher NB.The process chenometrics approad to process monitoring and Fault detection.Jof Process Control,1986,6:329-348.
52.Rosenbaum P,Rubin D.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70:41-55.
53.李智文,劉建蒙,張樂,等.傾向評分配比在流行病學設計中的應用.中華流行病學雜志,2009,30(5):514-517.
54.D'Agostino RB.Propensity score methods for bias reduction in the comparison of a treatment to a nonrandomized control group.Statistics in Medicine,1998,17(19):2265-2281.
55.Rubin D.Estimating causal effects from large data-sets using propensity scores.AnnInternMed,1997,127:757-763.
56.蔣平,邢云燕,王蕓,等.聚類回歸分析在FMS加工質量分析中的應用.自動化技術與應用,2005,24(8):15-16.
57.林樂義,印凡成.基于聚類分析和因子分析消除多重共線性的方法.統計與決策,2008,8:153-155.
58.王玉梅.多重共線性的消除:不相關法.統計教育,2006,7:18-19.
59.Oscar R.The fallacy of differencing to reduce multicollinearity.American Journal of Agricultural Economcs,1987,69(3):697-700.
60.張丕德.Cox模型多因子共線性處理方法的進一步研究.中國衛生統計,2000,17(4):207-210.
61.曾繁會,李偉,呂渭濟.多重共線性問題的神經網絡實例分析.遼寧工程技術大學學報(自然科學版),2001,20(5):659-661.
62.Fabrycy MZ.Multicollinearity caused by specification errors.Applied Statistics,1975,24(2):250-254.