張 波,黃啟風,代魯燕,沈其君
(寧波大學 醫學院預防醫學系,浙江 寧波 315211)
Logistic回歸模型中自變量的秩優勢比圖
張 波,黃啟風,代魯燕,沈其君
(寧波大學 醫學院預防醫學系,浙江 寧波 315211)
文章提出一種可視化圖示法,評價logistic回歸模型中自變量相對重要性。方法是對變量值排序后進行[0,1]區間的秩比例尺度變換,并作關于相對于中位數的優勢比的函數關系圖——秩優勢比圖。秩優勢比圖有很多實際應用,可作為評價logistic回歸模型中自變量相對重要性的可視化工具。
logistic回歸模型;相對重要性;秩優勢比圖;可視化
在流行病學的分類資料分析中,多數研究者常用相對危險度和優勢比及人群歸因比例來衡量因素與事件發生間存在的聯系及聯系程度,也通過估計偏回歸系數或標準偏回歸系數來評價因素的影響大小即自變量的相對重要性。標準偏回歸系數消除各自變量的量綱影響,卻也混雜了自變量獨特效應和其本身的變異對效應的影響,即可因標準差不同而得出不同的結論[1],容易導致不合理或錯誤的推論,它們的濫用經常存在爭議和批判[2]。
Logistic回歸模型中,有學者提出相對危險函數RRF(Xi)=exp[β(Xi-Xi?)],即通過比較分析各因素 Xi的任一水平相對于參考水平產生的相對危險來估計相對重要性[3]。對相對危險函數取對數后,模型中所有自變量都將獲得一條決定于回歸系數符號的遞增或遞減的半對數直線圖。但是每個自變量有各自特點,如變量的衡量單位和尺度不同,故不能將獲得的函數圖合并到同一個圖形中。實際研究中也常會遇到這種情況,模型擬合良好,但是現有數據中有些變量值的指標估計不是很理想。2009年Juha Karvanen提出一種可視化工具——秩風險圖[4],即在比例風險模型中通過對自變量值進行秩比例尺度轉換后作關于相對危險度的函數關系圖,正好解決了這些問題。
本文就可比性和可視化目的應用秩風險圖的主要思想提出秩優勢比圖,并應用于具體實例評價logistic回歸模型中自變量相對重要性。

現用logistic回歸模型研究性別(sex,男=1,女=0)、心電圖(ecg,ST段壓低<0.1(毫伏)=0,0.1(毫伏)≤ ST段壓低<0.2(毫伏)=1,0.2(毫伏)≤ ST段壓低=2)、年齡(age,year)與冠狀動脈疾病(CAD)的關系[5],通過模型擬合最后得到回歸方程中含有sex、ecg和age,它們的估計優勢比和 95%的置信區間分別為 3.882(1.330,11.330)、2.395(1.127,5.086)和1.097(1.024,1.175)。現以年齡為例作相對優勢比函數圖,橫軸表示變量值,縱軸表示相對優勢比,將得到一條決定于估計回歸系數符號的遞增或遞減的半對數直線圖,其中中位數的優勢比是1,如圖1所示。同樣模型中其他所有自變量都可進行此操作,但各自變量的分布特征如衡量單位和尺度不同,不能直接比較,也不能在同一圖形中展現所有變量的分布。為了提高可比性而比較同一水平上的優勢比,如將數據的整個范圍劃分四等分即通過比較最小值(0%)、第一四分位數(25%)、中位數(50%)、第三四分位數(75%)和最大值(100%)處的優勢比。如圖2所示,通過變量值的秩比例尺度變換函數圖被一條曲線所代替,這時橫軸上的尺度轉換為在[0,1]區間的秩次水平,各變量間的比較不受衡量單位和尺度關系的影響,故可以在一個圖形中獲得多條曲線。如圖3所示,可以快速地比較模型中變量間的相互關系。據圖可知,AGE的兩個極值處分別獲得最小和最大相對優勢比,第一、三四分位處的相對優勢比都比其他變量高,AGE與CAD的關系比ECG和SEX更為危險。SEX和ECG是以二值和三值的形式納入模型的,我們把其函數圖看作是一個閾值函數發現,男性要比女性更易患CAD;ECG異常可增加患CAD的危險,而且ST段壓低值越大,與CAD的關系越密切。

圖1

圖2
秩優勢比圖可作為一種工具比較幾種可選擇的變量和模型,核查模型中自變量極值是否合理,或者對變量采取何種處理更合理,或者是納入哪個變量擬合模型更合理。如圖4所示,對變量(age)值進行對數變換和樣條轉換后分別進入模型,或把年齡分成四類后擬合模型,再作相關秩優勢比圖,發現經過變換所得相對優勢比與未經變換獲得的相對優勢比很相似,但是對數變換后的相對優勢比在極值處有所下降,經分類后顯示極小值處優勢比有所提高外其余降低,且在極大值處下降幅度稍大。如果研究者認為通過資料數據獲得的年齡的最高優勢比不合理,那這一模型就不能應用或先對變量進行處理后再進行建模。

圖3

圖4
本文資料來源于2010年金華市磐安縣新型農村合作醫療專項入戶調查的數據。本調查采用分層整群隨機抽樣的方法抽取了磐安縣4個鄉鎮的500戶農戶,調查內容包括家庭一般情況、合作醫療意識和意愿性情況和住戶成員健康與衛生服務利用情況。通過整理和Epidate3.1建立數據庫獲得495戶有效數據,現應用logistic回歸模型對農戶是否愿意參加新農合的意愿性及其相關影響因素進行分析。進行分析的因素有農戶的家庭人口數X(1人)、家庭兼業類型X(2以純農業戶=1為參照,農業兼業戶=2,非農業兼業戶=3,純非農業戶=4,其他戶=5)、家庭主要勞動力數量X(3人)、文化程度X(4以沒上過學=1為參照,小學=2,初中=3,高中=4,中專=5,大專=6,大學及以上=7)、年齡X5(以<30歲=1為參照,31~40歲=2,41~50歲=3,51~60歲=4,>60歲=5)、人均年收入X(6元)、人均年支出X(7元)、是否知道新農合X(8是=1,否=0為參照)、是否參加過新農合X(9是=1,否=0為參照)等相關因素。
調查的495戶農戶中,463戶家庭表示愿意參加新農合(占93.54%),32戶表示不要愿意參加(占6.46%),說明絕大多數農戶是愿意參加新農合的。
應用SAS統計分析軟件分析各因素間的關系,對數據進行標準化處理并建立logistic回歸方程為Y=3.2302-0.6135Χ1+0.7558Χ4+1.0029Χ9,經檢驗模型擬合良好(χ2=178.2,p=1.0000)。研究數據的logistic回歸分析顯示,影響農戶參合意愿的相關因素有家庭人口數、主要勞動力文化程度和是否參加過新農合,各因素的OR點估計和 95%置信區間分別為 0.541(0.362,0.809)、2.129(1.279,2.050)和2.726(2.050,3.625)。
對觀察數據排序后利用進入模型的觀察數據和估計優勢比,應用SAS9.2統計軟件作各變量的秩優勢比圖,結果見圖5。對家庭人口數和主要勞動力的文化水平進行再次分類變換(<3人=1為參照,3人=2,>3人=3;未上過學=1為參照,小、初中=2,高中及以上=3),所得秩優勢比圖見圖6。我們可以從圖形中直觀地看到自變量與因變量之間的關系。圖5顯示家庭人口數呈一條下降的曲線,其取值與優勢比成負向變化關系,文化程度與優勢比成正向變化關系。之前是否參合對于今后是否愿意參合的影響很大,之前參合的人群還是愿意繼續參合。圖6顯示這三個變量的秩優勢比均為閾值函數,之前是否參合的優勢比變化幅度即閾值范圍最大,對參合的意愿性影響最大。在之前參合的人群中,最大和最小相對優勢比在文化水平變量的極值處獲得,文化水平對參合意愿的影響相較于人口數更重要,且高中及以上教育的人群更愿意參合。家庭人口數是另一重要影響因素,人口數小于三人的人群參合意愿性更強。這與通過比較標準回歸系數的結果一致,三者的標準回歸系數分別為-0.3382、0.4167、0.5529。

圖5

圖6
秩優勢比圖有很多實際應用,它通過模型中變量的分布,快速直觀地概述自變量的相對重要性,幫助處理現有診斷方法不能完全解決的一些問題。通過[0,1]區間的秩比例尺度轉換,自變量間的比較不再受衡量單位或尺度的限制,在同一圖形中作多條曲線以幫助解釋變量的流行病學特征。另外秩優勢比圖可對多個可選擇的變量或變換方式進行比較分析,幫助獲得最佳擬合模型,也可作為一種工具核查整個數據范圍內logistic回歸模型假設的合理性。
秩優勢比圖還可以用來描述估計優勢比由于添加或刪除其他變量情況下的變化量,它和標準回歸系數一樣試圖提高變量間的可比性,但兩者也有不同點。標準回歸系數假設方差為1都能合理衡量變量的變異而對變量進行標準化,但對于不對稱分布資料這個方差可能導致回歸系數比例尺度的任意性,并且連續性變量和分類變量標準化的假設方差不同。將變量轉換為[0,1]區間的秩比例尺度可避免這一任意性,并可比較分析序數分類變量和連續性變量,而且秩優勢比圖還是一種可視化工具,在描述上更清晰。秩優勢比圖中參考水平的選取存在任意性,這里建議用能使估計對數優勢的標準誤和置信帶寬度最小的變量觀測的中位數。
農戶是否積極參合是新型農村合作醫療制度建立的關鍵。通過本調查分析,我們看到新型農村合作醫療制度的實施深受廣大農民群眾的支持,利于進一步深化改革和推廣,但還有一小部分人不愿意參加新農合,主要受文化水平、家庭人口數和是否參合過的影響。隨著教育層次的提高愈傾向參合,人口數多的家庭參合意愿性反而下降,這是由于人口越多經濟負擔越重,人群更不愿意參合。我們建議要加大新型農村合作醫療的宣傳工作,積極引導,采取切實可行的方式解決多人口家庭和低文化水平群眾的參合問題,提高農民參合的意識和積極性。相信隨著制度的不斷完善和受益范圍的不斷擴大,將會有越來越多的人群參加新型農村合作醫療。
[1]Greenland S,Schlesselman JJ,Criqui MH.The Fallacy of Employing Standardized Regression Coef fi cients and Correlations as Measures of Effect[J].American Journal of Epidemiology,1986,123(2).
[2]Bring J.How to Standardize Regression Coef fi cients[J].The Ameri?can Statistician,1994,48(3).
[3]Zhao LP,Kristal A,White E.Estimating Relative Risk Function in Case-control Studies Using a Nonparametric Logistic Regression[J].Am.J.Epidemiol,1996,(144).
[4]Karvanen J,Frank E,Harrell J.Visualizing Covariates in Proportional Hazards Model[J].Statistic in Medicine,2009,(28).
[5]沈其君主編.SAS統計分析[M].北京:高等教育出版社,2005.
C815
A
1002-6487(2012)24-0087-02
國家自然科學基金資助項目(81172771)
(責任編輯/易永生)