周凌峰 安勝利
logistic回歸分析是用于篩選影響因素及建立預測模型的最常用的方法之一,它的綜合預報效果具有很好的穩健性和非模糊性[1-2]。在logistic回歸分析中,常會用到三種自變量類型:定量變量、等級變量及分類變量,為使得OR值具有更明確的臨床意義或便于預測模型的實際應用,研究者[3-5]常將有統計學意義的定量變量轉化為兩個或兩個以上等級,并賦予相應的分數。但目前等級劃分方法大多是由研究者主觀決定,若分界點選擇不當,其模型預測效果便會受到影響,甚至會影響到研究結論的正確性。本研究擬在計算機上以常用的非條件二分類logistic回歸分析為例進行模擬研究,在不同的參數條件下,對有統計學意義的自變量進行不同數量、不同方式的等級劃分,建立預測模型,考察其預測效果的變化規律,并對所得結論以實例進行考核,以期發現各種參數條件下合理的等級劃分方法。為建立更準確、實用的logistic預測模型提供可靠的變量轉化依據。
為了便于解釋,本研究將模擬數據簡化設計為僅有一個自變量X(連續變量)及一個因變量Y(0-1變量),然后觀測各種轉換方法對預測模型的影響規律,進而延伸說明多個自變量情況下該指標的變化狀況。
1.自變量
利用R語言,模擬產生單個自變量,考慮三種分布狀況,即標準正態分布、正偏態分布、負偏態分布。標準正態分布使用rnorm( )語句直接生成。正(負)偏態則采取以下方法產生。以正偏態為例,生成1000例標準正態分布數據,并截掉大于0.8的部分,同時再生成1000例0至5.5服從均勻分布的數據,合并二者后,從中選取1500例,最后得到近似正偏態的數據。負偏態自變量采取類似方法。
2.因變量
為了保證原始數據中自變量與因變量經logistic回歸分析具有一定的聯系,因變量可利用自變量通過公式產生;鑒于因變量0、1的分布在實際數據中存在不同,我們通過調整OR值來改變Y的分布。方法如下:
利用logistic回歸模型計算陽性事件發生概率P:
(1)
式中e為隨機誤差,服從標準正態分布。
假定β0為任意已知常數,如0.2,取βm為log(OR),并取多種OR值情況(如OR=1.5~5,以0.5為間隔)。當確定某OR值后,便可通過上式計算相應的陽性事件發生概率P,對應的因變量Y則由0-1二項分布函數計算得到。
3.確定樣本含量
對上述產生的數據逐步增加樣本含量,并觀察自變量轉換后,其與因變量的關系變化,當這種關系穩定時所對應的樣本含量即為所需模擬的樣本含量大小。經測試,樣本量為1500時滿足上述要求。
4.自變量分級方法
共考慮三種分級數,即二級、三級、四級分類。
(1)二級分類
均數分級:以均數為分割點分為兩級;中位數分級:以中位數為分割點分為兩級;ROC分級:對自變量與因變量做ROC曲線,取約登指數最大的自變量值為分割點。分別賦為0、1。
(2)三級分類

(3)四級分類
百分位四等分:將自變量從小到大排序,并依據總的樣本量平均分為四級,各級觀察單位數約占總樣本量的25%;極差四等分分級:自變量最大值減最小值所得區間平均分為四份,分別賦為0、1、2、3。
5.評價指標
從現行的一些研究來看,學者們[6-9]較為關注兩個方面,一方面是分級后的自變量對因變量的預測準確程度;另一方面,分級后變量在回歸中的擬合效果。對于前者,人們普遍采用ROC曲線下面積AUC[10]來衡量其優劣程度,本研究亦采用AUC作為其中一種評價指標。在第二方面,本研究擬采用AIC信息量[11]。
在各種參數條件下(OR=1.5~5,以0.5為間隔),對模擬數據(分別對不分級、各分級情形)計算AUC,同時再進行logistic回歸計算AIC信息量,重復模擬1000次,并計算上述兩指標的平均值及標準差。
6.模擬次數確定
不同分布、不同OR值下,當AUC、AIC均值達到穩定時所對應的模擬次數即為所需模擬的總次數。經過測試,本研究各種情況下模擬次數取1000次即可達到穩定。
正態和部分正偏態分布模擬結果見圖1-圖5。

圖1 正態分布分二級

1.二級分級
正態分布下均數與中位數分級結果基本沒有區別(理論上也應如此)。分級首選為ROC分級,其次為均數或中位數分級。
偏態分布時,首選ROC分級,其余方法AUC和AIC兩指標無法同時最優,若以AIC為首選指標,則最優為均數分級,若以AUC為首選指標則最優為中位數分級。
2.三級分級


圖2 正態分布分三級
偏態時,均數±標準差不宜作為統計描述指標,因此不做模擬,從優到劣的分級方法順序為百分位三等分、四分位數分級、極差三等分分級。
3.四級分級
正態分布或偏態分布下,方法優先順序均為百分位數四等分分級、極差四等分分級,其中偏態分布下,OR值<3時,AIC信息量曲線略有交叉,OR>3后百分位數四等分分級AIC略優于極差四等分,但二者區別不大。
1.實例背景
某研究在各個時間點均獲得57名病人的各指標結果,如neu,wbc,crp等,并以記錄病人是否發生了感染(1-發生感染,0-未發生感染),目的是用特定時間的指標建立診斷、預測感染的模型。現假設需要對其中的第9個時間點的某定量指標(neu9)進行分級,將其轉換為等級變量來建立預測感染模型。
2.實例分級驗證
首先,確定該定量變量(neu9)的分布,經Kolmogorov-Smirnov以及Shapiro-Wilk正態性檢驗,P值均大于0.10,可以近似看作正態分布。經logistic回歸分析,有統計學意義,并計算出該變量OR值為1.1,假定欲將neu9分別分為二級、三級、四級,所得結果如表1。

圖3 正態分布分四級

表1 實例考核結果
該定量變量OR<1.5,對比前述模擬結果,由表1可知,實例數據所得結論基本符合模擬結果給出的預期結論。
由此,綜合以上結論分析,我們可以給出OR為1.5~5內的一個簡明的分級建議,見表2。

圖4 正偏態分布二級

表2 三種分布分級建議
其他數據分布若與上述特定分布存在較大偏差,則最優分級方法可能會與上述分級建議不一致。建議通過比較不同分級方法下的ROC曲線下面積、AIC信息量兩指標,擇優選擇。
目前還有一些其他學者提出的分級方法未能在本研究中進行演示,擬在今后的研究中,繼續拓展分級方法,給出更多的分級參考。另外,由于偏態分布模擬沒有特定的參數標準,實際的偏態分布形式多樣。經本研究的驗證,不同偏態分布數據可能得到不同最優分級方法,因此對于特定偏態分布本研究的分級建議參考價值有限。本研究在數據模擬中,OR值取值范圍為常見的1.5~5(以0.5為間隔),如果繼續擴大OR值的取值范圍,AUC和AIC結果會否出現其他結論?其對分級方法的選擇又有何影響?這將在以后的研究中繼續探討。

圖5 正偏態分布三級
參 考 文 獻
1.鐘曉妮,周燕榮.女性乳腺癌預報模型研究.數理醫藥學雜志,2002,15(1):4-6.
2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.
3.萬偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.
4.陳暉,王小波,張麗萍,等.中老年人牙列缺損危險因素的Logistic回歸分析.山東醫藥,2010,50(48):48-49.
5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.
6.劉寶利,楊寶友,鄭桂敏,等.logistic回歸和ROC曲線綜合評價檢測四種尿蛋白排泄對早期腎小球疾病的診斷價值.中國中西醫結合腎病雜志,2011,12(8):695-697.
7.Kheterpal S,Kevin KT,Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.
8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure,2011,33(3):316-322.
9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International,2007 (72):624-631.
10.李康.連續變量診斷試驗數據的ROC分析.中國衛生統計,2007,14(1):1-4.
11.王濟川,郭志剛.Logistic回歸模型——方法與應用.北京:高等教育出版社.2001.