定量變量的分級方法對logistic模型影響的研究*

2014-04-03 07:49:24周凌峰安勝利

中國衛生統計 2014年4期

周凌峰安勝利

logistic回歸分析是用于篩選影響因素及建立預測模型的最常用的方法之一，它的綜合預報效果具有很好的穩健性和非模糊性[1-2]。在logistic回歸分析中，常會用到三種自變量類型：定量變量、等級變量及分類變量，為使得OR值具有更明確的臨床意義或便于預測模型的實際應用，研究者[3-5]常將有統計學意義的定量變量轉化為兩個或兩個以上等級，并賦予相應的分數。但目前等級劃分方法大多是由研究者主觀決定，若分界點選擇不當，其模型預測效果便會受到影響，甚至會影響到研究結論的正確性。本研究擬在計算機上以常用的非條件二分類logistic回歸分析為例進行模擬研究，在不同的參數條件下，對有統計學意義的自變量進行不同數量、不同方式的等級劃分，建立預測模型，考察其預測效果的變化規律，并對所得結論以實例進行考核，以期發現各種參數條件下合理的等級劃分方法。為建立更準確、實用的logistic預測模型提供可靠的變量轉化依據。

方法

為了便于解釋，本研究將模擬數據簡化設計為僅有一個自變量X(連續變量)及一個因變量Y(0-1變量)，然后觀測各種轉換方法對預測模型的影響規律，進而延伸說明多個自變量情況下該指標的變化狀況。

1.自變量

利用R語言，模擬產生單個自變量，考慮三種分布狀況，即標準正態分布、正偏態分布、負偏態分布。標準正態分布使用rnorm( )語句直接生成。正(負)偏態則采取以下方法產生。以正偏態為例，生成1000例標準正態分布數據，并截掉大于0.8的部分，同時再生成1000例0至5.5服從均勻分布的數據，合并二者后，從中選取1500例，最后得到近似正偏態的數據。負偏態自變量采取類似方法。

2.因變量

為了保證原始數據中自變量與因變量經logistic回歸分析具有一定的聯系，因變量可利用自變量通過公式產生；鑒于因變量0、1的分布在實際數據中存在不同，我們通過調整OR值來改變Y的分布。方法如下：

利用logistic回歸模型計算陽性事件發生概率P：

(1)

式中e為隨機誤差，服從標準正態分布。

假定β0為任意已知常數，如0.2，取βm為log(OR)，并取多種OR值情況(如OR=1.5～5,以0.5為間隔)。當確定某OR值后，便可通過上式計算相應的陽性事件發生概率P，對應的因變量Y則由0-1二項分布函數計算得到。

3.確定樣本含量

對上述產生的數據逐步增加樣本含量，并觀察自變量轉換后，其與因變量的關系變化，當這種關系穩定時所對應的樣本含量即為所需模擬的樣本含量大小。經測試，樣本量為1500時滿足上述要求。

4.自變量分級方法

共考慮三種分級數，即二級、三級、四級分類。

(1)二級分類

均數分級：以均數為分割點分為兩級；中位數分級：以中位數為分割點分為兩級；ROC分級：對自變量與因變量做ROC曲線，取約登指數最大的自變量值為分割點。分別賦為0、1。

(2)三級分類

(3)四級分類

百分位四等分：將自變量從小到大排序，并依據總的樣本量平均分為四級，各級觀察單位數約占總樣本量的25%；極差四等分分級：自變量最大值減最小值所得區間平均分為四份，分別賦為0、1、2、3。

5.評價指標

從現行的一些研究來看，學者們[6-9]較為關注兩個方面，一方面是分級后的自變量對因變量的預測準確程度；另一方面，分級后變量在回歸中的擬合效果。對于前者，人們普遍采用ROC曲線下面積AUC[10]來衡量其優劣程度，本研究亦采用AUC作為其中一種評價指標。在第二方面，本研究擬采用AIC信息量[11]。

在各種參數條件下(OR=1.5～5,以0.5為間隔)，對模擬數據(分別對不分級、各分級情形)計算AUC，同時再進行logistic回歸計算AIC信息量，重復模擬1000次，并計算上述兩指標的平均值及標準差。

6.模擬次數確定

不同分布、不同OR值下，當AUC、AIC均值達到穩定時所對應的模擬次數即為所需模擬的總次數。經過測試，本研究各種情況下模擬次數取1000次即可達到穩定。

結果

正態和部分正偏態分布模擬結果見圖1-圖5。

圖1 正態分布分二級

1.二級分級

正態分布下均數與中位數分級結果基本沒有區別(理論上也應如此)。分級首選為ROC分級，其次為均數或中位數分級。

偏態分布時，首選ROC分級，其余方法AUC和AIC兩指標無法同時最優，若以AIC為首選指標，則最優為均數分級，若以AUC為首選指標則最優為中位數分級。

2.三級分級

圖2 正態分布分三級

偏態時，均數±標準差不宜作為統計描述指標，因此不做模擬，從優到劣的分級方法順序為百分位三等分、四分位數分級、極差三等分分級。

3.四級分級

正態分布或偏態分布下，方法優先順序均為百分位數四等分分級、極差四等分分級，其中偏態分布下，OR值<3時，AIC信息量曲線略有交叉，OR>3后百分位數四等分分級AIC略優于極差四等分，但二者區別不大。

實例考核

1.實例背景

某研究在各個時間點均獲得57名病人的各指標結果，如neu,wbc,crp等，并以記錄病人是否發生了感染(1-發生感染，0-未發生感染)，目的是用特定時間的指標建立診斷、預測感染的模型。現假設需要對其中的第9個時間點的某定量指標(neu9)進行分級，將其轉換為等級變量來建立預測感染模型。

2.實例分級驗證

首先，確定該定量變量(neu9)的分布，經Kolmogorov-Smirnov以及Shapiro-Wilk正態性檢驗，P值均大于0.10，可以近似看作正態分布。經logistic回歸分析，有統計學意義，并計算出該變量OR值為1.1，假定欲將neu9分別分為二級、三級、四級，所得結果如表1。

圖3 正態分布分四級

表1 實例考核結果

該定量變量OR<1.5，對比前述模擬結果，由表1可知，實例數據所得結論基本符合模擬結果給出的預期結論。

由此，綜合以上結論分析，我們可以給出OR為1.5～5內的一個簡明的分級建議，見表2。

圖4 正偏態分布二級

表2 三種分布分級建議

其他數據分布若與上述特定分布存在較大偏差，則最優分級方法可能會與上述分級建議不一致。建議通過比較不同分級方法下的ROC曲線下面積、AIC信息量兩指標，擇優選擇。

改進方向

目前還有一些其他學者提出的分級方法未能在本研究中進行演示，擬在今后的研究中，繼續拓展分級方法，給出更多的分級參考。另外，由于偏態分布模擬沒有特定的參數標準，實際的偏態分布形式多樣。經本研究的驗證，不同偏態分布數據可能得到不同最優分級方法，因此對于特定偏態分布本研究的分級建議參考價值有限。本研究在數據模擬中，OR值取值范圍為常見的1.5～5(以0.5為間隔)，如果繼續擴大OR值的取值范圍，AUC和AIC結果會否出現其他結論？其對分級方法的選擇又有何影響？這將在以后的研究中繼續探討。

圖5 正偏態分布三級

參考文獻

1.鐘曉妮,周燕榮.女性乳腺癌預報模型研究.數理醫藥學雜志,2002,15(1):4-6.

2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.

3.萬偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.

4.陳暉,王小波,張麗萍，等.中老年人牙列缺損危險因素的Logistic回歸分析.山東醫藥,2010,50(48):48-49.

5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.

6.劉寶利,楊寶友,鄭桂敏，等.logistic回歸和ROC曲線綜合評價檢測四種尿蛋白排泄對早期腎小球疾病的診斷價值.中國中西醫結合腎病雜志,2011,12(8):695-697.

7.Kheterpal S,Kevin KT，Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.

8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure，2011,33(3):316-322.

9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International，2007 (72):624-631.

10.李康.連續變量診斷試驗數據的ROC分析.中國衛生統計,2007,14(1):1-4.

11.王濟川,郭志剛.Logistic回歸模型——方法與應用.北京:高等教育出版社.2001.

定量變量的分級方法對logistic模型影響的研究*

方 法

結 果

實例考核

改進方向

方法

結果