999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

定量變量的分級方法對logistic模型影響的研究*

2014-04-03 07:49:24周凌峰安勝利
中國衛生統計 2014年4期
關鍵詞:方法模型研究

周凌峰 安勝利

logistic回歸分析是用于篩選影響因素及建立預測模型的最常用的方法之一,它的綜合預報效果具有很好的穩健性和非模糊性[1-2]。在logistic回歸分析中,常會用到三種自變量類型:定量變量、等級變量及分類變量,為使得OR值具有更明確的臨床意義或便于預測模型的實際應用,研究者[3-5]常將有統計學意義的定量變量轉化為兩個或兩個以上等級,并賦予相應的分數。但目前等級劃分方法大多是由研究者主觀決定,若分界點選擇不當,其模型預測效果便會受到影響,甚至會影響到研究結論的正確性。本研究擬在計算機上以常用的非條件二分類logistic回歸分析為例進行模擬研究,在不同的參數條件下,對有統計學意義的自變量進行不同數量、不同方式的等級劃分,建立預測模型,考察其預測效果的變化規律,并對所得結論以實例進行考核,以期發現各種參數條件下合理的等級劃分方法。為建立更準確、實用的logistic預測模型提供可靠的變量轉化依據。

方 法

為了便于解釋,本研究將模擬數據簡化設計為僅有一個自變量X(連續變量)及一個因變量Y(0-1變量),然后觀測各種轉換方法對預測模型的影響規律,進而延伸說明多個自變量情況下該指標的變化狀況。

1.自變量

利用R語言,模擬產生單個自變量,考慮三種分布狀況,即標準正態分布、正偏態分布、負偏態分布。標準正態分布使用rnorm( )語句直接生成。正(負)偏態則采取以下方法產生。以正偏態為例,生成1000例標準正態分布數據,并截掉大于0.8的部分,同時再生成1000例0至5.5服從均勻分布的數據,合并二者后,從中選取1500例,最后得到近似正偏態的數據。負偏態自變量采取類似方法。

2.因變量

為了保證原始數據中自變量與因變量經logistic回歸分析具有一定的聯系,因變量可利用自變量通過公式產生;鑒于因變量0、1的分布在實際數據中存在不同,我們通過調整OR值來改變Y的分布。方法如下:

利用logistic回歸模型計算陽性事件發生概率P:

(1)

式中e為隨機誤差,服從標準正態分布。

假定β0為任意已知常數,如0.2,取βm為log(OR),并取多種OR值情況(如OR=1.5~5,以0.5為間隔)。當確定某OR值后,便可通過上式計算相應的陽性事件發生概率P,對應的因變量Y則由0-1二項分布函數計算得到。

3.確定樣本含量

對上述產生的數據逐步增加樣本含量,并觀察自變量轉換后,其與因變量的關系變化,當這種關系穩定時所對應的樣本含量即為所需模擬的樣本含量大小。經測試,樣本量為1500時滿足上述要求。

4.自變量分級方法

共考慮三種分級數,即二級、三級、四級分類。

(1)二級分類

均數分級:以均數為分割點分為兩級;中位數分級:以中位數為分割點分為兩級;ROC分級:對自變量與因變量做ROC曲線,取約登指數最大的自變量值為分割點。分別賦為0、1。

(2)三級分類

(3)四級分類

百分位四等分:將自變量從小到大排序,并依據總的樣本量平均分為四級,各級觀察單位數約占總樣本量的25%;極差四等分分級:自變量最大值減最小值所得區間平均分為四份,分別賦為0、1、2、3。

5.評價指標

從現行的一些研究來看,學者們[6-9]較為關注兩個方面,一方面是分級后的自變量對因變量的預測準確程度;另一方面,分級后變量在回歸中的擬合效果。對于前者,人們普遍采用ROC曲線下面積AUC[10]來衡量其優劣程度,本研究亦采用AUC作為其中一種評價指標。在第二方面,本研究擬采用AIC信息量[11]。

在各種參數條件下(OR=1.5~5,以0.5為間隔),對模擬數據(分別對不分級、各分級情形)計算AUC,同時再進行logistic回歸計算AIC信息量,重復模擬1000次,并計算上述兩指標的平均值及標準差。

6.模擬次數確定

不同分布、不同OR值下,當AUC、AIC均值達到穩定時所對應的模擬次數即為所需模擬的總次數。經過測試,本研究各種情況下模擬次數取1000次即可達到穩定。

結 果

正態和部分正偏態分布模擬結果見圖1-圖5。

圖1 正態分布分二級

1.二級分級

正態分布下均數與中位數分級結果基本沒有區別(理論上也應如此)。分級首選為ROC分級,其次為均數或中位數分級。

偏態分布時,首選ROC分級,其余方法AUC和AIC兩指標無法同時最優,若以AIC為首選指標,則最優為均數分級,若以AUC為首選指標則最優為中位數分級。

2.三級分級

圖2 正態分布分三級

偏態時,均數±標準差不宜作為統計描述指標,因此不做模擬,從優到劣的分級方法順序為百分位三等分、四分位數分級、極差三等分分級。

3.四級分級

正態分布或偏態分布下,方法優先順序均為百分位數四等分分級、極差四等分分級,其中偏態分布下,OR值<3時,AIC信息量曲線略有交叉,OR>3后百分位數四等分分級AIC略優于極差四等分,但二者區別不大。

實例考核

1.實例背景

某研究在各個時間點均獲得57名病人的各指標結果,如neu,wbc,crp等,并以記錄病人是否發生了感染(1-發生感染,0-未發生感染),目的是用特定時間的指標建立診斷、預測感染的模型。現假設需要對其中的第9個時間點的某定量指標(neu9)進行分級,將其轉換為等級變量來建立預測感染模型。

2.實例分級驗證

首先,確定該定量變量(neu9)的分布,經Kolmogorov-Smirnov以及Shapiro-Wilk正態性檢驗,P值均大于0.10,可以近似看作正態分布。經logistic回歸分析,有統計學意義,并計算出該變量OR值為1.1,假定欲將neu9分別分為二級、三級、四級,所得結果如表1。

圖3 正態分布分四級

表1 實例考核結果

該定量變量OR<1.5,對比前述模擬結果,由表1可知,實例數據所得結論基本符合模擬結果給出的預期結論。

由此,綜合以上結論分析,我們可以給出OR為1.5~5內的一個簡明的分級建議,見表2。

圖4 正偏態分布二級

表2 三種分布分級建議

其他數據分布若與上述特定分布存在較大偏差,則最優分級方法可能會與上述分級建議不一致。建議通過比較不同分級方法下的ROC曲線下面積、AIC信息量兩指標,擇優選擇。

改進方向

目前還有一些其他學者提出的分級方法未能在本研究中進行演示,擬在今后的研究中,繼續拓展分級方法,給出更多的分級參考。另外,由于偏態分布模擬沒有特定的參數標準,實際的偏態分布形式多樣。經本研究的驗證,不同偏態分布數據可能得到不同最優分級方法,因此對于特定偏態分布本研究的分級建議參考價值有限。本研究在數據模擬中,OR值取值范圍為常見的1.5~5(以0.5為間隔),如果繼續擴大OR值的取值范圍,AUC和AIC結果會否出現其他結論?其對分級方法的選擇又有何影響?這將在以后的研究中繼續探討。

圖5 正偏態分布三級

參 考 文 獻

1.鐘曉妮,周燕榮.女性乳腺癌預報模型研究.數理醫藥學雜志,2002,15(1):4-6.

2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.

3.萬偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.

4.陳暉,王小波,張麗萍,等.中老年人牙列缺損危險因素的Logistic回歸分析.山東醫藥,2010,50(48):48-49.

5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.

6.劉寶利,楊寶友,鄭桂敏,等.logistic回歸和ROC曲線綜合評價檢測四種尿蛋白排泄對早期腎小球疾病的診斷價值.中國中西醫結合腎病雜志,2011,12(8):695-697.

7.Kheterpal S,Kevin KT,Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.

8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure,2011,33(3):316-322.

9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International,2007 (72):624-631.

10.李康.連續變量診斷試驗數據的ROC分析.中國衛生統計,2007,14(1):1-4.

11.王濟川,郭志剛.Logistic回歸模型——方法與應用.北京:高等教育出版社.2001.

猜你喜歡
方法模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产尤物jk自慰制服喷水| 亚洲看片网| 亚洲综合色在线| 国产波多野结衣中文在线播放 | 九色在线观看视频| 欧美第二区| 亚洲Av激情网五月天| 国产一二三区视频| 欧美一级大片在线观看| 在线视频精品一区| 国产拍在线| 性欧美久久| 国产青榴视频| 亚洲一级无毛片无码在线免费视频| 五月婷婷综合色| 毛片在线看网站| 亚洲人成网站色7799在线播放| 成人午夜免费视频| 91精品国产福利| 日韩在线第三页| 午夜福利网址| 日韩欧美国产精品| 91在线一9|永久视频在线| 日本在线视频免费| 日韩精品欧美国产在线| 99在线视频免费观看| 免费观看欧美性一级| 国产精品va免费视频| 国产小视频a在线观看| 免费女人18毛片a级毛片视频| 国产精品美女网站| 孕妇高潮太爽了在线观看免费| 国产欧美日韩免费| 无码中文字幕乱码免费2| 欧美日韩一区二区三区四区在线观看| 成人免费午间影院在线观看| 98超碰在线观看| 国产欧美视频综合二区| 国产精品免费露脸视频| 91视频99| 亚洲香蕉久久| 国产精品一区二区在线播放| 国产精品入口麻豆| 国产三级毛片| 91网在线| 色老头综合网| 亚洲无线一二三四区男男| 亚洲欧美一区二区三区蜜芽| 色婷婷视频在线| 国产精品永久在线| 麻豆精品视频在线原创| 国产新AV天堂| 国产精品尤物在线| 香蕉eeww99国产在线观看| 国产精品视频久| 免费午夜无码18禁无码影院| 国产黄在线免费观看| 亚洲一区毛片| 国产精品三级专区| 宅男噜噜噜66国产在线观看| 蜜芽国产尤物av尤物在线看| 亚洲日韩每日更新| 免费无码AV片在线观看国产| 国产综合另类小说色区色噜噜| 成人福利一区二区视频在线| 久久91精品牛牛| 欧美另类图片视频无弹跳第一页| 久久精品娱乐亚洲领先| 国产亚洲第一页| 日本手机在线视频| 69av免费视频| 三上悠亚在线精品二区| 国产精品无码作爱| 成人在线观看一区| 国产精品部在线观看| 亚洲成人精品| 亚洲男人天堂久久| 干中文字幕| 亚洲欧美另类中文字幕| 欧美在线天堂| 日韩视频精品在线| 欧美一区二区丝袜高跟鞋|