999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Logistic回歸和隨機(jī)森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)預(yù)測(cè)及對(duì)比研究

2017-01-05 09:18:49曹文哲應(yīng)俊陳廣飛周丹
中國(guó)醫(yī)療設(shè)備 2016年3期
關(guān)鍵詞:分類糖尿病模型

曹文哲,應(yīng)俊,陳廣飛,周丹

中國(guó)人民解放軍總醫(yī)院 a. 生物醫(yī)學(xué)工程研究室;b. 醫(yī)務(wù)部,北京 100853

基于Logistic回歸和隨機(jī)森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)預(yù)測(cè)及對(duì)比研究

曹文哲a,應(yīng)俊a,陳廣飛a,周丹b

中國(guó)人民解放軍總醫(yī)院 a. 生物醫(yī)學(xué)工程研究室;b. 醫(yī)務(wù)部,北京 100853

目的應(yīng)用隨機(jī)森林算法和Logistic回歸算法,分析2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)因素并構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型。方法采用2011~2013年中國(guó)人民解放軍總醫(yī)院2型糖尿病住院患者的電子病歷信息,主要利用其中的糖尿病診斷數(shù)據(jù)、糖尿病糖化數(shù)據(jù)以及糖尿病生化檢查數(shù)據(jù),應(yīng)用Logistic回歸和隨機(jī)森林算法,根據(jù)ROC曲線下面積比較兩種模型的預(yù)測(cè)效果。結(jié)果在隨機(jī)森林模型的39個(gè)變量重要性評(píng)分中,糖化血紅蛋白、空腹血糖、尿素、肌酐、尿酸、年齡、冠心病和慢性腎病得分較高且具有臨床意義,Logistic回歸模型最終納入性別、血糖控制情況(糖化血紅蛋白濃度)、慢性腎病、冠心病、心梗和癌癥6個(gè)因素,ROC曲線下面積提示隨機(jī)森林模型預(yù)測(cè)效果優(yōu)于Logistic回歸模型。結(jié)論本次研究隨機(jī)森林算法分析結(jié)果給出了各個(gè)因素指標(biāo)的重要性評(píng)分,為2型糖尿病并發(fā)視網(wǎng)膜病變的早期診斷以及優(yōu)化診斷流程提供了一定的依據(jù)。

2型糖尿病;視網(wǎng)膜病變;關(guān)聯(lián)因素;風(fēng)險(xiǎn)預(yù)測(cè);隨機(jī)森林算法;Logistic回歸算法

0 引言

糖尿病及其并發(fā)癥現(xiàn)已成為世界范圍內(nèi)的重要公共健康問題,且糖尿病發(fā)病率非常高,幾乎達(dá)到流行病的比例[1]。糖尿病并發(fā)視網(wǎng)膜病變,也稱糖尿病眼病,是糖尿病性微血管病變中最重要的表現(xiàn),也是糖尿病患者常見的并發(fā)癥之一。糖尿病并發(fā)視網(wǎng)膜病變?cè)?0年期以上的糖尿病患者中患病率高達(dá)80%[2],是全球中老年人視力喪失的主要原因[3],一項(xiàng)Meta分析結(jié)果[4]顯示在中國(guó)糖尿病患者中糖尿病并發(fā)視網(wǎng)膜病變的患病率為23%。糖尿病并發(fā)視網(wǎng)膜病變是勞動(dòng)年齡人口(20~64歲)致盲的主要因素[5],有研究[6-7]提示40歲以下患糖尿病的人群中視網(wǎng)膜病變的發(fā)病率為33.3%,是40歲以上患病人群的2倍(15.6%),具有早期隱蔽性、慢性進(jìn)展性、不可逆性的特點(diǎn),按照疾病的發(fā)展進(jìn)程可以分為2型6期,其中1~3期為單純型視網(wǎng)膜病變,4~6期為增殖型視網(wǎng)膜病變,因此針對(duì)糖尿病并發(fā)視網(wǎng)膜病變做好早期預(yù)防是很必要的。

近年來,大數(shù)據(jù)分析與數(shù)據(jù)挖掘逐漸引起關(guān)注,尤其是在醫(yī)療衛(wèi)生領(lǐng)域,數(shù)據(jù)挖掘的運(yùn)用極其廣泛。本研究采用了基于機(jī)器學(xué)習(xí)理論的隨機(jī)森林模型和基于流行病學(xué)研究設(shè)計(jì)的Logistic回歸模型,分析2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)因素并建立風(fēng)險(xiǎn)預(yù)測(cè)模型,通過ROC曲線下的面積(Area Under Curve,AUC)比較兩種風(fēng)險(xiǎn)預(yù)測(cè)模型的優(yōu)劣,以期為內(nèi)分泌科臨床實(shí)踐中糖尿病患者并發(fā)視網(wǎng)膜病變的風(fēng)險(xiǎn)評(píng)估提供數(shù)據(jù)指導(dǎo),盡早發(fā)現(xiàn)病情,確定診斷方案,開展臨床治療。

1 方法

1.1 數(shù)據(jù)標(biāo)準(zhǔn)化與合并

選取中國(guó)人民解放軍總醫(yī)院內(nèi)分泌科2011~2013年住院患者的糖尿病診斷、糖化以及生化檢查數(shù)據(jù)。其中3種數(shù)據(jù)分屬于獨(dú)立的表格,并對(duì)其進(jìn)行整合得到可用于統(tǒng)計(jì)分析的數(shù)據(jù)集。數(shù)據(jù)整合的步驟如下:① 根據(jù)首次診斷信息提取2型糖尿病并發(fā)視網(wǎng)膜病變以及無視網(wǎng)膜病變的2型糖尿病患者信息;② 根據(jù)患者就診ID以及診斷時(shí)間從糖化檢查以及生化檢查表中提取距離診斷時(shí)間最近的一次患者檢查信息;③ 從糖化、生化實(shí)驗(yàn)室檢查中的診斷信息中提取出合并癥的信息,包括高血壓、血脂異常、腎病、腫瘤、大血管病變、周圍神經(jīng)病變、心梗、腦梗、冠心病。有關(guān)提取的變量信息見表1。

表1 變量信息表類別變量名中文描述人口學(xué)信息Sex性別

Age年齡

診斷信息Diagnosis2型糖尿病并發(fā)視網(wǎng)膜病變

Hyperten高血壓

Hyperlip血脂異常

Kidney Dis腎病

Cancer腫瘤

Macroangiopathy大血管病變

PNP周圍神經(jīng)病變

Myocadinf心梗

Cerebralinf腦梗

Guanxinbing冠心病糖化HbA1c糖化血紅蛋白生化ALT谷丙轉(zhuǎn)氨酶

AST谷草轉(zhuǎn)氨酶

TP血清總蛋白

ALB血清蛋白

TBIL總膽紅素

DBIL直接膽紅素

ALP 堿性磷酸酶

Urea 尿素

GGT γ-谷胺酰轉(zhuǎn)肽酶

Cre肌酐

GLU_blood血糖

TG 甘油三酯

S_UA尿酸

TCHO 總膽固醇

CK 肌酸激酶

LDH 乳酸脫氫酶

Ca 鈣

Na 鈉

K 鉀

Cl 氯

P 磷

Mg 鎂

Lipase 酯酶

HDL_C 高密度脂蛋白膽固醇Fe 鐵

UIBC 不飽和鐵結(jié)合力

1.2 隨機(jī)森林模型

1.2.1 隨機(jī)森林基本原理

隨機(jī)森林由Breiman[8]在2001年提出,它通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成k個(gè)分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。其實(shí)質(zhì)是對(duì)決策樹算法的一種改進(jìn),將多個(gè)決策樹合并在一起,每棵樹的建立依賴于一個(gè)獨(dú)立抽取的樣品,森林中的每棵樹具有相同的分布,分類誤差取決于每一棵樹的分類能力和它們之間的相關(guān)性。特征選擇采用隨機(jī)的方法去分裂每一個(gè)節(jié)點(diǎn),然后比較不同情況下產(chǎn)生的誤差。能夠檢測(cè)到的內(nèi)在估計(jì)誤差、分類能力和相關(guān)性決定選擇特征的數(shù)目。單棵樹的分類能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹后,一個(gè)測(cè)試樣品可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類。

1.2.2 隨機(jī)森林算法

隨機(jī)森林中的每一棵分類樹為二叉樹,其生成遵循自頂向下的遞歸分裂原則,即從根節(jié)點(diǎn)開始依次對(duì)訓(xùn)練集進(jìn)行劃分;在二叉樹中,根節(jié)點(diǎn)包含全部訓(xùn)練數(shù)據(jù),按照節(jié)點(diǎn)不純度最小原則,分裂為左節(jié)點(diǎn)和右節(jié)點(diǎn),它們分別包含訓(xùn)練數(shù)據(jù)的一個(gè)子集,按照同樣的規(guī)則節(jié)點(diǎn)繼續(xù)分裂,直到滿足分支停止規(guī)則而停止生長(zhǎng)。若節(jié)點(diǎn)n上的分類數(shù)據(jù)全部來自于同一類別,點(diǎn)的不純度I(n)=0。不純度度量方法是Gini準(zhǔn)則,即假設(shè)P(ωj)是節(jié)點(diǎn)n上屬于ωj類樣本個(gè)數(shù)占訓(xùn)練樣本總數(shù)的頻率,則Gini準(zhǔn)則表示為:(1)

具體算法過程如下:

(1)N表示原始訓(xùn)練集樣本個(gè)數(shù),mall用來表示變量的數(shù)目。

(2)應(yīng)用bootstrap法有放回地隨機(jī)抽取k個(gè)新的自助樣本集,并由此構(gòu)建k棵決策樹,每次未被抽到的樣本組成了k個(gè)袋外數(shù)據(jù)(Out-of-Bag,OOB)。

(3)每個(gè)自助樣本集用于建立一棵決策樹,在每一棵樹的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)變量(mtry<mall),然后在中選擇一個(gè)最具有分類能力的變量,變量分類的閾值通過檢查每一個(gè)分類點(diǎn)確定。

(4)每棵樹最大限度地生長(zhǎng),不做任何修剪。

(5)將生成的多棵分類樹組成隨機(jī)森林,用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類,分類結(jié)果視樹分類器的投票多少而定。

在隨機(jī)森林構(gòu)建過程中,自助樣本集用于每一個(gè)樹分類器的形成,每次抽樣生成的OOB被用來預(yù)測(cè)分類的正確率,對(duì)每次預(yù)測(cè)結(jié)果進(jìn)行匯總得到錯(cuò)誤率的OOB估計(jì),然后評(píng)估組合分類器判別的正確率。此外,在隨機(jī)森林中,所應(yīng)用的自助樣本集從原始的訓(xùn)練樣本集中隨機(jī)選取,每一棵樹所應(yīng)用的變量也是從所有變量mall中隨機(jī)選取,兩次隨機(jī)過程使得隨機(jī)森林具有較穩(wěn)定的錯(cuò)誤率,同時(shí)應(yīng)用袋外數(shù)據(jù)來衡量分類器的性能。

隨機(jī)森林中最重要的參數(shù)是mtry,Svetnik等[9]通過試驗(yàn)證實(shí)是一種較好的選擇。隨機(jī)森林中另外兩個(gè)重要的參數(shù)是構(gòu)建分類樹的個(gè)數(shù)ntree和葉節(jié)點(diǎn)nodesize的大小,本研究采用ntree=500和nodesize=1進(jìn)行研究。

1.2.3 變量重要性評(píng)分

變量重要性評(píng)分用于評(píng)價(jià)變量對(duì)于結(jié)局發(fā)生的影響,變量的重要性評(píng)分越高,則表明該變量越有能力對(duì)結(jié)局變量進(jìn)行分類。設(shè)原始樣本含量為N,各影響因素變量分別為x1,x2,…,xm。應(yīng)用bootstrap法有放回地隨機(jī)抽取b個(gè)新的自助樣本,并由此形成b個(gè)分類樹,每次未被抽到的樣本則組成b個(gè)袋外數(shù)據(jù)[10]。袋外數(shù)據(jù)作為測(cè)試樣本可以用來評(píng)估各個(gè)變量在分類中的重要性,具體實(shí)現(xiàn)過程如下:

(1)用自助樣本形成每一個(gè)樹分類器,同時(shí)對(duì)相應(yīng)的OOB進(jìn)行分類,得到b個(gè)自助樣本的OOB中每一個(gè)樣品的投票分?jǐn)?shù),記為rate1,rate2,...,rateb。

(2)將變量xi的數(shù)值在b個(gè)OOB樣本中的順序隨機(jī)改變,形成新的OOB測(cè)試樣本,然后用已建立的隨機(jī)森林對(duì)新的OOB進(jìn)行分類,根據(jù)判別正確的樣品數(shù)得到每一個(gè)樣本的投票分?jǐn)?shù),所得結(jié)果用矩陣表示為

(2)

(3)用rate1,rate2,...,rateb與矩陣(2)對(duì)應(yīng)的第i行向量相減,求和平均后再除以標(biāo)準(zhǔn)誤得變量xi的重要性評(píng)分,即(3) 1.3 Logistic回歸模型

基于大樣本數(shù)據(jù)庫(kù)應(yīng)用流行病學(xué)研究設(shè)計(jì),采用等樣本量病例對(duì)照研究,將數(shù)據(jù)庫(kù)中全部2型糖尿病并發(fā)視網(wǎng)膜病變患者作為病例組,采用簡(jiǎn)單隨機(jī)抽樣法在全部非2型糖尿病并發(fā)視網(wǎng)膜病變患者中抽取與病例組等樣本量的對(duì)照組。結(jié)合文獻(xiàn)資料、專家經(jīng)驗(yàn)和臨床知識(shí)選取研究因素。采用SPSS 21軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,利用卡方檢驗(yàn)分析不同因素與2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性,檢驗(yàn)水準(zhǔn)α=0.05。應(yīng)用Logistic回歸分析法建立2型糖尿病并發(fā)視網(wǎng)膜病變關(guān)聯(lián)因素模型,自變量篩選采用以似然比檢驗(yàn)為依據(jù)的前向步進(jìn)法(Forward: LR),以P<0.05為納入標(biāo)準(zhǔn),P>0.1為剔除標(biāo)準(zhǔn)。

2 結(jié)果

2.1 隨機(jī)森林模型結(jié)果

本研究應(yīng)用隨機(jī)森林方法對(duì)2型糖尿病與2型糖尿病并發(fā)視網(wǎng)膜病變進(jìn)行分類預(yù)測(cè),算法通過R軟件實(shí)現(xiàn)。根據(jù)2型糖尿病患者的基本信息(年齡、性別)以及實(shí)驗(yàn)室檢查信息建立隨機(jī)森林預(yù)測(cè)模型對(duì)2型糖尿病與2型糖尿病并發(fā)視網(wǎng)膜病變進(jìn)行分類預(yù)測(cè)研究。糖尿病數(shù)據(jù)中的檢查信息存在一些數(shù)值缺失,本研究利用隨機(jī)森林方法內(nèi)嵌的臨近估計(jì)填補(bǔ)方法對(duì)其進(jìn)行填補(bǔ)。

為了準(zhǔn)確地評(píng)價(jià)隨機(jī)森林分類模型的效果,本研究將經(jīng)過預(yù)處理的樣本分析數(shù)據(jù)隨機(jī)分成兩部分,其中3/4為訓(xùn)練樣本,1/4為測(cè)試樣本,按此方法隨機(jī)組成100個(gè)訓(xùn)練集和100個(gè)測(cè)試集,分別利用訓(xùn)練集建立預(yù)測(cè)模型,然后利用測(cè)試集對(duì)模型進(jìn)行效果評(píng)價(jià)。對(duì)模型的評(píng)估側(cè)重于模型本身的精度、準(zhǔn)確度、效果、效率等,主要采用錯(cuò)誤率(Err. rate)、靈敏度(Sen)、特異度(Spe)和AUC 4種評(píng)價(jià)指標(biāo),其中靈敏度和特異度是按照概率0.5為判別閾值預(yù)測(cè)分類的評(píng)價(jià)結(jié)果,AUC是綜合評(píng)價(jià)的結(jié)果。

在隨機(jī)森林模型的建立過程中,隨機(jī)森林方法能夠給出模型中每個(gè)變量的重要性評(píng)分,結(jié)果見圖1。可以看出糖尿病相關(guān)指標(biāo)如HbA1c、GLU_blood得分較高,腎功能檢查指標(biāo)如Urea、Cr、UA等也對(duì)分類起一定的作用,除此以外,年齡、合并冠心病以及腎病也對(duì)模型分類有一定貢獻(xiàn)。

圖1 隨機(jī)森林變量重要性評(píng)分

表2 基本情況及卡方檢驗(yàn)結(jié)果,n(%)

2.2 Logistic回歸模型結(jié)果

最終納入研究的樣本共1566例(病例組和對(duì)照組各783例),其中女性占40.1%,平均年齡為(64.2±13.0)歲,其中60~74歲的年輕老人占41.2%,血糖控制情況差或不理想者(糖化血紅蛋白濃度>8%)占42.3%,血糖重度升高者(空腹血糖濃度≥11.1 mmol/L)占80.8%,高血壓患者占23.6%,血脂異常者占3.7%,慢性腎病患者占12.6%,冠心病患者占13.2%,心梗患者占2.2%,腦梗患者占3.9%,癌癥患者占2.0%,各分類變量基本情況及卡方檢驗(yàn)結(jié)果見表2,其變量賦值可見表3。

單因素分析結(jié)果顯示,糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)因素包括性別、年齡、血糖控制情況(糖化血紅蛋白濃度)、高血壓、慢性腎病、冠心病、心梗和癌癥,見表2。其中,女性、90歲以上老年人、血糖控制情況不理想(糖化血紅蛋白濃度8%~9%)、未患高血壓、患有慢性腎病、未患冠心病、未患心梗及未患癌癥的糖尿病患者視網(wǎng)膜病變的發(fā)生率較高。

Logistic回歸模型因變量及各自變量賦值,見表3。最終納入Logistic回歸模型的關(guān)聯(lián)因素包括性別、血糖控制情況(糖化血紅蛋白濃度)、慢性腎病、冠心病、心梗和癌癥,見表4。其中,男性與女性相比,糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)減少29%(OR=0.71);血糖控制情況每惡化一個(gè)水平,糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)增加30%(OR=1.30);慢性腎病患者糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)增加4.48倍(OR=5.48);冠心病患者、心梗患者和癌癥患者的糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)則分別減少68%(OR=0.32)、63%(OR=0.37)和82%(OR=0.18)。

表3 Logistic回歸模型變量賦值

表4 糖尿病并發(fā)視網(wǎng)膜病變關(guān)聯(lián)因素的Logistic模型

2.3 兩種模型結(jié)果的比較

表5中給出了隨機(jī)森林模型與Logistic回歸模型預(yù)測(cè)的結(jié)果,其中隨機(jī)森林是對(duì)100個(gè)測(cè)試數(shù)據(jù)集預(yù)測(cè)的結(jié)果,包括各評(píng)價(jià)指標(biāo)的均值和標(biāo)準(zhǔn)差。可以看出隨機(jī)森林模型在各個(gè)評(píng)價(jià)指標(biāo)結(jié)果中都要優(yōu)于Logistic回歸模型。兩種模型預(yù)測(cè)效果的ROC曲線見圖2,在檢驗(yàn)水平α=0.05下對(duì)兩種模型作差異性檢驗(yàn),得P=0.0019,由此可見隨機(jī)森林模型綜合預(yù)測(cè)效果要優(yōu)于Logistic回歸模型。

表5 隨機(jī)森林模型與Logistic回歸模型預(yù)測(cè)結(jié)果比較

圖2 Logistic回歸與隨機(jī)森林的ROC曲線

3 討論

在進(jìn)行數(shù)據(jù)整理時(shí)發(fā)現(xiàn)數(shù)據(jù)本身存在著變量缺失和變量數(shù)據(jù)缺失的問題,如已知的2型糖尿病并發(fā)視網(wǎng)膜病變重要風(fēng)險(xiǎn)因素糖尿病病程變量缺失,生化檢查結(jié)果變量有較多的缺失數(shù)據(jù),這些都造成了后續(xù)模型擬合時(shí)在準(zhǔn)確度和精密度上存在一定誤差[11-12]。

既往研究表明2型糖尿病并發(fā)視網(wǎng)膜病變的發(fā)生發(fā)展與糖尿病病程、高血壓、高血糖、血脂異常、慢性腎病及相關(guān)實(shí)驗(yàn)室檢查指標(biāo)等多種因素有關(guān)[13-16]。本文研究的Logistic分析結(jié)果顯示,慢性腎病與糖化血紅蛋白濃度是2型糖尿病并發(fā)視網(wǎng)膜病變的危險(xiǎn)因素。慢性腎病與2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性較為明確,臨床上認(rèn)為糖尿病并發(fā)視網(wǎng)膜病變與慢性腎病具有相似的病理基礎(chǔ),即微血管病變和微循環(huán)障礙,本研究中慢性腎病患者發(fā)生糖尿病并發(fā)視網(wǎng)膜病變的風(fēng)險(xiǎn)增加近5倍,驗(yàn)證了慢性病腎病與糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性。許多研究進(jìn)一步指出,反映慢性腎病程度的尿白蛋白是與糖尿病并發(fā)視網(wǎng)膜病變高度相關(guān)的獨(dú)立危險(xiǎn)因素[17-18]。血糖控制情況是糖尿病并發(fā)視網(wǎng)膜病變的另一重要影響因素。與多數(shù)研究結(jié)果相同,本研究中糖化血紅蛋白濃度的升高增加了2型糖尿病并發(fā)視網(wǎng)膜病變的風(fēng)險(xiǎn),但空腹血糖值與2型糖尿病并發(fā)視網(wǎng)膜病變?cè)诒敬窝芯恐形幢憩F(xiàn)出關(guān)聯(lián)性。其原因可能是空腹血糖值僅反映一次測(cè)量的血糖水平,而糖化血紅蛋白可反映近3個(gè)月的血糖水平,能更好地反映平時(shí)血糖控制情況,與2型糖尿病并發(fā)視網(wǎng)膜病變的關(guān)聯(lián)性更顯著[19]。本研究中冠心病、心梗和癌癥與2型糖尿病并發(fā)視網(wǎng)膜病變也具有關(guān)聯(lián)性,但其對(duì)2型糖尿病并發(fā)視網(wǎng)膜病變的保護(hù)作用與臨床機(jī)制和相關(guān)研究不符,可能的原因是研究資料中存在共線性,或樣本中冠心病、心梗和癌癥的病例數(shù)太少導(dǎo)致參數(shù)估計(jì)不可靠。本研究發(fā)現(xiàn)糖尿病并發(fā)視網(wǎng)膜病變的另一關(guān)聯(lián)因素是性別,女性比男性糖尿病患者并發(fā)視網(wǎng)膜病變的風(fēng)險(xiǎn)大。性別在有關(guān)2型糖尿病并發(fā)視網(wǎng)膜病變關(guān)聯(lián)因素的現(xiàn)有研究中較少涉及,其關(guān)聯(lián)程度和影響作用有待進(jìn)一步的流行病學(xué)研究或大數(shù)據(jù)分析驗(yàn)證。此外,既往研究中2型糖尿病并發(fā)視網(wǎng)膜病變傳統(tǒng)的危險(xiǎn)因素高血壓和血脂異常在本研究中均未被納入多因素模型,可能是樣本中高血壓和血脂異常的病例數(shù)太少導(dǎo)致(樣本總量中高血壓患者占23.6%,血脂異常僅占3.7%)。

本次研究,隨機(jī)森林算法分析結(jié)果給出了各個(gè)因素指標(biāo)的重要性評(píng)分,為2型糖尿病并發(fā)視網(wǎng)膜病變的早期診斷以及優(yōu)化診斷流程提供了一定的依據(jù),但是在變量重要性評(píng)分中實(shí)驗(yàn)室檢查結(jié)果變量的表現(xiàn)普遍優(yōu)于診斷結(jié)果變量,產(chǎn)生此現(xiàn)象主要是由于診斷結(jié)果變量在數(shù)據(jù)集中出現(xiàn)頻率較低,此種偏移在Logistic回歸分析中也產(chǎn)生了不利的影響。隨機(jī)森林算法分析結(jié)果篩選出了一些現(xiàn)在醫(yī)學(xué)機(jī)制上尚無法解釋的變量,這可為以后的研究提供方向,但值得注意的是這些無法解釋的變量可能是由于數(shù)據(jù)集本身的樣本量限制及自變量間的相關(guān)性導(dǎo)致[20-21]。與Logistic回歸相比,隨機(jī)森林算法通過大量隨機(jī)選擇樣本的方法平衡了樣本誤差的影響,對(duì)由此產(chǎn)生的大量不同測(cè)試數(shù)據(jù)進(jìn)行分類綜合評(píng)價(jià),較僅以單個(gè)測(cè)試樣本進(jìn)行擬合的Logistic回歸的結(jié)果更為可靠,但其對(duì)影響因素的解釋較為模糊,無法給出影響因素相對(duì)危險(xiǎn)度的估計(jì)以及作用的方向性。

[1] Sun JK,Cavallerano JD,Silva PS.Future promise of and potential pitfalls for automated detection of diabetic retinopathy[J].JAMA Ophthalmol,2015,17:1-2.

[2] Kertes PJ,Johnson TM.Evidence Based Eye Care[M]. Philadelphia,PA:Lippincott Williams & Wilkins,2007.

[3] Ting DS,Cheung GC,Wong TY.Diabetic retinopathy: global prevalence,major risk factors,screening practices and public health challenges: a review[J].Clin Experiment Ophthalmol, 2015,43(9):1-4.

[4] Liu L,Wu X,Liu L,et al.Prevalence of diabetic retinopathy in mainland China: a meta-analysis[J].PLoS One,2012,7(9):e45264.

[5] Engelgau MM,Geiss LS,Saaddine JB,et al.The evolving diabetes burden in the United States[J].Ann Intern Med,2004,140(11): 945-950.

[6] Raman R,Vaitheeswaran K,Vinita K,et al.Is prevalence of retinopathy related to the age of onset of diabetes?Sankara Nethralaya Diabetic Retinopath Epidemiology and Molecular Genetic Report No.5[J].Ophthalmic Res,2011,45(1):36-41.

[7] Chatziralli IP,Sergentanis TN,Keryttopoulos P,et al.Risk factors associated with diabetic retinopathy in patients with diabetes mellitus type 2[J].BMC Res Notes,2010,3:153.

[8] Breiman L.Random forests[J].Machine Learning,2001,45 (1):5-32.

[9] Svetnik V,Liaw A,Tong C,et al.Random forest:A classification and regression tool for compound classification and QSAR modeling[J].J Chem Inf Comput Sci,2003,43(6):1947-1958.

[10] Díaz-Uriarte R,Alvarez de Andrés S.Gene selection and classification of microarray data using random forest[J].BMCBioinformatics,2006,7:3.

[11] Abougalambou SS,Abougalambou AS.Risk factors associated with diabetic retinopathy among type 2 diabetes patients at teaching hospital in Malaysia[J].Diabetes Metab Syndr,2015,9(2): 98-103.

[12] Jee D,Lee WK,Kang S.Prevalence and risk factors for diabetic retinopathy: the Korea National Health and Nutrition Examination Survey 2008-2011[J].Invest Ophthalmol Vis Sci,2013,54(10):6827-6833.

[13] Dowse GK,Humphrey AR,Collins VR,et al.Prevalence and risk factors for diabetic retinopathy in the multiethnic population of Mauritius[J].Am J Epidemiol,1998,147(5):448-457.

[14] Ronald K,Barbara EK,Scot EM,et al.The Wisconsin epidemiologic study of diabetic retinopathy.II.Prevalence and risk of diabetic retinopathy when age at diagnosis is less than 30 years[J].Arch Ophthalmol,1984,102(4):520-526.

[15] McKay R,McCarty CA,Taylor HR.Diabetic retinopathy in Victoria,Australia:the Visual Impairment Project[J].Br J

Ophthalmol,2000,84(8):865-870.

[16] Varma R,Macias GL,Torres M,et al.Biologic risk factors associated with diabetic retinopathy:the Los Angeles Latino Eye Study[J].Ophthalmology,2007,114(7):1332-1340.

[17] Pontuch P,Vozár J,Potocky M,et al.Relationship between retinopathy,and autonomic neuropathy in patients with type 1 diabetes[J].J Diabet Complications,1990,4(4):188-192.

[18] Savage S,Estacio RO,Jeffers B,et al.Urinary albumin excretion as a predictor of diabetic retinopathy,neuropathy,and cardiovascular disease in NIDDM[J].Diabetes Care,1996,19(11):1243-1248.

[19] 伍春榮,馬志中,胡蓮娜,等.糖尿病視網(wǎng)膜病變相關(guān)因素的因子分析[J].國(guó)際眼科雜志,2007,7(4):1056-1059.

[20] Nicodemus KK,Malley JD,Strobl C,et al.The behaviour of random forest permutation-based variable importance measures under predictor correlation[J].BMC Bioinformatics,2010,11:110.

[21] Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:ilustrations,sources and a solution[J].BMC Bioinformatics,2007,8:25.

Risk Prediction and Comparitive Research of Type 2 Diabetes Mellitus Complicated with Retinopathy based on Logistic Regression and
Random Forest Algorithm

CAO Wen-zhea, YING Juna, CHEN Guang-feia, ZHOU Danb
a.Department of Biomedical Engineering; b.Department of Medical Management, General Hospital of PLA, Beijing 100853, China

ObjectiveTo analyze the relevant factors of type 2 diabetes mellitus complicated with retinopathy and to construct the risk prediction model based on machine learning, the random forest algorithm, and the Logistic regression algorithm based on the epidemiological design.MethodsTo analyze the data from the electronic medical record of patients with type 2 diabetes mellitus complicated with retinopathy in the General Hospital of PLA during 2011-2013. The main focus was on the diagnostic data of diabetes mellitus, the glycosylated data, and biochemical examination data. The prediction effect of the two models were compared with the Logistic regression algorithm and random forest algorithm according the area under the ROC curve.ResultsAmong the 39 variables in the the random forest models, blood glucose control (HbAlc), fasting glucose, urea, creatinine, uric acid, age, coronary heart disease (CHD), and chronic kidney disease (CKD) had higher scores and were of significant clinical explanations. The Logistic regression model finally in corporated six factors: sex, HbAlc, CKD, CHD, myocardial infarction, and cancer. The area under the ROC curve showed that the prediction effect of the random forest model was better than the Logistic regression Model.ConclusionThe research provided grading of the significance of different variable, which to a certain extent provides guidance for the early diagnosis of type 2 diabetes mellitus complicated with retinopathy and the optimization of clinical diagnosis flow.

type 2 diabetes mellitus; retinopathy; correlative factor; risk prediction; random forestalgorithm; Logistic regressionalgorithm

TN957.51

A

10.3969/j.issn.1674-1633.2016.03.006

1674-1633(2016)03-0033-06

2016-01-15

國(guó)家自然科學(xué)基金( 61501518)。通信作者:周丹,教授,博士生導(dǎo)師。

郵箱:zd99@vip.sohu.com

猜你喜歡
分類糖尿病模型
一半模型
糖尿病知識(shí)問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識(shí)問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識(shí)問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識(shí)問答
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: a毛片免费在线观看| 久久动漫精品| 中文无码毛片又爽又刺激| 亚洲有无码中文网| 国产精品第| 91成人试看福利体验区| 69视频国产| 亚洲伊人久久精品影院| 国产精品自在线拍国产电影| 国产免费人成视频网| 91麻豆国产在线| 欧美国产日产一区二区| 视频二区中文无码| 欧美视频在线观看第一页| 欧美另类精品一区二区三区| 五月婷婷丁香综合| 国产亚洲日韩av在线| 中文字幕人妻无码系列第三区| 亚洲成人高清无码| 午夜视频www| 日韩中文精品亚洲第三区| 欧美精品色视频| 精品国产电影久久九九| 久久96热在精品国产高清| 国产精品综合久久久| 国产成人一区| 97综合久久| 国产99精品久久| 国产人人干| 中国精品久久| 国产丝袜第一页| 亚洲综合18p| 992Tv视频国产精品| 波多野结衣无码视频在线观看| 久久久久亚洲av成人网人人软件| 国产成人亚洲精品蜜芽影院| 日本午夜三级| 久久精品中文字幕少妇| 99久久国产自偷自偷免费一区| 国产麻豆福利av在线播放| 精品伊人久久久大香线蕉欧美| 玖玖免费视频在线观看| 久久精品视频亚洲| 欧美日韩精品在线播放| 日韩精品一区二区三区大桥未久 | 色天天综合| yy6080理论大片一级久久| 欧美成人影院亚洲综合图| 国产精品福利尤物youwu| 99在线观看免费视频| 国产亚洲精品自在线| 一区二区三区国产精品视频| 亚洲欧美人成人让影院| 亚洲黄色网站视频| 熟女日韩精品2区| 成人精品免费视频| 国产超薄肉色丝袜网站| 亚洲啪啪网| 99在线观看精品视频| 亚洲性色永久网址| 国产精品极品美女自在线| 精品国产香蕉在线播出| 伊人久久大线影院首页| 国产精品入口麻豆| 国产精品手机视频一区二区| 精品国产香蕉在线播出| 伊人久久综在合线亚洲2019| 色久综合在线| 青青热久麻豆精品视频在线观看| 亚洲成人一区在线| 欧美激情伊人| 97国产精品视频自在拍| 女人一级毛片| 亚洲va在线∨a天堂va欧美va| 欧美精品成人一区二区视频一| 国产成人一区免费观看| 三级视频中文字幕| 成人日韩欧美| 在线观看精品国产入口| 久久成人18免费| 国产成熟女人性满足视频| 69av免费视频|