999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的2型糖尿病視網(wǎng)膜病變預(yù)測(cè)模型研究

2021-07-25 00:21:46馮沁祺彭博雅李雅儒翟興
關(guān)鍵詞:分類糖尿病模型

馮沁祺,彭博雅,李雅儒,翟興

中醫(yī)藥信息學(xué)

基于機(jī)器學(xué)習(xí)的2型糖尿病視網(wǎng)膜病變預(yù)測(cè)模型研究

馮沁祺1,彭博雅2,李雅儒2,翟興2,3

1.北京中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院,北京 100007;2.北京中醫(yī)藥大學(xué)管理學(xué)院,北京 100029;3.中國(guó)人民大學(xué)信息資源管理學(xué)院,北京 100872

通過(guò)構(gòu)建提升決策樹、決策森林、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等9個(gè)常用機(jī)器學(xué)習(xí)模型對(duì)2型糖尿病并發(fā)糖尿病視網(wǎng)膜病變進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),進(jìn)行模型評(píng)價(jià)。采用國(guó)家人口健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))的糖尿病數(shù)據(jù)集數(shù)據(jù),采用SPSS20.0軟件進(jìn)行統(tǒng)計(jì)分析,通過(guò)卡方檢驗(yàn)和檢驗(yàn)篩選糖尿病視網(wǎng)膜病變相關(guān)因素進(jìn)入預(yù)測(cè)模型。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,使用Azure Machine Learning Studio構(gòu)建9種二分類模型,采用十折交叉驗(yàn)證方式測(cè)試算法效能,以準(zhǔn)確率、精確率、召回率、F1得分、AUC值為指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。通過(guò)卡方檢驗(yàn)和檢驗(yàn)得到糖尿病視網(wǎng)膜病變的影響因素,共篩選出年齡、血肌酐等32項(xiàng)計(jì)量資料指標(biāo)的已有編號(hào)、指標(biāo)名與結(jié)果字段進(jìn)入預(yù)測(cè)模型。指標(biāo)評(píng)價(jià)結(jié)果顯示,提升決策樹模型具有明顯優(yōu)勢(shì)。提升決策樹模型在9種預(yù)測(cè)模型中具有明顯優(yōu)勢(shì),可為2型糖尿病視網(wǎng)膜病變高危人群的篩檢與干預(yù)研究提供一定幫助。

2型糖尿??;糖尿病視網(wǎng)膜病變;機(jī)器學(xué)習(xí);風(fēng)險(xiǎn)預(yù)測(cè)

糖尿病影響著全球約4.15億成年人的生命健康,預(yù)計(jì)到2030年糖尿病患者可達(dá)5.52億,2040年為6.42億[1]。其中,2型糖尿?。╰ype 2 diabetes mellitus,T2DM)患者約占90%~95%[2]。中國(guó)糖尿病患病率高,且男性高于女性[3]。隨著生活方式的改變及社會(huì)老齡化,我國(guó)糖尿病患病率呈快速增長(zhǎng)趨勢(shì)。糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)是糖尿病最常見(jiàn)、最嚴(yán)重的微血管并發(fā)癥之一,嚴(yán)重影響患者生活質(zhì)量。DR損傷視網(wǎng)膜微血管系統(tǒng),出現(xiàn)毛細(xì)血管腫脹變形、血-視網(wǎng)膜屏障破壞、滲出,發(fā)生黃斑水腫、視力下降,若病情進(jìn)一步發(fā)展,新生血管可致視網(wǎng)膜微血管系統(tǒng)扭曲,導(dǎo)致視網(wǎng)膜脫離,甚至失明[4]。若能早期診斷并采取適當(dāng)預(yù)防措施,可在一定程度上減少DR所致的視力損害。

本研究以國(guó)家人口健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))提供的數(shù)據(jù)為對(duì)象,研究T2DM并發(fā)DR的相關(guān)影響因素,構(gòu)建9種常用機(jī)器學(xué)習(xí)模型,對(duì)T2DM并發(fā)DR進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),并對(duì)模型測(cè)試結(jié)果進(jìn)行分析和評(píng)價(jià),以期為降低T2DM并發(fā)DR發(fā)病率及其早期診斷提供參考。

1 資料

1.1 數(shù)據(jù)來(lái)源

3000條數(shù)據(jù)均來(lái)源于國(guó)家人口健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))提供的糖尿病數(shù)據(jù)集(http://101.201. 55.39/#/resource/2356),包含基本信息表、診斷表、檢查表、醫(yī)囑表、費(fèi)用表、生化檢查表、糖化檢查表、尿常規(guī)檢查表等。

1.2 一般情況

3000例患者基礎(chǔ)數(shù)據(jù)完整。男性1874例(62%),女性1126例(38%);年齡≤20歲1例,>20~30歲31例,>30~40歲125例,>40~50歲500例,>50~60歲1006例,>60~70歲910例,>70~80歲343例,>80~90歲83例,>90歲1例。T2DM并發(fā)DR者,男性933例,女性567例,年齡45.7~67.5歲,平均年齡56.6歲。數(shù)據(jù)分為T2DM組和T2DM并發(fā)DR組,各1500例。

2 方法

使用機(jī)器學(xué)習(xí)的方法建立預(yù)測(cè)模型,實(shí)質(zhì)上是采用有結(jié)果標(biāo)簽的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,然后對(duì)模型的準(zhǔn)確性等各項(xiàng)評(píng)價(jià)指標(biāo)進(jìn)行測(cè)試和優(yōu)化,實(shí)現(xiàn)對(duì)未知結(jié)果的分類。本研究采用十折交叉驗(yàn)證法測(cè)試算法效能,研究流程見(jiàn)圖1。

2.1 數(shù)據(jù)分析

圖1 研究流程圖

2.2 數(shù)據(jù)預(yù)處理

2.2.1 缺失值處理

由于數(shù)據(jù)存在較多缺失值,故利用基于鏈?zhǔn)椒匠痰亩嘀夭逖a(bǔ)方法將缺失值替換成替補(bǔ)值,即在填充缺失值之前,使用數(shù)據(jù)中的其他變量有條件地對(duì)每個(gè)具有缺失數(shù)據(jù)的變量進(jìn)行建模。

2.2.2 特征歸一化

2.2.3 離群值

本研究2組樣本均為1500條數(shù)據(jù),離群值較少,故未進(jìn)行類別不均和離群值的處理。

2.3 模型構(gòu)建與評(píng)價(jià)

使用Azure Machine Learning Studio(https:// studio.azureml.net/)構(gòu)建預(yù)測(cè)模型。預(yù)測(cè)模型的標(biāo)簽變量(即是否患?。儆诙诸愖兞?,故采用Azure Machine Learning Studio中的9種二分類模型進(jìn)行實(shí)驗(yàn)比較,各模型均使用默認(rèn)參數(shù)。公共參數(shù)見(jiàn)表1。

表1 Azure Machine Learning Studio模型構(gòu)建公共參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 創(chuàng)建訓(xùn)練器模式指定訓(xùn)練模型的方式;單個(gè)參數(shù):如果您知道如何配置模型;參數(shù)范圍:迭代提供的多種組合單個(gè)參數(shù) 隨機(jī)數(shù)種子鍵入一個(gè)整數(shù)值作為種子,確保實(shí)驗(yàn)在所有運(yùn)行中都具有可重復(fù)性2020 允許未知分類級(jí)別為訓(xùn)練和驗(yàn)證集中的未知值創(chuàng)建一個(gè)組。對(duì)于已知值,該模型可能不太精確,但可以為新(未知)值提供更好的預(yù)測(cè)是

2.3.1 二分類提升決策樹

二分類提升決策樹(two-class boosted decision tree)是一種集成學(xué)習(xí)方法,基于多個(gè)決策樹的整體進(jìn)行預(yù)測(cè),其中第二棵樹糾正第一棵樹的錯(cuò)誤,第三棵樹糾正第一棵樹和第二棵樹的錯(cuò)誤,依此類推[5]。參數(shù)設(shè)置見(jiàn)表2。

表2 二分類提升決策樹參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 每棵樹的最大葉數(shù)可以在任何樹中創(chuàng)建的最大終端節(jié)點(diǎn)(葉)數(shù)。通過(guò)增加該值,可能增加樹的大小并獲得更好的精度,但有過(guò)度擬合和較長(zhǎng)訓(xùn)練時(shí)間的風(fēng)險(xiǎn)20 每個(gè)葉節(jié)點(diǎn)的最小樣本數(shù)指定在樹中創(chuàng)建任何終端節(jié)點(diǎn)(葉)所需的案例數(shù)。通過(guò)增加該值,可增加創(chuàng)建新規(guī)則的閾值10 學(xué)習(xí)率輸入介于0和1之間的數(shù)字,該數(shù)字定義學(xué)習(xí)時(shí)的步長(zhǎng)0.2 已構(gòu)建的樹數(shù)在集合中創(chuàng)建的決策樹的總數(shù)。通過(guò)創(chuàng)建更多的決策樹,可能獲得更好的覆蓋范圍,但訓(xùn)練時(shí)間會(huì)增加100

2.3.2 二分類邏輯回歸

二分類邏輯回歸(two-class logistic regression)通過(guò)將數(shù)據(jù)擬合到邏輯函數(shù)來(lái)預(yù)測(cè)事件發(fā)生的可能性,模型中最常使用梯度下降法獲得代價(jià)函數(shù)的最小值,通過(guò)給予一定的優(yōu)化條件,使方法得到更好的分類界限[6]。參數(shù)設(shè)置見(jiàn)表3。

表3 二分類邏輯回歸參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 優(yōu)化公差優(yōu)化模型時(shí)要使用的閾值1E-07 L1正則化權(quán)重正則化參數(shù)L1的值1 L2正則化權(quán)重正則化參數(shù)L2的值1 L-BFGS的內(nèi)存大小用于L-BFGS優(yōu)化的內(nèi)存量20

2.3.3 二分類貝葉斯點(diǎn)機(jī)

貝葉斯分類器通過(guò)某個(gè)對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類別的概率,貝葉斯分類預(yù)測(cè)模型則返回每個(gè)類別的預(yù)測(cè)概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類[7]。二分類貝葉斯點(diǎn)機(jī)(two-class Bayes point machine)通過(guò)選擇一個(gè)“平均”分類器貝葉斯點(diǎn),有效地近似了線性分類器的理論上最優(yōu)的貝葉斯平均值。參數(shù)設(shè)置見(jiàn)表4。

表4 二分類貝葉斯點(diǎn)機(jī)參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 訓(xùn)練迭代次數(shù)指定消息傳遞算法迭代訓(xùn)練數(shù)據(jù)的頻率,通常應(yīng)設(shè)置為5~100范圍內(nèi)的值30 包括偏差是否將恒定特征或偏差添加到訓(xùn)練和預(yù)測(cè)中的每個(gè)實(shí)例是

2.3.4 二分類平均感知器

二分類平均感知器(two-class average perceptron)是神經(jīng)網(wǎng)絡(luò)的早期和非常簡(jiǎn)單的版本,根據(jù)線性函數(shù)將輸入分類為幾個(gè)可能的輸出,然后將其與從特征向量派生的一組權(quán)重結(jié)合在一起[5]。參數(shù)設(shè)置見(jiàn)表5。

表5 二分類平均感知器參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 最大迭代次數(shù)算法檢查訓(xùn)練數(shù)據(jù)的次數(shù)10 學(xué)習(xí)率指定的值的學(xué)習(xí)速度1

2.3.5 二分類決策森林

二分類決策森林(two-class decision forest)是基于一般原理的集成方法,由幾種決策樹的預(yù)測(cè)組合成一個(gè)最終的預(yù)測(cè),其原理為應(yīng)用集成思想提高決策樹準(zhǔn)確率,不依賴單個(gè)模型,而是通過(guò)創(chuàng)建多個(gè)相關(guān)模型并以某種方式組合它們,可以獲得更好的結(jié)果和更通用的模型[8]。參數(shù)設(shè)置見(jiàn)表6。

表6 二分類決策森林參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 重采樣方法選擇用于創(chuàng)建單個(gè)樹的方法??蛇x擇BAGGING或復(fù)制法BAGGING 決策樹數(shù)可在集合中創(chuàng)建的最大決策樹數(shù)。通過(guò)創(chuàng)建更多的決策樹可能獲得更好的覆蓋范圍,但訓(xùn)練時(shí)間會(huì)增加8 決策樹的最大深度限制任何決策樹的最大深度。增加樹的深度可能會(huì)提高精度,但存在過(guò)度擬合和訓(xùn)練時(shí)間增加的風(fēng)險(xiǎn)32 每個(gè)節(jié)點(diǎn)的隨機(jī)分割數(shù)樹的每個(gè)節(jié)點(diǎn)要使用的分割數(shù)128 每個(gè)葉節(jié)點(diǎn)的最小樣本數(shù)在樹中創(chuàng)建任何終端節(jié)點(diǎn)(葉)所需的最小案例數(shù)1

2.3.6 二分類決策叢林

二分類決策叢林(two-class decision jungle)由一組決策有向無(wú)環(huán)圖(DAG)組成,是決策森林的一種拓展[5]。參數(shù)設(shè)置見(jiàn)表7。

表7 二分類決策叢林參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 重采樣方法選擇用于創(chuàng)建單個(gè)樹的方法BAGGING 決策DAG的數(shù)量可在集合中創(chuàng)建的最大圖形數(shù)量8 決策DAG的最大深度每個(gè)圖的最大深度32 決策DAG的最大寬度每個(gè)圖的最大寬度128 每個(gè)決策DAG層的優(yōu)化步驟數(shù)建每個(gè)DAG時(shí)要對(duì)數(shù)據(jù)執(zhí)行多少 次迭代2048

2.3.7 二分類局部深度支持向量機(jī)

二分類局部深度支持向量機(jī)(two-class locally deep SVM)用于將數(shù)據(jù)點(diǎn)映射到特征空間的內(nèi)核函數(shù),以減少訓(xùn)練所需的時(shí)間,同時(shí)保持大部分分類的準(zhǔn)確性[5]。參數(shù)設(shè)置見(jiàn)表8。

表8 二分類局部深度支持向量機(jī)參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 樹的深度可以由本地深度內(nèi)核學(xué)習(xí)SVM(LD- SVM)模型創(chuàng)建的樹的最大深度3 LAMBDA W正則化項(xiàng)的權(quán)重0.1 LAMBDA THETA區(qū)域邊界和最近的數(shù)據(jù)點(diǎn)之間應(yīng)保留多少空間0.01 LAMBDA THETA PRIME控制模型的決策邊界中允許的曲率量0.01 SIGMOID清晰度用于縮放參數(shù)Σ的值1 迭代次數(shù)算法應(yīng)使用示例的隨機(jī)子集更新分類器參數(shù)的次數(shù)15 000

2.3.8 二分類神經(jīng)網(wǎng)絡(luò)

二分類神經(jīng)網(wǎng)絡(luò)(two-class neural network)是一組相互連接的層,輸入是第一層,并通過(guò)包含加權(quán)邊和節(jié)點(diǎn)的非循環(huán)圖連接到輸出層。神經(jīng)網(wǎng)絡(luò)可以運(yùn)用于分類和回歸問(wèn)題,具有極強(qiáng)的容錯(cuò)性和魯棒性[9]。參數(shù)設(shè)置見(jiàn)表9。

表9 二分類神經(jīng)網(wǎng)絡(luò)參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 隱藏層規(guī)范要?jiǎng)?chuàng)建的網(wǎng)絡(luò)體系結(jié)構(gòu)的類型完全連接 隱藏節(jié)點(diǎn)數(shù)隱藏節(jié)點(diǎn)的數(shù)目100 學(xué)習(xí)率每次迭代所采取步驟的大小0.1 迭代次數(shù)算法應(yīng)處理訓(xùn)練案例的最大次數(shù)100 初始學(xué)習(xí)權(quán)重直徑在學(xué)習(xí)過(guò)程開始時(shí)指定的節(jié)點(diǎn)權(quán)重0.1 動(dòng)量在學(xué)習(xí)過(guò)程中應(yīng)用于先前迭代的節(jié)點(diǎn) 的權(quán)重0

2.3.9 二分類支持向量機(jī)

二分類支持向量機(jī)(two-class SVM)是最早的機(jī)器學(xué)習(xí)算法之一,所有輸入示例均以該空間中的點(diǎn)表示,并映射到輸出類別,以使類別被盡可能寬地分隔并消除空白[10]。支持向量機(jī)使用核函數(shù)將非線性問(wèn)題變換為線性問(wèn)題,其本質(zhì)是計(jì)算2個(gè)觀測(cè)數(shù)據(jù)之間的距離,所尋找的是能夠?qū)颖鹃g隔最大化的決策邊界,因此又被稱為大間距分類器。參數(shù)設(shè)置見(jiàn)表10。

表10 二分類支持向量機(jī)參數(shù)

參數(shù)名稱參數(shù)介紹參數(shù)值 迭代次數(shù)構(gòu)建模型時(shí)使用的迭代次數(shù)1 LAMBDA用作L1正則化的權(quán)重0.001 是否投影到單位空間在訓(xùn)練之前,數(shù)據(jù)點(diǎn)以0為中心并縮放為具有1個(gè)單位的標(biāo)準(zhǔn)偏差否

3 結(jié)果

3.1 數(shù)據(jù)資料分析

對(duì)2組數(shù)據(jù)資料中的86個(gè)因素進(jìn)行分組描述,并進(jìn)行差異性檢驗(yàn)。其中,BUN、FIBRIN、M1_M2、TH2字段出現(xiàn)<30的情況,經(jīng)假設(shè)檢驗(yàn),與結(jié)果無(wú)相關(guān)性,予以剔除。2組數(shù)據(jù)一般資料比較見(jiàn)表11,實(shí)驗(yàn)室指標(biāo)比較見(jiàn)表12。

計(jì)數(shù)資料中,性別、民族、婚姻狀況及動(dòng)脈粥樣硬化、頸動(dòng)脈狹窄、肝硬化、其他慢性肝病、胰腺外分泌疾病、神經(jīng)系統(tǒng)疾病、心功能不全及心力衰竭等患病率組間比較差異無(wú)統(tǒng)計(jì)學(xué)意義(>0.05);T2DM并發(fā)DR組患者高血壓、高脂血癥、腦卒中、脂肪肝、腎病、腎衰竭、冠心病、心肌梗死、下肢動(dòng)脈病變、血液病、風(fēng)濕免疫疾病、其他內(nèi)分泌疾病、內(nèi)分泌腺瘤、消化系腫瘤、泌尿系腫瘤、婦科腫瘤、肺部腫瘤及其他腫瘤共18種相關(guān)疾病的患病率更高,差異有統(tǒng)計(jì)學(xué)意義(<0.05)。

計(jì)量資料中,身高、體質(zhì)量、心率、BMI、PL、PLT、LPS、TG、HDL_C、LP_A、GSP、CA199、INS、PTA、UCR共15項(xiàng)指標(biāo)組間比較差異無(wú)統(tǒng)計(jì)學(xué)意義(>0.05)。T2DM并發(fā)DR組收縮壓、舒張壓、SCR、SUA、BU、LDH_L、TC、LDL_C、GLU、GLU_2H、HBA1C、ESR、FBG、ALB_CR、UPR_24共15項(xiàng)指標(biāo)高于T2DM組,年齡、PCV、GLO、ALB、TP、DBILI、IBILI、TBILI、ALP、GGT、ALT、AST、HB、CRP、CP、APTT、PT共17項(xiàng)指標(biāo)低于T2DM組,差異有統(tǒng)計(jì)學(xué)意義(<0.05)。

將上述18種相關(guān)疾病和32項(xiàng)指標(biāo)作為T2DM并發(fā)DR的危險(xiǎn)因素納入預(yù)測(cè)模型。

表11 2組數(shù)據(jù)一般資料比較(n=1500)

項(xiàng)目T2DM組T2DM并發(fā)DR組t/χ2值P值 男性[n(%)] 941(62.7) 933(62.2)0.9100.763 漢族[n(%)]1419(94.6)1401(93.4)2.1400.144 已婚[n(%)]1470(98.0)1466(97.7)0.2550.613 年齡(±s,歲) 59.0±11.2 56.6±10.95.9300.000 身高(±s,cm)166.5±6.3 166.4±8.30.3510.725 體質(zhì)量(±s,kg) 73.0±13.4 73.2±12.5-0.3480.728 收縮壓(±s,mmHg)135.0±20.0142.4±21.4-9.7270.000 舒張壓(±s,mmHg) 79.0±11.9 82.0±11.8-6.9590.000 心率(±s,次/min) 80.4±32.7 76.1±23.50.9220.358 BMI(±s)26.1±4.026.4±3.6-1.3590.174 高血壓[n(%)] 953(63.5)1093(72.9)30.1250.000 高脂血癥[n(%)] 407(27.1) 249(16.6)48.7050.000 動(dòng)脈粥樣硬化[n(%)] 791(52.7) 752(50.1)2.0300.154 腦卒中[n(%)] 76(5.1)148(9.9)25.0100.000 頸動(dòng)脈狹窄[n(%)] 56(3.7) 73(4.9)2.3420.126 脂肪肝[n(%)] 437(29.1) 500(33.3)6.1600.013 肝硬化[n(%)] 29(1.9) 18(1.2)2.6150.106 其他慢性肝病[n(%)] 210(14.0) 199(13.3)0.3430.558 胰腺外分泌疾病 [n(%)] 26(1.7) 22(1.5)0.3390.561 膽道疾病[n(%)] 197(13.1) 230(15.3)2.9740.085 腎病[n(%)] 347(23.1) 903(60.2)381.5540.000 腎衰竭[n(%)] 24(1.6) 159(10.6)106.0600.000 神經(jīng)系統(tǒng)疾病[n(%)] 97(6.5) 79(5.3)1.9560.162 冠心病[n(%)] 611(40.7) 374(24.9)84.9000.000 心肌梗死[n(%)] 123(8.2) 67(4.5)17.6210.000 心功能不全及心力 衰竭[n(%)] 110(7.3)102(6.8)0.3250.569 心律失常[n(%)] 95(6.3) 79(5.3)1.5620.211 呼吸系統(tǒng)疾病[n(%)] 250(16.7) 222(14.8)1.9710.160 下肢動(dòng)脈病變[n(%)] 119(7.9) 357(23.8)141.4420.000 血液病[n(%)] 117(7.8) 327(21.8)116.5780.000 風(fēng)濕免疫疾病[n(%)] 66(4.4) 37(2.5)8.4550.004 妊娠哺乳期[n(%)] 6(0.4) 4(0.3)0.4010.526 其他內(nèi)分泌疾病 [n(%)] 398(26.5) 604(40.3)63.5910.000 內(nèi)分泌腺瘤[n(%)] 65(4.3) 43(2.9)4.6490.031 多囊卵巢綜合征 [n(%)] 2(0.1) 1(0.1)0.3340.564 消化系腫瘤[n(%)] 119(7.9) 34(2.3)46.7600.000 泌尿系腫瘤[n(%)] 22(1.5) 9(0.6)5.5090.019 婦科腫瘤[n(%)] 69(4.6) 30(2.0)15.8880.000 乳腺腫瘤[n(%)] 7(0.5) 3(0.2)1.6050.205 肺部腫瘤[n(%)] 46(3.1) 9(0.6)25.3560.000 顱內(nèi)腫瘤[n(%)] 11(0.7) 5(0.3)2.2620.133 其他腫瘤[n(%)] 173(11.5) 73(4.9)44.2810.000

表12 2組數(shù)據(jù)實(shí)驗(yàn)室指標(biāo)比較(±s,n=1500)

注:值為Pearson相關(guān)系數(shù),“-”代表Pearson相關(guān)性檢驗(yàn)>0.05

3.2 模型預(yù)測(cè)結(jié)果與分析

以準(zhǔn)確率、精確率、召回率、F1得分、AUC值為指標(biāo)對(duì)9種機(jī)器學(xué)習(xí)模型測(cè)試結(jié)果進(jìn)行評(píng)價(jià),結(jié)果見(jiàn)表13??梢钥闯觯诸愄嵘龥Q策樹模型AUC值最高,達(dá)0.984,其余各指標(biāo)在9種模型中均最高,表明其預(yù)測(cè)T2DM并發(fā)DR具有突出優(yōu)勢(shì)。

表13 9種模型測(cè)試結(jié)果評(píng)價(jià)指標(biāo)比較(±s)

3.3 模型發(fā)布

Azure AI Gallery是一個(gè)社區(qū)驅(qū)動(dòng)的站點(diǎn),用于發(fā)現(xiàn)和共享使用Azure AI構(gòu)建的解決方案。該庫(kù)包含各種可用于開發(fā)的分析解決方案的資源。本實(shí)驗(yàn)已發(fā)布于Azure AI Gallery(https://gallery.azure.ai/Experiment/ DR)。

4 討論

通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),以往針對(duì)糖尿病的預(yù)測(cè)模型研究較多,有關(guān)DR進(jìn)展的相關(guān)危險(xiǎn)因子研究也逐漸增多,采用數(shù)據(jù)挖掘算法對(duì)DR預(yù)測(cè)模型的研究與應(yīng)用已有一定的基礎(chǔ)。從研究對(duì)象來(lái)看可分為兩大類:一類是根據(jù)眼底相機(jī)或多焦視網(wǎng)膜電流圖等收集到的圖像對(duì)DR進(jìn)行智能診斷及對(duì)DR進(jìn)展程度的評(píng)估,如徐宏[11]根據(jù)彩色眼底圖像進(jìn)行基于眼底圖像的DR智能診斷,Schneck[12]根據(jù)多焦視網(wǎng)膜電流圖隱式時(shí)間和糖尿病的潛在危險(xiǎn)因素,建立和測(cè)試模型預(yù)測(cè)非增生性糖尿病視網(wǎng)膜病變局部斑塊的發(fā)展;另一類是根據(jù)DR的影響因素建立不同模型,或選用一系列臨床數(shù)據(jù)研究,或重點(diǎn)研究某一個(gè)因素,或建立驗(yàn)證模型,多為回顧性數(shù)據(jù)研究。一般來(lái)說(shuō),研究大部分采用logistic回歸模型,也有基于Meta分析logistic回歸模型的研究[13],較少使用其他模型,如Adaboost- FSVM模型[14]、COX回歸模型[15]等;少部分研究如眼底圖片預(yù)測(cè)模型研究對(duì)不同模型進(jìn)行了對(duì)比,AUC值提示隨機(jī)森林模型預(yù)測(cè)效果優(yōu)于logistic回歸模型[16]??傮w來(lái)說(shuō),DR預(yù)測(cè)模型的研究更多集中于圖像研究,而基于相關(guān)指標(biāo)預(yù)測(cè)DR的研究較為缺乏,或因數(shù)據(jù)搜集困難,或研究數(shù)據(jù)樣本量較小。DR相關(guān)危險(xiǎn)因子的研究數(shù)據(jù)實(shí)證不夠充分,選用模型方法較為單一,對(duì)于預(yù)測(cè)模型的比較研究更為稀少。

本研究數(shù)據(jù)分析顯示,T2DM并發(fā)DR受到年齡、收縮壓、舒張壓的影響,而SCR(血肌酐)、SUA(血尿酸)、BU(血尿素)、LDH_L(乳酸脫氫酶)、TC(血清總膽固醇)、LDL_C(低密度脂蛋白膽固醇)、GLU(空腹血糖)、GLU_2H(餐后2 h血糖)、HBA1C(糖化血紅蛋白)、ESR(紅細(xì)胞沉降率)、FBG(纖維蛋白原)、ALB_CR(尿微量蛋白和尿肌酐比值)、UPR_24(24 h尿蛋白定量)與T2DM并發(fā)DR呈正相關(guān),PCV(紅細(xì)胞比積)、GLO(球蛋白)、ALB(白蛋白)、TP(總蛋白)、DBILI(直接膽紅素)、IBILI(間接膽紅素)、TBILI(總膽紅素)、ALP(堿性磷酸酶)、GGT(谷氨酰轉(zhuǎn)肽酶)、ALT(丙氨酸氨基轉(zhuǎn)移酶)、AST(天冬氨酸氨基轉(zhuǎn)移酶)、HB(血紅蛋白)、CRP(C反應(yīng)蛋白)、CP(慢性胰腺炎)、APTT(部分凝血活酶活化時(shí)間)、PT(凝血酶原時(shí)間)與T2DM并發(fā)DR呈負(fù)相關(guān)。查閱文獻(xiàn)發(fā)現(xiàn),通過(guò)統(tǒng)計(jì)分析篩選出的與DR相關(guān)因素大部分已有切實(shí)可靠的循證依據(jù),暫未發(fā)現(xiàn)CP、GLO、ALB、TP、ALP、ALT、AST與DR相關(guān)研究,有文獻(xiàn)提示肝功能對(duì)DR的發(fā)生無(wú)明顯影響[17],上述7項(xiàng)指標(biāo)的臨床應(yīng)用價(jià)值尚需前瞻性研究進(jìn)一步證實(shí)。

在預(yù)測(cè)模型選擇方面,提升決策樹模型的準(zhǔn)確率達(dá)93.3%,精確率93.1%,召回率93.6%,F(xiàn)1得分0.933,AUC值0.984,各項(xiàng)指標(biāo)明顯優(yōu)于其他模型,具有明顯優(yōu)勢(shì),可較好地應(yīng)用于T2DM并發(fā)DR的預(yù)測(cè),實(shí)現(xiàn)對(duì)未知結(jié)果的分類。建立并選用合適的預(yù)測(cè)模型對(duì)降低DR發(fā)病率、早期診斷和預(yù)防意義重大,本研究可為T2DM并發(fā)DR高危人群的篩檢與干預(yù)研究提供一定幫助,并為構(gòu)建T2DM并發(fā)DR的模型預(yù)測(cè)提供參考依據(jù)。

本研究尚存在一些不足:①部分具有研究意義的項(xiàng)目可能由于字段<30而在數(shù)據(jù)模型中未予采用,如BUN、FIBRIN、M1_M2、TH2字段經(jīng)假設(shè)檢驗(yàn)提示與結(jié)果無(wú)相關(guān)性,仍需臨床大樣本數(shù)據(jù)檢驗(yàn)。今后應(yīng)不斷改進(jìn)研究設(shè)計(jì),采取更優(yōu)方式篩選更為合適的影響因素?cái)?shù)目,以期得到更為準(zhǔn)確的結(jié)果,提高預(yù)測(cè)的敏感性和特異性。②很多因素未顯示與T2DM進(jìn)展為DR的強(qiáng)相關(guān)性,在建立模型時(shí)未人為進(jìn)行因素篩選,建立的模型準(zhǔn)確度與精確度均較好,但存在影響因素過(guò)多的問(wèn)題。由于并無(wú)明顯強(qiáng)相關(guān)影響因素,人為篩選可能遺漏較多影響因素,進(jìn)而影響研究結(jié)果,可以考慮更改納入影響因素的值等改進(jìn)實(shí)驗(yàn)設(shè)計(jì)。③數(shù)據(jù)資料未包含病程,而糖尿病微血管并發(fā)癥與糖尿病病程相關(guān)性較大[3,18],不同病程患者的疾病狀態(tài)不同,會(huì)對(duì)數(shù)據(jù)產(chǎn)生一定影響。今后搜集臨床資料時(shí)應(yīng)注意患者病程,或在建立預(yù)測(cè)模型時(shí)選用更合適的樣本。④本研究未將研究結(jié)果用于實(shí)際預(yù)測(cè),今后可根據(jù)模型進(jìn)一步制作app或小程序提供給潛在患者,使研究結(jié)果服務(wù)于臨床。

致謝:感謝國(guó)家自然科學(xué)基金(81603499)資助及國(guó)家人口與健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))提供的數(shù)據(jù)支持。

[1] OGURTSOVA K, DA ROCHA FERNANDES J D, HUANG Y, et al. IDF Diabetes Atlas:Global estimates for the prevalence of diabetes for 2015 and 2040[J]. Diabetes Research and Clinical Practice,2017,128:40-50.

[2] Classification and diagnosis of diabetes:standards of medical care in diabetes-2019[J]. Diabetes Care,2019,42(Suppl 1):S13-S28.

[3] 中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì).中國(guó)2型糖尿病防治指南(2017年版)[J].中國(guó)實(shí)用內(nèi)科雜志,2018,38(4):292-344.

[4] CALDERON G D, JUAREZ O H, HERNANDEZ G E, et al. Oxidative stress and diabetic retinopathy:development and treatment[J]. Eye (London, England),2017,31(8):1-6.

[5] Machine learning modules in Azure Machine Learning Studio[EB/OL].(2019-06-05)[2020-01-28].https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/machine- learning-modules.

[6] 邢秋菊,趙純勇,高克昌.基于GIS的滑坡危險(xiǎn)性邏輯回歸評(píng)價(jià)研究[J].地理與地理信息科學(xué),2004,20(3):49-51.

[7] 吳新玲.基于貝葉斯方法的分類預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用, 2004(33):195-197.

[8] 黃海新,吳迪,文峰.決策森林研究綜述[J].電子技術(shù)應(yīng)用,2016, 42(12):5-9.

[9] 王春峰,萬(wàn)海暉,張維.基于神經(jīng)網(wǎng)絡(luò)技術(shù)的商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估[J].系統(tǒng)工程理論與實(shí)踐,1999(9):24-32.

[10] 王蘊(yùn)韜.人工智能算法梳理及解析[J].信息通信技術(shù),2018,12(1):63-68.

[11] 徐宏.基于眼底圖像的糖尿病視網(wǎng)膜病變智能診斷[D].成都:電子科技大學(xué),2019.

[12] SCHNECK M E, BEARSE JR M A,楊建剛.糖尿病視網(wǎng)膜病變進(jìn)展的定位預(yù)測(cè)模型的形成和評(píng)估[J].世界核心醫(yī)學(xué)期刊文摘:眼科學(xué)分冊(cè), 2005(4):44.

[13] 劉小鈺.基于Meta-分析Ⅱ型糖尿病并發(fā)癥發(fā)病風(fēng)險(xiǎn)的Logistic回歸模型研究[D].重慶:第三軍醫(yī)大學(xué),2016.

[14] 何禹德.基于數(shù)據(jù)挖掘技術(shù)的糖尿病臨床數(shù)據(jù)分析[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2016.

[15] 孟祥英.2型糖尿病患者心腦血管疾病風(fēng)險(xiǎn)評(píng)分模型的構(gòu)建及意義[D].上海:第二軍醫(yī)大學(xué),2016.

[16] 曹文哲,應(yīng)俊,陳廣飛,等.基于Logistic回歸和隨機(jī)森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)預(yù)測(cè)及對(duì)比研究[J].中國(guó)醫(yī)療設(shè)備,2016, 31(3):33-38,69.

[17] 彭曉智,黎宗保,吳佩嫻.心肌酶譜與糖尿病視網(wǎng)膜病變相關(guān)性及其臨床診斷價(jià)值研究[J].臨床軍醫(yī)雜志,2018,46(8):961-963.

[18] SARTORE G, CHILELLI N C, BURLINA S, et al. Association between glucose variability as assessed by continuous glucose monitoring (CGM) and diabetic retinopathy in type 1 and type 2 diabetes[J]. Acta Diabetologica,2013,50(3):437-442.

Study on Prediction Model of Type 2 Diabetic RetinopathyBased on Machine Learning

FENG Qinqi1, PENG Boya2, LI Yaru2, ZHAI Xing2,3

To conduct risk prediction for type 2 diabetes complicated with diabetic retinopathy by constructing 9 commonly used machine learning models such as improving decision trees, decision forests, neural networks, support vector machines; To evaluate the model.The diabetes data set of National Health Science Data Center (Clinical Medicine) was used for statistical analysis with SPSS20.0 software, and the chi-square test andtest were used to screen the relevant factors of diabetic retinopathy into the prediction model. Azure Machine Learning Studio was used to build 9 binary classification models, and 10-fold cross-validation was used to test the algorithm performance. The model was evaluated with accuracy, precision, recall, F1 score, and AUC value as indicators.The influencing factors of diabetic retinopathy were obtained by chi-square test andtest. A total of 32 existing indicators such as age, SCR and other measurement data indicators were selected, and the indicator names and result fields were entered into the prediction model. It showed that the decision tree model has obvious advantages.In the 9 prediction models, the improved decision tree model has obvious advantages, and can provide some help for the screening and intervention research of high-risk population with type 2 diabetes complicated with diabetic retinopathy.

type 2 diabetes mellitus; diabetic retinopathy; machine learning; risk prediction

R259.872;R2-05

A

1005-5304(2021)06-0022-07

10.19879/j.cnki.1005-5304.201912483

國(guó)家自然科學(xué)基金(81603499);中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(2020-JYB-ZDGG-070)

翟興,E-mail:zhaix@bucm.edu.cn

(2019-12-29)

(2020-02-08;編輯:陳靜)

猜你喜歡
分類糖尿病模型
一半模型
糖尿病知識(shí)問(wèn)答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識(shí)問(wèn)答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識(shí)問(wèn)答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識(shí)問(wèn)答
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 久久久久青草线综合超碰| 欧美日韩在线观看一区二区三区| 亚洲欧洲天堂色AV| 99精品高清在线播放| a级毛片免费看| 国产精品毛片一区视频播| 97久久精品人人做人人爽| 亚洲一区精品视频在线| 国产精品漂亮美女在线观看| 亚洲精品国产日韩无码AV永久免费网| 亚洲国产精品一区二区第一页免 | 久久精品丝袜| 91精品国产91久无码网站| 亚洲一级无毛片无码在线免费视频| 一级毛片免费的| 97国产精品视频自在拍| 国产美女自慰在线观看| 亚洲国产成人超福利久久精品| 香蕉视频在线观看www| 国产久操视频| 国产激爽大片高清在线观看| 欧美日韩一区二区在线免费观看 | 久久久国产精品无码专区| 99久久国产综合精品2023 | 国产第一福利影院| 国产亚洲欧美在线中文bt天堂| 福利片91| 青草视频网站在线观看| 精品久久国产综合精麻豆| hezyo加勒比一区二区三区| 国产69囗曝护士吞精在线视频| 波多野结衣在线se| 久久夜色精品| 亚洲天堂免费在线视频| 黄色网站在线观看无码| 日韩午夜伦| 三上悠亚精品二区在线观看| 亚洲成人福利网站| 欧美成人精品高清在线下载| 亚洲永久免费网站| 草草影院国产第一页| 一区二区无码在线视频| 亚洲综合国产一区二区三区| 美女免费精品高清毛片在线视| www.精品国产| 亚洲丝袜第一页| 人妻免费无码不卡视频| 精品无码一区二区三区电影| 日本五区在线不卡精品| 亚洲第一极品精品无码| 亚卅精品无码久久毛片乌克兰| 中文无码毛片又爽又刺激| 日韩亚洲综合在线| 久久婷婷综合色一区二区| 国产一在线观看| 国产欧美日韩精品综合在线| 狂欢视频在线观看不卡| 欧美在线精品怡红院| 毛片基地美国正在播放亚洲| 成年女人a毛片免费视频| 国产精品第5页| 欧美天堂久久| 97国产精品视频人人做人人爱| 精品国产免费观看一区| 亚洲天天更新| 欧美中文字幕一区| 欧美日韩国产系列在线观看| 日韩无码精品人妻| 国产精品国产三级国产专业不| 婷婷激情亚洲| 久久人搡人人玩人妻精品一| 久草视频中文| 国内黄色精品| www.精品国产| 免费无码AV片在线观看国产| 伊人精品成人久久综合| 亚洲人成日本在线观看| 中文成人在线视频| 久久永久视频| 看av免费毛片手机播放| 久久青草视频| 一级毛片免费不卡在线|