999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹模型在2型糖尿病患病風險預測中的應用*

2017-01-10 03:46:30侯玉梅朱亞楠朱立春吳頌高秋燁
中國衛生統計 2016年6期
關鍵詞:分類糖尿病模型

侯玉梅朱亞楠朱立春吳 頌高秋燁

決策樹模型在2型糖尿病患病風險預測中的應用*

侯玉梅1△朱亞楠1朱立春2吳 頌2高秋燁3

目的探究決策樹模型在2型糖尿病患病風險預測中的應用,為預防和控制2型糖尿病的發生和發展提供臨床指導。方法收集數據并進行預處理,采用C5.0算法構建分類模型,之后對其預測結果進行評估。結果采用決策樹構建的三個模型的訓練集準確率分別為79.98%、98.26%、99.55%,測試集的準確率分別為81.27%、98.16%、98.16%,預測準確率都較高。結論采用C5.0算法構建決策樹模型,對預測糖尿病的患病風險具有一定的應用價值。

2型糖尿病 決策樹 風險預測

隨著我國人民生活水平的普遍提高以及生活節奏的加快,我國糖尿病患者數量正在以驚人的速度增長,且向低齡化發展[1]。最新調查顯示,我國成年人中的糖尿病患者高達1.14億,并呈現發病率高,知曉率、治療率和達標率低的現象,同時也給家人和社會帶來了沉重的經濟負擔。因此,預防2型糖尿病的發生,對于控制糖尿病發病人數具有重要意義。本文利用數據挖掘C 5.0算法構建簡單個人水平預測、簡單臨床預測以及復雜臨床預測模型,以此發掘糖尿病患病的得病風險規律,為健康人群的預防和醫生臨床診斷提供指導。

資料與方法

1.資料來源

本文中資料數據來源于河北省秦皇島市某醫院糖尿病患者病例以及健康人群的體檢數據共1922例,內容包括與2型糖尿病患病相關的各項指標,分別為性別、年齡、吸煙情況、家族史情況(包括糖尿病家族史和高血壓家族史[2-3])、既往病史情況(包括心腦血管病史和冠心病史[4-5])、入院體檢與實驗室檢查情況(身高、體重、空腹血糖、舒張壓、收縮壓、甘油三酯、總膽固醇、低密度脂蛋白)等。

2.分析方法

(1)數據預處理

數據清洗 對原始數據進行分析整理,對超出取值范圍的不合理數據或個別有缺失值的變量用指定值替代[6]。Flag(標志)型變量用False對應的值替代,Set(集)型變量用第一個變量值替代,數值型變量,大于上限的用上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。

數據變換 數據變換將數據轉換成統一的格式,以適合數據的再處理[7]。在原始數據中,需要轉換的屬性有身高。一般身高是以厘米度量的,但是我們需要利用BMI指數變量,需要對身高變量進行轉換,轉換函數為:f(V)=V/100。

數據規約 規約后的數據不但保證了原始數據的完整性,而且減少了數據量,使得數據挖掘的效率和性能大大提高[8]。例如:將身高和體重變量進行規約,計算BMI指數(kg/m2)=體重/(身高×身高),然后根據中國體重指標標準將BMI指數進行離散化生成新屬性BMI_set。類似地,本文生成年齡_set、舒張壓_set、收縮壓_set等其他新屬性。之后直接刪除原始數據中的冗余屬性。預處理后的數據不僅可以保持原始數據的完整性,而且提高了數據挖掘的運算效率。

(2)算法選擇

本文使用決策樹來建立分類模型,該方法可以很直觀地看出分類規則,且擅于處理非數值型數據;具有效率高、分類精度高等優點。目前,常用的決策樹算法有ID3、C5.0、CHAID、QUEST、CART等,它們的主要區別是“不同的決策樹算法的分枝策略不同”[9],其中C5.0是以信息論為指導,以信息增益率為標準確定最佳分組變量和分割點,采用后修剪方法從葉節點向上逐層剪枝;C5.0算法可以生成推理規則集,更重要的是它采用Boosting方式,提高了預測準確率和分類精度,所以本文采用C5.0算法。

(3)算法實現

本研究中C5.0算法由軟件Clementine 12.0實現,通過分區將現有樣本集隨機分割成兩部分:訓練集70%和測試集30%,有效地實現了決策樹模型的構建。模型運行前,設置使用分區數據,輸出類型選擇決策樹,并利用ChiMerge分箱法檢查當前分組變量,使得到的分類樹較精簡,采用Boosting技術試驗10次和交叉驗證折疊10次建立模型,提高模型預測的穩健性,Mode選用Expert,修剪純度設為75,采用全局修剪。

結 果

1.模型建立

(1)簡單個人水平模型

當只考慮性別、年齡、身高、體重、生活習慣(煙齡)、家族史、既往病史等基本個人水平因素時,生成10個相關聯的模型,各模型的預測精度不同,最高為82.33%,最低為65.29%,應用Boosting技術后,預測精度為84.1%,分類精度提高。其相關聯的變量重要性排序如圖1所示,表明糖尿病患病風險與家族史和既往病史有著密切的關系。其中部分模型圖如圖2所示,這對于個人在簡單分析自己的身體水平及生活習慣方面,起著重要的作用。

圖1 簡單個人水平模型變量重要性排序

(2)簡單臨床模型

在簡單個人水平模型下,加入簡單臨床數據(包括空腹血糖、舒張壓、收縮壓等),也生成10個相關聯的模型,模型最高預測精度達到98.11%,最低為79.76%,相比簡單個人水平模型預測精度大大提高,應用Boosting技術后,預測精度達到了99.2%。其中變量重要性排序如圖3,表明空腹血糖與糖尿病患病的關系尤為密切,并指出空腹血糖的臨界值為6.09mmol/L或6.08mmol/L,與醫學知識大體一致,這對分析簡單臨床數據具有指導意義。其中部分模型圖如圖4所示。

圖2 部分簡單個人水平模型圖

圖3 簡單臨床模型變量重要性排序

圖4 部分簡單臨床模型圖

(3)復雜臨床模型

在簡單臨床模型下,加入檢驗數據(包括甘油三酯、低密度脂蛋白、總膽固醇),形成復雜臨床模型,模型最高預測精度達到98.79%,最低為91.36%,相比簡單臨床模型預測精度有所提高,說明數據越多,變量越多,預測越準確。其中變量重要性排序如圖5所示,綜合三個模型發現,空腹血糖、糖尿病家族史、心腦血管病史、年齡這四個變量對是否患有糖尿病有重要作用。其中部分模型圖如圖6所示。

圖5 復雜臨床模型變量重要性排序

2.模型評估

(1)采用Analysis節點進行模型準確性評價,決策樹對各個模型的訓練集和測試集的預測結果準確率如表1所示。

由表1可知,三個模型的預測準確率都較高,而且訓練集和測試集的結果相近,說明不存在訓練集過度擬合的現象。通過比較發現,考慮的輸入變量越多,模型預測精度越高,但是從測試集的準確率來看,簡單臨床模型和復雜臨床模型基本一致,說明通過簡單臨床模型也可以發揮預測作用,方便居民隨時監測身體狀況,從而及時預防2型糖尿病的發生。

圖6 部分復雜臨床模型圖

表1 三種模型的預測結果

(2)采用Kappa檢驗對三個決策樹模型進行一致性分析,其預測分類與實際分類的吻合情況如表2所示。

表2 三種模型的決策樹分類結果

通過比較三種模型的預測分類和實際分類,簡單個人水平模型的Kappa值為0.621,小于0.75,說明該模型的一致性一般。簡單臨床模型的Kappa值為0.964,復雜臨床模型的Kappa值為0.982,均高于0.75,說明兩種模型的一致性較高,預測結果與實際分類基本吻合,模型預測分類效果較佳。

(3)在預測模型的評價過程中,靈敏度、特異度和約登指數是其中重要的指標,指標越高預示著該模型具有較強的預測判別性能[10]。本研究通過比較三種模型總的預測分類和實際分類,計算三種模型的靈敏度、特異度、錯判率和約登指數(見表3),比較發現簡單個人水平模型特異度遠遠高于靈敏度,說明簡單個人水平模型預測非患者的能力遠遠高于預測患者的能力。綜合比較發現,復雜臨床模型的靈敏度和約登指數均較高,錯判率最低,說明復雜臨床模型的預測性能最好。但在簡單臨床條件下,三種指標已經達到了很高的水平,說明在此條件下進行預測和篩查就能達到很好的效果。

表3 三種模型的靈敏度、特異度、錯判率、約登指數的比較

討 論

糖尿病發病原因一直是世界糖尿病研究的重要課題。目前,國內在糖尿病患病風險預測中使用較多的方法有神經網絡預測法、Markov預測法、C 4.5決策樹算法等[10-12]。與國內預測方法不同的是,本文將決策樹C 5.0算法應用到2型糖尿病的發病規律研究中,根據不同的預測條件,得出多個決策樹模型。其中與神經網絡預測法[10]相比,本文利用決策樹算法建立的模型簡單明了,可以更好地提取發病規則;與Markov預測法[11]相比,Markov預測能夠有效地預測2型糖尿病未來幾年內的發病概率,而本文是根據目前的身體條件,及時準確地預測本人的發病情況,更具有實效性;與C 4.5決策樹算法[12]相比,本研究加入Boosting技術,提高了模型準確率和分類精度,并指導居民在不同生理水平條件下,做出相應的風險評估,從而為個人自我保健提供準確的指導,同時也為醫生的臨床診斷提供一定的幫助。從模型中可以明顯看出空腹血糖值、糖尿病家族史、心腦血管既往病史、年齡等因素在2型糖尿病發病規律中的重要性。此外,對模型的評估表明,預測的準確性、可靠性以及一致性都比較高,說明該方法的應用為探討不同條件下2型糖尿病的發病規律提供了一種新的手段。

由于在Clementine 12.0中沒有編程界面,因此,要獲得理想的預測模型,需要對相關窗口中的參數反復進行調整[13]。此外訓練集和測試集的大小,缺失值和不合理數據的預處理方法,數據庫的質量以及模型參數的調整,對決策樹模型的穩定性和預測效果都有一定的影響。但是由于時間和人力資源有限,所采集的數據無法涵蓋研究所需要的所有信息,使得收集和處理過程經常脫節[14],所采集的醫學數據也不是很完整,因此所建立的預測模型還有待進一步完善。本文貢獻在于為不同情況下2型糖尿病患者患病風險提供一種風險預測工具,同時提取出不同情況下影響2型糖尿病發病的重要因素。相信隨著數據挖掘技術的不斷改進,數據庫數據的不斷擴大,應用C 5.0算法對糖尿病患病風險預測的準確性將不斷增加,從而對糖尿病高危人群的預防和醫生臨床診斷起到一定的指導和參考作用。

[1]王海鵬.我國診斷糖尿病疾病經濟負擔趨勢預測研究.山東大學,2013.

[2]吳雪霽,潘冰瑩,陳雄飛,等.廣州市家系高血壓與2型糖尿病和血脂異常關系的研究.中國熱帶醫學,2014,14(11):1343-1346.

[3]胡靜,楊亞明,陳凱,等.宜興市居民2型糖尿病危險因素分析.江蘇預防醫學,2012,23(5):11-12.

[4]劉茂玲,劉禮錦,鄒宇華.2型糖尿病危險因素病例對照研究.華南預防醫學,2008,34(4):49-52.

[5]鄒宇華,張弛,張冬梅,等.2型糖尿病危險因素的非條件Logistic回歸分析.中國慢性病預防與控制,2004,12(1):12-14.

[6]薛薇,陳歡歌.Clementine數據挖掘方法及應用.電子工業出版社,2010.

[7]羅森林,成華,張鐵梅,等.多維2型糖尿病實測數據的預處理技術.計算機工程,2004,30(17):178-181.

[8]元昌安.數據挖掘原理與SPSS Clementine應用寶典.電子工業出版社,2009.

[9]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預測中的應用.中國衛生統計,2013,30(3):422-423.

[10]郭奕瑞,李玉倩,王高帥,等.人工神經網絡模型在2型糖尿病患病風險預測中的應用.鄭州大學學報:醫學版,2014(2):180-183.

[11]羅森林,郭偉東,張笈,等.基于Markov的Ⅱ型糖尿病預測技術研究.北京理工大學學報,2011,31(12):1414-1418.

[12]羅森林,成華,顧毓清,等.C4.5算法在2型糖尿病分類規則建立中的應用.計算機應用研究,2004,21(7):174-176.

[13]于長春.決策樹模型在2型糖尿病患者腦梗死風險預測中的應用.中國衛生統計,2011,28(6):683-684.

[14]張銘.數據挖掘技術及在中醫藥領域中的應用.全國商情·經濟理論研究,2009(18):136-138.

(責任編輯:劉 壯)

2015年河北省研究生創新資助項目(00302-6370027);秦皇島市科技支撐計劃項目(201601B044)

1.河北省秦皇島市燕山大學經濟管理學院(066004)

2.河北省秦皇島市中醫醫院

3.東華軟件股份有限公司

△通信作者:侯玉梅,E-mail:hym_1220@163.com

猜你喜歡
分類糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 午夜毛片免费观看视频 | 欧美精品v欧洲精品| 色婷婷视频在线| 欧美日韩精品在线播放| 日韩精品少妇无码受不了| 日韩欧美中文| 国产真实二区一区在线亚洲| 精品无码一区二区三区在线视频| 人妻一区二区三区无码精品一区| 精品国产成人av免费| AV无码无在线观看免费| 日韩av资源在线| 19国产精品麻豆免费观看| 欧美精品1区2区| 伊人AV天堂| 中文字幕资源站| 韩日无码在线不卡| 亚洲AV成人一区二区三区AV| 在线观看精品自拍视频| 9966国产精品视频| 国产门事件在线| 好吊日免费视频| 成人免费一区二区三区| 国产精品三级av及在线观看| 日韩麻豆小视频| 伊在人亚洲香蕉精品播放| 日韩无码视频播放| 波多野结衣在线se| 欧美色视频在线| 尤物在线观看乱码| 国产尤物在线播放| 欧洲日本亚洲中文字幕| 亚洲人成成无码网WWW| 国产精品视频观看裸模 | 亚洲综合亚洲国产尤物| 国产成人a在线观看视频| 99精品视频九九精品| 亚洲无码视频图片| 婷婷六月在线| 国产在线视频福利资源站| 欧美国产日韩在线播放| 人妻精品久久无码区| 亚洲欧美另类久久久精品播放的| 专干老肥熟女视频网站| AV网站中文| 欧美日韩高清在线| 欧美国产三级| 一级毛片免费不卡在线| 4虎影视国产在线观看精品| 欧美人在线一区二区三区| 国产aⅴ无码专区亚洲av综合网 | 国产另类视频| 日韩黄色精品| 久久久久久久久亚洲精品| 欧美区日韩区| 欧美成人午夜在线全部免费| 综合久久久久久久综合网| 成人国产精品网站在线看| 国产精品女主播| 国产一区二区视频在线| 国产情精品嫩草影院88av| 日韩少妇激情一区二区| 一本色道久久88| 玖玖精品视频在线观看| 国产精品尤物铁牛tv| 日本人妻丰满熟妇区| 狠狠色狠狠综合久久| 白浆免费视频国产精品视频| 91美女视频在线| 久久婷婷色综合老司机| 国产日韩欧美在线视频免费观看| 亚洲欧洲天堂色AV| 91精品情国产情侣高潮对白蜜| 亚洲最大看欧美片网站地址| 欧美第九页| 福利在线不卡| 91po国产在线精品免费观看| 91麻豆精品视频| 亚洲精品少妇熟女| 中文字幕免费视频| 国产成人夜色91| 国产男人的天堂|