999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習模型的糖尿病患病風險預測研究

2022-04-24 03:20:52王琦琪戴家佳崔熊衛
軟件導刊 2022年4期
關鍵詞:分類糖尿病模型

王琦琪,戴家佳,崔熊衛

(1.貴州大學數學與統計學院,貴州貴陽 550025;2.重慶醫科大學附屬第二醫院,重慶 400010)

0 引言

據國際糖尿病聯合會2019年報告顯示,全球糖尿病患者數約為4.63億,中國患病人數高達1.16億,居世界第一。近年來,隨著生活水平的提高,我國糖尿病患者數量不斷增加,其防治已成為我國重要的公共衛生問題。糖尿病是繼心腦血管疾病、惡性腫瘤之后第三大威脅人類健康的慢性病,糖尿病患者可能會出現嚴重并發癥,如腦血管意外、視網膜脫落、腎臟損傷等,不僅給患者的生活帶來嚴重影響,還給社會帶來了沉重的經濟負擔。對于大多數糖尿病患者,如果及早發現并開始治療,并發癥將很容易控制,甚至可以避免發生。因此,進行早期糖尿病風險預測,對于降低糖尿病及其并發癥的發病率、節約國家醫療資源具有重要意義。

1 相關研究

機器學習是重要的信息挖掘技術,目前已有很多國內外學者采用機器學習方法預測糖尿病患病風險。例如,Joshi等采用支持向量機(Support Vector Machine,SVM)、logistic回歸、神經網絡3種機器學習方法預測患者糖尿病患病風險,最后發現SVM的預測效果最好;Singh等運用樸素貝葉斯、隨機森林(Random Forest,RF)和基于函數的多層感知器算法進行糖尿病患病風險建模,結果顯示RF的預測準確率最高;Gill等將遺傳算法和RF用于糖尿病的有效診斷和預測;Bassam等運用SVM預測2型糖尿病的患病風險;陳思含等結合多因素Logistic回歸分析和具有集成學習框架的XGBoost算法,構建了2型糖尿病并發癥預測模型;郭奕瑞等對社區居民進行流行病學調查,分別應用神經網絡和Logistic回歸建立2型糖尿病預測模型,應用受試者工作特征曲線評價預測模型的檢驗效能,結果顯示神經網絡模型較Logistic回歸模型具有更好的預測效能;陳真誠等為實現糖尿病的早期篩查,利用鄰近算法和神經網絡兩種方法進行分類,發現神經網絡,能對糖尿病進行更好的分類和識別,起到早期篩查的作用。

通過梳理現有文獻發現,較少學者采用集成學習模型對糖尿病進行分類預測。集成學習算法不是一種單獨的機器學習算法,而是通過結合多個機器學習器完成學習任務,可以說是集百家之所長,具有較高的準確率。因此,本文以糖尿病患病風險預測作為分析視角,分別采用代表性集成學習算法RF、GBDT(Gradient Boosting Decision Tree)和XGBoost,以及已有文獻研究證實分類效果較好的單一分類器模型SVM和BP(Back Propagation)神經網絡建立5種分類預測模型,通過多種性能評價指標探討預測糖尿病患病風險的最佳分類模型。

2 算法原理

2.1 SVM

SVM是一種有監督學習算法,可用于解決數據挖掘或模式識別領域中的數據分類問題。其基本思想是建立一個最優決策超平面,使得該平面兩側距平面最近的兩類樣本之間的距離最大化,從而使得該模型用于分類問題時能具有良好的泛化能力。SVM適用于樣本較小、非線性及高維空間問題,可與其他機器學習算法聯合使用。SVM通過引入拉格朗日常數解決凸二次優化問題,表示為:

式中,||

ω

||為正常超平面的范數,

b

為常數,

λ

為拉格朗日乘數,

x

i

=1,2,…

n

)為線性可分的向量,

y

為輸出類。

2.2 BP神經網絡

人工神經網絡是一種抽象的非線性信息處理系統,模擬大腦神經網絡處理、記憶信息的方式。BP神經網絡作為最基礎的神經網絡,由1個輸入層、任意個隱含層和1個輸出層構成,是一種通過誤差反向傳播算法訓練的前饋性網絡。BP神經網絡的基本思想是整個學習過程由信號的正向傳播和誤差的反向傳播兩部分組成,當輸出值與期望值之間的誤差達到截止誤差后,訓練即停止;若輸出值和期望值不一致,則進入誤差的反向傳播階段。誤差反向傳播即將誤差以某種形式分攤給各層的所有單元,從而獲得誤差信號作為修正各單元權值的依據。

2.3 RF

RF模型是在CART(Classification and Regression Tree)決策樹模型的基礎上衍生而來,結合了Bagging集成學習方法和隨機子空間理論。作為一種監督學習算法,RF能克服單一分類預測模型的一些弊端,獲得更高的分類預測準確率。其是通過集成學習將多棵決策樹集成在一起的一種機器學習算法,比單個決策樹性能更優。RF在樣本和特征選取上具有隨機性,這兩個隨機性的引入使其不容易陷入過擬合,具有很好的抗噪能力。

2.4 GBDT

GBDT是由Freidman提出的改進Boosting算法,其以CART決策樹作為基分類器,將一系列CART基分類器串聯起來得到集成模型。GBDT的基本思想是借鑒梯度下降法,根據當前模型損失函數的負梯度信息不斷訓練新加入的弱分類器,然后將訓練好的弱分類器以累加的形式整合到現有模型中。GBDT用于二分類的損失函數表示為:

2.5 XGBoost

XGBoost算法是一個優化的分布式梯度增強庫,其以CART決策樹作為基分類器,采用新增樹形成的新函數擬合之前預測的殘差,然后累加所有樹的預測結果,得到最終預測結果。XGBoost的目標函數為:

式中,

n

為訓練樣本數量,

k

為決策樹數量,

f

為基學習器。損失函數

l

用于衡量真實分數與預測分數的差距。正則化項Ω包含兩個部分,其中

T

表示葉子節點數量,

W

表示葉子節點分數;

γ

λ

表示懲罰力度,可控制葉子節點數量并限制節點分數,防止模型過分貼合訓練數據而損失預測效果導致過擬合。

3 數據來源與處理方法

3.1 資料來源

選取UCI機器學習庫中(https://archive.ics.uci.edu)的糖尿病風險預測數據集,共包含520個樣本,其中不患病人數200例,患病人數320例。如表1所示,Class用

Y

表示,解釋變量依次用

X

i

=1,2,…,16)表示。

Table1 Variable assignment表1 變量賦值

3.2 數據處理方法

將520個樣本按照7∶3的比例分為訓練集和測試集兩部分。將患病賦值為1,未患病賦值為0,組間比較采用卡方檢驗。選取對糖尿病患病有顯著影響的變量作為自變量輸入建立預測模型,采用有結果標簽的訓練集對模型進行訓練,然后對其各項參數和評價指標進行優化,利用網格搜索確定各模型最優參數,再采用測試數據對預測模型進行分類準確性的評價比較。采用Python對其進行數據分析。

4 實驗結果與分析

4.1 數據資料分析

對16個變量進行分組描述,并進行差異性檢驗。如表2所示,Itching(

X

),delayed healing(

X

)兩個變量對是否患糖尿病無顯著性影響,因此在構建分類模型時,采用余下14個變量作為自變量輸入。

Table2 Single factor analysis of diabetespre valence表2 糖尿病患病情況單因素分析

4.2 模型評價標準

在二分類預測模型評估指標中,混淆矩陣可用于判斷分類器分類效能優劣,具體如表3所示。采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分數和AUC 5個指標評價各模型性能。

Table3 Confusion matrix表3 混淆矩陣

(1)準確率(Accuracy,ACC)。該指標為預測結果和真實結果同為正例和同為反例占所有樣本的比例,反映分類器對整個樣本的判定能力,表示為:

(2)精確率(Precision)。該指標為預測正確的正例數占預測為正例總量的比例,表示為:

(3)召回率(Recall)。該指標為預測正確的正例數占真正正例數的比例,表示為:

(4)F1分數。該指標表示為精確率與召回率的調和平均值,表示為:

(5)AUC。該指標表示ROC曲線下的面積,取值在0.5~1之間;ROC曲線橫軸表示負例分錯的概率,縱軸表示正例分對的概率。AUC可以直觀地評價分類器性能優劣,其值越大越好。

4.3 模型預測性能評價

基于SVM、BP神經網絡、RF、GBDT、XGBoost算法建立預測模型,5種分類器的預測結果見表4,性能比較結果見表5。可以看出,XGBoost的區分度最好,AUC達到99.41%。從準確率、精確率、召回率和F1結果可以看出,XGBoost的預測準確率最高,達到97.44%,其精確率和召回率在5個模型中最佳。單個分類器SVM的預測準確率最差。在集成學習模型中,XGBoost的預測結果略優于GBDT,明顯優于RF。總體而言,集成學習模型的預測性能比單個分類器有所提升,能夠更為精確地進行糖尿病風險預測。

預測性能最好的XGBoost算法給出的變量重要性如圖1所示。影響權重排名前十的因素依次為煩渴、多尿癥、脫發、感到無力疲憊、體重突然減輕等。

Table 4 Prediction results of the five classifier test sets表4 5個分類器測試集預測結果

Table 5 Comparison of prediction performance of five classifiers表5 5個分類器預測性能比較

5 結語

Fig.1 Variable importance ranking圖1 變量重要性排序

本研究使用UCI數據庫,基于集成學習算法RF、GBDT和XGBoost建立糖尿病患病風險預測模型。就預測準確率而言,XGBoost(Accuracy=97.44%)略優于GBDT(Accuracy=96.79%),明顯優于RF(Accuracy=94.23%)。與單一分類器SVM(Accuracy=93.59%)和BP神經網絡(Accuracy=94.87%)相比,XGBoost的預測效果最好,而RF和BP神經網絡的預測準確率僅相差0.64%。針對其他評價指標,XGBoost算法的精確率、召回率、F1值、AUC值均最高,分別達到99.02%、97.12%、98.06%、99.41%。集成學習算法是目前對結構化數據擬合效果最好的算法之一,本文研究結果也證實了這一點。

研究表明,糖尿病患者血糖升高導致血管內滲透壓升高,使大腦產生口干欲飲的感覺。患者大量飲水后導致全身血流量增加,腎臟灌注壓升高,從而導致尿量增加。此外,糖尿病患者存在胰島素分泌不足或胰島素抵抗等現象,機體細胞不能正常利用血糖供能,使患者產生饑餓感,促使其不斷進食保證能量供應,且機體會通過分解脂肪、蛋白質等供能,因此患者體重減輕。本文建立的XGBoost模型分析影響因素權重排名前十的因素為煩渴、多尿癥、脫發、無力、體重減輕等,與醫學研究結論相符。

綜上所述,本文通過集成學習算法構建的早期糖尿病患病風險預測模型可較為精確地分類出潛在患病人群,但仍有優化空間。未來可采用更大規模的數據集以及更準確的特征分類算法進行糖尿病患病風險預測,以幫助臨床醫生識別早期糖尿病患者,減少糖尿病并發癥發生,提高患者生活質量,減輕社會負擔。

猜你喜歡
分類糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 欧美日本在线一区二区三区| 99精品福利视频| 久久久国产精品免费视频| 为你提供最新久久精品久久综合| 在线视频一区二区三区不卡| 欧美国产精品拍自| 污污网站在线观看| 夜夜操国产| 亚洲欧美极品| 日韩精品免费在线视频| 国产真实乱子伦精品视手机观看| 国产XXXX做受性欧美88| 狂欢视频在线观看不卡| 国产成人久久综合一区| 欧美日本一区二区三区免费| 亚洲人成人无码www| 97精品伊人久久大香线蕉| 成人国产精品网站在线看| 亚洲高清国产拍精品26u| 亚洲AV无码乱码在线观看代蜜桃| 9丨情侣偷在线精品国产| 热re99久久精品国99热| 97狠狠操| 亚洲精品第一页不卡| 亚洲精品在线观看91| 国产一二视频| 国产91精选在线观看| 综合天天色| 国产玖玖视频| 欧美中文字幕第一页线路一| 欧美精品1区2区| 中文字幕一区二区视频| 久久久久免费看成人影片| 国产成人AV男人的天堂| 伊人AV天堂| 日韩AV手机在线观看蜜芽| 手机成人午夜在线视频| 亚洲美女视频一区| 国产日韩欧美精品区性色| 青青操视频免费观看| 国产成人乱码一区二区三区在线| 亚洲黄色网站视频| 国产在线一区视频| 日本在线免费网站| 91青青草视频在线观看的| 成人午夜网址| 国产精品19p| 妇女自拍偷自拍亚洲精品| 国产九九精品视频| 四虎影院国产| 不卡的在线视频免费观看| 久久亚洲中文字幕精品一区| 拍国产真实乱人偷精品| 国产区免费精品视频| 亚洲一级毛片免费看| 色综合中文字幕| 亚洲综合色吧| 久久久久久久久亚洲精品| 亚洲最黄视频| 最新痴汉在线无码AV| 国产人人乐人人爱| 亚洲精品视频网| 欧美日韩国产精品va| 亚洲日韩高清在线亚洲专区| 精品无码一区二区三区在线视频| 欧洲日本亚洲中文字幕| 亚洲乱码视频| 国产精品黄色片| 亚洲国产中文欧美在线人成大黄瓜 | 久久久久夜色精品波多野结衣| 久久semm亚洲国产| 日韩第八页| 成年av福利永久免费观看| 国产波多野结衣中文在线播放| 国产精品真实对白精彩久久| 69av免费视频| JIZZ亚洲国产| 国产一区亚洲一区| 97视频精品全国免费观看| 国产网站一区二区三区| 青青青国产视频| 日韩欧美国产区|