999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的冠心病風險預測模型研究

2022-07-15 09:52:36蘇文星張振一鄭琰莉宋元濤
智能計算機與應用 2022年7期
關鍵詞:冠心病特征模型

蘇文星,張振一,鄭琰莉,唐 琳,宋元濤

(1中國科學院大學 工程與科學學院,北京 100049;2中國科學院大學 應急管理科學與工程學院,北京 100049;3天津泰達普華醫(yī)院,天津 300457;4西安理工大學 經(jīng)濟與管理學院,西安 710045)

0 引 言

冠狀動脈粥樣硬化性心臟病簡稱“冠心病”(Coronary Heart Disease,CHD),是指冠狀動脈血管發(fā)生動脈粥樣硬化病變而引起血管腔狹窄或阻塞,造成心肌缺血、缺氧或壞死而導致的心臟疾病。隨著老齡化進程加快以及居民不良生活方式的影響,心血管疾病的發(fā)病率逐年增高。中國患有心血管病的人數(shù)約為3.3億,其中冠心病1 139萬人,且農村地區(qū)心血管病死亡率持續(xù)高于城市水平。目前,臨床上對冠心病診斷主要依靠臨床癥狀、實驗室檢查、影像學檢查診斷等,其中冠狀動脈造影(Coronary Angiography,CAG)是診斷冠心病的“金標準”,但診斷過程繁瑣且費用較為昂貴。如能早期對冠心病給予相應的風險預測,可在降低居民患病風險和就醫(yī)成本的同時提高疾病篩查的效率,因此,找到快速又經(jīng)濟的冠心病早期預測方法具有重要意義。

近年來,機器學習由于其強大的數(shù)據(jù)分類與預測能力,在疾病預測及輔助臨床治療決策方面做出一定貢獻,集成學習算法的預測效果尤為突出,但機器學習在冠心病風險預測方面并未得到廣泛應用。此外,相關研究發(fā)現(xiàn),高血壓、高膽固醇、糖尿病以及年齡、性別、身體質量指數(shù)(BMI)、是否吸煙等都會影響患冠心病的幾率。因此,本文利用Kaggle平臺公開的CHD數(shù)據(jù)集,基于隨機森林、XGBoost、LightGBM 3種較為成熟的集成學習(Ensemble learning)算法建立冠心病風險預測模型,利用準確率、召回率、等指標對3種模型的性能進行比較,驗證集成學習算法在冠心病風險預測方面的可行性,從而實現(xiàn)對冠心病的早期風險預測。

1 數(shù)據(jù)處理與特征工程

1.1 數(shù)據(jù)來源

本文數(shù)據(jù)源為Kaggle官方大數(shù)據(jù)平臺提供的針對馬薩諸塞州弗雷明翰鎮(zhèn)居民心血管研究公開數(shù)據(jù),其分類目標是預測患者10年間是否罹患冠心病,如果有計作1(陽性),否則計作0(陰性)。數(shù)據(jù)集共有4 283條記錄,涵蓋了人口統(tǒng)計學、行為學和醫(yī)學風險3個維度的15個風險特征指標。具體特征指標變量見表1。

表1 風險特征指標變量詳情與解釋Tab.1 Detail and explanation for risk characteristic index variables

1.2 數(shù)據(jù)分析與缺失值處理

采用Pandas對數(shù)據(jù)源數(shù)據(jù)對指標變量的值類型、分布以及缺失情況進行分析得出:數(shù)據(jù)不滿足正態(tài)分布(0.05),且教育程度(education)、平均每日吸煙量(cigsPerDay)、是否服用降壓藥(BPMeds)、總膽固醇水平(totChol)、身體質量指數(shù)(BMI)、血糖水平(glucose)存在數(shù)據(jù)的缺失。具體特征指標變量數(shù)據(jù)情況見表2。

表2 特征指標變量數(shù)據(jù)情況Tab.2 Data of characteristic index variables

數(shù)據(jù)的缺失會影響數(shù)據(jù)分析的質量和建模的準確性,所以需要針對不同特征變量數(shù)據(jù)分析情況采取恰當方式進行數(shù)據(jù)處理。教育程度指標變量受患者實際情況影響,數(shù)據(jù)不可得且缺失數(shù)據(jù)的比例在5%以下,可以使用刪除法對缺失值進行處理;平均每日吸煙量的缺失值,分析發(fā)現(xiàn)對應記錄均為吸煙者,因此取所有吸煙者且每日吸煙量非空數(shù)據(jù)的平均數(shù)(18.0)對缺失值進行插值;對于是否服用降壓藥指標變量缺失值,參考美國心臟病協(xié)會(American Heart Association,AHA)高血壓指南最新診斷標準,在未使用降壓藥物的情況下,收縮壓(systolic blood pressure,SBP)≥130 mmHg和(或)舒張壓(Diastolic Blood Pressure,DBP)≥80 mmHg的人群診斷為高血壓患者,對收縮壓大于130 mmHg或者舒張壓大于80 mmHg的數(shù)據(jù)以1進行插值,否則以0進行插值;對于總膽固醇水平、身體質量指數(shù)、心率和血糖水平指標變量的缺失數(shù)據(jù),其數(shù)據(jù)比例均占總數(shù)據(jù)10%以下,分別求各指標變量數(shù)據(jù)平均值后對空缺數(shù)據(jù)進行填補。本文基于Python的pandas工具庫對上述數(shù)據(jù)進行處理,最終得到4 133條樣本用于模型構建,其中陰性患者3 505例(84.8%),陽性患者628例(15.2%)。部分樣本數(shù)據(jù)見表3。

表3 部分樣本數(shù)據(jù)Tab.3 Part of sample data

1.3 特征分析與選擇

特征選擇旨在通過分析特征間的關系篩選出對模型貢獻度較高的特征變量,以提高模型的性能。鑒于數(shù)據(jù)不滿足正態(tài)分布,本文首先基于Spearman秩相關系數(shù)對特征指標變量相關性進行分析,具體相關情況如圖1所示。其中年齡(age)、收縮壓(sysBP)、是否患有高血壓(prevalentHyp)、舒張壓(diaBP)、血糖水平(glucose)為重要特征,是否吸煙-平均每日吸煙(currentsmoker-cigsperday)的相關系數(shù)為0.93,舒張壓-收縮壓(diaBP-sysBP)的相關系數(shù)為0.78,高血壓史-收縮壓(prevalentHypsysbp)的相關系數(shù)為0.70,高血壓史-舒張壓(prevalentHyp-diaBP)的相關系數(shù)為0.62,值均小于0.05,特征指標變量間存在較高相關性。分析可得特征指標變量與目標值相關性均小于0.6且特征指標數(shù)量較少,故保留所有特征指標變量進行模型預測。

圖1 特征指標變量相關性Fig.1 Correlation between characteristic index variables

一般來說,不平衡數(shù)據(jù)集會削弱學習算法預測準確性,本文應用的冠心病數(shù)據(jù)集中陽性與陰性數(shù)據(jù)比值約為1∶6,數(shù)據(jù)類別不平衡明顯。人工少數(shù)類過采樣法(Synthetic Minority Over-Sampling Technique,SMOTE)在解決數(shù)據(jù)類別不平衡問題上具有良好的效果。本文將采用該方法隨機生成新實例以平衡數(shù)據(jù)。

2 風險預測模型構建

2.1 模型介紹

集成學習通過構建并結合多個學習器來完成學習任務,通過多分類器的預測結果來改善基本學習器的泛化能力和魯棒性。本文選取隨機森林、XGBoost、LightGBM 3種較為成熟的集成學習算法建立冠心病風險預測模型。

(1)隨機森林:隨機森林具有易于實現(xiàn)、抗噪聲能力優(yōu)、數(shù)據(jù)集適應能力強且不易陷入過擬合等特點。隨機森林(Random Forest,RF)利用集成學習的思想,包含多個決策樹的分類器,對于一個輸入樣本,不同樹會有不同的分類結果,隨機森林通過隨機的方式建立多棵決策樹并集成了所有的分類投票結果,選擇投票數(shù)最多的類別作為最終的輸出。

(2)XGBoost:XGBoost(eXtreme Gradient Boosting)是一種改進的梯度提升算法,具有計算復雜度低、靈活性強、運行速度快,精準度高的優(yōu)點?;陬A排序方法并通過對誤差函數(shù)進行二階泰勒展開,加入正則化項來優(yōu)化目標函數(shù),將多個弱分類器進行融合,從而形成強分類器,同時采用收縮(Shinkage)、列特征抽樣(Column Subsampling)等方法來防止過擬合。

(3)LightGBM:LightGBM(Light Gradient Boosting Machine)是基于決策樹算法的分布式梯度提升框架,采用Histogram算法,使用帶有深度限制的按葉子生長(leaf-wise)策略,支持高效率的并行訓練,并且具有更快的訓練速度、更低的內存消耗、更好的準確率。支持分布式可以快速處理海量數(shù)據(jù),訓練效果好、不易過擬合。3種集成學習算法在模型設計上存在明顯差異,其核心的不同點見表4。

表4 3種集成學習算法對比表Tab.4 Comparison of three ensemble learning algorithms

2.2 模型參數(shù)選擇

為了確保模型有較好的效果,需要對模型調參,手動調參十分耗時且依賴于個人經(jīng)驗,網(wǎng)格和隨機搜索調參需要很長的運行時間。貝葉斯優(yōu)化法目前廣泛應用于解決機器學習中的超參數(shù)搜索問題,同時該方法較隨機搜索具有省時、性能優(yōu)的特點。因此,本文基于Python語言使用BayesianOptimization庫對3種模型使用貝葉斯優(yōu)化法進行超參數(shù)調優(yōu)。其中n_estimator代表建立子樹的數(shù)量,一般來說模型的性能與子樹的數(shù)量成正比,但是數(shù)值過大可能會導致模型過擬合,因此隨機森林、XGboost、LightGBM3種集成學習模型基于貝葉斯優(yōu)化的優(yōu)化結果分別為383/398/574,其他參數(shù)的詳細設置情況見表5~表7。

表5 隨機森林算法模型參數(shù)設置情況Tab.5 Parameter settings of random forest model

表7 LightGBM算法模型參數(shù)設置情況Tab.7 Parameter settings of LightGBM model

2.3 模型預測結果

確定好模型參數(shù)后,本文基于Python語言并結合sklearn機器學習庫,首先將數(shù)據(jù)集按照7∶3的比例分割為訓練數(shù)據(jù)集和測試數(shù)據(jù)集,在訓練數(shù)據(jù)集上完成3個模型的訓練,并使用訓練好的模型在測試數(shù)據(jù)集上測試,得到相應的預測結果(混淆矩陣),見表8。

表6 XGboost算法模型參數(shù)設置情況Tab.6 Parameter settings of XGboost model

表8 3種模型的預測結果(混淆矩陣)Tab.8 Prediction results of three models(confusion matrix)

3 模型性能評價與比較

3.1 模型性能評價指標

本文主要以準確率(,)、精確率(,)、召回率()、值和值評估算法的適用性及效果,同時使用10折交叉驗證(10)的方式驗證模型的性能。在解釋上述評價指標之前需要對混淆矩陣進行釋義,首先把預測值與實際值兩兩匹配,然后顯示預測結果為陽性/陰性(Positive/Negative),再根據(jù)實際與預測結果對比,得出判斷結果為正確/錯誤(True/False),最終得到混淆矩陣見表9。

表9 混淆矩陣Tab.9 Confusion matrix

準確率是指預測模型預測正確的結果占總樣本的百分比,計算公式(1):

精準率是指在所有被預測為陽性的樣本中實際值也為陽性的樣本所占百分比,計算公式(2):

召回率是指在所有實際值為陽性的樣本中被預測為陽性的樣本所占百分比,計算公式(3):

值是為了更好的進行整體評價,在和的基礎上,使用兩者的加權調和平均進行模型性能效果的評價,計算公式(4):

除此之外,本文還引入(Receiver Operating Characteristic Curve)曲線對模型進行評估,是以假陽性率(False Positive Rate)、真陽性率(True Positive Rate)為軸的曲線,曲線下的面積(Area Under Curve,)可以直觀的評價分類器的好壞,范圍在0~1之間,值越大代表模型性能越好。

3.2 模型比較結果

利用Python語言metrics庫得出3種預測模型的性能度量結果,見表10,可以看出:3種算法的準確率均在90%左右且數(shù)值相差不大,預測效果均較為良好;相較于其他模型,LightGBM的精準度最高,為93.94%;由表10和圖2可以看出,3種算法的值均在0.9以上且3種算法10折交叉驗證的準確率均在85%左右,表明其準確性、穩(wěn)定性均較好。從值指標上觀察,LightGBM模型預測效果略優(yōu)于其他2個模型。綜合上述指標可以看出,在本次選取的3種模型的訓練效果均較好,LightGBM性能最為優(yōu)秀。本文通過與相關研究成果對比發(fā)現(xiàn),本研究選取的3種模型在準確率與值方面較其有明顯提升。

表10 3種模型性能度量指標對比Tab.10 Comparison of performance metrics of three models

圖2 3種模型的ROC曲線Fig.2 ROC curves of three models

4 結束語

冠心病是最常見的心血管疾病之一,而現(xiàn)階段的診療成本較高,如能早期對冠心病給予相應的風險預測,提高疾病篩查的效率,不僅可降低居民的患病風險,還可降低患者就醫(yī)成本,因此選擇科學有效的方法進行早期冠心病的風險預測是非常有意義的。本文基于Kaggle上公開的冠心病數(shù)據(jù)集,首先對數(shù)據(jù)進行分析并對缺失數(shù)據(jù)按照不同情況處理,并利用SMOTE算法對數(shù)據(jù)進行平衡處理;采用隨機森林、XGboost、LightGBM 3種集成學習算法模型構建了冠心病的風險預測模型,并使用貝葉斯優(yōu)化算法對模型進行了調優(yōu);最后,從準確率、召回率、等指標對3種模型的性能進行比較,發(fā)現(xiàn)3種模型均具有良好的性能,驗證集成學習算法在冠心病風險預測方面的可行性,從而實現(xiàn)冠心病早期風險預測。此外,基于機器學習建立的風險預測模型不僅可以對冠心病進行風險預測,還可以將其推廣到預測其他類型的疾病,以提高疾病的早期篩查效率。

本文也存在一定的局限性。首先,本文采用的數(shù)據(jù)來源于開放平臺,在數(shù)據(jù)數(shù)量、質量以及適用性上存在一定的局限性,未來考慮使用醫(yī)院的真實大數(shù)據(jù)進行模型構建與預測;其次,本文使用的算法模型均為集成學習范疇,以后可考慮選取不同類型的機器學習算法進行改進對比,構建更加優(yōu)秀的風險預測模型。

猜你喜歡
冠心病特征模型
一半模型
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
茶、汁、飲治療冠心病
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品女主播| 亚洲AV一二三区无码AV蜜桃| 久久久久人妻一区精品色奶水 | 午夜限制老子影院888| 成人亚洲天堂| 男女精品视频| 日韩小视频在线播放| 国产成+人+综合+亚洲欧美| 亚洲动漫h| 久久免费视频播放| 国产男人的天堂| 波多野结衣无码AV在线| 91亚瑟视频| 亚洲综合精品香蕉久久网| 五月婷婷综合网| www.亚洲一区| 亚洲中文字幕在线观看| 国产99视频免费精品是看6| 99性视频| 日本高清视频在线www色| 亚洲一区二区视频在线观看| 欧美亚洲欧美| 成人精品亚洲| 亚洲欧州色色免费AV| 欧美精品一区在线看| 亚洲最黄视频| 亚洲精品麻豆| 亚洲一区无码在线| 日本道综合一本久久久88| 久久亚洲精少妇毛片午夜无码| 国产拍揄自揄精品视频网站| 国产欧美日本在线观看| 99精品免费在线| 青青草原国产一区二区| 亚洲国产成熟视频在线多多| 色九九视频| 91无码人妻精品一区二区蜜桃 | 亚洲中文字幕在线一区播放| 亚洲高清资源| 日韩AV无码一区| 日韩无码白| 亚洲女同一区二区| 成人福利在线免费观看| 国产乱子精品一区二区在线观看| 国产精品部在线观看| 99在线观看精品视频| 国产一在线观看| 欧美激情视频二区| 精品久久久久久中文字幕女| 亚洲人免费视频| 国产jizzjizz视频| 国产欧美精品午夜在线播放| 久久精品波多野结衣| 在线人成精品免费视频| www.91中文字幕| 91日本在线观看亚洲精品| 亚洲一级毛片免费观看| 在线色国产| 久久精品人妻中文视频| 亚洲天堂免费在线视频| 国产爽歪歪免费视频在线观看| 视频一本大道香蕉久在线播放 | 日韩精品一区二区深田咏美| 911亚洲精品| 亚洲黄色成人| 美女毛片在线| 欧美日韩中文国产va另类| 亚洲av成人无码网站在线观看| 国产h视频免费观看| 国产SUV精品一区二区6| 香蕉eeww99国产精选播放| 最新日本中文字幕| 精品无码一区二区三区电影| 国产亚洲精品91| 亚洲无码A视频在线| 九九九国产| 久久国产精品夜色| 久久男人视频| 国产丰满大乳无码免费播放| 91麻豆精品国产高清在线| 国产特一级毛片| 91偷拍一区|