999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM 算法的冠心病分類預測案例研究

2023-02-28 02:30:32譚靜儀蔡燦林愛華董雪
醫(yī)學信息 2023年1期
關鍵詞:分類冠心病特征

譚靜儀,蔡燦,林愛華,董雪

(廣州新華學院健康學院,廣東 廣州 510520)

《中國心血管健康與疾病報告2020》預測我國心血管疾病現(xiàn)患人數(shù)3.30億,其中冠心病1139萬[1]。近年來心血管疾病占我國居民疾病死亡構成的40%以上,且其患病率及死亡率仍處于上升階段[1-3]。因此,心血管疾病的預防也被視為一項重要的工作。而通過數(shù)據(jù)挖掘方式來分析及預測不同個體特征發(fā)生心血管疾病的風險,對預防心血管疾病起到至關重要的作用[4-6]。在數(shù)據(jù)挖掘方法中,支持向量機算法(support vector machine,SVM)是一種按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器[7]。SVM 算法的基本思想是:找到集合邊緣上的若干數(shù)據(jù),用這些點找出一個最優(yōu)分割面(超平面),也就是能使支持向量和超平面最小距離的最大值,基本模型是定義在特征空間上的間隔最大的線性分類器[8-10]。SVM 算法是一種強大的分類和回歸方法,適用于進行模式識別、分類以及回歸分析,可用于處理文本分類、圖像檢測、人臉識別等問題[11-13],在醫(yī)學領域?qū)τ诩膊☆A測、臨床診斷、醫(yī)學影像識別、藥物開發(fā)、醫(yī)院信息系統(tǒng)等方面也有廣泛的應用[14-17]。在SVM 算法的相關研究中,張峻銘等[18]建立了預測士兵是否適合成為精英士兵的SVM分類模型,其準確率接近90%,召回率達到100%。裴修侗等[19]提出一種利用優(yōu)化的SVM 算法對糖尿病診斷進行輔助建模的方法,平均精度達到78%以上。劉寧[20]使用SVM 算法診斷哮喘準確率為82%,AUC 為0.83?;诖耍狙芯繑M建立基于SVM 算法的冠心病分類預測模型,以期為預防心血管疾病提供幫助。

1 資料與方法

1.1 數(shù)據(jù)前處理 收集來自The National Health and Nutritional Examination Survey(NHANES)網(wǎng)站的數(shù)據(jù)集,共含783 個樣本數(shù)據(jù)。本數(shù)據(jù)特征較多,為便于后續(xù)數(shù)據(jù)清洗過程中的特征提取、特征選擇等工作,經(jīng)專家咨詢,剔除多余特征。

1.2 數(shù)據(jù)可視化分析 在Python 中使用heatmap 函數(shù)繪制特征相關關系的熱力圖,利用Pandas 和Matplotlib 庫函數(shù)繪制冠心病(CAD)總體分布的條形圖、按年齡分布的條形圖和不同年齡段冠心病患病的餅圖。

1.3 使用SVM 算法構建預測模型 首先采用get_dummies()編碼方式處理非連續(xù)性分類數(shù)據(jù),將原數(shù)據(jù)中經(jīng)過獨熱編碼的列刪除,并拆分數(shù)據(jù)集和目標集合;然后按照0.75 和0.25 的比例拆分訓練集(587 例),測試集(196 例);由于數(shù)據(jù)集合的不同特征之間數(shù)據(jù)相差大,對于SVM 算法會產(chǎn)生權重影響,因此做歸一化處理數(shù)據(jù);接下來使用默認參數(shù)建立SVM 模型;參數(shù)kernel='rbf',即選擇高斯核。最后使用網(wǎng)格搜索尋找更好的模型參數(shù),使用精確率、召回率、準確率、F1-score、混淆矩陣、ROC 曲線及AUC 面積7 方面性能評價指標來評判模型預測效果。其中,混淆矩陣是按類別顯示預測結果與真實結果,包括了真陽性、真陰性、假陽性和假陰性數(shù)據(jù)頻數(shù)的矩陣;ROC 曲線是以假陽性率為橫坐標、真陽性率為縱坐標的曲線;ROC 曲線下面積大小為AUC值;精確率(precision)表示預測為正例的數(shù)據(jù)中實際為正例的比例;召回率(recall)表示實際為正例的數(shù)據(jù)中被預測為正例的比例;F1-score 是精確率和召回率的調(diào)和平均;準確度(accuracy)表示所有數(shù)據(jù)中被正確預測的比例。

2 結果

2.1 樣本數(shù)據(jù)特征描述 本數(shù)據(jù)共包含783 個樣本數(shù)據(jù),其中21 個與冠狀動脈粥樣硬化性心臟病有關的主要特征含義見表1。

表1 冠心病樣本數(shù)據(jù)

2.2 特征相關性分析 特征相關關系的熱力圖顯示,冠心?。–AD)和心衰(CHF)有中等強度的相關性(r=0.48),腦卒中(stroke)和冠心病有一定的正相關性,運動量(YDL)和冠心病、心衰、糖尿病、腦卒中均呈一定的負相關性。此外,蛋白質(zhì)、脂肪、熱量的攝入之間存在強相關,總膽固醇和低密度脂蛋白膽固醇有中等強度的相關,性別、年齡和熱量攝入之間存在弱相關。是否是運動員與冠心病患病情況沒有直接關系,見圖1。

圖1 特征相關關系熱力圖

2.3 樣本中冠心病患病情況 樣本中共含有118 例冠心病患者,見圖2A;考察冠心病患者的年齡分布,發(fā)現(xiàn)病例主要集中在50~100歲,見圖2B;不同年齡段心臟病患病比例餅圖顯示,年齡在75~100 歲老年人的患病率高于50~75 歲和25~50 歲的患病率,見圖2C。

2.4 SVM 算法構建預測模型 本次用于冠心病預測的共783 個樣本數(shù)據(jù),計算量少,且為二分類問題,SVM 算法的計算復雜度和訓練集中的樣本數(shù)目成正比,計算復雜度低,足以支撐課題所需冠心病患者分類預測的運行。默認參數(shù)的SVM 模型,見圖3,訓練集分類準確率為85%,測試集分類準確率達84.6%,整體準確率為84.6%,并無過擬合。網(wǎng)格搜索優(yōu)化后,此SVM 模型分類準確率為99%,見表2;ROC 曲線靠近左上角,AUC 面積遠大于0.5,見圖4,認為模型整體分類效果優(yōu)秀。另外,此模型假陽數(shù)據(jù)僅有2例,假陰數(shù)據(jù)為0;模型對于冠心病數(shù)據(jù)與非冠心病數(shù)據(jù)的分類預測精確率、召回率均不低于90%,其中的冠心病數(shù)據(jù)精確率與的非冠心病數(shù)據(jù)召回率達到了100%,綜合來看冠心病數(shù)據(jù)的等權重F1-score 為97%,非冠心病數(shù)據(jù)的F1-score 為99%,此模型對于冠心病和非冠心病樣本數(shù)據(jù)的預測精確性高、覆蓋面廣。

圖3 SVM 模型混淆矩陣

表2 網(wǎng)格搜索優(yōu)化后SVM 模型分類指標文本報告

圖4 SVM 模型ROC 曲線

3 討論

SVM 算法具有3 大優(yōu)點:①SVM 模型的分類效果好:算法復雜度由支持向量的個數(shù)決定,而不是由數(shù)據(jù)的維度決定的,因此可以“剔除”大量冗余樣本,不太容易出現(xiàn)過度擬合的問題[21];②擁有較高的分準率:因為訓練模型完全依賴于支持向量,所以縱使訓練數(shù)據(jù)集里所有的非支持向量的點都被刪除,重復訓練過程,仍會得到完全相同的模型[22];③能解決復雜度高的分類問題:SVM 算法利用核函數(shù)克服了維數(shù)災難和非線性可分的問題,向高維空間映射時沒有增加計算的復雜度,可以解決非線性和高維的問題。

SVM 算法存在以下不足之處:①容易被泛化:當SVM 模型訓練得出的支持向量數(shù)量比較少時,訓練模型比較容易被泛化[23];②易敏感性:SVM 模型對參數(shù)的調(diào)節(jié)、核函數(shù)的選擇和缺失數(shù)據(jù)敏感敏感[24];③對大規(guī)模的訓練數(shù)據(jù)集不適用:由于SVM 算法需要借助二次規(guī)劃來求解支持向量,求解二次規(guī)劃將涉及樣本個數(shù)m 的m 階矩陣的計算,如m 數(shù)目很大,矩陣的計算和存儲則需要消耗大量的運算時間和機器內(nèi)存。

在本案例中,基于網(wǎng)格搜索優(yōu)化的SVM 算法的冠心病分類預測模型體現(xiàn)出了極其優(yōu)秀的分類效果,準確率達99%;對冠心病樣本的識別能力也很強,F(xiàn)1-score 為97%。本項目中SVM 算法效果良好的主要原因是,案例樣本數(shù)據(jù)質(zhì)量高,且對特征進行了篩選;但是,案例數(shù)據(jù)的樣本量較小、特征相對較多,對結果有負面影響。另外,本項目使用的數(shù)據(jù)集來自于美國,所以此模型用于國內(nèi)冠心病數(shù)據(jù)的分類預測時可能會準確率下降,如果能收集到我國冠心病領域公開的高質(zhì)量數(shù)據(jù)集,建立出的冠心病預測模型在國內(nèi)會更有實際意義。

猜你喜歡
分類冠心病特征
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
分類算一算
茶、汁、飲治療冠心病
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 狠狠色丁婷婷综合久久| 青青草欧美| 无套av在线| 激情在线网| 成年人福利视频| 色噜噜久久| 国产人成乱码视频免费观看| 国产一区二区三区在线精品专区| 久久久精品国产亚洲AV日韩| 色欲色欲久久综合网| a级毛片一区二区免费视频| 国产成人亚洲欧美激情| 国产视频a| 91亚洲精品国产自在现线| AV熟女乱| 一级一级特黄女人精品毛片| 亚洲一区二区三区中文字幕5566| 熟妇人妻无乱码中文字幕真矢织江 | 亚洲欧洲自拍拍偷午夜色| 欧美啪啪一区| 五月天久久综合国产一区二区| 免费中文字幕一级毛片| 免费精品一区二区h| 亚洲天堂网站在线| 亚洲va视频| 无码一区18禁| 777午夜精品电影免费看| 精品综合久久久久久97| 蜜臀av性久久久久蜜臀aⅴ麻豆| 天天躁狠狠躁| 国产三级视频网站| 激情六月丁香婷婷四房播| 88av在线| 欧美精品色视频| 国产香蕉一区二区在线网站| 日韩AV手机在线观看蜜芽| 曰韩人妻一区二区三区| 五月天婷婷网亚洲综合在线| V一区无码内射国产| 亚洲综合精品第一页| 在线精品自拍| av大片在线无码免费| 毛片在线播放a| 久久亚洲天堂| 欧美无专区| 亚洲日韩AV无码一区二区三区人| 亚洲美女视频一区| 欧美一级一级做性视频| 国产丰满大乳无码免费播放| 免费精品一区二区h| 亚洲精品国产精品乱码不卞| 99在线观看精品视频| 精品自窥自偷在线看| 99久久精品国产精品亚洲| 影音先锋亚洲无码| 国产成年无码AⅤ片在线| 久久精品91麻豆| 人妻中文字幕无码久久一区| 2021天堂在线亚洲精品专区| 亚洲人在线| 亚洲精品视频免费看| 热99精品视频| 四虎国产成人免费观看| 伊人欧美在线| 久久久久久久久久国产精品| 亚洲日本中文字幕乱码中文| 国产欧美精品一区aⅴ影院| 欧美成人aⅴ| 99热这里只有免费国产精品| 国产成人高清精品免费软件| 99精品国产自在现线观看| 国产精品无码久久久久AV| 国产波多野结衣中文在线播放| 国产福利一区视频| 免费不卡视频| 一本综合久久| 精品国产自| 天天综合天天综合| 国产性爱网站| 久久96热在精品国产高清| 亚洲手机在线| aa级毛片毛片免费观看久|