999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WEKA 的醫學數據分類及糖尿病早期預測

2021-04-08 08:57:52竇一峰
醫學信息 2021年6期
關鍵詞:分類糖尿病評價

張 穎,竇一峰

(天津市寶坻區人民醫院泌尿外科1,網絡信息中心2,天津 301800)

近年來,隨著交叉學科的不斷發展,作為疾病預測模型中的重要組成部分,越來越多的機器學習和人工智能算法應用于醫學數據集上,在疾病預測與輔助診斷、藥物選擇與應用、醫保欺詐與檢測等醫學相關領域展示出優良性能。已有研究[1,2]采用隨機森林算法對電子病歷數據進行分析,從而預測患者是否患有糖尿病。另有研究[3-6]分別采用K 最近鄰、決策樹、支持向量機、神經網絡等模型對糖尿病數據進行分析預測,用于輔助臨床決策。但目前大多研究只采用單一的進行算法疾病預測,或僅與極少常用的算法進行比較。基于此,本研究基于WEKA 平臺,將機器學習領域常見的各種算法應用于糖尿病早期診斷預測中,探索機器學習算法對于醫學分類數據的可操作性和可移植性,現總結如下。

1 資料與方法

1.1 數據來源 本研究實驗數據集是來源于UCI 機器學習數據庫中美國國家糖尿病消化腎臟疾病研究所提供的皮馬印第安人糖尿病數據集,共計768 條數據。該數據集主要以美國亞利桑那州的普通居民為研究對象,因當地人口中糖尿病發病率較高,為了更好的基于數據集中包含的某些診斷指標來預測患者是否患有糖尿病,該研究所對這個地區的人口進行持續性的調查研究。數據集構成見表1。

表1 皮馬印第安人糖尿病數據集

1.2 分類算法 選取算法涵蓋了基于貝葉斯定理的算法、集成學習模型、基于規則的算法和基于樹思想的算法等6 大類,見表2。

1.3 評價指標 根據混淆矩陣來確定評價指標,主要為Kappa 統計量,用于評判分類器的分類結果與隨機分類的差異度,取值范圍[-1,1],Kappa 值與分類器的AUC 指標及準確率呈正相關,該值越接近1 表示算法越準確。統計學指標包括衡量預測值和觀測值之間絕對誤差的平均絕對誤差(mean absolute error,MAE)、表示預測值和觀測值之間差異的均方根誤差(root mean square error,RMSE)、平均絕對誤差平方根(root absolute error,RAE)、相對平方根誤差(root relative squared error,RRSE),其值越小越好。將被算法判定為正樣本且事實上也是正樣本的個案記為TP,將被算法判定為負樣本且事實上為負樣本的個案記為TN,將被算法判定為正樣本但事實上是負樣本的個案記為FP,將被算法判定為負樣本但實際上是正樣本的個案記為FN。基于此,得到機器學習算法常用評價指標的計算方式,包括TPR、FPR、Precision、Recall、F-Measure、Accuracy 和ROC曲線下面積(AUC)。

2 結果

2.1 數據感知 該數據集768 人中有268 人患病,500 人不患病,患病率為34.90%。其中糖尿病患者的平均葡萄糖濃度、平均舒張壓、平均皮褶厚度、平均血清胰島素、平均體重指數、平均糖尿病譜系功能均高于正常人,其年齡一般在27~47 歲,懷孕次數1~8 次,見表3。

2.2 算法結果 運用Weka3.6.12 軟件,采用十折交叉驗證的方式對1.2 中提出的算法進行實驗,統計學評價指標結果見表4,機器學習評價指標結果見表5。結果顯示,本次選取的算法在該糖尿病數據的分類預測中均達到65%以上的準確率,其中集成學習模型的準確率較為穩定,各算法均超過了74%,但從算法時間來看,集成學習算法普遍上較其他算法的運行時間長。在內部一致性上,LMT 和Logistic 兩種算法表現出較好的一致性,同時其均方根誤差和相對平方根誤差最低,而從機器學習評價指標上來看,LMT 和Logistic 算法分類正確率、F-Measure 和AUC值在所有算法中最優,顯示這兩種算法在皮馬印第安人糖尿病數據集的分類預測上有較好的效果。

表2 分類算法

表3 數據集描述性統計情況

表4 統計學類指標實驗結果

表5 機器學習類指標實驗結果

表5 (續)

3 討論

為了實現基于WEKA 平臺的醫學數據分類和糖尿病早期預測,本研究以皮馬印第安人糖尿病數據集為例,使用基于貝葉斯、基于函數、基于集成思想等六類共23 種算法進行實驗,通過對多種基礎分類器及其衍生算法進行比較,并利用多種評價指標進行性能評估,以期得到更加適合糖尿病數據預測的算法。

本研究中,從統計學評價指標來看,Kappa>0.4,說明兩者一致性在可接受范圍,LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging 的Kappa 值均超過了0.44,說明其內部一致性良好;而MAE、RMSE、RAE 和RRSE 的值越小說明分類器預測值和實際結果的差異越小,分類精度越高。RMSE 和RRSE 均較小的前5 位算法依次為Logistic、LMT、RotationForest、RandomForest 和Bagging。這與研究[7,8]報道采用決策樹、隨機森林、支持向量機和k 近鄰算法作用在糖尿病數據分類判別后得到的Random-Forest 最優結果一致。從算法訓練的時間上看,算法的輸入參數越少,剪枝迭代的次數越少,其訓練時間越短,因而本次集成學習算法的訓練時間普遍較長。

本研究中,從機器學習評價指標來看,各個指標的評價值越高說明算法的分類效果和預測精度越高。基于集成學習思想的模型整體上比其他模型的分類正確率、精確率、召回率、F-Measure 和AUC 值高,這可能是因為集成方法平均了單個模型的偏差,也減少了方差,同時集成學習使得算法的過擬合概率降低。從單個算法角度看,LMT、SMO、Logistic、NavieBayes、RotationForest 的分類正確率均超過了76%,這些算法的真陽性率也在76.2%以上,同時ROC 曲線下面積除SMO 外均達到了0.82 以上,說明它們在該糖尿病數據集上的分類性能較好,能夠在糖尿病早期預測中發揮重要作用。

綜上所述,在該糖尿病數據集上的分類預測效果較好的算法有六種,分別是LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging。未來,計劃將各個算法利用信息融合的思想對模型進行組合優化,結合各個模型的優勢特點來提高對糖尿病的預測精度和效率。

猜你喜歡
分類糖尿病評價
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于Moodle的學習評價
主站蜘蛛池模板: 亚洲码在线中文在线观看| 欧美成a人片在线观看| 免费人成视网站在线不卡| 黄色网址手机国内免费在线观看| 中文字幕亚洲综久久2021| 玖玖免费视频在线观看| 亚洲电影天堂在线国语对白| 91区国产福利在线观看午夜 | 永久免费无码日韩视频| 欧美va亚洲va香蕉在线| 91精品国产自产在线老师啪l| 日韩欧美视频第一区在线观看| 尤物特级无码毛片免费| 美女视频黄频a免费高清不卡| 美女国产在线| 亚洲区一区| 亚洲精品国产乱码不卡| 国产综合无码一区二区色蜜蜜| 亚洲毛片在线看| 40岁成熟女人牲交片免费| 国产精品不卡片视频免费观看| 一本一道波多野结衣av黑人在线| 欧美一区二区丝袜高跟鞋| 色偷偷一区| 伊人久久大线影院首页| 中文字幕在线免费看| 国产精品成人一区二区| 国产av色站网站| 成人精品亚洲| 亚洲an第二区国产精品| 欧美日韩资源| A级全黄试看30分钟小视频| 国产精品第页| 日韩久久精品无码aV| 亚洲av无码成人专区| 国产成人亚洲无吗淙合青草| 久久亚洲精少妇毛片午夜无码 | 免费国产好深啊好涨好硬视频| 成人毛片在线播放| 日韩第八页| 香蕉久久国产精品免| 亚洲区第一页| 久久96热在精品国产高清| 蜜臀AV在线播放| 免费观看男人免费桶女人视频| 好吊日免费视频| 成人精品午夜福利在线播放| 欧美在线综合视频| 国产大全韩国亚洲一区二区三区| 在线观看视频一区二区| 免费国产一级 片内射老| 伊人久久大线影院首页| 精品国产一区91在线| 日韩精品久久久久久久电影蜜臀| 色成人亚洲| 黄色免费在线网址| 国产在线观看成人91| 超清无码一区二区三区| 国产一级毛片在线| 久久综合久久鬼| 欧美人与牲动交a欧美精品| 国模粉嫩小泬视频在线观看| 国产精品密蕾丝视频| 91精品国产91欠久久久久| 久久久久青草线综合超碰| 91精品国产91欠久久久久| 国产午夜福利亚洲第一| 成人一级免费视频| 久久动漫精品| 最新午夜男女福利片视频| 精品国产免费观看| 国产女人在线视频| 婷婷中文在线| 国产欧美性爱网| 亚洲视频a| 国产av无码日韩av无码网站| 一本大道无码日韩精品影视| 免费精品一区二区h| 精品国产成人三级在线观看| 在线网站18禁| 99热这里都是国产精品| 无码网站免费观看|