基于WEKA 的醫學數據分類及糖尿病早期預測

2021-04-08 08:57:52竇一峰

醫學信息 2021年6期

張穎，竇一峰

（天津市寶坻區人民醫院泌尿外科1，網絡信息中心2，天津 301800）

近年來，隨著交叉學科的不斷發展，作為疾病預測模型中的重要組成部分，越來越多的機器學習和人工智能算法應用于醫學數據集上，在疾病預測與輔助診斷、藥物選擇與應用、醫保欺詐與檢測等醫學相關領域展示出優良性能。已有研究[1，2]采用隨機森林算法對電子病歷數據進行分析，從而預測患者是否患有糖尿病。另有研究[3-6]分別采用K 最近鄰、決策樹、支持向量機、神經網絡等模型對糖尿病數據進行分析預測，用于輔助臨床決策。但目前大多研究只采用單一的進行算法疾病預測，或僅與極少常用的算法進行比較。基于此，本研究基于WEKA 平臺，將機器學習領域常見的各種算法應用于糖尿病早期診斷預測中，探索機器學習算法對于醫學分類數據的可操作性和可移植性，現總結如下。

1 資料與方法

1.1 數據來源本研究實驗數據集是來源于UCI 機器學習數據庫中美國國家糖尿病消化腎臟疾病研究所提供的皮馬印第安人糖尿病數據集，共計768 條數據。該數據集主要以美國亞利桑那州的普通居民為研究對象，因當地人口中糖尿病發病率較高，為了更好的基于數據集中包含的某些診斷指標來預測患者是否患有糖尿病，該研究所對這個地區的人口進行持續性的調查研究。數據集構成見表1。

表1 皮馬印第安人糖尿病數據集

1.2 分類算法選取算法涵蓋了基于貝葉斯定理的算法、集成學習模型、基于規則的算法和基于樹思想的算法等6 大類，見表2。

1.3 評價指標根據混淆矩陣來確定評價指標，主要為Kappa 統計量，用于評判分類器的分類結果與隨機分類的差異度，取值范圍[-1，1]，Kappa 值與分類器的AUC 指標及準確率呈正相關，該值越接近1 表示算法越準確。統計學指標包括衡量預測值和觀測值之間絕對誤差的平均絕對誤差（mean absolute error，MAE）、表示預測值和觀測值之間差異的均方根誤差（root mean square error，RMSE）、平均絕對誤差平方根（root absolute error，RAE）、相對平方根誤差（root relative squared error，RRSE），其值越小越好。將被算法判定為正樣本且事實上也是正樣本的個案記為TP，將被算法判定為負樣本且事實上為負樣本的個案記為TN，將被算法判定為正樣本但事實上是負樣本的個案記為FP，將被算法判定為負樣本但實際上是正樣本的個案記為FN。基于此，得到機器學習算法常用評價指標的計算方式，包括TPR、FPR、Precision、Recall、F-Measure、Accuracy 和ROC曲線下面積（AUC）。

2 結果

2.1 數據感知該數據集768 人中有268 人患病，500 人不患病，患病率為34.90%。其中糖尿病患者的平均葡萄糖濃度、平均舒張壓、平均皮褶厚度、平均血清胰島素、平均體重指數、平均糖尿病譜系功能均高于正常人，其年齡一般在27～47 歲，懷孕次數1～8 次，見表3。

2.2 算法結果運用Weka3.6.12 軟件，采用十折交叉驗證的方式對1.2 中提出的算法進行實驗，統計學評價指標結果見表4，機器學習評價指標結果見表5。結果顯示，本次選取的算法在該糖尿病數據的分類預測中均達到65%以上的準確率，其中集成學習模型的準確率較為穩定，各算法均超過了74%，但從算法時間來看，集成學習算法普遍上較其他算法的運行時間長。在內部一致性上，LMT 和Logistic 兩種算法表現出較好的一致性，同時其均方根誤差和相對平方根誤差最低，而從機器學習評價指標上來看，LMT 和Logistic 算法分類正確率、F-Measure 和AUC值在所有算法中最優，顯示這兩種算法在皮馬印第安人糖尿病數據集的分類預測上有較好的效果。

表2 分類算法

表3 數據集描述性統計情況

表4 統計學類指標實驗結果

表5 機器學習類指標實驗結果

表5 （續）

3 討論

為了實現基于WEKA 平臺的醫學數據分類和糖尿病早期預測，本研究以皮馬印第安人糖尿病數據集為例，使用基于貝葉斯、基于函數、基于集成思想等六類共23 種算法進行實驗，通過對多種基礎分類器及其衍生算法進行比較，并利用多種評價指標進行性能評估，以期得到更加適合糖尿病數據預測的算法。

本研究中，從統計學評價指標來看，Kappa＞0.4，說明兩者一致性在可接受范圍，LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging 的Kappa 值均超過了0.44，說明其內部一致性良好；而MAE、RMSE、RAE 和RRSE 的值越小說明分類器預測值和實際結果的差異越小，分類精度越高。RMSE 和RRSE 均較小的前5 位算法依次為Logistic、LMT、RotationForest、RandomForest 和Bagging。這與研究[7，8]報道采用決策樹、隨機森林、支持向量機和k 近鄰算法作用在糖尿病數據分類判別后得到的Random－Forest 最優結果一致。從算法訓練的時間上看，算法的輸入參數越少，剪枝迭代的次數越少，其訓練時間越短，因而本次集成學習算法的訓練時間普遍較長。

本研究中，從機器學習評價指標來看，各個指標的評價值越高說明算法的分類效果和預測精度越高。基于集成學習思想的模型整體上比其他模型的分類正確率、精確率、召回率、F-Measure 和AUC 值高，這可能是因為集成方法平均了單個模型的偏差，也減少了方差，同時集成學習使得算法的過擬合概率降低。從單個算法角度看，LMT、SMO、Logistic、NavieBayes、RotationForest 的分類正確率均超過了76%，這些算法的真陽性率也在76.2%以上，同時ROC 曲線下面積除SMO 外均達到了0.82 以上，說明它們在該糖尿病數據集上的分類性能較好，能夠在糖尿病早期預測中發揮重要作用。

綜上所述，在該糖尿病數據集上的分類預測效果較好的算法有六種，分別是LMT、SMO、Logistic、NavieBayes、RotationForest 和Bagging。未來，計劃將各個算法利用信息融合的思想對模型進行組合優化，結合各個模型的優勢特點來提高對糖尿病的預測精度和效率。