基于機器學習的疾病診斷模型研究?

2020-10-09 02:47:58方麗華王慶瑋張萬義

計算機與數字工程 2020年7期

張千方麗華王慶瑋孫曉梁鴻張萬義

（1.中國石油大學（華東）計算機與通信工程學院青島 266580）

（2.中石化勝利石油管理局勝利醫院老年病醫院東營 257091）

1 引言

醫療疾病診斷模型是一種應用相對普遍的監督分類方法。該模型依托于機器學習自身所擁有的能夠自動學習這一能力，把相關技術應用到醫療疾病診斷模型之中，由此而形成的機器診斷方法不僅診斷效率高，并且具有良好的魯棒性。醫療領域中對于疾病診斷的整個過程，實際上就是在高維變量中進行數據的篩選，選擇出相對比較重要的相關特征，從而能夠輔助醫生進行某種疾病的診斷。在進行分析的時候還需要對該病給患者帶來的危險進行預測，從本質上講就是使用篩選出的高維的特征變量進行分類的過程。因此國內外很多研究學者在對醫療系統進行分析設計的時候已經將邏輯回歸方法應用到其中。例如，田恒宇等［1］在對膽總管結石病因的相關類型進行研究的時候就使用該模型來進行分析。王春輝等［2］建立邏輯回歸模型，探討檢測C 反應蛋白、血清淀粉樣蛋白A 及降鈣素原在感染性疾病鑒別中的診斷價值。陳建設等［3］在對艾滋病的相關情況進行分析的時候使用二分類邏輯回歸分析的方法來實現對問題的分析。首先對OR 值的大小進行計算，然后將計算得到的值進行量化，從而依據該值的大小得到不同的癥狀在進行診斷時的權值大小。喻微等［4］建立一個預測孤立性肺結節惡性可能性的Logistic 回歸模型，為臨床診斷提供參考。Wang CH 等［5］采用單因素和多因素分析方法對實驗室檢測結果進行比較分析，建立傳染病診斷方法的邏輯回歸模型，有助于臨床傳染病的早期鑒別診斷。Ercan H 等［6］提出了一種基于邏輯回歸的模糊推理方法用于對糖尿病的診斷，實驗結果顯示準確度為81.82%。Manogaran G等［7］基于邏輯回歸建立預測模型以便有效地對心臟疾病進行分類，訓練和驗證樣本的準確率分別為81.99%和81.52%。傳統模型相較于深度學習訓練快速，可以輸出特征重要性，具有可解釋性，目前相較于深度模型的應用相對廣泛。

當前基于此類技術而構建的機器智能診斷模型已經獲得了大力的推廣與使用，本文結合具體的2 型糖尿病視網膜病變應用，建立了基于邏輯回歸的疾病特征分析模型，實驗結果獲得了2 型糖尿病視網膜病變的重要性特征排序，而且取得了較高的訓練準確率和測試準確率，為醫務工作者在進行疾病診斷的過程中提供了比較可信的參考數據。

2 Logistic疾病特征分析模型

本文主要以患者信息及其體檢信息為依據基于Logistic 回歸方法構建疾病特征分析模型，該模型對2 型糖尿病視網膜病變進行了重要相關因素的排序，算法基于python 語言實現。Logistic 回歸方法的實驗流程如圖1所示。

圖1 Logistic回歸算法實驗流程圖

實驗共分為四大部分，分別為數據的采集、數據歸一化（預處理）、分類器訓練、測試集檢測。

2.1 數據采集

實驗從中國人民解放軍總醫院獲取的電子醫療記錄包括病人信息表、詳細資料表、診斷表、生病體征記錄表、生化指標表、糖化指標表、隨訪表等，大約含有600 萬條記錄。依據需要選取出2009～2013 年前來此院接受治療的住院病人的糖尿病診斷、糖化以及生化檢查信息，在各類信息中，有3 種數據隸屬于獨立表格，在對其進行有效整合后能夠獲得一個具有統計分析價值的數據集。數據整合主要包括下述三個流程：

1）通過第一次診斷信息篩選出2 型糖尿病視網膜病變的病人信息；

2）結合病人就診ID 和診斷時間從相關檢查表中篩選出最新一次病人檢查信息；

3）根據現有的診斷信息篩選出具有參考價值的合并癥信息。

有關提取的變量信息如表1 所示，獲取到了糖尿病視網膜病變（Diabetic Retinopathy，DR）患者的相關資料。為了確保預測的合理性，還從數據集中篩選出不是DR 的患者作為對照樣本，來保證DR和非DR 的數據保持1∶1 的比例。最終，創建了適用于此試驗的數據集，由DR 患者的相關數據和非DR患者的相關數據所組成。由于獲取到的數據存在部分缺失，在2009 年的病人電子病歷中包含了尿常規相關體檢數據，而其2010～2013 年并不包含尿常規相關體檢數據，為了避免相關重要特征的遺漏，本文分別使用兩個數據集進行實驗，數據集1包括45 個特征向量，共計1000 條數據；數據集2 包括33個特征向量，共計2800條記錄數據。

表1 變量信息表

2.2 數據預處理

在診斷系統中，首要步驟就是獲取并處理數據，若在此過程中獲得了醫學領域權威專家的指導，那么所獲得的醫療信息往往帶有非常關鍵的特征。若未獲得醫學權威專家的指導，那么需要通過Brute-Force 方法逐個過濾信息特征，以此獲得關聯性最強的特征，基于此對問題展開客觀詳細地說明。但是由此而獲取到的數據信息通常包含大量的無用信息或者是不規則的信息，尤其是醫療數據通常會包含高維度、不平衡性等特征，不利于提高系統的處理速度和預測準確率，所以在對數據進行分類之前一定要采取有效的方式對數據實行嚴格的去噪處理。針對2 型糖尿病視網膜病變數據集，實驗前對數據進行了標準化、歸一化、缺失值插補等處理。主要使用sklearn 中的preproccessing 庫來進行數據的預處理。

2.3 分類器訓練

通過相應的指標對分類器的性能進行客觀合理的評價，基于訓練集而構建的分類模型其性能或許并非最優，一般來講，其性能和預測效果之間呈正相關聯系，即某種模型性能愈佳，在測試集上所獲得的預測效果愈理想。所以要選取合理的標準對分類器的性能進行客觀合理地評價，其評價標準主要包括誤分率、成本、速度以及混淆矩陣等。其中應用相對較為普遍的當屬混淆矩陣。

在混淆矩陣中，C0指的是負例樣本，C1指的是正例樣本，行表示樣本被預測的類別，列則表示樣本的類別。真反例（TN）主要指的是將歸C0所有的例子予以科學分類的數目，假正例（FP）則指的是將歸C0所有的樣本劃分至C1的數目，假反例（FN）指的是將歸C1所有的樣本劃分至C0的數目，真正率（TP）指的是將歸C1所有的樣本進行科學合理分類的數目。如表2 二分類的混淆矩陣所示。

表2 二分類的混淆矩陣

2.4 訓練集及測試集檢測

1）數據集1，包含45 個特征向量共計1000 條數據。

為了準確地評價該模型的實際效果，先將預處理后的數據進行隨機劃分為兩部分，一部分為訓練樣本，其占比為70%，另一部分為測試樣本占比30%。由此構建成訓練集和測試集，使用訓練集創建診斷模型，使用測試集評估模型效果。

特征工程中需要把年齡離散化成十的倍數，但是由于本實驗所使用的數據集中年齡的取值較多，所以依舊當做數值型。性別取值為0或1，男或女，可以當做類別型變量。類別性變量還有尿膽原定性試驗、尿膽紅素定性試驗、尿糖定性試驗、尿液顏色尿液亞硝酸鹽試驗、尿濁度、尿酮體試驗、尿蛋白定性試驗等。

2）數據集2，包含33 個特征向量共計2800 條數據。

為了準確評價模型的實際效果，先將預處理后的數據進行隨機劃分為兩部分，一部分為訓練樣本，占樣本總數的3/4，另一部分為測試樣本，占樣本總數的1/4。由此構建成訓練集和測試集，使用訓練集創建診斷模型，最后用測試集來評估模型效果。

3 實驗結果分析

由于所獲取的數據集所帶來的限制（除了2009 年以外，2010～2013 年數據都不包含尿常規相關體檢數據），為了避免實驗結果對2 型糖尿病視網膜病變相關重要特征的遺漏，同時醫學領域中尿常規中的部分特征對該病變存在一定的影響，所以實驗使用2 個數據集，其中數據集1 包含尿常規相關體檢數據，而數據集2 中不包含尿常規相關體檢數據。

圖2 糖尿病視網膜病變重要特征權重—數據集1

數據集1 比數據集2 共有29 個特征重合，數據集1 與數據集2 不同的特征有16 個，分別為鐵.7.32umol.L、不飽和鐵結合力.20.62umol.L、尿白細胞.0.36.ul、尿比重測定、尿膽原定性試驗.0.0mg.dl、尿膽紅素定性試驗.0.0mg.dl、尿紅細胞.0.27.ul、尿酵母細胞.0.0.ul、尿糖定性試驗.0.0mg.dl、尿液結晶、尿液酸堿度測定、尿液顏色、尿液亞硝酸鹽試驗、尿濁度、尿酮體試驗.0.0mg.dl、尿蛋白定性試驗.0.0mg.dl。數據集2 與數據集1 不同的特征有4個，分別為：總膽汁酸.0.10umol.L、低密度脂蛋白膽固醇.0.3.4mmol.L、游離鈣.1.02.1.6mmol.L 和二氧化碳.20.2.30mmol.L。

針對數據集1，糖尿病視網膜病變主要特征權重如圖2所示，權重值保留小數點后兩位。

實驗結果顯示共發現14 項特征對糖尿病并發視網膜的患病產生影響，具體含義如表3所示。

表3 特征參照表

通過觀察分析Logistic 回歸模型輸出的特征權重后，得知尿蛋白、糖化血紅蛋白、肌酐、尿素等變量權重較高。因為數據集2 的特征并不包括尿蛋白、尿液顏色、尿濁度等特征，所以本實驗中將2009 年的數據集進行了單獨的訓練，避免遺漏尿常規數據中能夠對2 型糖尿病視網膜病變產生影響的重要特征。實驗結果顯示，尿蛋白作為權重最高的影響因素。

圖3 糖尿病視網膜病變重要特征權重-數據集2

針對數據集2，糖尿病并發視網膜病變主要特征權重如圖3所示，權重值保留小數點后兩位。

實驗結果顯示共發現11 項特征對是否患有糖尿病并發視網膜病變產生影響，具體含義如表4 所示。

表4 特征參照表

相關研究已證實，2 型糖尿病視網膜病變是在多重因素的共同作用下形成的，比如高血壓、性腎病及相關實驗室檢查指標等。尿蛋白作為慢性腎病的重要特征也在我們實驗一中顯示具有較高權重。綜合兩個數據集的實驗結果顯示，糖化血紅蛋白、肌酐、尿素以及年齡等變量權重較高且有臨床意義。

綜上，本文采用的Logistic 模型結果表明，慢性腎病與糖化血紅蛋白濃度是誘發此病發生的直接因素。慢性腎病與糖尿病并發視網膜病變的關聯性很清晰，醫學專家表示，糖尿病聯合視網膜病的發病機理與慢性腎病存在一定相似之處，具體體現在兩個方面，一是微血管發生病變，二是微循環出現異常。大量研究結果表明，尿白蛋白是與糖尿病聯合視網膜病變高度關聯的一個風險因素［9～10］。關于血型與此病變的關聯性因素并未展開過多研究，還需后期進一步研究與分析。另外，與此病變具有直接關聯的高血壓和血脂異常也沒有被納入模型，導致這種情況發生的原因是本實驗所使用的數據集中并沒有相關數據。

在相同實驗環境下進行特征工程與不進行特征工程的Logistic回歸模型進行診斷的訓練準確率和測試準確率如表5 所示。實驗結果顯示，進行特征工程后，訓練準確率提高約1 個百分點，測試準確率提高3個多百分點。

表5 實驗結果

4 結語

依據Logistic 回歸的診斷流程，分別從數據的采集、數據的預處理、分類器訓練、訓練集和測試集的檢測以及對實驗結果進行分析這幾大部分進行概述。由于實驗結果顯示訓練集與測試集診斷準確率都比較高，并沒有存在過擬合現象，因此實驗所得結論是有效的。實驗結果顯示糖化血紅蛋白、肌酐、尿素、尿酸年齡等變量權重較高且具有臨床意義，慢性腎病與糖化血紅蛋白濃度作為是否患有2型糖尿病視網膜病變的最主要的因素。