基于檢驗大數據的多尺度肺惡性腫瘤預測模型研究

2023-08-26 04:13:24王瑩顧大勇

電腦知識與技術 2023年20期

關鍵詞：機器學習大數據

王瑩　顧大勇

關鍵詞：肺惡性腫瘤；醫學檢驗；大數據；機器學習

中圖分類號：TP391 文獻標識碼：A

文章編號：1009-3044（2023）20-0040-03

0 引言

肺惡性腫瘤常稱為肺癌（Lung Cancer，LCA），LCA 在我國是最常見的高發惡性腫瘤，發病率和死亡率均位列惡性腫瘤首位，全球近40%的LCA患者來自我國[1]。LCA在發病早期無典型或特殊臨床表現，容易被忽視，多數LCA患者就診時已進入中、晚期，治療效果不佳。因此，LCA的早期診斷對于患者能否及時接受治療顯得十分重要。隨著科技的進步，人工智能、生物標志物和影像學相結合為LCA篩查開辟了新途徑[2]，如血清學指標聯合多層螺旋CT可提高LCA檢出率，并且能夠準確區分疾病類型[3]。血液檢驗具有近似無創、安全性高、操作簡單易獲取以及價格低廉等優點，LCA相關血清學腫瘤標志物的檢測推薦為疑似LCA患者的必檢項目之一，但單獨檢測的這些標志物的特異性、靈敏度不高，聯合檢測多項腫瘤標志物已逐漸成為LCA診斷的重要輔助手段[4]。研究表明，應盡可能擴大生物標志物的篩選范圍[5]。異常增殖的腫瘤細胞隨著血液進入各個組織器官，在全身各部位會有不同的表現，分泌的細胞因子及各種功能蛋白會造成各項檢驗指標發生變化，即使檢驗指標處于正常參考值范圍，但指標間相互的關系也可能發生了改變，只是普通人工篩查模式無法發現，通過人工智能技術對人體一系列代謝指標進行數據挖掘，可以發現很多潛在的變化[6]。研究表明，采用隨機森林機器學習算法挖掘277例患者的19項血液常規檢驗項目形成的預測模型能夠識別LCA患者[7]，其泛化能力有待進一步驗證。目前缺乏采用多種機器學習算法對包括血液、體液、免疫等全量檢驗項目構建LCA預測模型的進一步研究。

本研究基于多尺度檢驗項目采用4種機器學習算法分別構建LCA預測模型，并研究檢驗項目在LCA預測模型中的價值以及不同尺度對預測能力的影響。

1 研究材料與方法

1.1 研究材料

本研究的原始數據來源于深圳市某綜合性三甲醫院2016年10月1日—2021年09月30日的全量檢驗數據及相應診斷結果。在大數據平臺通過數據集成、數據治理和數據開發形成檢驗大數據。檢驗項目總計1 297項（包括少量來自不同儀器設備重復的相同檢驗項目）。根據LCA相關診斷結果檢索的21 270 例LCA 患者和混合19 841 例健康體檢人員合計41111例人員對應的LCA檢驗大數據。經過數據類型轉換、歸一化成為機器學習數據源。

1.2 方法

采用邏輯回歸二分類（Logistic Regression，LR）、支持向量機（Support Vector Machine，SVM）、K 近鄰（KNearestNeighbor，KNN）和服務器參數可伸縮多元決策回歸樹（Parameter Server-Scalable Multiple AdditiveRegression Tree，PS-SMART） 4 種機器學習算法挖掘全維度檢驗項目與診斷結果的關系。其中LR 的可解釋性強，訓練的參數即為每個特征（檢驗項目）的權重且輸出為概率值，非常適合二分類場景。SVM基于統計學習理論的一種機器學習方法，通過尋求結構風險最小化，提高學習機泛化能力，從而實現經驗風險和置信范圍最小化。SVM屬于強分類器，準確度較高。KNN算法簡單易用，根據距離新的對象最近的K個點的類別預測新的對象對應的類別。GBDT（GradientBoosting Decision Tree）二分類算法的原理是設置閾值，如果特征值大于閾值，則為正例，反之為負例。PS-SMART是GBDT基于PS實現的迭代算法。4種機器學習算法的原理機制不同，有利于互相佐證。

機器學習業務流程包括數據拆分、模型訓練、模型預測和預測結果評估，同一機器學習數據源被不同機器學習算法對應的數據拆分模塊分別隨機拆分為兩類（本研究采用80%為訓練數據和20%為測試數據的拆分比例），隨機拆分是數據分類差異的唯一因素。機器學習訓練模塊使用機器學習算法基于訓練數據生成預測模型，預測模型對測試數據計算得出預測結果，預測結果分別導入相應的混淆矩陣模塊和二分類評估模塊，對4種預測模型分別進行評估。業務流程如圖1所示，為了有效對比預測模型，所有實驗步驟的設定與實施完全一致。

1.3 預測水平評估指標

評估采用混淆矩陣和二分類評估兩種方法。

混淆矩陣每一列代表一個類的預測情況，每一行表示一個類的實際樣本情況。混淆矩陣采用準確率、精確率、召回率和F1 Score合計4個評估指標[8]。其中F1 Score是為了均衡地評估精確率和召回率而設計的綜合評估指標。

二分類評估主要采用F1 Score和受試者工作特征曲線（Receiver Operating characteristic Curve，ROC）下面積（Area Under Curve，AUC）兩個指標，AUC數值為[0，1]區間，越接近1區分能力越高。

2 實驗與分析

2.1 全量檢驗項目預測模型

2.1.1 二分類評估結果

4 種機器學習預測模型的AUC和F1 Score均高于0.980和0.940，如表1所示。表1表明4種機器學習預測模型均有較高的預測能力。

2.1.2 混淆矩陣評估結果

4 種機器學習模型的正樣本的準確率、精確率、召回率和F1 Score共計16項，其中14項高于0.900，剩余2項均高于0.850，如表2所示。

2.1.3 LR 二分類預測模型

LR二分類預測模型由患者年齡、性別、就診類別和1 297項檢驗項目合計1 300項組成，其中權重前20 項如表3所示。

權重為該檢驗項目在LR二分類模型中的系數，權重數值越大，該檢驗項目與目標列對應診斷結果的相關性越大。由于項目編碼缺乏統一規劃的歷史原因，存在項目編碼6465和5316為來自不同儀器設備的相同檢驗項目的情況。缺失率指未做該檢驗項目的患者數量與總計21 270例患者的比率，20項特征列中缺失率大于30%的高達18項，只有年齡和就診類別（住院或門診）兩項缺失率小于30%。

2.2 多尺度預測模型對比分析

將原1 300項特征列分為兩部分：20項權重大的特征列和剩余1 280項特征列，采用4種機器學習算法分別對20項特征列和1 280項特征列訓練生成預測模型，通過混淆矩陣和二分類評估兩種方法評估預測水平。基于全量、20項、1 280項檢驗項目數量形成三種不同尺度的預測模型。

結果表明，全量模型的整體預測水平優于20項特征列模型，20項特征列模型優于1 280項特征列模型。相對整體預測水平，SVM算法生成的預測模型各項指標對比結果完全一致（圖3），LR二分類模型的精確率和召回率（圖2），PS-SMART 模型的精確率（圖4），KNN模型的精確率（圖5）對比結果略有反差。圖中標注數據均為預測水平相對較低的1 280項預測模型的預測結果。

3 討論

本研究采用4種機器學習算法并行生成的預測模型均具有較高的預測水平，表明預測模型的穩定性和可靠性。以直觀輸出參數、可解釋性強的LR預測模型為例，其中權重較大檢驗項目與診斷結果相關性較大可分為三種情況，第一種是已經具有大量臨床研究，包括年齡、神經元特異性烯醇化酶（Neuron-Specific Enolase，NSE）、紅細胞體積分布寬度、超敏C 反應蛋白、尿蛋白、腫瘤相關物質綜合檢測等18項。研究表明，年齡是LCA發病的重要因素，經過統計21270 例LCA患者中年齡大于40歲為20 529例，大于60歲為12 005例（占比56.4%）與中國國家癌癥中心調查結果（2005—2014年的10年間，年齡≥60歲肺癌患者比例從41.2%增至56.2%） [9]基本相符。LCA患者年齡分段統計與深圳市LCA發病率在0～29歲年齡段極低，30～49歲年齡段出現緩慢增長，50歲之后發病率隨著年齡增長而迅速上升，在75～84歲年齡段發病率達到最高峰[10]基本相符。Cai-Ming Xu等人[11]研究認為神經元特異性烯醇化酶NSE在各種肺部疾病的診斷、治療監測和預后評估中可以發揮重要作用。第二種數學意義上的相關性，例如21 270例LCA患者其中16 349例為住院患者，4 921例為門診患者。住院患者約占總數的77%，特征相對明顯，故表現出相關性強，也符合多數LCA患者就診時已進入中、晚期的狀況。第三種是有待進一步研究的檢驗項目，例如，目前尚未有二氧化碳結合力與LCA的關系研究，推測LCA患者呼吸功能障礙導致二氧化碳結合力增高，從而表現為二氧化碳結合力與LCA診斷結果強相關。

機器學習預測模型的水平取決于訓練數據的質量，訓練數據盡可能全面覆蓋所代表的真實的數據類型，人為甄選數據會錯失發掘數據潛在價值的機會。例如在數據準備階段，所有檢驗項目中，僅入選缺失值<30%的變量[12-13] ，若參照該標準，則本研究中全量LR二分類模型中的權重前20項特征列中18項檢驗項目均不符合要求而被排除。通過多尺度預測模型的對比，直觀展示了基于全量檢驗項目預測模型的優勢。

4 總結

本研究通過預測模型一方面定量展示了檢驗項目在LCA診斷中的價值，另一方面通過多尺度預測模型的對比分析佐證了基于全量檢驗項目構建預測模型的必要性。本研究使用了近5年的全量檢驗數據作為樣本，采用3種檢驗項目數量尺度，存在一定的局限性。混合對照的健康體檢人員不排除存在LCA患者的可能性，從而導致預測模型存在較小的偏差。后續可以納入多中心的檢驗數據，并結合臨床診斷進一步挖掘檢驗項目與疾病診斷相關的信息。