翟義胲, 林 雪, 蒲圓金, 韋巧玲, 龐永慧
肝動脈化療栓塞術(transcatheter arterial chemoembolization,TACE) 是目前治療中晚期肝癌最常采用的手段。 栓塞后綜合征(post-embolization syndrome,PES)是TACE 后常見并發癥,臨床表現包括發熱、疼痛、惡心、嘔吐等[1-2]。PES 不僅影響患者的生活質量,也延長住院時間,增加經濟負擔[3]。因此,有效識別和早期干預TACE 后發生PES 的危險因素具有重要的臨床意義。
目前常采用邏輯回歸模型分析危險因素,但易受到固有線性統計假設的限制,而忽略對其他有價值變量的分析[4-6]。 近年來,機器學習(machine learning)技術因其具有高效處理復雜、耗時任務的能力而被廣泛地用于醫學領域,主要包括疾病診斷、藥物制作、醫療數據分析等[7]。 其具有傳統統計學不具備的獨特優勢。 本研究通過機器學習技術對TACE 后PES的發生進行預測,找到相關的危險因素,以期為臨床診治提供參考依據。
收集2020 年1 月至2021 年12 月在廣西醫科大學附屬腫瘤醫院接受TACE 治療的453 例患者的臨床信息。 納入標準:①經過臨床或病理診斷為原發性肝癌;②年齡>18 歲;③ECOG 評分0~2 分;④醫療記錄完整且可用。 排除標準:①入院時劇烈疼痛或者合并感染癥狀;②因意識喪失或者其他原因不能進行癥狀評估;③術后出現感染或者大出血等嚴重并發癥;④合并其他癌癥。本研究經廣西醫科大學附屬腫瘤醫院倫理委員會批準(KY2022302)。
收集患者23 個指標,包括性別、年齡、體質量指數、病史(是否經過外科手術切除,是否為首次TACE 以及既往TACE 次數)、影像學資料(大血管侵犯,腫瘤最大直徑和數量)、血常規、凝血功能、肝功能、甲胎蛋白、手術方式、手術時間、碘化油乳劑用量、微球最大直徑;計算每例患者的腫瘤負荷分級[8]、Child-pugh 肝功能分級、ALBI 分級。 觀察患者術后PES 的發生情況以及術后住院時間,記錄肝區NRS 疼痛評分≥4 分、排除感染的發熱、惡心、嘔吐WHO 分度在Ⅱ度以上的患者。
對收集的分類特征進行編碼。 對二分類特征,樣本具有該特征則編碼為1,否則為0。 而多分類特征如腫瘤負荷分級,按從小到大進行1~3 編碼。
使用Seldinger 技術穿刺股動脈并放置血管鞘。通過血管造影確定腫瘤的供血動脈。 然后將微導管超選擇性插管至腫瘤供血動脈,緩慢注入微球或適量碘油+化療乳劑栓塞, 再次造影確定腫瘤供血動脈中的血流停滯。
使用邏輯回歸(logistic regression,LR)、支持向量機(support vector mac,SVM)、隨機森林(random forest,RF)、梯度提升決策樹(gradient boosting decision tree,GBDT)、極端梯度森林(eXtreme Gradient Boosting,XGBoost)和Lightgbm 共6 種算法預測術后PES 的發生。
在最優模型中使用沙普利可加性特征解釋方法(shapley additive explanation,SHAP)。 SHAP 法是將所有的特征都視為“貢獻者”。 對于每個預測樣本模型都產生一個預測值,SHAP 值是該樣本中每個特征所分配到的數值[9]。通過SHAP 工具包,了解各特征如何影響預測結果。
使用python 3.10。 計數資料采用頻數表示,比較采用卡方檢驗; 正態分布的計量資料以均數±標準差表示,組間比較采用t 檢驗;不符合正態分布的計量資料以中位數(四分位數間距)表示,比較采用非參數檢驗。P<0.05 為差異有統計學意義。采用準確率(分類器正確分類的樣本數與總樣本數之比)、精確率(正確被檢索占實際被檢索到的比例)、召回率(正確被檢索的占所有應該檢索到的比例)、F1 分數(精確率和召回率的調和均值)、曲線下面積(AUC)對模型結果進行評估。 各項指標采用五折交叉驗證的方式計算:將數據隨機分成5 等份,輪流將其中4 份用于訓練模型,1 份用于測試模型,得到5 次預測結果, 最后將其平均值作為對模型準確性的估計,同時繪制五折ROC 曲線。
453 例患者中,PES 組283 例,非PES 組170 例,兩組患者一般資料比較見表1。

表1 兩組患者一般資料比較
分別構建6 個機器學習模型,各模型參數采用默認值訓練。 通過五折交叉驗證分別求其各項評估指標, 見表2。 其中以隨機森林算法預測術后出現PES 的召回率、F1 分數、AUC 最高,在所有模型中綜合性能最好,值得進一步研究。 而準確率和精確率最高的是SVM。 五折交叉驗證的隨機森林ROC 曲線見圖1。

圖1 五折交叉驗證的隨機森林模型ROC 曲線

表2 機器學習各模型預測效能比較
因隨機森林模型在所有模型中綜合性能較好,故使用基于隨機森林模型分析原發性肝癌患者TACE 后PES 的危險因素,可視化如圖2。 其展示了在整體水平上前20 個特征的貢獻情況。 對PES 發生影響較大的因素包括腫瘤負荷分級、 手術方式、手術時間、白細胞計數等。 排名靠前的變量在單因素分析中也是差異有統計學意義的變量。 SHAP 值的大小表示了對預測結果的影響程度,SHAP 的絕對值越大, 說明該特征對術后發生PES 的影響越大。 圖2 右中每個點代表一個樣本,點的顏色代表了特征值的相對大小,紅色表示特征值高,藍色表示特征值低。 如腫瘤負荷分級為低,此時大量的紅色樣本聚集在SHAP 負值區域,說明負荷分級低可以降低術后發生PES 的風險。 而如手術時間,大量的紅色樣本聚集在SHAP 正值區域,代表手術時間越長術后越可能發生PES。 根據SHAP 相關匯總圖(圖2 左), 絕大部分特征和PES 的發生呈正相關(危險因素), 而少部分如前白蛋白、 年齡、 既往TACE 次數、腫瘤外科切除后、總膽紅素和白蛋白水平與PES 的發生呈負相關(保護因素)。

圖2 基于SHAP 方法的隨機森林模型整體可解釋性分析
如圖3, 在單個實例對PES 的發生預測解釋圖上。 在基線概率為64.41%的情況下,該患者白細胞計數正常、 手術方式為C-TACE 減少了術后PES發生概率,而腫瘤負荷低(0)、手術時間(75 min)、年齡(46 歲)、既往TACE 次數少(1 次)以及部分血液指標增加了術后PES 發生概率,這使得患者術后發生PES 的概率有79%。

圖3 基于SHAP 方法的單個實例可解釋性分析
機器學習技術具有限制少、 預測準確的優點。目前機器學習已在醫學領域建立數種模型[10-11]。 研究認為,PES 發生的病理基礎與栓塞區域組織成片壞死水腫和化療藥物引起的不良反應有關, 且PES的發生會增加患者的死亡風險[12-13]。因此,建立精準的預測模型并運用到臨床護理工作中極有價值。
發生PES 的影響因素包括腫瘤負荷、 手術方式、手術時間、年齡等[14-15]。本研究發現,外科切除術后以及總膽紅素高是PES 的保護因素,可能的原因是總膽紅素高代表肝臟整體情況較差,迷走神經退化等導致內臟的敏感性降低從而對疼痛閾感提升[16]。
在既往的研究中, 通過邏輯回歸可確定哪些變量是危險因素。 部分研究對于連續性自變量采取基于中位數或者多分類等級進行劃分。 然而這種方法忽略了患者個體化的情況。 如本研究發現手術時間與術后PES 發生之間存在正相關, 即手術時間越長,術后PES 的風險越高。但無論采用中位數或等級劃分的方式, 當手術時間為75 min 時,并不能將其視為PES 的危險因素。 相反,SHAP 方法結合患者的綜合情況, 判斷出手術時間在某些患者中是一個重要的影響因素。 基于SHAP 方法的分析有助于醫務人員在個體水平上預測和分析術后PES。
本研究中不同機器學習模型中以隨機森林算法的綜合預測效果最佳。 隨機森林算法是并行式集成學習方法Bagging 的一個變形, 通過隨機屬性選擇, 再從中選擇最優劃分提高了準確率降低方差,又避免了過擬合的發生,使得預測效果最佳。 研究者可考慮在相似的數據集使用隨機森林方法。 本研究中多種機器學習模型對于PES 發生的綜合預測效能高于邏輯回歸模型,可能是因為傳統邏輯模型要求變量獨立且不能處理變量共線性的問題,盡管在統計分析時經過單因素篩選,但在準確率和精確率等方面低于其他機器模型。
本研究存在一定的局限性,首先作為回顧性研究存在一定的風險偏倚,收集的數據不可避免有人為誤差;其次為單中心研究,收集的病例數較少,因此未進一步調整超參數,盡管在訓練過程中已經成功避免過擬合問題,未來仍需要多中心大樣本來進一步驗證模型。
本研究通過機器學習技術對TACE 術后PES的發生進行了預測,并找到了相關危險因素。 通過對患者術前和術中的危險因素進行預測和評估,臨床醫護人員可制定相應策略以減少患者術后發生PES 的風險。