莫紫文 李培源 張應亮
(南寧市第九人民醫院1 婦科,2 內四科,廣西南寧市 530409)
子宮內膜癌是發生在子宮內膜的上皮性惡性腫瘤,是我國三大常見婦科惡性腫瘤之一,手術是子宮內膜癌最主要的治療方法[1]。早期子宮內膜癌患者的5年生存率高于80%,但仍有10%左右的早期子宮內膜癌患者因腫瘤術后復發和/或轉移而死亡;中晚期子宮內膜癌患者的術后復發率更高,且大多發生在術后3年內,一旦復發則治療困難,病死率高[2-3]。術后復發風險的精準預測,對于中晚期子宮內膜癌患者術后管理及治療效果的提高具有重要的臨床意義。目前已有研究報告,國際婦產科協會(International Federation of Gynecology and Obstetrics,FIGO)臨床分期及多種生物標志物可用于中晚期子宮內膜癌患者術后復發風險的預測,但是缺乏針對性,臨床價值有限[4-5]。機器學習是人工智能及模式識別領域的共同研究熱點,其能通過不同計算方法對大規模、復雜的數據進行集中學習與分析,在臨床疾病診斷及預后評估方面具有很好的價值[6]。目前國內關于機器學習在子宮內膜癌患者中的應用研究很少見。本研究基于臨床數據探討5種機器學習模型對中晚期子宮內膜癌患者術后近期(術后3年內)復發的預測價值,以期為臨床預測子宮內膜癌的復發風險提供參考。
1.1 臨床資料 回顧性分析2016年1月至2020年12月在我院接受手術治療的260例中晚期子宮內膜癌患者的臨床資料,年齡35~80(56.69±7.14)歲。將260例子宮內膜癌患者分為訓練集(144例)與測試集(116例)。訓練集患者的年齡(55.24±6.30)歲,腫瘤最大直徑(5.08±1.70)cm,FIGO分期Ⅱ期30例、Ⅲ期68例、Ⅳ期46例;測試集患者的年齡(56.98±7.11)歲,腫瘤最大直徑(5.12±1.69)cm,FIGO分期 Ⅱ 期26例、Ⅲ期50例、Ⅳ期40例。兩組患者的基線資料比較,差異均無統計學意義(均P>0.05)。本研究已通過我院醫學倫理委員會審查,患者及家屬均對研究內容知情同意。
1.2 研究對象的納入及排除標準 納入標準:(1)中晚期子宮內膜癌的診斷符合2015年美國國立綜合癌癥網絡制定的診斷標準[7],并經術后病理確診;(2)患者年齡≥18歲;(3)FIGO分期為Ⅱ~Ⅳ期;(4)具備手術治療指征,術前未進行相關放化療;(5)臨床、病理、實驗室及隨訪資料完整。排除標準:(1)不能耐受手術治療者;(2)僅行單純放化療治療者;(3)伴有其他惡性腫瘤者;(4)伴有嚴重心腦肺疾病、肝腎功能不全等者;(5)精神異常或意識障礙者;(6)依從性較差者;(7)哺乳期女性。
1.3 臨床及病理資料的收集 收集患者年齡、絕經情況(是或無)、孕次、產次、分娩方式(剖宮產或陰道分娩)、體質指數(體質指數≥24 kg/m2判定為超重或肥胖)、FIGO分期、病理類型(腺癌、腺癌伴鱗狀上皮化生、透明細胞癌、漿液性乳頭樣腺癌)、組織學分級(G1、G2、G3級)、腫瘤最大直徑(≤4 cm或>4 cm)、肌層浸潤深度(≤1/2或>1/2)、宮頸管浸潤情況(有或無)、淋巴結轉移情況(是或無),術前糖類抗原125(carbohydrate antigen 125,CA125)水平(CA125≥80 U/mL判定為異常)以及Ki-67、雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)表達情況(陽性或陰性),手術方式(腹腔鏡或開腹手術)、術后輔助化療(有或無)、術后3年內復發情況(定義為盆腔、陰道殘端、腹股溝區出現腫瘤,或者肝、肺、縱隔及鎖骨上淋巴結出現轉移灶)。
1.4 隨訪方法 手術結束后開始隨訪,隨訪時間截至2021年12月,隨訪終點為患者術后發生復發或轉移,隨訪方式包括電話或門診隨訪。術后前2年每3個月隨訪1次,2年后每6個月隨訪1次,隨訪內容主要包括生化指標、腫瘤標志物,以及腹部B超、CT檢查或MRI檢查。
1.5 機器學習模型的構建及驗證方法 以訓練集患者數據為基礎,采用單因素Cox回歸模型分析影響中晚期子宮內膜癌患者術后復發的危險因素,以單因素Cox回歸分析得到的危險因素為基礎,采用R 4.0.2軟件構建以下5種機器學習模型:隨機生存森林(random survival forest,RSF)、梯度提升機(gradient boosting machine,GBM)、支持向量機(support vector machine,SVM)、K最近鄰(K-nearest neighbor,KNN)、Cox回歸。采用一致性指數(concordance index,C-index)評估模型預測的準確性;采用10折交叉驗證法進行模型訓練和內部驗證;采用受試者工作特征(receiver operating characteristic,ROC)曲線分析5種機器學習模型對中晚期子宮內膜癌患者術后近期復發的預測效能,參數包括曲線下面積(area under the curve,AUC)、敏感度、特異度及準確度。
1.6 統計學分析 采用SPSS 22.0軟件進行統計分析。符合正態分布的計量資料以(x±s)表示,組間比較采用獨立樣本t檢驗;計數資料以例數表示,組間比較采用χ2檢驗,等級資料的比較采用Wilcoxon秩和檢驗;進行單因素Cox回歸分析和ROC曲線分析;計算C-index,其中C-index為0.50表示與實際結果完全不一致,0.51~0.70表示較低一致性,0.71~0.90表示中等一致性,0.91~0.99表示高度一致性,1表示完全一致。以P<0.05為差異具有統計學意義。
2.1 中晚期子宮內膜癌患者術后近期復發情況 所有患者均獲得完整隨訪,隨訪時間為6~36(32.47±5.16)個月。260例患者術后復發率為21.15%(55/260);訓練集與測試集患者術后復發率分別為21.53%(31/144)、20.69%(24/116),兩者差異無統計學意義(χ2=0.175,P=0.638)。
2.2 中晚期子宮內膜癌患者術后近期復發機器學習模型的構建結果 共納入19個臨床及病理特征作為自變量,以術后是否復發作為因變量,基于訓練集數據進行單因素Cox回歸分析(變量的賦值情況見表1),結果顯示,年齡≥60歲、體質指數≥24 kg/m2、FIGO分期 Ⅲ~Ⅳ期、組織學分級G3級、肌層浸潤深度>1/2、開腹手術、有淋巴結轉移、術前Ki-67陽性表達、術前ER陰性表達是中晚期子宮內膜癌患者術后近期復發的危險因素(均P<0.05),見表2。年齡≥60歲、FIGO分期Ⅲ~Ⅳ期、組織學分級G3級、肌層浸潤深度>1/2、有淋巴結轉移、術前ER陰性表達是5種機器學習模型同時篩選的危險因素(均P<0.05),見表3。

表1 單因素Cox回歸分析的變量賦值

表2 單因素Cox回歸分析結果

續表2

表3 5種機器學習模型所選擇的中晚期子宮內膜癌患者術后近期復發的危險因素
2.3 中晚期子宮內膜癌患者術后近期復發機器學習預測模型的驗證結果 基于測試集數據的C-index驗證結果顯示,5種機器學習模型的預測結果與實際結果均呈中度一致性,其中RSF的C-index值最高,Cox回歸的C-index值最低。見表4。

表4 5種機器學習模型的C-index
2.4 5種機器學習模型對中晚期子宮內膜癌患者術后近期復發預測效能的比較 預測中晚期子宮內膜癌患者術后近期復發時,RSF的AUC最大,且敏感度、特異度、準確度均最高,GBM的AUC最小,Cox回歸的敏感度、特異度、準確度均最低。但5種機器學習模型的AUC比較,差異均無統計學意義(RSF與GBM:z=0.816、P=0.357;RSF與SVM:z=0.729、P=0.410;RSF與KNN:z=1.035、P=0.174;RSF與Cox回歸:z=0.913、P=0.218;GBM與SVM:z=0.807、P=0.392;GBM與KNN:z=0.936、P=0.258;GBM與Cox回歸:z=0.907、P=0.251;SVM與KNN:z=0.882、P=0.362;SVM與Cox回歸:z=0.738,P=0.415;KNN與Cox回歸:z=0.924、P=0.280)。見表5和圖1。

表5 5種機器學習模型對中晚期子宮內膜癌患者術后近期復發預測效能的比較

圖1 5種機器學習模型預測中晚期子宮內膜癌患者術后近期復發的ROC曲線
腫瘤術后復發是影響中晚期子宮內膜癌患者遠期生存的關鍵因素,也是臨床醫生關注的重點內容。既往有研究基于生物信息學分析結果構建風險評估模型,用于預測子宮內膜癌的預后及復發風險[6];也有研究采用多因素Logistic回歸模型對子宮內膜癌患者術后復發的危險因素進行分析[8]。盡管這些模型均具有較好的預測效能,但都是基于傳統的統計學理論構建預測模型,預測因子被分配固定權重并按線性公式進行風險評估,而實際上預測因子之間存在復雜的交互作用,并不是簡單的線性關聯。
疾病發生、預后分層及復發風險預測模型的構建是機器學習在醫學領域的主要應用方式[9]。郭冉等[10]的研究結果顯示,基于MRI影像組學的隨機森林模型在子宮內膜癌肌層浸潤深度的預測中具有較大潛力。但是目前國內還未見采用機器學習模型預測中晚期子宮內膜癌患者術后近期復發的研究報告。本研究首先采用單因素Cox回歸對訓練集患者的臨床及病理特征進行了分析,基于所得的危險因素構建了RSF、GBM、SVM、 KNN及Cox回歸5種機器學習模型,且通過測試集進行C-index驗證,發現上述5種機器學習模型的預測結果與實際結果均呈中度一致性(C-index為0.710~0.862),提示本研究所構建的機器學習模型具有較好的有效性及科學性。5種機器學習模型同時篩選出年齡≥60歲、FIGO分期Ⅲ~Ⅳ期、組織學分級G3級、肌層浸潤深度>1/2、有淋巴結轉移、術前ER陰性表達6個臨床病理特征為影響中晚期子宮內膜癌患者術后近期復發的危險因素。年齡≥60歲的子宮內膜癌患者,基礎疾病增多,機體出現衰老,免疫功能低下,子宮肌層萎縮變薄,癌細胞向深肌層浸潤程度加深,癌細胞浸潤范圍增大[11]。手術病理分期增高,腫瘤生長速度加快,轉移與擴散的可能性增大;隨著組織學分級的進展,淋巴結出現轉移,導致子宮內膜癌患者術后近期復發風險增高[12]。有研究顯示,子宮內膜癌患者病灶組織中的ER表達情況與腫瘤的惡性程度相關,ER陽性表達患者預后更好;ER持續陰性表達會導致雌激素拮抗受阻,誘導子宮內膜非典型增生進展癌變,導致復發[13]。
本研究通過ROC曲線分析了5種機器學習模型對中晚期子宮內膜癌患者術后近期復發的預測效能,結果顯示,RSF的AUC相對較大,且敏感度、特異度及準確度均最高,由此可見該模型在5種機器學習預測模型中具有最好的預測效能。以決策樹為基礎學習器來構建集成模型,可以明顯提高預測性能。RSF是包含大量決策樹的一種集成學習算法,其使用的Bootstrap法能根據預測因子間的復雜非線性關系對預后分層進行準確評估[14]。GBM是另一種集成方法,通過合并多個決策樹來構建一個更為強大的模型,其可添加更多的決策樹,從而可不斷迭代以提高預測性能[15]。SVM是一個非常強大而多變的機器學習模型,其能夠執行線性或非線性的分類及回歸,特別適用于復雜的中小型數據集分類[16]。 KNN是一個在理論上比較成熟的分類或回歸技術,是一個非參數學習算法,其可根據K個點的分類確定新樣本類別[17]。Cox回歸模型是以生存結局和生存時間為因變量的模型,可同時分析眾多因素對生存期的影響,是目前生存分析中應用最多的多因素分析方法[18]。李淼等[19]的研究顯示,RSF預測肺癌患者預后的錯誤率及預測誤差均低于Cox回歸;季顧惟等[20]研究發現,RSF模型對早期肝細胞癌患者術后復發的預測準確性優于GBM、彈性網絡-Cox回歸和Cox回歸模型。以上分析結果均提示RSF的預測價值較好,但是確切定論還需要進一步研究。
綜上所述,本研究所構建的5種機器學習模型篩選出6個臨床病理特征,能對中晚期子宮內膜癌患者術后近期復發進行有效預測,其中RSF的預測效能相對較好。但是本研究還存在一定的局限性,例如樣本量較小、屬于回顧性研究等。今后我們將采用前瞻性研究對中晚期子宮內膜癌患者的臨床及病理特征之間的相互作用進行機器學習的充分整合,以實現對腫瘤術后復發的精準預測,為醫療大健康的發展提供參考依據。