安夢霞,崔曉娜,孫繼宏,張瀚文,洪嘉源,王萍玉
濱州醫學院公共衛生與管理學院,山東 煙臺 264003
肺癌是全球最常見的腫瘤,約25%的腫瘤患者死于肺癌[1],其中非小細胞肺癌(non-small cell lung cancer,NSCLC)約占80%[2]。即使目前診斷篩查技術飛速發展,但大多數患者初診時已處于晚期,出現腫瘤細胞向遠處器官轉移,其中腦轉移是NSCLC最主要的死亡原因[3]。研究報道,肺腺癌(lung adenocarcinoma,LUAD)在NSCLC亞組中腦轉移發生率最高[4-5],患者預后差,中位生存期縮短[6]。文獻檢索發現,目前國內外鮮有預測LUAD腦轉移的臨床模型。因此,本研究擬建立一個可視化LUAD腦轉移風險概率的列線圖預測模型,易于識別高風險患者,幫助臨床醫師采取個體化干預措施,降低患者腦轉移率,提高其生存率,現報道如下。
本研究數據來源于美國國家癌癥研究所(National Cancer Institute,NCI)監測、流行病學和最終結果(Surveillance,Epidemiology,and End Results,SEER)數據庫。運用SEER*Stat 8.3.9.1軟件對2010—2015年SEER數據庫中LUAD數據進行篩選。納入標準:①第一惡性腫瘤;②組織學類型為LUAD;③具有完整的臨床資料。排除標準:①多原發性腫瘤;②病例通過尸檢或死亡證明確診;③來自臨床診斷的病例;④死亡原因信息缺失;⑤生存時間<1個月;⑥臨床資料信息不明確。最終篩選出58 928例LUAD患者,其中腦轉移患者(腦轉移組)7931例,非腦轉移患者(非腦轉移組)50 997例。
提取患者的年齡、性別、種族、腫瘤部位、T分期、N分期、是否手術、是否放療、是否化療、腫瘤大小、淋巴結清掃數目、是否骨轉移、是否肝轉移、婚姻狀況、生存時間以及生存狀態。
采用R4.1.0軟件進行數據分析及繪圖。采用survminer包進行生存分析;采用caret包將數據分為訓練集(70%)和驗證集(30%);計數資料以例數及率(%)表示,組間比較采用tableone包的χ2檢驗;采用glmmet包進行Lasso回歸分析對變量進行降維,篩選最優預測變量,將最優預測變量納入多因素Logistic回歸分析進一步篩選;采用rms包綜合篩選后的預測變量建立LUAD腦轉移風險概率的列線圖模型;采用pROC包繪制訓練集和驗證集列線圖模型的受試者工作特征(receiver operating characteristic,ROC)曲線驗證模型區分度;采用1000次有放回重復采樣的Boostrap繪制校正曲線并采用Brier評分驗證模型的校準度;采用rmda包進行決策曲線分析(decision curve analysis,DCA),評價列線圖模型的臨床效能。以P<0.05為差異有統計學意義。
從SEER數據庫中最終篩選出58 928例LUAD患者納入本研究,按照7∶3比例隨機分組,其中訓練集41 250例,驗證集17 678例。訓練集和驗證集患者的各臨床特征比較,差異均無統計學意義(P>0.05),具有可比性。(表1)

表1 訓練集與驗證集患者臨床特征的比較
LUAD患者中位生存時間為24個月(95%CI:23.535~24.465),其中LUAD腦轉移組患者的中位生存時間為7個月,非腦轉移組患者中位生存時間為30個月。Kaplan-Meier分析結果顯示,LUAD腦轉移組患者的生存情況明顯差于非腦轉移組患者,差異有統計學意義(χ2=4684.881,P<0.01)。(圖1)

圖1 腦轉移組(n=7931)與非腦轉移組(n=50 997)LUAD患者的生存曲線
將訓練集中14個變量納入Lasso回歸分析,通過Lasso回歸分析對變量進行降維,以五折交叉法驗證確定最佳懲罰系數(λ),篩選出對預測LUAD腦轉移最有意義的特征變量。防止模型過度擬合,最后部分變量的回歸系數被壓縮為0(圖2A)。本研究選擇二項式偏差和Lasso回歸對數(λ)曲線中右側垂直虛線的λ值(λ=0.00567),篩選出9個最優預測變量,分別為年齡、T分期、N分期、腫瘤大小、淋巴結清掃數目、是否手術、是否放療、是否骨轉移、是否肝轉移(圖2B)。

圖2 Lasso回歸篩選LUAD腦轉移的最佳預測變量
以是否發生腦轉移為因變量,Lasso回歸篩選出的9個預測變量為自變量,納入多因素Logistic回歸分析,結果顯示:年齡、T分期、N分期、腫瘤大小、淋巴結清掃數目、是否手術、是否放療、是否骨轉移、是否肝轉移均是LUAD患者發生腦轉移的獨立影響因素。(表2)

表2 LUAD患者發生腦轉移影響因素的多因素Logistic回歸分析
基于Lasso回歸和Logistic多因素回歸分析篩選出9個預測變量。由于腫瘤大小、骨轉移對應的回歸系數較小,對模型預測結果影響也小,故僅納入年齡、T分期、N分期、淋巴結清掃數目、手術、放療、肝轉移7個預測變量構建列線圖。對應變量的右邊刻度線段表示該變量的取值范圍,每個變量的每個取值水平對應圖中最上方的分值進行評分,然后再將所有評分相加對應圖下方總分值,便可計算出LUAD腦轉移的風險概率,列線圖總分越高,發生腦轉移概率也越大。(圖3)

圖3 預測LUAD患者腦轉移風險概率的列線圖
訓練集列線圖預測LUAD發生腦轉移風險概率的曲線下面積(area under the curve,AUC)為0.853(95%CI:0.848~0.857),約登指數為0.556,最佳截斷值為254;驗證集列線圖的AUC為0.851(95%CI:0.844~0.858),約登指數為0.557,最佳截斷值為262,表明模型的區分度良好(表3、圖4)。訓練集與驗證集實際預測曲線與模擬預測曲線接近重合,同時結果顯示訓練集與驗證集Brier評分均為0.092,均接近0,表明該模型穩定性較強,有較好的校準能力(圖5)。DCA曲線顯示訓練集和驗證集的風險閾值為0.0~0.7時,基于列線圖模型采取臨床干預決策帶來的凈收益率高于未采取臨床干預決策,表明該列線圖預測模型的臨床效能好(圖6)。

圖4 列線圖模型預測LUAD腦轉移風險概率的ROC曲線

圖5 預測LUAD腦轉移風險概率列線圖模型的校準曲線

圖6 預測LUAD腦轉移風險概率列線圖模型的DCA曲線

表3 列線圖模型預測LUAD患者腦轉移風險概率的效能
列線圖作為新穎而簡便的統計工具[7],可以對LUAD患者腦轉移發生風險進行預測,識別高風險患者,為患者的個體化治療提供科學依據,降低腦轉移發生率。多項研究表明,NSCLC亞組中LUAD腦轉移發生率最高[8-9],腦轉移瘤損壞中樞神經系統,降低認知、運動、情感等高級活動功能[10]。LUAD腦轉移患者中位總生存期明顯短于非腦轉移患者,預后差。目前,臨床缺乏準確性高、適用范圍廣的有效預測模型。因此,本研究綜合LUAD腦轉移獨立影響因素建立預測LUAD腦轉移風險概率的列線圖模型。
本研究的創新之處是應用Lasso回歸分析篩選出最具代表性的預測變量構建列線圖預測模型。相比于傳統的Logistic回歸、最優子集法、隨機森林法,Lasso回歸的另一個優勢是可以對多重共線性的預測變量進行降維,篩選出最具代表性的預測變量,使模型更穩定,降低了模型的復雜度,防止模型過度擬合[11]。Lasso回歸已被廣泛用于醫學領域[12],本研究基于Lasso回歸模型對預測變量進行了篩選,結果從14個主要預測變量減少到9個,最終納入了年齡、T分期、N分期、淋巴結清掃數目、是否手術、是否放療、是否肝轉移7個最優預測變量構建預測LUAD腦轉移風險概率的列線圖模型。模型在訓練集(AUC=0.853)和驗證集(AUC=0.851)中都具有良好的區分能力,校準曲線和Brier評分均顯示模型預測準確度高,DCA顯示該列線圖預測模型的臨床效能好。
LUAD患者發生腦轉移風險因素分析如下:①年齡是LUAD患者發生腦轉移的重要影響因素,年齡與LUAD患者發生腦轉移風險呈負相關。年齡越小,腦血管血流阻力越低,腦組織代謝功能越強,腦血管血流量越充足,給腫瘤細胞轉移提供良好的微環境[13],發生腦轉移風險顯著增加[14]。②腫瘤T分期、N分期是LUAD患者發生腦轉移的影響因素,與發生腦轉移風險呈正相關。T、N分期越高,腫瘤浸潤生長范圍越大[15],腫瘤細胞活躍及侵襲能力越強,更容易通過血行轉移發生腦轉移。③淋巴結清掃數目是LUAD患者的保護因素,多項研究表明,LUAD最常見的手術方式是淋巴結清掃,可以降低腦轉移率[16-17],最佳淋巴結清掃數目為≥15,原因可能是淋巴結清掃數目多,一些手術前檢測不到的微轉移灶被清除,減少了術后微轉移灶殘留[18]。④文獻報道,手術是LUAD首選治療方式,是降低腦轉移發生率的重要影響因素,治療原則為根治性切除,延長患者總生存期[19-20]。本研究結果也顯示,手術治療與LUAD患者腦轉移發生風險呈正相關,已采取手術治療的患者腦轉移發生風險降低,與其結果一致。本研究預測模型顯示放療患者發生腦轉移風險是未放療患者的1.84倍,是LUAD患者發生腦轉移的危險因素。但一項Meta分析中,放療是控制遠處轉移的重要治療手段,可延長LUAD治療過程中初次出現腦轉移的時間[21],與本研究結果不一致。查閱大量文獻,相關方面的研究有限,原因可能是SEER數據庫化療患者初診時已處于晚期,臨床癥狀嚴重,身體機能不能承受手術和藥物治療方式。⑤本研究還發現肝轉移列線圖評分越大,腦轉移的發生率越高。LUAD晚期往往發生血行轉移,首發的是肝轉移,腫瘤細胞進入血液,隨著體循環轉移到腦部[22]。
本研究存在局限性,部分數據如患者的家族遺傳史、吸煙情況、放化療具體臨床治療信息等未輸入SEER數據庫,造成結果存在誤差。本研究仍需收集多中心樣本數據資料進行模型外部驗證,完善預測模型。
綜上所述,本研究構建的可視化LUAD患者腦轉移預測模型,經AUC、校準曲線、Brier評分、DCA曲線分析驗證了模型識別腦轉移高危患者的準確度較高,以及預測模型在臨床上有較好的實用價值,有助于臨床醫師識別腦轉移高風險人群,提前制訂個體化干預措施,提高患者生活質量,減輕社會疾病負擔。