閆 慈,古麗努爾·阿卜杜熱合曼,張 旭,孫 剛
(新疆醫(yī)科大學(xué)附屬腫瘤醫(yī)院信息管理與大數(shù)據(jù)中心,烏魯木齊 830011)
據(jù)2020全球癌癥統(tǒng)計顯示,乳腺癌占總體癌癥發(fā)病的11.7%,其發(fā)病率和病死率均位于女性癌癥首位[1]。通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用于癌癥領(lǐng)域,深刻挖掘乳腺癌的預(yù)后機制,對乳腺癌患者的生存具有重大現(xiàn)實意義。預(yù)后分析中廣泛采用COX回歸模型預(yù)測患者的生存率[2],該模型要求自變量間相互獨立[3]。但在醫(yī)學(xué)數(shù)據(jù)中,海量的臨床數(shù)據(jù)間常呈現(xiàn)共線性和高冗余性[4],此時COX回歸不再適用。貝葉斯網(wǎng)絡(luò)通過構(gòu)建有向無環(huán)圖直觀反映多因素間的潛在關(guān)系[5],利用條件概率分布反映關(guān)系強度[6]。最小絕對收縮和選擇算法(the least absolute shrinkage and selection operator,LASSO)回歸在處理多重共線性數(shù)據(jù)時具有明顯優(yōu)勢[7]。因此,本研究利用LASSO回歸和貝葉斯網(wǎng)絡(luò)構(gòu)建乳腺癌患者5年預(yù)后風(fēng)險預(yù)測模型,以期探討乳腺癌預(yù)后的因果聯(lián)系并發(fā)現(xiàn)未知或潛在的危險因素,現(xiàn)報道如下。
回顧性分析本院乳腺癌專病庫系統(tǒng)中2010年1—12月17 104例患者的病例資料。納入標(biāo)準(zhǔn):(1)首診為乳腺癌;(2)女性;(3)患者隨訪結(jié)局與基線信息完整。排除標(biāo)準(zhǔn):(1)存在多原發(fā)腫瘤;(2)無5年隨訪結(jié)局。
1.2.1LASSO回歸
LASSO回歸是一種處理復(fù)共線性數(shù)據(jù)的有偏估計[8]。它通過把一些不重要變量的回歸系數(shù)壓縮到零達(dá)到變量篩選的目的,進而獲得更高的模型預(yù)測精度和概化能力[11],使得模型更易解釋[9]。模型在lambda.1se時可得到1個具備優(yōu)良性能但自變量個數(shù)最少的模型[10]。
1.2.2貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)通過構(gòu)建有向無環(huán)圖反映變量間的交互作用和概率依賴關(guān)系[13]。圖的節(jié)點表示各變量,有向邊表示變量間依賴關(guān)系。在以乳腺癌預(yù)后為目的的研究中,通過尋找與乳腺癌隨訪結(jié)局相關(guān)的變量及其變量間的相關(guān)關(guān)系達(dá)到輔助臨床識別乳腺癌預(yù)后影響因素及相互作用關(guān)系的目的[14]。
1.2.3模型評價指標(biāo)及驗證
選取準(zhǔn)確率、F值、曲線下面積(area under curve,AUC)、95%CI作為模型評價指標(biāo)。此外,為了避免數(shù)據(jù)過擬合,模型更穩(wěn)定可靠,研究將數(shù)據(jù)集按6∶2∶2比例劃分為訓(xùn)練集、驗證集、測試集,用訓(xùn)練集訓(xùn)練模型,驗證集調(diào)節(jié)超參數(shù),測試集評估模型的性能。

以患者的年齡、婚姻狀態(tài)等人口統(tǒng)計學(xué)指標(biāo),腫瘤分期、雌激素受體等病理、免疫組織化學(xué)指標(biāo),手術(shù)、放化療等共75個指標(biāo)為模型的自變量,患者5年的生存結(jié)局為因變量,變量的詳細(xì)信息詳見表1。在首診的乳腺癌患者中生存14 598例,平均年齡(50.4±10.5)歲;死亡2 417例,平均年齡(52.5±12.8)歲;5年生存患者平均隨訪時間為(84.9±33.7)個月,死亡患者平均隨訪時間為(37.1±27.1)個月。

表1 基線表格
LASSO回歸結(jié)果顯示,lambda.1se為0.412 7時,共篩選出與乳腺癌預(yù)后強相關(guān)的18個變量,分別是年齡、民族、初潮年齡、腫瘤分期、腫瘤家族史、是否絕經(jīng)、手術(shù)分組、復(fù)發(fā)轉(zhuǎn)移、組織學(xué)分級、雌激素受體狀態(tài)、孕激素受體狀態(tài)、Ki-67表達(dá)水平、HER2 Fish狀態(tài)、放療、化療、靶向治療、內(nèi)分泌治療、新輔助治療,見圖1。

上橫坐標(biāo)對應(yīng)此時模型中非零系數(shù)的個數(shù)。
按照LASSO回歸篩選的變量構(gòu)建含有18個節(jié)點、28條有向邊的貝葉斯網(wǎng)絡(luò)預(yù)測模型,并獲得各節(jié)點的條件概率。各變量通過復(fù)雜的網(wǎng)絡(luò)關(guān)系與乳腺癌生存結(jié)局建立聯(lián)系,見圖2。雌激素受體狀態(tài)、孕激素受體狀態(tài)、Ki-67表達(dá)水平與放療、化療等中間節(jié)點聯(lián)系,間接影響乳腺癌患者預(yù)后情況的發(fā)生,Ki-67表達(dá)水平與HER2 Fish狀態(tài)間接連接靶向治療,而靶向治療又是乳腺癌患者生存結(jié)局的父節(jié)點,提示Ki-67表達(dá)水平與HER2 Fish狀態(tài)影響乳腺癌患者預(yù)后情況的發(fā)生。

圖中數(shù)據(jù)均為百分?jǐn)?shù)。
貝葉斯網(wǎng)絡(luò)圖已知任意節(jié)點組合信息都可以通過上述貝葉斯模型估計乳腺癌生存預(yù)后情況發(fā)生的概率。如年齡<30歲、腫瘤Ⅰ期、保乳術(shù)、放療后的乳腺癌患者發(fā)生死亡的概率為10.0%;年齡>50歲、腫瘤Ⅳ期、化療后的乳腺癌患者預(yù)后死亡的概率為68.2%,見圖3。

A:年齡<30歲、腫瘤Ⅰ期、保乳術(shù)、放療后的乳腺癌患者復(fù)發(fā)轉(zhuǎn)移、死亡概率預(yù)測;B:年齡>50歲、腫瘤Ⅳ期、化療后的乳腺癌患者復(fù)發(fā)轉(zhuǎn)移、死亡概率預(yù)測;圖中數(shù)據(jù)均為百分?jǐn)?shù)。
貝葉斯網(wǎng)絡(luò)模型性能顯示,驗證集的分類準(zhǔn)確率為84.0%,AUC為0.841,測試集預(yù)測準(zhǔn)確率為82.0%,AUC值為0.813,提示貝葉斯網(wǎng)絡(luò)風(fēng)險預(yù)測模型性能良好,見表2。

表2 乳腺癌患者風(fēng)險預(yù)測模型評價
盡管應(yīng)用多種手段進行治療,但乳腺癌患者的預(yù)后仍不令人滿意[16]。因此,尋找乳腺癌預(yù)測指標(biāo)至關(guān)重要。
醫(yī)學(xué)數(shù)據(jù)常具有高維性、高冗余性和交互性[17],此時使用以變量獨立性為條件的logistic回歸模型分析時會因變量間的多重共線性問題而錯誤估計變量效應(yīng)[18]。因此,如何在海量變量中篩選出性能最好的變量,又能避免模型過擬合是大數(shù)據(jù)分析的關(guān)鍵問題之一。LASSO回歸的特點是在擬合廣義估計方程的同時進行變量篩選,從而有效解決變量共線性問題并最終獲得精簡的統(tǒng)計模型[19]。本研究LASSO回歸篩選出的與乳腺癌預(yù)后強相關(guān)的變量均在研究中得到證實[20-21]。
貝葉斯網(wǎng)絡(luò)模型有助于揭示影響乳腺癌患者預(yù)后各危險因素之間復(fù)雜的網(wǎng)絡(luò)關(guān)系[22]。本研究發(fā)現(xiàn)年齡、腫瘤分期是乳腺癌患者5年預(yù)后的上一級節(jié)點,說明乳腺癌患者5年預(yù)后與年齡、腫瘤分期密切相關(guān),這與杜婧等[23]研究結(jié)果一致。雌激素受體狀態(tài)、孕激素受體狀態(tài)、Ki-67表達(dá)水平與放療、化療等中間節(jié)點聯(lián)系,間接地影響乳腺癌5年生存預(yù)后情況的發(fā)生。同時,Ki-67表達(dá)水平與HER2 Fish狀態(tài)間接連接靶向治療,而靶向治療又是乳腺癌生存結(jié)局的父節(jié)點,這提示Ki-67表達(dá)與乳腺癌患者5年不良預(yù)后的發(fā)生存在伴隨關(guān)系。其原因可能為Ki-67表達(dá)水平可以反映腫瘤增殖能力[24],表達(dá)水平越高,乳腺癌惡性程度更高,容易導(dǎo)致患者治療不徹底,治療后腫瘤更易復(fù)發(fā)轉(zhuǎn)移,進而影響預(yù)后[25]。
綜上所述,乳腺癌預(yù)后影響因素眾多且存在紛繁復(fù)雜的交互作用。年齡、腫瘤分期、手術(shù)方式、放療、化療、雌激素受體狀態(tài)、雌激素受體狀態(tài)、Ki-67表達(dá)水平與乳腺癌患者預(yù)后結(jié)局密切相關(guān),或可作為評估乳腺癌患者5年預(yù)后的潛在指標(biāo)。基于LASSO回歸聯(lián)合貝葉斯網(wǎng)絡(luò)分析構(gòu)建的乳腺癌患者預(yù)后風(fēng)險預(yù)測模型在影響因素分析中更符合實際理論,在乳腺癌患者5年預(yù)后風(fēng)險預(yù)測方面具有較好的臨床應(yīng)用價值。