喬 良 宋子珺 葉可柯 李明峰
食管癌是中國第4位最常見惡性腫瘤,其5年相對生存率僅為20.9%[1]。根據全球癌癥狀況最新數據Globocan估計,2012年全球食管癌死亡人數為40.02萬人,我國食管癌死亡人數為19.75萬人,占全球總數的49.35%,預計2035年發病和死亡人數將分別達到43.4萬和40.8萬人[2]。我國1996-2013年食管癌患者在不同省市的均次直接醫療費用為6851~57554元,年均增長率為11.89%,對患者家庭造成沉重經濟負擔[3]。
食管癌的早期介入能夠顯著改善患者預后,而對晚期患者而言,美國國家綜合癌癥網(National Comprehensive Cancer Network,NCCN)建議卡氏性能量表(Karnofsky performance scale,KPS)評分≤60%或美國東部腫瘤協作組(Eastern Cooperative Oncology Group,ECOG)評分≥3分的患者放棄積極放化療,轉為姑息治療和(或)最佳支持治療(best supportive care,BSC)[4-5]。然而,患者諸如病程長短、腫瘤分期、治療史、并發癥和當前的身體情況等,醫生所接觸的患者事實上存在巨大的個體差異,使用單一、且偏主觀的評估指標在具體臨床工作中的指導價值有限。當醫生面對患方詢問“現在這個情況,還能活多久”之類的問題時,只能靠經驗作答,并無指南可依。
機器學習(machine learning)是人工智能技術的分支,能夠利用算法和訓練數據自我迭代并改進,協助人類處理信息量巨大和復雜的數據,在臨床診斷和基礎科學研究中廣泛運用[6-7]。本研究采集246名患者的基本信息、腫瘤信息、治療情況、目前身體狀況等4個方面22個特征(feature)數據,建立線性回歸預測模型,利用機器學習中的梯度下降法迭代參數并測試,預測患者生存期,探索此類機器學習模型在中晚期食管癌生存期預測中的作用。
收集2012年7月1日至2017年9月30日解放軍第455醫院消化內科收治的246例III、IV期食管癌患者資料數據,全部出現終點事件(死亡)。所有食管癌患者均得到病理學或細胞學確診,相關病史資料的收集均經研究對象知情同意后由專業調查員和醫生收集,其中22例特征項(X01-X22)資料見表1。

表1 特征項X01-X22病歷資料
本研究選取食管癌最常用3種類型化療藥物:鉑類、氟尿嘧啶、紫杉醇及其相關衍生物。如患者使用“多西紫杉醇+卡鉑”方案化療3次,后使用“順鉑+替吉奧”方案化療2次,則統計:①鉑化療積累值=5(卡鉑3+順鉑2);②Fu化療積累值=2(替吉奧2);③Tax化療積累值=3(多西紫杉醇3)。
使用監督學習、線性回歸代價函數(cost function),利用梯度下降法(gradient descending)迭代并測試。在246例患者中隨機選擇164例(占66.7%)樣本作為訓練集(training set,x_train),82例(占33%)作為測試集(test set,x_test)。采用矩陣實驗室(matrix laboratory,MATLAB)2016b建立線性回歸模型,將表1中的22個特征項(X),進行特征縮放后加入X0=1構成23×164維矩陣作為輸入變量;實際生存期(Y)為期望輸出值;設學習速率為α=0.05,初始參數θ為隨機設置的23維向量(初始|θ|<1.2);迭代次數(iteration)為15000;所用函數為一次線性回歸函數(公式1):

梯度下降所用偏分導數(partial derivative(公式3):

訓練后得到最終參數θ_final,同x_test代入原線性回歸方程,輸出即得到測試集患者的預測生存期(P)(公式4):

P=101f(x)(P,單位:月),見表2。

表2 訓練后所得最終參數θ_final
統計采用SPSS 23.0軟件回歸分析包,將預測生存期(P)同實際生存期(Y)進行統計學對比,采用線性擬合度評價其相關性,采用殘差分析評價預測模型優度。

圖1 回歸模型殘差分析結果示圖
(1)線性擬合度。經測試,預測生存期(P)同實際生存期(Y)線性擬合度r=0.890,r2=0.791,見表3。

表3 線性擬合度模型
(2)方差分析。預測值平均數=16.2317,殘差標準差=4.7337,其結果具有統計學意義(F=303.219,P<0.001),見表4、表5。

表4 方差分析

表5 殘差統計
(3)模型輸出預測生存期(P)同實際生存期(Y)呈強線性正相關,可解釋實際生存期79.1%的變異,回歸標準化殘差符合正態分布(如圖1所示)。
本研究中,22個特征項(X)的設計有二分類項(即是或否)和數值項,選擇包括患者基本信息(性別、年齡、身高、體重和吸煙史)、腫瘤信息(病程、分期、遠處轉移和并發癥)、治療情況(放化療累積劑量、手術史)以及目前身體狀況(PS評分、貧血程度和白蛋白)等4個方面。酒精和煙草濫用是食管鱗狀細胞癌的高危因素[8]。然而,因酒種類繁多、酒精攝入難以量化,數據真實性差,故僅使用吸煙納入特征項。全球食管癌協作組織(Worldwide Esophageal Cancer Collaboration,WECC)統計4627例接受原發性食管切除術患者,無論術前或術后是否接受其他治療,患者的生存率隨著腫瘤侵襲深度(T),局部淋巴結轉移(N)和遠處轉移(M)的增加而下降[9]。特征項選擇亦包含傳統TNM分期,但將遠處轉移(M)中的骨、腦及腹腔轉移分別單獨列為特征項(X10、X11、X12)和肺累及(X14)均為二分類項,其相對應的參數(θ10=-0.154,θ11=-0.205,θ12=-0.007,θ12=-0.527)的權重不同有一定參考價值,提示不同部位的轉移灶對生存期的影響可能存在較大差異。輔助進食設備和措施(鼻飼管、支架、胃腸造瘺)的使用對延長患者生存期、改善患者生存質量有幫助[10-11]但亦提示該患者預后欠佳(θ16<0)。此外,吸煙史θ07=-0.005權重極小,而常數項θ0=1.0749、病程θ1=1.0121、白蛋白θ22=1.3457對應的權重值較大,是由于其特征項屬于數值項,權重值的大小同特征縮放規則直接相關,單純對比無意義。
本研究中所選用特征項,涵蓋了大部分臨床醫師同患者的初步接觸過程中,所能夠第一時間采集到的病史信息;且均設置了采集時間,即該患者處于該時間點時的狀態。研究過程和最終預測算法的實現,一定程度上模擬了醫師根據患者信息結合自身經驗做出生存期預測的過程。在臨床工作中,醫師很難同時對多名患者進行數十個臨床指標的監控,但計算機可以做到。本研究所用機器學習模型,對臨床醫師在中晚期食管鱗癌患者生存期預測方面,有極佳的參考價值??煽俊⒋_切的生存期限,相較于生存概率數字,能幫助醫師更直觀地向患方闡述病情、把握患者進入姑息治療的時間,避免過度治療及醫療資源的浪費。
依賴于計算機強大的儲存、運算能力及海量的訓練數據,機器學習技術在醫學領域中的作用逐漸得到重視。該技術的基本原理是從訓練集中學習獲得數據間的相互關系,后將其用于對新數據的分析,并輸出結果。運用梯度下降算法的線性回歸模型是其基礎算法的一種,與傳統統計學中線性回歸的不同在于,其能夠根據新加入的訓練數據,自行修改權重參數并重新擬合。機器學習等人工智能模型的預測效果同模型的算法及訓練數據量相關,而在訓練數據量足夠大時,算法本身的優劣差異會變得極小[12-13]。后續的研究中,可收集更多數據用于訓練;加入多次項參數,改良算法,以期更佳的預測效果。并嘗試修改部分特征項,可向其他病種推廣。