章鳴嬛 陳 瑛 郭 欣 張 璇 季 萌
(上海杉達學院大數據分析與處理研究中心 上海 201209)
乳腺癌是女性最常見的惡性腫瘤,其死亡率高居女性癌癥的第二位。據2018 年統計數據顯示,全球每年有超過50萬婦女死于乳腺癌,超過120萬婦女罹患乳腺癌[1]。因此,對于乳腺癌的預后判斷十分重要。基于大量高質量的、可信度較高的乳腺癌數據對于設計患者的預后評價模型顯得非常必要。
美國國立癌癥研究所“監測、流行病學和結果”數據庫(Surveillance,Epidemiology and End Results,SEER)是北美最具代表性的大型腫瘤登記注冊數據庫之一,為臨床醫師的循證實踐及臨床醫學研究提供了系統的證據支持和寶貴的第一手資料[3]。
近年來,國內外有很多學者利用機器學習方法對 SEER 數據進行挖掘分析。Kim 等[8~9]分別應用支持向量機和樸素貝葉斯方法來分析乳腺癌患者術后的情況。劉雅琴[10]利用三種機器學習算法,對SEER數據庫中的乳腺癌數據進行預后分析。尹玢璨等[11]利用貝葉斯網絡構建并分析亞洲腫瘤患者預后的模型。牟冬梅等[12]通過提取電子病歷信息來構建妊娠高血壓綜合征危險因素預測模型,建立了優化的決策樹模型。
Logistic 回歸(Logistic Regression,LR)和神經網絡(Artificial Neural Network,ANN)是兩種常用的機器學習方法,在包括醫學輔助檢測在內的諸多領域具有廣泛的應用[13~18]。本文基于 SEER 數據庫1990~2014 年間乳腺癌患者的有效數據,分別利用logistic回歸和神經網絡算法建模分析,找出對乳腺癌預后影響最大的若干因素,為臨床醫師開展乳腺癌的治療和預后判斷提供理論依據。
本研究以SEER 中1990~2014年間乳腺癌患者的數據記錄作為研究對象。原始數據中每條記錄共有133字段。由于SEER 中的字段設計是面向多種腫瘤的,很多字段與乳腺癌沒有直接關聯,故在乳腺外科醫生的指導下,選取了12 個與本課題相關的字段。如表1所示。

表1 輸入字段
腫瘤患者5 年生存情況是評價預后效果的重要指標[11]。以乳腺癌患者手術后5 年的生存情況作為輸出變量。此為二分類變量,1 為尚存活,0 為死于乳腺癌。
預處理是使得數據盡量滿足模型輸入要求的過程。在滿足要求的前提下,應盡可能簡化數據形式,以降低建模的復雜度。[19]。
“腫瘤分期”(Stage)為分類型變量,主要有I、II、III、IV 四大類,其嚴重程度依次增加。除上述四大類之外,Stage 的取值還涉及到某些大類中的細項。如II 型又可細分為IIA 和II B,III 又可細分為IIIA、III B、III C 和 IIINOS 等。為降低建模復雜程度,只保留 I、II、III、IV 四大類,而對其余細項加以合并?!澳挲g”為連續型數值變量,為降低分析難度和復雜度,以5 年為一個區間,將年齡數據劃分為18個區域。
預初實驗顯示,數據預處理后共保留樣本445 575 條,其中術后5 年生存情況為存活的樣本有407 114條,死亡樣本有38 461條,樣本數量之比為10.6∶1,兩類樣本極不平衡。若不處理該問題就直接分析,則試驗結果不具有合理性。多次試驗后確定采用三種重抽樣方式,即,過抽樣、欠抽樣,及綜合過抽樣和欠抽樣技術,以保證兩類樣本的數量基本均衡。
本試驗采用Logistic 回歸和神經網絡兩種建模方法。
具有P 個自變量的Logistic 回歸模型如式(1)所示:

從形式上看,當Logistic 回歸方程與一般線性回歸方程的形式相同,可用類似的方法解釋方程中系數的含義[20]。即,當其他解釋變量保持不變時,解釋變量xi每增加一個單位,將引起logi(tP)平均增加(或減少)βi個單位。本試驗中的因變量是患者術后5 年的生存狀態,為二分類變量,故采用二項logistic回歸分析。
人工神經網絡是(ANN)一種模擬人腦思維的計算機建模算法。結構上可劃分為輸入層、隱含層和輸出層。隱含層的層數和每層節點數決定了ANN 的復雜程度。本研究需對患者術后5 年的生存狀態進行二分類判定,這就要確定一個超平面,位于超平面上部的所有樣本點屬于一種情況,位于下部的屬于另一種情況。超平面可由式(2)確定。

式中,n 表示上層節點的個數,Xi為上層第i 個節點的輸出,Wij為上層第i 個節點與本層第j 個節點的連接權值,qj為線性組合中的常數項。其中網絡權值Wij最為關鍵。最初,神經網絡的所有權重均隨機生成,因此該網絡的輸出結果可能無意義。網絡通過不斷地向訓練樣本學習來改變網絡權值,使超平面不斷地向正確方向移動,最終得到期望的輸出結果[21]。本試驗采用多層感知器神經網絡進行建模分析,設置單隱層,以雙曲正切函數作為激活函數。
就輸入變量的形式來看,Logistic 回歸和神經網絡要求輸入變量為數值型。因此,需考慮如何處理分類型變量:對于二分類變量,可轉換為取值為0/1的數值型變量;對于多分類變量,應將其轉換成啞變量。
分析12 個輸入與輸出變量的相關性可知,除了婚姻狀態和組織學形態與輸出的相關性不太明顯(P>0.05),其余10 個輸入變量均與輸出之間有較高的相關性(P<0.05)。因此,首先將全部輸入變量全部納入建模過程,分別使用Logistic 回歸和神經網絡算法建立模型,考察在所有變量的交互作用下,輸入是如何影響乳腺癌的預后情況的。
分別采用過抽樣、欠抽樣,以及聯合使用以上兩種方法,設置合適的抽樣比例,保證兩類樣本數基本平衡。抽樣技術僅針對訓練樣本,對于測試樣本則不使用該技術。樣本的組織方式均采用十折交叉驗證[22],采用靈敏度(Sensitivity)、特異度(Specificity)及分類準確率(Accuracy)來衡量實驗判定所有受試者被正確分類的能力。以TP代表真陽性,FP代表假陽性,TN代表真陰性,FN代表假陰性,則有:Sensitivity=TP(/TP+FN);Specificity=TN/(TN+FP);Accuracy=(TP+TN)(/TP+FN+ TN+FP)。這三個指標的取值均在[0,1]之間,取值越接近1則效果越好[23]。受試者工作特征(ROC)是基于靈敏度和特異度引出的一種直觀的評價方式。ROC以 Sensitivity 為縱坐標,以(1- Specificity)為橫坐標,其曲線下面積(AUC)的取值大于0.7 時診斷價值較高。AUC越大則效果越好[24]。
試驗流程如圖1。
1)過抽樣
存活樣本數為407 114,死亡樣本數為407 659(過抽樣比為1006%),總計814 773 條記錄。分別利用Logistic回歸和神經網絡兩種算法進行建模分析后,得到測試集上的靈敏度(Sensitivity)、特異度(Specificity)、準確率(Accuracy)以及ROC下曲線面積(AUC)如表2所示。

圖1 試驗設計流程

表2 過抽樣技術下兩種模型的性能比較
2)欠抽樣
存活樣本數為38 461(欠抽樣比為9.6%),死亡樣本數為38 828,總計77 289 條記錄。分別利用Logistic 回歸和神經網絡兩種算法進行建模分析后,得到測試集上的性能指標如表3所示。

表3 欠抽樣技術下兩種模型的性能比較
3)過抽樣與欠抽樣相結合
存活樣本數為203 879(欠抽樣比為50%),死亡樣本數為203 541(過抽樣比為530%),總計407 420 條記錄。分別利用Logistic 回歸和神經網絡兩種算法進行建模分析,得到測試集上的性能指標如表4所示。

表4 “過&欠”抽樣技術下兩種模型的性能比較
該抽樣技術下,基于Logistic 回歸模型的乳腺癌生存預測最優模型的部分結果見表5。以腫瘤分級Grade和腫瘤分期Stage為例,二者均為多分類型變量(分類數為4),需轉換成啞變量處理。其中B為回歸系數,S.E.為回歸系數的標準誤差,Wald為Wald 統計量,df 為自由度,Sig 為顯著性水平。Exp(B)為一元優勢比估計值,可用于近似判斷不同組的相對“風險”。

表5 Logistic回歸模型的生存預測部分結果(過抽樣+欠抽樣)
經比較三種抽樣技術下Logistic 回歸和神經網絡的算法評價指標可知,模型的靈敏度、特異度及準確率均在75.4%~78.2%之間,AUC 均在0.847~0.850之間,模型具有較好的性能。
分析三種重抽樣技術下的建模過程可發現,在12 個輸入變量中,對于模型影響最大的變量均為腫瘤分期、腫瘤分級、腫瘤尺寸、雌激素水平、孕激素水平、年齡分組。
模型顯示,在其他輸入變量保持不變的前提下,腫瘤的四種分期(Stage:I、II、III、IV)嚴重程度依次遞增。IV期是I期嚴重程度的48.5~51.3倍,III期是 I 期嚴重程度的 17.4~18.6 倍,II 期是 I 期嚴重程度的4.9~5.2倍。從某種意義上反應了腫瘤不同分期的量化程度。
在其它輸入變量保持不變的前提下,腫瘤的四種分級(Grade:I、II、III、IV)嚴重程度依次遞增。IV期是 I 期嚴重程度的 3.4~3.6 倍,III 期是 I 期嚴重程度的 2.0~2.2 倍,II 期是 I 期嚴重程度的 1.2~1.3倍。從某種意義上反應了腫瘤不同分級的量化程度。
重抽樣過程中,分別采用了過抽樣、欠抽樣以及兩者結合抽樣的方式。試驗設置了一系列抽樣比例,存活樣本與死亡樣本的比例為5∶1~1∶1。結果證明,當抽樣比例使得正負兩類樣本數量趨于平衡時,模型的性能最佳。
由前文結論可知,在12 個輸入變量中,對模型影響最大的變量為:腫瘤分期、腫瘤分級、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。為降低模型的復雜程度,只選用這6 個變量作為建模輸入,且三種抽樣比例仍保持不變。建模后的性能評價如表5。

表5 精簡輸入變量后的模型性能
由表5 可看出,精簡變量前后,模型的靈敏度、特異度及準確率分別介于75.4%~78.2%和75.5%~77.8%,二者差異不大。同時,精簡前后的模型AUC 分別介于 0.847~0.850 和 0.845~0.846,也幾乎無顯著性差異。故可得出結論:模型分析所得的這6 個變量,是影響乳腺癌5 年預后最顯著的因素。該結論也符合臨床醫生的認知。
此外,試驗還利用CRT 決策樹進行了建模分析,得出了近似的結論。決策樹方法篩選出對乳腺癌患者預后影響最大的因子分別是:腫瘤分期、腫瘤分級、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平??芍四挲g分組和孕激素排序的位序略有差異,基于決策樹方法的建模結論與本文結論完全一致。
選用SEER 數據庫中1990~2014年的乳腺癌數據,以術后5 年的存活狀態為觀察點,分別利用logistic 回歸和神經網絡構建模型,以尋求對于對于乳腺癌預后影響最大的因素。研究結果表明:模型在測試集上的靈敏度、特異度及準確率介于75.4%~78.2%之間,AUC均介于0.847~0.850之間,且試驗結論與臨床診斷經驗相吻合。本研究可為乳腺癌治療及預后評價提供理論依據,對于臨床診斷具有一定的輔助作用。