李 淼 羅天娥△ 郭 強 于智凱 趙晉芳 段 燕
【提 要】 目的 應用隨機生存森林模型探討肺癌患者預后影響因素的重要性并對預測結果進行評價。方法 對山西省某三甲醫院342例確診的肺癌患者進行隨訪研究,建立隨機生存森林模型,并與傳統的Cox回歸模型進行比較。結果 342例肺癌患者中226例患者發生死亡,中位生存時間為28.23月。治療方式、腫瘤大小、臨床分期等變量是影響肺癌患者預后的重要因素,淋巴結轉移、分化程度、病理分型、年齡是中度預測因素,并分析了變量之間的交互作用。二者的模型比較結果顯示隨機生存森林模型預測錯誤率以及預測誤差均低于Cox回歸模型。結論 隨機生存森林模型擬合效果好,可用于右刪失生存數據的分析,不但能發現重要的影響因素,還能發現變量之間的交互作用,為肺癌患者預后狀況的改善,提升生命質量提供科學依據。
癌癥是世界范圍內一個重大的公共衛生問題。目前,肺癌已經成為中國人口的主要死因,產生了沉重的疾病負擔[1],且肺癌患者預后較差[2]。因此,做好肺癌患者治療后生存狀況的影響因素研究是非常必要的。目前常用傳統的Cox回歸模型對患者的生存預后因素進行分析,但由于模型要求滿足比例風險(PH假定),在實際應用時會遇到不滿足的情形[3],且模型不能自動識別交互作用,使其應用受限。而隨機生存森林模型(random survival forests,RSF)沒有PH假定的限制,也可自動識別變量間交互作用[4],目前已有一些高維生存數據方面的應用,可提高預測性能[4-5]。本研究將RSF模型應用于肺癌患者的臨床隨訪資料,對患者預后因子進行評估,探討因素間交互作用,并與傳統的Cox回歸模型的預測性能進行比較,尋找沒有太多限定,能發現主要的影響因素及分析因素間的復雜關系的生存分析模型,為探索肺癌患者預后的改善提供理論指導,為預防重大疾病,實現全民健康這一目標提供科學依據。
本研究數據來源于山西省某三甲醫院呼吸科,隨訪隊列人群為首次確診并住院治療的肺癌患者共342例,隨訪時間從2011年1月1至2018年12月31日,數據包含患者的一般人口學特征以及臨床資料,自變量包括:家族史、既往史、吸煙史、年齡、性別、病理分型、臨床分期、分化程度、腫瘤大小、淋巴結轉移、治療方式、復發次數,反應變量為生存時間和生存結局。
隨機生存森林(RSF)是由Ishwaran等于2008年[6]提出的一種非參數和非線性的樹集成學習方法,是隨機森林(RF)基于右刪失生存數據的擴展,與RF具有相似的特點。它是一種自適應過程,能夠模擬非線性效應和特征之間的復雜交互作用,這些特征使其能夠很好地適應復雜的生存數據。在RF中,以兩種形式引入隨機化。首先是隨機抽取的自助采樣(bootstrap)樣本生成一棵樹;其次是在樹的每個節點,隨機選擇協變量的子集作為分裂的候選變量。RSF是由一組二元決策樹計算出來的,應用bootstrap和隨機節點分裂來生長獨立決策樹,然后將所有的樹集合形成RSF。在RSF中,每棵樹由分類或拆分的節點變量組成,其中樹節點根據子節點之間的最大生存差異進行分裂。患者的生存時間和生存狀態是反應變量,通過計算數據集中每個樣本的累積風險函數,根據生存時間進行匯總產生集成死亡率的預測結果。因此,可以在不滿足PH假定條件下,從客觀角度自動評估所有變量之間的復雜影響和相互作用,并基于模型輸出的重要性值進行排序,找到有影響的協變量,同時也能降低泛化誤差。
(1)通過自助采樣從原始數據中得到ntree個樣本,每個樣本平均包含63%的原始觀測數據,其余37%作為袋外數據(out-of-bag,OOB數據)。自助采樣過程中通過引入隨機化,降低了集合樹的泛化誤差。生成的OOB數據用于獲得計算集成CHF的預測錯誤率。
(2)每個自助采樣樣本生長一棵生存樹。在樹的每個節點,隨機選擇mtry個變量作為候選變量,選擇使子節點間生存差異最大的候選變量作為節點進行分裂,通過對數秩(logrank)或對數秩得分(logrank score)分裂準則比較兩組的生存曲線,評價分裂變量和分裂點的有效性。對數秩檢驗已被證明是在比例和非比例風險的情況下分裂生存樹的一種有效檢驗方法[8]。
詳細過程為:分裂變量和分裂點是通過隨機選擇變量x的子集和所有可能的分裂點c來建立的。選擇能使子節點之間的生存差異最大化的候選變量x*和分裂點c*。在隨機分裂方法中,考慮變量x上所有可能的分裂點。對于連續變量,采取x≤c和x>c的形式直接分裂。當xi≤c和xi>c時,具有變量值xi的個體i將分別分配給左、右子節點。若分裂變量是分類變量,則考慮其所有水平來分組。例如一個具有4個水平的分類變量x,有兩種分組方法。第一種方法是一個水平表示一節點,其余三個水平表示另一節點;第二種方法是左右兩個節點都有兩個水平。隨著分類變量水平量的增加,可能的分裂組合數隨之增加。
(3)在終節點不少于nodesize個事件的條件下生長樹,否則樹停止生長。
(4)為每棵樹計算一個累積風險函數(CHF),計算其平均值為集成CHF。

(1)
式中,di,h表示在時間ti,h處的死亡人數,Si,h表示在ti,h處于風險的人數(即期初例數)。在相同的終端節點h處的個體具有相同的CHF。
每個有d維協變量Xi的個體i,屬于一個唯一的終節點h,將終節點h的CHF作為具有協變量Xi的個體i的CHF,用H(t|Xi)表示個體i的CHF,則
(2)
集成CHF見公式(3),即CHF的平均值。
(3)
(5)利用OOB數據,計算集成CHF的預測錯誤率。預測錯誤率用C指數評估。
公式(3)表示使用所有的生存樹來估計具有協變量Xi的個體i的CHF。通過再次簡單抽取樹的平均值來獲得OOB估計值,指示變量Ii,b用于選擇要使用的樹,如果Ii,b=1表示i屬于OOB的個體,Ii,b=0表示i屬于bootstrap樣本的個體。則OOB樣本的CHF為:
(4)
預測錯誤率用C指數評估。通過比較觀察到的生存時間和整體死亡率來計算一致性指數。例如在所有組成的每一對觀測對象中,假定個體i比j有更差的預測結局,i的集成死亡率比j高,即:
(5)
若觀察到的生存時間ti>tj,則認為i和j的預測與實際觀測不一致。反之,如果觀察到i的生存時間低于j,則i和j的預測與實際觀測一致。統計預測正確的對數,計算其在可評價總對數中的比例,為一致性指數C,預測錯誤率為1-C。
(1)預測錯誤率
Harrell的一致性指數(C指數)是衡量生存模型是否能區分高低風險人群的指標[6]。它不依賴于選擇一個固定的時間來評估模型,并特別考慮到個體刪失。預測錯誤率介于0到1之間,0.5意味著與隨機估計的結果一致,0值認為是預測效果最好。本文用1-C計算的錯誤率來量化Cox回歸模型和RSF模型的比較結果。
(2)預測誤差曲線

模型的建立與評價均通過軟件R 3.6.2實現:應用survival包中的coxph()函數建立Cox回歸模型,應用randomForestSRC包建立RSF模型,應用pec包進行模型比較。
本研究獲得有效病例342例,中位生存時間為28.23月,226例患者發生死亡,其余116份病例至研究時間截止仍存活或未發生指定的結局事件,數據的刪失比例約占33.9%。以肺癌患者的生存時間(天)和生存結局(刪失:0;死亡:1)為應變量,家族史(無:0;有:1)、既往史(無:0;有:1)、吸煙史(無:0;有:1)、年齡(歲)、性別(男:0;女:1)、病理分型(鱗癌:0;腺癌:1)、臨床分期(I期:1;II期:2;III期:3;IV期:4)、分化程度(中分化:0;低分化:1)、腫瘤大小(cm)、淋巴結轉移(無:0;有:1)、治療方式(非手術治療:0;手術治療:1)、復發次數(0次:0;1次:1;大于等于2次:2)12個指標為自變量分別建立Cox回歸模型與RSF模型。
342例肺癌患者的年齡平均為(59.6±9.9)歲,最小年齡29歲,最大年齡為84歲;腫瘤大小(3.85±1.89)cm,最小值為0.3cm,最大值為10.1cm;其余變量的基本信息見表1。

表1 342例肺癌患者的隨訪資料的統計描述
將所有自變量納入Cox回歸模型,采用逐步回歸方法(α入=0.05,α出=0.10)進行影響因素的篩選,結果見表2。分析結果可見年齡、臨床分期、分化程度、腫瘤大小、淋巴結轉移、治療方式與復發次數對肺癌患者預后有影響。

表2 Cox回歸模型逐步回歸分析結果

(1)自變量重要性分析
RSF模型很重要的一個結果為根據VIMP值進行變量重要性排序,VIMP值定義為有噪聲和無噪聲的預測誤差之間的差異[11],用來評估各個變量在預測中所起的作用。本研究得出結論:肺癌患者的治療方式、腫瘤大小、臨床分期、復發次數是高度預測因素;淋巴結轉移、分化程度、病理分型、年齡是中度預測因素;性別、吸煙史、既往史和家族史是不重要的預測因素[6]。結果見表3。

表3 各變量重要性值
(2)自變量間交互作用的分析
在醫學研究中,疾病的發生與預后往往受到多個因素的影響,變量之間的交互作用也是非常重要的。變量間的交互作用非常復雜,通常用兩個或多個自變量的乘積即交互項來研究。交互項的存在表明某個解釋變量對應變量的作用是以另一個解釋變量的不同取值為條件的。RSF能夠自動擬合交互作用,同時控制過擬合[6]。本文應用RSF模型來分析肺癌患者預后影響因素之間的交互作用,部分結果見表4。

表4 交互作用分析
表4按成對交互從大到小排序,結果可見交互作用最大的兩個變量是治療方式與臨床分期,其次是治療方式與腫瘤大小,治療方式與淋巴結轉移,之后的關聯性急劇下降。為了進一步解釋變量之間的交互關系,繪制了在不同的治療方式與臨床分期的條件下,腫瘤最大徑與生存時間之間的coplot圖,見圖2。
圖1結果可見,平滑曲線描述的是每個患者的生存曲線。以圖1選擇兩種情況的生存曲線圖來進行解釋,如臨床分期為1期,治療方式為1(手術組),可見大多數肺癌患者的腫瘤最大徑較小,生存曲線最好,生存時間最長(見第一行第一列),提示肺癌患者如果能早診斷、早治療,預后較好;對于臨床分期為4期,治療方式為0(非手術組)的患者存活率是最差的(見第二行第四列);腫瘤大小不同,生存時間也不同,腫瘤大小變異范圍是0~10cm,總的來說,對于腫瘤最大徑<2cm的患者,生存時間約為1000天,而腫瘤最大徑>6cm的患者,生存時間降為500天左右。

圖1 變量的交互作用對生存時間的影響

圖2 預測誤差曲線比較
Brier分數預測值越低,表明預測精度越好。根據Brier分數的預測結果繪制預測誤差曲線,見圖3。結果表明,隨著生存時間的延長,RSF模型的預測精度均優于Cox回歸模型,即RSF模型的預測結果中個體預測值之間較為一致,且與真實值較為接近。在1500天以后,隨著生存時間的延長,兩個模型的預測誤差均上升,甚至高于K-M估計,表明二者對于生存時間較短的患者(2年以內)以及生存時間長(超過5年)的患者的預測效果均差于生存時間處于3~5年之間的患者的預測效果,對生存時間處于3~5年中間的患者的預測精度較好。
表5為兩模型一致性錯誤率的比較,總的來講RSF模型一致性錯誤率低于Cox回歸模型(除第3年)。

表5 預測錯誤率比較(%)
隨機生存森林(RSF)通過引入隨機化,應用bootstrap和隨機節點分裂來生長獨立決策樹,將所有的樹集成形成RSF。可以防止過擬合、不受PH假定的限制,自動評估所有變量之間的復雜影響和相互作用,RSF模型不依賴于P值,可以根據數據分析變量之間的線性或非線性的關系,常用于復雜生存數據的變量篩選和預測。克服了Cox回歸遇到的一些限制。使用OOB估計來取代交叉驗證,大大減少了計算時間。
目前,關于各因素間的交互作用對疾病預后的影響分析較罕見[12]。本研究將RSF用于肺癌患者的生存分析中,確定影響預后的高度預測變量,分析了變量間的交互作用,并以可視化的形式表現出來,結果解釋合理。而在Cox回歸分析中分析交互時,需根據專業知識提前指定交互項,加到模型中進行分析,使分析趨向復雜[13]。
研究利用預測錯誤率和預測誤差曲線對RSF和Cox回歸模型進行比較,發現RSF的預測性能總的來說優于Cox回歸。目前,RSF模型已應用于多種臨床疾病數據,包括食管癌[14]、乳腺癌[13]以及基因組學數據[15]。將RSF與包括Cox回歸模型在內的其他方法進行比較,均表明RSF優于或與其他模型性能相當[16]。由于RSF是基于隨機節點分裂來生長決策樹,本次研究變量大多為多分類變量,RSF在隨機選擇分裂點時不可避免地存在偏倚,后續基于RSF模型的優化有待進一步研究。