基于重采樣和集成學習的彌漫大B細胞淋巴瘤患者復發風險預測模型*

2019-09-17 11:55:50趙志強余紅梅鄭楚楚黃雪倩武淑琴羅艷虹

中國衛生統計 2019年4期

王蕾趙志強余紅梅鄭楚楚黃雪倩武淑琴△ 羅艷虹△

【提要】目的對某腫瘤醫院血液科2011-2015年283名彌漫大B細胞淋巴瘤患者進行達到完全緩解后三年內的復發風險預測，為患者三年內的復發情況提供參考。方法用logistic回歸進行復發影響因素分析。采用重采樣(包括SMOTE等三種方法)處理不平衡數據，同時基于boosting集成分別構建C5.0決策樹、SVM和logistic回歸復發風險預測模型。結果由logistic回歸可知，Ki-67(P=0.006,OR=1.826)、LDH是否升高(P=0.012,OR=2.084)、原發縱膈腫物(P=0.033,OR=0.333)及疾病等級(P=0.001,OR=1.605)是彌漫性大B細胞淋巴瘤患者三年復發的重要影響因素。通過將訓練集與測試集回代對各種模型性能進行評價，并用五種評價指標的比較模型性能可知，集成模型均優于其對應的單個學習器；平衡后數據構建模型性能均優于未平衡數據構建模型，其中SMOTE最優；在測試集驗證的模型中，經過SMOTE平衡數據構建SVMBOOST集成模型(準確率=0.93，F值=0.94，AUC=0.93，Rmse=0.26，G-mean=0.93，靈敏度=0.97)和C5.0BOOST模型(準確率=0.94，F值=0.95，AUC=0.94，RMSE=0.24，G-mean=0.94，靈敏度=0.94)，均有較優的表現。結論基于重采樣和集成學習構建的經過SMOTE平衡后SVMBOOST模型達到預期效果。

彌漫大B細胞淋巴瘤(diffuse large B cell lymphoma,DLBCL)是最常見的非霍奇金淋巴瘤(non-Hodgkin lymphoma,NHL)，它在每年新診斷的成人非霍奇金淋巴瘤(NHL)中占30%至40%。雖然R-CHOP(利妥昔單抗Rituximab+環磷酰胺Cyclophosphamide、阿霉素[羥基柔紅霉素]Doxorubicin、長春新堿Vincristine和強的松Prednisone)化療方案是目前的標準治療方法，對于疾病等級Ⅲ、Ⅳ級的患者都有較好的療效，患者生存率為60%～90%。但仍存在30%到50%患者對該方案耐藥，進而使達到完全緩解(complete remission,CR)后的患者有30%復發[1-2]。復發使患者的生存率降到10%～20%。本研究意在對達到完全緩解的患者的復發風險進行預測并探究影響患者復發的危險因素。因30%到50%復發率造成數據的不平衡，故而需對數據進行重采樣使其平衡[3]。將經過重采樣數據與未平衡數據所構建的預測模型的性能進行比較。

傳統用于風險預測的模型是logistic回歸，由于影響DLBCL患者復發因素錯綜復雜，目前尚無定論，故判定患者的復發風險需要收集大量特征。大量文獻表明C5.0算法是在輸入字段(即患者特征)較多的問題中表現較穩健，處理的數據類型可包括連續型和離散型，分類速度快、精度高，可生成易于理解的分類規則，故本研究采用C5.0決策樹構建模型[4-5]。因支持向量機(support vector machine,SVM)針對小樣本、非線性、高維數的數據具有較好的預測性能[6],故選擇SVM構建預測模型。并將以上模型與傳統logistic模型比較。以上模型均為弱學習算法，訓練集中較小波動都會使模型預測結果產生較大變化，而boosting集成通過賦予弱學習器不同權重的方法有效地提高模型性能，本研究采用集成學習[7]，以便使構建模型為臨床醫生對患者三年內復發風險及相關危險因素提供更為有效預測。

資料與方法

本研究數據來源于某醫院2011-2015年被診斷為DLBCL并通過一線化療方案達到完全緩解病例共283例，其中三年內復發人數為71例。根據《2013年中國彌漫大B細胞淋巴瘤診斷與治療指南》[20](中華醫學會血液學分會，2013)及電子病歷記錄情況，收集每個樣本的15個變量。具體變量名稱及賦值見表1。首先錄入到Epidata3.0軟件中，采用雙錄入方式，并逐一核對。表1中可見未復發患者幾乎是復發者的三倍，故而需平衡數據后再進行預測。

原理及方法

本研究分別用欠采樣(under-sample)、過采樣(over-sample)與少類樣本合成過采樣技術(synthetic over-sampling techniques for small samples，SMOTE)采樣對數據進行數據平衡化，分別帶入C5.0決策樹、支持向量機和logistic回歸中構建模型。之后分別用boosting集成，構成C5.0-boosting集成模型，SVM-boosting集成模型和logistic-boosting集成模型。

1.抽樣工作原理及過程

對于不平衡數據主要采用重采樣的方法，重采樣方法可分為兩個層面：(1)數據層面包括過采樣及欠采樣，過采樣通過增加少數類中的樣本數使數據集達到平衡，欠采樣則是通過減少多數類平衡數據集；(2)算法層面包括SMOTE、隨機過采樣等，其中SMOTE是由Chawla于2002年提出的[8]，其主要思想是通過在一些位置相近的少數類樣本中插入增加新的并不存在的樣本點，而非簡單復制已有樣本點。此法可有效避免“過擬合”問題[9]。本研究中使用R軟件中DMwR包中SMOTE語句實現，其中設定perc.over=500,perc.under=100。使用R軟件中ROSE包中ovun.sample語句并設定method選項以實現欠采樣與過采樣。

表1 283例彌漫大B細胞淋巴瘤患者基本特征及賦值

2.支持向量機工作原理

將訓練數據集非線性映射到高維空間(Hilbert空間)，以便將原先線性不可分數據集變為線性可分。并在特征空間中建立最大間距最優分離超平面，使最優超平面與兩類樣本間距離最大[12-14]。其中結構風險最小化思想使學習器經驗風險與泛化誤差均較小。本研究利用R軟件中kernlab包實現中的ksvm語句，其中kernel選項設定為rbfdot，即為高斯核。

3.C5.0決策樹工作原理

C5.0決策樹算法較C4.5決策樹[10-11]加入boosting過程，其分類依據為信息增益(information gain),通過信息增益最大字段對樣本數據分割。通過裁剪合并所得決策樹各節點確定最佳閾值。本研究利用R軟件中C50包中的C5.0語句，若需要對C5.0決策樹進行boosting集成時，設定語句中的trials選項，本研究中將其設為10。

4.集成學習工作原理及過程

集成學習是由多個單個弱學習組成一個強學習器，由同一種弱學習器組成的強學習器稱為同型集成模型。由兩種及以上弱學習器組成的強學習器稱為異型集成模型。本研究中采用boosting算法進行同型集成。boosting集成算法是一種迭代算法，其主要思想是利用重采樣的技術對訓練集樣本進行采樣形成多個樣本子集,將每個樣本子集帶入模型訓練得到一個弱分類器，以每個弱分類器錯誤率計算每個樣本的權值，根據權重投票表決加權求和，最終形成一個強分類器[15]。本研究中對SVM及logistic的集成均是由R軟件caret包中train語句實現。

本研究使用SPSS 22.0進行logistic回歸分析，后使用R軟件進行數據平衡與模型構建。針對所構建的模型主要使用準確率、靈敏度、F值、G-mean、RMSE及AUC等評價指標進行模型評價。

結果

1.logistic回歸結果

將以上變量納入logistic回歸模型中采用向前似然估計方法，構建關于DLBCL患者三年復發風險預測模型，結果見表2。

表2 logistic回歸結果

由logistic回歸結果可知LDH是否升高的比值比(OR)最高，OR=2.084其95%CI為(1.178～3.686)，說明LDH升高的患者的三年復發風險是正常患者的2.084倍。其次為生化指標Ki-67，OR=1.826其95%CI為(1.188～2.806)，說明生化指標Ki-67大于70%患者的復發風險比小于70%的患者高82.6%。疾病等級的OR=1.605其95%CI為(1.208～2.133)，說明患者疾病等級每升高一級其復發風險增加60.5%。原發縱膈腫瘤的OR=0.333其95%CI為(0.121～0.912)，說明原發縱隔DLBCL腫瘤預后較好，較原發其他部位的患者復發風險降低66.67%。

2.運用重采樣與boosting集成后的C5.0決策樹、支持向量機與logistic模型

對數據分別進行循環采樣及模型構建各1000次，并將訓練集與測試集分別代入模型進行驗證，選取以下六個指標對模型進行評價，篇幅所限，僅給出使用測試集的驗證模型評價結果，見表3。(其中用1代表未平衡的數據，2代表經過欠采樣，3代表經過過采樣，4代表經過SMOTE采樣)

表3 測試集驗證模型評價

測試模型中，C5.0BOOST4模型(準確率=0.94，F值=0.95，AUC=0.94，RMSE=0.24,G-mean=0.94，)及SVMBOOST4模型(準確率=0.93，F值=0.94，AUC=0.93，RMSE=0.26,G-mean=0.94)，兩種模型表現較優。

現以AUC為例，對模型的整體效果進行評價。由圖1可知集成模型較各自單個學習器性能好，同時經過重采樣后的數據構建模型較未平衡的數據構建有較好的性能，其中SMOTE采樣方法又優于過采樣與欠采樣的模型結果。由于本研究考慮患者的復發風險，故而復發病例為陽性組，進而采用靈敏度這一針對陽性組預測準確率的指標進一步對模型進行評估。意在觀察該模型的針對訓練集的記憶能力與針對測試集的預測能力，結果見圖1。

由圖2可知，所有模型中訓練模型靈敏度均優于測試模型，平衡后數據所構建模型靈敏度均高于未平衡數據所建模型。通過平衡后數據中，采用SMOTE平衡后SVMBOOST模型對訓練集的靈敏度為0.99，對測試集的靈敏度為是0.97，在兩種情況下靈敏度均最優。

討論

1.DLBCL患者三年復發情況預測

經過logistic回歸共有Ki-67、LDH、原發縱膈腫瘤及疾病等級四個因素進入模型。其中除原發縱膈腫瘤患者預后好于其他型DLBCL患者外，其余均為復發危險因素。Ki-67 抗原是Gerdes等[16]于1984 年發現的一種與細胞增殖相關的核抗原，因其可以反映腫瘤細胞增殖活性，而成為目前應用最廣泛的細胞增殖標記物之一。當前國內外已有大量文獻證明Ki-67高表達與DLBCL患者預后密切相關[17-19],目前該指標已是美國國立綜合癌癥網絡(National Comprehensive Cancer Network,NCCN)指南的必測指標，但其在患者預后及指導治療方面尚無明確作用。

LDH即乳酸脫氫酶，其與疾病等級、年齡、結外受累數目、體能指數共同構成重要的預后因素IPI指數[20]，其中LDH升高、疾病等級增高都會使IPI增大，說明患者預后差，與本研究結果一致。

原發縱隔腫瘤(primary mediastinal large B-cell lymphoma,PMBL)由Lichtenstein等于1980年首次提出[21],是DLBCL中的一種特殊亞型，大量文獻報道其預后好于DLBCL，初治緩解后2年復發率低于DLBCL，與本研究結果一致。但其復發后使用R-CHOP治療效果差，再難緩解，已成為目前一大挑戰[22-23]。

圖1 訓練與測試集AUC比較

圖2 訓練與測試集靈敏度比較

本研究中對患者的復發情況進行預測時構建模型與logistic模型相仿，故提前設定患者復發時間為三年內。但是患者達到完全緩解到復發之間的時間也是可能影響患者復發的重要因素，目前已經有關于使用貝葉斯、決策樹、SVM及神經網絡模型構建Cox生存分析模型[27-28]，目前Cox模型滿足的比例風險假定對數據的要求過于嚴苛，機器學習對數據限制較少而被許多國內外學者應用于生存分析問題中[29]，下一步我們計劃就患者復發過程構建生存分析模型，從而進一步研究更為長期的患者情況。

2.模型分析

SMOTE采樣后的數據構建模型性能好，與其采樣原理密切相關，目前已有大量對SMOTE采樣進行改良的方法，其中大多是應用混合采樣的原理，有待進一步進行模型性能比較。

本研究中將靈敏度作為模型重要評價指標，利用重采樣平衡后數據構建模型性能好于未平衡數據，有效地解決了因復發病例少，特征較多，靈敏度無法提高的問題。

boosting集成模型好于其對應的單個學習器，因其是由多個弱學習器投票產生的強學習器，其他提高學習器性能的方法包括bagging集成、代價敏感等學習方法，Qi Wang等在2017年[26]用經過SMOTE采樣數據構建SVM bagging集成模型的性能優于隨機欠采樣與隨機過采樣等方法，靈敏度為87.1%，與本研究結果一致。但SMOTE模型的其他性能不如其基于邊界信息SMOTE采樣得到的模型，故可進一步進行采樣方法比較。本研究表明單模型與集成模型中SVM模型具有穩健性，靈敏度高，泛化能力強的特性，相比于Yuan Sui等在2014年的研究[24]中同樣采用SMOTE平衡后的數據構建的SVM模型的準確率為92.2%，好于本研究的結果；而本研究結果優于胡明偉等在2017年[25]構建的準確率為82.4%，靈敏度為77.2%的SVM模型。目前已有大量對SVM的改良模型，下一步計劃對此類模型進行比較，從而使預測準確率、模型靈敏度進一步提高。

基于重采樣和集成學習的彌漫大B細胞淋巴瘤患者復發風險預測模型*

資料與方法

原理及方法

結 果

討 論

結果

討論