999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于重采樣和集成學習的彌漫大B細胞淋巴瘤患者復發風險預測模型*

2019-09-17 11:55:50趙志強余紅梅鄭楚楚黃雪倩武淑琴羅艷虹
中國衛生統計 2019年4期
關鍵詞:模型研究

王 蕾 趙志強 余紅梅 鄭楚楚 黃雪倩 武淑琴△ 羅艷虹△

【提 要】 目的 對某腫瘤醫院血液科2011-2015年283名彌漫大B細胞淋巴瘤患者進行達到完全緩解后三年內的復發風險預測,為患者三年內的復發情況提供參考。方法 用logistic回歸進行復發影響因素分析。采用重采樣(包括SMOTE等三種方法)處理不平衡數據,同時基于boosting集成分別構建C5.0決策樹、SVM和logistic回歸復發風險預測模型。結果 由logistic回歸可知,Ki-67(P=0.006,OR=1.826)、LDH是否升高(P=0.012,OR=2.084)、原發縱膈腫物(P=0.033,OR=0.333)及疾病等級(P=0.001,OR=1.605)是彌漫性大B細胞淋巴瘤患者三年復發的重要影響因素。通過將訓練集與測試集回代對各種模型性能進行評價,并用五種評價指標的比較模型性能可知,集成模型均優于其對應的單個學習器;平衡后數據構建模型性能均優于未平衡數據構建模型,其中SMOTE最優;在測試集驗證的模型中,經過SMOTE平衡數據構建SVMBOOST集成模型(準確率=0.93,F值=0.94,AUC=0.93,Rmse=0.26,G-mean=0.93,靈敏度=0.97)和C5.0BOOST模型(準確率=0.94,F值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,靈敏度=0.94),均有較優的表現。結論 基于重采樣和集成學習構建的經過SMOTE平衡后SVMBOOST模型達到預期效果。

彌漫大B細胞淋巴瘤(diffuse large B cell lymphoma,DLBCL)是最常見的非霍奇金淋巴瘤(non-Hodgkin lymphoma,NHL),它在每年新診斷的成人非霍奇金淋巴瘤(NHL)中占30%至40%。雖然R-CHOP(利妥昔單抗Rituximab+環磷酰胺Cyclophosphamide、阿霉素[羥基柔紅霉素]Doxorubicin、長春新堿Vincristine和強的松Prednisone)化療方案是目前的標準治療方法,對于疾病等級Ⅲ、Ⅳ級的患者都有較好的療效,患者生存率為60%~90%。但仍存在30%到50%患者對該方案耐藥,進而使達到完全緩解(complete remission,CR)后的患者有30%復發[1-2]。復發使患者的生存率降到10%~20%。本研究意在對達到完全緩解的患者的復發風險進行預測并探究影響患者復發的危險因素。因30%到50%復發率造成數據的不平衡,故而需對數據進行重采樣使其平衡[3]。將經過重采樣數據與未平衡數據所構建的預測模型的性能進行比較。

傳統用于風險預測的模型是logistic回歸,由于影響DLBCL患者復發因素錯綜復雜,目前尚無定論,故判定患者的復發風險需要收集大量特征。大量文獻表明C5.0算法是在輸入字段(即患者特征)較多的問題中表現較穩健,處理的數據類型可包括連續型和離散型,分類速度快、精度高,可生成易于理解的分類規則,故本研究采用C5.0決策樹構建模型[4-5]。因支持向量機(support vector machine,SVM)針對小樣本、非線性、高維數的數據具有較好的預測性能[6],故選擇SVM構建預測模型。并將以上模型與傳統logistic模型比較。以上模型均為弱學習算法,訓練集中較小波動都會使模型預測結果產生較大變化,而boosting集成通過賦予弱學習器不同權重的方法有效地提高模型性能,本研究采用集成學習[7],以便使構建模型為臨床醫生對患者三年內復發風險及相關危險因素提供更為有效預測。

資料與方法

本研究數據來源于某醫院2011-2015年被診斷為DLBCL并通過一線化療方案達到完全緩解病例共283例,其中三年內復發人數為71例。根據《2013年中國彌漫大B細胞淋巴瘤診斷與治療指南》[20](中華醫學會血液學分會,2013)及電子病歷記錄情況,收集每個樣本的15個變量。具體變量名稱及賦值見表1。首先錄入到Epidata3.0軟件中,采用雙錄入方式,并逐一核對。表1中可見未復發患者幾乎是復發者的三倍,故而需平衡數據后再進行預測。

原理及方法

本研究分別用欠采樣(under-sample)、過采樣(over-sample)與少類樣本合成過采樣技術(synthetic over-sampling techniques for small samples,SMOTE)采樣對數據進行數據平衡化,分別帶入C5.0決策樹、支持向量機和logistic回歸中構建模型。之后分別用boosting集成,構成C5.0-boosting集成模型,SVM-boosting集成模型和logistic-boosting集成模型。

1.抽樣工作原理及過程

對于不平衡數據主要采用重采樣的方法,重采樣方法可分為兩個層面:(1)數據層面包括過采樣及欠采樣,過采樣通過增加少數類中的樣本數使數據集達到平衡,欠采樣則是通過減少多數類平衡數據集;(2)算法層面包括SMOTE、隨機過采樣等,其中SMOTE是由Chawla于2002年提出的[8],其主要思想是通過在一些位置相近的少數類樣本中插入增加新的并不存在的樣本點,而非簡單復制已有樣本點。此法可有效避免“過擬合”問題[9]。本研究中使用R軟件中DMwR包中SMOTE語句實現,其中設定perc.over=500,perc.under=100。使用R軟件中ROSE包中ovun.sample語句并設定method選項以實現欠采樣與過采樣。

表1 283例彌漫大B細胞淋巴瘤患者基本特征及賦值

2.支持向量機工作原理

將訓練數據集非線性映射到高維空間(Hilbert空間),以便將原先線性不可分數據集變為線性可分。并在特征空間中建立最大間距最優分離超平面,使最優超平面與兩類樣本間距離最大[12-14]。其中結構風險最小化思想使學習器經驗風險與泛化誤差均較小。本研究利用R軟件中kernlab包實現中的ksvm語句,其中kernel選項設定為rbfdot,即為高斯核。

3.C5.0決策樹工作原理

C5.0決策樹算法較C4.5決策樹[10-11]加入boosting過程,其分類依據為信息增益(information gain),通過信息增益最大字段對樣本數據分割。通過裁剪合并所得決策樹各節點確定最佳閾值。本研究利用R軟件中C50包中的C5.0語句,若需要對C5.0決策樹進行boosting集成時,設定語句中的trials選項,本研究中將其設為10。

4.集成學習工作原理及過程

集成學習是由多個單個弱學習組成一個強學習器,由同一種弱學習器組成的強學習器稱為同型集成模型。由兩種及以上弱學習器組成的強學習器稱為異型集成模型。本研究中采用boosting算法進行同型集成。boosting集成算法是一種迭代算法,其主要思想是利用重采樣的技術對訓練集樣本進行采樣形成多個樣本子集,將每個樣本子集帶入模型訓練得到一個弱分類器,以每個弱分類器錯誤率計算每個樣本的權值,根據權重投票表決加權求和,最終形成一個強分類器[15]。本研究中對SVM及logistic的集成均是由R軟件caret包中train語句實現。

本研究使用SPSS 22.0進行logistic回歸分析,后使用R軟件進行數據平衡與模型構建。針對所構建的模型主要使用準確率、靈敏度、F值、G-mean、RMSE及AUC等評價指標進行模型評價。

結 果

1.logistic回歸結果

將以上變量納入logistic回歸模型中采用向前似然估計方法,構建關于DLBCL患者三年復發風險預測模型,結果見表2。

表2 logistic回歸結果

由logistic回歸結果可知LDH是否升高的比值比(OR)最高,OR=2.084其95%CI為(1.178~3.686),說明LDH升高的患者的三年復發風險是正常患者的2.084倍。其次為生化指標Ki-67,OR=1.826其95%CI為(1.188~2.806),說明生化指標Ki-67大于70%患者的復發風險比小于70%的患者高82.6%。疾病等級的OR=1.605其95%CI為(1.208~2.133),說明患者疾病等級每升高一級其復發風險增加60.5%。原發縱膈腫瘤的OR=0.333其95%CI為(0.121~0.912),說明原發縱隔DLBCL腫瘤預后較好,較原發其他部位的患者復發風險降低66.67%。

2.運用重采樣與boosting集成后的C5.0決策樹、支持向量機與logistic模型

對數據分別進行循環采樣及模型構建各1000次,并將訓練集與測試集分別代入模型進行驗證,選取以下六個指標對模型進行評價,篇幅所限,僅給出使用測試集的驗證模型評價結果,見表3。(其中用1代表未平衡的數據,2代表經過欠采樣,3代表經過過采樣,4代表經過SMOTE采樣)

表3 測試集驗證模型評價

測試模型中,C5.0BOOST4模型(準確率=0.94,F值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,)及SVMBOOST4模型(準確率=0.93,F值=0.94,AUC=0.93,RMSE=0.26,G-mean=0.94),兩種模型表現較優。

現以AUC為例,對模型的整體效果進行評價。由圖1可知集成模型較各自單個學習器性能好,同時經過重采樣后的數據構建模型較未平衡的數據構建有較好的性能,其中SMOTE采樣方法又優于過采樣與欠采樣的模型結果。由于本研究考慮患者的復發風險,故而復發病例為陽性組,進而采用靈敏度這一針對陽性組預測準確率的指標進一步對模型進行評估。意在觀察該模型的針對訓練集的記憶能力與針對測試集的預測能力,結果見圖1。

由圖2可知,所有模型中訓練模型靈敏度均優于測試模型,平衡后數據所構建模型靈敏度均高于未平衡數據所建模型。通過平衡后數據中,采用SMOTE平衡后SVMBOOST模型對訓練集的靈敏度為0.99,對測試集的靈敏度為是0.97,在兩種情況下靈敏度均最優。

討 論

1.DLBCL患者三年復發情況預測

經過logistic回歸共有Ki-67、LDH、原發縱膈腫瘤及疾病等級四個因素進入模型。其中除原發縱膈腫瘤患者預后好于其他型DLBCL患者外,其余均為復發危險因素。Ki-67 抗原是Gerdes等[16]于1984 年發現的一種與細胞增殖相關的核抗原,因其可以反映腫瘤細胞增殖活性,而成為目前應用最廣泛的細胞增殖標記物之一。當前國內外已有大量文獻證明Ki-67高表達與DLBCL患者預后密切相關[17-19],目前該指標已是美國國立綜合癌癥網絡(National Comprehensive Cancer Network,NCCN)指南的必測指標,但其在患者預后及指導治療方面尚無明確作用。

LDH即乳酸脫氫酶,其與疾病等級、年齡、結外受累數目、體能指數共同構成重要的預后因素IPI指數[20],其中LDH升高、疾病等級增高都會使IPI增大,說明患者預后差,與本研究結果一致。

原發縱隔腫瘤(primary mediastinal large B-cell lymphoma,PMBL)由Lichtenstein等于1980年首次提出[21],是DLBCL中的一種特殊亞型,大量文獻報道其預后好于DLBCL,初治緩解后2年復發率低于DLBCL,與本研究結果一致。但其復發后使用R-CHOP治療效果差,再難緩解,已成為目前一大挑戰[22-23]。

圖1 訓練與測試集AUC比較

圖2 訓練與測試集靈敏度比較

本研究中對患者的復發情況進行預測時構建模型與logistic模型相仿,故提前設定患者復發時間為三年內。但是患者達到完全緩解到復發之間的時間也是可能影響患者復發的重要因素,目前已經有關于使用貝葉斯、決策樹、SVM及神經網絡模型構建Cox生存分析模型[27-28],目前Cox模型滿足的比例風險假定對數據的要求過于嚴苛,機器學習對數據限制較少而被許多國內外學者應用于生存分析問題中[29],下一步我們計劃就患者復發過程構建生存分析模型,從而進一步研究更為長期的患者情況。

2.模型分析

SMOTE采樣后的數據構建模型性能好,與其采樣原理密切相關,目前已有大量對SMOTE采樣進行改良的方法,其中大多是應用混合采樣的原理,有待進一步進行模型性能比較。

本研究中將靈敏度作為模型重要評價指標,利用重采樣平衡后數據構建模型性能好于未平衡數據,有效地解決了因復發病例少,特征較多,靈敏度無法提高的問題。

boosting集成模型好于其對應的單個學習器,因其是由多個弱學習器投票產生的強學習器,其他提高學習器性能的方法包括bagging集成、代價敏感等學習方法,Qi Wang等在2017年[26]用經過SMOTE采樣數據構建SVM bagging集成模型的性能優于隨機欠采樣與隨機過采樣等方法,靈敏度為87.1%,與本研究結果一致。但SMOTE模型的其他性能不如其基于邊界信息SMOTE采樣得到的模型,故可進一步進行采樣方法比較。本研究表明單模型與集成模型中SVM模型具有穩健性,靈敏度高,泛化能力強的特性,相比于Yuan Sui等在2014年的研究[24]中同樣采用SMOTE平衡后的數據構建的SVM模型的準確率為92.2%,好于本研究的結果;而本研究結果優于胡明偉等在2017年[25]構建的準確率為82.4%,靈敏度為77.2%的SVM模型。目前已有大量對SVM的改良模型,下一步計劃對此類模型進行比較,從而使預測準確率、模型靈敏度進一步提高。

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产在线精品99一区不卡| 四虎亚洲国产成人久久精品| 欧美一区二区丝袜高跟鞋| 极品国产在线| 亚洲婷婷在线视频| 午夜国产在线观看| 亚洲国产看片基地久久1024| 国产特级毛片aaaaaa| 玩两个丰满老熟女久久网| 亚洲视频四区| 日韩福利在线观看| 国产香蕉在线视频| 成人va亚洲va欧美天堂| 伊人大杳蕉中文无码| 真实国产精品vr专区| 久久semm亚洲国产| 日韩无码黄色| 欧美一区精品| 国产福利一区视频| 国产综合日韩另类一区二区| 国产在线麻豆波多野结衣| 91黄视频在线观看| 999国产精品| 毛片免费视频| 亚洲美女一区| 亚洲无码A视频在线| 久久精品这里只有国产中文精品| 精品自窥自偷在线看| 欧美精品在线观看视频| 国产精品粉嫩| 香蕉视频在线精品| 欧洲免费精品视频在线| 亚洲综合色区在线播放2019| 国产午夜福利在线小视频| 亚洲精品综合一二三区在线| 亚洲成人免费看| 日韩在线欧美在线| 伊人久久大线影院首页| 国产va在线观看免费| 黄色网站在线观看无码| 精品人妻系列无码专区久久| 性69交片免费看| 日韩色图区| 在线欧美日韩国产| 日韩精品一区二区三区大桥未久 | 国产午夜不卡| 精品无码国产自产野外拍在线| 亚洲色精品国产一区二区三区| 毛片基地视频| 99久久性生片| 国产日本欧美亚洲精品视| 亚州AV秘 一区二区三区| 福利国产在线| 亚洲91精品视频| 国产波多野结衣中文在线播放 | 久久亚洲天堂| 日韩国产精品无码一区二区三区| 超碰色了色| 国产免费羞羞视频| 狠狠做深爱婷婷久久一区| 欧美日韩高清| 国产精品内射视频| 中文国产成人久久精品小说| 爱色欧美亚洲综合图区| 免费AV在线播放观看18禁强制| 国产精品成人免费视频99| 精品国产一区91在线| 精品国产美女福到在线不卡f| 园内精品自拍视频在线播放| 中文字幕亚洲另类天堂| 亚洲一级毛片免费看| 91精品国产无线乱码在线| 性欧美在线| 2021国产乱人伦在线播放| 免费国产不卡午夜福在线观看| 免费又黄又爽又猛大片午夜| 久精品色妇丰满人妻| 999精品在线视频| 国内精品手机在线观看视频| 免费啪啪网址| 福利在线不卡| 爱做久久久久久|