999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層次分類法的彌漫大B細(xì)胞淋巴瘤的疾病進(jìn)展階段多分類預(yù)測(cè)研究*

2021-05-08 05:54:56黃雪倩張巖波鄭楚楚余紅梅范雙龍陽(yáng)楨寰趙志強(qiáng)羅艷虹
關(guān)鍵詞:進(jìn)展分類模型

黃雪倩 張巖波 王 蕾 鄭楚楚 余紅梅 范雙龍 陽(yáng)楨寰 邢 蒙 趙志強(qiáng) 羅艷虹Δ

【提 要】 目的 對(duì)山西省某醫(yī)院2011-2017年確診為彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者進(jìn)行疾病進(jìn)展階段多分類預(yù)測(cè),為患者是否需要及時(shí)轉(zhuǎn)為二線挽救治療或放療等治療手段的選擇提供參考。方法 用層次分類法將三分類的疾病進(jìn)展階段進(jìn)行兩層二分類,分別進(jìn)行變量篩選后,用SMOTE過(guò)采樣處理數(shù)據(jù)中的類別不平衡問題,然后使用SVM、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等單分類器模型與AdaBoost同型集成和Stacking異型集成方法分別構(gòu)建兩層疾病進(jìn)展階段的二分類預(yù)測(cè)模型,最后分別選擇兩層中分類性能最優(yōu)的模型并結(jié)合在一起。結(jié)果 使用經(jīng)SMOTE平衡后的數(shù)據(jù)構(gòu)建的兩層分類模型中的SVMboost集成模型,準(zhǔn)確率分別為0.951和0.972,模型性能均為最優(yōu),因此兩層二分類的基分類器均選擇SVMboost。結(jié)論 本研究構(gòu)建彌漫大B細(xì)胞淋巴瘤患者疾病進(jìn)展階段的層次多分類預(yù)測(cè)模型,其中兩層分類模型中的SVMboost集成模型性能均為最優(yōu),將兩層二分類的基分類器結(jié)合后,準(zhǔn)確率為0.924,高于作為對(duì)比的直接多分類模型,為臨床工作者的診斷與治療方案選擇提供一定參考。

彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是非霍奇金淋巴瘤(non-Hodgkinlymphoma,NHL)中最常見的亞型,占所有NHL的30%~40%[1],是一組具有高度異質(zhì)性的惡性腫瘤,常呈進(jìn)展性。目前利妥昔單抗+環(huán)磷酰胺、阿霉素、長(zhǎng)春新堿和強(qiáng)的松(R-CHOP)是DLBCL的化療首選方案,大部分患者經(jīng)治療后可以達(dá)到完全緩解(complete remission,CR)。但仍有部分患者在治療中病情進(jìn)展或緩解后早期復(fù)發(fā)(緩解期小于一年),且復(fù)發(fā)后治療反應(yīng)率較低,反應(yīng)持續(xù)時(shí)間較短,最終轉(zhuǎn)變?yōu)殡y治性DLBCL,成為DLBCL主要死亡原因[2-3]。針對(duì)復(fù)發(fā)性和難治性DLBCL,臨床上研發(fā)了很多二線挽救治療方案,能有效延長(zhǎng)患者的總生存期(overall survival,OS),提高患者生存質(zhì)量。自體造血干細(xì)胞移植和低劑量姑息性放療等方法[4]對(duì)難治性侵襲性淋巴瘤也有一定效果。復(fù)發(fā)性和難治性DLBCL通常對(duì)一線治療方案不敏感或產(chǎn)生耐藥性,若不能準(zhǔn)確地對(duì)疾病進(jìn)展階段進(jìn)行判斷,重復(fù)地對(duì)其進(jìn)行無(wú)用治療,不僅會(huì)錯(cuò)過(guò)最好的二線挽救治療時(shí)機(jī),還會(huì)給患者帶來(lái)一定的心理負(fù)擔(dān)和經(jīng)濟(jì)負(fù)擔(dān)。因此,對(duì)DLBCL疾病的進(jìn)展階段進(jìn)行精確的分類預(yù)測(cè)有較大的現(xiàn)實(shí)意義。

資料來(lái)源

本研究數(shù)據(jù)來(lái)自于山西省某醫(yī)院2011-2017年被確診為DLBCL的患者,共384例。其中復(fù)發(fā)性DLBCL是指初次化療獲得完全緩解后復(fù)發(fā)的淋巴瘤,共74例;難治性DLBCL是指滿足以下任何一項(xiàng):①經(jīng)標(biāo)準(zhǔn)方案規(guī)范化療 4 個(gè)療程,腫瘤縮小<50%或病情進(jìn)展;②經(jīng)標(biāo)準(zhǔn)方案化療達(dá)CR,但半年內(nèi)復(fù)發(fā);③CR后2次或2次以上復(fù)發(fā);④造血干細(xì)胞移植后復(fù)發(fā),共38例;剩余病例為一般性DLBCL[5],共272例。因不同疾病進(jìn)展階段的病例數(shù)量差距較大,造成了數(shù)據(jù)的不平衡,因此需要對(duì)數(shù)據(jù)進(jìn)行過(guò)采樣使其平衡。本文采用的過(guò)采樣方法是SMOTE算法。

原理及方法

1.類別不平衡數(shù)據(jù)

SMOTE(synthetic minority over-sampling technique)[6]算法在2002年被提出并得到認(rèn)可,它的基本思想是通過(guò)人工合成新的少數(shù)類樣本來(lái)降低類別不平衡性。具體做法是:假設(shè)鄰近參數(shù)為k,首先從每個(gè)少數(shù)類樣本的x個(gè)同類最近鄰中隨機(jī)選擇k個(gè)樣本;然后將每個(gè)少數(shù)類樣本分別與選中的k個(gè)樣本按式(1)合成k少數(shù)類新樣本;最后,將新樣本添加至訓(xùn)練樣本集中,形成新的訓(xùn)練樣本集[7]。

xnew=x+δ(y[i]-x)

(1)

式中:xnew為合成的新樣本;x為少數(shù)類樣本;δ為0到1之間的隨機(jī)數(shù);y[i]為x的第i個(gè)近鄰樣本。

在 SMOTE 算法中,鄰近參數(shù)k是否能夠合理設(shè)置將直接影響最終的分類性能。通常設(shè)置鄰近參數(shù)k=5。

本研究中SMOTE使用R軟件中DMwR包SMOTE語(yǔ)句實(shí)現(xiàn),其中設(shè)perc.over=500,perc.under=100。

2.分類模型

多分類的本質(zhì)是多次二分類,包括直接法和間接法。直接法是直接在目標(biāo)函數(shù)上修改,將多個(gè)分類面的參數(shù)求解合并到一個(gè)最優(yōu)化問題中,通過(guò)求解該最優(yōu)化問題一次性實(shí)現(xiàn)多分類。該方法看似簡(jiǎn)單,但其計(jì)算復(fù)雜度較高,且沒有通用的多分類求解法,需要根據(jù)具體問題設(shè)計(jì)策略,實(shí)現(xiàn)起來(lái)較困難,且分類準(zhǔn)確率不高;間接法主要是通過(guò)組合多個(gè)二分類器來(lái)實(shí)現(xiàn)多分類器的構(gòu)造,常見的方法有“一對(duì)一”(one-versus-one,OVO)、“一對(duì)其余”(one-versus-rest,OVR)和層次分類法等。

(1)層次分類法原理

本文采用的是層次分類法[8-9],其原理是第一層將所有類分為一級(jí)子類,第二層再將一級(jí)子類進(jìn)一步分為二級(jí)子類,直到能夠區(qū)分所有類別為止。圖1為包含四個(gè)類別的兩種層次結(jié)構(gòu)。圖1(a)是完全二叉樹,它在每個(gè)決策節(jié)點(diǎn)將所包含的類別分為兩個(gè)包含類別數(shù)目相同的子類;圖1(b)是偏二叉樹,它在每個(gè)決策節(jié)點(diǎn)將一類與其他所有類別分開。

圖1 層次分類法結(jié)構(gòu)

針對(duì)本研究數(shù)據(jù),使用偏二叉樹層次結(jié)構(gòu),即先將所有病例分為一般性DLBCL和復(fù)發(fā)性/難治性DLBCL兩類,然后再將復(fù)發(fā)性/難治性DLBCL分為復(fù)發(fā)性DLBCL和難治性DLBCL兩類,最終將所有病例分為一般性DLBCL、復(fù)發(fā)性DLBCL和難治性DLBCL三類。

(2)層次分類法基分類器的選擇

在本研究中,層次分類法將三分類的DLBCL疾病進(jìn)展階段數(shù)據(jù)分為兩層二分類。在每層二分類中,首先應(yīng)用支持向量機(jī)[10]、BP神經(jīng)網(wǎng)絡(luò)[11]、隨機(jī)森林[12]等單分類器構(gòu)建二分類模型;然后,分別應(yīng)用上述單分類器構(gòu)建集成學(xué)習(xí)二分類模型,集成方法主要包括AdaBoost集成[13]和Stacking集成[14],并將集成模型與各個(gè)單分類器的分類性能進(jìn)行比較;最后分別選擇兩層中分類性能最優(yōu)的模型并組合在一起,即完成層次分類法基分類器的選擇。

(3)構(gòu)建模型

為進(jìn)一步證實(shí)層次分類法的分類性能,本文應(yīng)用可進(jìn)行直接多分類的單分類器(SVM、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò))構(gòu)建直接三分類模型,并應(yīng)用上述單分類器構(gòu)建AdaBoost集成模型和Stacking集成模型,分別將其分類性能與層次分類法進(jìn)行對(duì)比。

①直接多分類

分別從一般性、復(fù)發(fā)性和難治性DLBCL三類中各隨機(jī)抽取三分之一樣本合并,作為測(cè)試集;其余樣本作為訓(xùn)練集,訓(xùn)練集用于構(gòu)建模型,測(cè)試集用于測(cè)試模型的分類準(zhǔn)確率,重復(fù)采樣并構(gòu)建模型100次。

②層次分類法

將三分類的疾病進(jìn)展階段分為兩層二分類。第一層分別從一般性DLBCL和復(fù)發(fā)/難治性DLBCL兩類中各隨機(jī)抽取三分之一樣本合并,作為測(cè)試集,其余樣本作為訓(xùn)練集,訓(xùn)練集用于構(gòu)建模型,測(cè)試集用于測(cè)試模型的分類準(zhǔn)確率,重復(fù)采樣并構(gòu)建模型100次;第二層從復(fù)發(fā)性DLBCL和難治性DLBCL兩類中抽樣,其余同上所述。

3.評(píng)價(jià)指標(biāo)

本研究采用準(zhǔn)確率(accuracy)[7]、靈敏度(sensitivity)、F值、ROC曲線下面積(AUC)和G-means值作為評(píng)價(jià)指標(biāo)。由于AUC、F值、G-means一般僅適用于二分類問題,因此本研究中,上述指標(biāo)用于兩層二分類最優(yōu)模型的選擇,準(zhǔn)確率作為經(jīng)典直接多分類器和層次分類法的對(duì)比評(píng)價(jià)指標(biāo)。

每個(gè)分類器的結(jié)果可以分為真陽(yáng)性(TP)、真陰性(TN)、假陽(yáng)性(FP)和假陰性(FN)四類。由此可得以下的公式:

(2)

(3)

(4)

(5)

由式(3),(4),(5)可得出F值和G-means的表達(dá)式為:

(6)

(7)

F值既考慮精度(正確陽(yáng)性結(jié)果的數(shù)量除以所有陽(yáng)性結(jié)果的數(shù)量),也考慮召回率(正確陽(yáng)性結(jié)果的數(shù)量除以應(yīng)該返回的陽(yáng)性結(jié)果的數(shù)量)。只有精度和召回率都比較高的前提下,F(xiàn)值才會(huì)高。G值綜合考慮了少數(shù)類和多數(shù)類的分類性能,必須滿足多數(shù)類和少數(shù)類樣本正確率的值同時(shí)高,G值才會(huì)高。受試者工作特征曲線(receiver operating characteristic curve,ROC)是在平面上以假陽(yáng)性率(FPR)為橫坐標(biāo),以真陽(yáng)性率(TPR)為縱坐標(biāo)所畫的一條曲線,橫坐標(biāo)FPR和縱坐標(biāo)TPR可由下式計(jì)算得出:

(8)

(9)

4.變量篩選

病例信息來(lái)自于醫(yī)院的電子病例,包括一般情況、病理信息、CT/PET-CT影像數(shù)據(jù)和治療方案等100余個(gè)變量。結(jié)合《2013年中國(guó)彌漫大B細(xì)胞淋巴瘤診斷與治療指南》[15],對(duì)兩層二分類分別進(jìn)行變量重要性排序,篩選出前18個(gè)與疾病進(jìn)展階段分類相關(guān)的變量。圖2為前30個(gè)變量的重要性排序(其中1為原發(fā)部位,2為繼發(fā)部位)。

圖2 變量重要性排序

結(jié) 果

1.直接多分類

表1為三種單分類器及其構(gòu)建的集成模型的直接多分類結(jié)果,用分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。

表1 直接多分類準(zhǔn)確率

由表1可知,三種單分類器中,隨機(jī)森林分類準(zhǔn)確率最高,BP神經(jīng)網(wǎng)絡(luò)和SVM準(zhǔn)確率相差不多;各單分類器的AdaBoost集成模型分類準(zhǔn)確率較單分類器均有所提高,三種單分類器組合的Stacking集成分類準(zhǔn)確率高于SVM和BP神經(jīng)網(wǎng)絡(luò),但所有直接多分類模型準(zhǔn)確率均沒有達(dá)到90%。

2.層次分類法

表2和表3分別是使用測(cè)試集進(jìn)行驗(yàn)證的兩層分類模型的評(píng)價(jià)指標(biāo)。

表2 第一層分類模型性能評(píng)價(jià)

表3 第二層分類模型性能評(píng)價(jià)

由表2可得第一層二分類中,SVMboost模型性能最優(yōu)(準(zhǔn)確率=0.951,靈敏度=0.977,F(xiàn)值=0.956,AUC=0.948,G-means=1.001),因此選取SVMboost作為第一層的基分類器;由表3可得第二層二分類中,SVMboost模型性能最優(yōu)(準(zhǔn)確率=0.972,靈敏度=0.997,F(xiàn)值=0.975,AUC=0.969,G-means=0.968),因此第二層的基分類器也選擇SVMboost。

將兩層二分類所選擇的最優(yōu)基分類器SVMboost組合起來(lái),疾病進(jìn)展階段三分類準(zhǔn)確率可達(dá)0.924。圖3為直接多分類模型和本文所應(yīng)用的層次分類法的分類準(zhǔn)確率對(duì)比。層次分類法的分類準(zhǔn)確率明顯高于直接多分類模型。

圖3 八種分類模型的準(zhǔn)確率

圖4分別給出了兩層分類模型中各個(gè)基分類器訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率(其中1代表第一層分類,2代表第二層分類)。由圖4可知,所有模型中訓(xùn)練集的分類準(zhǔn)確率均優(yōu)于測(cè)試集;所有模型的第二層分類準(zhǔn)確率均高于第一層分類。對(duì)集成模型與單分類器進(jìn)行分類性能比較可知,除隨機(jī)森林模型外,集成模型的分類性能均優(yōu)于其對(duì)應(yīng)的單分類器,而隨機(jī)森林本身就是對(duì)樹模型的Bagging集成模型,本研究中對(duì)其做進(jìn)一步的AdaBoost集成后發(fā)現(xiàn)其模型的分類性能并未明顯提升。

圖4 層次分類法訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率

討 論

本文應(yīng)用的層次分類法能將復(fù)雜的多分類問題簡(jiǎn)化,每一層都含有7個(gè)基分類器,包括單分類器和同型/異型集成模型,分類準(zhǔn)確率高于幾種用于對(duì)比的直接多分類器;在其他應(yīng)用集成算法的直接多分類研究中,宋亞男等在未進(jìn)行不平衡數(shù)據(jù)處理的AdaBoost 模型預(yù)測(cè)2型糖尿病患者降糖藥用藥分類準(zhǔn)確率僅為0.642[16],王莉莉等在基于主動(dòng)學(xué)習(xí)不平衡多分類 AdaBoost 算法的心臟病分類的準(zhǔn)確率為0.883[17],均未達(dá)到90%,而Stjepan Picek等在機(jī)器學(xué)習(xí)旁路攻擊中[18],層次分類法的分類準(zhǔn)確率比直接多分類法提高了21%。層次分類法應(yīng)用靈活,每種基分類器對(duì)不同數(shù)據(jù)類型的分類性能均有所差別,趙理莉等在宮頸細(xì)胞識(shí)別的層次分類法中每層使用了6種基分類器[19]。此外,層次分類法實(shí)際應(yīng)用廣泛,包括Celine Vens等對(duì)文本進(jìn)行層次分類[20],IvicaDimitrovski等進(jìn)行醫(yī)學(xué)圖像注釋[21],以及Ricardo Cerri等對(duì)蛋白質(zhì)功能預(yù)測(cè)等生物信息學(xué)任務(wù)等[22]。本文層次分類法的模型構(gòu)建通過(guò)R語(yǔ)言實(shí)現(xiàn),其他軟件如Python等也可實(shí)現(xiàn),適用性較強(qiáng)。

但是層次分類法中存在自上而下的“誤差累積”問題,且該方法每層分類所需的運(yùn)行時(shí)間較長(zhǎng)。本文每層分類循環(huán)次數(shù)為100次,運(yùn)行時(shí)間超過(guò)20小時(shí)。當(dāng)需要解決5類或5類以上的多分類問題時(shí),應(yīng)用該方法所需要分的層次更多,所得分類準(zhǔn)確率會(huì)越低,運(yùn)行的時(shí)間也越長(zhǎng)。此外,如何在層次分類中有效地進(jìn)行特征變量選擇也是一個(gè)值得關(guān)注的問題,不同的特征變量能影響各層中子類的區(qū)分,進(jìn)而影響整個(gè)分類模型的準(zhǔn)確率。例如Hussein Alahmer等在基于特征差的肝臟腫瘤層次分類中[23],不同的特征采集導(dǎo)致分類性能差異很大。如何解決和改進(jìn)上述幾個(gè)方面是本研究需要進(jìn)一步研究的問題。

猜你喜歡
進(jìn)展分類模型
一半模型
Micro-SPECT/CT應(yīng)用進(jìn)展
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
寄生胎的診治進(jìn)展
主站蜘蛛池模板: 一级香蕉视频在线观看| 在线观看免费人成视频色快速| 亚洲国产天堂久久综合| 四虎国产精品永久在线网址| 国产在线观看人成激情视频| 伊人久久婷婷| 一级毛片不卡片免费观看| 毛片免费观看视频| 亚洲欧美另类日本| 毛片久久网站小视频| 性色生活片在线观看| 久久精品亚洲专区| 99久久精彩视频| 中文字幕久久波多野结衣 | 亚洲av片在线免费观看| 免费人成黄页在线观看国产| 一级全免费视频播放| 国产成人福利在线视老湿机| 欧美一级在线| 亚洲开心婷婷中文字幕| 女人18一级毛片免费观看| 亚洲国产黄色| 久久精品中文字幕免费| 91最新精品视频发布页| 亚洲综合香蕉| 国产地址二永久伊甸园| 国产情侣一区| 国产精品99r8在线观看| 日韩a在线观看免费观看| 美女视频黄频a免费高清不卡| 九色91在线视频| 不卡网亚洲无码| 在线国产91| av大片在线无码免费| 孕妇高潮太爽了在线观看免费| 亚洲女同一区二区| 国产在线麻豆波多野结衣| 欧美一区二区自偷自拍视频| 自拍偷拍欧美日韩| 国产亚洲成AⅤ人片在线观看| 欧美高清三区| a亚洲视频| 免费可以看的无遮挡av无码| 精品福利一区二区免费视频| 午夜电影在线观看国产1区| 精品一区二区三区水蜜桃| 四虎在线高清无码| 亚洲精品老司机| 亚洲男人天堂久久| 91免费在线看| aaa国产一级毛片| 精品国产自在现线看久久| 成人在线欧美| 精品人妻一区二区三区蜜桃AⅤ| 国产精品三区四区| 亚洲swag精品自拍一区| 国国产a国产片免费麻豆| 国产人人乐人人爱| 亚洲精品视频网| 国产精品999在线| 免费A∨中文乱码专区| 国产无码精品在线播放| 亚洲日本一本dvd高清| 中文字幕人成人乱码亚洲电影| 无码乱人伦一区二区亚洲一| 国内精品久久久久久久久久影视| 九色视频在线免费观看| 国产成人毛片| 亚洲天堂在线免费| 九九精品在线观看| 久久精品最新免费国产成人| 色婷婷亚洲综合五月| 国产午夜精品鲁丝片| 午夜色综合| 欧美日韩v| 国产高清自拍视频| 四虎国产精品永久在线网址| 成人午夜天| 国产99在线| 国产成人亚洲精品无码电影| 国产永久在线观看| 成人国产精品视频频|