基于層次分類法的彌漫大B細(xì)胞淋巴瘤的疾病進(jìn)展階段多分類預(yù)測(cè)研究*

2021-05-08 05:54:56黃雪倩張巖波鄭楚楚余紅梅范雙龍陽(yáng)楨寰趙志強(qiáng)羅艷虹

中國(guó)衛(wèi)生統(tǒng)計(jì) 2021年2期

黃雪倩張巖波王蕾鄭楚楚余紅梅范雙龍陽(yáng)楨寰邢蒙趙志強(qiáng) 羅艷虹Δ

【提要】目的對(duì)山西省某醫(yī)院2011-2017年確診為彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma，DLBCL)患者進(jìn)行疾病進(jìn)展階段多分類預(yù)測(cè)，為患者是否需要及時(shí)轉(zhuǎn)為二線挽救治療或放療等治療手段的選擇提供參考。方法用層次分類法將三分類的疾病進(jìn)展階段進(jìn)行兩層二分類，分別進(jìn)行變量篩選后，用SMOTE過(guò)采樣處理數(shù)據(jù)中的類別不平衡問題，然后使用SVM、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等單分類器模型與AdaBoost同型集成和Stacking異型集成方法分別構(gòu)建兩層疾病進(jìn)展階段的二分類預(yù)測(cè)模型，最后分別選擇兩層中分類性能最優(yōu)的模型并結(jié)合在一起。結(jié)果使用經(jīng)SMOTE平衡后的數(shù)據(jù)構(gòu)建的兩層分類模型中的SVMboost集成模型，準(zhǔn)確率分別為0.951和0.972，模型性能均為最優(yōu)，因此兩層二分類的基分類器均選擇SVMboost。結(jié)論本研究構(gòu)建彌漫大B細(xì)胞淋巴瘤患者疾病進(jìn)展階段的層次多分類預(yù)測(cè)模型，其中兩層分類模型中的SVMboost集成模型性能均為最優(yōu)，將兩層二分類的基分類器結(jié)合后，準(zhǔn)確率為0.924，高于作為對(duì)比的直接多分類模型，為臨床工作者的診斷與治療方案選擇提供一定參考。

彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma，DLBCL)是非霍奇金淋巴瘤(non-Hodgkinlymphoma，NHL)中最常見的亞型，占所有NHL的30%～40%[1]，是一組具有高度異質(zhì)性的惡性腫瘤，常呈進(jìn)展性。目前利妥昔單抗+環(huán)磷酰胺、阿霉素、長(zhǎng)春新堿和強(qiáng)的松(R-CHOP)是DLBCL的化療首選方案，大部分患者經(jīng)治療后可以達(dá)到完全緩解(complete remission，CR)。但仍有部分患者在治療中病情進(jìn)展或緩解后早期復(fù)發(fā)(緩解期小于一年)，且復(fù)發(fā)后治療反應(yīng)率較低，反應(yīng)持續(xù)時(shí)間較短，最終轉(zhuǎn)變?yōu)殡y治性DLBCL，成為DLBCL主要死亡原因[2-3]。針對(duì)復(fù)發(fā)性和難治性DLBCL，臨床上研發(fā)了很多二線挽救治療方案，能有效延長(zhǎng)患者的總生存期(overall survival，OS)，提高患者生存質(zhì)量。自體造血干細(xì)胞移植和低劑量姑息性放療等方法[4]對(duì)難治性侵襲性淋巴瘤也有一定效果。復(fù)發(fā)性和難治性DLBCL通常對(duì)一線治療方案不敏感或產(chǎn)生耐藥性，若不能準(zhǔn)確地對(duì)疾病進(jìn)展階段進(jìn)行判斷，重復(fù)地對(duì)其進(jìn)行無(wú)用治療，不僅會(huì)錯(cuò)過(guò)最好的二線挽救治療時(shí)機(jī)，還會(huì)給患者帶來(lái)一定的心理負(fù)擔(dān)和經(jīng)濟(jì)負(fù)擔(dān)。因此，對(duì)DLBCL疾病的進(jìn)展階段進(jìn)行精確的分類預(yù)測(cè)有較大的現(xiàn)實(shí)意義。

資料來(lái)源

本研究數(shù)據(jù)來(lái)自于山西省某醫(yī)院2011-2017年被確診為DLBCL的患者，共384例。其中復(fù)發(fā)性DLBCL是指初次化療獲得完全緩解后復(fù)發(fā)的淋巴瘤，共74例；難治性DLBCL是指滿足以下任何一項(xiàng)：①經(jīng)標(biāo)準(zhǔn)方案規(guī)范化療 4 個(gè)療程，腫瘤縮小<50%或病情進(jìn)展；②經(jīng)標(biāo)準(zhǔn)方案化療達(dá)CR，但半年內(nèi)復(fù)發(fā)；③CR后2次或2次以上復(fù)發(fā)；④造血干細(xì)胞移植后復(fù)發(fā)，共38例；剩余病例為一般性DLBCL[5]，共272例。因不同疾病進(jìn)展階段的病例數(shù)量差距較大，造成了數(shù)據(jù)的不平衡，因此需要對(duì)數(shù)據(jù)進(jìn)行過(guò)采樣使其平衡。本文采用的過(guò)采樣方法是SMOTE算法。

原理及方法

1.類別不平衡數(shù)據(jù)

SMOTE(synthetic minority over-sampling technique)[6]算法在2002年被提出并得到認(rèn)可，它的基本思想是通過(guò)人工合成新的少數(shù)類樣本來(lái)降低類別不平衡性。具體做法是：假設(shè)鄰近參數(shù)為k，首先從每個(gè)少數(shù)類樣本的x個(gè)同類最近鄰中隨機(jī)選擇k個(gè)樣本；然后將每個(gè)少數(shù)類樣本分別與選中的k個(gè)樣本按式(1)合成k少數(shù)類新樣本；最后，將新樣本添加至訓(xùn)練樣本集中，形成新的訓(xùn)練樣本集[7]。

xnew=x+δ(y[i]-x)

(1)

式中：xnew為合成的新樣本；x為少數(shù)類樣本；δ為0到1之間的隨機(jī)數(shù)；y[i]為x的第i個(gè)近鄰樣本。

在 SMOTE 算法中，鄰近參數(shù)k是否能夠合理設(shè)置將直接影響最終的分類性能。通常設(shè)置鄰近參數(shù)k=5。

本研究中SMOTE使用R軟件中DMwR包SMOTE語(yǔ)句實(shí)現(xiàn)，其中設(shè)perc.over=500，perc.under=100。

2.分類模型

多分類的本質(zhì)是多次二分類，包括直接法和間接法。直接法是直接在目標(biāo)函數(shù)上修改，將多個(gè)分類面的參數(shù)求解合并到一個(gè)最優(yōu)化問題中，通過(guò)求解該最優(yōu)化問題一次性實(shí)現(xiàn)多分類。該方法看似簡(jiǎn)單，但其計(jì)算復(fù)雜度較高，且沒有通用的多分類求解法，需要根據(jù)具體問題設(shè)計(jì)策略，實(shí)現(xiàn)起來(lái)較困難，且分類準(zhǔn)確率不高；間接法主要是通過(guò)組合多個(gè)二分類器來(lái)實(shí)現(xiàn)多分類器的構(gòu)造，常見的方法有“一對(duì)一”(one-versus-one，OVO)、“一對(duì)其余”(one-versus-rest，OVR)和層次分類法等。

(1)層次分類法原理

本文采用的是層次分類法[8-9]，其原理是第一層將所有類分為一級(jí)子類，第二層再將一級(jí)子類進(jìn)一步分為二級(jí)子類，直到能夠區(qū)分所有類別為止。圖1為包含四個(gè)類別的兩種層次結(jié)構(gòu)。圖1(a)是完全二叉樹，它在每個(gè)決策節(jié)點(diǎn)將所包含的類別分為兩個(gè)包含類別數(shù)目相同的子類；圖1(b)是偏二叉樹，它在每個(gè)決策節(jié)點(diǎn)將一類與其他所有類別分開。

圖1 層次分類法結(jié)構(gòu)

針對(duì)本研究數(shù)據(jù)，使用偏二叉樹層次結(jié)構(gòu)，即先將所有病例分為一般性DLBCL和復(fù)發(fā)性/難治性DLBCL兩類，然后再將復(fù)發(fā)性/難治性DLBCL分為復(fù)發(fā)性DLBCL和難治性DLBCL兩類，最終將所有病例分為一般性DLBCL、復(fù)發(fā)性DLBCL和難治性DLBCL三類。

(2)層次分類法基分類器的選擇

在本研究中，層次分類法將三分類的DLBCL疾病進(jìn)展階段數(shù)據(jù)分為兩層二分類。在每層二分類中，首先應(yīng)用支持向量機(jī)[10]、BP神經(jīng)網(wǎng)絡(luò)[11]、隨機(jī)森林[12]等單分類器構(gòu)建二分類模型；然后，分別應(yīng)用上述單分類器構(gòu)建集成學(xué)習(xí)二分類模型，集成方法主要包括AdaBoost集成[13]和Stacking集成[14]，并將集成模型與各個(gè)單分類器的分類性能進(jìn)行比較；最后分別選擇兩層中分類性能最優(yōu)的模型并組合在一起，即完成層次分類法基分類器的選擇。

(3)構(gòu)建模型

為進(jìn)一步證實(shí)層次分類法的分類性能，本文應(yīng)用可進(jìn)行直接多分類的單分類器(SVM、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò))構(gòu)建直接三分類模型，并應(yīng)用上述單分類器構(gòu)建AdaBoost集成模型和Stacking集成模型，分別將其分類性能與層次分類法進(jìn)行對(duì)比。

①直接多分類

分別從一般性、復(fù)發(fā)性和難治性DLBCL三類中各隨機(jī)抽取三分之一樣本合并，作為測(cè)試集；其余樣本作為訓(xùn)練集，訓(xùn)練集用于構(gòu)建模型，測(cè)試集用于測(cè)試模型的分類準(zhǔn)確率，重復(fù)采樣并構(gòu)建模型100次。

②層次分類法

將三分類的疾病進(jìn)展階段分為兩層二分類。第一層分別從一般性DLBCL和復(fù)發(fā)/難治性DLBCL兩類中各隨機(jī)抽取三分之一樣本合并，作為測(cè)試集，其余樣本作為訓(xùn)練集，訓(xùn)練集用于構(gòu)建模型，測(cè)試集用于測(cè)試模型的分類準(zhǔn)確率，重復(fù)采樣并構(gòu)建模型100次；第二層從復(fù)發(fā)性DLBCL和難治性DLBCL兩類中抽樣，其余同上所述。

3.評(píng)價(jià)指標(biāo)

本研究采用準(zhǔn)確率(accuracy)[7]、靈敏度(sensitivity)、F值、ROC曲線下面積(AUC)和G-means值作為評(píng)價(jià)指標(biāo)。由于AUC、F值、G-means一般僅適用于二分類問題，因此本研究中，上述指標(biāo)用于兩層二分類最優(yōu)模型的選擇，準(zhǔn)確率作為經(jīng)典直接多分類器和層次分類法的對(duì)比評(píng)價(jià)指標(biāo)。

每個(gè)分類器的結(jié)果可以分為真陽(yáng)性(TP)、真陰性(TN)、假陽(yáng)性(FP)和假陰性(FN)四類。由此可得以下的公式：

(2)

(3)

(4)

(5)

由式(3)，(4)，(5)可得出F值和G-means的表達(dá)式為：

(6)

(7)

F值既考慮精度(正確陽(yáng)性結(jié)果的數(shù)量除以所有陽(yáng)性結(jié)果的數(shù)量)，也考慮召回率(正確陽(yáng)性結(jié)果的數(shù)量除以應(yīng)該返回的陽(yáng)性結(jié)果的數(shù)量)。只有精度和召回率都比較高的前提下，F(xiàn)值才會(huì)高。G值綜合考慮了少數(shù)類和多數(shù)類的分類性能，必須滿足多數(shù)類和少數(shù)類樣本正確率的值同時(shí)高，G值才會(huì)高。受試者工作特征曲線(receiver operating characteristic curve，ROC)是在平面上以假陽(yáng)性率(FPR)為橫坐標(biāo)，以真陽(yáng)性率(TPR)為縱坐標(biāo)所畫的一條曲線，橫坐標(biāo)FPR和縱坐標(biāo)TPR可由下式計(jì)算得出：

(8)

(9)

4.變量篩選

病例信息來(lái)自于醫(yī)院的電子病例，包括一般情況、病理信息、CT/PET-CT影像數(shù)據(jù)和治療方案等100余個(gè)變量。結(jié)合《2013年中國(guó)彌漫大B細(xì)胞淋巴瘤診斷與治療指南》[15]，對(duì)兩層二分類分別進(jìn)行變量重要性排序，篩選出前18個(gè)與疾病進(jìn)展階段分類相關(guān)的變量。圖2為前30個(gè)變量的重要性排序(其中1為原發(fā)部位，2為繼發(fā)部位)。

圖2 變量重要性排序

結(jié) 果

1.直接多分類

表1為三種單分類器及其構(gòu)建的集成模型的直接多分類結(jié)果，用分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。

表1 直接多分類準(zhǔn)確率

由表1可知，三種單分類器中，隨機(jī)森林分類準(zhǔn)確率最高，BP神經(jīng)網(wǎng)絡(luò)和SVM準(zhǔn)確率相差不多；各單分類器的AdaBoost集成模型分類準(zhǔn)確率較單分類器均有所提高，三種單分類器組合的Stacking集成分類準(zhǔn)確率高于SVM和BP神經(jīng)網(wǎng)絡(luò)，但所有直接多分類模型準(zhǔn)確率均沒有達(dá)到90%。

2.層次分類法

表2和表3分別是使用測(cè)試集進(jìn)行驗(yàn)證的兩層分類模型的評(píng)價(jià)指標(biāo)。

表2 第一層分類模型性能評(píng)價(jià)

表3 第二層分類模型性能評(píng)價(jià)

由表2可得第一層二分類中，SVMboost模型性能最優(yōu)(準(zhǔn)確率=0.951，靈敏度=0.977，F(xiàn)值=0.956，AUC=0.948，G-means=1.001)，因此選取SVMboost作為第一層的基分類器；由表3可得第二層二分類中，SVMboost模型性能最優(yōu)(準(zhǔn)確率=0.972，靈敏度=0.997，F(xiàn)值=0.975，AUC=0.969，G-means=0.968)，因此第二層的基分類器也選擇SVMboost。

將兩層二分類所選擇的最優(yōu)基分類器SVMboost組合起來(lái)，疾病進(jìn)展階段三分類準(zhǔn)確率可達(dá)0.924。圖3為直接多分類模型和本文所應(yīng)用的層次分類法的分類準(zhǔn)確率對(duì)比。層次分類法的分類準(zhǔn)確率明顯高于直接多分類模型。

圖3 八種分類模型的準(zhǔn)確率

圖4分別給出了兩層分類模型中各個(gè)基分類器訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率(其中1代表第一層分類，2代表第二層分類)。由圖4可知，所有模型中訓(xùn)練集的分類準(zhǔn)確率均優(yōu)于測(cè)試集；所有模型的第二層分類準(zhǔn)確率均高于第一層分類。對(duì)集成模型與單分類器進(jìn)行分類性能比較可知，除隨機(jī)森林模型外，集成模型的分類性能均優(yōu)于其對(duì)應(yīng)的單分類器，而隨機(jī)森林本身就是對(duì)樹模型的Bagging集成模型，本研究中對(duì)其做進(jìn)一步的AdaBoost集成后發(fā)現(xiàn)其模型的分類性能并未明顯提升。

圖4 層次分類法訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率

討論

本文應(yīng)用的層次分類法能將復(fù)雜的多分類問題簡(jiǎn)化，每一層都含有7個(gè)基分類器，包括單分類器和同型/異型集成模型，分類準(zhǔn)確率高于幾種用于對(duì)比的直接多分類器；在其他應(yīng)用集成算法的直接多分類研究中，宋亞男等在未進(jìn)行不平衡數(shù)據(jù)處理的AdaBoost 模型預(yù)測(cè)2型糖尿病患者降糖藥用藥分類準(zhǔn)確率僅為0.642[16]，王莉莉等在基于主動(dòng)學(xué)習(xí)不平衡多分類 AdaBoost 算法的心臟病分類的準(zhǔn)確率為0.883[17]，均未達(dá)到90%，而Stjepan Picek等在機(jī)器學(xué)習(xí)旁路攻擊中[18]，層次分類法的分類準(zhǔn)確率比直接多分類法提高了21%。層次分類法應(yīng)用靈活，每種基分類器對(duì)不同數(shù)據(jù)類型的分類性能均有所差別，趙理莉等在宮頸細(xì)胞識(shí)別的層次分類法中每層使用了6種基分類器[19]。此外，層次分類法實(shí)際應(yīng)用廣泛，包括Celine Vens等對(duì)文本進(jìn)行層次分類[20]，IvicaDimitrovski等進(jìn)行醫(yī)學(xué)圖像注釋[21]，以及Ricardo Cerri等對(duì)蛋白質(zhì)功能預(yù)測(cè)等生物信息學(xué)任務(wù)等[22]。本文層次分類法的模型構(gòu)建通過(guò)R語(yǔ)言實(shí)現(xiàn)，其他軟件如Python等也可實(shí)現(xiàn)，適用性較強(qiáng)。

但是層次分類法中存在自上而下的“誤差累積”問題，且該方法每層分類所需的運(yùn)行時(shí)間較長(zhǎng)。本文每層分類循環(huán)次數(shù)為100次，運(yùn)行時(shí)間超過(guò)20小時(shí)。當(dāng)需要解決5類或5類以上的多分類問題時(shí)，應(yīng)用該方法所需要分的層次更多，所得分類準(zhǔn)確率會(huì)越低，運(yùn)行的時(shí)間也越長(zhǎng)。此外，如何在層次分類中有效地進(jìn)行特征變量選擇也是一個(gè)值得關(guān)注的問題，不同的特征變量能影響各層中子類的區(qū)分，進(jìn)而影響整個(gè)分類模型的準(zhǔn)確率。例如Hussein Alahmer等在基于特征差的肝臟腫瘤層次分類中[23]，不同的特征采集導(dǎo)致分類性能差異很大。如何解決和改進(jìn)上述幾個(gè)方面是本研究需要進(jìn)一步研究的問題。

基于層次分類法的彌漫大B細(xì)胞淋巴瘤的疾病進(jìn)展階段多分類預(yù)測(cè)研究*

資料來(lái)源

原理及方法

結(jié) 果

討 論

討論