Automatic Classification of TextData forFlow Cytometry Detection of Acute Leukemia Based on Deep Learning
ZHANGYazhou],LIZhiwei2,NONGWeixia3,LEIWei',BAIWenli',LIYinzhenl,IRui,WANGKui
DepartmentofPreventiveMedicine,Shihezi UniversitySchoolofMedicine,Shihezi832ooo,Xinjiang,China;
2.ClinicalTestingCenterPeople'sHospitalofijiangUygurutonomousRegion,Urumqi30,injangin;
3.DepartmentofRheumatologyandHematology,ShiheziUniversitySchoolofMedicine,Shhezi832Ooo,Xinjiang,China)
Abstract:OjecieTexloeteclasifiationfectofelangodelontextdataofowcytometreportresultsMethodsSixdep learningmodelsuchsndSeredtalthtetdtaoftesultsffoomeortsifdprdcttit withacuteeukeiandiallaateodelopresivedeFRsultsesialldForf BiLSTMmixedmodelwerethebest,whichwere0.7422,0.7365andO.7361,respectively,andtheF1scoreofthemodelreached 70 % inseven categories:olaeutbskdodlllol plasmacellaboaidotiboaliCocsiododelsdtosiaooftetataiuls flocyometrsreportndombdievousdiestouildoopleeutomatedferalssr improve the efficiency and accuracy of flow cytometry analysis.
Key Words:Flow cytometry; Text classification; CNN; Automated analysis; Deep learning
流式細(xì)胞術(shù)(flowcytometry,F(xiàn)CM)是一種能精確且快速分析細(xì)胞或者生物微粒理化性質(zhì)的檢測(cè)技術(shù),被業(yè)內(nèi)稱為生物實(shí)驗(yàn)室的\"CT\"[1-3]。目前多數(shù)的研究都側(cè)重于使用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)醫(yī)學(xué)文本分類的自動(dòng)化4。隨著FCM技術(shù)的廣泛應(yīng)用,流式細(xì)胞儀檢測(cè)能力得到了顯著提升,但也帶來了海量的數(shù)據(jù),大大加重了流式細(xì)胞檢測(cè)實(shí)驗(yàn)室檢驗(yàn)人員的工作負(fù)荷5。然而,要培養(yǎng)一個(gè)合格的流式細(xì)胞術(shù)分析師卻需要較長(zhǎng)的時(shí)間。為了解決這一問題,前期研究提出了流式細(xì)胞數(shù)據(jù)分析全程自動(dòng)化的想法67,并利用機(jī)器學(xué)習(xí)方法復(fù)現(xiàn)了人工分析的全過程。該過程不僅包括數(shù)據(jù)的補(bǔ)償8、轉(zhuǎn)化、去粘連細(xì)胞、去細(xì)胞碎片以及對(duì)細(xì)胞聚類的自動(dòng)化[,10],也對(duì)急性白血病患者的多管數(shù)據(jù)細(xì)胞亞群進(jìn)行了統(tǒng)一標(biāo)注,實(shí)現(xiàn)了對(duì)細(xì)胞主要亞群統(tǒng)計(jì)描述的自動(dòng)化。然而,前期研究的自動(dòng)化分析主要集中在對(duì)流式細(xì)胞儀報(bào)告數(shù)據(jù)的處理和統(tǒng)計(jì)描述上,并未涉及流式檢測(cè)報(bào)告的結(jié)果部分的文字資料。為了實(shí)現(xiàn)流式檢測(cè)報(bào)告的自動(dòng)化,除了前期研究中直接利用流式細(xì)胞儀報(bào)告數(shù)據(jù)進(jìn)行分析和自動(dòng)化分類外,將流式細(xì)胞檢測(cè)報(bào)告中結(jié)果部分和結(jié)論部分文字資料的分析作為數(shù)字資料分析結(jié)果的補(bǔ)充也是有益的。因此,本研究提出以流式檢測(cè)報(bào)告結(jié)果部分的文字資料為輸入,以結(jié)論部分為分類依據(jù),利用深度學(xué)習(xí)方法訓(xùn)練模型,對(duì)檢測(cè)報(bào)告結(jié)果部分的文字資料進(jìn)行分類預(yù)測(cè),以期更好的對(duì)流式細(xì)胞檢測(cè)報(bào)告結(jié)果部分的文字資料進(jìn)行分析并對(duì)急性白血病患者進(jìn)行分類,現(xiàn)報(bào)道如下。
1資料與方法
1.1模型設(shè)計(jì)與方法本研究所用模型如圖1所示,包含詞嵌入層、CNN層、Bi-LSTM[2]層和softmax層。使用one-hot詞嵌入來自定義embeding的權(quán)重矩陣,方便矩陣輸入模型。

1.2卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)主要由輸入層(inputlayer)、卷積層(con-volution layer)、池化層(pooling layer)、全連接層(fullconnectlayer)組成。將文本數(shù)據(jù)輸入CNN層后,卷積層通過在文本表示矩陣上上下滑動(dòng)來對(duì)文本數(shù)據(jù)進(jìn)行特征提取,得到的完整局部特征向量。卷積后的向量維度較高,還需要進(jìn)行池化來對(duì)向量維度降低[13],再利用全連接層將池化后的特征向量拼接成新的特征向量,輸出表征更加豐富的局部特征并用于分類。
1.3雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)雙向循環(huán)網(wǎng)絡(luò)由1個(gè)正向LSTM4和1個(gè)反向LSTM構(gòu)成[5]。LSTM只保留過去的信息,而BiLSTM同時(shí)保存了過去和將來的信息。BiLSTM層由遺忘門、輸入門、輸出門組成,這三個(gè)門的存在緩解了神經(jīng)網(wǎng)絡(luò)在處理中長(zhǎng)距離依賴的序列數(shù)據(jù)中發(fā)生梯度彌散現(xiàn)象。為了充分發(fā)現(xiàn)當(dāng)前時(shí)刻與前一時(shí)刻和后一時(shí)刻的聯(lián)系,本研究拼接前向(forward)LSTM和后向(backward)LSTM形成BiLSTM,來進(jìn)一步挖掘流式細(xì)胞術(shù)數(shù)據(jù)的全局特征。利用BiISTM模型提取詞的上下文語義信息,提取文本中詞的全局特征后,進(jìn)人全連接層。該全連接層歸納全局的隱狀態(tài)的輸出,即向量融合后通過全連接層。最后,使用Softmax激活函數(shù)進(jìn)行分類,找到概率最大的標(biāo)簽作為預(yù)測(cè)的分類結(jié)果。
1.4實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
1.4.1實(shí)驗(yàn)環(huán)境與模型參數(shù)設(shè)置采用python3.6.8開發(fā)工具,第三方庫選用TensorFlow1.12.0和Keras2.2.4版本進(jìn)行模型訓(xùn)練。采用Windows11家庭中文版64位操作系統(tǒng),處理器為Intel(R)Core(TM)i5-12500H。模型參數(shù)設(shè)置如下:詞向量的維度為32,CNN卷積核尺寸設(shè)為3,步長(zhǎng)為1,見表1。

1.4.2數(shù)據(jù)來源及預(yù)處理數(shù)據(jù)來源于新疆維吾爾自治區(qū)人民醫(yī)院流式實(shí)驗(yàn)室2019年6月-2021年12月流式細(xì)胞檢測(cè)報(bào)告結(jié)果部分的文字資料,以人工診斷的結(jié)論作為金標(biāo)準(zhǔn)。數(shù)據(jù)如圖2所示。將2019年和2021年的數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集,2020年的數(shù)據(jù)作為外部測(cè)試集。按金標(biāo)準(zhǔn)將數(shù)據(jù)分為正常人、急性髓系白血?。ˋML)急性T淋巴細(xì)胞白血?。˙-ALL)、急性B淋巴細(xì)胞白血病(T-ALL)有核紅細(xì)胞異常、成熟T淋巴細(xì)胞異常、成熟B淋巴細(xì)胞異常、嗜堿性粒細(xì)胞異常、嗜酸性粒細(xì)胞異常、中性粒細(xì)胞異常、漿細(xì)胞異常、單核細(xì)胞異常共12類,本研究將2019年和2021年的數(shù)據(jù)合并后按7:3劃分訓(xùn)練集和驗(yàn)證集,見表2。
結(jié)果:成熟淋巴細(xì)胞占有核細(xì)胞9.85%。單核細(xì)胞占有核細(xì)胞3.82%,均為成熟階段細(xì)胞。嗜酸性粒細(xì)胞占有核細(xì)胞0.36%,嗜堿性粒細(xì)胞占有核細(xì)胞0.2%。發(fā)育階段粒細(xì)胞群占有核細(xì)胞74.10%。發(fā)育模式未見明顯異常。有核紅細(xì)胞占有核細(xì)胞0.73%,未見明顯非造血細(xì)胞。異常幼稚髓系細(xì)胞占有核細(xì)胞4.59%,表達(dá):CD34、CD117、CD13、HLA-DR、CD33、CD123、CD11c。
結(jié)論:本次檢測(cè)有4.59%的細(xì)胞群為異常幼稚髓系細(xì)胞群。未見明顯非造血細(xì)胞。
請(qǐng)結(jié)合臨床及其他實(shí)驗(yàn)室檢查。因標(biāo)本稀釋和溶紅細(xì)胞等原因可能造成幼稚細(xì)胞和有核紅細(xì)胞比例減低,具體請(qǐng)參考形態(tài)學(xué)。

1.4.3實(shí)驗(yàn)評(píng)價(jià)指標(biāo)選用精確率(precision,P)召回率(recall,R)和F1值作為文本分類的評(píng)價(jià)指標(biāo),計(jì)算所需的混淆矩陣見表3。其中,TP表示真正例,指的是實(shí)際為正例且被模型預(yù)測(cè)為正例的樣本數(shù)量;FN表示假負(fù)例,指的是實(shí)際為正類,但被模型錯(cuò)誤預(yù)測(cè)為負(fù)類的樣本數(shù);FP表示假正例,指的是實(shí)際為負(fù)類,但被模型錯(cuò)誤預(yù)測(cè)為正類的樣本數(shù);TN表示真負(fù)例,指的是實(shí)際為負(fù)例,且被模型預(yù)測(cè)為負(fù)例的樣本數(shù)。精確率P指在所有預(yù)測(cè)為正類的樣本中,實(shí)際為正類的比例,它反映了模型預(yù)測(cè)正例的能力。精確率計(jì)算公式如式(1)所示:

召回率R指在所有實(shí)際為正類的樣本中,被正確預(yù)測(cè)為正類的比例,它反映了模型的完整性和靈敏度。召回率計(jì)算公式如式(2)所示:

精確率和召回率通常存在一定的矛盾關(guān)系:提高精確率可能會(huì)降低召回率,反之亦然。為了平衡精確率和召回率,引入了F1值,它是精確率和召回率的調(diào)和平均。F1值計(jì)算公式如式(3)所示:

本研究將流式細(xì)胞檢測(cè)報(bào)告結(jié)果部分的文本資料分為12類,分別將每個(gè)類別視為“正類”,該類之外的其他所有類別則視為“負(fù)例”,根據(jù)混淆矩陣計(jì)算一個(gè)該類的精確率和召回率,從而評(píng)估模型在該特定類別上的表現(xiàn)。

2結(jié)果
2.1模型訓(xùn)練過程模型在訓(xùn)練過程中設(shè)置了調(diào)停函數(shù),在損失函數(shù)不再下降時(shí)停止訓(xùn)練并保存訓(xùn)練結(jié)果。在訓(xùn)練過程中,損失函數(shù)隨著迭代次數(shù)的增加逐漸下降,表明模型在持續(xù)從訓(xùn)練集中學(xué)習(xí)有用特征。而準(zhǔn)確率在迭代過程的逐漸上升并趨于穩(wěn)定,說明模型擬合效果較好。
2.2效果驗(yàn)證表4為不同模型在數(shù)據(jù)集的整體效果對(duì)比,結(jié)果顯示本研究所選模型CNN-BiLSTM的精確率、召回率、F1值以及AUC值都最高,分別為0 . 7 4 2 2 、 0 . 7 3 6 5 、 0 . 7 3 6 1 、 0 . 8 0 ,提示本文模型流式細(xì)胞術(shù)檢測(cè)報(bào)告結(jié)果部分的文本資料具有較好的分類效果。表5為CNN-BiLSTM模型在各類別分類效果對(duì)比,結(jié)果顯示本研究模型在正常人、急性髓系白血病、急性B淋巴細(xì)胞白血病、有核紅細(xì)胞異常、中性粒細(xì)胞異常、漿細(xì)胞異常、單核細(xì)胞異常這7類的F1值均達(dá)到了 70 % ,且本研究模型對(duì)急性B淋巴細(xì)胞白血病這一類的分類效果最好,F(xiàn)1值達(dá)到了0.9041。圖3為CNN-BiLSTM模型的ROC曲線圖,結(jié)果顯示本研究模型對(duì)12個(gè)類的AUC值均大于0.5,且急性髓系白血病、急性T淋巴細(xì)胞白血病、中性粒細(xì)胞異常、漿細(xì)胞異常這5類的AUC值均大于0.9,對(duì)急性T淋巴細(xì)胞白血病的AUC值最大,為
0



陽注:class0\~11依次對(duì)應(yīng)12類數(shù)據(jù),分別是正常人、急性髓系白血病、急性T淋巴細(xì)胞白血病、急性B淋巴細(xì)胞白血病、有核紅細(xì)胞異常成熟T淋巴細(xì)胞異常、成熟B淋巴細(xì)胞異常、嗜堿性粒細(xì)胞異常、嗜酸性粒細(xì)胞異常、中性粒細(xì)胞異常、漿細(xì)胞異常、單核細(xì)胞異常。
3討論
FCM檢測(cè)能力提升的同時(shí),也給流式細(xì)胞檢測(cè)實(shí)驗(yàn)室檢驗(yàn)人員的分析效率帶來了挑戰(zhàn),而培養(yǎng)一名優(yōu)秀的流式細(xì)胞術(shù)分析師需要較高的時(shí)間成本,因此尋求一種流式細(xì)胞術(shù)自動(dòng)化分析的方法變得尤為必要。雖然目前已經(jīng)有一些自動(dòng)分析方法在FCM數(shù)據(jù)取得不錯(cuò)的效果,但由于其操作復(fù)雜及自動(dòng)化不徹底等原因并未被廣泛使用[,因此在實(shí)際臨床工作中仍以人工分析為主。
本研究通過深度學(xué)習(xí)模型對(duì)流式細(xì)胞檢測(cè)報(bào)告結(jié)果部分的文字資料進(jìn)行分析,并對(duì)急性白血病患者進(jìn)行自動(dòng)分類,探索文本分類方法聯(lián)合前期對(duì)流式細(xì)胞儀報(bào)告數(shù)據(jù)通過自動(dòng)化分析方法實(shí)現(xiàn)白血病預(yù)測(cè)的效果,通過觀察CNN和LSTM基線模型發(fā)現(xiàn),CNN比LSTM的模型性能高,主要原因是原始數(shù)據(jù)集由人工進(jìn)行預(yù)篩選,且為描述細(xì)胞占比的文本句子,每個(gè)文本為冗雜且相關(guān)性不強(qiáng)的短文本描述句子,上下文相關(guān)性不強(qiáng),且含有眾多臨床術(shù)語。短文本的特征一般獨(dú)立存在于句子的某個(gè)局部,CNN擅長(zhǎng)捕捉短文本的局部特征信息,而LSTM捕捉的多為冗雜且相關(guān)性不高的上下文特征信息。因此,相較于本研究的流式細(xì)胞檢測(cè)報(bào)告結(jié)果部分的文本資料,CNN的分類效果優(yōu)于LSTM。
以CNN作為基線模型,對(duì)CNN、CNN-LSTM和CNN-BiLSTM進(jìn)行對(duì)比發(fā)現(xiàn),CNN混合模型比CNN的模型性能高。由于傳統(tǒng)CNN模型的卷積神經(jīng)網(wǎng)絡(luò)直接與全連接層相連,而混合模型是在BiLSTM或LSTM后連接全連接層。由于全連接層會(huì)造成部分空間文本信息的丟失,從而忽略了部分上下文的關(guān)系。因此,CNN的準(zhǔn)確率低于其混合模型,且混合模型的F1值較基線模型高了 11.25% 。以LSTM作為基線模型,對(duì)LSTM、BiISTM進(jìn)行對(duì)比發(fā)現(xiàn),BiISTM較LSTM好。對(duì)于BiLSTM模型而言,LSTM只能處理后向的文本序列,而BiLSTM可以同時(shí)拼接前向和后向兩個(gè)方向的輸出,能對(duì)前后文語義進(jìn)行更高的表征,提升了模型計(jì)算的復(fù)雜度和精確度。因此,BiILSTM較LSTM模型的F1值提升 0.59% 。
對(duì)于CNN與LSTM的混合模型,可得出LSTM-CNN比CNN-LSTM的串聯(lián)模型性能更加優(yōu)越。對(duì)比CNN-LSTM和LSTM-CNN文本分類模型,兩者在網(wǎng)絡(luò)結(jié)構(gòu)上有所不同,主要體現(xiàn)在卷積層和長(zhǎng)短期記憶(LSTM)層的順序。CNN-LSTM模型首先使用CNN對(duì)輸入的文本進(jìn)行特征提取,然后將提取到的特征序列輸入到LSTM層進(jìn)行序列建模和分類預(yù)測(cè)。而LSTM-CNN模型則是先使用LSTM層對(duì)文本進(jìn)行序列建模,然后將LSTM輸出的特征序列輸入到卷積層進(jìn)行局部特征提取和分類預(yù)測(cè)。在文本分類任務(wù)中,卷積層能夠提取出局部特征,但同時(shí)也造成了信息的丟失,在只對(duì)LSTM進(jìn)行后向序列信息計(jì)算時(shí),會(huì)造成一定的信息差異;而LSTM向后傳遞的語句信息是完整的,再將提取的信息傳入CNN中提取局部關(guān)鍵信息,所以LSTM-CNN的分類效果略高于CNN-LSTM。而CNN-BiLSTM由于可以拼接前向和后向兩個(gè)方向的輸出,可以明顯提前模型分類效果,對(duì)LSTM-CNN和CNN-LSTM模型的F1值分別提高 4.72 % 和 5.24 % 。
本研究也存在一定的局限性:在文本分類模型中,本研究選用的樣本量較少,且類別不均勻,因此還未能充分發(fā)揮各深度學(xué)習(xí)模型在大數(shù)據(jù)分析上的優(yōu)勢(shì);本研究只選擇了正常人、急性髓系白血病患者和急性淋系白血病患者等12類文本資料進(jìn)行分析,并未包含急性白血病數(shù)據(jù)的全部資料;本研究只是對(duì)FCM的結(jié)果部分的文字資料做了文本分類,缺乏更詳細(xì)的疾病信息,因此僅探討了各深度學(xué)習(xí)模型在白血病初步診斷中的應(yīng)用;為了保證結(jié)果的客觀性和可信度,本研究未對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),也未深入對(duì)模型參數(shù)的設(shè)置進(jìn)行研究,而是盡可能選擇工具包默認(rèn)參數(shù),因此訓(xùn)練好的模型并不是最好的,可在將來使用過程中進(jìn)一步完善;由于本研究所選的文字資料存在多標(biāo)簽問題,而本研究只做了單標(biāo)簽文本分類,因此后期將從多標(biāo)簽文本分類角度對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步研究。
綜上所述,CNN-BiLSTM深度學(xué)習(xí)模型對(duì)流式細(xì)胞檢測(cè)報(bào)告結(jié)果部分文本資料的分類效果較好,能夠輔助臨床工作者在急性白血病診斷上做出更準(zhǔn)確的診斷,提高診斷效率和準(zhǔn)確性。
參考文獻(xiàn):
[1]Paul RJ,Mario R.Flow cytometry strikes gold[J].Science, 2015,350(6262):739-740.
[2JayeDL,BrayRA,GebelHM,etal.Translational applicationsof flow cytometry in clinical practice[J].J Immunol,2012,188(10): 4715-4719.
[3]SuoYZ,Gu ZQ,WeiXB.AdvancesofInVivoFlowCytometryon Cancer Studies[J].CytometryA,2020,97(1):15-23.
[4]CheungM,Campbell JJ,WhitbyL,etal.Current trends in flow cytometry automated data analysis software [J].Cytometry A, 2021,99(10):1007-1021.
[5]GregF,Marc L,Maria J,et al.Standardizing Flow Cytometry Immunophenotyping Analysis from the Human ImmunoPhe
notyping Consortium[J].Scientific Reports,2016,6(1):20686.
[6]郭玉娟,李智偉,芮東升,等.急性髓系白血病流式細(xì)胞術(shù)全程 自動(dòng)化診斷技術(shù)研究[.大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,40 (4):431-437.
[7]雷偉,李智偉,芮東升,等.卷積神經(jīng)網(wǎng)絡(luò)在急性髓系白血病 流式細(xì)胞術(shù)自動(dòng)診斷中的應(yīng)用[.安徽醫(yī)科大學(xué)學(xué)報(bào),2023,58 (7):1189-1193.
[8]FudaF,ChenM,ChenW,etal.Artificial intelligenceinclinical multiparameter flow cytometry and mass cytometry-key tools and progres[J].Semin Diagn Pathol,2023,40(2):120-128.
[9]Van Gassen S,Callebaut B,Van Helden MJ,et al.FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data[J].Cytometry A,2015,87(7):636-645.
[10]Lacombe F,LechevalierN,Vial JP,et al.An R-Derived FlowSOM Process to Analyze Unsupervised Clustering of Normal and Malignant Human Bone Marrow Classical Flow Cytometry Data[J].Cytometry A,2019,95(11):1191-1197.
[11]Collobert R,Weston J,Bottou L,etal.Natural Language Processing (almost) from Scratch[J].CoRR,2011:2493-2537.
[12]Pan CP,Cao HT,Zhang WW,et al.Driver activity recognition using spatial - temporal graph convolutional LSTM networkswith attention mechanism [].IET Inteligent Transport Systems,2020,15(2):297-307.
[13]宋純賀,李澤熙,于洪霞,等.一種基于改進(jìn)GoogLeNet的油 井故障識(shí)別方法[].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,35 (2):52-58.
[14]王若佳,魏思儀,王繼民.BiLSTM-CRF模型在中文電子病 歷命名實(shí)體識(shí)別中的應(yīng)用研究[.文獻(xiàn)與數(shù)據(jù)學(xué)報(bào),2019,1(2): 53-66.
[15]Kamruzzaman M,Almazroui M,Salam MA,etal.Spatiotemporal drought analysis in Bangladesh using the standardized precipitation index (SPI) and standardized precipitation evapotranspiration index (SPEI)[].Sci Rep,2022,12(1):20694.
[16]馬閃閃,董明利,張帆,等.基于核主成分分析的流式細(xì)胞數(shù) 據(jù)分群方法研究[].生物醫(yī)學(xué)工程學(xué)雜志,2017,34(1):115-122.
[17]Obeidat Y,Alqudah AM.AHybrid Lightweight1D CNNLSTMArchitecture for Automated ECG Beat-Wise Classification[J].Traitement du Signal: Signal ImageParole,2O21,38(5):1281- 1291.
收稿日期:2024-02-19:修回日期:2024-03-28
編輯/杜帆