王倩, 呂曉琪,2*, 谷宇, 張明,3
(1.內(nèi)蒙古科技大學(xué)信息工程學(xué)院內(nèi)蒙古自治區(qū)模式識(shí)別與智能圖像處理重點(diǎn)實(shí)驗(yàn)室, 包頭 014010;2.內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院, 呼和浩特 010051; 3.大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院, 大連 116026)
宮頸癌是一種發(fā)生在女性子宮頸的癌癥,是女性第二大致死癌癥,從癌前病變發(fā)展為宮頸癌需要8~10 a,晚期存活率僅3%,但早期治愈率可高達(dá)90%[1-2]。近年來(lái)中國(guó)宮頸癌的發(fā)病率一直在上升,且主要集中在中西部欠發(fā)達(dá)地區(qū),雖然宮頸疫苗已經(jīng)在中國(guó)投入使用,但因資源稀缺、價(jià)格高昂以及年齡限制等問(wèn)題沒(méi)有很好的普適性[3],因此宮頸癌的早期普遍篩查對(duì)中國(guó)宮頸癌的預(yù)防和早期治療有著重大意義。細(xì)胞學(xué)涂片檢查作為宮頸癌篩查最常用且最經(jīng)濟(jì)有效的方式,可用于大規(guī)模體檢[4]。但宮頸細(xì)胞閱片人員面臨巨大缺口,難以滿足目前需求。實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)對(duì)宮頸細(xì)胞進(jìn)行細(xì)粒度分類可有效減輕閱片醫(yī)生工作量,并為醫(yī)生進(jìn)一步診斷病情提供重要參考。
早期的宮頸細(xì)胞分類算法大多分為細(xì)胞分割、特征提取、細(xì)胞分類三個(gè)步驟。如范金坪[5]在進(jìn)行細(xì)胞分割后通過(guò)遺傳算法提取特征參數(shù),使用基于BP(back-propagation)神經(jīng)網(wǎng)絡(luò)的兩級(jí)神經(jīng)網(wǎng)絡(luò)的方法在私人數(shù)據(jù)集進(jìn)行分類識(shí)別,識(shí)別率為97.46%。Singh等[6]進(jìn)行特征提取后使用BP算法在私人數(shù)據(jù)集上實(shí)現(xiàn)宮頸細(xì)胞三分類,分類準(zhǔn)確率為79%。李文杰[7]經(jīng)細(xì)胞分割和特征提取后使用由支持向量機(jī)(SVM)、K-近鄰算法(KNN)和人工神經(jīng)網(wǎng)絡(luò)(ANN)融合的分類器在Herlev數(shù)據(jù)集上進(jìn)行宮頸細(xì)胞三分類,總識(shí)別率達(dá)到了94.9%。這類傳統(tǒng)算法受限于分割精度和特征提取的完善度,并不適用于更加復(fù)雜的細(xì)胞細(xì)粒度分類。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)可通過(guò)卷積層自動(dòng)提取圖像特征,相對(duì)傳統(tǒng)算法更加簡(jiǎn)便[8-9]。Lin等[10]進(jìn)行細(xì)胞分割后直接使用AlexNet、GoogLeNet、ResNet、DenseNet 4種模型分別在Herlev數(shù)據(jù)集上進(jìn)行二、四、七分類,GoogLeNet表現(xiàn)最優(yōu),二、四、七分類準(zhǔn)確率分別為94.5%、71.3%和64.5%。Gautam等[11]在AlexNet上使用遷移學(xué)習(xí)在Herlev數(shù)據(jù)集進(jìn)行了二、七分類,準(zhǔn)確率分別達(dá)到了99.3%和93.75%,同時(shí)也證明了精準(zhǔn)的細(xì)胞分割對(duì)于深度學(xué)習(xí)的細(xì)胞分類是不必要的。Promworn等[12]分別使用ResNet101、DenseNet161、AlexNet、VGG19_bn、SqueezeNet1_1在Herlev數(shù)據(jù)集進(jìn)行二、七分類,最終DenseNet161在該數(shù)據(jù)集上表現(xiàn)最好,在二分類和七分類上分別取得了94.38%的準(zhǔn)確率,98.48%的敏感度,82.61%的特異性和68.54%的準(zhǔn)確率、68.18%的敏感度和69.57%的特異性。因細(xì)胞相近類別的形態(tài)特征相似性較高,所以采用傳統(tǒng)算法進(jìn)行宮頸細(xì)胞的細(xì)粒度分類時(shí)特征提取難度較大,算法復(fù)雜準(zhǔn)確率也較低;而深度學(xué)習(xí)的算法雖然在宮頸細(xì)胞的分類中相對(duì)傳統(tǒng)算法較為簡(jiǎn)便,但因數(shù)據(jù)集較小而存在計(jì)算量大、特征冗余等問(wèn)題,對(duì)于宮頸細(xì)胞的細(xì)粒度分類效果也欠佳。
針對(duì)上述問(wèn)題,現(xiàn)提出一種基于DenseNet121和Xception的雙流網(wǎng)絡(luò)深度學(xué)習(xí)算法對(duì)宮頸細(xì)胞進(jìn)行細(xì)粒度識(shí)別分類,并針對(duì)小數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)以提高網(wǎng)絡(luò)的泛化能力,同時(shí)采用有效的數(shù)據(jù)增強(qiáng),防止因數(shù)據(jù)較少而造成過(guò)擬合情況。
DenseNet121網(wǎng)絡(luò)模型較深,具有較好的非線性表達(dá)能力,可更好地?cái)M合特征,Xception相較傳統(tǒng)的Inception加寬了網(wǎng)絡(luò),使其更善于捕獲多樣化特征,故本文在進(jìn)行宮頸細(xì)胞細(xì)粒度分類時(shí)選取DenseNet121網(wǎng)絡(luò)以及Xception網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)構(gòu)建雙流卷積模型;此外,為提升模型分類性能,在DenseNet121的卷積層中加入DropBlock模塊防止模型過(guò)擬合,在Xception網(wǎng)絡(luò)層中加入SE模塊使其更好地提取宮頸細(xì)胞特異性特征,最終形成的網(wǎng)絡(luò)取名為DXNet。DXNet總體網(wǎng)絡(luò)架構(gòu)如圖1所示,首先將進(jìn)行數(shù)據(jù)擴(kuò)增后的數(shù)據(jù)集圖片分別輸入改進(jìn)后的DenseNet121和改進(jìn)后的Xception網(wǎng)絡(luò)中進(jìn)行特征提取,然后使用Concatenate層將兩個(gè)網(wǎng)絡(luò)生成的特征圖進(jìn)行融合;最后使用Dropout層進(jìn)行網(wǎng)絡(luò)正則化,Dense層進(jìn)行所有特征的提取整合。
1.1.1 DenseNet121簡(jiǎn)介
DenseNet[13]使用一種通道疊加的密集連接機(jī)制[14],使每個(gè)層都會(huì)接受該層前面所有層的輸出作為其額外的輸入,這種方式可使網(wǎng)絡(luò)參數(shù)更少,計(jì)算效率更高。圖2所示為DenseNet中DenseBlock的結(jié)構(gòu)圖,即前面所有層的輸出都作為后面層的輸入。
Xi=Hi([X0,X1,…,Xi-2,Xi-1])
(1)
式(1)中:i為層數(shù);Hi(·)為第i層的函數(shù)操作;Xi為第i層的輸出。

圖1 DXNet網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.1 The overall structure of the DXNet network

圖2 DenseBlock內(nèi)部結(jié)構(gòu)圖Fig.2 DenseBlock internal structure diagram
DenseNet由DenseBlock和間隔模塊Transition Layer組成。Transition Layer主要功能是整合上一個(gè)DenseBlock獲得的特征,并且減小特征圖的尺寸。DenseNet121由4個(gè)DenseBlock和3個(gè)Transition Layer組成。
1.1.2 DropBlock簡(jiǎn)介
DropBlock[15]是一種結(jié)構(gòu)化的Dropout[16]形式,兩者都可以用于網(wǎng)絡(luò)正則化,效果圖如圖3所示。當(dāng)Dropout和DropBlock用于卷積層時(shí),Dropout丟棄特征單元的方式使網(wǎng)絡(luò)還可從附近單元學(xué)習(xí)到丟棄部位信息,而DropBlock塊狀丟棄特征單元?jiǎng)t可迫使網(wǎng)絡(luò)學(xué)習(xí)其他未被丟棄方位信息,故DropBlock可用于卷積層進(jìn)行網(wǎng)絡(luò)正則化。
DropBlock有2個(gè)主要參數(shù):b和γ。b是可人為設(shè)置的隨機(jī)丟棄的方塊大小。當(dāng)b=1時(shí),DropBlock 等同于Dropout;但當(dāng)b太大時(shí),又會(huì)因?yàn)閬G失信息太多而起到反效果;通常情況下b取值為3、5、7。γ是伯努利函數(shù)概率,用來(lái)控制刪除的特征圖的單元數(shù)。公式為
(2)

圖3 DropBlock和DropoutFig.3 DropBlock and Dropout
式(2)中:k為將一個(gè)單元保留在特征圖中的概率;fs為特征圖的大小。
1.1.3 改進(jìn)方案
DenseNet121具有較深的網(wǎng)絡(luò)結(jié)構(gòu),可以很好地提取細(xì)胞特征,但在本文所使用的宮頸細(xì)胞數(shù)據(jù)集較小的情況下較容易帶來(lái)過(guò)擬合問(wèn)題。因此針對(duì)深層網(wǎng)絡(luò)提取出的一些宮頸細(xì)胞無(wú)效特征,可通過(guò)在卷積層加入DropBlock進(jìn)行網(wǎng)絡(luò)正則化從而使網(wǎng)絡(luò)表現(xiàn)出更好的魯棒性及泛化能力。
對(duì)DenseNet121的每個(gè)DenseBlock引入DropBlock,添加位置為DenseBlock的每個(gè)Dense Layer的3×3卷積層之后。改進(jìn)后的DenseNet121如圖4所示,如圖4左下角為改進(jìn)后的Dense Layer。輸入的圖片經(jīng)過(guò)4個(gè)加入DropBlock的DenseBlock和3個(gè)Transition Layer,再經(jīng)過(guò)一個(gè)全局最大池化層后輸出一個(gè)大小為1×1×1 024的特征圖。
1.2.1 Xception簡(jiǎn)介
Xception[17]相對(duì)原Inception-v3網(wǎng)絡(luò)引入了深度可分離卷積(depthwise separable convolution)。原始的深度可分離卷積可看作兩步傳統(tǒng)卷積:先深度卷積(depthwise convolution)后逐點(diǎn)卷積(pointwise convolution)。Xcepion中所用的深度可分離卷積為先逐點(diǎn)卷積后深度卷積,雖然順序改變,但參數(shù)數(shù)量不變,Xception中所用卷積如圖5所示。

圖4 改進(jìn)后的DenseNet121網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of improved DenseNet121
大量使用深度可分離卷積可降低網(wǎng)絡(luò)參數(shù)數(shù)量。假設(shè)輸入特征圖的尺寸為Dk×Dk×M,卷積核的尺寸為DF×DF×M,其數(shù)量為P。設(shè)對(duì)應(yīng)特征圖空間位置中每個(gè)點(diǎn)都會(huì)進(jìn)行一次卷積操作,則對(duì)于P個(gè)卷積操作的計(jì)算,深度可分離卷積S1和普通卷積總計(jì)算量S2的比值可表示為
(3)
從式(3)中可以發(fā)現(xiàn)深度可分離卷積的計(jì)算效率要遠(yuǎn)超于普通卷積。這也是Xception相對(duì)Inception-v3加寬了網(wǎng)絡(luò)但參數(shù)數(shù)量卻差不多的原因。

圖5 Xception中深度可分離卷積Fig.5 Depthwise separable convolution in Xception
1.2.2 SE模塊簡(jiǎn)介
SE(squeeze-and-excitation)模塊[18]通過(guò)獲取特征通道權(quán)重使網(wǎng)絡(luò)關(guān)注更重要的特征信息來(lái)達(dá)到提升網(wǎng)絡(luò)性能的目的。SE模塊如圖6所示,通過(guò)對(duì)輸入的特征圖依次進(jìn)行Squeeze與Excitation和Scale操作來(lái)輸出一個(gè)具有通道權(quán)重的特征圖。
Squeeze操作利用全局平均池化進(jìn)行特征壓縮,將特征圖U由大小W×H×C壓縮綜合信息為1×1×C大小。Squeeze操作的公式為
(4)
式(4)中:zc為通道特征信息;uc為U中第c個(gè)二維矩陣。
Excitation操作使用zc組成的總結(jié)果信息z獲取各通道間聯(lián)系,先使用全連接層(fully connected layers,F(xiàn)C)進(jìn)行降維操作,即矩陣W1乘z,再經(jīng)過(guò)一個(gè)ReLU(rectified linear unit)操作δ(·)和矩陣W2相乘進(jìn)行升維,最后經(jīng)過(guò)sigmoid函數(shù)得到s,s是大小1×1×C的特征圖。Excitation操作可用公式表示為
s=Fexcitation(z,W)=σ[W2δ(W1z)]
(5)
Scale操作是進(jìn)行特征重標(biāo)定的過(guò)程。sc為通道權(quán)重,Scale操作通過(guò)把uc矩陣中的每個(gè)值都乘以sc以得到帶有特征權(quán)重的特征圖X。Scale操作可用公式表示為
Xc=Fscale(uc,sc)=scuc
(6)

圖6 SE模塊結(jié)構(gòu)Fig.6 SE module structure
1.2.3 改進(jìn)方案
為更有效利用Xception網(wǎng)絡(luò)寬度較寬的特性,本文在Xception網(wǎng)絡(luò)層之后中加入SE模塊,使網(wǎng)絡(luò)提取大量豐富特征后通過(guò)SE模塊賦予各通道權(quán)重使網(wǎng)絡(luò)更好地學(xué)習(xí)宮頸細(xì)胞的特異性特征。優(yōu)化后的Xception如圖7所示,SE模塊為圖7中右下角區(qū)域。如圖7所示輸入的圖片經(jīng)過(guò)Xception的Entry flow,Middle flow和Exit flow的網(wǎng)絡(luò)層后經(jīng)由SE模塊加入特征權(quán)重再經(jīng)過(guò)一個(gè)全局最大池化層后輸出一個(gè)大小為1×1×2 048的特征圖。
實(shí)驗(yàn)使用Python語(yǔ)言進(jìn)行編程,為了提高實(shí)驗(yàn)效率,在Windows10系統(tǒng)下Pycharm環(huán)境使用CPU(central processing unit)進(jìn)行數(shù)據(jù)的處理及模型的測(cè)試,模型的訓(xùn)練平臺(tái)為DGX的Ubuntu18.04系統(tǒng),GPU(graphic processing unit)為T(mén)esla v100。

圖7 改進(jìn)后的Xception網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Network structure of improved Xception
因?qū)m頸細(xì)胞的特殊性,顏色、尺度及縮放變換等常見(jiàn)數(shù)據(jù)擴(kuò)增方式并不適合宮頸細(xì)胞。故使用旋轉(zhuǎn)、翻轉(zhuǎn)、平移等幾何變換的方式對(duì)數(shù)據(jù)進(jìn)行擴(kuò)增[19]。對(duì)于旋轉(zhuǎn)后的圖片會(huì)用像素為0的像素點(diǎn)將圖片周?chē)畛洌瑪U(kuò)充操作如圖8所示。因?yàn)橛?xùn)練過(guò)程中正負(fù)樣本的不均衡容易造成某個(gè)類別分類準(zhǔn)確高,某些類別準(zhǔn)確率低的狀況,所以在數(shù)據(jù)增強(qiáng)的過(guò)程中會(huì)適當(dāng)調(diào)整數(shù)據(jù)集的正負(fù)樣本比例。

圖8 數(shù)據(jù)集擴(kuò)充Fig.8 Expand the dataset
2.2.1 Herlev數(shù)據(jù)集及其預(yù)處理
Herlev數(shù)據(jù)集[20]是由海萊烏科技大學(xué)和丹麥科技大學(xué)搜集的Herlev巴氏涂片新版公開(kāi)數(shù)據(jù)集,也是全球公開(kāi)的最權(quán)威的宮頸細(xì)胞數(shù)據(jù)集。數(shù)據(jù)集使用軟件包CHAMP (Dimac)準(zhǔn)備,包含917張平均大小為156×140的單細(xì)胞圖像,單個(gè)宮頸細(xì)胞直徑為8~60 μm。圖像由兩位細(xì)胞學(xué)醫(yī)師進(jìn)行分類,只有兩個(gè)醫(yī)師分類一致圖像才被采用,所以該數(shù)據(jù)集的圖像質(zhì)量較高。該數(shù)據(jù)集中細(xì)胞的7個(gè)類別具體如圖9所示。這7類細(xì)胞中前3類為健康細(xì)胞,其余為異常細(xì)胞。其中柱狀上皮細(xì)胞因其形狀、顏色等與異常細(xì)胞具有高度相似性易被誤認(rèn)為異常細(xì)胞,所以適當(dāng)加大了其數(shù)據(jù)擴(kuò)增的力度。經(jīng)數(shù)據(jù)增強(qiáng)后的Herlev數(shù)據(jù)集如表1所示。
2.2.2 SIPAKMED數(shù)據(jù)集及其預(yù)處理
SIPaKMeD數(shù)據(jù)集[21]包括4 049張分離細(xì)胞的圖像,這些圖像通過(guò)適應(yīng)光學(xué)顯微鏡(OLYMPUS BX53F)的CCD(charge coupled device)相機(jī)獲得,然后手工從966張巴氏涂片細(xì)胞圖像中剪切出來(lái)。根據(jù)細(xì)胞的結(jié)構(gòu)和形態(tài),細(xì)胞被分為5個(gè)不同的類別。如圖10所示。
其中淺表中間型細(xì)胞和副基底層細(xì)胞可進(jìn)一步歸類為正常細(xì)胞;空泡細(xì)胞和角化不全細(xì)胞兩類細(xì)胞因細(xì)胞核開(kāi)始出現(xiàn)形態(tài)變化故歸類為異常細(xì)胞;角化不全細(xì)胞也是異常細(xì)胞水平,是宮頸癌前病變和癌性疾病開(kāi)始發(fā)展的階段。具體的圖像分類以及進(jìn)行擴(kuò)增后的圖片數(shù)據(jù)如表2所示。

圖9 Herlev數(shù)據(jù)集細(xì)胞圖示Fig.9 Herlev dataset cell images

圖10 SIPaKMeD數(shù)據(jù)集細(xì)胞圖示Fig.10 SIPaKMeD dataset cell images

表1 Herlev數(shù)據(jù)集擴(kuò)增詳情T(mén)able 1 Herlev dataset expansion details

表2 SIPaKMeD數(shù)據(jù)集擴(kuò)增詳情T(mén)able 2 SIPaKMeD dataset expansion details
實(shí)驗(yàn)使用混淆矩陣、準(zhǔn)確率(accuracy, ACC)、特異性(specificity, SPE)、敏感性(sensitivity, SEN)、精準(zhǔn)率(precision, PRE)、F1多種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型的分類實(shí)驗(yàn)結(jié)果進(jìn)行綜合評(píng)估。
混淆矩陣(confusion matrix)可以直觀的看出模型在各個(gè)類別上分類的情況。圖11所示為一個(gè)5分類且以第4類別為例的混淆矩陣,其中被準(zhǔn)確識(shí)別為第4類別的用YTP表示,被準(zhǔn)確識(shí)別為其他類別的用YTN表示,第4類別被識(shí)別為其他類的用YFN表示,其他類被識(shí)別為第4類的用YFP表示,其余類別YTP、YTN、YFN、YFP的計(jì)算方式同第4類別。
準(zhǔn)確率,表示正確分類的樣本在所有樣本中的數(shù)據(jù)比例,公式為
(7)

圖11 混淆矩陣Fig.11 Confusion matrix
敏感性,表示正樣本被正確識(shí)別的比例,公式為
(8)
特異性,表示負(fù)樣本被正確識(shí)別的比例,公式為
(9)
精準(zhǔn)率,表示被識(shí)別為正樣本中正樣本所占比例,公式為
(10)
F1為敏感性和精準(zhǔn)率的調(diào)和平均值,可更直接地表示方法的有效性,公式為
(11)
在進(jìn)行模型整體分類的評(píng)價(jià)標(biāo)準(zhǔn)中,除準(zhǔn)確率可直接通過(guò)式(7)計(jì)算外,其余均無(wú)法直接通過(guò)公式計(jì)算,故在模型整體的評(píng)價(jià)指標(biāo)中敏感性、特異性、精準(zhǔn)率和F1均使用各類別的平均值來(lái)表示。
首先通過(guò)實(shí)驗(yàn)對(duì)比DenseNet121改進(jìn)前后和Xception改進(jìn)前后在宮頸細(xì)胞細(xì)粒度分類中的表現(xiàn),證明其改進(jìn)的有效性;隨后進(jìn)行網(wǎng)絡(luò)融合消融實(shí)驗(yàn),證明網(wǎng)絡(luò)融合有效性以及最終融合方案即DXNet融合方案的有效性,接著對(duì)DropBlock中丟棄特征塊的大小,即b參數(shù)的最終取值進(jìn)行實(shí)驗(yàn)驗(yàn)證;最后對(duì)比DXNet與其他算法進(jìn)行宮頸細(xì)胞細(xì)粒度分類實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果。
因Herlev數(shù)據(jù)集較小,為使訓(xùn)練集涵蓋更多類型樣本以提取更多不同細(xì)胞特征,故相對(duì)數(shù)據(jù)量較大的SIPaKMeD數(shù)據(jù)集增大了Herlev數(shù)據(jù)集的訓(xùn)練集比例,實(shí)驗(yàn)將進(jìn)行數(shù)據(jù)預(yù)處理后的Herlev數(shù)據(jù)集每一類都隨機(jī)按照訓(xùn)練集(80%)、驗(yàn)證集(10%)和測(cè)試集(10%)進(jìn)行七分類實(shí)驗(yàn),將處理后的SIPaKMeD數(shù)據(jù)集每一類都隨機(jī)按照訓(xùn)練集(70%)、驗(yàn)證集(20%)和測(cè)試集(10%)進(jìn)行五分類實(shí)驗(yàn)。實(shí)驗(yàn)使用框架為Keras,優(yōu)化器為Adam (adaptive moment estimation), Batchsize大小為32,受數(shù)據(jù)集數(shù)據(jù)量大小影響,Herlev數(shù)據(jù)集的訓(xùn)練epoch設(shè)置為200,SIPaKMeD數(shù)據(jù)集的訓(xùn)練epoch設(shè)置為150,實(shí)驗(yàn)?zāi)P偷谋4嬉则?yàn)證集準(zhǔn)確率作為對(duì)比標(biāo)準(zhǔn),在訓(xùn)練過(guò)程中只有該epoch的模型驗(yàn)證集準(zhǔn)確率高于上次保存的模型驗(yàn)證集準(zhǔn)確率,該模型才會(huì)被保存。
2.4.1 DenseNet121、Xception的改進(jìn)測(cè)試
這一部分將證明對(duì)于單個(gè)網(wǎng)絡(luò)改進(jìn)的有效性。在相同實(shí)驗(yàn)條件下,分別使用DenseNet121改進(jìn)前后的網(wǎng)絡(luò)模型和Xception改進(jìn)前后的網(wǎng)絡(luò)模型在Herlev數(shù)據(jù)集和SIPaKMeD數(shù)據(jù)集上測(cè)試。為更加直觀地表示測(cè)試結(jié)果在精度上的差異,測(cè)試結(jié)果如圖12所示,圖12(a)是改進(jìn)前后的DenseNet121和Xception網(wǎng)絡(luò)在Herlev測(cè)試集上的表現(xiàn),圖12(b)是其在SIPaKMeD測(cè)試集中的表現(xiàn)。
從圖12展示的兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果中可清晰看出,改進(jìn)后的DenseNet121網(wǎng)絡(luò)與改進(jìn)后的Xception網(wǎng)絡(luò)在進(jìn)行宮頸細(xì)胞細(xì)粒度分類實(shí)驗(yàn)時(shí)的表現(xiàn)均優(yōu)于改進(jìn)前。改進(jìn)后的DenseNet121相對(duì)改進(jìn)前在Herlev數(shù)據(jù)集上提升了3.15%的準(zhǔn)確率,在SIPaKMeD數(shù)據(jù)集上提升了2.59%的準(zhǔn)確率,且其余評(píng)價(jià)參數(shù)也有不同程度的提升,這證明了通過(guò)在DenseNet121中加入DropBlock進(jìn)行特征塊丟棄的方式提高其在宮頸細(xì)胞細(xì)粒度分類準(zhǔn)確率的方法是可行的。改進(jìn)后的Xception相對(duì)改進(jìn)前在Herlev數(shù)據(jù)集上提升了2.32%的準(zhǔn)確率,在SIPaKMeD數(shù)據(jù)集上提升了1.03%的準(zhǔn)確率,其余評(píng)價(jià)指標(biāo)亦有不同程度的提升,證明在Xception中加入SE模塊提升模型識(shí)別的效果的方法是有效的。

圖12 改進(jìn)模型測(cè)試結(jié)果Fig.12 Test results of the improved model
2.4.2 消融實(shí)驗(yàn)及DXNet實(shí)驗(yàn)結(jié)果分析
這一部分進(jìn)行網(wǎng)絡(luò)融合方案消融實(shí)驗(yàn)、b取值的實(shí)驗(yàn)驗(yàn)證以及DXNet的實(shí)驗(yàn)結(jié)果分析。
在相同實(shí)驗(yàn)條件下,進(jìn)行關(guān)于DenseNet121網(wǎng)絡(luò)和Xception網(wǎng)絡(luò)的4種不同融合方法的消融實(shí)驗(yàn),實(shí)驗(yàn)同時(shí)使用Herlev數(shù)據(jù)集和SIPaKMeD數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果如表3所示。
觀察表3結(jié)果,可以發(fā)現(xiàn)融合改進(jìn)DenseNet121和改進(jìn)Xception的模型,即DXNet模型在兩個(gè)數(shù)據(jù)集中的各方面表現(xiàn)均為最優(yōu),分別達(dá)到了99.84%和99.88%的準(zhǔn)確率,證明了DXNet的融合方案為最優(yōu)融合方案,同時(shí)也證明了本文對(duì)于單個(gè)網(wǎng)絡(luò)的改進(jìn)在進(jìn)行網(wǎng)絡(luò)融合后依然能夠發(fā)揮其作用。
為進(jìn)一步直觀地觀察數(shù)據(jù),對(duì)不同融合方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如圖13所示,圖13(a)和圖13(b)分別為各實(shí)驗(yàn)?zāi)P驮贖erlev數(shù)據(jù)集和SIPaKMeD數(shù)據(jù)集中的表現(xiàn),其中DenseNet121*表示改進(jìn)后的DenseNet121網(wǎng)絡(luò),Xception*表示改進(jìn)后的Xception網(wǎng)絡(luò)。為了更好地說(shuō)明網(wǎng)絡(luò)融合的有效性,增加了在單個(gè)網(wǎng)絡(luò)中表現(xiàn)最優(yōu)的改進(jìn)Xception網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果。
通過(guò)觀察圖13可知,除了由原始DenseNet121和原始Xception融合的網(wǎng)絡(luò)外,其余融合網(wǎng)絡(luò)均不遜色于改進(jìn)Xception網(wǎng)絡(luò),且通過(guò)對(duì)比圖12和圖13,可以觀察到經(jīng)過(guò)融合后的網(wǎng)絡(luò)性能表現(xiàn)均優(yōu)于融合前,這證明了使用網(wǎng)絡(luò)融合的方式提高模型分類準(zhǔn)確率的方法是有效的。
DropBlock中b的取值會(huì)影響實(shí)驗(yàn)結(jié)果,因此通過(guò)實(shí)驗(yàn)來(lái)選擇b的最優(yōu)取值,實(shí)驗(yàn)選擇在對(duì)模型更加敏感的Herlev數(shù)據(jù)集上進(jìn)行。實(shí)驗(yàn)結(jié)果如表4所示。由表4可知,當(dāng)b=5時(shí),模型效果最優(yōu),所以本文有關(guān)b參數(shù)的實(shí)驗(yàn)中b的取值都為5。

表3 不同融合方法測(cè)試結(jié)果Table 3 Test results of different fusion methods

圖13 不同融合方法結(jié)果對(duì)比Fig.13 Comparison of results of different fusion methods
DXNet網(wǎng)絡(luò)對(duì)Herlev測(cè)試集和SIPaKMeD測(cè)試集進(jìn)行細(xì)粒度分類的混淆矩陣和各類細(xì)胞的評(píng)價(jià)指標(biāo)具體如表5和表6所示,由表5可得知DXNet模型使用Herlev測(cè)試集進(jìn)行測(cè)試時(shí)除將一張中度病變的圖片識(shí)別為輕度病變外,其余均正確分類,模型整體細(xì)粒度分類效果較好;由表6可知DXNet使用SIPaKMeD測(cè)試集進(jìn)行測(cè)試時(shí)除三張角化不全細(xì)胞分別被錯(cuò)判為兩張空泡細(xì)胞和一張化生型細(xì)胞外,其余均正確分類,且這三類細(xì)胞都屬于非正常細(xì)胞。從DXNet模型在兩個(gè)數(shù)據(jù)集上進(jìn)行分類的表現(xiàn)可以看出,DXNet模型進(jìn)行細(xì)粒度分類的識(shí)別率較高,不僅對(duì)細(xì)胞相近類別分類效果較好,對(duì)于正常細(xì)胞和異常細(xì)胞的關(guān)鍵分類亦具有高度敏感性。
圖14為分類錯(cuò)誤的具體圖片以及相應(yīng)的置信度,其中圖14(a)為Herlev測(cè)試集中被分類錯(cuò)誤的圖片,該圖存在細(xì)胞重疊的現(xiàn)象,很大程度的混淆了細(xì)胞的核質(zhì)比,所以造成了較難分類的情況。

表4 參數(shù)選擇Table 4 Parameter selection

表5 DXNet在Herlev測(cè)試集上的表現(xiàn)Table 5 DXNet’s performance on Herlev test set

表6 DXNet在SIPaKMeD測(cè)試集上的表現(xiàn)Table 6 DXNet’s performance on SIPaKMeD test set
圖14(b)~圖14(d)為SIPaKMeD測(cè)試集中分類錯(cuò)誤的圖片,這三張圖片同樣存在不同程度的細(xì)胞重疊,其中圖14(b)和圖14(c)中重疊的其他染色細(xì)胞可能會(huì)被誤認(rèn)為被識(shí)別細(xì)胞的一部分,而圖14(d)中因?yàn)閳D片中存在客觀元素導(dǎo)致圖片不清晰以至于細(xì)胞核和細(xì)胞質(zhì)沒(méi)有明顯的分界,這可能是其被錯(cuò)誤分類的原因。

圖14 分類錯(cuò)誤的細(xì)胞Fig.14 Misclassified cells
2.4.3 實(shí)驗(yàn)結(jié)果對(duì)比
為進(jìn)一步驗(yàn)證模型有效性,本部分將對(duì)比DXNet與其他模型進(jìn)行宮頸細(xì)胞細(xì)粒度分類時(shí)的表現(xiàn),如表7和表8所示。表7為不同模型使用Herlev數(shù)據(jù)集進(jìn)行7分類實(shí)驗(yàn)結(jié)果,表8為不同模型使用SIPaKMeD數(shù)據(jù)集進(jìn)行5分類實(shí)驗(yàn)結(jié)果。
文獻(xiàn)[11,23]中均使用AlexNet作為基礎(chǔ)網(wǎng)絡(luò),但文獻(xiàn)[11]是簡(jiǎn)單使用AlexNet和遷移學(xué)習(xí)進(jìn)行分類,分類準(zhǔn)確率較低;文獻(xiàn)[23]分割細(xì)胞核后,使用AlexNet組合的多流神經(jīng)網(wǎng)絡(luò)結(jié)合人工設(shè)計(jì)特征進(jìn)行分類,雖然分類準(zhǔn)確率較高,但算法較為復(fù)雜;文獻(xiàn)[22]中首先對(duì)細(xì)胞核進(jìn)行分割,然后使用類VGG網(wǎng)絡(luò)進(jìn)行分類,細(xì)胞細(xì)粒度分類準(zhǔn)確率較低;文獻(xiàn)[24]使用隨機(jī)森林分類器對(duì)分割出的細(xì)胞核進(jìn)行分類,算法復(fù)雜且分類準(zhǔn)確率較低;文獻(xiàn)[25]使用分類回歸樹(shù)(CART)進(jìn)行特征選擇,粒子群優(yōu)化算法(PSO)對(duì)SVM的超參數(shù)進(jìn)行優(yōu)化,最后使用SVM進(jìn)行分類,分類準(zhǔn)確度較高,但算法復(fù)雜;文獻(xiàn)[21]使用改進(jìn)后的VGG-19進(jìn)行了分類,分類準(zhǔn)確率偏低;文獻(xiàn)[26]對(duì)所有宮頸圖像的CNN特征進(jìn)行聚類,然后構(gòu)造圖結(jié)構(gòu),使用圖神經(jīng)網(wǎng)絡(luò)(GCN)探索宮頸細(xì)胞圖像的內(nèi)在聯(lián)系,算法準(zhǔn)確率較高,但耗時(shí)較長(zhǎng);文獻(xiàn)[27]使用Bagging集成分類器綜合5個(gè)分類器的結(jié)果,但分類準(zhǔn)確率較低。

表7 Herlev數(shù)據(jù)集不同方法實(shí)驗(yàn)結(jié)果Table 7 Experimental results of different methods on Herlev dataset

表8 SIPaKMeD數(shù)據(jù)集不同方法實(shí)驗(yàn)結(jié)果Table 8 Experimental results of different methods on SIPaKMeD dataset
綜上所述,傳統(tǒng)的機(jī)器學(xué)習(xí)算法復(fù)雜且準(zhǔn)確率較低,一些需要分割細(xì)胞核的算法受到分割算法準(zhǔn)確率的影響,一些需要人工提取特征的算法并不具有代表性。而本文方法使用的DXNet網(wǎng)絡(luò)結(jié)構(gòu)更加多樣化,能夠有效提取特征,且對(duì)宮頸細(xì)胞進(jìn)行細(xì)粒度分類的識(shí)別率也較高。
提出了一種雙流卷積神經(jīng)網(wǎng)絡(luò)對(duì)宮頸細(xì)胞進(jìn)行細(xì)粒度分類,通過(guò)在深度網(wǎng)絡(luò)DenseNet121中加入DropBlock增強(qiáng)模型泛化性,在Xception添加SE模塊使網(wǎng)絡(luò)擁有特征權(quán)重以更好的提取宮頸細(xì)胞特異性特征,且對(duì)兩個(gè)改進(jìn)后的網(wǎng)絡(luò)進(jìn)行了特征融合,通過(guò)簡(jiǎn)單的數(shù)據(jù)增強(qiáng)來(lái)達(dá)到擴(kuò)增數(shù)據(jù)集的目的,最后在擴(kuò)增后Herlev數(shù)據(jù)集和SIPaKMeD數(shù)據(jù)集上進(jìn)行了宮頸細(xì)胞的細(xì)粒度分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與其他常用方法在采取多種評(píng)價(jià)指標(biāo)綜合評(píng)估模型能力的情況下,DXNet在兩個(gè)數(shù)據(jù)集上進(jìn)行宮頸細(xì)胞的細(xì)粒度分類測(cè)試均有良好的性能提升,在對(duì)宮頸細(xì)胞相近類別有較高的分類準(zhǔn)確率的同時(shí)亦保證了正常細(xì)胞和異常細(xì)胞關(guān)鍵分類的識(shí)別率,具有較好的臨床價(jià)值,但本文算法對(duì)重疊細(xì)胞的分類仍有不足,這也是醫(yī)生進(jìn)行人工閱片時(shí)易出現(xiàn)的難題,針對(duì)這個(gè)問(wèn)題,未來(lái)將繼續(xù)收集數(shù)據(jù)進(jìn)行進(jìn)一步研究。