張 燦,陳 瑋,尹 鐘
(上海理工大學 光電信息與計算機工程學院,上海 200093)
宮頸癌是女性最常見的惡性腫瘤之一。人乳頭瘤病毒 (Human Papilloma Virus,HPV)感染是引發(fā)宮頸癌的最主要原因。據(jù)統(tǒng)計,中國每年僅宮頸癌一項的新發(fā)病例數(shù)約為13萬。液基薄層細胞檢測(Thinprep Cytologic Test,TCT)技術(shù)是國際上最先進的一種宮頸癌細胞學檢查技術(shù),其對宮頸癌細胞的檢出率為100%。宮頸細胞是子宮內(nèi)壁細胞,為上皮細胞的一種。TCT根據(jù)圖片中的細胞形態(tài)進行分類診斷,從而判斷宮頸上皮細胞是否存在病變,同時還能發(fā)現(xiàn)部分癌前病變。
雖然婦女宮頸癌檢測技術(shù)隨時代發(fā)展在逐漸進步,但是后期閱片主要還是依靠人工。中國病理醫(yī)生缺口高達8~10萬人。隨著計算機圖像處理技術(shù)的發(fā)展,計算機輔助閱片診斷已被證明具有可行性及有效性[1]。計算機輔助閱片也將成為未來主要的輔助檢測手段。
宮頸細胞分類診斷最主要的特征之一就是細胞的核質(zhì)比[2]。因此,宮頸細胞的核質(zhì)分割是宮頸細胞分類診斷的前提。細胞核質(zhì)分割的研究方法主要有3種:(1)傳統(tǒng)圖像分割方法;(2)細胞核、細胞質(zhì)分別使用二分類卷積網(wǎng)絡分割[3];(3)端到端的語義分割算法。
文獻[4]使用圖像全局閾值法分別進行圖像細胞質(zhì)邊界與細胞核邊界的標定。這種方法泛化能力低,且分割過程復雜。文獻[5]通過定位種子像素,采用區(qū)域生長算法進行宮頸細胞圖像分割。人工定位種子點加大了工程量,且該算法無法實現(xiàn)復雜背景細胞圖像分割。文獻[6]提出了使用改進UNet網(wǎng)絡分別進行細胞質(zhì)與細胞核的語義分割訓練。該方法需要大量人工進行圖像標注,對細胞質(zhì)與細胞核分別進行分割,處理過程較為復雜。文獻[7]提出了級聯(lián)的隨機森林和卷積神經(jīng)網(wǎng)絡相結(jié)合的模型。該模型加快了網(wǎng)絡訓練速度,但是細胞邊界不清晰。文獻[8]提出了一種新的弱監(jiān)督細胞分割網(wǎng)絡模型FFNs。該模型使用弱監(jiān)督標簽,單個種子點通過循環(huán)網(wǎng)絡迭代在多個重疊視圖上動態(tài)推理,使得單個種子像素擴展到當前細胞膜的分界點。該模型實現(xiàn)了端到端的訓練,但是無法同時分割出細胞膜和細胞核。文獻[9]提出的弱監(jiān)督語義分割方法采用顯著性物體檢測算法,自動地生成語義分割標簽,分3次進行訓練。該方法完全不需要人工標定圖片,但是顯著物檢測方法不適用類別不均衡的情況。
隨著深度卷積神經(jīng)網(wǎng)絡技術(shù)的不斷更新,出現(xiàn)了大量語義分割模型。語義分割是對圖像中每一個像素進行語義類別的劃分。雖然語義分割任務在性能上獲得了提高,但是這些模型依賴于大量手動標注的訓練數(shù)據(jù)集。創(chuàng)建手動標記的訓練集不僅成本高昂,且耗時較多。因此,通過較弱的監(jiān)督信號來構(gòu)建預測模型成為了研究熱點。
在生物醫(yī)學領(lǐng)域,存在豐富的知識本體及各種類型的數(shù)據(jù)庫資源,可利用這些資源為相關(guān)任務提供弱監(jiān)督信息[10],建立相應的標注函數(shù)。將標注函數(shù)應用于未標注的數(shù)據(jù),產(chǎn)生訓練標簽,然后利用這些標簽進行模型訓練。
為了解決數(shù)據(jù)集缺少標注的問題,使用弱監(jiān)督方法[11]進行圖像語義分割是目前亟待解決的問題。因此,本文提出一種基于弱監(jiān)督宮頸細胞圖像,使用編解碼網(wǎng)絡結(jié)構(gòu)加入條件隨機場的語義分割算法(Encoder-Decoder CRF Network,EDCNet),有效地分割細胞質(zhì)與細胞核。
由于缺少標注的數(shù)據(jù)集和直接對細胞進行核質(zhì)分割的語義分割網(wǎng)絡,本文提出了一種圖像自動生成訓練標簽算法。該算法以K-means作為標注函數(shù),并以編碼器-解碼器(Encoder-Decoder)為基本結(jié)構(gòu),引入條件隨機場(Conditional Random Field,CRF)整合上下文信息,對宮頸細胞圖像進行語義分割。
EDCNet主要應用于上皮細胞圖像的核質(zhì)分割。首先對細胞圖像進行預處理,使用K-means標注函數(shù)生成細胞圖像的分割標簽。然后,使用中值濾波算法對分割標簽去噪。最后,將原圖和標簽對應的灰度圖輸入到EDCNet中進行訓練。EDCNet的網(wǎng)絡結(jié)構(gòu)如圖1所示。

圖1 EDCNet的網(wǎng)絡結(jié)構(gòu)Figure 1.Network structure of EDCNet
本文網(wǎng)絡是全卷積神經(jīng)網(wǎng)絡,通過Encoder[12]收集圖像信息并對像素值進行歸類與分析,獲得高階語義信息。通過Decoder收集這些語義信息,將同一類別的物體對應到相應的像素點上。
(1)EDCNet的DeBlock模塊包括Padding層(1×1)、Conv層(3×3)和MaxPooling層(2×2)。512×512大小的RGB圖像共經(jīng)過4個相同的DeBlock模塊進行下采樣,得到64×64×512大小的輸出,即網(wǎng)絡最內(nèi)層的輸出;
(2)EDCNet的UpBlock模塊包括Padding層(1×1)、UpSampling(2×2)和Deconv(2×2)Concaten-ate層,對網(wǎng)絡最內(nèi)層輸出進行上采樣;
(3)EDCNet的FinBlock模塊包括UpSampling層(2×2)、Conv層(3×3)和Conv層(1×1)。調(diào)整輸出大小,使輸出與輸入有相同的長寬;
(4)EDCNet輸出使用CRF層對結(jié)果進行修正[13]。采用Softmax進行像素級分類預測。

圖2 EDCNet的具體結(jié)構(gòu)Figure 2.Specific structure of the EDCNet
宮頸細胞圖像分割的難點在于細胞是一個整體,很難將細胞核作為一個單獨的目標看待,因此存在邊界信息不明顯等問題。EDCNet在下采樣階段使用Same卷積操作,即在卷積操作前對輸入圖像矩陣邊緣補0,盡可能減少信息的丟失。使用MaxPooling操作進行下采樣[14],使用不重疊最大池化操作,在突出顯著特征的同時減少參數(shù)和計算量,防止過擬合,提高模型的泛化能力。EDCNet的每一層都加入了BatchNormalization操作來調(diào)整數(shù)據(jù)的分布,使數(shù)據(jù)更加均勻。同時,加快收斂。在上采樣階段使用UnSampling與DeConv輸出Concatenate的操作,使用UnSampling操作恢復最顯著的特征。DeConv帶有參數(shù),參數(shù)在訓練過程中會不斷調(diào)整,因此DeConv擁有學習的特性,可獲得更多的細節(jié)信息。FinBlock則被用于調(diào)整輸出。為了提升模型捕獲細節(jié)的能力并突出邊界信息,用RNN形式的CRF完成第二階段的后處理(CRF-RNN)[15]。CRF整合全局信息,作為平滑后處理,能夠大幅提升分割效果,并且直接給出高斯核的參數(shù)theta_alpha=160,theta_beta=3,theta_gamma=3作為超參數(shù),不需要參與訓練,加快了網(wǎng)絡訓練速度。
宮頸細胞圖像分割是一個多分類圖像分割問題,宮頸細胞圖像進行多分類的難點在于類別不均衡,細胞質(zhì)與背景所占的像素遠大于細胞核。針對這種情況,選用了DiceLoss,其計算如式(1)和式(2)所示。
(1)
DiceLoss=1-DSC
(2)
其中,DiceLoss為輸出結(jié)果與真實標簽的重合度;A代表輸出結(jié)果;B代表真實標簽。雖然DiceLoss適用于樣本類別極度不均勻的狀況,但是隨著網(wǎng)絡訓練次數(shù)的疊加,損失值變得不穩(wěn)定,難以收斂。因此在DiceLoss的基礎上加上多分類交叉熵損失函數(shù)(Multi Classification Cross Entropy Loss Function,CE)[16],并取平均值。CE計算如式(3)所示。
(3)
其中,x表示輸入樣本;k為待分類的類別總數(shù);yi為第i個類別對應的真實標簽;fi(x)為對應的模型輸出值。
本文使用損失函數(shù)如式(4)所示。
(4)
根據(jù)實驗操作順序,下面將依次介紹實驗的開發(fā)環(huán)境及參數(shù)設置、數(shù)據(jù)集、標注函數(shù)選擇、數(shù)據(jù)預處理、評價指標、數(shù)據(jù)標定、訓練調(diào)優(yōu)過程以及實驗結(jié)果分析。
本文實驗的開發(fā)環(huán)境為Ubuntu18.04,使用Python編程語言,Keras深度學習框架。硬件環(huán)境為NVIDIA GTX1080Ti,單個GPU,Intel Core i5處理器。學習率設置為1×10-4,采用Adam優(yōu)化器進行參數(shù)更新。
本文實驗數(shù)據(jù)集由上海復玄信息科技有限公司提供。該數(shù)據(jù)集為通過電子顯微鏡拍攝的宮頸液基薄層細胞圖片,共包含3 000張2 000×2 000的圖片。經(jīng)圖片剪裁后含有分類目標的圖片共12 000張,其中8 400(70%)張圖片作為訓練集,2 400(20%)張圖片作為驗證集,1 200(10%)張圖片作為測試集。
針對未標注的數(shù)據(jù)集標注函數(shù),在不使用手動方式標注的條件下,對數(shù)據(jù)進行黑盒代碼片段標注。本文使用標注函數(shù)來為深度學習模型標注訓練數(shù)據(jù)。
常用于弱監(jiān)督的標注函數(shù)有顯著性檢測、CAM(Class Activation Mapping)和K-means。不同標注函數(shù)生成標簽結(jié)果如圖3所示。

圖3 不同標注函數(shù)生成的標簽圖(a)原圖 (b)CAM熱力圖 (c)顯著圖 (d)K-meansFigure 3.Label graphs generated by different annotation functions(a)Original image (b)CAM heat map (c)Saliency map (d)K-means
由圖3可以看出,CAM算法生成的熱力圖定位到了細胞,但是圖片中分類不精確;顯著圖的細胞質(zhì)部分顏色不均勻,細胞質(zhì)和背景的邊界不清晰,無法作為語義分割的標簽;K-means標注結(jié)果最優(yōu),因此本文選擇K-means作為標注函數(shù)。
數(shù)據(jù)預處理步驟如下:
步驟1圖像增強。首先,圖像采集過程中不均勻的光照和積液以及樣本中的雜質(zhì)等會引起噪聲,因此需要先使用基于稀疏表示的KSVD算法[17]進行圖像去噪。其次,圖像需要加強細胞部分的特性,減弱背景部分的特征。因此,本文使用直方圖均衡化方法加強圖像對比度;
步驟2圖片剪切。原圖為2 000×2 000大小的圖片,若以原圖作為卷積神經(jīng)網(wǎng)絡的輸入,無法獲得圖片更深層的語義信息[18],且占用內(nèi)存較大,模型訓練復雜度增加。因此,把每張圖片有重疊的剪切為16張512×512大小的圖片。步驟2的處理結(jié)果如圖4所示;

圖4 剪切后的圖片F(xiàn)igure 4.The cut images
步驟3生成標簽。在沒有專家參與圖像標注的情況下,對未標注的細胞圖像數(shù)據(jù)加以分析利用。這些未標注的樣本盡管沒有明確的標簽信息,但是根據(jù)細胞分類診斷的相關(guān)知識及數(shù)據(jù)的分布特征可知該數(shù)據(jù)集標簽的具體形式。使用K-means生成數(shù)據(jù)集對應的標簽圖像,使用中值濾波算法對標簽圖片進行去噪。標簽圖像內(nèi)容包含3類,即背景、細胞質(zhì)和細胞核;
步驟4圖像灰度化。EDCNet輸入的標簽形式為一維灰度圖像,不同的灰度值代表不同的物體類別。把RGB圖片轉(zhuǎn)換成只包含3個像素值的灰度圖像,灰度值設置為0、1、2,分別代表背景、細胞質(zhì)和細胞核。
語義分割是像素級別的分類,最常用的評價指標有平均像素準確率(Mean Pixel Accuracy,MPA)和平均交并比(Mean Intersection over Union,MIoU)。
假設數(shù)據(jù)集有k+1類,pii表示真陽性(Ture Positive,TP),pjj表示真陰性(Ture Negative,TN),pij表示假陽性(False Positive,F(xiàn)P),pji表示假陰性(False Nagative,F(xiàn)N),平均像素準確率MPA的計算如式(5)所示。
(5)
平均交并比MIoU的計算如式(6)所示。
(6)
本文使用的數(shù)據(jù)集缺少真實對應的標簽,為了更好地評價EDCNet,對測試集數(shù)據(jù)使用labelme模塊進行標定,生成測試集對應的ground truth[19](正確的標定)。
訓練集的8 400張圖片被分兩批進行訓練。第一批選取2 520(占訓練集的30%)張只含有單個細胞且分割效果較好的圖片作為網(wǎng)絡的初訓練集。其余5 880(占訓練集的70%)張圖片作為網(wǎng)絡的完善訓練集。訓練過程如下:
步驟1初訓練集送入到網(wǎng)絡進行第一次訓練,訓練出一個具有一定語義分割能力的深度卷積神經(jīng)網(wǎng)絡,即initial DCNN;
步驟2使用第一次訓練得到的initial DCNN對剩下的5 880張訓練集圖片進行預測,輸出相對應的segmentation mask。將該5880張原圖和網(wǎng)絡輸出的segmentation mask繼續(xù)送入該網(wǎng)絡進行訓練,得到加強的深度卷積神經(jīng)網(wǎng)絡,即Enhanced DCNN,進一步提升網(wǎng)絡的語義分割能力;
步驟3將全部訓練集的8 400張圖片送入Enhanced DCNN訓練出最終的深度卷積神經(jīng)網(wǎng)絡Powerful DCNN。
為了比對結(jié)果與原圖,把兩者調(diào)整透明度進行了重合比對操作。
由圖5可以看出輸出分割圖與原圖幾乎重合,達到了預期的分割效果。

圖5 輸出結(jié)果與原圖的對比圖Figure 5.Comparison between output result and original image
為了更好地驗證EDCNet的性能,將本文提出的分割算法與經(jīng)典的卷積神經(jīng)網(wǎng)絡FCN[20]、Encoder-Decoder結(jié)構(gòu)的SegNet[21]網(wǎng)絡、針對細胞圖像分割的UNet++[22]網(wǎng)絡以及圖像處理效果優(yōu)越的卷積神經(jīng)網(wǎng)絡CGAN[23]進行對比。

(a) (b) (c) (d) (e) (f)圖6 圖像分割結(jié)果對比(a)細胞原圖 (b)FCN分割結(jié)果 (c)SegNet分割結(jié)果 (d)UNet++分割結(jié)果 (e)CGAN分割結(jié)果 (f)EDCNet分割結(jié)果Figure 6.Comparison of image segmentation results(a)Cell images (b)FCN prediction results (c)SegNet prediction results (d)UNet++ prediction results (e)CGAN prediction results (f)EDCNet prediction results
使用本文數(shù)據(jù)集分別訓練以上5種網(wǎng)絡模型,超參數(shù)batch-size設置為4,epoch為2 000。5種模型的訓練結(jié)果如圖6所示。可以看出,F(xiàn)CN模型訓練結(jié)果中細胞邊界不清晰,SegNet模型訓練結(jié)果細胞質(zhì)并不完整,UNet++訓練結(jié)果細胞核缺失,CGAN模型訓練結(jié)果有較大提高,但是邊界依然不圓滑;EDCNet訓練結(jié)果較以上模型有較大改善。
將測試集分為10組,每組120張圖片,分別計算MPA與MIoU,并取最終的平均準確率。
5種方法的MPA對比結(jié)果如表1所示,MIoU對比結(jié)果如表2所示。從表中可以看出,SegNet在FCN基礎上加入了編解碼結(jié)構(gòu),明顯提高了準確率;EDCNet比CGAN模型復雜度更小,網(wǎng)絡結(jié)構(gòu)更加簡單。EDCNet相比于UNet++,參數(shù)量有所降低。其網(wǎng)絡中加入CRF層,準確率進一步提升至96.7%,比UNet++模型高出12.5%。

表1 5種算法的MPA對比表Table 1. Comparison of MPA of five algorithms

表2 5種算法的MIoU對比表Table 2. Comparison of MIoU of five algorithms
本文提出了一種基于Encoder-Decoder結(jié)構(gòu)的弱監(jiān)督語義分割模型,并使用宮頸細胞圖片對該模型進行驗證。所提出的網(wǎng)絡結(jié)構(gòu)不僅減少了網(wǎng)絡深度[24],還在Decoder解碼部分加入了反卷積和CRF優(yōu)化層,在提高學習能力的同時優(yōu)化了輸出圖像的細節(jié)[25],使最終分割準確率達到了96.7%。本文建立了宮頸細胞TCT涂片圖像的數(shù)據(jù)集。該數(shù)據(jù)集中的一張圖片是由大圖片在有重疊情況下剪切而來,因此以該數(shù)據(jù)集訓練的卷積神經(jīng)網(wǎng)絡具有較強的泛化能力。實驗結(jié)果表明,該方法能夠有效地分割出背景、細胞質(zhì)及細胞核,為精確識別宮頸細胞病變判別奠定了基礎。下一階段的研究重點為在多個細胞嚴重重疊的情況下分割出單個細胞。