艾星芳,謝鑫鵬
(1.江門職業技術學院信息工程學院,江門529090;2.深圳市騰訊計算機系統有限公司,深圳518000)
糖尿病視網膜病變(簡稱糖網)是一種嚴重的眼睛損傷,可導致視力喪失或失明[1]。據世界衛生組織統計,全世界大約有2.2億人受到糖尿病的影響[2],視網膜病變則依據患者的患病程度以及時間而有所不同。因此,糖網的早期檢測對及時控制病情和提高患者的生活質量有著重要的意義。糖網在眼底圖像中表現為微動脈瘤(MA)、出血(HE)、硬滲出物(EX)和軟滲出物(SE)等。滲出物是由受損血管在視網膜表面沉積的蛋白質或脂質,通常呈黃色[3]。硬性滲出物的存在是眼底損傷的明顯標志,可以幫助早期發現糖網(DR)和糖尿病性黃斑水腫(DME)等疾病。在臨床實踐中,需要對圖像中的異常區域進行檢測和分割,從而幫助醫生進行診斷和病情評估。然而目前臨床上采用的手動分割方法消耗了醫生的大量時間和精力,迫切需要一種智能算法來輔助醫生進行異常區域的標注。
近年來,在眼底圖像異常區域檢測和分割領域已有大量工作。然而主要集中于血管的分割工作[4-6],在病變區域分割方面仍不成熟。早期工作基于圖像中異常區域的邊緣、紋理等特征,采用邊緣檢測、紋理分類和形態學等操作來實現異常區域的分割。Esmaeili等人[7]提出利用Curvelet小波對眼底圖像中的視盤和硬滲出物進行分割。Singh等人[8]提出了強度閾值和形態運算的策略組合。Walter等人[9]首先采用圖像增強、陰影校正和圖像歸一化作為預處理。然后,該研究應用自動閾值方案來檢測MA的候選區域。然后利用特征提取方法將候選區域分為MA和non-MA。Quellec等人[10]采用了一種基于最優小波變換的模板匹配技術來檢測視網膜圖像中的MA。還提出了一種多尺度幅度-頻率調制方法來區分正常和病理視網膜圖像[11]。近年來,隨著深度學習算法的發展,越來越多的醫學圖像分析工作開始采用深度學習算法。Hornero等人[12]利用神經網絡分類器檢測視網膜圖像中的硬性滲出物。Tan等人[13]設計了一個深度卷積神經網絡來自動分割硬性滲出、出血和微動脈瘤。Mo等人[14]設計了一種用于硬滲出物分割的全卷積殘差網絡(FCRN)。FCRN只需一次前向掃描就可以生成眼底圖像的滲出概率圖。然而,FCRN是一個單一的病灶分割模型,對DR和DME的診斷只能提供有限的幫助。Guo等人[15]提出了一種基于L-seg網絡的多任務分割模型,實現了同一網絡對EX、HE、MA和SE的分割。
雖然近年來在眼底圖像病變分割方面已經做了大量的工作,但是仍然需要更精確和更有效的算法來對不同種類的眼底(視網膜)圖像中的病變進行分割。在這項工作中,我們提出了一種基于區域的多分辨率融合卷積神經網絡對糖尿病視網膜病變相關的多個病變進行像素級分割。利用多分辨率(MSM)卷積融合模塊來提取圖像中的底層特征,并設計了網絡嵌套模塊(NIN)來檢測圖像的高層特征。
實驗數據集來自ISBI 2018會議競賽提供的印度糖尿病視網膜病變圖像數據集(IDRiD)。該數據集包括眼底影像143張,其中視網膜病變54張,正常89張。視網膜病變圖像包含一個或多個視網膜病變,如微動脈瘤(MA)、出血(HE)、硬滲出物(EX)和軟滲出物(SE),如圖1所示。圖像的分辨率為4288×2848像素,并以jpg文件格式存儲。每個圖像的大小約為800kb。
我們對數據進行了隨機訓練集和測試集劃分,其中80%的圖像作為訓練集,其余20%作為測試集。具體劃分情況見表1。由于不是每張圖像都包含所有4種病變,在數據劃分時,盡量保證每種病變都按照相同的比例被劃分在訓練和測試數據集中。

圖1視網膜病變:微動脈瘤(MA)、出血(HE)、硬滲出物(EX)和軟滲出物(SE)

表1 訓練與測試數據劃分
在這項工作中,我們提出了一種基于區域的卷積神經網絡對糖尿病視網膜病變相關的多個病變進行像素級分割。所謂基于區域的深度網絡是將原始圖像劃分為多個相同尺寸的小區域,利用深度學習網絡對提取出的小區域進行分類,分類結果作為該區域中心像素的標簽,從而實現圖像的像素級分割。由于圖像中病變區域相對較小,因此這種基于區域的卷積神經網絡(patch-based CNN)比常用的全卷積網絡(FCN)和Unet更加適合。在使用基于區域的CNN時,可以通過patch選擇來解決數據不平衡的問題。此外,較淺的CNN網絡可以保證病變區域的特征不會在較深的網絡層中消失。
在這項工作中,數據庫中80%的圖像用于訓練,20%用于測試。對于每幅圖像,我們提取了32×32像素的區域(patch),并將中心像素的標簽分配給它們。采樣間隔為8個像素,如圖2所示。訓練集包含227294個patch圖像。約50%的patch為正常,其余patch為病變。四個病灶的patch數目相同。

圖2區域提取算法示意圖
在這項工作中,我們提出了一個多分辨率特征融合網絡來分割視網膜病變。CNN結構如圖3所示。該網絡包括一個常規卷積層,三個多分辨率特征提取模塊(MSM),一個網絡嵌套模塊(NIN)和一個全連接層。利用3×3常規卷積層和三個MSM來提取patch的底層特征。并設計了一個NIN模塊來檢測patch中的高級特征。CNN使用patch進行訓練。在進行分割時,則對測試圖像進行逐像素patch提取,CNN的預測結果作為中心像素的標簽。為了解決邊界效應,我們在每個邊界處擴展圖像18個像素,并用零填充擴展的邊界。

圖3多分辨率融合卷積神經網絡結構示意圖
由于淺層特征圖的分辨率高于深層特征圖,而不同分辨率的特征適用于不同尺度的目標檢測。因此,針對常規卷積層無法同時檢測多尺度目標的問題,本文提出了一種適用于淺層的多分辨率特征提取模塊(MSM),結構如圖4所示。該模塊包含3條支路,采用空洞卷積的思想進行設計,每條支路的空洞半徑不同:分別為1、2和3個像素。各支路提取不同分辨率的圖像特征,再由特征拼接層進行特征融合。

圖4多分辨率特征提取模塊示意圖
網絡嵌套模塊(NIN)主要是為了更好地融合MSM提取的特征。與淺層不同,深層特征圖的尺寸較小。因此,單一的卷積核就足以進行特征提取,在兩個連續的3×3卷積之間放置1×1卷積層以進行特征融合。
本文所提出的框架是使用Keras工具箱實現的。網絡使用GPU(NVIDIA GeForce GTX TITAN X,12GB RAM)進行訓練,batch size設置為64。初始學習率設置為0.00001。用Adam代替傳統的隨機梯度下降(SGD)作為優化算法,并根據訓練數據迭代更新神經網絡權值。網絡在70個訓練周期后收斂。
我們利用ROC曲線下的面積AUC來對分割結果進行評價,見表2。其中MSM+INI表示本文提出的多分辨率融合網絡,MSM表示去掉網絡嵌套模塊的網絡。可以看到增加INI模塊可以明顯的提高網絡的性能。另外,我們也和ISBI 2018參賽的隊伍前5名隊伍的網絡和同樣利用IDRiD數據進行測試的L-seg網絡性能進行了比較。表3括號中的數值表示該網絡在所有參與比較的網絡中的性能排名。本文所提出的多分辨率融合網絡所有7個網絡中排名中上,其中對于出血(HE)分割的效果排名最高(2/7),軟滲出(SE)分割的排名最差(4/6)。

表2 不同網絡對4種異常的分割性能比較
與其他類相比,所有方法在EX和MA的分割上分別表現最好和最差。從圖像中分析,EX表現為高亮且邊緣清晰的異常區域,在4中異常中最易分辨;而MA表現為較小的暗紅色斑點,通常與血管交疊,分割難度最大。與其他方法相比,本文提出的網絡在HE分割上處于前列,其他3種異常的分割上處于中間。整體分割性能較好,能夠兼顧各種異常的分割性能,沒有明顯的短板。
基于區域的算法在訓練中可以得到很好地效果,準確率在90%以上,然而由于區域的標記僅基于中心像素的標簽,導致在訓練過程中,很接近的兩個區域可能被分配了不同的類標簽,對網絡的訓練產生了負面的影響。而在測試中,基于區域的網絡會傾向于把所有包含異常的區域都劃分為異常(即使其中心像素是正常的),從而導致異常的分割區域偏大。
本文提出了一種基于區域的多分辨率融合卷積神經網絡對糖尿病視網膜病變相關的多個病變進行像素級分割。多分辨率特征提取層被用來提取區域圖像中的底層特征,網絡嵌套模塊來檢測圖像中的高層特征。實驗結果表明,該網絡可以有效地分割眼底圖像中的多種病變。