(上海理工大學光電信息與計算機工程學院,上海 200093)
近年來青光眼和糖尿病的患者人數不斷攀升[1]。糖尿病的常見并發癥是糖尿病性視網膜病變,如果得不到及時診斷和治療容易造成視力損失甚至失明。青光眼嚴重時也會造成視力下降或失明。這兩種疾病的診斷通常需要對視盤進行準確定位和分析。
眼科醫生在診斷時通常需耗費大量的時間和精力來估計視盤的位置和大小,這種診斷方法具有較強的主觀性,個人經驗的不同會影響診斷結果。計算機輔助診斷技術是快速準確分析青光眼和糖尿病視網膜病變的重要方法,其核心步驟是定位和分割彩色眼底圖像中的視盤。
視網膜眼底圖像中視盤是一塊亮白色類圓形區域。傳統的視盤分割方法分為基于邊緣、形狀和區域3 類[2]。Xu 等[3]利用全局橢圓參數與局部變形模型相結合的方法分割視盤邊界。初始曲線位置的確定對分割結果影響較大,在對比度較低的眼底圖像中收斂效果較差;Morales等[4]用圓或橢圓擬合視盤邊界,但因視盤的形狀特征不規則,會造成分割偏差;Reza 等[5]利用加入標記的分水嶺變換算法將眼底圖像分割成不同區域并進行標記修改,但分割結果受亮病灶干擾嚴重。傳統視盤分割方法提取特征類型較為單一,對視盤的亮度特征及形狀特征有較大的依賴性,泛化性能較弱[6]。
基于深度學習的方法在進行視盤分割任務時表現較為優異。神經網絡能夠使分割過程自動執行,自主學習眼底圖像中的特征表達,有效提取視盤的特征信息,分辨能力強,提高了視盤分割效率[7]。牛笛[8]提出利用顯著圖和卷積網絡結合定位視盤,去除血管后再進行視盤分割的方法;Maninis 等[9]提出卷積神經網絡與遷移學習技術相結合的視盤分割方法;Cheng 等[10]利用全卷積網絡(FCNs)學習視網膜圖像和相應的分割圖之間的映射,實現視盤分割;Sevastopolsky 等[11]提出對視網膜圖像進行裁剪,通過選取感興趣的視盤區域減少病灶的干擾,再使用U-Net 網絡對感興趣區域進行視盤分割;Fu 等[12]提出多尺度輸入輸出和多標簽損失函數組成的深度網絡M-Net 模型分割視盤。該方法將提取的感興趣區域轉換為極坐標,提高了分割精度;Baidaa 等[13]使用融合密集模塊的全卷積神經網絡實現視盤分割。
眼底圖像數據量較少,圖像語義結構固定,在視盤分割過程中高級語義信息與底層結構特征采集都非常重要。對帶病灶眼底圖像的視盤進行分割時常常會受到滲出液等亮病灶干擾。基于U-Net 網絡的分割方法其U 型結構及跳躍連接能有效傳遞高層與底層信息,但網絡層數較少,無法提取高層次特征信息[14]。利用U-Net 分割出的視盤定位準確,但受血管和亮病灶影響較大,分割效果欠佳。
本文提出融合殘差網絡(Residual Network)結構[15]和U-Net 網絡結構的視盤分割方法。殘差模塊的跳躍連接能將淺層特征傳遞給更深一層網絡,實現淺層特征的重復使用,增強圖像細節學習,在網絡訓練過程中能夠實現同時學習圖像細節特征和全局結構特征,更好地區分視盤與亮病灶。
采集彩色眼底圖像時存在諸多外部因素干擾,比如成像機器位置偏差、角度偏差以及光照不均勻等。為消除光照不均及背景噪聲對視盤分割的影響,需對彩色眼底圖像進行預處理,預處理步驟如圖1 所示。

Fig.1 Pretreatment steps圖1 預處理步驟
首先對圖像進行裁剪去除多余背景部分,裁剪后圖像大小為500×500。利用文獻[16]中提出的IRHSF(Iterative Robust Homomorphic surface Fitting)去光照方法,根據視盤結構及病灶的反射性質,通過濾波、擬合等方式估計各區域的反射分量并進行區分與排除[17]。用設定值將檢測到的視盤、黃斑和血管屏蔽,建立曲面模型對剩下的結構進行光照分量建模。處理后的眼底圖像中較暗的部分顯示清晰,且整張圖像對比飽和度均勻,去光照后的眼底圖像如圖2(b)(彩圖掃OSID 碼可見,下同)所示。
接下來將去光照后的眼底圖像進行灰度標準化,將三通道圖像轉換成單通道圖像處理。提取彩色眼底圖像的3個通道進行觀察,發現視盤的主要特征集中在紅色通道和綠色通道中,尤以綠色通道為多。本文選取25% 的紅色通道分量與75% 的綠色通道分量疊加進行灰度化,盡可能保留最多的視盤特征,其公式定義如下:

I表示轉換后的單通道圖像,Ig和Ir是綠色通道及紅色通道分量。將彩色圖像轉換成灰度圖像再進行后續分割處理也是減少數據計算量的有效方式。
增強圖像對比度能突出視盤的亮度特征,更有利于分割視盤。本文選用限制對比度的自適應直方圖均衡化方法,通過計算圖像局部區域的直方圖重新分配圖像的灰度值,有效提高圖像局部對比度,同時增強圖像的邊緣信息,抑制噪聲增強。
最后,利用gamma 校正技術對圖像進行亮度偏差較正,使圖像中明亮部分得到增強,灰暗部分得到削弱。預處理后的灰度圖像如圖2(c)所示,圖像整體對比度飽和度均勻,光照較暗區域圖像還原度高,灰度圖像中細節信息完整,視盤亮度特征明顯,病灶特征細節被模糊,處理結果有利于視盤分割。

Fig.2 Comparison before and after pretreatment圖2 預處理前后對比
基于U-Net 網絡的分割方法能夠提取圖像的淺層特征,但因網絡層數較少而無法提取高層次特征信息,圖像細節學習不夠,在視盤分割時常常受到血管及亮病灶等干擾。一般情況是網絡層數增加提取特征能力增強,但He等[15]發現當網絡深度增加時,網絡準確率并沒有隨之升高。這是因為網絡訓練輸出層附近的隱藏層參數達到最優時,輸入層附近的隱藏層參數較輸入時參數變化不明顯,導致網絡訓練效果欠佳,如出現反向梯度傳播時極可能產生梯度無窮小情況。
殘差網絡(ResNet)可有效解決網絡的梯度消失或退化問題,使網絡更容易在某些層學習到恒等變換(Identity Mapping)。恒等變換是一種構造性解決方法,將網絡設計為H(x)=F(x) +x,使恒等映射為網絡的一部分。然而,當F(x)=0 時,恒等映射H(x)=x構造難度較大。構建殘差函數F(x)=H(x) -x,將恒等映射問題轉化為擬合殘差,不增加額外參數和計算復雜度。使用有參網絡層學習輸入與輸出之間的殘差,其結構如圖3 所示。

Fig.3 Residual network structure圖3 殘差網絡結構
擬合殘差映射方式能減小網絡退化問題,加強淺層網絡與深層網絡之間特征信息的傳播,實現跨通道信息整合,將淺層網絡的原始輸入信息直接傳遞到深層網絡,同時減少網絡參數生成數量,減少計算量,加快網絡運行速度。
融合ResNet 結構的U-Net 網絡結構框架延續U-Net網絡的框架對稱結構,由編碼路徑和解碼路徑組成。原始U-Net 結構能夠同時結合淺層特征信息與高層特征信息,利用較少的樣本數據進行端到端的學習訓練。本文在原始U-Net 網絡結構上采樣和下采樣中分別加入ResNet 結構,ResNet 結構的跳躍連接將提取的特征信息重復學習,消除亮病灶等噪聲干擾,進而增強圖像分割的準確性。融合ResNet 結構的U-Net 分割模型如圖4 所示。
加入ResNet 結構的U-Net 網絡編碼路徑結構每一層級由卷積核為3×3 的卷積層、核為2×2 大小的最大池化層以及殘差網絡模塊組成,選取ReLU 函數作為激活函數。ResNetBlock 是在卷積層基礎上建立的跳躍連接,將上層獲取的特征信息跨層傳遞給下一層級網絡,實現淺層特征的重復使用。下采樣主要用來獲取上下文信息,提取輸入圖像特征。解碼路徑每一層級則采用2×2 大小的卷積核進行上采樣操作,同時將下采樣過程中提取的淺層特征信息通過跳躍連接,與相應上采樣過程中的深層特征信息進行融合。卷積層使用3×3 大小的卷積核進行操作,并加入ResNetBlock,將上一層采集的特征信息輸入進上采樣恢復的卷積層中。最后一層采用1×1 大小的卷積核進行卷積運算,將特征向量映射到期望數量的分類,實現網絡端對端輸出,保證輸出圖像與輸入圖像大小相同。

Fig.4 U-Net segmentation model fused with ResNet structure圖4 融合ResNet 結構的U-Net 分割模型
融合殘差網絡的U-Net 分割模型不僅增加了網絡深度,而且重復利用提取的淺層特征信息,增強圖像細節學習,能夠使深層的網絡模型性能不低于淺層網絡模型。前向傳播時將提供的特征重復使用,反向傳播時緩解梯度信號消失,使網絡模型得到優化,學習能力更強,收斂更快。
本網絡模型訓練與測試實驗均在PyCharm 平臺上進行,主要使用Keras 和TensorFlow 框架。計算機配置為16G 內存的Intel?Core?i7-7700 CPU 處理器,8GB 顯存的NVIDIA GeForce GTX 2080Ti 顯卡。
通過Messidor 和Kaggle 彩色眼底圖像數據集進行視盤分割實驗及驗證。將Messidor 數據集中600 張預處理后的圖片作為訓練樣本,100 張預處理后的圖片作為測試樣本。Kaggle 數據集中存在較多的糖尿病視網膜病變眼底圖像,選取129 張正常及帶病灶圖像作為測試樣本,用于測試模型的泛化能力。
深度學習數據擴充方法較為豐富,本文主要采用幾何變換后分塊的方法。將輸入的訓練數據進行隨機角度的翻轉、旋轉處理后進行圖像隨機切割分塊。視盤分塊大小設置為128×128,約為視盤的兩倍,目的是保證訓練數據中視盤類圓的形狀特征和位置特征。每張圖像中視盤占據位置較小,圖像分塊后存在正負樣本不均勻等情況,需對分塊后的圖像進行欠采樣處理,并保證欠采樣前后數據分布一致,以實現圖像數據擴充。
利用融合ResNet 結構的U-Net 分割模型對輸入圖像數據進行網絡模型訓練和優化后,對Messidor 數據集中的100 張圖片和Kaggle 數據集中129 張圖片進行測試,生成的測試結果為視盤分割概率圖。二分類問題是通過設定閾值得到的分割結果,利用一般的評價指標對測試結果進行評價會造成較大誤差。因此,本文根據視盤分割結果概率圖與Groundtruth 繪制ROC 曲線和PR 曲線,分別計算AUC 和MAP 值作為評價指標。
ROC 曲線用來衡量網絡分割模型整體性能,是判斷視盤與非視盤區域的重要手段。在視盤分割過程中預測結果可能出現的情況如表1 所示。正確預測的視盤像素個數標記為TP,被錯誤預測的視盤像素個數標記為FN,正確預測的背景像素個數標記為TN,錯誤預測的背景像素個數標記為FP。

Table 1 Forecast result matrix表1 預測結果矩陣
ROC 曲線以假陽性概率(False Positive Rate,FPR)為橫軸,假陽性概率數學表達式如式(2)所示,即預測為視盤的像素為背景像素個數占實際背景像素個數的比值,比值越接近0 準確率越高。以真陽性概率(True Positive Rate,TPR)為縱軸,其數學表達式如式(3)所示,即預測為視盤像素且實際為視盤像素的個數占所有實際為視盤像素個數的比值,比值越接近1 準確率越高。

AUC(Area Under Curve)為ROC 曲線與坐標軸圍成的面積,面積越接近于1 說明網絡分割模型準確性越高。
在正負樣本不均衡的情況下,PR 曲線更能評估分割結果的優異。查全率與查準率是與正例有關的兩個指標,能更好地判斷多個分割模型結果的預測情況。曲線橫坐標為查全率(Recall),其與ROC 曲線中的真陽性率含義相同。曲線的縱坐標為查準率(Precision),數學表達式如式(4)所示,表示視盤像素被正確預測的個數占被預測為視盤像素總個數的比例。

PR 曲線越接近點(1,1),網絡模型的預測結果越精確。MAP 是PR 曲線與坐標軸圍成的面積,MAP 越接近于1 網絡模型越完美。
在對網絡模型進行改進和優化后,將訓練樣本分別輸入U-Net 網絡、加入Attention 的U-Net 網絡以及加入ResNet 的U-Net 網絡進行訓練。經過迭代訓練后,分別得到良好的參數模型,將Messidor 數據集與Kaggle 數據集的測試樣本進行測試,測試結果如圖5 和圖6 所示。
通過觀察可以發現,僅利用U-Net 網絡模型進行視盤分割結果如圖6 第3 列所示,在Messidor 數據集和Kaggle數據集上的測試分割結果存在較多噪聲干擾,分割的視盤邊界受血管影響較大,出現缺損現象,魯棒性欠佳。視盤處于主血管突出位置,融入Attention 的U-Net 網絡分割結果受血管影響較大,屏蔽血管能力不強,但其分割結果中噪聲較少,視盤定位較為準確。融合ResNet 結構的U-Net網絡模型用于分割視盤時表現最佳,分割結果如圖6 第5列所示。其視盤邊界清晰,未受到亮病灶及血管的影響。視盤位置學習準確,受背景因素干擾小,屏蔽血管效果極佳。Kaggle 數據集上測試結果的ROC 曲線與PR 曲線如圖7 和圖8 所示。根據曲線計算出的AUC 值與MAP 值可以看出,加入ResNet 的U-Net 網絡模型生成的AUC 面積更大,驗證算法和模型準確性更高,MAP 值更接近1,網絡分割模型效果更好。由此可見,加入ResNet 的U-Net 網絡模型AUC 值與MAP 值較其它模型更大,即模型性能更佳,驗證算法的準確性更高。

Fig.5 Test results of different network models on the Messidor dataset圖5 Messidor 數據集上不同網絡模型測試結果

Fig.6 Test results of different network models on the Kaggle dataset圖6 Kaggle 數據集上不同網絡模型測試結果

Fig.7 Kaggle data set test ROC curve圖7 Kaggle 數據集測試ROC曲線

Fig.8 Kaggle data set test PR curve圖8 Kaggle 數據集測試PR 曲線
本文選用的兩個公開數據集中大多數眼底圖像均帶有病灶,對于一般病灶U-Net 加ResNet 網絡模型表現最佳。但當眼底圖像背景區域出現與視盤亮度特征極其相似的情況時,視盤分割干擾較大,準確率降低。視盤分割欠佳情況如圖9 所示。

Fig.9 Poor disc segmentation圖9 視盤分割欠佳情況
本文基于U-Net 網絡的3 種不同網絡結構進行對比研究。在原始U-Net 網絡基礎上有一定改進,網絡性能得到改善。加入注意力機制與殘差網絡的網絡模型能夠對視盤分割任務產生積極作用,其中在U-Net 網絡中融入殘差網絡的模型魯棒性較強,實驗證明其網絡模型泛化能力較強,分割性能得到明顯改善。對于眼底病灶較為復雜的眼底圖像存在大面積與視盤特征相似的連通區域,在執行分割任務時屏蔽此類病灶使網絡模型,學習更高層次的特征是后續研究方向。