李凈,鐘元芾,李曉凱,王振華
1. 上海交通大學附屬第六人民醫院 紀檢監察處,上海 201306;2. 上海海洋大學 信息學院,上海 201306
黃斑水腫(Macular Edema,ME)是糖尿病視網膜病變、老年性黃斑變性和視網膜靜脈阻塞等眼部疾病患者視力下降的常見原因之一。ME在臨床上被定義為視網膜內的血清液積聚和視網膜中央厚度增加[1]。ME的早期檢測對視網膜病變的治療和視力損害的預防具有重要意義。光學相干斷層成像(Optical Coherence Tomography,OCT)是一種低相干光干涉技術的無創、無接觸的成像方法[2],在眼科臨床上有著廣泛的應用。OCT圖像可提供視網膜組織信息,醫療工作者可通過OCT圖像中的視網膜內液/囊腫區域圖來評估ME的嚴重程度,以此輔助疾病治療方案的決策,可見ME區域的準確分割對臨床診斷具有重要[3-5]。
由訓練有素的眼科醫生來對ME區域進行手工標注一直被認為是“黃金標準”。但手工標注存在以下問題:① 耗時長、效率低,醫生需要耗費大量的時間和精力來完成病變區域的標注工作;② 存在主觀性,不同醫生由于經驗不同,對同一病人ME區域的標注結果存在差異;③ 圖像信息利用率低、可重復性低。近年來,計算機輔助算法被應用于ME的臨床診斷,如閾值分割[6]、區域分割[7]、圖模型[8]和滑動輪廓分割[9]等。He等[10]將圖像去噪預處理與改進水平集模型相結合,分割并計算了水腫區域的面積。張天橋等[11]將高斯濾波器與水平集方法相結合,提出了基于多分辨率及水平集的黃斑圖像分割方法。
計算機輔助算法提高了OCT圖像中ME分割的效率,但這些算法因高度依賴于OCT圖像的質量和專業的先驗領域知識而限制了其普適性。深度學習因其對圖像特征的提取能力和對復雜問題的擬合能力,在醫療和醫學圖像分析中受到了極大的關注。許多學者將深度學習用于醫學OCT圖像中病變部位的分割。如Xu等[12]將U-net神經網絡與殘差網絡理念結合,提出了一種對糖尿病視網膜病變的分割模型。Hu等[13]提出了改進的空間金字塔池化模塊,并與深度卷積神經網絡相結合,對視網膜下積液和內液進行分割。Lu等[14]結合神經網絡模型與隨機森林模型,對視網膜積液進行由粗到細的分割。由上述文獻可以看出,面向OCT圖像的深度學習算法已廣泛應用于醫學病變部位的分割,但仍存在以下幾點問題:① 現有神經網絡的參數量大且計算時間較長,醫學疾病診斷的強時效性對神經網絡分割的效率提出了挑戰;② OCT圖像的質量參差不齊,黃ME域尺度差異大且紋理識別難度高,異質的OCT圖像質量對神經網絡分割的精度提出了挑戰。針對上述問題,本文聯合Dilated U-net和全連接條件隨機場(Conditional Random Field,CRF)提出了一種ME全自動分割模型。
本文提出的ME全自動分割模型包括:① 采用孔洞卷積代替原始卷積增大網絡感受野,改進U-net神經網絡(Dilated U-net),實現ME區域的粗分割;② 將粗分割結果作為初始輪廓曲線,利用全連接CRF實現ME區域邊界優化,圖1所示為ME全自動分割模型架構圖。

圖1 ME自動分割模型架構圖
U-net[15]神經網絡結構簡單,參數量少,其特點是將分割目標的底層信息和高層信息結合用于目標像素點的定位。但U-net網絡使用傳統卷積和池化操作提取眼底OCT圖像的特征,此方法對圖像中的小尺度目標不敏感,導致小尺度ME區域空間信息丟失,故此較難提取OCT圖像的深層特征。同時,像素級別的分割方法忽視了ME的空間一致性,無法兼顧像素間的關系。因此,直接利用U-net網絡模型進行ME區域分割其精確不高。
本文采用孔洞卷積代替原始卷積增大網絡感受野,改進了U-net神經網絡,見圖2。Dilated U-net網絡模型由左側下采樣收縮路徑和右側上采樣擴張路徑組成,收縮路徑中使用孔洞卷積替代原始卷積,增大了深層特征圖的感受野,提高了對小尺度ME特征的提取能力。

圖2 Dilated U-net網絡模型框架
理論上感受野增加的同時其卷積核增大,而大卷積核亦增加了參數量和計算復雜度,對硬件計算能力要求較高且不利于模型的收斂。針對此問題,Dilated U-net網絡模型在原始卷積中插入孔洞卷積(權重參數為0)。孔洞卷積保證了卷積層在不降低空間維度和不增加計算參數的情況下增大卷積的感受野。
孔洞卷積核大小計算公式為式(1)所示。

其中,r為膨脹系數,當r=1時即為原始卷積。fh fw為原始卷積核高和寬;Fh Fw為孔洞卷積核高和寬。
為了加速網絡訓練,Dilated U-net網絡模型在網絡結構中添加了批歸一化層(Batch Normalization,BN)。在網絡訓練中,深層數據隨前一層參數的變化而變化,須使用一個小的學習率以及對參數進行良好的初始化,這使得網絡收斂變得緩慢。BN層通過公式(2)將數據分布歸一化到均值為μB,方差為的分布基礎上。

其中,μB和分別代表整個數據集的均值和方差,ε為平滑因子避免分母為0,xi為輸入數據,為歸一化后數據,γ和β為可學習重構參數,yi為網絡下一層的輸入值。與將xi直接輸入網絡下一層相比,進行BN處理后無需網絡后層再調整學習以適應xi分布,達到加快網絡模型收斂的效果。
利用Dilated U-net網絡模型對ME區域進行分割,克服了網絡參數過多導致的數據量要求高和欠擬合現象;同時,Dilated U-net網絡模型對低層形態特征具有更高的敏感性,適用于語義簡單和結構固定的醫學圖像。
為克服Dilated U-net網絡模型僅考慮區域像素特征,缺乏全局空間上下文信息,以及邊緣細節分割能力不強等問題,本節引入全連接CRF對Dilated U-net網絡模型的分割結果進行優化。
全連接CRF是一種概率圖模型[16],被廣泛應用于圖像分割[17-18]。CRF模塊將分割過程抽象為能量最小化問題。
定義一副圖像I包含n個像素點,X={X1,X2,X3…Xn}為圖像I在標簽空間L={0,1}上的觀測量,其中1代表目標類別,0代表背景類別,則(X,I)構成CRF,其概率分布服從Gibbs分布,見式(3)。



通過最小化能量函數E(X|I)可獲得最大后驗概率P(X|I),即式 (5)。



其中,μ(Xi,Xj)為標簽兼容函數,用于懲罰相互連接的相似像素被標記為不同的類別。k(m)(fi(m),fi(m))是高斯核函數,ω(m)為每個高斯核對應的權重。高斯核函數的表示為式(8)。

fi和fj分別為相連隨機觀測量Xi和Xj的特征向量,Pi和Pj分別為相連隨機觀測量Xi和Xj的坐標向量。θα和θβ是高斯核中重要的尺度參數,用于控制觀測量Xi和Xj之間的接近度和相似性。
CRF考慮了圖像的空間上下文信息,反映了觀測變量之間的依賴關系,可剔除較小的誤分割區域和細化分割,實現ME區域分割邊界的優化。
實驗數據為200幅OCT圖像(100名女性和100名男性),圖像大小為400×700像素。將200幅OCT圖像分為三組:140幅訓練集,30幅驗證集,30幅測試集。為了提高訓練樣本的多樣性,降低訓練過程中因樣本不足帶來的過擬合問題,增強模型的魯棒性。將訓練集OCT圖像(140幅)進行水平翻轉處理,并在ME區域附近裁剪出一個256×256的新圖像(圖3),將訓練集擴增為280幅圖像。

圖3 圖像水平旋轉、裁剪處理
實驗運行的硬件環境為32G Intel(R) Core(TM) i7-9850H CPU和6G NVIDIA Quadro RTX3000 GPU。Dilated U-net網絡模型由開源框架Pytorch構建,網絡學習率設置為0.0001,通過“poly”優化方法對學習率進行動態更新。基于隨機梯度下降算法對整體訓練進行網絡參數優化,使用交叉熵函數為損失函數Cross-Entropy loss,定義為式(9)。

其中,x是批次輸入X中的每一個輸入,t(x)是預測對象的真實值,p(x)是網絡輸出結果通過Softmax函數預測的值。Softmax函數將輸入結果作映射,映射所有類別的輸出范圍為[0,1],且和為1,其定義為式(10)。

其中,pi表示第i類輸出,k表示求和時來自所有類別K的第k類。本文實驗中K的取值為2,即將輸入圖像分為非ME類別和ME類別。
從圖4可以看出,對比網絡訓練loss以及在驗證集中測試的Dice相似系數,本文提出的Dilated U-net網絡模型比U-net網絡模型更快達到收斂。

圖4 Dilate U-net網絡模型訓練
本文引入了精確率(Precision)、召回率(Recall)和Dice相似系數三個性能參數對Dilated U-net網絡模型進行性能調控[20-22]。各評估度量標準的計算公式為式(11)~(13)。

其中,Vs為模型分割的病變區域像素個數,Vg為目視解譯的病變區域像素個數。三個性能參數亦可用于不同分割模型的性能比較。
全連接CRF含兩個參數:θα和θβ,分別用于控制觀測量Xi和Xj之間的接近度和相似性。將經過Dilated U-net網絡分割得到的30幅驗證集粗分割結果圖作為全連接CRF的輸入,通過網格搜索和交叉驗證方法獲取CRF成對項中參數θα和θβ的最優取值。首先,固定參數θα的取值為1,考慮參數θβ的影響:設置參數θβ的取值為1~20,步長為1。根據驗證集OCT圖像,繪制出θα=1,評價指標Dice相似系數基于參數θβ不同取值變化的曲線。改變參數θα的值,取值范圍為1~20,步長為1。根據驗證集數據,繪制出不同θα取值,評價指標Dice相似系數基于θβ取值變化的曲線,如圖5所示。
從圖5中可看出,CRF的Dice相似系數隨參數值變化有較小波動,但整體相對穩定。當θα取值為10,θβ取值為14,CRF可獲取最佳分割性能。

圖5 CRF參數敏感性測試
將本文模型與C-V[23]和SBG等[7]傳統分割算法進行比較,圖6為不同分割模型的ME區域分割結果比較。表1為不同分割模型的分割結果性能參數比較,包括精確率、召回率、Dice相似系數及單幅OCT圖像分割耗時。

圖6 本文模型與C-V、SBG分割模型的分割結果比較
表1 不同模型分割結果的精度評價(±s)

表1 不同模型分割結果的精度評價(±s)
模型 精確率/% 召回率/% Dice/% 耗時/s C-V 34.17±4.67 52.89±20.35 36.51±9.13 2068.3 SBG 46.99±3.34 96.06±0.79 61.07±3.72 33.2本模型 95.94±0.11 95.67±0.72 95.52±0.28 0.9
由圖6可看出:① 本文模型的分割結果與目視解譯具有更高的相似度,且其抗噪聲干擾能力強,受OCT圖像質量影響較小,能準確區分ME和視網膜組織;② C-V、SBG分割模型抗噪聲干擾能力弱,受OCT圖像質量的影響易把噪聲區域識別為ME區域;如OCT2、OCT3所示;③ SBG分割模型的分割結果中,網膜組織區域被錯誤分割為了ME區域。
由表1可看出:① 本文模型具有最高的精確率和Dice相似系數,分別為95.94%和95.52%,這說明本文模型較C-V和SBG而言,克服了圖像噪音等圖像質量因素對分割結果的影響;② 本文模型分割單幅OCT圖像所需時間僅為0.9 s,遠低于C-V和SBG分割模型的分割耗時。
將本文模型與 FCN[24]、PSPNet[25]、Deeplab[5]和 U-net等網絡模型進行比較,分割結果如圖7所示。表2為不同網絡模型的分割結果性能參數比較,包括精確率、召回率、Dice相似系數及單幅OCT圖像分割耗時。

圖7 本文模型與FCN、PSPNet、Deeplab網絡模型的分割結果比較
表2 不同網絡模型的精度評價(±s)

表2 不同網絡模型的精度評價(±s)
模型 精確率/% 召回率/% Dice/% 耗時/s FCN 73.85±3.66 83.23±1.48 77.01±3.14 2.6 PSPNet 81.28±0.77 83.01±1.15 82.05±0.94 3.1 Deeplab 86.81±0.64 87.30±1.06 86.87±0.75 3.2 U-net 75.45±5.46 97.49±0.24 83.04±3.49 0.8本模型 95.94±0.11 95.67±0.72 95.52±0.28 0.9
從圖7可看出:① 本文模型對小尺度病變區域亦有較好的敏感性,且受OCT圖像質量影響較小,分割結果與目視解譯結果具有更高的相似度;② FCN網絡模型的分割結果中,如OCT1、OCT3存在錯誤分割現象;PSPNet網絡模型對小尺度象識別敏感性較差,如OCT2、OCT3中小尺度ME區域未被正確分割;Deeplab網絡模型對ME區域邊界的分割過于平滑;U-net網絡模型易把OCT圖像中的斷帶識別為ME區域,圖像邊界存在錯誤分割現象。
由表2可看出:① 本文提出的分割模型具有最高的Dice相似系數95.52%;② 召回率得分僅低于U-net網絡模型的97.49%。這是因為精確率和召回率是處于動態平衡的兩個指標,某一指標上升的同時另一指標會下降,而Dice相似系數是一個由精確率和召回率共同決定的平衡指標,均衡的反映了模型的分割精準性;③ 本文模型分割單幅圖像僅需0.9 s,低于FCN、PSPNet和Deeplab等網絡模型的分割耗時,計算耗時僅次于U-net網絡模型。
本文提出了一種Dilated U-net網絡與全連接CRF相結合的ME全自動分割模型。通過與傳統分割算法和不同分割網絡模型進行比較,證明本文模型在保證了分割準確性的同時,提高了分割的時效性,可協助眼科醫生進行ME區域檢測,提高病變部位診斷的效率。由于現有的訓練樣本有限,深度學習模型的普適性可能會受到一定影響,隨著未來數據集的積累,視網膜OCT圖像ME區域分割任務的準確性和通用性將進一步提高。