余玉琴 蔡 晨
(上海理工大學 上海 200093)
圖像分割是計算機視覺的重要組成部分,是圖像處理中的研究熱點之一,圖像分割的圖像、真值圖、預測的分割圖、噪聲圖如圖1所示。圖像分割是將圖像分割成不同區域,這些區域具有相同的灰度、顏色、紋理、亮度、對比度等。圖像分割廣泛應用于機器視覺、人臉識別、行人檢測、醫學圖像、指紋識別、物體抓取等領域。精確的圖像分割是完成圖像中物體姿態、大小估計的重要步驟,但由于物體的多樣性、復雜性、物體的位置不同,形狀各異等原因,使得精確的圖像分割在計算機視覺領域仍然是具有挑戰性的任務。

圖1 圖像分割中圖像,真值圖,預測的分割圖和噪聲圖
傳統的圖像分割方法使用圖像顏色、灰度、梯度、紋理和形狀等信息對圖像進行分割,主要包括閾值分割法[1]、區域分割法[2]、邊緣分割法[3]、聚類法[4]、特定理論分割法[5],這些方法實時性好,但泛化性差,在復雜場景下,無法精確分割出圖像中的物體。
近幾年來,由于深度學習方法的快速發展和研究者對深度學習方法的深入研究,基于深度學習的圖像分割方法在圖像分割領域中取得了顯著的成就,其分割準確率、效率以及泛化性已經遠遠超過傳統的分割方法。卷積神經網絡是卷積核在圖像中以滑動窗口的方式提取特征,得到特征圖。圖像中物體特征種類眾多,獲取物體單一的特征無法準確分割圖像,卷積神經網絡不僅能夠提取物體的形狀特征和位置特征,還獲取包括紋理特征,邊緣特征,顏色特征等。文獻[6]提出FCN網絡分割模型,對圖像進行像素級的分割,FCN能夠接受任意尺寸的輸入圖像,使用反卷積層對最后一個卷積層的特征圖進行上采樣,使圖像恢復到和輸入圖像相同的尺寸,從而對圖像中的每個像素產生一個預測。此方法避免了使用圖像塊而帶來的重復存儲和計算問題,極大的提高了效率,但此方法對圖像中的細節不敏感,得到的分割結果不夠精細,并且缺乏空間一致性。文獻[7]提出了DeepLab分割方法,此方法結合深度卷積神經網絡和概率圖模型的方法,模型由深度卷積神經網絡和概率圖模型級聯而成,此方法圖像分割速度較快,準確率較高,但此模型的訓練時間長,訓練過程復雜。文獻[8]提出了卷積神經網絡和條件隨機場的混合模型,CNNS用于計算特征,再使用這些特征來計算CRF(條件隨機場)的一元和二元代價,在推理過程中使用高度平行雙快下降算法來計算高質量的近似最小值。此方法圖像分割準確率高,但在噪聲器情況下表現不佳。
損失函數是用來評估模型的預測值與真實值的不一致程度,它是一個非負實值函數,損失函數越小,模型的魯棒性越好。損失函數是經驗風險函數的核心部分,也是結構風險函數的重要組成部分。文獻[9]提出了交叉熵損失函數,此方法能夠有效地衡量預測的像素和真實的像素的不一致性,并且能夠避免學習率減低的情況,交叉熵損失函數廣泛應用于圖像分割中,但此方法只考慮了像素與像素之間的不一致性,即只考慮了局部信息的不一致性,未考慮全局信息的不一致性。文獻[10]提出了Fβ損失函數,即查全率和查準率在非負權重β下的加權調和平均值,表達式如下:

其中β是一個參數用來權衡recall和 precision,真正類(TP)、真負類(TN)、假正類(FP)、假負類(FN)是四個基本量。此方法同時考慮了查全率和查準率,通過獨立的考慮每個像素的位置來估計一致性,但忽略了圖像級別的全局信息。文獻[11]的Jaccard系數用于比較預測的圖像與真實的圖像之間的相似性與差異性,Jaccard系數值越大,樣本相似度越高。此方法只考慮了全局信息的不一致性未考慮到局部信息的不一致性。文獻[12]提出了皮爾遜相關系數,兩個連續變量的皮爾遜相關系數等于它們之間的協方差除以它們各自標準差的乘積,衡量兩個變量線性關聯性的程度,表達式如下:

其中 X,Y為兩個連續變量,此方法同樣只考慮全局信息的不一致性。
針對以上情況,本文提出了一種基于Gloabl-Local評估方法的U-Net的圖像分割方法。認知視覺研究表明人類視覺對場景中的全局信息和局部信息高度敏感,所以圖像分割中綜合全局信息和局部信息能夠使圖像分割效果更佳,本文結合圖像的全局信息和局部信息,提出了新的評估預測圖和真實圖的一致性方法,并且提出了改進的U-Net圖像分割模型,本文的創新性如下。
1)提出了一種結合全局信息和局部信息的評估方法,實驗證明本文提出的方法能更有效的評估預測的分割圖和真實圖的一致性。
2)提出了改進的 U-Net[13]圖像分割模型,并結合Gloabl-Local損失函數,實現了準確有效的圖像分割。實驗證明了改進的U-Net圖像模型比標準U-Net模型表現更理想,并且在有噪聲干擾的情況下表現依然理想。
近年來,研究者們不斷提出有效預測的分割圖和真實圖一致性的評估方法,但都只局限于全局信息或者局部信息。由于人類視覺系統對圖像中的結構和細節高度敏感,本文提出了一種適合預測的分割圖和真實圖一致性評估的新方法,此方法聯合了圖像的全局信息和局部信息。實驗表明該方法比其他損失函數表現更佳,并且能夠在噪聲存在情況下表現良好。
交叉熵是信息論中的一個重要概念,主要用于度量兩個概率分布間的差異性信息,交叉熵損失函數廣泛應用于二分類場景。為了能夠獲得圖像像素的匹配程度信息,本文使用交叉熵來計算圖像像素的匹配程度,交叉熵損失矩陣Ll如下:

其中 y為真實值,y?為預測值,Ll表示真實的標簽像素值與預測的像素值的不一致程度,Ll越小,真實值與預測值越相似。
為了設計一個能夠同時獲得圖像的全局信息和去除噪聲的影響,本文定義了一個偏差矩陣φM來表示作為輸入二值映射M的每個像素值與全局平均值之間的差值。

其中I是一個矩陣,尺寸與輸入M相同,其中所有元素都是1。偏差矩陣與亮度及對比度有很強的關系[14],從圖像中去除平均值,偏差矩陣為圖像的像素信號的中心,能夠有效消除由于內在變化或大的數值差異引起的誤差,進而能夠有效消除噪聲的影響,所以在存在噪聲的場景下,模型表現依然理想。
本文使用Jaccard系數[12]來計算 φGT和 φFM之間的相似程度,因此預測的圖像和真實的圖像之間全局相似度Lg矩陣定義如下:

其中 ?表示哈達馬積(hadmard product),當 φGT,φFM符號相同時 Lg>=0,Lg∈(0,1)。 Lg值越大,預測的分割圖和標簽圖像相似度越高。
為了使損失函數能夠同時衡量預測的分割圖和真實圖像之間局部信息和全局信息的相似性,本文定義全局和局部聯合損失函數LGlobal-Local為

該方法實現過程如下。
輸入:預測的分割圖 y_pred,標簽圖像y_true。
輸出:預測的分割圖與真值圖的不一致程度LGlobal-Local。
第一步:計算預測的分割圖y_pred的平均值矩陣 y_pred_mean ,計算標簽圖像 y_true的平均值矩陣y_true_mean。
第二步:計算預測的分割圖和標簽圖像的偏差矩陣:

第三步:計算局部信息不一致程度Ll:

第四步:計算全局信息不一致程度1-Lg:

第五步:計算預測的分割圖與真值圖的不一致程度LGlobal-Local:

第六步:返回預測的分割圖與真值圖的不一致程度 LGlobal-Local。
U-Net網絡是在FCN網絡的基礎上改進而來的,U-Net為了使圖像特征能夠更好地融合,采用拼接的方法融合特征,與FCN逐點相加不同,U-Net將特征通道維度拼接在一起,使特征的通道數加倍,因此U-Net網絡圖像分割準確率比FCN網絡高。
U-Net模型的結構形似字母U,整個模型主要由兩大部分組成,分別是收縮路徑(contracting path)和擴展路徑(expanding path),收縮路徑的主要作用是獲取不同尺度下圖片的特征圖,擴展路徑主要是用來對圖片中分割出來的部分進行準確定位。U-Net為了能夠精準定位分割的部分,將下采樣的特征圖與上采樣的特征圖進行結合,最大程度的保留下采樣過程的特征信息,為了使圖像分割能夠達到實時性和增加訓練的效率,U-Net模型去掉了全連接層,由于模型的U型結構使得模型能夠保留圖片中的所有信息。
收縮路徑網絡結構是包括兩層3×3的卷積層和一層2×2的最大池化層,每層3×3卷積層后面使用ReLu激活函數進行激活,每次下采樣后通道數加倍。擴展路徑網絡結構是每一步上采樣包括一層2×2的卷積層和兩層3×3的卷積層,3×3卷積層后面使用ReLu激活函數進行激活,并且每一步上采樣都會加入來自收縮路徑網絡對應的特征圖,模型的最后一層是1×1的卷積層,最后一層將64通道的特征向量轉化為所需要的分類結果的數量,整個U-Net網絡一共有23層卷積層,此網絡的優點是可以對任意大小的圖片進行圖像分割,訓練效率高,缺點是網絡易過擬合。
針對以上問題,本文提出了改進U-Net,在標準U-Net網絡中加入批量歸一化層(BN)和dropout層,改進后的U-Net網絡結構如圖2所示。

圖2 改進的U-Net結構圖
標準的U-Net[13]損失函數采用的是加權交叉熵損失函數,由于交叉熵損失函數在評估預測的分割圖和真值圖一致性時僅僅使用了圖像像素的局部信息,沒有使用圖像的全局信息,為了能夠更全面地評估預測的分割圖和真值圖的一致性,為了能夠同時捕捉預測的分割圖和真值圖在局部信息和全局信息上的匹配程度,本文在改進的U-Net模型中采用Gloabl-Local損失函數,損失函數表達式如式(8)所示。
實驗環境為實驗環境為Ubuntu16.04系統,并使用顯卡GTX1080對訓練過程進行加速。模型在Tensorflow開源框架下實現,實驗采用4個公共的顯著物體檢測數據集。將每個數據集分為三部分,分別是訓練集,驗證集,測試集。其中訓練集占數據集總圖片的80%,驗證集占數據集總圖片數量的10%,測試集占數據集總圖片數量的10%,實驗中采用改進U-Net網絡,損失函數采用Gloabl-Local損失函數,對比實驗為標準U-Net網絡,采用加權交叉熵損失函數。改進的U-Net模型和U-Net模型分別在四個數據集上重復訓練60次,從而獲得改進的U-Net和標準U-Net模型。
本實驗采用的數據集分別是 Judd[16],ESSD[17],DOU-OMRON[18],HKU-IS[19]。每個數據集包含彩色圖像和對應的掩模,在訓練之前,利用數據集中的掩模,生成彩色圖像對應的標簽,標簽圖像中屬于物體部分像素全部為1,背景部分像素全部為0,如圖3所示。在實驗中,將彩色圖像和對應的標簽歸一化為256*256像素。

圖3 訓練數據集的組成
采用 Dice[15]來對分割結果進行評價,Dice重合率計算公式為

其中,A表示分割結果,B表示與之對應的標簽圖,A∩B表示分割圖中屬于分割物體的部分,Dice值越接近1,表示分割結果越準確。
模型訓練過程如圖4、圖5所示,圖4,圖5曲線記錄的是使用DOU-OMRON數據集訓練改進U-Net模型和U-Net模型過程中損失值和準確率值的變化。

圖4 改進的U-Net模型訓練過程準確率變化和損失值變
從訓練過程圖可以看出,重復訓練60次的情況下,本文提出的方法對于圖像中物體分割有較高的準確率,由于同時考慮局部信息和全局信息,在訓練過程中損失函數和準確率收斂速度較快,并且損失值最終下降到0.1以下。標準Unet由于只使用局部信息,在訓練過程中準確率和損失值收斂速度慢,并且U-Net的損失值最終在0.2左右波動。

圖5 U-Net模型訓練過程準確率變化和損失值變化圖
用測試集對兩個模型進行評價,當測試圖像數據分布和訓練模型使用的圖像數據分布差異較大時,模型準確率會發生較大的變化,所以在選取訓練集、驗證集和測試集時,在整個數據集中隨機選取一定數量的圖片。評價結果如表1所示。

表1 改進的U-Net和U-Net在4個數據集上分割準確率
從表1中可以得出,改進的U-Net在數據集“Judd”、“ESSD”、“DOU-OMRON”、“HKU-IS”上準確率分別是91.82%、86.78%,92.85%,91.83%。本文提出的改進U-Net的準確率比標準U-Net的準確率分別高4.3%、1.46%、1.65%、4.14%,由此得出本文提出的改進U-Net比標準U-Net圖像分割準確率高1.46%~4.3%。
本文提出了一種基于Gloabl-Local評估方法的U-Net圖像分割方法。首先對圖片進行預處理,將圖片尺寸統一大小,利用數據集中的彩色圖像對應的掩模生成對應標簽。采用Gloabl-Local損失函數和改進的U-Net網絡訓練模型,該模型綜合圖片的局部信息和全局信息,并在網絡中加入批量歸一化層和dropout層,解決了模型在訓練過程中過擬合問題。實驗表明該方法圖像分割準確率標準U-Net分割準確率高出1.46%~4.3%。在以后的工作中,會加強對圖像中物體分割的研究,并實現在復雜環境下的物體的準確分割。