程亮,王靜秋,劉信良,孫康
(南京航空航天大學 機電學院,江蘇 南京 210016)
鐵譜分析是在高梯度強度的磁場作用下,將摩擦副中產生的金屬磨粒從潤滑油中分離出來,按照一定的方法制成譜片和鐵譜圖像,然后通過相關軟件對其進行定性和定量分析的方法[1]。由于鐵譜圖像中磨粒尺寸不一,相同類型磨粒之間形態各異以及不同類型磨粒之間存在一定的相似性等問題,使用計算機圖像處理技術對其進行準確分割較為困難。圖像語義分割是對圖像中每個像素進行分類,并用顏色索引表示其類別的方法。隨著全卷積網絡(fully connectional networks,FCN)[2]的出現,諸如DeepLab系列、基于編碼-解碼、基于注意力機制以及基于概率圖模型等語義分割方法被相繼提出,極大地推進了圖像語義分割的發展[3]。
針對FCN對細節不敏感、缺乏空間一致性等缺點,2016年,CHEN L C等人提出了DeepLab網絡[4],該網絡將分割結果輸入至全連接條件隨機場,解決了深度網絡的定位效果差分割精度不足的問題。2017年,CHEN L C等人在DeepLab的基礎上提出了DeepLabV2網絡[5]。該網絡采用空洞卷積,可以在不降低圖像分辨率情況下增大感受野;其次,增加空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,利用多個不同膨脹率的空洞卷積捕獲多尺度特征。之后,CHEN L C等人又提出了DeeplabV3網絡[6],該網絡在ASPP中加入全局平均池化分支并在ASPP模塊后使用批量歸一化層,有效捕獲全局信息。2018年,該團隊針對DeepLabV3池化和帶步長卷積會造成一些物體邊界細節信息的丟失并且擴張卷積計算代價過大的問題,提出了DeepLabV3+網絡。該網絡在DeepLabV3的基礎上增加了編碼-解碼模塊,將DeepLabV3作為網絡的編碼器,并在此基礎上增加了解碼器模塊用于恢復目標邊界細節[7-9]。
本文通過改進DeepLabV3+網絡,提出一種適用于鐵譜圖像語義分割的模型,如圖1所示。該模型改進DeepLabV3+的ASPP模塊為密集連接的ASPP結構(Dense ASPP,D-ASPP),以更好地提取空間信息;然后引入全連接條件隨機場(fully connected conditional random filed,FCCRF)改善鐵譜圖像中磨粒過分割問題。

圖1 改進DeepLabV3+網絡示意圖
在DeepLabV3+網絡中,基于空洞卷積的ASPP模塊雖然可以在不降低圖像分辨率的情況下提取特征,從而提升網絡的分割精度,但是對于尺度不一物體的分割,模型可能會忽略較小的物體,而對于尺度較大的物體,又有可能超過感受野范圍,無法獲取物體全局信息[3]。為了解決上述問題,本文引入并改進D-ASPP結構,以獲取更豐富的語義特征。
D-ASPP結構是在原ASPP結構中加入級聯的連接方式,使其在增大模型整體感受野的同時還能共享各分支信息。另外,本文改進了D-ASPP結構,增加了Rate=3的分支,用于小范圍局部特征的提取;其次,將D-ASPP結構中各分支膨脹率設為互質數,防止出現柵格效應。改進后的D-ASPP具有更多的像素參與計算和更大的感受野的優點。
1)更多的像素參與計算。圖2為在級聯方式下,空洞卷積的計算過程示意圖,其中灰色結點為參與計算的像素點,黑色結點為不參與計算的像素點。

圖2 空洞卷積級聯示意圖
從圖2(a)中可以看出,如果以非互質膨脹率級聯,參與計算的像素都集中在某些固定的像素點上,即柵格效應。因此為了讓更多的像素點參與計算,本文在ASPP結構中采用了互質膨脹率,即假設上層的膨脹率為N,則下層采用膨脹率為(2×N-1),依次遞推,其示意圖如圖2(b)所示。
2)更大的感受野。為了解決下采樣時圖像分辨率降低的問題,DeepLabV2引入了空洞卷積。通過改變膨脹率,即可在不改變圖像分辨率的情況下增大卷積核的感受野。空洞卷積中感受野計算公式如下:
R=(D-1)·(K-1)+K
(1)
其中:K表示卷積核尺寸;D表示空洞卷積膨脹率。而當兩個空洞卷積級聯時,下層空洞卷積的感受野為
R=R1+R2-1
(2)
其中R1和R2為相鄰兩個空洞卷積的感受野。表1為感受野對比。

表1 感受野對比
從表1可以看出,相對于普通的ASPP結構,D-ASPP結構的感受野近乎兩倍于前者,能夠更好地獲取全局信息,這更有利于解決局部模糊性問題。
在圖像的語義分割網絡中,目標是單個像素點,因此會忽略考慮像素之間的關系。本文將全連接條件隨機場融入改進的DeepLabV3+模型,利用像素之間的相似性,改善分割結果。

對于多分類任務,利用顏色和位置構建特征核函數,即
(3)
其中:I為3維顏色向量;P為2維像素點坐標向量;θα、θβ、θγ為高斯核尺度參數[11]。
如圖3所示,在FCCRF模型中,通過比較相鄰像素的一致性,鼓勵相似性大的像素分配相同的標簽,而相似性小的像素分配不同的標簽,因此對于較小的空洞或者是像素分配錯誤的小區域都可以通過相鄰區域的標簽進行填充或者修正。

圖3 FCCRF示意圖
本文算法所采用的編程語言為Python3.6,網絡搭建基于Tensorflow開源框架,版本為1.14。硬件配置如下:CPU型號為i7-8700k,顯卡型號為NVIDIA RTX2070、顯存為8 GB,操作系統為Windows10。本文所采用的實驗數據來自某公司油液,經取樣、制譜、拍攝得到的實際應用圖像。圖像總數為200張,其中訓練集160張,驗證集20張,測試集20張,其對應標簽通過LabelMe標注工具進行標注。本文數據集中包含鏈狀磨粒、球形磨粒、切削磨粒、疲勞磨粒、氧化物磨粒以及嚴重滑動磨粒共6類。
本文所采用評價指標為平均較占比(mean intersection over union,MIoU)以及平均像素準確率(mean pixel accuracy,MPA)。假設圖像中共有k個類別(不考慮背景),pij表示真實值為i、預測值為j;pji表示真實值為j、預測值為i;而pii表示真實值和預測值均為i。MIoU和MPA的計算公式分別為:
(4)
(5)
1)ASPP模塊實驗
為驗證不同膨脹率組合的效果,本文設計多組ASPP結構,分別以是否級聯、是否加入Rate=3的分支以及是否采用互質膨脹率為對比項,表2為對比實驗結果。

表2 不同膨脹率組合對比實驗
從表2中的結果可以看出,序號6中采取(3,5,9,17)的互質膨脹率組合、級聯、加入膨脹率為3的分支結果最好,MPA為85.4,MIoU為78.8。
2)FCRCF后處理
由于語義分割是針對像素分類,忽略了像素之間的關系,因此分割結果中可能存在過分割。為了解決這一問題,本文在改進的DeepLabV3+基礎上,將原始圖像和預測結果作為輸入,采用FCCRF進行后處理,以顏色信息和位置信息為約束修正像素分類(圖4)。

圖4 語義分割結果
從圖4中可以看出,經過FCCRF后處理過的結果,磨粒內部的孔被正確填充,而且分類錯誤的像素也大多得到修正,很大程度地改善了過分割現象。
3)實驗結果對比
為了驗證本文算法的有效性,在本文實驗數據集上,將實驗結果與其他幾種經典分割網絡DeepLabV3、RefineNet[12]、PSPNet[13]進行對比,對比結果如表3所示。

表3 實驗結果對比
從表3結果可以看出,在本文數據集上,改進后的DeepLabV3+的結果優于其他網絡,并且加入FCCRF可以獲取更加精確的結果,MPA為90.3,MIoU為87.1。
本文在DeepLabV3+的基礎上,引入并改進了D-ASPP結構,在增大感受野的同時避免了柵格效應。其次,利用全連接條件隨機場,以顏色信息和位置信息為約束,優化了語義分割忽略像素之間相關性的問題,提高了分割精度。實驗結果表明,本文所用方法能夠獲得較為精確的分割結果,具有一定的實用性。