余俊輝,毛 琳,楊大偉
(大連民族大學 機電工程學院,遼寧 大連 116605)
現有語義分割算法對顏色、形狀等特征提取利用不足,導致在目標分割中會出現目標輪廓分割缺失以及過分割等問題,針對以上問題,大多語義分割算法通過改進特征提取方式進而提高分割精度,對特征之間的聯系研究較少,因此如何有效利用不同特征提升語義分割精度成為研究的熱點問題。
目前,在圖像語義分割領域[1],可以分為傳統語義分割和基于深度學習的語義分割兩類算法[2]。傳統語義分割算法主要利用邊緣法[3]、閾值法[4]、圖劃分[5]、像素聚類法[6]等獲取圖像的特征信息,從而實現圖像精確分割的目的,而基于深度學習的語義分割算法主要對圖像進行像素級的特征處理,獲得更全面的特征信息,該方法與傳統語義分割方法相比,分割精度得到提升。
Long等[7]在2014年提出全卷積神經網絡(Fully Convolutional Network,FCN),將網絡中的全連接層用卷積層替換,利用上采樣完成特征圖的分類,在分割速度和精度上都有提升,但從分割結果看,缺乏空間上的一致性。為解決空間一致性問題,Olaf等[8]提出編解碼語義分割模型U-Net,使用對稱的生成模型,利用下采樣進行特征提取,獲得更好的上下文信息。同年,Vijay等[9]提出了具有編解碼結構的SegNet,使用最大池化層中的池化索引功能進行非線性上采樣,得到緊密的細節信息,提升了分割精度,但其單一特征提取并未獲得層與層之間更好的聯系性。2016年,谷歌提出DeeplabV1網絡[10],利用端到端對圖像處理的不變性,增強對特征分層抽取的能力。2017年,空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊[11]的提出,有效地擴大了特征的感受野,獲取多個尺度的特征,增加了特征的多樣性。同年Zhao等[12]提出金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet),利用空間金字塔模塊,用不同大小的感受野提取全局特征,融合上下文特征后進行上采樣得到預測結果,但仍存在對顏色、邊緣、形狀等特征提取利用不足,出現邊界粗糙和類別誤判的問題。
基于上述問題,本文提出一種粗細特征增強語義分割算法,通過加入粗特征提取支路和細特征提取支路,構造出粗特征與細特征相融合的網絡結構,獲得上下文相關性更加密切、表達更全面的特征信息,改善現有語義分割網絡對目標的顏色和形狀等特征提取不足的問題,提高語義分割精度。在Pascal VOC2012[13]數據集上的實驗結果表明,提出的粗細特征增強語義分割算法優于現有同類算法,與基準網絡DeepLabv3+[14]相比較,平均精度(mIoU)提高了0.66%。
語義分割是從粗特征提取到細特征提取的過程,在這個過程中往往存在丟失粗細特征信息、粗細特征融合差等問題,由此,將顏色和形狀定義為粗特征,將邊緣和角點定義為細特征。利用粗細特征的提取與融合可以解決分割中顏色提取不足、邊緣分割不完整和形狀分割缺失等問題,從而提高分割精度,使分割后的結果較少出現不完整區域或區域重疊等問題。為增強粗細特征對分割能力的優化作用,利用粗細特征提取模塊提取來自骨干網絡中大小不同的特征,以獲得上下文聯系更加密切的粗細特征,增強語義分割網絡的整體精度。
本文提出的粗細特征增強網絡可以有效解決上述問題,通過利用粗細特征提取模塊提取更密集的特征圖,以獲得上下文聯系更加密切的粗細特征,防止對象邊界相關詳細信息的丟失。粗特征和細特征的交互有助于在多個尺度上捕獲上下文信息。在特征圖中提取豐富的語義信息,其中細特征提取往往采用多尺度輸入,擴大感受野的同時可以獲取更加緊密的特征,而粗特征提取則彌補了細特征中的遺漏信息。粗特征和細特征的融合能有效增加特征之間的優化作用,提高特征信息之間的利用率,進而提升語義分割精度。
粗細特征增強網絡的核心單元由骨干特征提取層(Xception)[15]、細特征提取模塊、粗特征提取模塊和特征融合模塊組成,該網絡結構圖如圖1。輸入圖片經骨干特征提取層后,分別將得到的特征輸入到粗特征和細特征提取兩條支路,然后將兩條支路的輸出特征通過特征融合,經特征調整后得到與原圖相同大小的分割輸出結果。

圖1 粗細特征增強網絡算法
細特征提取模塊主要由空洞空間卷積池化金字塔和1×1卷積兩個部分組成,其結構圖如圖2。來自骨干提取網絡的1/16特征量經空間空洞卷積池化金字塔和1×1卷積處理后得到輸出結果yn。

圖2 細特征提取模塊
該模塊的數學描述如下:
(1)
(2)

細特征提取模塊將輸入的1/16特征圖利用采樣率不同的空洞卷積完成相應的卷積過程,實現多尺度獲取圖像信息中的上下文細特征信息,并經過1×1卷積調整通道后得到輸出結果yn。
粗特征提取模塊作為粗特征與細特征融合的主要部分,主要由粗特征提取和激活函數兩部分組成,其結構圖如圖3。來自骨干提取網絡的1/4特征量經粗特征提取和激活函數兩個模塊后得到該條支路的輸出結果ym。

圖3 粗特征提取模塊
該模塊的數學描述如下:
(3)
ReLU6=min{6,max(0,x)};
(4)
(5)


粗特征與細特征可視化結果如圖4,其中圖4a為原圖;圖4b和圖4c分別是代表形狀和顏色特征的粗特征;圖4d和圖4e分別代表邊緣和角點特征的細特征。

圖4 粗特征和細特征可視化
粗特征與細特征融合之后的特征既具備細特征信息,又具備整體的粗特征信息,可以提升特征表達能力,進而提升語義分割性能,該部分主要由細特征提取、粗特征提取和特征融合三個模塊組成,其結構圖如圖5。

圖5 粗特征與細特征提取融合模塊
該融合模塊的數學描述如下:
y=yn+ym。
(6)
式中:yn是經細特征提取后得到的結果;y是ym與yn經特征融合后得到的輸出結果。圖5中x1/16是提取后的1/16細特征量。
特征融合主要是將骨干網絡提取到的1/16和1/4特征分別經細特征提取模塊和粗特征提取模塊得到yn和ym進行串行組合相加得到輸出結果y。融合后的y不僅可以從融合中涉及的多個原始特征集中獲得最具差異性的豐富特征信息,增加粗特征與細特征之間的相關性,還消除了因不同特征之間的相關性而產生的冗余信息,為后續精準分割奠定基礎。
本文將粗特征提取模塊和細特征提取模塊相融合構成新的網絡,構建出完整的粗特征與細特征提取相結合的結構,由于粗特征對細特征的指導作用加強,使得粗細特征之間的協同作用達到最大化,分割精度得到提高,提升了整體的分割能力,整體網絡結構如圖6。

圖6 粗特征提取整體網絡圖
第1步:將尺寸大小為513×513的原始圖像輸入骨干網絡提取初始特征;
第2步:將提取后的1/16細特征輸入到空洞空間卷積池化金字塔模塊,獲取多尺度特征后進行拼接融合,經1×1卷積和上采樣后調整通道數;
第3步:將提取得到的1/4粗特征送入粗特征提取模塊,經粗特征提取和激活函數的深入處理后,與上一步處理得到的細特征進行融合;
第4步:將融合后的特征經過3×3卷積和上采樣,得到與原始圖像分辨率相等的特征圖,恢復圖像空間信息,輸出并得到圖像的分割結果。
本文提出的算法在DeepLabv3+網絡算法的基礎上,基于Tensorflow深度學習框架使用Python語言編程實現,在Ubuntu16.04系統中使用1張NVIDIA 1080Ti顯卡訓練語義分割網絡模型。該訓練網絡模型相關參數設置見表1。本次訓練所采用的數據集為Pascal VOC2012,此數據集包含目標檢測和圖像語義分割數據集,本文使用的是語義分割數據集,該數據集共包含2 913張含有語義標注的圖像,1 464張作為訓練集,其余1 499張作為驗證集用來測試模型的分割精度。

表1 粗特征提取網絡訓練網絡模型相關參數設置
語義分割往往從特征提取開始,將來自骨干網絡提取得到的特征圖大小分為1/2、1/4和1/8原圖。為得到更為有效的粗特征提取支路,分別對骨干網絡提取到的大小不同的特征圖排列組合進行對比,其組合類型如圖7,圖中字母表示不同的組合形式。

圖7 特征排列組合形式
其中,A表示來自骨干網絡提取的原圖1/8特征圖;B表示1/4特征圖;C表示1/2特征圖;D表示1/4和1/2特征圖的組合;E表示1/4和1/8特征圖的組合;F表示1/2、1/4和1/8三者特征圖的組合;G表示1/8和1/2特征圖的組合。這七種組合在迭代次數為相同的190次時,得到的平均交并比見表2。

表2 特征排列組合對比實驗
由表1可以看出組合B的效果最好,其mIoU達到了82.22%,測試一張圖片的速度為0.87 s,總體來看,速度并未降低;另外由于組合B不僅提取到了豐富的粗特征,還和細特征形成了關聯,因此加入1/4的粗特征提取支路會對使整個網絡的分割準確率得到較好提升。
在圖像語義分割中,常用平均交并比(Mean Intersection over Union,mIoU)評價語義分割的質量,mIoU值越高,代表分割質量越好,算法性能越優,mIoU的具體定義與表達式如下:
(7)
式中:i表示真實值;j表示預測值;pij表示將i預測為j;k表示圖像像素的總數。其在PascalVOC2012數據集上的仿真結果對比見表3。

表3 Pascal VOC2012數據集仿真結果 %
仿真結果表明改進型粗特征提取網絡的平均交并比為84.22%,高于DeepLabv3+的83.58%,精度提升了0.66%。粗特征提取網絡與DeepLabv3+分割結果對比如圖8。

圖8 分割結果對比圖
圖8中,如行(1)、行(2)可見,在多物體復雜場景中,粗特征提取網絡的分割相較于DeepLabv3+更為準確。行(1)中左側人被遮擋部分完全被DeepLabv3+識別出來,而粗特征提取網絡能夠對其進行與真值圖相比更準確地識別并將其分割出來;在行(2)中,粗特征提取網絡對圖中除人像以外的其他物體并未進行分割,分割效果明顯優于DeepLabv3+;如行(3)可見,在僅有兩個物體并存的場景中,DeepLabv3+分割出了綠色盆栽邊緣;如行(4)可見,在對于單個人像的分割中,DeepLabv3+分割出人像周圍多余的紅色信息,而粗特征提取網絡則沒有分割出冗余信息。綜上,粗特征提取網絡的分割結果與對應真值的匹配度更高,即算法的精確度和魯棒性更優,故本文提出的方法在圖像語義分割驗證集上有更好的效果。
本文針對現有語義分割算法對粗細特征提取利用不足而導致分割效果不佳的情況,將骨干提取的特征分為粗特征和細特征,提出粗細特征增強語義分割算法,通過提取粗細特征,加強粗特征與細特征之間的融合,增強語義分割精度,進一步提高分割性能。與DeepLabv3+算法相比,粗細特征增強語義分割算法增加了特征信息之間的聯系性,同時該算法也為無人車目標感知提供了一種新的思路,使語義分割算法更好地應用于無人車自主駕駛等場景。后續工作中,希望通過進一步探究粗特征與細特征之間的不同融合方式,增強特征之間的聯系性,進而提高語義分割精度。