基于可變向卷積網絡的語義分割算法*

2021-02-25 06:27:42胡朝陽汪國有

計算機與數字工程 2021年1期

胡朝陽汪國有

（華中科技大學人工智能與自動化學院武漢 430074）

1 引言

語義分割是計算機視覺領域一個基本的命題，其思路就是為圖像中每一個像素打類別標簽。2012 年，隨著Hinton 在目標識別領域應用深度神經網絡（CNN［1］），CNN 在計算機視覺領域得到了廣泛的應用。相比于傳統特征如HOG［2］、SIFT［3］、Surf［4］，深度特征表達能力更強，但CNN 只提供了更加強有力的特征表述，無法對場景中對象的上下文有效的建模，而上下文無處不在，上下文是一個對象與其相鄰對象或圖像塊之間的語義相容關系，這種相容關系表示視覺模式的共存，例如，汽車可能會出現在道路上，玻璃杯可能會出現在桌子上。

隨著CNN的發展，FCN［5］率先將CNN應用到語義分割領域，隨之 SegNet［6］、U-Net［7］、LDN［8］、PSPNet［9］等都取得了很好的分割結果。FCN 是將普通CNN 的全連接層轉換為一個個卷積層，網絡是一個全卷積網絡，模型對經過卷積及池化下采樣之后的特征圖上的每一個點進行分類。FCN 的優勢在于可以接受任意大小的圖像，但是每個點在分類時沒有考慮像素之間的關系，忽略了像素的空間一致性，缺乏上下文信息。為了利用上下文信息，SegNet 采用特征下采樣-上采樣的流程，下采樣過程使得深度特征擁有更大的感受野，包含更多的上下文信息，而上采樣則是提高了特征的分辨率。網絡的整體結構呈U型。類似的還有U-Net、LDN，和SegNet非常相似，都是利用U 型結構來獲取上下文信息。PSPNet 則是在未采用U 型結構的前提下提出了空間金字塔池化模塊，該模塊融合多個尺度上下文信息，輔助網絡做更加精準的判斷，但獲取上下文的方式過于生硬，沒有考慮目標本身的外觀特征。

對于上下文的提取，本文則是提出了可變向卷積網絡，算法的主要思想是在特征圖的每一個像素使用卷積預測特征需要觀測的方向，然后在該方向上通過普通卷積操作實現像素類別的預測，這樣模型會挑選出更加顯著可分的上下文來輔助類別的判定。由于對象本身存在尺度的多樣性，因此在預測對象類別時，我們在多個尺度下使用多方向卷積，保證了多個尺度對象的預測。模型在PASCAL VOC2012公開數據集進行了測試實驗，實驗表明我們提出的可變向卷積網絡取得的效果優于目前經典算法。

2 可變向卷積網絡

本節我們首先介紹可變向卷積的核心思想，然后介紹可變向卷積網絡的整體模型，最后針對網絡中的每一個模塊做詳細的介紹。

2.1 可變向卷積

可變向卷積受可變形卷積［10］的啟發而形成，因此先介紹其思想來源。

圖1 四種不同的卷積操作

可變形卷積如圖1（b）是在普通的規則卷積如圖1（a）基礎上通過學習一個偏移特征變成的不規則卷積。該操作首先需要學習偏移特征，然后再在普通的卷積中疊加偏移特征以提取更加有效的表達特征。可變形卷積的數學表達式為

可變形卷積增大感受野的同時會根據需要在周圍的不規則區域提取任意單個點的特征。但是由于訓練的權值包含變形權值（Δp及Δq）及普通卷積參數兩部分，因此模型參數多，訓練復雜、不穩定。空洞卷積［11］如圖1（c）則是在不增加參數的同時增大了感受野，但是增大感受野是同時向四周擴張，擴張方式單一。

而本文提出的可變向卷積如圖1（d），相比于可變形卷積則需要更少的參數量，在訓練網絡較為簡單、穩定易收斂，相比于空洞卷積，同樣可以增大感受野，相對空洞卷積，可通過注意力機制獲取更加顯著可分的特征。

可變向卷積是一種提取對象上下文的有效手段，圖2 展示了可變向卷積提取上下文提取的流程，圖2（a）中展示了像素A在不同的感受野下面卷積時所用到特征區域，可以發現，很多區域特征是干擾上下文，所以圖2（b）中網絡預測出模型注意的方向：右上方向、右下方向，如圖2（b）紅色和黃色箭頭所示，其區域的上下文特征分別是墻、馬路地面。所以可變卷積網絡將干擾區域的特征去除，剩下有用區域上下文特征，如圖2（c）所示的矩形框。

圖2 可變向卷積網絡提取上下文流程

2.2 可變向卷積網絡

可變向卷積網絡（Variable Direction Convolution Network，VDCNet）主要包括多方向卷積模塊（Multi Directional Convolution Module，MDCM）、多方向特征選擇模塊（Multi Directional feature Selection Module，MDSM）、多尺度卷積模塊（Multi Scale Convolution Module，MSCM），具體如圖3所示。

MDCM 是在特征圖上的每一個像素點的左上、右上、左下、右下及中心五個方向的鄰域做卷積運算。為了適應特征的多尺度變化，將空洞卷積加入到模型中實現MSCM。為方便起見，我們將MDCM鑲嵌到MSCM中用來提取多尺度的上下文。

圖3 可變向卷積網絡，x表示特征相乘，CONCAT表示特征級聯

網絡在五個方向上產生上下文特征的同時MDSM 通過卷積以及Softmax 獲得每一個特征點網絡注意的方向特征，將該特征和五個方向上產生的上下文特征相乘，激活顯著特征抑制干擾特征。最后將縮放后的特征和基準網絡產生的特征級聯進而判定類別。最后將結果上采樣到原圖大小得到最后的分割結果。

2.3 多方向卷積模塊

多方向卷積模塊（MDCM）如圖4 所示，針對特征圖上的每一個像素，利用卷積運算分別提取其左上、右上、左下、右下、中心方向的區域特征，每一個方向上的特征單獨存儲，最后將五個區域中的特征級聯，得到的特征供網絡后續的篩選。

假定wc，m，n是卷積核權重，x是輸入特征，2*d+1 是感受野的大小，p 是通道數，普通的卷積操作都是中心卷積，其計算公式為

圖4 MDCM模塊示意圖，共五個卷積分支，包括左上方向（紅），右上方向（藍），左下方向（綠），右下方向（黃），中心方向（黑色），CONV表示卷積，CONCATE表示特征級聯

本文提出的多方向卷積則稍有不同，其中

左上方向的卷積計算公式為

右上方向上的卷積計算公式為

左下方向上的卷積計算公式為

右下方向上的卷積計算公式為

而中心方向上的卷積計算就是普通卷積。

相比于普通的3*3 卷積，我們在每個像素的多個方向進行3*3 卷積，擴大了特征的感受野，同時也提取了多個方向的上更豐富的上下文信息。

2.4 多尺度卷積模塊

多方向卷積模塊是利用一個固定尺寸的卷積核在多個方向上卷積，提取到的特征僅是單一尺度特征。為了考慮多尺度的上下文，我們提出多尺度卷積模塊（MSCM）使用多種尺寸的卷積核卷積得到多種尺度的上下文，如圖3中MSCM所示。

表1 多尺度卷積的卷積核參數，其中kernel size 表示卷積核的尺寸，dilation rate 表示空洞卷積的空洞比率，group 表示卷積的分組數目，field 表示感受野的大小。

表1 多尺度卷積的卷積核參數

但是較大尺寸卷積核會使模型參數急劇上升。因此，我們使用空洞卷積和分組卷積兩種方式來改變這個困境，表1 給出了網絡所使用的卷積核的參數信息以及卷積的感受野。

多尺度卷積模塊充分考慮了對象的尺度多樣性，使用多尺度卷積使得模型對尺度變化的更加魯棒。但是多尺度卷積很有可能會帶入干擾判別的上下文，所以后續提出了方向預測模塊來幫助顯著特征的篩選。

2.5 多方向特征選擇模塊

多方向特征選擇模塊（MDSM）是對多方向特征進行選擇。特征的選擇是為了更好地篩選出更加顯著的上下文信息。在該模塊中，模塊需要預測注意的方向權重因子，方向權重因子預測完全是無監督的。通過模型自我監督實現。預測結果采用了軟權重，即利用softmax 作為預測權重的后處理，將權重映射到區間（0，1）。

現設定網絡的預測的權重因子張量為W，其大小為c*w*h，其中的一個像素特征e為{e1，e2，…，e3} ，那么模塊的方向預測變成了對權重像素e取softmax操作，即

由于softmax 本身可微，所以模型可以實現端對端以及參數的更新。

方向權重因子預測時考慮到對象存在的尺度的多樣性，加入了不同dilation rate的空洞卷積實現提取不同尺度的上下文信息幫助網絡預測每一個像素點模型需要注意的方向的顯著特征，具體的實現如圖3 MDSM所示。

3 實驗結果

3.1 數據集

實驗采用PASCAL VOC2012數據集，其中包含了20 個種類的目標以及1 個背景類。數據集有1464 張圖像作為訓練集，1449 張圖像作為驗證集，以及1456 張圖像作為測試集，三個數據集中各個類別數目相對平衡，數據分布相同。

3.2 實驗細節

基礎特征網絡為resnet101［12］，并在ImageNet上面預訓練。學習率按照衰減，power=0.9 ，初始學習率baselr=0.0001，iter為當前已迭代次數，總迭代次數max_iter=80。模型參數的優化方法為SGD［13］，采用隨機水平翻轉及隨機縮放圖像的尺寸以增廣數據，輸入圖像采用5個尺寸，分別是［0.5，0.75，1，1.5，1.75］。

3.3 實驗結果對比

實驗使用 mIoU［14］作為評價標準，在 PASCAL VOC2012 上進行測試。結果本文算法在各個類別上都取得了優異的結果，具體結果如表2所示。

我們和分割領域的其他經典算法包括FCN［5］、CRF-RNN［15］、Dilation8［16］、DPN［17］、Piecewise［18］、DLC［19］、DUC［20］做了對比，對比結果如表3所示。

表2 Pascal VOC2012上的測試結果

表3 經典算法在PASCAL VOC12 測試集的分割結果對比

實驗對比發現，我們的算法效果優于目前絕大部分分割算法，但是測試結果沒有達到最優，PSPNet［9］是目前比較領先的算法。它們在minibatch size 為16 時，mIou 是 85.4%，由于實驗條件所限導致實驗的mini-batch 過小。mini-batch 的大小對網絡訓練結果影響較大，所以我們使用同樣的mini-batch 分別在驗證集進行了測試，結果如表4所示。

表4 PASCAL VOC12 數據集上的驗證集上的分割結果對比

通過以上對比發現，在同等條件下，我們的算法相對目前最優的算法取得了更優的效果。

3.4 實驗結果可視化

我們的算法在PASCAL VOC2012 上取得了較為優異的效果，我們在該數據集中隨機挑選出幾張圖像和FCN對比，對比結果如圖5所示。

圖5 實驗結果可視化對比

4 結語

本文為了更好地利用分割場景中的上下文信息，提出了基于上下文的語義分割方案：可變向卷積網絡。可變向卷積網絡包含三個模塊：多方向卷積模塊、多尺度卷積模塊以及多方向特征選擇模塊。模型通過改變卷積的方向獲取了更加顯著的特征，提高了分割的效果。通過在PASCAL VOC2012上測試顯示，我們的算法性能優于目前經典的分割算法。