基于深度卷積神經網絡的前景對象圖像分割模型FOSegNet

2021-01-13 07:19:34陳海洋

東北師大學報(自然科學版) 2020年4期

吳彬，楊戈，陳海洋

(1 北京師范大學珠海分校，廣東珠海 519000；2北京師范大學研究生院，北京 100875)

前景對象圖像分割是指對圖像進行聯合識別和分割的任務，將每個像素劃分為2個固定類別之一，即前景或者背景.視覺搜索系統可以在復雜背景中，使用前景對象快速準確地查詢圖像中的重要對象.了解對象的空間范圍，還可以幫助解決下游視覺任務，如場景理解和字幕生成.在前景對象分割中，以獨立于類別的方式對 "前景" 對象進行分割至關重要.模型必須能夠為訓練過程中從未遇到過的對象確定對象邊界，完成分割.這將與專門針對預定義類別進行訓練的語義分割模型區分開來.[1-6]前景對象分割是一個基本的計算機視覺問題，一直是人工智能和計算機視覺領域的研究熱門和技術前沿，是人臉識別、醫療輔助以及自動駕駛等眾多領域的關鍵技術，還是圖像檢索、對象追蹤和行為分析等高級視覺任務的研究基礎，在工業控制、視頻監控、國防軍事、農業生產、醫學影像分析等諸多領域的具有廣闊的應用前景.本文探索了在標注信息和數據信息有限的情況下利用深度卷積神經網絡提升圖像分割性能的新思路，在提高圖像分割模型針對海量數據辨別能力的同時，突破現有建模和計算方法的技術瓶頸，對圖像處理、機器學習、模式識別和計算機視覺領域的發展具有重要意義.

1 基礎理論

根據分割是否依賴類別，本文將前景對象分割模型分為2類.分別為不依賴類別的分割和特定類別的分割.

1.1 不依賴類別的分割

根據分割策略與目的的不同，將不依賴類別的分割分為以下3種：

(1) 交互式圖像分割模型.如GrabCut模型是讓人用邊框或涂鴉來指導算法.當需要進行高精度的分割時，這類模型是比較適合的.這些模型雖然試圖減少人工的參與，但不能全自動的完成分割.

(2) 對象建議模型.該類模型以邊界框或區域的形式生成上千個前景對象建議，產生上千個假設可以確保高的召回率，但往往會導致低精度的結果.雖然其對目標檢測有效，但在沒有特定信息的情況下，很難自動地從這個大的假設集合中過濾出準確的建議，完成分割任務.

(3) 顯著性模型.該類模型的目標是識別可能吸引人類注意力的區域.文獻[7]模型產生高度局部化的區域，而文獻[8]模型則分割完整的對象.顯著性模型關注的是“突出”的對象，不能分割所有前景對象.

1.2 特定類別的分割

根據訓練數據集的不同使用策略將特定類別的分割模型分為以下3種：

(1) 語義分割模型.語義分割是指對對象進行聯合識別和分割的任務，將每個像素劃分為k個固定類別之一.大多數的深層語義分割模型包括完全卷積網絡，它應用連續的卷積層和池化層，然后在末端進行上行采樣或反卷積操作，從而產生像素級的分割映射圖.但是，這些模型是針對固定數量的類別進行訓練的，泛化能力較弱.

(2) 弱監督的聯合分割模型.弱監督的聯合分割模型比語義分割模型使用更弱的監督，其思想是利用集合內的相似性來發現共同的前景.給定一批已知的包含相同對象類別的圖像，輸出特定類別的像素級掩碼[9-12]或邊框[13].雖然聯合分割是有效的，但它的性能受到集合內共享結構的限制，類內的特征和形狀的變化構成了一個重大的挑戰.此外，客觀世界的復雜性使得圖像數據易于受到不同類型視覺噪聲的干擾而影響分割模型的表現.這種復雜性主要來源于以下兩個方面：物體本身的視覺變化，主要包括姿態、形變、朝向、尺度、外觀以及遮擋等因素；客觀世界的隨機變化，如光照、噪聲以及成像技術等.總之，以上這些因素大大限制了弱監督的聯合分割模型的分割表現.

(3) 基于傳播的模型.基于傳播的模型將信息從帶有人類標記的前景掩碼的樣本中傳遞[14].通常在可能的前景區域和樣本之間進行匹配.缺點是需要在測試時存儲大量的范例數據，并為每個測試映像執行昂貴且可能有噪聲的匹配過程.

基于深度卷積神經網絡[15](Deep Convolutional Neural Networks，DCNNs)的圖像分割模型都面臨著以下2個挑戰：(1)輸出特征分辨率降低；(2)由于DCNNs內在不變性而下降的定位精度.第1個挑戰是由于DCNNs層中的最大池化和滑動步長[16]等操作引起的.當DCNNs以完全卷積方式使用時，會導致特征圖的空間分辨率顯著降低.為了克服這一障礙并有效地產生更密集的特征圖，本文采用擴張卷積[17]進行特征提取，擴張卷積允許本文模型有效地擴大濾波器的視野，而不增加參數的數量或計算量.通過使用擴張卷積替代常用卷積，FOSegNet模型能有效地提高輸出特征圖的分辨率.第2個挑戰是DCNNs結構的空間變換不變性，固有地限制了當該結構應用到分割任務時的分割精度.一種減輕此問題的方法是當計算最終的分割結果時，使用跳躍層從多個網絡層提取超列特征，受其啟發，本文提出分流聚合模塊(Shunt-Fuse Module，SFM)：在Pool5層之后以多個采樣率重新采樣特定的特征層，并在Softmax層之前將采樣的多尺度特征進行融合.這相當于用具有互補的有效視野的多個濾波器探測原始圖像，從而在多個尺度上捕獲物體以及有用的圖像上下文信息.特別地，通過使用全連接的條件隨機場來提高模型捕獲精細細節的能力.本文使用全連接的條件隨機場，計算更有效，并能夠捕獲細微的邊緣細節，同時也適應長距離的依賴，很大程度上提高了基于像素級分類器的性能.本文采用全連接的條件隨機場，與帶有擴張卷積和分流聚合模塊的DCNNs的像素級別分類器相結合，可以有效提高分割模型的分割精度.

本文提出的FOSegNet模型端到端進行訓練，FOSegNet模型在MIT Object Discovery數據集和ImageNet-Segmentation數據集上均超過了眾多前景對象分割模型的性能表現，在PASCAL VOC 2012數據集上的分割表現也優于眾多語義分割模型.

2 FOSegNet模型

FOSegNet可以預測每個像素，它是前景對象可能性的支持端到端訓練的前景對象圖像分割模型.本文將分割任務設置為密集的標記問題，并提出一種基于深度卷積神經網絡的像素級圖像分割模型.FOSegNet模型分割流程如圖1所示.首先輸入原始圖像，經過深度卷積神經網絡的卷積、匯合、線性整流等操作，然后輸入到分流聚合模塊，從而得出特征映射的分圖，隨后經過雙線性插值算法的上采樣操作得到粗糙的分割圖，最后將得到的粗糙分割圖送入條件隨機場模型中進一步細化分割結果，從而得出精細的分割圖像.

圖1 分割流程

2.1 模型架構

在場模型中進一步細化分割結果，從而得出精細的分割圖像.本文將用于圖像分類的VGG-16模型的所有的全連接層改為卷積層，使模型能夠接受任何大小的輸入圖像，并生成相應的密集輸出映射.FOSegNet模型由卷積層組成，中間有最大值匯合層.除最后一個卷積層大小為1×1，其余所有卷積核的大小均為3×3.每個卷積層后面還有一個線性整流層，然后再輸入到下一層.本文將VGG-16模型的1 000路分類層替換為產生二進制掩碼作為輸出的兩路分類層.損失函數是輸出層每個像素上的交叉熵之和.

VGG-16模型由5個最大值匯合層組成.雖然非常適合分類，但與原始圖像相比，輸出分辨率降低了32倍.為了實現更精細的像素對象圖，FOSegNet模型應用擴張卷積算法，擴張卷積是利用上采樣濾波器的方法，通過擴張率控制著感受野，同樣的卷積核數量，不同的擴張率卻使其有不同大小的感受野，在不增加參數量的情況下，擴張卷積可以指數級地擴大濾波器的感受野，有效地提取圖像上下文信息.特別是，FOSegNet模型用擴張卷積替換最后2個最大值匯合層中的下采樣.此操作是無參數的，輸出分辨率降低8倍，并且仍然保留了較大的感受野.此外，FOSegNet模型應用分流聚合模塊(SFM)，基于VGG-16的SFM采用多個并行fc6-fc7-fc8分支，它們都使用3×3內核，但在fc6中采用不同的擴張率r以捕獲不同大小的物體.SFM采用擴張率為r={6，12，18，24}，可以有效地提取圖像的上下文信息，增強模型的分割性能.然后，使用雙線性插值來恢復前景圖像原始分辨率.最后，使用全連接的條件隨機場算法，作為分割模型的后處理，進一步提升分割模型的分割精度.

2.2 分流聚合模塊

DCNNs在含有多尺度物體的數據集中進行訓練時，能展示出其強大的特征提取以及多尺度學習能力.本文使用不同采樣率的多個并行的擴張卷積層，對每個采樣率提取的特征在單獨的分支中進行再處理，并進行融合以產生最終結果.本文提出的分流聚合模塊(SFM)能夠有效地提取圖像的多尺度特征，其中SFM的4個相同分支均被命名為擴張空間金字塔池化.圖2和3展示了SFM如何多尺度提取特征.

以圖2為例，為了對中心像素(橙色)進行分類，擴張空間金字塔池化，通過使用不同擴張率的多個并行卷積核來提取多尺度特征.感受野的大小以不同的顏色顯示.以圖3為例，從Pool5得到圖像特征映射圖，本文的SFM首先通過分支1使用擴張率為6，12，18和24的4個并行3×3卷積核來提取多尺度特征，然后經過連續的2層擴張率均為1的4個并行1×1卷積核對提取的特征進行降維處理，每個采樣率提取的特征會在單獨的分支中進行處理，并將提取的16個尺度上的特征進行聚合以產生最終分割結果.

圖2 擴張空間金字塔池化

圖3 分流聚合模塊

2.3 全連接的條件隨機場

DCNNs結構內在的空間變換不變性，限制了該結構應用到分割問題上的準確率.優化分割架構的輸出并強化其捕捉細粒度信息的一個方法就是引入條件隨機場作為其后處理模塊.條件隨機場構建了底層圖像信息與多類別像素級推理輸出的聯系，這些聯系對于捕捉長期依賴性質尤其重要，也是關注于局部細節的DCNNs所未能考慮到的.

本文使用了全連接的兩兩之間的條件隨機場模型，對分割結果進行調優.將每個像素建模為某區域內的一個節點，無論2個像素距離多遠，其兩兩之間的關系都會被衡量.由于DCNNs的空間變化不變性，像素的相互關系是DCNNs結構所未能考慮的，使用全連接的條件隨機場后，無論短期的還是長期的像素相互關系都被考慮進來，使得FOSegNet模型可以考慮到分割過程中需要的細節信息.具體參數設置參照業內開源版本，但本文將顏色核函數項的權重設置為8，位置核函數項的權重設置為5，其他參數不變.

3 實驗結果與分析

為了生成明確的邊界級訓練數據，采用共有1 464張圖像的PASCAL VOC 2012分割數據集[18]和共有10 582張圖像的增強數據集[19]作為FOSegNet模型的訓練數據.將該訓練數據集的20個對象標簽丟棄，并映射用于訓練的單個前景標簽.使用CAFFE[20]框架來訓練分割模型，同時使用batch size為10的隨機梯度下降法進行優化，使用0.001的基本學習率，每2 000次迭代學習率就乘以0.1進行降速，0.9的動量和0.000 5的權重衰減，條件隨機場使用業內通用的開源實現版本[21].

本文對模型進行了總共24 500次迭代的訓練，在單塊RTX 2080 GPU上的總訓練時間約為7 h.

3.1 實驗的數據集、評估指標和比較基線

3.1.1 數據集

針對不同的弱監督和完全監督模型，使用以下3個數據集進行評估：(1)MIT Object Discovery數據集[22].此數據集由飛機、汽車和馬組成，其圖像主要是通過互聯網搜索收集的，數據集里的圖像均帶有逐像素的真實標記分割掩碼，它最常用于評估弱監督分割模型.(2)ImageNet-Segmentation數據集.本文使用源于ImageNet[23]的具有445類別的4 276張圖像的ImageNet-Segmentation數據集對FOSegNet模型進行大規模的評估，該數據集圖像均帶有逐像素的真實標記分割掩碼.此數據集的多樣性可以測試本文模型的泛化能力.(3)PASCAL VOC 2012數據集.本文使用PASCAL VOC 2012數據級的VAL集里面的1 449張圖像來測試本文模型的語義分割能力.

3.1.2 評估指標

采用Jaccard得分作為評估分割性能的指標.Jaccard得分是由預測圖像與真實標記圖像的交并比(Intersection over Union，IoU)得出.

3.1.3 比較基線

前景對象分割模型將與最近的20種模型進行比較來評價其分割能力，這些模型分為4類：(1) 顯著性模型.本文選擇4種優秀的顯著性檢測模型[8，10-11，24]進行比較.(2)對象建議模型.本文比較了2種優秀的對象建議模型，即多尺度組合分組(MCG)[7]和深度掩碼(DeepMask)[25].該類模型輸出一組有得分排名的通用對象分割建議，每個圖像中得分最高的建議被視為評估的最終前景分割.本文還與SalObj[9]模型進行了比較，SalObj模型使用顯著性將MCG中的多個對象建議合并到一個單一前景.(3)弱監督的聯合分割模型.該類模型[12-14，16-17，22，26]依賴于額外的弱監督，其形式是事先知道給定集合中的所有圖像都共享一個共同對象類別.(4)語義分割模型.本文選擇了6種表現較好的語義分割模型進行Jaccard得分對比以及時間性能對比.這6種分割模型分別是DPN[1]、BoxSup[2]、FCN[3]、DeepLab[4]、CNNCRF[5]和A+B模型[6].

3.2 結果與分析

(1) MIT Object Discovery.分別對MIT數據集和MIT數據集子集進行評估，并將FOSegNet模型與13種現有的較先進模型進行比較，包括顯著性檢測模型[8，10-11，24]、對象建議模型[7，9，25]和弱監督的聯合分割模型[12-14，16-17，22，26].

MIT Object Discovery數據集上的定量結果見表1，由表1可以看出，本文FOSegNet模型勝過幾種優秀的聯合分割和對象建議模型，同時，超越了顯著性模型中的大多數模型，僅在汽車類圖像的分割性能上略遜于DeepSaliency，主要是該模型訓練數據集中汽車類圖像數量及比例更大，而本文FOSegNet模型在沒有進行數據集擴充的情況下，通過修改深度圖像分類網絡VGG-16以及應用條件隨機場，使得FOSegNet模型能夠較好地逐像素分類出前景對象，從而在飛機類和馬類圖像的分割結果優于表1中的其他分割模型.

表1 MIT Object Discovery數據集上的定量結果(指標：Jaccard得分)

(2) ImageNet-Segmentation.使用ImageNet-Segmentation數據集來評估FOSegNet模型的泛化能力，該數據集由帶有真實標記的445類別的4 276張圖像組成.之前的最佳結果來自分割傳播模型[16]，發現DeepSaliency[11]和DeepMask[25]進一步改善了ImageNet-Segmentation.特別是，像FOSegNet模型一樣，DeepSaliency也是通過PASCAL數據集進行訓練，而DeepMask是通過1個比PASCAL數據集更大的COCO[27]數據集進行訓練.引入擴張卷積以及SFM，使得FOSegNet模型能夠多尺度聚合圖像上下文信息，顯著提高了前景對象模型的分割表現(見表2).這表明FOSegNet模型不僅具有超強的泛化能力，概括了數千個對象類別，而且產生了高質量的對象分割.

表2 ImageNet-Segmentation數據集上的定量結果(指標：Jaccard得分)

(3) PASCAL VOC 2012.選擇了5種表現較好的語義分割模型進行Jaccard得分對比(見表3)，由表3可知，FOSegNet模型在PASCAL VOC 2012 數據集的11個類別中取得了較好的結果.相較于其他5種分割模型，由于FOSegNet模型級聯DCNNs、SFM以及全連接的條件隨機場，使得該模型能夠更高效地提取前景對象特征，細化分割結果，具有更加優秀的分割性能.

表3 PASCAL VOC 2012數據集上不同類別的定量結果(指標：Jaccard得分)

另外，為驗證本文模型在時間性能上的表現，將其與3種語義分割算法進行了時間性能上的對比實驗.實驗機器的CPU為 Intel Core i7-6700，內存8 GB，GPU為 NVIDIA GeForce RTX 2080(8 GB顯存)，實驗所用圖像取自PASCAL VOC 2012的測試數據集，實驗結果對比見表4.由表4可知，結合條件隨機場的模型均有比較大的時間開銷，相比其他結合條件隨機場的DeepLab、CNNCRF等算法，本文算法的時間開銷相對較少，且Jaccard得分較高.

4 結語

本文提出一個端到端的基于深度卷積神經網絡的監督學習模型，用于逐像素的前景對象圖像分割.實驗結果證明了FOSegNet模型的有效性，其與多個數據集的優秀模型相比均有顯著改進.同現有較好的基于深度特征的圖像區域分割模型相比精度更高，較好地解決了由于DCNNs不變性而導致的定位精度下降問題.本文研究結果還表明，FOSegNet模型具有強大的泛化能力，可以很好地推廣到數百個對象類別.但是，相比不使用條件隨機場的分割模型，FOSegNet模型分割時間開銷較大，在下一步工作中，將會考慮如何提高FOSegNet模型的時間開銷性能.