王 俊,王 靜,曹 旺
(四川大學電子信息學院,成都 610065)
語義分割是計算機視覺三大任務之一,也一直是科學界與工業界投入研究的重點。圖像語義分割是語義分割的重要分支任務,語義指的是圖像中物體所代表的含義,例如在街景圖像中,車輛、行人、道路、建筑都有著不同的含義,而圖像語義分割主要任務就是對圖像的語義進行理解,并對不同語義的物體進行分割,其在新興的自動駕駛領域有著廣泛的應用,具體而言,自動駕駛需要對復雜的道路情況進行理解,高分辨率圖像中的每個像素都被分類為一組語義標簽。與其他場景不同,自動駕駛場景中的物體表現出非常大的尺度變化,這對多尺度信息必須正確編碼的意義上的高級特征表示提出了巨大挑戰,同時精度還會受外部光照和圖片拍攝角度影響。
目前圖像語義分割算法主要以全卷積神經網絡FCN為基礎,其在語義分割領域取得了不錯的效果,但還存在一些問題:高級語義信息在提升分割性能方面至關重要,為了獲得高級語義信息,FCN 使用了多個池化層,但后續需要上采樣恢復圖像大小,這樣一是丟失了細節與局部信息,無法整合全局信息;二是參數和計算時間大大增加,無法滿足設備算力資源有限的情況。
針對自動駕駛場景下圖像分割問題,本文以現有的語義分割網絡Deeplabv3+為基礎提出了一種性能優秀的輕量級圖像語義分割方法,骨干網絡采用輕量級的MobilenetV2。首先對Deeplabv3+的編碼階段進行分析,針對聚合多尺度上下文信息的ASPP 模塊運算量過大,且支路之間缺乏相關性的問題,提出一種新的密集連接結構的ASPP 模塊,在解碼階段,為了整合全局信息,額外選擇了下采樣倍數為2、8、16的低級特征進行二次特征融合。
目前在圖像語義分割領域有很多深度學習方法提出,Long 等人在2015年提出的FCN,FCN 作為圖像語義分割的奠基,解決了像素級別的圖像分割問題,其將CNN 的全連接層替換為卷積層,使得分類網絡能夠輸出熱圖,但下采樣層的存在使得高級特征圖的分辨率較低,使用雙線性插值或反卷積實現分辨率重建,將低分辨率的特征圖上采樣至原圖大小,最后在上采樣后的特征圖上完成像素分類。
FCN 在處理輸入圖像的過程中引入了噪聲,對此Google 提出了著名的Deeplab 系列模型,為了解決池化所帶來的信息損失,Deeplabv1引入了空洞卷積,同時利用條件隨機場來提高分割性能;Deeplabv2相較Deeplabv1 采用了多尺度和ASPP 獲得了更好的分割效果,將VGG-16替換成了ResNet;Deeplabv3則提出了一種通用框架,同時改進了ASPP。
Deeplabv3+則是本文研究的重點,本文在此基礎上做了若干改進,Deeplabv3+最大的改進在于提出了一個編碼器-解碼器結構,編碼器-解碼器結構是目前語義分割領域非常流行的網絡架構,一般編碼器部分用來提取高級特征,而解碼器部分通過處理編碼器得到的特征圖得到預測圖。
Deeplabv3+模型作為經典的編解碼結構,將Deeplabv3 模型作為編碼層,在其后端級聯一個簡單有效的解碼器,模型結構如圖1 所示。

圖1 Deeplabv3+結構

解碼階段(decoder)對編碼階段輸出的特征張量采用雙線性插值4 倍上采樣后,與Backbone 上對應層級的特征圖拼接,利用跨層連接捕捉淺層特征承載的細節信息,進一步豐富圖像的語義信息和細節信息;經兩個3×3 卷積細化特征后,使用雙線性插值4 倍上采樣將特征圖尺寸逐步恢復到原始圖像大小,緩解采樣幅度過大導致部分特征信息丟失問題。
本文在Deeplabv3+模型的基礎上進行了改進, 提出了一種新型語義分割模型UDeeplabv3+,U-Deeplabv3+的整體結構如圖2所示。

圖2 U-Deeplabv3+結構
編碼階段,針對原ASPP模塊使用了多個空洞卷積對輸入特征并行進行運算,導致網絡運算量過大,并且不同空洞卷積支路之間缺乏聯系的問題,本文創新性地提出了一種多支路串行ASPP 模塊,將多個空洞卷積支路串行連接,使得每一個空洞卷積支路輸入由原來的維度320降低到128,大大減小了模塊的計算量,同時采用密集連接的思路,將前一支路的輸出與現支路的輸出進行相加,再送入后一支路,密集連接的優勢在于增強了各支路的相關性,增大了感受野,充分地利用了有效信息,分割精度有所提高;同時本文舍棄了原ASPP 模塊每個支路輸出最后并行相加的做法,只選擇了1x1卷積支路、空洞卷積串行支路、池化支路的輸出進行合并相加,進一步減小了計算量,同時兼顧了精度。
解碼階段,原Deeplabv3+網絡僅使用了下采樣倍數為4的特征與高級特征進行融合,并沒有充分利用所有的低級特征,而低級特征中包含更多的細節。本文提出了一種新的解碼模塊U-Decoder,靈感來自UNet,采用類似U 型的網絡架構,下采樣倍數不同的低級特征調整尺度后依次進行融合,相鄰特征之間的融合使得特征之間的相關性增強,提高了低級信息利用率,最后再將融合的低級特征與高級特征進行融合,各級特征圖都得到了利用,使得分割精度有所提高。
本文創新性地提出MSASPP 模塊(multibranch series ASPP),保留了原ASPP 模塊的全局平均池化支路和1x1卷積支路,將三條空洞卷積支路改為串行連接,詳細結構見圖3,多條空洞卷積支路串行連接帶來了更大范圍的感受野,串行連接的感受野計算公式如下:


圖3 MSASPP感受野
其中和為兩個串行的空洞卷積感受野,為串行后的感受野大小。各空洞卷積支路的感受野變化如圖3,同時采用了密集連接的方式加強了各支路的相關性,因為膨脹率逐漸增加,上層的卷積可以利用下層的特征,使像素采樣更加密集,高感受野的特征也能擁有低感受野的特征信息。MSASPP模塊的輸出可表示為:

高級特征具有豐富的語義信息,低級特征具有更多的細節信息,而不同層級的低級特征的信息也不盡相同,所以相較于僅利用一種層級的低級特征,使用所有的低級特征是更好的選擇。本文提出了一種U 型解碼結構,從下采樣倍數為2的低級特征支路開始,依次和相鄰的低級特征進行融合,分辨率更低的低級特征融合前需要先進行上采樣到與上一級的低級特征分辨率相同。這樣的做法帶來的好處是最大程度上利用了所有層級的信息,沒有錯過不同的細節,同時相鄰的低級特征依次融合,其特征圖所含的語義信息相近,融合的契合度較高。詳細結構見圖2。
自動駕駛領域常用的數據集是Cityscapes 數據集,該數據集包含50 多個城市采集得來的街景圖像,總共包含5000 張高質量標注圖像,20000張粗略標注圖,一般街道場景語義分割只采用5000 張精細標注圖,其中2975 張圖作為訓練集,500張圖作為驗證集,1525張圖作為測試集,但是測試機的標注沒有公開,所以本文僅使用驗證集評估模型改進后的效果。Cityscapes數據集有1024×2048 的高分辨率,由于機器的性能限制和模型要求,將輸入圖像分辨率由1024×2048 調整為513×513,并通過隨機裁剪、色彩抖動、翻轉來對圖像進行數據增強。
在語義分割任務中,像素精度、平均像素精度、頻權交并比、均交并比都是評價算法性能優劣的指標。而均交并比(mean intersection over union,)是最常用的指標,本文也主要采用作為評價指標,將類別的預測值與真實值之間的交集和并集進行相除,求和之后再取平均值,表示為不同類別預測值和真實值的重合程度。

其中,代表圖像中像素的總類別數量,X代表像素實際類別是類,預測結果是類的數量,X代表像素實際類別是類,預測結果是類的數量,X代表像素實際類別是類,預測結果是類的數量。
本文實驗基于Pytorch 框架,語言為Python3.7,操作系統為Ubuntu18.04,芯片為Intel Xeon E5- 1650 v4 主頻3.6 GHz,內存32 GB,顯卡為一塊NVIDIA GeForce GTX 1080Ti,初始學習率為0.05,weight decay 設置為1e-4,學習策略為poly,動量為0.9,損失函數為交叉熵函數。
為了確定模型的有效性,將U-Deeplabv3+與其他語義分割算法在Cityscapes 驗證集上進行了實驗,實驗結果如表1所示。

表1 不同模型在Cityscapes 上性能對比
由表1 可知,Deeplabv3+與其他的語義分割算法相比擁有較為先進的結果,本文提出的UDeeplabv3+在其基礎上獲得了更有競爭力的結果,mIoU 相較Deeplabv3+提高了2.1%,以較小的時間成本為代價,換得分割精度的提升,較好地權衡二者之間關系,一定程度上提升了工程實用性。
在Cityscapes 數據集上分割結果對比如圖4所示。觀察圖4 可知,Deeplabv3+模型沒能對圖片中的紅綠燈、交通標志等小物體進行清晰分割,細節丟失嚴重;而U-Deeplabv3+模型妥善處理了上述不足之處,由于擁有多分支串聯MSASPP 模塊和U 型解碼結構,模型具有較大的感受野,對于小物體的感知也更加準確,同時也能夠表征出圖像細節信息,邊緣預測更為清晰,綜上,U-Deeplabv3+模型更好地保留圖像細節信息,預測結果更加準確和全面。

圖4 Cityscapes 驗證集上分割結果對比
為驗證多分支串聯MSASPP 模塊、U 型解碼結構等方案的有效性,故在Cityscapes 數據集上進行消融實驗,以mIoU 為對比指標,實驗結果如表2所示。

表2 不同改進方案在Cityscapes數據集上性能分析
本文針對Deeplabv3+模型細節感知能力較弱,對于小物體存在誤判漏判的問題,提出了改進方案。通過設計多分支串聯MSASPP 模塊,提供更大的感受野,同時采用密集連接設計,進一步增強了信息間交互,提升信息利用率;設計了U 型解碼結構,目的是恢復更多的在降采樣過程中損失的空間維度信息和像素位置信息,最大程度上利用了所有層級的信息,沒有錯過不同的細節,同時相鄰的低級特征依次融合,其特征圖所含的語義信息相近,融合的契合度較高。
本文模型在Cityscapes 數據集上的實驗數據證明,改進后的模型結構擁有較好的分割性能,同時對小物體的感知能力較強。在后續工作中,將深入研究兼顧預測精度與實時性的高性能網絡,進一步增強語義分割算法在工程應用中實用性。