基于DeepLabv3+算法的城市街景語義分割算法研究

2024-06-13 00:00:00陳文藝苗宗成

無線互聯(lián)科技 2024年9期

摘要：在自動駕駛領(lǐng)域，城市街道場景的語義分割對于提升系統(tǒng)的安全性和效率至關(guān)重要。針對傳統(tǒng)語義分割模型參數(shù)過多、泛化性能較差以及分割效果有限等問題，文章提出了一種基于改進(jìn)DeepLabv3+的解決方案。此改進(jìn)模型融合了輕量級MobileNetv2主干網(wǎng)絡(luò)和SE注意力機(jī)制，優(yōu)化了空洞金字塔池化（Atrous Spatial Pyramid Pooling， ASPP）模塊，將其從并行結(jié)構(gòu)改進(jìn)成串行結(jié)構(gòu)，采用深度可分離卷積結(jié)構(gòu)。在Cityscapes數(shù)據(jù)集上，文章的方法取得了75.90%的平均交并比（Mean Intersection over Union， MIoU），顯著提升了分割精度與計算效率。

關(guān)鍵詞：深度學(xué)習(xí)；語義分割；ASPP

中圖分類號：TP389.1

文獻(xiàn)標(biāo)志碼：A

0 引言

城市街景的圖像分割一直是研究的熱點(diǎn)，該技術(shù)主要分為以下3種：基于傳統(tǒng)的分割方法、混合了傳統(tǒng)技術(shù)和深度學(xué)習(xí)的方法以及單一依靠深度學(xué)習(xí)的策略。

傳統(tǒng)分割技術(shù)通常涉及閾值設(shè)定、邊緣檢測、聚類和圖論方法^［1^］，這些技術(shù)主要依賴于顏色、紋理等簡單的低層次特征來執(zhí)行分割；結(jié)合了傳統(tǒng)方法和深度學(xué)習(xí)的分割方法則更為多樣，這種分割方法主要包括基于候選區(qū)域的分析、概率圖模型和分割掩模的應(yīng)用^［²^］；深度學(xué)習(xí)驅(qū)動的圖像語義分割則成為當(dāng)前領(lǐng)域內(nèi)的主導(dǎo)技術(shù)，特別是以卷積神經(jīng)網(wǎng)絡(luò)，如全卷積網(wǎng)絡(luò)（Fully Convolutional Networks， FCN）^［3^］、循環(huán)神經(jīng)網(wǎng)絡(luò)（例如ReSeg^［4^］）和生成對抗網(wǎng)絡(luò)（如DA^［5^］）為基礎(chǔ)的方法。

雖然DeepLabv3+^［6^］在PASCAL VOC 2012和Cityscapes等知名數(shù)據(jù)集上展現(xiàn)了出色的分割能力，但仍有一些局限性。首先，DeepLabv3+的編碼器在提取特征的過程中逐漸減小圖像尺寸，這可能導(dǎo)致關(guān)鍵信息的損失，使得在解碼階段難以恢復(fù)圖像細(xì)節(jié)。其次，雖然DeepLabv3+的ASPP模塊能增強(qiáng)模型對物體邊緣的識別，但其不足以捕捉圖像局部特征之間的復(fù)雜關(guān)系，有時會造成分割的不連續(xù)性，影響精度。最后，DeepLabv3+為了提升分割準(zhǔn)確度，采用了層數(shù)多、參數(shù)量大的Xception網(wǎng)絡(luò)和標(biāo)準(zhǔn)卷積方式，這不僅加重了模型的計算負(fù)擔(dān)，也提高了硬件需求，導(dǎo)致訓(xùn)練速度的下降和收斂的緩慢。

1 網(wǎng)絡(luò)模型

1.1 總體結(jié)構(gòu)

本文旨在通過對DeepLabv3+模型的一系列改進(jìn)來增強(qiáng)其圖像分割性能，解決現(xiàn)有不足。（1）在DeepLabv3+中選擇了輕量化的MobileNetv2作為骨架網(wǎng)絡(luò)，取代了原有的Xception網(wǎng)絡(luò)，以減少計算量并提高效率。（2）為了提升精度，在特征提取階段后集成了SE注意力模塊，提高了模型對關(guān)鍵信息的敏感度。（3）對ASPP模塊進(jìn)行了重構(gòu)，將其從并行結(jié)構(gòu)轉(zhuǎn)變?yōu)榇薪Y(jié)構(gòu)，以拓寬感受野。（4）將傳統(tǒng)卷積替換為深度可分離卷積，優(yōu)化了ASPP模塊中的空洞卷積。（5）針對數(shù)據(jù)集中常出現(xiàn)的類別不平衡等問題，引入了焦點(diǎn)損失函數(shù)，以更好地處理該問題。通過這些改進(jìn)，得到了性能優(yōu)化的DeepLabv3+網(wǎng)絡(luò)，其結(jié)構(gòu)如圖1所示。

1.2 MobileNetv2主干網(wǎng)絡(luò)

MobileNetv2的網(wǎng)絡(luò)架構(gòu)通過一系列創(chuàng)新設(shè)計來優(yōu)化移動設(shè)備上的性能和效率。該網(wǎng)絡(luò)的核心為倒殘差結(jié)構(gòu)，這是一種特別設(shè)計的模塊，它首先通過1×1卷積（也稱為“點(diǎn)卷積”）擴(kuò)大特征圖的通道數(shù)，以增加網(wǎng)絡(luò)處理能力。應(yīng)用深度可分離卷積對這些擴(kuò)張的特征圖進(jìn)行處理。這種方法將傳統(tǒng)卷積操作分解為2個步驟：深度卷積（對每個通道獨(dú)立進(jìn)行空間上的特征提取）和再次的1×1卷積（合并特征圖），顯著降低了計算量和參數(shù)數(shù)量。網(wǎng)絡(luò)通過另一個1×1卷積將特征圖的通道數(shù)減少，以構(gòu)造更緊湊的特征表示。

1.3 SE注意力機(jī)制

SE注意力機(jī)制旨在提升網(wǎng)絡(luò)捕捉通道間依賴性的能力，從而增強(qiáng)其性能，SE注意力機(jī)制首次被引入是為了改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)中的特征重校準(zhǔn)，使網(wǎng)絡(luò)能夠通過自動學(xué)習(xí)賦予不同的特征通道以不同的重要性權(quán)重。SE注意力機(jī)制的工作流程可以分為2個主要步驟：壓縮和激勵。在壓縮步驟中，SE注意力機(jī)制對每個通道的特征圖進(jìn)行全局平均池化，從而生成一個全局特征描述。在激勵步驟中，通過一系列全連接層（通常包括一個壓縮層和一個重新擴(kuò)張層）對這些全局特征描述進(jìn)行變換，學(xué)習(xí)到每個通道的權(quán)重系數(shù)。這些權(quán)重系數(shù)隨后被用來調(diào)整原始特征圖的通道，通過放大重要特征通道的響應(yīng)，實現(xiàn)特征重校準(zhǔn)。

2 實驗結(jié)果分析

2.1 實驗數(shù)據(jù)及參數(shù)

本文實驗數(shù)據(jù)來自Cityscapes數(shù)據(jù)集，Cityscapes數(shù)據(jù)集是一個大規(guī)模的數(shù)據(jù)集，專為街景理解任務(wù)而設(shè)計。Cityscapes數(shù)據(jù)集含有5000張精細(xì)標(biāo)注的圖像和20000張粗略標(biāo)注的圖像，分為訓(xùn)練集、驗證集和測試集。精細(xì)標(biāo)注的圖像包含詳盡的像素級標(biāo)注，覆蓋了30個類別（其中，有19個類別用于評估），如道路、人行道、車輛、行人等城市場景中常見的元素。

本文實驗在ubuntu20.04上部署了當(dāng)下比較流行的Pytorch深度學(xué)習(xí)框架，Python3.8為編程語言。其中，Pytorch版本為1.11.0，Cuda版本為11.3。在硬件上，使用Intel（R） Core （TM） i9-13900KF的CPU，頻率為5.80 GHz，GPU為NVIDIA RTX 3090，24G顯存。此外，超參數(shù)設(shè)置如下。Batch Size：8；Epoch：300；優(yōu)化器：SGD；學(xué)習(xí)率：0.0001；學(xué)習(xí)率下降方式：cos。

2.2 對比實驗

為了確定模型的有效性，將本文所提出的改進(jìn)DeepLabv3+與其他的語義分割算法在Cityscapes數(shù)據(jù)集上進(jìn)行了實驗對比，實驗結(jié)果如表1所示。

如實驗結(jié)果所示，改進(jìn)的DeepLabv3+模型的MIoU高達(dá)75.90%，這一成果證明了本文所做改進(jìn)的有效性，尤其是在傳統(tǒng)DeepLabv3+模型的基礎(chǔ)上采用MobileNetv2作為輕量級的主干網(wǎng)絡(luò)，這一策略不僅大幅降低了模型的計算量，而且優(yōu)化了計算效率，同時保持了高精度的分割效果。引入SE注意力機(jī)制補(bǔ)償了精度的潛在損失，通過對ASPP模塊的優(yōu)化，串行結(jié)構(gòu)的采用擴(kuò)大了感受野并提高了上下文捕獲的能力。此外，深度可分離卷積的使用進(jìn)一步降低了參數(shù)數(shù)量和計算成本。而焦點(diǎn)損失函數(shù)的引入則有效應(yīng)對了數(shù)據(jù)集中的類別不平衡問題，有助于模型在不同類別的分割任務(wù)中獲得更好的性能。

3 結(jié)語

本文主要對傳統(tǒng)的DeepLabv3+網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了一系列創(chuàng)新性改進(jìn)，以提升圖像語義分割的性能并優(yōu)化模型的計算效率。首先，將DeepLabv3+中的Xception主干特征提取網(wǎng)絡(luò)替換為MobileNetv2網(wǎng)絡(luò)，此改進(jìn)顯著降低了模型的計算負(fù)擔(dān)，使其更適合于資源受限的環(huán)境。其次，在DeepLabv3+中引入SE注意力機(jī)制以彌補(bǔ)由于網(wǎng)絡(luò)輕量化導(dǎo)致的精度損失等問題，確保了DeepLabv3+分割的準(zhǔn)確性。此外，將DeepLabv3+中原有ASPP模塊的并行結(jié)構(gòu)優(yōu)化為串行結(jié)構(gòu)，使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積，這一改進(jìn)不僅擴(kuò)大了感受野，還進(jìn)一步減少了模型的參數(shù)量。針對類別不平衡問題，在DeepLabv3+中采用焦點(diǎn)損失函數(shù)來提升模型對少數(shù)類別的識別能力。上述改進(jìn)共同作用，顯著提高了DeepLabv3+在圖像語義分割任務(wù)上的性能，同時保持了較高的計算效率，展現(xiàn)了優(yōu)化后模型在處理復(fù)雜視覺任務(wù)時的強(qiáng)大能力。

參考文獻(xiàn)

［1］王嫣然，陳清亮，吳俊君.面向復(fù)雜環(huán)境的圖像語義分割方法綜述［J］.計算機(jī)科學(xué)，2019（9）：36-46.

［2］田萱，王亮，丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述［J］.軟件學(xué)報，2019（2）：440-468.

［3］LONG J，SHELHAMER E，DARRELL T.Fully convolutional networks for semantic segmentation，June 7-12，2015［C］.Boston：CVPR，2015.

［4］FVisin F，Ciccone M，Romero A，et al.A recurrent neural network-based model for semantic segmentation，June 27-30，2016［C］.Las Vegas：CVPR，2016.

［5］SU C，HUANG R，LIU C.Prostate MR image segmentation with self-attention adversarial training based on wasserstein distance［J］.IEEE Access，2019（18）：184276-184284.

［6］CHEN L C，ZHU Y，PAPANDREOU G，et al.Encoder-decoder with atrous separable convolution for semantic image segmentation，June 18-22，2018［C］.Munich：ECCV，2018.

（編輯王永超）

Research on urban street view semantic segmentation algorithm based on DeepLabv3+ algorithm

Chen" Wenyi， Miao" Zongcheng

（School of Electronic Information， Xijing University， Xi’an 710123， China）

Abstract：In the field of autonomous driving， semantic segmentation of urban street scenes is crucial for improving the safety and efficiency of the system. Aiming at the problems of too many parameters， insufficient portability and limited segmentation effect of traditional semantic segmentation models， this paper proposes a solution based on improved DeepLabv3+. This improved model incorporates a lightweight MobileNetv2 backbone network and the SE attention mechanism，and optimizes the Atrous spatial pyramid pooling （ASPP） module from a parallel to a serial structure with a depth-separable convolutional structure. On the Cityscapes dataset， the method in this paper achieves 75.90% MIoU， which significantly improves the segmentation accuracy and computational efficiency.

Key words：deep learning; semantic segmentation; ASPP