面向自動駕駛的輕量級道路場景語義分割

2023-10-10 10:39:04李順新

計算機工程與應用 2023年19期

李順新，吳桐

1.武漢科技大學計算機科學與技術學院，武漢 430065

2.武漢科技大學大數據科學與工程研究院，武漢 430065

3.湖北智能信息處理與實時工業系統重點實驗室，武漢 430065

隨著計算機視覺領域的發展，基于深度學習的細分方法極大提高了語義分割的準確性和收斂速度[1]。語義分割作為視覺智能領域的一個重要研究方向，可以在像素層面上將圖像按照語義分割為不同顏色的圖像區域，并根據語義類別標記圖像中的不同區域，然后獲得具有像素語義標注的圖像。因此將語義分割應用于自動駕駛，能幫助車輛感知并獲得周圍的道路環境信息，從而提高行駛安全[2]。

自動駕駛過程中需要不斷地收集道路及周圍的環境、人群、建筑等圖像。傳統算法對這些類別不同、大小不一、無結構、無規則的圖像進行分析和處理時會產生實時性低、準確度低等問題[3]。因此，如何兼顧道路場景識別結果的實時性與可靠性，對車輛精準、高效地感知道路環境信息具有重要的研究意義。目前流行的眾多道路場景語義分割模型，在分割城市道路場景圖像方面已經取得了一些的成果，但也存在占用系統資源巨大、算法收斂速度慢、無法滿足自動駕駛的實時性要求和準確度低等問題，無法適用于復雜的道路場景分割[4]。

在已有的文獻中，早先圖像語義分割（image semantic segmentation，ⅠSS）[5]技術一般采用紋理基元森林（texton forest，TF）或隨機森林（random forest，RF）等方法構建語義分割的分類器[6]。全卷積網絡（fully convolutional network，FCN），將傳統卷積網絡中的全連接層全部替換為卷積層，提高了圖像分割的準確性和效率[7]。但為了提取更細致的特征，FCN需進行多次下采樣并保留池化過程中所舍棄的位置信息，會造成較大的空間信息損失。針對這一問題，提出了編碼-解碼（encoder-decoder，ED）體系結構，使用編碼網絡獲取圖片的高層語義特征圖，并在解碼部分，還原圖像的細節特征和空間尺寸大小，最終實現同等分辨率的輸入與輸出[8]。同樣的，SegNet網絡[8]和U-Net網絡[9]都使用了ED結構來捕獲豐富的空間信息。

為了進一步提升語義分割精度，提出了DeepLabV3+模型[10-12]，將ED 結構與空洞卷積空間金字塔（atrous spatial pyramid pooling，ASPP）模塊結合[13]，以捕獲足夠的淺層空間信息，從而更精準、全面地恢復目標圖像細節，并將注意力機制引入到計算機視覺領域[14]。但是注意力機制忽視了信道和位置的空間信息對高層特征提取的影響。為了解決此問題，Fu等[15]提出雙注意力機制（double attention mechanism，DAM）模塊，提升了語義分割效果。例如，張漢等[16]將Resnet-50與雙注意力機制模塊相結合獲得了很好的效果。

語義分割技術向輕量化、實時性方向也有過嘗試，例如，提出的MobileNet 系列模型。其中MobileNetV1模型采用深度可分離卷積提取特征，以提升模型的計算效率，而MobileNetV2 模型在MobileNetV1 模型的基礎上引入了具有反向殘差和線性瓶頸的資源高效區塊，進一步優化了模型[17-18]。馬書浩等[19]通過改進DeepLabV2進行實時圖像語義分割。與傳統的卷積模型比較，都大幅度降低了模型計算量和參數量，而且極大程度減少了操作數量和實際測量的延遲，但其在分割精度方面無法適配自動駕駛領域。王欣等[20]在U-Net 中引入Mobile-NetV2 與注意力機制，在實時性和分割精度上都有較好表現，但應用的注意力機制缺少對其他維度特征的關注，并且只討論了人像分割等用途單一的應用場景，沒有涉及道路場景這種具有高復雜度、多影響因素的應用。

針對以上不足，本文提出了一種參數量小、實時性高、圖像分割精準的并行輕量級模型（parallel lightweight model，PLM）來應對自動駕駛過程中的復雜道路場景。該模型以DeepLabV3+模型為基礎，采用MobileNetV2 作為主干網絡，并設計特有并行特征處理結構。MobileNetV2 使模型計算過程更加集中，能減少獲得分割結果的時間，并且會大幅減少參數量，使模型更加輕量。并行特征處理結構則提高了圖像分割的精準度。實驗結果表明，該模型能夠兼顧圖形分割精度和實時性，更加適應自動駕駛過程中復雜道路環境。

1 PLM模型

1.1 PLM模型整體結構

PLM 模型（如圖1 所示）基于DeepLabV3+，首先采用MobileNetV2 為主干網絡；其次將MobileNetV2 與由ASPP和DAM組成的并行特征處理結構相結合，以完成對圖像特征的提取；然后將提取出的高級特征圖先后進行雙線性插值上采樣和特征融合；最后對融合結果上采樣，得到最終分割圖像。PLM模型中的MobileNetV2部分能以少量的參數和集中的計算過程精準且高效地完成模型初始特征提取，同時其并行特征處理結構對輸入圖像的重要區域和類別重點關注，并優化物體分割邊界，提高分割精度。兩者結合使得模型能更好地理解道路場景圖像內容。

圖1 PLM模型整體結構Fig.1 Overall structure of PLM model

1.2 基于MobileNetV2的初始特征提取

DeepLabV3+模型的主干結構為Xception。Xception計算過程較為零散，整體結構體量大，參數量較多，導致其系統開銷較大。而MobileNet系列網絡主要采用深度可分離卷積，其中MobileNetV2具有線性瓶頸的逆殘差結構進一步提高了網絡性能。因此，MobileNetV2在結構上比Xception更加輕量，計算過程更加集中。將其應用在自動駕駛鄰域中能夠在保持分割準確度的同時，減少10倍左右的系統資源消耗。

表1 是DeepLabV3+主干網絡Xception 結構。其中通道數表示神經網絡每層輸入通道數；操作主要有以下幾種：卷積、極致的Ⅰnception以及平均池化；輸出步長表示輸入圖像與當前特征圖大小的比值；Count 表示輸出通道數；n表示該層重復次數；Stride表示卷積的步幅。

表1 DeepLabV3+主干網絡Xception結構Table 1 DeepLabV3+ backbone network Xception structure

Xception中極致的Ⅰnception模塊的輸出卷積圖，設Stride為1，padding如（1）所示：

其計算量為：DK×DK×M×N×DF×DF，M表示輸入通道數，N表示輸出通道數，DK表示卷積核大小，DF表示輸出特征圖大小。

MobileNetV2 的深度可分離卷積對每個通道使用一種卷積核，padding可以寫為：

其計算量為：DK×DK×M×DF×DF，經過逐點卷積以后，深度可分離卷積的計算量變為：DK×DK×M×DF×DF+M×N×DF×DF。分析兩者計算量可得：MobileNetV2相較于Xception少了8~9倍的計算量。

為了進一步提高實時性，且使MobileNetV2更加契合分割任務，在MobileNetV2 的基礎上截取其前八層，以減少特征圖的通道數量，從而降低資源消耗，提高實時性。將MobileNetV2 七層和八層的普通卷積換為空洞卷積，并把第七層的步長改為1。優化后的Mobile-NetV2網絡結構如表2所示。

表2 優化后的MobileNetV2網絡各層結構Table 2 Ⅰmproved layer structure of MobileNetV2 networks

其釋義與表1相同。對比表1和表2可得出以下結論：

（1）DeepLabV3+模型原有主干結構Xception 的通道數最高可達2 048，而改進后的MobileNetV2 模塊各層通道數明顯減少，最高僅達到320，因此能極大地減少開銷，增加實時性。

（2）Xception模塊計算過程零散，特征提取效率較低，而改進后的MobileNetV2模塊層數相對較少，計算過程相對聚集，可以更快收斂，有助于網絡的遷移和訓練。

因此，采用MobileNetV2作為PLM的主干網絡更符合自動駕駛高精度、低消耗和高實時性的要求。

1.3 并行特征處理結構

自動駕駛過程中有大量不規則圖像數據需要處理，因此高精度和實時性都需要得到更好的保障，以此保證駕駛安全。為此PLM引入了雙注意力機制，計算分配注意力權重以指導特征學習，在極大增加模型特征表達能力的同時，重點關注重要特征和類別，抑制非必要的特征與類別。并將雙注意力模塊與ASPP并行放置組成并行特征處理結構，使PLM在保留ASPP模塊多個比例捕捉圖像信息的同時，選擇性地聚合每個位置的特征以及再分配卷積信道之間的資源。圖2為并行特征處理結構圖。

圖2 并行特征處理結構圖Fig.2 Parallel feature extraction structure diagram

位置注意力模塊（position attention module，PAM）計算過程如下式：

最終輸出特征Pj除了其原始特征外，還聚合了特征圖位置的特征，使得網絡即使沒有學習到新的特征也不會丟失原始特征信息。

信道注意力模塊（channel attention module，CAM）計算過程表示如下式：

每個卷積核對應通道的最終結果特征Pj是所有通道的特征與從原始骨干網獲得的局部特征的集成。CAM可以利用所有通道的空間信息之間的相關性和依賴性來重新調整特征圖，以增強特征的可辨別性。

綜上所述，PLM 模型通過雙注意力機制模塊和ASPP模塊，可以更有效地學習環境特征，提高圖像的分割精度，從而更好地保障自動駕駛行駛安全。

2 實驗設計與結果分析

2.1 實驗環境及參數設置

實驗采用公開數據集Cityscapes，使用深度學習框架Pytorch，實驗的軟硬件配置如表3所示。

表3 實驗軟硬件配置Table 3 Experimental hardware and software configuration

2.2 定量評估指標

使用平均交并比（mⅠoU）、類別平均像素準確率（MPA）、時延（latency）作為定量指標。下面分別對這三個指標進行介紹。

（1）平均交并比（mⅠoU）

該指標分別對每個標注類別計算其交并比（ⅠoU），然后再求所有類別的交并比的平均值。mⅠoU的值越大，代表分割精度越高。mⅠoU的計算公式如式（7）所示：

（2）類別平均像素準確率（MPA）

MPA 分別對每個標注類別計算像素準確率，然后再對所有類別的像素準確率求均值。MPA 的值越大，圖像分割性能越好。MPA的計算公式如式（8）所示：

（3）時延（latency）

在表3所列的軟硬件配置下，模型對圖像進行分割的平均耗時。

2.3 實驗設計

實驗設計共分為三個部分：

（1）分析模型整體結構，對不同模型結構進行對比分析。

（2）為了驗證改進后的網絡模型分割性能，在相同的實驗環境下，對改進前后的模型進行對比。

（3）將PLM 與近年來提出的經典語義分割模型進行定量對比。

2.3.1 模型結構分析

模型的結構、各模塊間的相互位置以及模型的參數都會嚴重影響最終的分割效果。因此本小節針對以上這些影響因素進行了對比實驗及分析，具體如下：

（1）DAM模塊與ASPP模塊的連接方式會直接影響模型對特征的提取效果，進而影響最終分割結果的準確性。表4是兩個模塊不同連接方式的對比。

表4 不同方式連接DAM與ASPP的性能對比Table 4 Comparison of DAM and ASPP performance under different connections

由表4 可知，無論DAM 與ASPP 是串聯還是并聯，對模型性能都有促進作用，且并聯結構性能優于串聯結構。當Stride 為8 時，DAM 對網絡的提升比Stride 為16時更加明顯。所以PLM選擇Stride為8的并聯結構。

（2）ASPP 模塊的rate 值會直接影響空洞卷積中各個元素之間的距離，進而影響分割精準度，而模型的參數量也會受到ASPP 通道數量的影響。因此，為了降低消耗、提高實時性，對ASPP中的rate組合和通道數量進行了實驗，如表5所示。

表5 ASPP不同rate值下性能對比Table 5 ASPP performance comparison of different rates

由表5可知，rate值的改變對模型性能影響不大，而通道數量對模型性能有較大影響。當通道數從256 減少為128 時，模型性能稍有下降，但參數量僅為原參數量的二分之一，使得所占用的系統資源和時間也極大減少。通過分析實驗數據可得，當rate為1、6、12、18，通道數為128時，PLM整體性能最好。

2.3.2 模塊性能分析

為了更好地體現PLM 各模塊的作用，實驗中將模型分為三類，分別是Xception+ASPP（DeeplabV3+）、MobileNetV2+ASPP 以及MobileNetV2+PFES（PLM），并對這三類模型分別進行比較和分析。

PLM在Cityscapes數據集上進行訓練時，其損失函數和mⅠoU的變化分別如圖3、4所示。

圖3 損失函數變化曲線Fig.3 Loss function change curve

由圖3 所知，損失值在40 輪迭代后趨于穩定，其中MobileNetv2+ASPP 模型最終損失值最大，PLM 次之，而Xception+ASPP模型最終損失值最小。同時分析圖4可以得出，在Cityscapes 數據集上，MobileNetV2+ASPP模型mⅠoU 達到了70.59%，Xception+ASPP 模型達到了74.35%。而在此基礎上，通過并行特征提取結構以及MobileNetV2 模塊用很小的計算代價使mⅠoU 提升到73.61%。

圖4 mⅠoU變化曲線Fig.4 mⅠoU change curve

表6是三種模型在分割精度、存儲空間以及平均時延等三個方面的實驗對比數據。從表6 可知，PLM 模型相比MobileNetV2+ASPP模型mⅠoU提升了3.02個百分點。而在存儲空間和平均時延方面，PLM 比Mobile-NetV2+ASPP 模型多了55.94 MB 的存儲空間和7 ms 的時延，比Xception+ASPP 模型減少3 083.26 MB 的存儲空間和225 ms的時延。

表6 三種模型性能指標對比Table 6 Comparison of performance indicators of three models

結合圖3、4 以及表6 分析可知，使用MobileNetV2作為主干模型可以在保持精度的同時，大幅度減少模型參數量、時延和系統性能消耗，提高了實時性。并且本文所提出的并行特征提取結構對模型的分割精度和整體性能都有較大提升。

2.3.3 本文模型與經典模型的定量對比

將PLM與FCN、DFN 和PSPNet[21]等模型在分割精度與實時性方面進行定量對比。在Cityscapes 數據集下，不同模型得到的mⅠoU、類別平均像素準確率和時延結果，如表7所示。

表7 本文模型與經典模型對比Table 7 Comparison of proposed model with classical model

在對比實驗中，統一輸入圖像像素為512×512，DeeplabV3+、MobileNetV2+ASPP以及PLM的mⅠoU分別排在第3、4、6名，但在實時性要求（＞30 FPS）和時延方面，MobileNetV2+ASPP和PLM表現優于其他模型。表7中mⅠoU最高的是PSPNet模型，但其時延高達3 384 ms，實時幀率僅0.3，DFN 也是如此，時延高達1 248 ms，這都遠遠達不到實時處理要求。而PLM 能夠將mⅠoU 保持在73.61%的情況下，達到39.7 FPS 的實時幀率，所消耗的時間僅為PSPNet的0.74%，DFN的2.00%。且對于其他經典模型，無論是在分割精度還是實時處理方面，PLM 模型都更為出色。因此，PLM 模型更適用于自動駕駛這種需要兼顧高精度和高實時性的復雜情形。

3 總結

本文設計了輕量級交通場景圖像分割模型PLM，該模型能在保證語義分割高精度的情況下，極大地減少模型參數量以及語義分割所消耗的系統資源與時間。首先，使用MobileNetV2 進行初級特征處理，精簡上采樣過程，有效減少網絡參數量，以便于網絡遷移和訓練；然后，引入雙注意力機制選擇性地聚合每個位置的特征，并再分配卷積信道之間的資源，最后設計并行特征提取結構，多個比例捕捉圖像信息，更有效地學習環境特征。實驗結果表明，PLM模型在Cityscapes數據集下mⅠoU 達到73.61%，處理一張512×512 的圖片僅需25 ms，相較于傳統語義分割模型極大地減少了網絡參數量與消耗時間。