基于視覺Transformer 的多級特征聚合圖像語義分割方法

2023-10-31 09:39:54孔玲君鄭斌軍

智能計(jì)算機(jī)與應(yīng)用 2023年10期

關(guān)鍵詞：語義

孔玲君，鄭斌軍

（1 上海出版印刷高等?？茖W(xué)校，上海 200093； 2 上海理工大學(xué) 出版印刷與藝術(shù)設(shè)計(jì)學(xué)院，上海 200093）

0 引言

語義分割是計(jì)算機(jī)視覺領(lǐng)域的一個重要的研究任務(wù)，具有廣泛的應(yīng)用，如自動駕駛、視頻監(jiān)控、增強(qiáng)現(xiàn)實(shí)、機(jī)器人技術(shù)等等。語義分割通過給圖像的每個像素分配語義標(biāo)簽，進(jìn)而為目標(biāo)任務(wù)提供高級圖像表示，如在自動駕駛場景中識別行人和車輛以進(jìn)行規(guī)避。 Long 等人［1］開創(chuàng)性地使用完全卷積網(wǎng)絡(luò)（Full Convolutional Network，F(xiàn)CN）進(jìn)行圖像語義分割任務(wù)，并取得良好的效果，這激發(fā)了許多后續(xù)的工作，并成為語義分割的主要范式。

圖像分類與語義分割有著密切的聯(lián)系，許多先進(jìn)的語義分割框架是在ImageNet 上流行的圖像分類體系結(jié)構(gòu)的變種。因此，主干框架設(shè)計(jì)一直是語義分割的重要活躍領(lǐng)域。從早期的VGG［2］到具有更深層、更強(qiáng)大的主干方法，主干網(wǎng)絡(luò)的進(jìn)步極大地推動了語義分割性能的提升。通過可學(xué)習(xí)的堆疊卷積，可以捕獲語義豐富的信息。然而，卷積濾波器的局部性質(zhì)限制了對圖像中的全局信息的分享，但這些信息對圖像分割十分重要。為了避免這個問題，F(xiàn)isher 等人［3］引入了擴(kuò)張卷積，通過在內(nèi)核上“膨脹”空洞來增加感受野；Chen 等人［4］更進(jìn)一步地使用具有空洞卷積和空洞空間金字塔池化進(jìn)行特征聚合，擴(kuò)大卷積網(wǎng)絡(luò)的感受野并獲得多尺度的特征。

自Transformer 網(wǎng)絡(luò)在自然語言領(lǐng)域取得巨大成功后，研究人員開始嘗試將Transformer 網(wǎng)絡(luò)引入視覺任務(wù)中，Dosovitskiy 等人［5］提出了用于圖像分類的視覺Transformer（Vision Transformer，VIT），按照NLP中的轉(zhuǎn)換器設(shè)計(jì)，把原始圖像分割成多個切片，展平成序列，輸入到標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)中，最后使用全連接層對圖片進(jìn)行分類，在ImageNet 上獲得了令人印象深刻的性能表現(xiàn)。 VIT 雖然擁有良好的性能，但是也存在一些不足，如：需要龐大的訓(xùn)練數(shù)據(jù)集；對于高分辨率圖像，計(jì)算成本高等。為了突破上述局限，Hugo 等人［6］提出了一種基于蒸餾的訓(xùn)練策略Deit，僅使用120 萬張圖像就可實(shí)現(xiàn)高效訓(xùn)練，并取得良好的表現(xiàn)。 Wang 等人［7］提出一種用于密集預(yù)測的金字塔視覺Transformer（Pyramid Vision Transformer，PVT），可以顯著減少計(jì)算量，并且在語義分割方面有很大的改進(jìn)。然而，包括Cswin［8］、Swin Transformer［9］等新的方法均著重考慮編碼器設(shè)計(jì)部分，卻忽略了解碼器部分對進(jìn)一步提升性能的貢獻(xiàn)。

基于此，本文提出了一種基于視覺Transformer的多級特征聚合圖像語義分割方法（Multilevel Feature Aggregation with Vision Transformer，MFAVT），將原始圖像分割成切片后，使用線性切片嵌入作為Transformer 網(wǎng)絡(luò)編碼器的輸入序列；解碼器將編碼器生成的上下文詞符序列上采樣到逐像素類分?jǐn)?shù)。關(guān)鍵思想是利用Transformer 網(wǎng)絡(luò)的感應(yīng)特性，即較低層注意力傾向停留在局部，而高層的注意則高度非局部。通過聚合來自不同層的信息，解碼器結(jié)合了來自局部和全局的注意，從而有效地提升分割精度，實(shí)現(xiàn)分割目標(biāo)。

1 MFAVT

MFAVT 主要由編碼器和解碼器模塊組成，模型結(jié)構(gòu)如圖1 所示。在編碼器部分，是將圖像分塊并投影到一系列嵌入位置，并使用Transformer 網(wǎng)絡(luò)進(jìn)行編碼；解碼器部分，是將編碼器的輸出作為輸入進(jìn)行多層聚合，來預(yù)測分割掩膜。

圖1 MFAVT 結(jié)構(gòu)示意圖Fig.1 The illustration of MFAVT

1.1 編碼器

標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)編碼器接收一維的序列詞符作為輸入，但二維圖像和一維序列之間存在不匹配的問題，因此需要將二維圖像重塑為一維序列。具體而言，將輸入圖像x∈?H×W×C分割成一系列切片x ＝[x1，…，xN] ∈?N×P2×C。其中，（H，W）是原始圖像的分辨率，C是圖像的通道數(shù)，（P，P）是每個圖像切片的分辨率，N ＝HW／P2是生成的切片數(shù)量，且是transformer 有效序列輸入長度。將每個切片展平為一個序列，使用線性投影函數(shù)將其映射到切片嵌入，得到圖像X的一維切片嵌入序列x0＝[Ex1，…，ExN] ∈?N×D，其中E∈?D×(P2C)。為了對切片的空間信息進(jìn)行編碼，添加一個可學(xué)習(xí)的位置嵌入p ＝[p1，…，pN] ∈?N×D到序列切片中，以形成最終的輸入序列g(shù)0＝x0＋p。

以一維嵌入序列g(shù)0作為輸入，采用基于純transformer［10］網(wǎng) 絡(luò) 的編碼器學(xué) 習(xí) 特征表示。Transformer 網(wǎng)絡(luò)層由多頭自注意力（Multi-head Self-attention， MSA）塊和多層感知器（Multilayer Perception，MLP）塊組成。在每個塊之前使用層歸一化（Layer Normalization， LN），在每個塊之后添加殘差鏈接，計(jì)算過程如式（1）所示。

其中，i∈｛1，…，L｝。

MSA 由多個獨(dú)立的SA 操作組成，并投射其級聯(lián)輸出。自注意力層通過查詢（Query）與鍵（Key）-值（Value）對之間的交互，實(shí)現(xiàn)信息的動態(tài)聚合。對輸入序列，通過線性映射矩陣將其映射到Q、K、V（Q，K，V∈?N×D）3 個向量，計(jì)算Q和K間的相似度，并對V進(jìn)行加權(quán)處理。自注意力計(jì)算公式如式（2）所示：

Transformer 網(wǎng)絡(luò)編碼器將帶位置信息的切片嵌入連續(xù)序列g(shù)0＝［g0，1， …，g0，N］，編碼成一個供解碼器使用的、帶有豐富語義信息的序列g(shù)L ＝［gL，1， …，gL，N］。

1.2 解碼器

解碼器的目標(biāo)是將切片編碼序列g(shù)L∈?N×D解碼成分割圖Seg∈?H×W×K。其中，K是類別數(shù)量。解碼器來自編碼器的切片級編碼映射到切片級別類分?jǐn)?shù)，通過雙線性插值將這些切片級別的類分?jǐn)?shù)向上采樣到像素級別的分?jǐn)?shù)。下面將描述一個線性解碼器作為基線對比，以及介紹MFAVT 解碼器。

（1）線性解碼器：首先使用了一個逐點(diǎn)線性層（1× 1 卷積＋同步批歸一化（ReLU）＋1 × 1 卷積）將Transformer 網(wǎng)絡(luò)特征gL∈?N×D投影到切片類維度gbas∈?N×K（例如對Pascal Context 數(shù)據(jù)集是59），然后將序列重整為二維特征圖Segbas∈?H／P×W／P×K并雙線性上采樣到原始圖像大小Seg∈?H×W×K，最后在類維度上應(yīng)用一個像素級交叉熵?fù)p失的分類層。當(dāng)使用這種解碼器時，稱其為Seg-Basic。

（2）MFAVT 解碼器：采用多級特征融合的方式設(shè)計(jì)編碼器，核心思想類似于特征金字塔網(wǎng)絡(luò)。具體地說，將Transformer 網(wǎng)絡(luò)編碼器的特征表示均勻分布在4 層中，到達(dá)解碼器；然后部署4 個流，每個流聚焦于一個特定的選定層；在每個流中，將特征編碼從2D 特征轉(zhuǎn)換為3D 特征采用3 層（卷積核大小為1×1、3×3 和3×3）網(wǎng)絡(luò)，第一層和第三層分別將特征通道減半，第三層之后通過雙線性運(yùn)算將空間分辨率提升4 倍，通過元素添加引入自上而下的聚合設(shè)計(jì)，來增強(qiáng)不同流之間的交互；按元素添加后，再使用一個3×3 卷積；最后使用通道級聯(lián)獲得所有流的融合特征，通過4 倍雙線性上采樣操作恢復(fù)圖像到原始分辨率，形成最終的分割圖。當(dāng)使用這種解碼器時，稱其為Seg-MFAVT。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集

實(shí)驗(yàn)在3 個公開數(shù)據(jù)集上進(jìn)行。其中，ADE20K［11］是最具挑戰(zhàn)性的語義分割數(shù)據(jù)集之一，該訓(xùn)練集包含20 210 幅圖像，150 個語義類。驗(yàn)證集和測試集分別包含2 000 和3 352 幅圖像。 Pascal Context［12］數(shù)據(jù)集為整個場景提供像素級語義標(biāo)簽，包含4 998（最常見的59 個類和背景類）和5 105 張用于訓(xùn)練和驗(yàn)證的圖像。 Cityscapes［13］數(shù)據(jù)集側(cè)重于從汽車角度對城市街道場景進(jìn)行語義理解。該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集，分別有2 975、500 和1 525張圖像；注釋包括30 個類，其中19 類用于語義分割任務(wù)；數(shù)據(jù)集的圖像具有2 048×1 024 的高分辨率，本文實(shí)驗(yàn)采用其中的精細(xì)標(biāo)注圖像數(shù)據(jù)集。

2.2 實(shí)驗(yàn)設(shè)置

2.2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)運(yùn)行環(huán)境為Win10 專業(yè)版操作系統(tǒng)，處理器為Intel Core i9-9900k，內(nèi)存32 GB，圖形處理卡為一張Nvidia GeForce GTX1080 Ti（11 GB），Cuda版本為 10.2，數(shù) 據(jù) 處理使用 Python3.6 和Matlab2020a。

2.2.2 數(shù)據(jù)增強(qiáng)

訓(xùn)練期間，遵循語義分割庫MMSegmentation［14］中的標(biāo)準(zhǔn)流程，使用比例因子（0.5、0.75、1.0、1.25、1.5、1.75）對圖像執(zhí)行多比例縮放以及隨機(jī)的水平翻轉(zhuǎn)。隨機(jī)裁剪大圖像，并將小圖像填充到固定尺寸大?。篈DE20K 為512×512，Pascal Context 為480×480，Cityscapes 為768×768。輔助分割損失有助于模型訓(xùn)練，每個輔助損失頭遵循2 層網(wǎng)絡(luò)，輔助損失和主損失頭共同使用，此外在解碼器和輔助損失頭使用同步批歸一化操作。

2.2.3 優(yōu)化

使用標(biāo)準(zhǔn)的像素級交叉熵?fù)p失對語義分割任務(wù)的預(yù)訓(xùn)練模型進(jìn)行微調(diào)，而無需重新平衡權(quán)重。使用隨機(jī)梯度下降（SGD）［15］作為優(yōu)化器，基本學(xué)習(xí)率β0，并將權(quán)重衰減設(shè)置為0。采用“poly”學(xué)習(xí)率衰減其中Niter和Ntotal表示當(dāng)前迭代次數(shù)和總迭代次數(shù)。對于ADE20K，其基本學(xué)習(xí)率β0設(shè)置為10-4，并以16 個批量進(jìn)行160 K 次迭代；Pascal Context，將β0設(shè)置為10-4，并訓(xùn)練160 K迭代，批量大小為16；Cityscapes，將β0設(shè)置為10-3，并以8 的批量進(jìn)行160 K 迭代。

2.2.4 預(yù)訓(xùn)練

使用VIT［5］和Deit［6］（一種VIT 的變體）提供的預(yù)訓(xùn)練權(quán)重，初始化模型中的所有Transformer 網(wǎng)絡(luò)層和輸入線性投影層。將Seg-MFAVT-Deit 表示為利用Deit 中預(yù)訓(xùn)練模型的同時，使用MFAVT 作為解碼器。所有未經(jīng)預(yù)訓(xùn)練的層均隨機(jī)初始化。

2.2.5 推理

使用平均交并比（mean Intersection over Union，mIoU）作為語義分割性能的評估指標(biāo)。實(shí)驗(yàn)報告了單尺度（Single Scale，SS）和多尺度（Multi Scale，MS）推理。對于多尺度推理，使用比例因子（0.5、0.75、1.0、1.25、1.5、1.75）對圖像執(zhí)行多比例縮放和隨機(jī)水平翻轉(zhuǎn)。測試采用滑動窗口（例如，Pascal 上下文為480×480）。如果圖像尺寸的短邊長度小于滑動窗口，則在保持縱橫比的同時，將短邊長度調(diào)整為滑動窗口的大?。ɡ?80）。

2.3 消融實(shí)驗(yàn)

本節(jié)將在Cityscapes 驗(yàn)證集上進(jìn)行消融實(shí)驗(yàn)，評估了Transformer 網(wǎng)絡(luò)層大小、補(bǔ)丁大小、預(yù)訓(xùn)練集數(shù)據(jù)大小、模型性能、與FCN 卷積網(wǎng)絡(luò)的比較，并驗(yàn)證了不同的解碼器。除非另有說明，否則使用8批次處理，80 K 迭代次數(shù)，并使用單尺度推斷報告結(jié)果。表1 中“R”代表隨機(jī)初始化權(quán)重。

表1 不同分割模型變體的性能比較Tab.1 Performance of different segmentation variants

觀察表1 中數(shù)據(jù)，可以得出如下結(jié)論：

（1）Seg-MFAVT-Deit 在所有的變體中取得了最佳的性能表現(xiàn)。

（2）使用T-large 的變體優(yōu)于T-base 的對照物，這與實(shí)驗(yàn)預(yù)期一樣，即Transformer 網(wǎng)絡(luò)層數(shù)加深會相對應(yīng)的增強(qiáng)模型性能。如：Seg-MFAVT 使用的主干網(wǎng)絡(luò)（Backbone）從T-base 轉(zhuǎn)換到T-large，獲得了1.92%的提升。

（3）切片尺寸（patch size）是語義分割性能的關(guān)鍵因素，切片尺寸從32 到16，Seg-MFAVT 提高了0.72%?？梢?，當(dāng)圖像用切片表示時，較大的切片尺寸會使模型獲得有意義的全局分割，但是會產(chǎn)生較差的邊界；而使用較小的切片尺寸會使圖像邊界更清晰。這一結(jié)果表明，減少切片尺寸是一個能夠獲得強(qiáng)大性能的改進(jìn)來源，其不會引入任何參數(shù)，但是需要在更長的序列中計(jì)算注意力，從而增加計(jì)算時間和成本。

（4）預(yù)訓(xùn)練模型對于模型性能的表現(xiàn)至關(guān)重要。隨機(jī)初始化權(quán)重的Seg-MFAVT 只達(dá)到了44.14%MIoU，顯著低于其它變體。在Imagenet-1K 上用Deit預(yù)先訓(xùn)練好的模型略優(yōu)于在Imagenet-21K 上用VIT預(yù)先訓(xùn)練出的模型。

（5）為了與FCN 基線進(jìn)行公平比較，使用分類任務(wù)，在Imagenet-21K 和1K 上對Resnet101 進(jìn)行預(yù)訓(xùn)練，然后在Cityscapes 上采用預(yù)訓(xùn)練權(quán)重進(jìn)行FCN 訓(xùn)練。與在Imagenet-1K 上的預(yù)訓(xùn)練變體相比，在Imagenet-21K 上預(yù)訓(xùn)練的FCN 基線得到了明顯地改善。但是，本文方法在很大程度上優(yōu)于FCN 方法，體現(xiàn)了所提出的多層聚合策略方法的有效性，而不是更大的預(yù)訓(xùn)練數(shù)據(jù)。

2.4 對比分析

為了驗(yàn)證MFAVT 的有效性與先進(jìn)性，將MFAVT 與一些對比方法在Cityscapes、ADE20K 和Pascal Context 數(shù)據(jù)集上進(jìn)行性能比較。測試結(jié)果在表2～表4 中進(jìn)行展示。在數(shù)據(jù)可視化中，為方便直觀地展現(xiàn)分割效果，將分割結(jié)果圖與原圖像進(jìn)行疊加并采用一定的透明化處理，以DeeplabV3＋分割結(jié)果代表其他方法作為錨定參照對象，與MFAVT分割結(jié)果進(jìn)行突出化對比，結(jié)果如圖2～圖4 所示。

表2 在ADE20K 驗(yàn)證集上的性能表現(xiàn)Tab.2 Performance comparison on ADE20K validation set

圖2 在ADE20K 上定性的可視化結(jié)果Fig.2 Qualitative visualization results on ADE20K

表2 展示了在最具挑戰(zhàn)性的ADE20K 數(shù)據(jù)集上的結(jié)果，Seg-MFAVT 在單尺度推理下（SS），取得了48.01%的mIoU 分?jǐn)?shù)，在多尺度推理（MS）下取得了最佳的49.97%的mIoU 分?jǐn)?shù)，優(yōu)于所有的卷積網(wǎng)絡(luò)方法，比DeeplabV3＋的mIoU 分?jǐn)?shù)高出3.58%。圖2展示了在ADE20K 上定性的可視化結(jié)果。

表3 比較了在Pascal Context 上的分割結(jié)果。在單尺度推理時，Seg-MFAVT 得到了54.16%的mIoU 分?jǐn)?shù)，而在多尺度推理時獲得了最佳的55.43%mIoU 分?jǐn)?shù)，超過了所有FCN 方法。與最有競爭力的APCNet 相比，mIoU 分?jǐn)?shù)提高了0.73%。圖3 展示了在Pascal Context 上定性的可視化結(jié)果。

表3 在Pascal Context 驗(yàn)證集上的性能表現(xiàn)Tab.3 Performance comparison on Pascal Context validation set

圖3 在Pascal Context 上定性的可視化結(jié)果Fig.3 Qualitative visualization results on Pascal Context

在Cityscapes 驗(yàn)證集上的比較結(jié)果見表4。 Seg-MFAVT 在單尺度推理下取得了79.42%的mIoU 分?jǐn)?shù)，而在多尺度推理下取得了令人印象深刻的82.03%mIoU 分?jǐn)?shù)。需要注意的是相比于一些方法在訓(xùn)練中采用全尺寸圖像分辨率（2 048×1 024）輸入，MFAVT 的圖像輸入尺寸為768×768，訓(xùn)練過程有一定劣勢，但最終的性能表現(xiàn)超過了其他有競爭力的方法。與DeeplabV3＋相比提高了2.71%mIoU，與最有競爭力的DNL 相比提高了1.53%mIoU。圖4展示了在Cityscapes 上定性的可視化結(jié)果。

表4 在Cityscapes 驗(yàn)證集上的性能表現(xiàn)Tab.4 Performance comparison on Cityscapes validation set

3 結(jié)束語

本文介紹了一種基于視覺Transformer 的序列到序列的分割方法，為語義分割任務(wù)提供了一種新的視角。現(xiàn)有的基于FCN 的方法通常使用擴(kuò)張卷積和注意力模塊來擴(kuò)大感受野，與之相比，本文的編碼器部分采用當(dāng)下流行的視覺Transformer 主干網(wǎng)絡(luò)，對圖像切片進(jìn)行編碼。基于視覺Transformer 的編碼器很好地建模了全局上下文信息，隨著一組不同的復(fù)雜性的解碼器設(shè)計(jì)，建立了強(qiáng)大的分割模型。簡單的線性解碼器就取得了非常好的效果，使用MFAVT 進(jìn)行解碼進(jìn)一步提高了性能。大量的實(shí)驗(yàn)表明，本文方法在 ADE20K、 Pascal Context 和Cityscapes 數(shù)據(jù)集測試上展示了最佳的性能表現(xiàn)。