999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺Transformer 的多級特征聚合圖像語義分割方法

2023-10-31 09:39:54孔玲君鄭斌軍
關(guān)鍵詞:語義

孔玲君, 鄭斌軍

(1 上海出版印刷高等??茖W(xué)校, 上海 200093; 2 上海理工大學(xué) 出版印刷與藝術(shù)設(shè)計(jì)學(xué)院, 上海 200093)

0 引 言

語義分割是計(jì)算機(jī)視覺領(lǐng)域的一個重要的研究任務(wù),具有廣泛的應(yīng)用,如自動駕駛、視頻監(jiān)控、增強(qiáng)現(xiàn)實(shí)、機(jī)器人技術(shù)等等。 語義分割通過給圖像的每個像素分配語義標(biāo)簽,進(jìn)而為目標(biāo)任務(wù)提供高級圖像表示, 如在自動駕駛場景中識別行人和車輛以進(jìn)行規(guī)避。 Long 等人[1]開創(chuàng)性地使用完全卷積網(wǎng)絡(luò)(Full Convolutional Network,F(xiàn)CN)進(jìn)行圖像語義分割任務(wù),并取得良好的效果,這激發(fā)了許多后續(xù)的工作,并成為語義分割的主要范式。

圖像分類與語義分割有著密切的聯(lián)系,許多先進(jìn)的語義分割框架是在ImageNet 上流行的圖像分類體系結(jié)構(gòu)的變種。 因此,主干框架設(shè)計(jì)一直是語義分割的重要活躍領(lǐng)域。 從早期的VGG[2]到具有更深層、更強(qiáng)大的主干方法,主干網(wǎng)絡(luò)的進(jìn)步極大地推動了語義分割性能的提升。 通過可學(xué)習(xí)的堆疊卷積,可以捕獲語義豐富的信息。 然而,卷積濾波器的局部性質(zhì)限制了對圖像中的全局信息的分享,但這些信息對圖像分割十分重要。 為了避免這個問題,F(xiàn)isher 等人[3]引入了擴(kuò)張卷積,通過在內(nèi)核上“膨脹”空洞來增加感受野;Chen 等人[4]更進(jìn)一步地使用具有空洞卷積和空洞空間金字塔池化進(jìn)行特征聚合,擴(kuò)大卷積網(wǎng)絡(luò)的感受野并獲得多尺度的特征。

自Transformer 網(wǎng)絡(luò)在自然語言領(lǐng)域取得巨大成功后,研究人員開始嘗試將Transformer 網(wǎng)絡(luò)引入視覺任務(wù)中,Dosovitskiy 等人[5]提出了用于圖像分類的視覺Transformer(Vision Transformer,VIT),按照NLP中的轉(zhuǎn)換器設(shè)計(jì),把原始圖像分割成多個切片,展平成序列,輸入到標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)中,最后使用全連接層對圖片進(jìn)行分類,在ImageNet 上獲得了令人印象深刻的性能表現(xiàn)。 VIT 雖然擁有良好的性能,但是也存在一些不足,如:需要龐大的訓(xùn)練數(shù)據(jù)集;對于高分辨率圖像,計(jì)算成本高等。 為了突破上述局限,Hugo 等人[6]提出了一種基于蒸餾的訓(xùn)練策略Deit,僅使用120 萬張圖像就可實(shí)現(xiàn)高效訓(xùn)練,并取得良好的表現(xiàn)。 Wang 等人[7]提出一種用于密集預(yù)測的金字塔視覺Transformer(Pyramid Vision Transformer,PVT),可以顯著減少計(jì)算量,并且在語義分割方面有很大的改進(jìn)。 然而,包括Cswin[8]、Swin Transformer[9]等新的方法均著重考慮編碼器設(shè)計(jì)部分,卻忽略了解碼器部分對進(jìn)一步提升性能的貢獻(xiàn)。

基于此,本文提出了一種基于視覺Transformer的多級特征聚合圖像語義分割方法(Multilevel Feature Aggregation with Vision Transformer,MFAVT),將原始圖像分割成切片后,使用線性切片嵌入作為Transformer 網(wǎng)絡(luò)編碼器的輸入序列;解碼器將編碼器生成的上下文詞符序列上采樣到逐像素類分?jǐn)?shù)。 關(guān)鍵思想是利用Transformer 網(wǎng)絡(luò)的感應(yīng)特性,即較低層注意力傾向停留在局部,而高層的注意則高度非局部。 通過聚合來自不同層的信息,解碼器結(jié)合了來自局部和全局的注意,從而有效地提升分割精度,實(shí)現(xiàn)分割目標(biāo)。

1 MFAVT

MFAVT 主要由編碼器和解碼器模塊組成,模型結(jié)構(gòu)如圖1 所示。 在編碼器部分,是將圖像分塊并投影到一系列嵌入位置,并使用Transformer 網(wǎng)絡(luò)進(jìn)行編碼;解碼器部分,是將編碼器的輸出作為輸入進(jìn)行多層聚合,來預(yù)測分割掩膜。

圖1 MFAVT 結(jié)構(gòu)示意圖Fig.1 The illustration of MFAVT

1.1 編碼器

標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)編碼器接收一維的序列詞符作為輸入,但二維圖像和一維序列之間存在不匹配的問題,因此需要將二維圖像重塑為一維序列。 具體而言,將輸入圖像x∈?H×W×C分割成一系列切片x =[x1,…,xN] ∈?N×P2×C。 其中,(H,W)是原始圖像的分辨率,C是圖像的通道數(shù),(P,P) 是每個圖像切片的分辨率,N =HW/P2是生成的切片數(shù)量,且是transformer 有效序列輸入長度。 將每個切片展平為一個序列,使用線性投影函數(shù)將其映射到切片嵌入, 得到圖像X的一維切片嵌入序列x0=[Ex1,…,ExN] ∈?N×D,其中E∈?D×(P2C)。 為了對切片的空間信息進(jìn)行編碼,添加一個可學(xué)習(xí)的位置嵌入p =[p1,…,pN] ∈?N×D到序列切片中,以形成最終的輸入序列g(shù)0=x0+p。

以一維嵌入序列g(shù)0作為輸入,采用基于純transformer[10]網(wǎng) 絡(luò) 的 編 碼 器 學(xué) 習(xí) 特 征 表 示。Transformer 網(wǎng)絡(luò)層由多頭自注意力(Multi-head Self-attention, MSA)塊和多層感知器(Multilayer Perception,MLP)塊組成。 在每個塊之前使用層歸一化(Layer Normalization, LN),在每個塊之后添加殘差鏈接,計(jì)算過程如式(1)所示。

其中,i∈{1,…,L}。

MSA 由多個獨(dú)立的SA 操作組成,并投射其級聯(lián)輸出。 自注意力層通過查詢(Query)與鍵(Key)-值(Value)對之間的交互,實(shí)現(xiàn)信息的動態(tài)聚合。 對輸入序列, 通過線性映射矩陣將其映射到Q、K、V(Q,K,V∈?N×D)3 個向量,計(jì)算Q和K間的相似度,并對V進(jìn)行加權(quán)處理。 自注意力計(jì)算公式如式(2)所示:

Transformer 網(wǎng)絡(luò)編碼器將帶位置信息的切片嵌入連續(xù)序列g(shù)0=[g0,1, …,g0,N],編碼成一個供解碼器使用的、帶有豐富語義信息的序列g(shù)L =[gL,1, …,gL,N]。

1.2 解碼器

解碼器的目標(biāo)是將切片編碼序列g(shù)L∈?N×D解碼成分割圖Seg∈?H×W×K。 其中,K是類別數(shù)量。解碼器來自編碼器的切片級編碼映射到切片級別類分?jǐn)?shù),通過雙線性插值將這些切片級別的類分?jǐn)?shù)向上采樣到像素級別的分?jǐn)?shù)。 下面將描述一個線性解碼器作為基線對比,以及介紹MFAVT 解碼器。

(1)線性解碼器:首先使用了一個逐點(diǎn)線性層(1× 1 卷積+同步批歸一化(ReLU) +1 × 1 卷積)將Transformer 網(wǎng)絡(luò)特征gL∈?N×D投影到切片類維度gbas∈?N×K(例如對Pascal Context 數(shù)據(jù)集是59),然后將序列重整為二維特征圖Segbas∈?H/P×W/P×K并雙線性上采樣到原始圖像大小Seg∈?H×W×K,最后在類維度上應(yīng)用一個像素級交叉熵?fù)p失的分類層。 當(dāng)使用這種解碼器時,稱其為Seg-Basic。

(2)MFAVT 解碼器:采用多級特征融合的方式設(shè)計(jì)編碼器,核心思想類似于特征金字塔網(wǎng)絡(luò)。 具體地說,將Transformer 網(wǎng)絡(luò)編碼器的特征表示均勻分布在4 層中,到達(dá)解碼器;然后部署4 個流,每個流聚焦于一個特定的選定層;在每個流中,將特征編碼從2D 特征轉(zhuǎn)換為3D 特征采用3 層(卷積核大小為1×1、3×3 和3×3)網(wǎng)絡(luò),第一層和第三層分別將特征通道減半,第三層之后通過雙線性運(yùn)算將空間分辨率提升4 倍,通過元素添加引入自上而下的聚合設(shè)計(jì),來增強(qiáng)不同流之間的交互;按元素添加后,再使用一個3×3 卷積;最后使用通道級聯(lián)獲得所有流的融合特征,通過4 倍雙線性上采樣操作恢復(fù)圖像到原始分辨率,形成最終的分割圖。 當(dāng)使用這種解碼器時,稱其為Seg-MFAVT。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集

實(shí)驗(yàn)在3 個公開數(shù)據(jù)集上進(jìn)行。 其中,ADE20K[11]是最具挑戰(zhàn)性的語義分割數(shù)據(jù)集之一,該訓(xùn)練集包含20 210 幅圖像,150 個語義類。 驗(yàn)證集和測試集分別包含2 000 和3 352 幅圖像。 Pascal Context[12]數(shù)據(jù)集為整個場景提供像素級語義標(biāo)簽,包含4 998(最常見的59 個類和背景類)和5 105 張用于訓(xùn)練和驗(yàn)證的圖像。 Cityscapes[13]數(shù)據(jù)集側(cè)重于從汽車角度對城市街道場景進(jìn)行語義理解。 該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,分別有2 975、500 和1 525張圖像;注釋包括30 個類,其中19 類用于語義分割任務(wù);數(shù)據(jù)集的圖像具有2 048×1 024 的高分辨率,本文實(shí)驗(yàn)采用其中的精細(xì)標(biāo)注圖像數(shù)據(jù)集。

2.2 實(shí)驗(yàn)設(shè)置

2.2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)運(yùn)行環(huán)境為Win10 專業(yè)版操作系統(tǒng),處理器為Intel Core i9-9900k,內(nèi)存32 GB,圖形處理卡為一張Nvidia GeForce GTX1080 Ti(11 GB),Cuda版 本 為 10.2, 數(shù) 據(jù) 處 理 使 用 Python3.6 和Matlab2020a。

2.2.2 數(shù)據(jù)增強(qiáng)

訓(xùn)練期間,遵循語義分割庫MMSegmentation[14]中的標(biāo)準(zhǔn)流程,使用比例因子(0.5、0.75、1.0、1.25、1.5、1.75)對圖像執(zhí)行多比例縮放以及隨機(jī)的水平翻轉(zhuǎn)。 隨機(jī)裁剪大圖像,并將小圖像填充到固定尺寸大?。篈DE20K 為512×512,Pascal Context 為480×480,Cityscapes 為768×768。 輔助分割損失有助于模型訓(xùn)練,每個輔助損失頭遵循2 層網(wǎng)絡(luò),輔助損失和主損失頭共同使用,此外在解碼器和輔助損失頭使用同步批歸一化操作。

2.2.3 優(yōu)化

使用標(biāo)準(zhǔn)的像素級交叉熵?fù)p失對語義分割任務(wù)的預(yù)訓(xùn)練模型進(jìn)行微調(diào),而無需重新平衡權(quán)重。 使用隨機(jī)梯度下降(SGD)[15]作為優(yōu)化器,基本學(xué)習(xí)率β0,并將權(quán)重衰減設(shè)置為0。 采用“poly”學(xué)習(xí)率衰減其中Niter和Ntotal表示當(dāng)前迭代次數(shù)和總迭代次數(shù)。 對于ADE20K,其基本學(xué)習(xí)率β0設(shè)置為10-4,并以16 個批量進(jìn)行160 K 次迭代;Pascal Context,將β0設(shè)置為10-4,并訓(xùn)練160 K迭代,批量大小為16;Cityscapes,將β0設(shè)置為10-3,并以8 的批量進(jìn)行160 K 迭代。

2.2.4 預(yù)訓(xùn)練

使用VIT[5]和Deit[6](一種VIT 的變體)提供的預(yù)訓(xùn)練權(quán)重,初始化模型中的所有Transformer 網(wǎng)絡(luò)層和輸入線性投影層。 將Seg-MFAVT-Deit 表示為利用Deit 中預(yù)訓(xùn)練模型的同時,使用MFAVT 作為解碼器。 所有未經(jīng)預(yù)訓(xùn)練的層均隨機(jī)初始化。

2.2.5 推理

使用平均交并比(mean Intersection over Union,mIoU)作為語義分割性能的評估指標(biāo)。 實(shí)驗(yàn)報告了單尺度(Single Scale,SS)和多尺度(Multi Scale,MS)推理。 對于多尺度推理,使用比例因子(0.5、0.75、1.0、1.25、1.5、1.75)對圖像執(zhí)行多比例縮放和隨機(jī)水平翻轉(zhuǎn)。 測試采用滑動窗口(例如,Pascal 上下文為480×480)。 如果圖像尺寸的短邊長度小于滑動窗口,則在保持縱橫比的同時,將短邊長度調(diào)整為滑動窗口的大?。ɡ?80)。

2.3 消融實(shí)驗(yàn)

本節(jié)將在Cityscapes 驗(yàn)證集上進(jìn)行消融實(shí)驗(yàn),評估了Transformer 網(wǎng)絡(luò)層大小、補(bǔ)丁大小、預(yù)訓(xùn)練集數(shù)據(jù)大小、模型性能、與FCN 卷積網(wǎng)絡(luò)的比較,并驗(yàn)證了不同的解碼器。 除非另有說明,否則使用8批次處理,80 K 迭代次數(shù),并使用單尺度推斷報告結(jié)果。 表1 中“R”代表隨機(jī)初始化權(quán)重。

表1 不同分割模型變體的性能比較Tab.1 Performance of different segmentation variants

觀察表1 中數(shù)據(jù),可以得出如下結(jié)論:

(1)Seg-MFAVT-Deit 在所有的變體中取得了最佳的性能表現(xiàn)。

(2)使用T-large 的變體優(yōu)于T-base 的對照物,這與實(shí)驗(yàn)預(yù)期一樣,即Transformer 網(wǎng)絡(luò)層數(shù)加深會相對應(yīng)的增強(qiáng)模型性能。 如:Seg-MFAVT 使用的主干網(wǎng)絡(luò)(Backbone)從T-base 轉(zhuǎn)換到T-large,獲得了1.92%的提升。

(3)切片尺寸(patch size)是語義分割性能的關(guān)鍵因素,切片尺寸從32 到16,Seg-MFAVT 提高了0.72%??梢?,當(dāng)圖像用切片表示時,較大的切片尺寸會使模型獲得有意義的全局分割,但是會產(chǎn)生較差的邊界;而使用較小的切片尺寸會使圖像邊界更清晰。這一結(jié)果表明,減少切片尺寸是一個能夠獲得強(qiáng)大性能的改進(jìn)來源,其不會引入任何參數(shù),但是需要在更長的序列中計(jì)算注意力,從而增加計(jì)算時間和成本。

(4)預(yù)訓(xùn)練模型對于模型性能的表現(xiàn)至關(guān)重要。隨機(jī)初始化權(quán)重的Seg-MFAVT 只達(dá)到了44.14%MIoU,顯著低于其它變體。 在Imagenet-1K 上用Deit預(yù)先訓(xùn)練好的模型略優(yōu)于在Imagenet-21K 上用VIT預(yù)先訓(xùn)練出的模型。

(5)為了與FCN 基線進(jìn)行公平比較,使用分類任務(wù),在Imagenet-21K 和1K 上對Resnet101 進(jìn)行預(yù)訓(xùn)練,然后在Cityscapes 上采用預(yù)訓(xùn)練權(quán)重進(jìn)行FCN 訓(xùn)練。 與在Imagenet-1K 上的預(yù)訓(xùn)練變體相比,在Imagenet-21K 上預(yù)訓(xùn)練的FCN 基線得到了明顯地改善。 但是,本文方法在很大程度上優(yōu)于FCN 方法,體現(xiàn)了所提出的多層聚合策略方法的有效性,而不是更大的預(yù)訓(xùn)練數(shù)據(jù)。

2.4 對比分析

為了驗(yàn)證MFAVT 的有效性與先進(jìn)性,將MFAVT 與一些對比方法在Cityscapes、ADE20K 和Pascal Context 數(shù)據(jù)集上進(jìn)行性能比較。 測試結(jié)果在表2~表4 中進(jìn)行展示。 在數(shù)據(jù)可視化中,為方便直觀地展現(xiàn)分割效果,將分割結(jié)果圖與原圖像進(jìn)行疊加并采用一定的透明化處理,以DeeplabV3+分割結(jié)果代表其他方法作為錨定參照對象,與MFAVT分割結(jié)果進(jìn)行突出化對比,結(jié)果如圖2~圖4 所示。

表2 在ADE20K 驗(yàn)證集上的性能表現(xiàn)Tab.2 Performance comparison on ADE20K validation set

圖2 在ADE20K 上定性的可視化結(jié)果Fig.2 Qualitative visualization results on ADE20K

表2 展示了在最具挑戰(zhàn)性的ADE20K 數(shù)據(jù)集上的結(jié)果,Seg-MFAVT 在單尺度推理下(SS),取得了48.01%的mIoU 分?jǐn)?shù),在多尺度推理(MS)下取得了最佳的49.97%的mIoU 分?jǐn)?shù),優(yōu)于所有的卷積網(wǎng)絡(luò)方法,比DeeplabV3+的mIoU 分?jǐn)?shù)高出3.58%。 圖2展示了在ADE20K 上定性的可視化結(jié)果。

表3 比較了在Pascal Context 上的分割結(jié)果。在單尺度推理時,Seg-MFAVT 得到了54.16%的mIoU 分?jǐn)?shù),而在多尺度推理時獲得了最佳的55.43%mIoU 分?jǐn)?shù),超過了所有FCN 方法。 與最有競爭力的APCNet 相比,mIoU 分?jǐn)?shù)提高了0.73%。 圖3 展示了在Pascal Context 上定性的可視化結(jié)果。

表3 在Pascal Context 驗(yàn)證集上的性能表現(xiàn)Tab.3 Performance comparison on Pascal Context validation set

圖3 在Pascal Context 上定性的可視化結(jié)果Fig.3 Qualitative visualization results on Pascal Context

在Cityscapes 驗(yàn)證集上的比較結(jié)果見表4。 Seg-MFAVT 在單尺度推理下取得了79.42%的mIoU 分?jǐn)?shù),而在多尺度推理下取得了令人印象深刻的82.03%mIoU 分?jǐn)?shù)。 需要注意的是相比于一些方法在訓(xùn)練中采用全尺寸圖像分辨率(2 048×1 024)輸入,MFAVT 的圖像輸入尺寸為768×768,訓(xùn)練過程有一定劣勢,但最終的性能表現(xiàn)超過了其他有競爭力的方法。 與DeeplabV3+相比提高了2.71%mIoU,與最有競爭力的DNL 相比提高了1.53%mIoU。 圖4展示了在Cityscapes 上定性的可視化結(jié)果。

表4 在Cityscapes 驗(yàn)證集上的性能表現(xiàn)Tab.4 Performance comparison on Cityscapes validation set

3 結(jié)束語

本文介紹了一種基于視覺Transformer 的序列到序列的分割方法,為語義分割任務(wù)提供了一種新的視角。 現(xiàn)有的基于FCN 的方法通常使用擴(kuò)張卷積和注意力模塊來擴(kuò)大感受野,與之相比,本文的編碼器部分采用當(dāng)下流行的視覺Transformer 主干網(wǎng)絡(luò),對圖像切片進(jìn)行編碼。 基于視覺Transformer 的編碼器很好地建模了全局上下文信息,隨著一組不同的復(fù)雜性的解碼器設(shè)計(jì),建立了強(qiáng)大的分割模型。簡單的線性解碼器就取得了非常好的效果,使用MFAVT 進(jìn)行解碼進(jìn)一步提高了性能。 大量的實(shí)驗(yàn)表 明, 本 文 方 法 在 ADE20K、 Pascal Context 和Cityscapes 數(shù)據(jù)集測試上展示了最佳的性能表現(xiàn)。

猜你喜歡
語義
為什么字看久了就不認(rèn)識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
“吃+NP”的語義生成機(jī)制研究
“V+了+NP1+NP2”中V的語義指向簡談
認(rèn)知范疇模糊與語義模糊
“V+X+算+X”構(gòu)式的語義功能及語義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認(rèn)知語義分析
主站蜘蛛池模板: 国产九九精品视频| 欧美成人综合视频| 中文字幕无线码一区| 99久久精彩视频| 久久夜色精品国产嚕嚕亚洲av| 99这里只有精品免费视频| 最新痴汉在线无码AV| 中文字幕人妻av一区二区| 欧美a在线看| 91年精品国产福利线观看久久| 亚洲三级网站| 青青草原偷拍视频| 1769国产精品视频免费观看| 国国产a国产片免费麻豆| 国产精品第页| 亚洲AV免费一区二区三区| 亚洲综合香蕉| 成人精品在线观看| 国产小视频免费| 国产亚洲精| 99国产精品国产| 欧美有码在线| 免费在线成人网| 成人无码一区二区三区视频在线观看| 999精品色在线观看| 亚洲欧美成aⅴ人在线观看| 日本黄色a视频| 亚洲国产在一区二区三区| 手机精品福利在线观看| 四虎成人免费毛片| 久久永久免费人妻精品| 欧美色99| 国产爽爽视频| 直接黄91麻豆网站| a毛片在线播放| 67194亚洲无码| 精品一区二区三区无码视频无码| 免费一级毛片在线播放傲雪网| 欧美在线综合视频| 国产伦精品一区二区三区视频优播| 亚洲综合第一页| 91伊人国产| 日韩欧美国产综合| 四虎永久在线| 朝桐光一区二区| 欧美在线中文字幕| 91视频国产高清| 国产精品色婷婷在线观看| 国产人成乱码视频免费观看| 91久久夜色精品国产网站 | 亚洲色成人www在线观看| 精品视频免费在线| 无遮挡国产高潮视频免费观看| 一本无码在线观看| 久久综合干| 综合色88| 国产第一页屁屁影院| 亚洲无码不卡网| 国产91特黄特色A级毛片| 国产不卡在线看| 老色鬼久久亚洲AV综合| 日韩av电影一区二区三区四区| 日韩AV无码一区| 毛片免费试看| 中文字幕人成乱码熟女免费| 亚洲美女一区| 久久精品电影| 久久亚洲欧美综合| 色偷偷av男人的天堂不卡| 三级毛片在线播放| 51国产偷自视频区视频手机观看| 久久精品人人做人人爽| 亚洲欧美激情另类| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产尤物视频网址导航| 国产精品一区二区无码免费看片| 波多野结衣久久高清免费| 久久精品视频一| 国产91在线|日本| 国产欧美日韩视频怡春院| 人人91人人澡人人妻人人爽| 丝袜久久剧情精品国产|