999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度Transformer特征的道路場景語義分割網絡

2025-06-20 00:00:00彭洋吳文歡張誤坤
華東交通大學學報 2025年2期
關鍵詞:語義特征融合

中圖分類號:TP391.41;U491.1 文獻標志碼:A

本文引用格式:.基于多尺度Transformer特征的道路場景語義分割網絡[J].華東交通大學學報,2025,42(2):110-118.

Road Scene Semantic Segmentation Network Based on Multi-Scale TransformerFeatures

PengYang,Wu Wenhuan, ZhangHaokun

(SchoolofIntelligentandConnected Vehicle,Hubei UniversityofAutomotiveTechnology,Shiyan442o02,China)

Abstract: Image contents in road scenes are usually complex, with significant differences in scale and shape between different objects,and lighting and shadows can make the scenes difficult to recognize.However,existing semantic segmentation methods often fail to effectively extract and fully integrate multi-scale semantic features, resulting in poor generalization ability and robustnes.To address these issues,this study proposes a semantic segmentation network model that fuses multi-scale Transformer features.Firstly,the CSWin Transformer was employed to extract semantic features at various scales,accompanied by the introductionofa feature refinement module (FRM) to enhance the semantic discrimination capability of deep,fine-grained features. Secondly,an attention aggregation module (AAM) was adopted to separately aggregate features across scales.Finally,by integrating these enhanced multi-scale features,the semantic expression ability of the features was further enhanced, thereby improving segmentation performance. Experimental results demonstrate that this network model achieves an accuracy of 82.3% on the Cityscapes dataset, outperforming SegNeXt and ConvNeXt by 2.2 percentage points and 1.2 percentage points, respectively. Moreover, it attains an accuracy of 47.4% on the highly challenging ADE20K dataset, surpassing SegNeXt and ConvNeXt by 3.2 percentage points and 2.8 percentage points,respectively.The proposed multi-scale Transformer feature fusion model not only achieves high semantic segmentation accuracy,accurately predicting pixel semantic categories ofroad scene images, but also has strong generalization performance and robustness.

Key words: semantic segmentation; Transformer features; feature fusion; spatial expectation maximizes attention; channel attention

Citation format: PENG Y,WU WH, ZHANG HK.Road scene semantic segmentation network based on multi scale transformer features[J]. Journal ofEast China Jiaotong University,2025,42(2): 110-118.

語義分割的目標是識別出圖像中每個像素所屬的物體類別標簽。作為計算機視覺中的一個基礎任務,語義分割在自動駕駛、智能交通管理2和視頻分析等許多領域得到廣泛應用。但是,由于實際道路場景中的物體類別繁多,形態和尺度不一,準確識別出每個像素的物體類別是一項相當困難的任務。因此,研究如何提升語義分割性能進而幫助智能汽車感知其駕駛環境具有重要的意義。

近年來,隨著深度學習技術的發展,人們提出許多基于深度學習的語義分割方法。SegNet和DeepLabv3+采用編碼器和解碼器結構,通過融合淺層細節特征和深度語義特征提升分割性能[4。上述研究都取得了較好效果,但卷積核感受野大小是有限的,只能捕獲局部短距離上下文信息,對于長距離依賴關系的捕獲能力較弱,這對于解決語義歧義問題是非常不利的。

考慮到注意力機制能夠聚合整個圖像空間上的上下文信息,NLNet和DNLNet采用空間非局部自注意力機制來挖掘像素之間關聯關系[7-8]。EncNet則通過通道注意力重新校準每個通道的權重進而對通道特征進行優化。SegNeXt提出一種全新的卷積注意力機制,通過深度卷積來聚合局部特征[10]。

隨著VisionTransformer架構在各種視覺任務中取得了比卷積神經網絡更具競爭性的性能,為解決語義歧義提供了新方法,該架構通過利用多頭自注意力機制獲得了很強的遠程建模能力[。SE-TR用Transformer替代CNN的編碼器部分來完成圖像語義分割任務,取得了不錯的分割效果[12]。SwinTransformer將每個token的關注區域限制為局部窗口,并且采用halo和shift操作來交換相鄰窗口之間的信息,由此擴大關注區域[13]。SegFormer在SETR的基礎上去掉了位置編碼,并對解碼器進行輕量化設計,進而降低網絡模型復雜度[14]。ConvNeXt將SwinTransformer的思想融人到經典的ResNet中,通過結合這兩種網絡架構的優勢,對卷積神經網絡進行改進,取得與SwinTransformer相匹敵的性能[15-1σ]。GSS提出了生成語義分割模型,將語義分割當作圖像條件掩碼生成問題,通過最小化分割掩碼的后驗分布和輸入訓練圖像的潛在先驗分布之間的差異來實現圖像語義分割[]。

盡管Transformer具有較強的上下文建模能力,但在解決語義分割任務時,大都作為編碼器構建特征金字塔,并沒有對不同尺度的特征進行有效融合,使得網絡通常難以區分物體與背景或者物體之間的邊界,并可能會忽略小物體特征,進而影響語義分割性能。

考慮到CSWinTransformer[1]不僅在特征提取方面具有優勢,而且計算效率非常高,本文利用CSWinTransformer作為編碼器提取多尺度特征,并且引入特征細化模塊(featurerefinementmodule,FRM)對深層小尺度特征進行細化增強。其次,與其他方法通常將多尺度特征同時上采樣后進行拼接融合不同,本文在解碼器中采用將低分辨率的深層特征逐級與高分辨率的淺層特征進行融合,即將特征上采樣后與編碼器相等尺度特征進行拼接,隨后采用注意力聚合(attentionaggregationmodule,AAM)模塊對拼接特征進行融合。在AAM模塊中,利用空間期望最大化注意力構建像素之間全局語義關聯關系,而且采用多頭通道注意力進一步優化語義通道特征。通過對多尺度特征進行逐級融合,能更好地挖掘不同分辨率特征的語義信息,使得語義分割的性能得到提升

1本文網絡

1.1 整體網絡架構

本文網絡主要由編碼器和解碼器組成,如圖1所示。編碼器部分首先將原始圖像輸入到CSWinTransformer中進行多尺度特征提取,然后把提取出的特征圖分別送入解碼器部分。在解碼器中,采用ASPP(atrousspatialpyramidpooling)模塊擴展深層特征的感受野,捕獲更多的上下文信息,然后用FRM模塊強化特征的語義表征能力。將增強后的特征圖進行逐級上采樣,并與淺層特征進行融合。隨后,將不同尺度的特征輸入到AAM模塊中,在空間維度上捕獲像素的上下文信息,抑制不相關區域的干擾,在通道維度上建模通道之間的依賴性,增強重要通道特征。最后,經過聚合的不同尺度特征圖通過上采樣操作進行融合,并生成最終的分割結果。圖1中,Unsampling表示上采樣,Conv表示卷積運算,Fusion表示算子合并,C,H,W分別表示通道數,高度和寬度。

Fig.1 Overall structure of the network model

1.2 特征細化模塊

在語義分割任務中,深層特征的語義信息對提升網絡性能至關重要,語義信息越清晰,融合后的分割效果就越好。為了增強深層特征的語義表達能力,本文在經過ASPP擴大感受野后,進一步使用了特征細化模塊(FRM)對深層特征的語義信息進行細化處理。通過該模塊,深層特征的語義辨析能力得以加強,使其在多級融合過程中能夠提供更明確的語義指導,從而有效提升分割結果的精度。

圖2詳細介紹了FRM的整體結構。對于特征圖 ±bX∈RC×H×W , C , H , W 分別表示通道數,高度和寬度。特征圖 X 在經過 1×W 和 H×1 的條形池化層后,對每個通道在水平和垂直方向進行特征編碼,以提取全局上下文信息。由此可得第 Ψc 個通道上第 i 行的水平池化輸出 Gch(i) 為

式中: Xc(i,j) 為特征圖 X 在第 個通道、第 i 行、第

圖2特征細化模塊Fig.2Featurerefinementmodule

j 列處的值。類似地,第 Ψc 個通道上第 j 列的垂直池化輸出 ±bGcw(j) 可以表示為

上述兩個變換分別沿著水平方向和垂直方向進行特征聚合,產生一對特征圖。將這對特征圖融合后輸入到卷積變換函數 f1 中,輸出 F 可以表示為

式中:concat 為水平方向輸出與垂直方向輸出進行拼接融合; α 為非線性激活函數;(204號 F∈RC/r×1×(H+W) 為編碼后的中間特征圖。使用縮放比 r 來控制通道大小,然后將特征圖 F 按照空間維度拆成兩個獨立的張量F∈R×H,F\"∈R×W 。隨后通過卷積變換 fh,fw 將張量的通道數變換為與輸入 X 相同,從而得到新的張量

Qh=β(fh(Fh))

Qw=β(fw(Fw))

式中: β 為激活函數。最后在第 Ψc 個通道中,位置(i,j) 上的結果 Yc(i,j) 可以表示為

則最終輸出 Y 為所有通道的輸出組成的集合

Y=[Y1,Y2,…,YC]

1.3注意力聚合模塊

本文使用注意力聚合模塊(AAM)來增強網絡對不同特征的表達能力。AAM模塊應用于逐級融合后的各尺度特征,使模型能夠更加精準地聚焦于不同大小的目標,提升邊緣分割能力和對小目標的識別效果。

AAM的結構如圖3所示。在空間維度上,本文使用了空間期望最大化注意力(SEMA)挖掘整個圖像上像素之間的關聯關系。在通道維度上,本文設計了多頭通道注意力(MCA),利用多個并行的注意力“頭”來從多維視角評估和提煉通道信息。

Fig.3Overall structure of the attention aggregation module

1.3.1 空間期望最大化注意力

以往的空間注意力機制通常通過對所有位置的特征進行加權求和來計算每個位置的表示。雖然這種方式能夠捕獲遠程的上下文關系,但是它增加空間復雜度并消耗大量計算資源。為了解決這個問題,本文采用空間期望最大化注意力(SE-MA)。SEMA首先通過期望最大化算法生成一組緊湊的基,這組基能夠有效代表原始特征的主要信息,然后在生成的基上實施注意力機制,避免了冗余信息的干擾,降低了計算復雜度。

SEMA的結構圖如圖4所示。首先,給定一個輸入特征圖 ±bX∈RC×H×W , X 被重塑為 ±bX∈RN×C ,

圖3注意力聚合模塊的整體結構圖4空間期望最大化注意力的整體結構Fig.4Overall structure of the attentionaggregationmodule

N=H×W 。然后初始化一個基 ±bμ∈RK×C , K 是基類的數量。SEMA方法包括以下3個步驟:權責估計 LE 、似然最大化 LM 和數據重新估計 LR ,前兩步分別對應EM算法的E步和M步。在 LE 步中,目標是估計隱變量 ±bZ∈RN×K ,即每個基對像素的權責。第 k 個基對像素 xn 的權責 znk 可表示為

式中: φ(a,b) 為指數內積 。在第 t 次迭代中, Z(t) 可以表示為

式中: γ 作為超參數來控制 z 的分布,且每一個注意力圖的大小為 H×W 。 LM 步的作用是更新基μ 。為了保證 μ 和 X 處在同一表征空間內, LM 步使用 X 的加權平均來更新 μ 。在第 t 次迭代中,第k 個基 ±bμk(t) 更新為

LE 和 LM 交替執行 T (本文中設置為3)步。在 LR 步中,使用最終的 z 和 ±bμ 來對 X 進行重新估計,得到

相比 X ,具有低秩的特性,能保留原有特征圖的主要信息,不同類別之間差異也能進一步拉大。另外,將復雜度降低至O(NKT),由于 T 為一個小常數可以被省去并且 Klt;

1.3.2 多頭通道注意力

在深度神經網絡中,不同通道的特征圖可以被視為對不同類別的響應,這些語義響應之間存在關聯性。通過挖掘通道特征間的關聯可以優化語義特征,使得重要的通道特征得到進一步增強。為此,本文提出了一個多頭通道注意力(MCA),引入多頭注意力策略來建立不同通道之間的關聯關系。該方法通過從多個角度全面捕獲通道之間的依賴性,挖掘出語義更顯著的通道特征。

MCA模塊結構如圖5所示。首先給定一個輸人特征圖 ±bX∈RC×H×W ,將其進行重塑為 X∈Rc×N ,其中 N=H×W 。根據預設的頭的數量 h (設為4)來分組,并把通道設置為 C ,因此 C=h×C ,可以得到 。對于特征圖 A 中第 k 個頭的 u 個通道,可取得向量 Au,k∈RN 。

圖5多頭通道注意力的整體結構Fig.5Overall structure of multi-head channel attention

同理,可得出特征圖 B 中第 k 個頭的 ν 通道的向量 Bν,k∈RN 。由于每個頭都有 C 個通道,即可推出集合 ±bBk∈RC′×N 。因此,在第 k 個頭中通道 u 與通道 σν 的關聯性 Sν,u,k 可表示為

Sν,u,k=Au,kBν,kT

由上述計算可推出在第 k 個頭中,通道 u 與所有通道的關聯性 Su,k

±bSu,k=±bAu,k±bBkT

式中: Su,k∈RC′ ,那么在第 k 個頭中不同通道之間的關系可表示為 ±bSk∈RC′×C′ 。進一步地,將所有頭的通道關系進行整合,即可獲得所有頭的通道間關系為 ±bS∈Rh×C′×C′ 。對 s 在通道維度上應用Softmax,就可得到關聯矩陣D∈R×cc 。

此外,將特征圖 x 重構后按 h 分組可得到±bE∈Rh×C′×N 。在第 k 個頭中,整合所有通道的關系后可得 ±bEk∈RC′×N ,同理可得 ±bDk∈RC′×C′ 。將注意力應用于 k 頭中的所有向量,其結果可表示為

±bHk=±bDk±bEk

式中: ±bHk∈RC′×N 。在每個組重復上述計算過程后,將其輸出結果整合。經過重構后,即可獲得經過注意力整合的特征圖 ±bY∈RC×H×W ,即

將 Y 經過線性投影 G∈Rc×c 后,與可學習的標量 α (初始值為0)相乘,最后與 X 相加得到最終的輸出為

±bZ=α±bY±bG+±bX

經過以上計算,實現了多頭通道注意力機制。其可幫助網絡更好的捕獲特征之間的關聯性,提升特征表示的強度和靈活性。

2 實驗與分析

2.1 數據集

Cityscapes數據集[是一個廣泛使用的大規模街景圖像數據集,特別是在語義分割領域。它包含大約5000張高分辨率圖像,每張圖的分辨率為 像素。這些圖像捕獲了多樣的城市環境,包括不同的天氣條件、時間段和季節變化。每張圖像都附有精細的人工標注,包含像素級別的語義標簽,如道路、建筑物、行人、車輛等。數據集被劃分為3個主要部分,訓練集包含約2975張圖像,驗證集約500張圖像,測試集約1525張圖像。

ADE20K2是一個專為語義分割任務設計的大規模圖像數據集,包含大22462張高分辨率圖像,并給每個像素賦予了對應的語義標簽,涵蓋了超過150種不同的類別。數據集由訓練集、測試集、驗證集組成,分別包含13151,1817,3376張圖像。

2.2 評價指標及實驗設置

與其他語義分割方法一樣,使用mIoU(平均交并比)、FPS(實時處理速度)Param(參數量)作為評價指標來評估模型性能。mIoU用于衡量預測分割結果與真實標簽之間的重疊程度,可表示為

式中: N 為圖像類別數; i,j 分別為不同類別; Xii 為正確預測的像素數目; Xij 為錯誤的將 i 預測為 j 的像素數目; Xji 為錯誤的將 j 預測為 i 的像素數目。

本文實驗是在Ubuntu22.04環境下基于Pytorch框架實現的。實驗設備采用IntelCorei9- 13900k NvidiaGeForceRTX4090。

在訓練設置方面,損失使用交叉熵損失代價函數來計算,每次訓練的批處理大小在Cityscapes和ADE20K中均設置為8。使用多項式衰減策略,在每次迭代后更新全局學習率

式中: lrbase 為初始學習率,設置為0.00006, lr 為當前的學習率;iter為當前迭代次數; itermax 為最大迭代次數,設置為160000次;power為衰減控制參數,設置為0.9,優化器使用Adam,一階動量參數與二階動量系數分別為0.9和0.999,權重衰減系數為0.01。在數據增廣方面,在兩個數據集上使用隨機裁剪和隨機左右翻轉。Cityscapes數據集圖片尺寸被統一為 769*769 像素,ADE20K數據集圖片尺寸被統一為 512*512 像素。

2.3 消融實驗

為了驗證本文所提的FRM和AAM模塊的有效性,本文進行了對不同組件有效性的消融研究。在實驗中,數據集使用Cityscapes數據集,主干網絡使用CSWinTransformer,將使用空洞卷積的FCN作為Baseline。依次單獨將FRM和AAM添加到網絡中進行實驗,以及同時將其添加到網絡中進行實驗,其余訓練設置保持一致。表1給出了FRM和AAM模塊的消融結果。

表1在Cityscapes驗證集上的消融實驗結果Tab.1Results of ablation experiments on the Cityscapes

根據實驗結果顯示,當僅使用FRM或AAM時,相較于Baseline,語義分割準確率分別提升了2.9個百分點和3.2個百分點。而在同時使用FRM和AAM時,相較于基線網絡提升了3.7個百分點,與單獨使用FRM或AAM相比分別提升了0.8個百分點與0.5個百分點。實驗結果驗證了FRM與AAM模塊能有效提升語義分割性能,且兩者聯合作用能進一步提高網絡精度。

圖6展示了消融實驗的可視化圖像。第1列的圖6(a)和圖6(e)為原始圖像;第2列的圖6(b)和圖6(f為真值;第3列的圖6(c)為去除FRM的結果,圖6(g)為去除AAM的結果;第4列的圖6(d)為加載FRM的結果,圖6(h)為加載AAM的結果。通過比較圖6(c)和圖6(d)紅框標注的部分,我們可以觀察到使用本文提出的FRM后,網絡減少了錯誤識別道路邊緣區域的情況?!皦Ρ凇迸c“道路白線外邊緣”,“草坪”與“道路”,“道路”與“人行道”這些不同部分的邊緣處分割更加清晰。這表明FRM強化了特征的深層語義,有效提升了網絡的邊緣分割能力。

圖6消融實驗的可視化

同樣地,觀察圖 6(g) 和圖6(h)的紅框標注部分并進行對比,我們可以發現當網絡加載了AAM后,在\"墻壁”與“道路”,“路標柱\"與“草坪\"這些物體的重疊處分割效果有明顯提升。這說明對于多個對象重疊的復雜場景,網絡對于相似類別的區分能力得到了提升。這表明AAM通過融合語義表征能力更強的通道特征與空間特征,使得網絡能夠更加有效地處理復雜場景下的類別模糊問題。

2.4 對比實驗

2.4.1在Cityscapes數據集上的評測結果

本文方法在Cityscapes數據集上與其他語義分割方法進行了對比。表2展示了這些方法在同一實驗環境下的結果,包括分割精度(mIoU)運行速度(FPS)以及參數量(Params)。

表2不同方法在Cityscapes驗證集上的實驗結果Tab.2Results of different methods with the sameexperimentalsetupontheCityscapesvalidationset

根據表中的數據,可以看出,本文的方法在分割精度上優于其他方法。與EncNet、NLNet、SETR-MLA、SegFormer、Swin、SegNeXt、ConvNeXt和GSS等方法相比,在mIoU上本文方法分別提高了8.1、5.3、5.0、3.7、3.1、2.2、1.2個百分點和2.3個百分點。這說明本文方法具有較高的分割精度。

在運行速度方面,本文方法的FPS為3.40幀/s,低于Swin-T的7.40幀/s,但快于其他多數方法。由此可見,本文方法在精度和運行速度方面能夠保持較好的平衡。

圖7展示了各方法的分割結果。通過觀察紅色框標記的區域,可以看出網絡在處理邊緣和保持物體完整性方面表現更為出色。特別是在“道路”與“草坪”的重疊處以及“道路分叉口”等復雜場景中,網絡能夠分割出更清晰的物體邊界,避免了傳統方法中常見的邊緣分割不準問題。此外,在“墻壁”等建筑物的識別上,也能保持更好的完整性,錯誤率較少。此外,對于“草坪”與“樹木\"等相似類別物體,分割出來的輪廓清晰分明,避免了常見的類別模糊問題。同時,對于“路樁”等小物體的識別也非常精確,分割結果與人工標注幾乎一致。這些視覺對比結果說明,本文網絡不僅能夠較好保持物體邊緣,而且能有效提高小目標物體的識別準確率。

Fig.6 Visualizationofablationexperiments圖7語義分割結果Fig.7Results of semantic segmentation

2.4.2在ADE20K數據集上的評測結果

為了進一步驗證本文網絡的適應性和有效性,本文在具有高度挑戰性的ADE20K數據集上與其他先進方法進行了比較。實驗結果如表3所示,與EncNet、Segformer、NLNet、SegNeXt、Swin、

表3不同方法在ADE20K驗證集上的實驗結果Tab.3Resultsofdifferentmethodswiththe sameexperimentalsetupontheADE2oKvalidationset

ConvNeXt、SETR-MLA以及GSS網絡方法相比,本文網絡的分割精度分別提高了7.3、7.2、5.4、3.2、3.1、1.8、1.0、1.1 個百分點。而且,本文網絡方法具有17.26幀/s的實時處理速度。這說明本文網絡方法在ADE20K數據集上同樣保持較好的性能,具有較強的泛化性能,能夠實時準確完成復雜場景的語義分割任務。

3結論

1)采用CSWinTransformer作為編碼器提取多尺度特征,可增強所提取的特征的遠程建模能力,提高計算效率。2)通過將FRM集成到解碼器中對深層特征進行細化增強,同時將低分辨率的深層特征逐級與高分辨率的淺層特征進行融合,充分利用特征的語義信息與細節信息,增強了網絡的語義辨析能力。3)采用AAM模塊從空間與通道兩個維度上對特征進行融合。通過空間期望最大化注意力高效地捕獲每個像素的全局上下文信息,以及通過多頭通道注意力挖掘語義更顯著的通道特征。

參考文獻:

[1] MUHAMMADK,HUSSAINT,ULLAHH, etal.Visionbased semantic segmentation in scene understanding for autonomous driving: recent achievements,challenges, and outlooks[J].IEEE Transactions On Intelligent Transportation Systems,2022,23(12):22694-22715.

[2]DEWANGANDK,SAHUSP,SAIRAMB, et al.VDNet:vision-based lane region detection network for intelligentvehicle system using semantic segmentation[J]. Computing,2021,103(12):2867-2892.

[3]SUNGL,LIUY,DING HH, et al.Learning local and global temporal contexts for video semantic segmentation[J]. IEEE Transactions on Pattern Analysis And Machine Intelligence,2024, 46(10):6919-6934.

[4]BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet:a deep convolutional encoder- decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12): 2481-2495.

[5]CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoderdecoder with atrous separable convolution for semantic image segmentation[C]//Munich: Proceedings of the European Conference on Computer Vision, 2018: 801-818.

[6]王曉明,溫銳,姚道金,等.基于改進DeepLabv3+的接觸 網開口銷缺陷檢測[J].華東交通大學學報,2023,40(5): 120-126. WANG X M, WEN R, YAO D J, et al. Defect detection of the split pins in catenary based on improved DeepLabv3+[J]. Journal of East China Jiaotong University, 2023,40(5):120-126.

[7]WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Salt Lake:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7794-7803.

[8] YIN MH,YAO ZL,CAO Y, et al. Disentangled non-local neural networks[C]// Glasgow: Proceedings of the 16th European Conference on Computer Vision, 2020: 191-207.

[9] ZHANG H, DANA K, SHI J P, et al. Context encoding for semantic segmentation[C]// Salt Lake: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018: 7151-7160.

[10] GUO M H,LU C Z, HOU Q, et al. SegNeXt: rethinking convolutional attention design for semantic segmentation [J]. Advances in Neural Information Processing Systems, 2022,35:1140-1156.

[11]周麗娟,毛嘉寧.視覺Transformer識別任務研究綜述 [J].中國圖象圖形學報,2023,28(10):2969-3003. ZHOU LJ,MAO JN. Vision Transformer-based recognition tasks:a critical review[J]. Journal of Image and Graphics,2023,28(10): 2969-3003.

[12] ZHENG S,LU J,ZHAO H, et al.Rethinking semantic segmentation from a sequence- to- sequence perspective with transformers[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2021: 6881-6890.

[13] LIU Z,LIN Y T, CAO Y, et al. Swin Transformer: hierarchical vision transformer using shifted windows[C]// Montreal:Proceedings of the IEEE International Conference on Computer Vision,2021:10012-10022.

[14] XIE E,WANGW,YU Z, etal. SegFormer: simple and efficient design for semantic segmentation with transformers[J].Advances in Neural Information Processing Systems,2021,34:12077-12090.

[15]LIUZ,MAOHZ,WUCY,etal.AConvNet for the2020s [C]/New Orleans:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2022: 11976-11986.

[16]HEKM,ZHANGXY,RENSQ,etal.Deep residual learning for image recognition[C]//Las Vegas:Proceedingsof the IEEEConferenceon ComputerVisionand Pattern Recognition,2016: 770-778.

[17] CHENJQ,LUJC,ZHUX T,et al. Generative semanticsegmentation[C]//Vancouver:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2023: 7111-7120.

[18]DONG XY,BAO JM,CHEN D,et al.CSwin Transformer:a general vision transformer backbone with cross-shaped windows[C]//New Orleans:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2022:12124-12134.

[19]KIRILLOVA,HEKM,GIRSHICKR,etal.Panoptic segmentation[C]//LongBeach:Proceedings oftheIEEE Conference on Computer Vision and Pattern Recognition, 2019:9404-9413.

[20] ZHOU B L,ZHAO H,PUIG X,et al. Scene parsing through ADE2oK dataset[C]//Honolulu:Proceedingsof theIEEE Conference on Computer Vision and Pattern Recognition,2017:633-641.

第一作者:彭洋(2000一),男,碩士研究生,研究方向為計算機視覺和語義分割。E-mail:1172390843@qq.com。

通信作者:吳文歡(1985一),男,副教授,博士,碩士生導師,研究方向為計算機視覺和圖像處理等。E-mail:wuwen-huan5@163.com。

(責任編輯:吳海燕)

猜你喜歡
語義特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美国产视频| 18禁色诱爆乳网站| 日韩 欧美 国产 精品 综合| 国产原创第一页在线观看| 亚洲国产成熟视频在线多多| 国产尤物视频在线| 在线免费观看a视频| 亚洲日韩每日更新| 九色91在线视频| 成人小视频在线观看免费| 色婷婷亚洲综合五月| 国产毛片基地| 99国产在线视频| 伊人蕉久影院| 国产第三区| 国产日韩欧美精品区性色| 高清国产在线| 色噜噜综合网| 爆操波多野结衣| 久久精品亚洲热综合一区二区| 日本精品视频一区二区| 亚洲午夜福利在线| 亚洲日韩精品无码专区97| 国产国语一级毛片| 婷婷色一区二区三区| 欧美精品v日韩精品v国产精品| 日韩成人午夜| 91久久精品国产| 日韩欧美中文字幕在线精品| 性色在线视频精品| 人妻一本久道久久综合久久鬼色 | 国产亚洲视频中文字幕视频| 日韩午夜片| 免费a级毛片18以上观看精品| 色呦呦手机在线精品| 日韩国产黄色网站| 美女扒开下面流白浆在线试听| 欧美一道本| 国产欧美日韩综合在线第一| 亚洲日本中文字幕乱码中文 | 精品欧美视频| 老司国产精品视频| 色噜噜狠狠狠综合曰曰曰| 久久超级碰| 国产三级a| 亚洲va在线观看| 精品人妻一区无码视频| a欧美在线| 国产精品福利导航| 欧美精品在线看| 欧美在线三级| 久久久久无码精品国产免费| 国产精品免费p区| 欧美特黄一免在线观看| 国产精品女熟高潮视频| 久久婷婷综合色一区二区| 免费一级毛片在线观看| 无码国产伊人| 久久久久亚洲AV成人人电影软件| 91精品啪在线观看国产91九色| 国产本道久久一区二区三区| 2021天堂在线亚洲精品专区| 麻豆国产在线观看一区二区 | 成年网址网站在线观看| 3344在线观看无码| 免费人欧美成又黄又爽的视频| 亚洲第一香蕉视频| 国产精品林美惠子在线观看| 国产流白浆视频| 丁香亚洲综合五月天婷婷| 一级毛片在线播放免费| 国产亚洲高清视频| 亚洲色成人www在线观看| 中文字幕永久在线看| 亚洲第一成年网| 91视频区| 国产欧美精品专区一区二区| 国产免费好大好硬视频| 91精品久久久无码中文字幕vr| 国产精品久线在线观看| 97一区二区在线播放| 国产网站免费观看|