999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于跨層級注意力學習的RGB-T顯著目標檢測

2025-07-01 00:00:00魏明軍魏帥劉亞志李輝
鄭州大學學報(理學版) 2025年3期
關鍵詞:模態特征信息

DOI:10.13705/j. issn.1671-6841.2023163

RGB-T Salient Object Detection Based on Cross-level Attention Learning

WEI Mingjun 1,2 ,WEI Shuai',LIU Yazhi 1,2 , LI Hui1 (1.College of Artificial Intelligence,North China University of Science and Technology, Tangshan 063210, China;2. Hebei Provincial Key Laboratory of Industrial Inteligent Perception, Tangshan O63210,China)

Abstract: RGB-thermal saliency object detection (RGB-T SOD) aimed to segment common salient regions in both visible light images and corresponding thermal infrared images.To address the problem of insuffcient utilization of cross-level complementary information among existing methods,a cross-level feature attention learning network (CALNet)was proposed for the RGB-T SOD task. Specifically,the network included a cross-level attention learning module(CAL),which used non-local attention to interact cross-level information among multiple modalities and could fuly explore global positions and local details across diffrent modalities and levels.Inaddition,the network also introduced a global information module(GIM)and a multi-interaction module(MIB),both of which could model and explore multi-type information in a layer-by-layer decoding process for more accurate RGB-T SOD. Extensive experiments on public RGB-T datasets demonstrated that the proposed network achieved excellent performance compared with state-of-the-art algorithms in the field.

Key words: multimodal; non-local attention; RGB-T; salient object detection; feature fusion

0 引言

顯著目標檢測(salient object detection,SOD)旨在從視覺場景中準確地檢測和分割最具吸引力的物體,在各種計算機視覺研究中,如視頻對象分割、光場圖像分割、目標跟蹤和實例分割2等,都起著重要作用。然而,目前的SOD方法大多數使用單一的RGB圖像進行檢測,這使它們易受天氣、光照等因素影響,無法獲得精確的檢測結果。近年來,隨著傳感器技術的飛速發展,研究者們可以在不同的模態下對物體進行成像。其中,紅外傳感器可以生成包含物體溫度信息的熱紅外圖像,這種圖像可以提供更多空間位置線索,能夠為提高SOD性能提供重要的信息補充。因此,基于熱模態信息與RGB信息的RGB-熱成像顯著目標檢測(RGB-TSOD)越來越受到研究者們的關注。2019年,Tu等[3使用了多模態多尺度流形排序的方法來處理RGB-TSOD任務中的兩種模態特征,并通過中間變量推斷最優排序種子進行顯著性預測。Zhang等4 同樣使用特征融合的方式來處理RGB-TSOD,他們將融合過程分為三個部分,首先組合相鄰的深度特征,然后捕捉跨模態特征,最后通過集成多級融合特征預測顯著性圖。2023年,Lv等5提出一個跨模態注意力增強網絡,該網絡首先通過交叉注意力單元來增強兩個模態的特征,然后使用通道注意力對它們進行動態加權融合。然而,這些方法都側重通過同層級特征融合的方式來處理兩種模態的信息,并沒有充分考慮多模態跨層級間的特征互補性。

在RGB-TSOD中,熱紅外圖像能更好地定位空間位置信息,RGB圖像則可以更好地展示細節紋理。同時,在神經網絡中,較淺層的特征中包含了豐富的細節和紋理信息。隨著網絡層數的加深,網絡則會越來越關注對象整體的語義,這些信息在網絡檢測物體時分別發揮著重要作用。因此如何充分學習不同模態與不同層級間的互補信息是進行準確RGB-TSOD的關鍵。其中的一個解決方案是實現多模態信息之間的充分交互,并利用跨層級信息獲得更豐富的多尺度特征,而這在很大程度上被當前的方法所忽略。

綜合考慮上述問題,本文提出了一種跨層級特征注意力學習網絡(CALNet),通過學習跨層級的多模態互補特征,以獲得更好的RGB-TSOD性能。它使用編解碼體系結構,在編碼部分,網絡采用兩個基于ConvNeXt的編碼器對輸入的RGB圖像與熱成像圖像進行雙流特征編碼。在解碼部分,網絡首先通過所提出的跨層級注意力學習模塊(CAL)對編碼器中不同模態與不同層級間的特征進行交互。之后,使用全局信息模塊(GIM)生成全局指導特征,以引導多交互模塊(MIB)對編碼器的各層級特征進行逐層解碼,并生成最終預測結果。在三個數據集上進行的實驗表明,所提出的網絡在四個評估指標上優于目前主流的方法。

跨層級特征注意力學習網絡

1. 1 總體架構

如圖1所示,本文的網絡整體采用雙流編解碼架構。編碼階段,網絡使用基于ConvNeXt的雙流編碼器分別對可見光和熱紅外圖像進行特征提取。在解碼階段,網絡首先使用跨層級注意力學習模塊(CAL)對不同層級的多模態特征進行交互學習。之后采用與文獻[6]類似的架構,使用全局信息模塊(GIM)處理編碼器輸出的最深層特征,以生成能夠精確定位顯著性區域的全局指導特征。然后通過多交互模塊(MIB),在全局指導特征的引導下融合多類型線索,并逐步實現顯著性計算。所提出的CALNet總共生成兩個預測輸出,其中包含一個由GIM生成的深層粗預測 Sg 和一個最終預測 Sf 。

1.2基于ConvNeXt的編碼網絡

ConvNeXt是一種卷積神經網絡,旨在提高特征提取的能力和模型性能[7]。該網絡基于ResNet架構,并從Transformer中借鑒了很多成功的做法。ConvNeXt整體分為4個階段,其中每個階段均由數個ConvNeXtBlock堆疊而成。每個ConvNeXtBlock由一個深度卷積(DepthwiseConv2d)、兩個 1×1 卷積、一個層歸一化(LayerNorm)、一個高斯誤差線性單元(GeLU)、一個LayerScale和一個DropPath 組成。其中,與ResNetBlock不同的是,它使用了 3×3 深度卷積,采用了反向瓶頸結構,用GeLU激活函數和層歸一化代替了線性整流函數(ReLU)和批量歸一化(BN),且減少了激活函數的使用次數。這樣的設計確保了ConvNeXt的檢測效率和準確率。因此,本文選擇ConvNeXt作為骨干網絡,以提高任務的性能。

1.3 解碼網絡

1.3.1跨層級注意力學習模塊本文設計了一個跨層級注意力學習模塊(CAL),以實現熱模態特征與RGB特征間的跨層級信息交互。CAL基于非局部注意力實現,能夠對不同模態與不同層級間特征的長距離空間相關性進行建模。具體來說,該模塊接收編碼網絡產生的不同層次的多模態特征T5和 R4 作為輸入。如圖2所示,輸入分別為 c×h×w 與 是通道數, h 和 w 分別為特征圖的高和寬)的雙模態特征,由于不同層級的特征存在維度、尺度上的差異,模塊首先對RGB特征進行兩次卷積處理,以改變其維度與尺度大小,使之與深層的熱模態特征相對應。之后,對兩個模態的特征分別進行卷積降維和重塑操作以生成鍵值: K?1?K?2 和 ν 其中,RGB 特征的鍵 Kr 會被用作熱模態特征鍵值 的查詢,兩組鍵之間通過相容函數生成注意力矩陣,并通過softmax歸一化生成注意力權重。該權重會通過矩陣相乘的方式對熱模態特征的值 V 進行加權,加權的結果會在被重塑 c×h×w 后進行輸出,以得到包含豐富細節信息的熱模態特征。以上過程用公式表示為

Figure1 CALNetnetwork architecture

A=f(K1,K2),

W=softmax(A)

OUT=Reshape(WTV)

其中: K?1∈Rn×c;K?2∈Rn×c;V∈Rn×c;n=h×w?1 Reshape(·)代表重塑操作 :f(?) 是相容函數,它以矩陣相乘的方式實現; ±bA∈Rn×n 是注意力矩陣; ±bW∈ Rn×n 是注意力權重; 是CAL的輸出特征。這種多模態間的跨層級對象信息學習,能夠讓具有良好位置信息的深層熱模態特征學習淺層RGB特征中的詳細細節和邊界信息,使網絡獲得包含更豐富細節表示的高級語義特征。

1.3.2全局信息模塊在跨層級的多模態特征學習后,本文引入全局信息模塊(GIM)[來生成全局指導特征。GIM接收最高層級的RGB特征R5和紅外熱特征T5作為輸入,并在級聯后使用通道注意力來對兩種模態的特征進行重組。之后,采用一個卷積塊對其進行降維,以得到特征 F

圖2跨層級注意力學習模塊Figure 2 Cross-level attention learning module

其中: Conv(?) 表示卷積塊; Concat(?) 表示級聯操作; CA(?) 表示通道注意力操作,計算為X=Sigmoid(C(A1(X))+C(M1(X)))X, 其中: c 為 1×1 卷積; A1 為全局平均池化; Mr 為全局最大池化; X 與 X 分別為通道注意力輸入和輸出特征。進一步,GIM通過四個不同尺寸的自適應最大池化操作來對 F 進行處理,并使用四個具有不同尺寸卷積核的卷積塊,分別對池化后的特征進行學習,旨在獲得更豐富的多尺度特征。最后,四個卷積塊的輸出特征會在上采樣后與 F 進行級聯,并在卷積降維后,作為GIM的輸出。該輸出將被用于生成網絡的深層次預測 Sg ,并同時被輸入到各層級的多交互模塊中,以在逐層解碼中指導網絡更準確地定位圖像中的顯著區域

1.3.3多交互模塊參考文獻[6]中的解碼架構,在全局信息模塊后,本文使用多個級聯的多交互模塊(MIB)對特征進行逐層解碼。該模塊能夠實現雙模態信息、細節特征信息和全局信息的充分交互。多交互模塊由3個特征分支組成。在第1個特征分支中,MIB使用通道注意力細化后的編碼器各層級特征來幫助解碼器逐步恢復圖像中的空間細節。在第2個特征分支中,更深層的兩個多交互模塊的輸出在級聯后被作為輸入(其中,第4層MIB分別接收CAL的輸出和R5作為輸入),這種具有較強像素相關性的高級語義特征會在通道注意力細化后被上采樣到與當前層級特征相同的大小。在第3個分支中,MIB接受全局信息模塊的輸出作為輸人,通過全局指導的方式豐富淺層特征中被稀釋的語義信息,并抑制背景噪聲。最后,MIB使用卷積來對各個分支中特征的通道數進行統一,并采用逐元素相加的方式對它們進行融合,融合得到的特征會在卷積處理后進行輸出。

通過多個多交互模塊的逐層級解碼,所提出的網絡能夠充分融合不同模態、不同層次的多類型信息,并生成更準確的最終預測 Sf 。

1. 4 損失函數

顯著目標檢測任務中常用的損失函數為二元交叉熵(BCE)損失,計算為

(20其中: 為網絡預測的顯著圖; 為真值圖; T 是圖像中的總像素數。此外,受文獻[8]的啟發,為了獲得更清晰的邊緣,本文額外引入了平滑度損失 Ls 作為約束, Ls 通過計算平滑項中顯著圖的一階導數得到,其定義與文獻[8]中相同。

本文提出的網絡共有兩個預測輸出,其中包含來自全局指導模塊的深層預測 Sg 和網絡的最終預測 Sf ,它們均在上采樣后通過真值圖進行監督。因此,網絡的總損失為

βLs(Sg,Y)+βLs(Sf,Y)

這里, β=0.5 ,以平衡平滑度損失的影響。

2 實驗細節

2.1 數據集

本文在三個公開使用的RGB-T顯著目標檢測數據集上評估所提出的網絡,包括VT821[9]VT1000[10] 和 VT5000[11] 。VT821包含 821個 RGB-T圖像對,且部分圖像添加了噪聲以提高數據集的挑戰性。VT1000包含1000個相對簡單且對齊良好的RGB-T圖像對,而VT5000則收集了5000個對齊的RGB-T圖像對,其場景更為復雜。本文中采用主流的訓練與測試方法,使用VT5000中的2500個不同的RGB-T圖像對進行訓練,并使用VT5000中的其余圖像與VT821和VT1000一起對網絡進行測試評估。

2. 2 實施細節

本文的網絡基于Pytorch實現,所有實驗均在NVIDIAGeForceRTX3060(12GB顯存)上運行。訓練epoch的數量被設置為100,批量大小被設置為4。初始學習率為1e-3,在訓練20個周期后變為1e-4,在50個周期之后變成1e-5。本文采用SGD優化器,權重衰減為5e-4,momentum為0.9。對于RGB-T圖像對的輸入,本文將所有的圖像像素調整為 352×352 。此外,為了提高網絡的魯棒性并同時減少單一模態圖像中可能的污染信息的干擾,本文遵循文獻6]所提出的方法,在訓練時應用數據增強策略。具體地,在訓練時以 10% 的概率隨機將雙模態中的一個輸入歸零,并以 10% 的概率隨機添加高斯噪聲。

2.3 評估指標

本文使用加權 F 度量 (Fβ )、結構測度 s 度量(Sα) )、平均增強匹配標準 E 度量 (Eε[12] 和平均絕對誤差 (MAE) )來對所提出的網絡進行評估。其中,加權 F 度量通過查準率(Precision)和召回率(Recall)來評估模型的性能,表示為

其中: TP,FP 和 FN 分別表示真陽性、假陽性和假陰性, η2 被設置為0.3。平均絕對誤差的公式表示為

s 度量用于評估真實顯著對象與預測顯著對象空間結構的相似性,它結合了區域感知的結構相似性 Sr 和對象感知的結構相似性 So

Sα=α?S0+(1-α)?Sr

本文參考文獻[13]設置 α 為0.5。 E 度量[12]可以獲得真值圖與預測圖間圖像級的統計信息和像素級的匹配信息。評估時 SαΓαFβΓνEε 越大越好, MAE 越小越好。

3 實驗結果與分析

3.1 定量對比

本文將所提出網絡與其他主流RGB-TSOD算法進行了比較,以評估所提出網絡的檢測效果,最好的結果以加粗形式標出。如表1所示,本文的網絡幾乎在所有指標上都取得了良好的性能。其中,與第二優的CAENet相比,在最大的評估數據集VT5000上 Sα?Fβ?Eε 分別提高了 1.8% 、3.0%.1.6%,MAE 降低了 21.1% ,驗證了所提出模型的有效性。

表1定量對比實驗結果Table1 Quantitative comparison experimental results

3.2 定性對比

圖3展示了本文網絡與相關領域的一些先進模型的定性對比結果,包括在各種具有挑戰性的不同場景下的性能比較。例如,多顯著對象(行2)、圖像雜波(行4)、交叉圖像邊界(行5)、中心偏移(行10)等,結果表明本文的網絡取得了更好的檢測效果。其中,T表示紅外圖;RGB表示可見光圖;GT表示真值圖。

圖3定性對比實驗結果Figure 3 Qualitative comparison experimental results

3.3 消融實驗

本文首先評估了跨層級注意力學習模塊對網絡性能的影響。消融實驗中,首先從完整的網絡中去除CAL模塊,之后使用同層級的注意力交互(MAI)來對其進行代替。如表2所示,相比于完整的跨層級特征注意力學習網絡(本文算法),當去除CAL時(W/OCAL),熱模態特征無法學習RGB特征中的互補細節信息,造成了檢測性能的下降。當使用同層級交互時(MAI),網絡無法獲得更豐富的多尺度信息,其性能無法達到最優,定性對比結果如圖4所示。這驗證了所提出的CAL的有效性。

Table2Ablation experiment results of CAL module
標題

之后,本文對跨層級注意力學習模塊中的特征學習方式進行了評估。如表3所示,本文共設計了8種不同的跨層級特征學習方式,表中第1列括號內為輸入CAL中進行交互學習的編碼器特征,其中下劃線的特征為交互時進行學習的主體,CAL的輸出將代替該特征在多交互模塊中進一步解碼。定量實驗的結果表明,當使用第5層熱紅外特征T5對第4層RGB特征R4進行注意力學習時,網絡性能達到最佳。因此,本文最終采用這種方式。

表3不同學習方式實驗結果Table3Experimental resultsof different learningmethods

4結語

本文提出了一個跨層級特征注意力學習網絡(CALNet),該網絡使用編碼器-解碼器架構,能夠進行更準確的RGB-TSOD。為了進行多模態間的跨層級特征交互,CALNet中使用了一個跨層級注意力學習模塊,該模塊能夠實現深層熱模態特征與淺層RGB特征間的顯著性特征學習,使熱模態特征獲得對象更多的紋理細節。此外,在解碼階段網絡還引入了全局信息模塊與多交互模塊,以實現全局信息指導下的逐層多信息融合解碼。在三個公共數據集上進行的實驗表明,CALNet相較主流的先進模型具有更好的RGB-TSOD檢測結果。在未來,本文考慮將所提出的網絡運用在一些RGB-TSOD的實際應用中,并在更輕量化的網絡架構方面進行改進,以實現網絡精度與推理速度的平衡。

參考文獻:

[1] 李文舉,王子杰,崔柳.基于多特征融合和改進SIFT 的目標跟蹤算法[J].鄭州大學學報(理學版),2024, 56(1):40-46. LIWJ,WANG ZJ,CUIL.Target tracking algorithm based on multi feature fusion and improved SIFT[J]. Journal of Zhengzhou university (natural science edition),2024.56(1) :40-46.

[2] 吳宇鑫,陳知明,李建軍.基于半監督深度學習網絡 的水體分割方法[J].鄭州大學學報(理學版),2023, 55(6):29-34. WUYX,CHEN Z M,LIJJ.Water segmentation method based on semi supervised deep learning network [J]. Journal of Zhengzhou university (natural science edition),2023,55(6):29-34.

[3] TUZZ,XIAT,LICL,etal.M3S-NIR:multi-modal multi-scale noise-insensitive ranking for RGB-T saliency detection[C]//IEEE Conference on Multimedia InformationProcessing and Retrieval. Piscataway:IEEE Press, 2019:141-146.

[4] ZHANGQ,HUANG NC,YAOL,etal.RGB-T salient object detection via fusing multi-level CNN features[J]. IEEE transactions on image processing,2020,29:3321-

[5] LVCT,WANB,ZHOU XF,et al.CAE-net:crossmodal attention enhancement network for RGB-T salient object detection[J].Electronics,2023,12(4):953.

[6] TUZZ,LIZ,LICL,etal.Multi-interactivedual-decoderforRGB-thermal salientobjectdetection[J].IEEE signal processing,2021,30:5678-5691.

[7] LIU Z,MAO H Z,WU C Y,et al.A ConvNet for the 2020s[C]//IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway: IEEE Press, 2022:11966-11976.

[8] WANG Y,YANG Y,YANG Z H,et al. Occlusion aware unsupervised learning of optical flow[C]//IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press,2018:4884-4893.

[9] WANG G Z,LI C L,MA YP,et al. RGB-T saliency detection benchmark:dataset,baselines,analysis and a novel approach[C]//Chinese Conference on Image and Graphics Technologies. Berlin: Springer Press,2018: 359-369.

[10] TU Z Z,XIA T,LI C L,et al. RGB-T image saliency detection via collaborative graph learning[J].IEEE transactions on multimedia,2020,22(1):160-173.

[11]TUZZ,MAY,LIZ,etal.RGBTsalient object detection:a large-scale dataset and benchmark[J].IEEE transactionson multimedia,2023,25:4163-4176.

[12]FANDP,GONGC,CAO Y,et al.Enhanced-alignment measure forbinary foreground map evaluation[EB/OL]. (2018-05-26)[2023-06-01].http://arxiv.org/abs/ 1805.10421. pdf.

[13]FANDP,CHENGMM,LIUY,etal.Structure-measure:a new way to evaluate foreground maps[C]//IEEE International Conference on Computer Vision. Piscataway:IEEEPress,2017:4558-4567.

[14]ZHOU WJ,GUO QL,LEIJS,et al.ECFFNet:effectiveand consistent feature fusion network for RGB-T salientobject detection[J].IEEE transactions on circuits and systems for video technology,2022,32(3):1224- 1235.

[15]GAO W,LIAOGB,MASW,etal.Unified information fusion network formulti-modalRGB-DandRGB-Tsalient object detection[J]. IEEE transactions on circuits and systems forvideo technology,2022,32(4):2091- 2106.

[16]HUOFS,ZHUXG,ZHANGL,et al.Efficient context-guided stacked refinement network for RGB-T salient object detection[J].IEEE transactions on circuits and systems for video technology,2022,32(5):3111- 3124.

猜你喜歡
模態特征信息
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
多模態話語模態的協同及在外語教學中的體現
外語學刊(2010年2期)2010-01-22 03:31:03
主站蜘蛛池模板: 97久久免费视频| 日韩欧美中文在线| 精品国产福利在线| 日韩123欧美字幕| 性色生活片在线观看| 国产黄在线观看| 久久五月天国产自| 视频一区视频二区中文精品| 午夜国产理论| 国产丝袜第一页| 91香蕉视频下载网站| 国产福利小视频高清在线观看| 久草视频一区| 99青青青精品视频在线| 色综合婷婷| 伊人色综合久久天天| 操美女免费网站| 91精品国产丝袜| 依依成人精品无v国产| 久久综合成人| 日韩无码真实干出血视频| 日本午夜精品一本在线观看| 国产精品毛片一区| 97se亚洲综合在线韩国专区福利| 亚洲乱码在线播放| 超清无码一区二区三区| 国产乱人伦AV在线A| 国产成人精品2021欧美日韩| 92精品国产自产在线观看| 999精品在线视频| 久久中文无码精品| 无码高清专区| 97综合久久| 欧美成人影院亚洲综合图| 91丨九色丨首页在线播放| 成人字幕网视频在线观看| 中文字幕免费视频| 国产精品真实对白精彩久久 | 国产啪在线91| 中国精品久久| 国产精品无码作爱| 高清不卡毛片| 国产男女免费视频| 午夜a视频| 天堂网亚洲综合在线| 国产精品女同一区三区五区| 在线国产欧美| 黄色在线网| 日本人真淫视频一区二区三区| 国产成人麻豆精品| 热re99久久精品国99热| 91免费片| 性色在线视频精品| 77777亚洲午夜久久多人| 欧美影院久久| 精品第一国产综合精品Aⅴ| 精品撒尿视频一区二区三区| 波多野结衣AV无码久久一区| 久久久久国产精品熟女影院| 88av在线看| 免费全部高H视频无码无遮掩| 欧美性久久久久| 日本久久网站| 日本草草视频在线观看| 国产乱子伦无码精品小说| 十八禁美女裸体网站| 久久婷婷国产综合尤物精品| 久久精品丝袜高跟鞋| 亚洲人成网站色7777| 亚洲中文字幕无码mv| 国产永久无码观看在线| 日本精品一在线观看视频| 综合人妻久久一区二区精品| 亚洲精品成人福利在线电影| 国产综合网站| 欧美成人看片一区二区三区| 999福利激情视频| 亚洲天堂日韩av电影| 香蕉久人久人青草青草| 色综合久久久久8天国| 在线观看免费AV网| 久热中文字幕在线|