

DOI:10.13705/j. issn.1671-6841.2023163
RGB-T Salient Object Detection Based on Cross-level Attention Learning
WEI Mingjun 1,2 ,WEI Shuai',LIU Yazhi 1,2 , LI Hui1 (1.College of Artificial Intelligence,North China University of Science and Technology, Tangshan 063210, China;2. Hebei Provincial Key Laboratory of Industrial Inteligent Perception, Tangshan O63210,China)
Abstract: RGB-thermal saliency object detection (RGB-T SOD) aimed to segment common salient regions in both visible light images and corresponding thermal infrared images.To address the problem of insuffcient utilization of cross-level complementary information among existing methods,a cross-level feature attention learning network (CALNet)was proposed for the RGB-T SOD task. Specifically,the network included a cross-level attention learning module(CAL),which used non-local attention to interact cross-level information among multiple modalities and could fuly explore global positions and local details across diffrent modalities and levels.Inaddition,the network also introduced a global information module(GIM)and a multi-interaction module(MIB),both of which could model and explore multi-type information in a layer-by-layer decoding process for more accurate RGB-T SOD. Extensive experiments on public RGB-T datasets demonstrated that the proposed network achieved excellent performance compared with state-of-the-art algorithms in the field.
Key words: multimodal; non-local attention; RGB-T; salient object detection; feature fusion
0 引言
顯著目標檢測(salient object detection,SOD)旨在從視覺場景中準確地檢測和分割最具吸引力的物體,在各種計算機視覺研究中,如視頻對象分割、光場圖像分割、目標跟蹤和實例分割2等,都起著重要作用。然而,目前的SOD方法大多數使用單一的RGB圖像進行檢測,這使它們易受天氣、光照等因素影響,無法獲得精確的檢測結果。近年來,隨著傳感器技術的飛速發展,研究者們可以在不同的模態下對物體進行成像。其中,紅外傳感器可以生成包含物體溫度信息的熱紅外圖像,這種圖像可以提供更多空間位置線索,能夠為提高SOD性能提供重要的信息補充。因此,基于熱模態信息與RGB信息的RGB-熱成像顯著目標檢測(RGB-TSOD)越來越受到研究者們的關注。2019年,Tu等[3使用了多模態多尺度流形排序的方法來處理RGB-TSOD任務中的兩種模態特征,并通過中間變量推斷最優排序種子進行顯著性預測。Zhang等4 同樣使用特征融合的方式來處理RGB-TSOD,他們將融合過程分為三個部分,首先組合相鄰的深度特征,然后捕捉跨模態特征,最后通過集成多級融合特征預測顯著性圖。2023年,Lv等5提出一個跨模態注意力增強網絡,該網絡首先通過交叉注意力單元來增強兩個模態的特征,然后使用通道注意力對它們進行動態加權融合。然而,這些方法都側重通過同層級特征融合的方式來處理兩種模態的信息,并沒有充分考慮多模態跨層級間的特征互補性。
在RGB-TSOD中,熱紅外圖像能更好地定位空間位置信息,RGB圖像則可以更好地展示細節紋理。同時,在神經網絡中,較淺層的特征中包含了豐富的細節和紋理信息。隨著網絡層數的加深,網絡則會越來越關注對象整體的語義,這些信息在網絡檢測物體時分別發揮著重要作用。因此如何充分學習不同模態與不同層級間的互補信息是進行準確RGB-TSOD的關鍵。其中的一個解決方案是實現多模態信息之間的充分交互,并利用跨層級信息獲得更豐富的多尺度特征,而這在很大程度上被當前的方法所忽略。
綜合考慮上述問題,本文提出了一種跨層級特征注意力學習網絡(CALNet),通過學習跨層級的多模態互補特征,以獲得更好的RGB-TSOD性能。它使用編解碼體系結構,在編碼部分,網絡采用兩個基于ConvNeXt的編碼器對輸入的RGB圖像與熱成像圖像進行雙流特征編碼。在解碼部分,網絡首先通過所提出的跨層級注意力學習模塊(CAL)對編碼器中不同模態與不同層級間的特征進行交互。之后,使用全局信息模塊(GIM)生成全局指導特征,以引導多交互模塊(MIB)對編碼器的各層級特征進行逐層解碼,并生成最終預測結果。在三個數據集上進行的實驗表明,所提出的網絡在四個評估指標上優于目前主流的方法。
跨層級特征注意力學習網絡
1. 1 總體架構
如圖1所示,本文的網絡整體采用雙流編解碼架構。編碼階段,網絡使用基于ConvNeXt的雙流編碼器分別對可見光和熱紅外圖像進行特征提取。在解碼階段,網絡首先使用跨層級注意力學習模塊(CAL)對不同層級的多模態特征進行交互學習。之后采用與文獻[6]類似的架構,使用全局信息模塊(GIM)處理編碼器輸出的最深層特征,以生成能夠精確定位顯著性區域的全局指導特征。然后通過多交互模塊(MIB),在全局指導特征的引導下融合多類型線索,并逐步實現顯著性計算。所提出的CALNet總共生成兩個預測輸出,其中包含一個由GIM生成的深層粗預測 Sg 和一個最終預測 Sf 。
1.2基于ConvNeXt的編碼網絡
ConvNeXt是一種卷積神經網絡,旨在提高特征提取的能力和模型性能[7]。該網絡基于ResNet架構,并從Transformer中借鑒了很多成功的做法。ConvNeXt整體分為4個階段,其中每個階段均由數個ConvNeXtBlock堆疊而成。每個ConvNeXtBlock由一個深度卷積(DepthwiseConv2d)、兩個 1×1 卷積、一個層歸一化(LayerNorm)、一個高斯誤差線性單元(GeLU)、一個LayerScale和一個DropPath 組成。其中,與ResNetBlock不同的是,它使用了 3×3 深度卷積,采用了反向瓶頸結構,用GeLU激活函數和層歸一化代替了線性整流函數(ReLU)和批量歸一化(BN),且減少了激活函數的使用次數。這樣的設計確保了ConvNeXt的檢測效率和準確率。因此,本文選擇ConvNeXt作為骨干網絡,以提高任務的性能。
1.3 解碼網絡
1.3.1跨層級注意力學習模塊本文設計了一個跨層級注意力學習模塊(CAL),以實現熱模態特征與RGB特征間的跨層級信息交互。CAL基于非局部注意力實現,能夠對不同模態與不同層級間特征的長距離空間相關性進行建模。具體來說,該模塊接收編碼網絡產生的不同層次的多模態特征T5和 R4 作為輸入。如圖2所示,輸入分別為 c×h×w 與
是通道數, h 和 w 分別為特征圖的高和寬)的雙模態特征,由于不同層級的特征存在維度、尺度上的差異,模塊首先對RGB特征進行兩次卷積處理,以改變其維度與尺度大小,使之與深層的熱模態特征相對應。之后,對兩個模態的特征分別進行卷積降維和重塑操作以生成鍵值: K?1?K?2 和 ν 其中,RGB 特征的鍵 Kr 會被用作熱模態特征鍵值
的查詢,兩組鍵之間通過相容函數生成注意力矩陣,并通過softmax歸一化生成注意力權重。該權重會通過矩陣相乘的方式對熱模態特征的值 V 進行加權,加權的結果會在被重塑 c′×h′×w′ 后進行輸出,以得到包含豐富細節信息的熱模態特征。以上過程用公式表示為

A=f(K1,K2),
W=softmax(A)
OUT=Reshape(WTV)
其中: K?1∈Rn×c;K?2∈Rn×c;V∈Rn×c;n=h×w?1 Reshape(·)代表重塑操作 :f(?) 是相容函數,它以矩陣相乘的方式實現; ±bA∈Rn×n 是注意力矩陣; ±bW∈ Rn×n 是注意力權重;
是CAL的輸出特征。這種多模態間的跨層級對象信息學習,能夠讓具有良好位置信息的深層熱模態特征學習淺層RGB特征中的詳細細節和邊界信息,使網絡獲得包含更豐富細節表示的高級語義特征。
1.3.2全局信息模塊在跨層級的多模態特征學習后,本文引入全局信息模塊(GIM)[來生成全局指導特征。GIM接收最高層級的RGB特征R5和紅外熱特征T5作為輸入,并在級聯后使用通道注意力來對兩種模態的特征進行重組。之后,采用一個卷積塊對其進行降維,以得到特征 F


其中: Conv(?) 表示卷積塊; Concat(?) 表示級聯操作; CA(?) 表示通道注意力操作,計算為X′=Sigmoid(C(A1(X))+C(M1(X)))X, 其中: c 為 1×1 卷積; A1 為全局平均池化; Mr 為全局最大池化; X 與 X′ 分別為通道注意力輸入和輸出特征。進一步,GIM通過四個不同尺寸的自適應最大池化操作來對 F 進行處理,并使用四個具有不同尺寸卷積核的卷積塊,分別對池化后的特征進行學習,旨在獲得更豐富的多尺度特征。最后,四個卷積塊的輸出特征會在上采樣后與 F 進行級聯,并在卷積降維后,作為GIM的輸出。該輸出將被用于生成網絡的深層次預測 Sg ,并同時被輸入到各層級的多交互模塊中,以在逐層解碼中指導網絡更準確地定位圖像中的顯著區域
1.3.3多交互模塊參考文獻[6]中的解碼架構,在全局信息模塊后,本文使用多個級聯的多交互模塊(MIB)對特征進行逐層解碼。該模塊能夠實現雙模態信息、細節特征信息和全局信息的充分交互。多交互模塊由3個特征分支組成。在第1個特征分支中,MIB使用通道注意力細化后的編碼器各層級特征來幫助解碼器逐步恢復圖像中的空間細節。在第2個特征分支中,更深層的兩個多交互模塊的輸出在級聯后被作為輸入(其中,第4層MIB分別接收CAL的輸出和R5作為輸入),這種具有較強像素相關性的高級語義特征會在通道注意力細化后被上采樣到與當前層級特征相同的大小。在第3個分支中,MIB接受全局信息模塊的輸出作為輸人,通過全局指導的方式豐富淺層特征中被稀釋的語義信息,并抑制背景噪聲。最后,MIB使用卷積來對各個分支中特征的通道數進行統一,并采用逐元素相加的方式對它們進行融合,融合得到的特征會在卷積處理后進行輸出。
通過多個多交互模塊的逐層級解碼,所提出的網絡能夠充分融合不同模態、不同層次的多類型信息,并生成更準確的最終預測 Sf 。
1. 4 損失函數
顯著目標檢測任務中常用的損失函數為二元交叉熵(BCE)損失,計算為
(20其中:
為網絡預測的顯著圖;
為真值圖; T 是圖像中的總像素數。此外,受文獻[8]的啟發,為了獲得更清晰的邊緣,本文額外引入了平滑度損失 Ls 作為約束, Ls 通過計算平滑項中顯著圖的一階導數得到,其定義與文獻[8]中相同。
本文提出的網絡共有兩個預測輸出,其中包含來自全局指導模塊的深層預測 Sg 和網絡的最終預測 Sf ,它們均在上采樣后通過真值圖進行監督。因此,網絡的總損失為

βLs(Sg,Y)+βLs(Sf,Y)
這里, β=0.5 ,以平衡平滑度損失的影響。
2 實驗細節
2.1 數據集
本文在三個公開使用的RGB-T顯著目標檢測數據集上評估所提出的網絡,包括VT821[9]VT1000[10] 和 VT5000[11] 。VT821包含 821個 RGB-T圖像對,且部分圖像添加了噪聲以提高數據集的挑戰性。VT1000包含1000個相對簡單且對齊良好的RGB-T圖像對,而VT5000則收集了5000個對齊的RGB-T圖像對,其場景更為復雜。本文中采用主流的訓練與測試方法,使用VT5000中的2500個不同的RGB-T圖像對進行訓練,并使用VT5000中的其余圖像與VT821和VT1000一起對網絡進行測試評估。
2. 2 實施細節
本文的網絡基于Pytorch實現,所有實驗均在NVIDIAGeForceRTX3060(12GB顯存)上運行。訓練epoch的數量被設置為100,批量大小被設置為4。初始學習率為1e-3,在訓練20個周期后變為1e-4,在50個周期之后變成1e-5。本文采用SGD優化器,權重衰減為5e-4,momentum為0.9。對于RGB-T圖像對的輸入,本文將所有的圖像像素調整為 352×352 。此外,為了提高網絡的魯棒性并同時減少單一模態圖像中可能的污染信息的干擾,本文遵循文獻6]所提出的方法,在訓練時應用數據增強策略。具體地,在訓練時以 10% 的概率隨機將雙模態中的一個輸入歸零,并以 10% 的概率隨機添加高斯噪聲。
2.3 評估指標
本文使用加權 F 度量 (Fβ )、結構測度 s 度量(Sα) )、平均增強匹配標準 E 度量 (Eε)[12] 和平均絕對誤差 (MAE) )來對所提出的網絡進行評估。其中,加權 F 度量通過查準率(Precision)和召回率(Recall)來評估模型的性能,表示為


其中: TP,FP 和 FN 分別表示真陽性、假陽性和假陰性, η2 被設置為0.3。平均絕對誤差的公式表示為

s 度量用于評估真實顯著對象與預測顯著對象空間結構的相似性,它結合了區域感知的結構相似性 Sr 和對象感知的結構相似性 So ,
Sα=α?S0+(1-α)?Sr,
本文參考文獻[13]設置 α 為0.5。 E 度量[12]可以獲得真值圖與預測圖間圖像級的統計信息和像素級的匹配信息。評估時 SαΓαFβΓνEε 越大越好, MAE 越小越好。
3 實驗結果與分析
3.1 定量對比
本文將所提出網絡與其他主流RGB-TSOD算法進行了比較,以評估所提出網絡的檢測效果,最好的結果以加粗形式標出。如表1所示,本文的網絡幾乎在所有指標上都取得了良好的性能。其中,與第二優的CAENet相比,在最大的評估數據集VT5000上 Sα?Fβ?Eε 分別提高了 1.8% 、3.0%.1.6%,MAE 降低了 21.1% ,驗證了所提出模型的有效性。

3.2 定性對比
圖3展示了本文網絡與相關領域的一些先進模型的定性對比結果,包括在各種具有挑戰性的不同場景下的性能比較。例如,多顯著對象(行2)、圖像雜波(行4)、交叉圖像邊界(行5)、中心偏移(行10)等,結果表明本文的網絡取得了更好的檢測效果。其中,T表示紅外圖;RGB表示可見光圖;GT表示真值圖。

3.3 消融實驗
本文首先評估了跨層級注意力學習模塊對網絡性能的影響。消融實驗中,首先從完整的網絡中去除CAL模塊,之后使用同層級的注意力交互(MAI)來對其進行代替。如表2所示,相比于完整的跨層級特征注意力學習網絡(本文算法),當去除CAL時(W/OCAL),熱模態特征無法學習RGB特征中的互補細節信息,造成了檢測性能的下降。當使用同層級交互時(MAI),網絡無法獲得更豐富的多尺度信息,其性能無法達到最優,定性對比結果如圖4所示。這驗證了所提出的CAL的有效性。


之后,本文對跨層級注意力學習模塊中的特征學習方式進行了評估。如表3所示,本文共設計了8種不同的跨層級特征學習方式,表中第1列括號內為輸入CAL中進行交互學習的編碼器特征,其中下劃線的特征為交互時進行學習的主體,CAL的輸出將代替該特征在多交互模塊中進一步解碼。定量實驗的結果表明,當使用第5層熱紅外特征T5對第4層RGB特征R4進行注意力學習時,網絡性能達到最佳。因此,本文最終采用這種方式。

4結語
本文提出了一個跨層級特征注意力學習網絡(CALNet),該網絡使用編碼器-解碼器架構,能夠進行更準確的RGB-TSOD。為了進行多模態間的跨層級特征交互,CALNet中使用了一個跨層級注意力學習模塊,該模塊能夠實現深層熱模態特征與淺層RGB特征間的顯著性特征學習,使熱模態特征獲得對象更多的紋理細節。此外,在解碼階段網絡還引入了全局信息模塊與多交互模塊,以實現全局信息指導下的逐層多信息融合解碼。在三個公共數據集上進行的實驗表明,CALNet相較主流的先進模型具有更好的RGB-TSOD檢測結果。在未來,本文考慮將所提出的網絡運用在一些RGB-TSOD的實際應用中,并在更輕量化的網絡架構方面進行改進,以實現網絡精度與推理速度的平衡。
參考文獻:
[1] 李文舉,王子杰,崔柳.基于多特征融合和改進SIFT 的目標跟蹤算法[J].鄭州大學學報(理學版),2024, 56(1):40-46. LIWJ,WANG ZJ,CUIL.Target tracking algorithm based on multi feature fusion and improved SIFT[J]. Journal of Zhengzhou university (natural science edition),2024.56(1) :40-46.
[2] 吳宇鑫,陳知明,李建軍.基于半監督深度學習網絡 的水體分割方法[J].鄭州大學學報(理學版),2023, 55(6):29-34. WUYX,CHEN Z M,LIJJ.Water segmentation method based on semi supervised deep learning network [J]. Journal of Zhengzhou university (natural science edition),2023,55(6):29-34.
[3] TUZZ,XIAT,LICL,etal.M3S-NIR:multi-modal multi-scale noise-insensitive ranking for RGB-T saliency detection[C]//IEEE Conference on Multimedia InformationProcessing and Retrieval. Piscataway:IEEE Press, 2019:141-146.
[4] ZHANGQ,HUANG NC,YAOL,etal.RGB-T salient object detection via fusing multi-level CNN features[J]. IEEE transactions on image processing,2020,29:3321-
[5] LVCT,WANB,ZHOU XF,et al.CAE-net:crossmodal attention enhancement network for RGB-T salient object detection[J].Electronics,2023,12(4):953.
[6] TUZZ,LIZ,LICL,etal.Multi-interactivedual-decoderforRGB-thermal salientobjectdetection[J].IEEE signal processing,2021,30:5678-5691.
[7] LIU Z,MAO H Z,WU C Y,et al.A ConvNet for the 2020s[C]//IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway: IEEE Press, 2022:11966-11976.
[8] WANG Y,YANG Y,YANG Z H,et al. Occlusion aware unsupervised learning of optical flow[C]//IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press,2018:4884-4893.
[9] WANG G Z,LI C L,MA YP,et al. RGB-T saliency detection benchmark:dataset,baselines,analysis and a novel approach[C]//Chinese Conference on Image and Graphics Technologies. Berlin: Springer Press,2018: 359-369.
[10] TU Z Z,XIA T,LI C L,et al. RGB-T image saliency detection via collaborative graph learning[J].IEEE transactions on multimedia,2020,22(1):160-173.
[11]TUZZ,MAY,LIZ,etal.RGBTsalient object detection:a large-scale dataset and benchmark[J].IEEE transactionson multimedia,2023,25:4163-4176.
[12]FANDP,GONGC,CAO Y,et al.Enhanced-alignment measure forbinary foreground map evaluation[EB/OL]. (2018-05-26)[2023-06-01].http://arxiv.org/abs/ 1805.10421. pdf.
[13]FANDP,CHENGMM,LIUY,etal.Structure-measure:a new way to evaluate foreground maps[C]//IEEE International Conference on Computer Vision. Piscataway:IEEEPress,2017:4558-4567.
[14]ZHOU WJ,GUO QL,LEIJS,et al.ECFFNet:effectiveand consistent feature fusion network for RGB-T salientobject detection[J].IEEE transactions on circuits and systems for video technology,2022,32(3):1224- 1235.
[15]GAO W,LIAOGB,MASW,etal.Unified information fusion network formulti-modalRGB-DandRGB-Tsalient object detection[J]. IEEE transactions on circuits and systems forvideo technology,2022,32(4):2091- 2106.
[16]HUOFS,ZHUXG,ZHANGL,et al.Efficient context-guided stacked refinement network for RGB-T salient object detection[J].IEEE transactions on circuits and systems for video technology,2022,32(5):3111- 3124.