999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力交互的可見光紅外跟蹤算法

2024-02-28 10:58:00付飛亞唐自力
光學精密工程 2024年3期
關鍵詞:模態特征融合

王 暐, 付飛亞, 雷 灝, 唐自力

(中國人民解放軍63870部隊,陜西 渭南 714299)

1 引 言

作為計算機視覺的一個重要研究方向,視覺跟蹤長期以可見光圖像為研究對象[1],但可見光圖像在光照較差及雨、霧、霾等氣候條件下的成像效果不理想,導致跟蹤算法性能下降[2]。熱紅外相機在上述惡劣環境中的成像質量更高[1-2],因此,將可見光和熱紅外圖像進行融合,利用二者信息的互補能夠實現更穩定的跟蹤。目前,可見光紅外跟蹤(RGB and Thermal infrared tracking,RGB-T)已成為一個新的研究熱點,在無人駕駛、監控、軍事等領域具有廣泛的應用前景[2-3]。

RGB-T 跟蹤在傳統可見光跟蹤算法的基礎上進行多模態擴展。Li 等[4]較早進行了RGB-T的跟蹤研究,在基于稀疏表示的跟蹤框架下,將單模特擴展為多模態,引入自適應模態加權系數。Zhang 等[5]通過計算不同模態的融合權重,探索了后融合在RGB-T 跟蹤中的作用,同時引入運動估計提高跟蹤性能。

隨著深度學習在可見光跟蹤中的成功應用,深度學習也被應用于RGB-T 跟蹤。Li 等[6]利用兩個結構相同、參數經過微調的卷積神經網絡分別提取可見光和紅外圖像的特征,進行在線特征選擇,然后在核相關濾波[7]框架下跟蹤。Zhang等[8]基于經典跟蹤算法DiMP[9],全面考察了像素級、特征級和決策級的融合策略,指出特征級融合對RGB-T 跟蹤的性能提升最為顯著,但該方法使用了大量額外的訓練數據。

基于Siamese 網絡的跟蹤[10-11]是可見光跟蹤算法中的主流,具有優異的跟蹤性能。Zhang等[12]在SiamRPN++[11]的基礎上,提出一種特征互補和干擾物識別的RGB-T 跟蹤算法,設計專用的多模態特征融合模塊對可見光特征和紅外特征進行交互融合。但這類方法對RGB-T 跟蹤的性能提升并不明顯,通常需要采用較多的額外數據對網絡進行訓練才能達到RGB-T 跟蹤的基線水平,同時兩個模態各有兩路卷積網絡,使得模型較為繁瑣復雜。

MDNet[13]是一種相對較小的跟蹤網絡(參數量約為4.4M),將它擴展到可見光和紅外兩個模態時,對訓練數據的量要求較低,符合該領域的發展現狀,因此,較多的學者關注MDNet 架構下的RGB-T 跟蹤算法。文獻[14]提出了一種MANet 算法,將MDNet 中的卷積層定義為模態共享適配器,針對紅外和可見光圖像設計模態適配器,將MDNet 中的全連接層定義為目標適配器,同時考慮了模態間共享特征、模態專有特征以及目標特征。ADRNet[15],CAT[16],APFNet[17]均利用圖像序列的屬性提升跟蹤性能,為每個屬性類別的視頻訓練專門的網絡,然后將基于屬性的特征進行不同方式的融合。這些算法能夠在一定程度上提高跟蹤的精度和穩定性,但是在訓練階段需要額外提供圖像的屬性信息,同時專用網絡也會增加算法的復雜性。Wang 等[18]利用相關性對MDNet 中的卷積特征進行增強,建模得到了模態內、模態間和圖像幀間的相關關系,建立了紅外和可見光圖像特征的相互作用機制,取得較好的跟蹤結果。在該研究的基礎上,Xu 等[19]提出跨模態交互學習框架,將兩個模態的特征進行逐像素的相關,嘗試挖掘不同模態間更直接的相關關系,提升模態間的信息傳播。

上述研究的焦點基本都在可見光特征與紅外特征的有效融合上,融合方式主要以加權和串接為主。可見光和紅外圖像以相同的視角獲取,不僅具有模態的差異性,而且在圖像結構和內容上也具有共性,模態間的特征融合應同時考慮這種差異性和共性。文獻[18-19]通過直觀的相關操作對這種共性進行了探索和增強,但沒有進行更深入的挖掘。近年來,注意力機制在自然語言處理和計算機視覺領域大放異彩[20-22],特別是Transformer[20]。利用Transformer 的編碼器能夠對特征進行增強,而解碼器模塊能夠實現兩種模態特征自然且充分的交互。

本文采用transformer 的編碼器和解碼器對兩個模態的特征進行有效融合,增強可見光和紅外特征,并在融合后的特征中保留兩個模態的互補和共性信息,最終提升RGB-T 跟蹤的性能。

2 原 理

2.1 基于MDNet 的RGB-T 跟蹤算法框架

MDNet[13]是一種采用離線預訓練和在線更新結合的視覺跟蹤算法,其網絡由三個卷積層(CNN)和三個全連接層(FC)組成。在RGB-T跟蹤任務中,針對可見光和紅外圖像分別設置一路卷積,并將卷積特征進行融合,即可將MDNet擴展至多模態跟蹤。其算法框架如圖1 所示,包括雙路卷積層、融合網絡和全連接層等三部分。

圖1 基于MDNet 的RGB-T 跟蹤算法Fig.1 Basis framework of MDNet-based RGB-T tracking method

網絡的輸入為候選圖像塊,輸出為該圖像塊為目標的概率,每一幀的跟蹤結果為概率最大的圖像塊。MDNet 的卷積網絡已經針對可見光跟蹤進行了充分的訓練,能夠提取相應的卷積特征進行跟蹤。在跟蹤前僅需要對卷積層進行微調,并對融合網絡和全連接層進行初始化和訓練;在線跟蹤過程中,僅對全連接層進行微調和訓練。

2.2 Transformer

Transformer 首先在文獻[20]中被提出,并應用于機器翻譯任務。Transformer 由多個注意力模塊相互串聯構成,每個注意力模塊的輸入為整個句子,具有全局的表達能力。最初的Transformer 中采用兩種注意力模塊,編碼器和解碼器的結構如圖2 所示。編碼器中,輸入序列zl-1首先映射生成q,k,v,三者進行注意力(Attention)運算:

圖2 Transformer 結構Fig.2 Structure of transformer

該式通常采用矩陣化運算,d為k的維度。對z?l進行殘差操作(Add),經過映射和一個多層感知機(Multilayer Perception, MLP),即為編碼器的輸出zl。

解碼器和編碼器的結構基本相同,區別為解碼器多進行一個自注意力操作,并在第二個注意力操作中將k和v替換為外部輸入x的映射。文獻[20]中還采用位置編碼、多頭注意力等設置,本文不再詳述。

Transformer 結構目前已應用在圖像分類[21]、目標檢測[23]和目標跟蹤[24]等計算機視覺任務中,并取得了較好的效果,驗證了編碼器-解碼器的注意力機制對視覺任務的有效性。APFNet[17]在RGB-T 跟蹤中首先引入Transformer,但僅作為其融合網絡的眾多模塊中的一個,且只設計兩個編碼器和一個解碼器對特征進行增強。消融實驗表明,該Transformer 模塊的引入并未大幅提升RGB-T 跟蹤性能。與APFNet 不同,本文設計了一個完全由Transformer 結構組成的融合網絡,用以驗證Transformer 的注意力結構對多模態特征增強和融合的有效性。

3 本文算法

本文對可見光和紅外兩個模態的特征融合進行深入挖掘,在基于MDNet 的RGB-T 跟蹤框架下,提出一種基于注意力交互的RGB-T 跟蹤算法(Attention Interaction based RGB-T Tracking method,AIT)。AIT 的網絡結構如圖3 所示,包括卷積網絡、全連接網絡和融合網絡,其中前兩個網絡與MDNet 中相同。融合網絡的核心是特征增強和交互模塊(Feature Enhance and Interaction module,FEI),它利用自注意力特征增強編碼器(Self-feature Enhance Encoder,SEE)對紅外和可見光圖像特征進行增強,利用互注意力特征交互解碼器(Cross-feature Interaction Decoder,CID)對兩個模態的圖像進行交互融合。為了充分利用多層卷積特征,融合網絡對每層卷積特征均采用FEI 進行處理,并利用FEI 對處理后的融合特征進行進一步的融合和增強,以有效提高跟蹤算法的性能。

圖3 基于自注意力交互的RGB-T 跟蹤算法總體結構Fig.3 Framework of attention interaction based RGB-T tracking method

3.1 特征增強和交互模塊

原始的Transformer 結構由編碼器和解碼器串聯組成。為了實現更有效的特征增強和交互融合,這里采用相同的結構,利用兩層編碼器實現模態內的特征增強、兩層編碼器實現跨模態的特征交互。特征增強和交互模塊的結構如圖4 所示,由兩個自注意力特征增強編碼器(SEE)和兩個互注意力特征交互解碼器(CID)組成,SEE 和CID 的細節分別如圖5(a)和5(b)所示。

圖4 特征增強和交互模塊結構Fig.4 Structure of FEI module

圖5 自注意力增強編碼器和互注意力交互解碼器構圖Fig.5 Structure of Self-feature Enhanced Encoder(SEE)and Cross-feature Interaction Decoder(CID)

SEE 的輸入為單一模態的卷積特征,與原始Transformer 不同,本文沒有對特征進行升維和降維處理。首先直接將輸入特征Frgb(以可見光模態為例,紅外模態處理方式相同)按照卷積的空間維度進行變換,設Frgb的維度為H×W×C,H和W分別為特征的空間高寬,C為卷積特征通道數,則索引Q、鍵K、值V的維度為HW×C,表示有HW個向量,每個向量維度是C,且Q=K=V。然后進行自注意力運算,得到:

其中:Conv1×1表示1×1 卷積,Res 表示殘差連接。

SEE 第二層編碼器結構與第一層相同,但輸入中,索引Q、鍵值K由最初的特征Frgb維度變換得到,值V由第一層增強的特征維度變換得到,經第二層編碼器增強后的特征表示為上述操作表述為:

CID 在結構上與SEE 類似。為了實現可見光和紅外兩個模態的交互融合,利用注意力機制進行兩個模態特征的相互調節。以紅外特征對可見光特征進行調節為例,CID 兩層解碼器的索引Q、鍵K均來自SEE 增強后的紅外特征第一層解碼器的值V由SEE 增強后的可見光特征維度變換得到,第二層解碼器的值V來自第一層解碼器調節交互后的特征。將上述操作表述為:

3.2 多層卷積特征

為了充分利用低層到高層的所有卷積特征,對3 個卷積層的特征都進行了特征增強和交互,得到兩個模態分層增強和交互后的特征為了進一步在層間進行特征的增強和融合,對同一模態的多層融合特征進行維度變換并串接,得到和如圖3(b)所示。將得到的兩個特征作為FEI 的輸入,進行多層特征總體的增強和融合,最后將FEI 的兩個輸出特征串接,得到兩個模態的融合特征Ffuse。

3.3 離線訓練和在線跟蹤

所提網絡的離線訓練需要考慮:(1)兩路卷積層需要分別學習可見光和紅外圖像的特征;(2)全連接層重新初始化,以適應融合特征的輸入;(3)多層的特征增強和交互模塊具備特征增強和跨模特的交互能力。在APFNet 等算法中,研究人員采用多階段離線訓練方式逐個模塊進行訓練,但訓練過程較為繁瑣。本文提出對各模塊進行聯合訓練,同步優化卷積層、全連接層和融合模塊。

通過分析,卷積層和全連接層的參數量與MDNet 基本相同(卷積層參數量為1.8M+1.8M,全鏈接層參數量為5M)。在FEI 結構下,解碼器和編碼器中采用傳統的MLP,融合網絡的參數量將超過100M,對其進行完全初始化的訓練不利于網絡的收斂,因此,本文提出將解碼器和編碼器中的MLP 改為1×1 卷積,將融合網絡的參數量降至6M,以實現聯合訓練。聯合訓練的學習率設置為:卷積層0.000 01,全連接層0.001,融合網絡0.000 1,訓練的迭代次數為1 500。

在線跟蹤階段,在第一幀初始化FC6 層,微調FC4 和FC5 層,后續幀也僅對這3 個全連接層進行微調,FC4 和FC5 的學習率為0.000 1,FC6層學習率為0.001,網絡的其他層參數固定。其余細節請參考MDNet[13]和APFNet[14]。

3.4 算法跟蹤流程

綜上,AIT 算法的在線跟蹤流程如下。

4 實驗結果分析

實驗硬件平臺配置如下:CPU 為Intel? Xeon E5-2630 v4,內存為32 GB,GPU 為NVIDIA GeForce RTX 1080Ti,操作系統為 Ubuntu 22.04 LTS,使用pytorch 1.0.1,python 3.7,CUDA 10.2 a 環境。

4.1 數據集及測評方法

GTOT 數據集[24]:該數據集包含50 個可見光-紅外視頻序列,共有15 000 幀圖像,采集場景有道路、行人密集區域等,標注了尺度變化、快速運動、目標形變、熱交疊、小目標、遮擋和低光照等7 類對跟蹤具有挑戰性的標簽。

RGBT234 數據集[1]:這是目前應用最普遍的RGB-T 跟蹤數據集,包含234 個可見光-紅外視頻序列,總幀數超過234 000 幀,標注了12 類屬性標簽和遮擋水平等。

LasHeR 數據集[3]:該數據是目前最大的RGB-T 跟蹤數據集,包含1 224 個可見光-紅外視頻序列,其中979 個序列被劃分為訓練集,245 個被劃分為測試集。

?

本文采用精確率(Precision Rate,PR)和成功率(Success Rate,SR)作為各數據集的評價指標。對某個數據集,精確率定義為跟蹤算法輸出的目標位置與標注位置的像素距離小于或等于給定閾值的幀數同該數據集總幀數的百分比。通過給定不同的閾值得到算法對數據集的PR 曲線。為了更直觀地比較,在PR 曲線中取一個典型PR值對算法進行排名。GTOT 數據集中圖像的分辨率較低,目標的像素尺寸小,取閾值為5 對應的精確率為典型值,RGBT234 和LasHeR 數據集中,取閾值為20 對應的精確率為典型值。此外,定義成功率曲線,曲線的橫坐標為閾值,閾值范圍為[0, 1],曲線縱坐標值為跟蹤算法輸出的邊界框與標注邊界框之間的交并比(Intersection of Union,IoU)大于該閾值的幀數同數據集總幀數的百分比,成功率的典型值定義為該成功率曲線下的面積。后續分析中的具體數值對比均采用上述典型值。

為了展示所提算法的有效性,實驗選擇現有的主流RGB-T 跟蹤算法作為對比算法,包括APFNet[17],FANet[25],MANet[14],HDINet[26],M5L[27],CMPP[18],JMMAC[5],CAT[16],DAFNet[28],DAPNet[29],MaCNet[30],以及基礎MDNet在RGB-T 跟蹤任務上簡單處理擴展后的MDNet+RGBT。其中,APFNet 和CMPP 具有最好的跟蹤性能。

4.2 GTOT 數據集測評

采用RGBT234 數據集對所提算法進行離線訓練,然后測評GTOT 數據集,結果如圖6 所示。相較于基礎的MDNet+RGBT 算法,AIT 的跟蹤精確率和成功率分別提升了11.6% 和10.1%。圖6 中,多數算法在GTOT 數據集上具有較高的跟蹤性能,趨近飽和,表明該數據在規模和難度上已經不足以充分評估RGB-T 跟蹤算法。

圖6 AIT 及對比算法在GTOT 數據集上的跟蹤結果Fig. 6 Evaluation results of AIT and compared algorithms on GTOT dataset

4.3 RGBT234 數據集測評

采用GTOT 對所提AIT 算法進行離線訓練,圖7 為所提算法與對比算法在RGBT234 數據集上的跟蹤結果。如圖7 所示,AIT 算法取得最優的跟蹤結果,與原始MDNet+RGBT 相比,AIT 在精確率和成功率上分別提升了11.4%和8.6%,說明特征的交互融合對RGB-T 跟蹤的重要性。與已有算法中性能最優的APFNet 算法相比,AIT 在精確率和成功率上分別高出0.9%和0.2%。需要注意的是,APFNet 在離線訓練階段利用視頻的屬性信息和多階段的訓練策略,而AIT 僅僅是在MDNet 的基礎上利用FEI 進行特征增強和融合,進一步說明了FEI 的有效性。

圖7 AIT 及對比算法在RGBT234 數據集上的跟蹤結果Fig.7 Evaluation results of AIT and compared algorithm on RGBT234 dataset

4.4 LasHeR 數據集測評

雖然LasHeR 數據集提供了專用的訓練數據,但為了與已有算法保持一致,依然采用GTOT 進行離線訓練,圖8 為AIT 算法在LasHeR 數據集的測試集上的跟蹤結果。與前兩個數據集不同,該數據集的發布較晚,僅提供了部分較新算法的跟蹤結果,因此在該數據集上的對比算法有所不同,包括APFNet,DMCNet[31],DAPNet,CAT,DAFNet,FANet 和CMR[32]。如圖8所示,LasHeR 數據集的跟蹤難度較大,但AIT 算法依然取得了最優的跟蹤結果,在精確率上比已有的最好算法APFNet 和DMCNet 分別高0.9%和1.9%,在成功率上分別高0.1%和0.8%,說明了AIT 算法的有效性。

圖8 AIT 及對比算法在LasHeR 測試集上的跟蹤結果Fig.8 Evaluation results of AIT and compared algorithms on LasHeR testing set

4.5 消融實驗

為了驗證對所提融合網絡設計的合理性,進行了消融實驗。AIT 算法的幾個變種包括:(1)AIT_ch,這個版本中將編碼器和解碼器的注意力按照通道(channel)維度進行操作;(2)AIT_spch,將編碼器/解碼器中的第二層注意力改為通道維度操作,第一層依然為空間維度;(3)AIT_conv3,僅利用第三層卷積層進行跟蹤;(4)AIT_nolastEFI,在三個卷積層特征分別增強和融合后,直接進行維度變換和串接,不增加最后一個EFI 模塊。表1 為AIT 與這4 個變種在RGBT234 數據集上的跟蹤結果。

表1 AIT 及其變種在RGBT234 數據集上的跟蹤結果Tab.1 PR/SR scores of AIT and its variants on RGBT234 dataset

表1 中,AIT 優于AIT_ch 和AIT_spch,表明在本文融合網絡結構中,選用特征空間維度注意力操作優于特征通道維度。在特征方面,AIT 明顯優于AIT_conv3 和AIT_nolastEFI,表明多層特征的有效性和最后一個EFI 模塊的有效性。

5 結 論

本文提出了一種基于注意力交互的RGB-T跟蹤算法,從可見光和紅外兩種模態圖像的特征融合出發設計融合網絡,引入注意力機制實現了特征增強和跨模態的特征交互。在傳統Transformer 注意力網絡的基礎上,通過利用1×1 卷積替換全連接層等方式減小網絡規模。考察了不同層卷積特征對跟蹤性能的影響,提出了多層卷積融合的網絡結構。AIT 算法在GTOT,RGBT234 和LasHeR 三個數據集上進行了驗證,跟蹤結果優于文獻[17-18]中提出的基線算法,驗證了在RGB-T 跟蹤中注意力機制對多模態特征融合的有效性。

猜你喜歡
模態特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 欧美日韩国产综合视频在线观看| 免费毛片网站在线观看| 欧美亚洲国产精品久久蜜芽| 亚洲成人播放| 日本道中文字幕久久一区| 999国内精品久久免费视频| 精品视频一区在线观看| 在线看国产精品| 久久频这里精品99香蕉久网址| 成人午夜亚洲影视在线观看| 91亚洲影院| 成人另类稀缺在线观看| 亚洲成人网在线观看| 午夜人性色福利无码视频在线观看| 中文字幕第1页在线播| 色噜噜综合网| 欧美成a人片在线观看| 国产激情第一页| 91精品国产丝袜| 国产麻豆精品手机在线观看| www亚洲天堂| 国产精品自在在线午夜| 欧美在线中文字幕| 欧类av怡春院| 婷婷综合色| 日韩福利视频导航| 永久在线播放| 天天色综网| 国产一级毛片在线| 久久五月视频| 一区二区三区成人| 伊人无码视屏| 99视频在线免费| 亚洲婷婷丁香| 无码丝袜人妻| 在线精品欧美日韩| 男女性午夜福利网站| 中文字幕永久视频| 国产经典在线观看一区| 狠狠躁天天躁夜夜躁婷婷| 国产精品成人免费综合| 国产自无码视频在线观看| 91福利片| 欧美色丁香| 爱爱影院18禁免费| 色播五月婷婷| 久久精品亚洲专区| 国产精品三级av及在线观看| 国产欧美一区二区三区视频在线观看| 久久99国产综合精品1| av色爱 天堂网| 亚洲高清中文字幕在线看不卡| 欧美成人国产| 精品小视频在线观看| av手机版在线播放| 亚洲欧美日韩成人在线| 色婷婷成人| 欧美综合中文字幕久久| 日韩福利在线视频| 毛片网站观看| 亚洲国产黄色| 伊人欧美在线| 国产一二视频| 欧美午夜理伦三级在线观看| 国产在线一二三区| 日本欧美精品| 亚洲综合中文字幕国产精品欧美| 无码有码中文字幕| 国产成人无码综合亚洲日韩不卡| 国产在线观看高清不卡| 国产在线拍偷自揄观看视频网站| 中日韩一区二区三区中文免费视频| 亚洲区一区| 精品国产中文一级毛片在线看| 国产成人亚洲精品无码电影| 蜜臀AV在线播放| 欧美在线导航| 欧美精品在线看| 欧美色99| 国产成人av大片在线播放| 亚洲日本韩在线观看| 国产精品污视频|