彭沛然, 任術(shù)波, 李佳男, 周鴻偉, 許廷發(fā)*
(1.北京理工大學(xué) 光電學(xué)院, 北京 100081; 2.中國(guó)空間技術(shù)研究院 通信與導(dǎo)航衛(wèi)星總體部, 北京 100094)
行人檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù)之一,其主要研究目標(biāo)是準(zhǔn)確識(shí)別和定位圖像中的行人目標(biāo)。該技術(shù)已廣泛應(yīng)用于自動(dòng)駕駛[1]、無(wú)人機(jī)智能巡航[2]和機(jī)器人智能控制[3]等多種實(shí)際場(chǎng)景,并為人體行為識(shí)別和人體動(dòng)作理解等研究提供了理論基礎(chǔ)[4]。然而,傳統(tǒng)基于可見(jiàn)光圖像的行人檢測(cè)方法受到光照、天氣變化或遮擋物等因素的干擾,從而降低了智能裝備的可靠性[5]。為了解決這一問(wèn)題,熱紅外圖像被廣泛用作補(bǔ)充信息,以提高在低光照條件下的檢測(cè)精度。此外,將可見(jiàn)光與紅外圖像進(jìn)行融合可以進(jìn)一步提升在復(fù)雜光照環(huán)境下的檢測(cè)性能,使其具有全天候應(yīng)用價(jià)值和重要的學(xué)術(shù)意義。韓國(guó)科學(xué)技術(shù)院(KAIST)提出了一個(gè)多光譜行人數(shù)據(jù)集[6],其包含大量完全重疊的可見(jiàn)光和熱紅外圖像對(duì)。因此,該數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集,被廣泛使用于相關(guān)研究中[6-13]。
盡管現(xiàn)有方法在可見(jiàn)光圖像與熱紅外圖像融合任務(wù)上取得了一定進(jìn)展,但大多數(shù)方法仍未能切實(shí)解決兩個(gè)顯著的挑戰(zhàn)。首先,可見(jiàn)光圖像和熱紅外圖像在目標(biāo)屬性上存在內(nèi)在差異,前者與顏色相關(guān),后者與溫度相關(guān)。因此,如何準(zhǔn)確、高效地利用兩種光譜特征表達(dá)仍然具有一定難度。其次,在可見(jiàn)光與熱紅外圖像中,普遍存在由于傳感器差異所引起的光譜特異性噪聲問(wèn)題。當(dāng)使用可見(jiàn)光傳感器采集圖像時(shí),低照度環(huán)境會(huì)限制傳感器對(duì)光線的敏感度,從而產(chǎn)生傳感器噪聲。這種噪聲容易導(dǎo)致背景與目標(biāo)之間提取的特征產(chǎn)生混淆。另一方面,使用熱成像傳感器進(jìn)行圖像采集時(shí),可能出現(xiàn)熱量與周圍環(huán)境相近所導(dǎo)致的目標(biāo)與背景特征相混淆的情況,同時(shí)熱成像目標(biāo)與可見(jiàn)光目標(biāo)相比缺少大量的邊緣特征。因此,通過(guò)提取并融合兩種光譜圖像的內(nèi)在獨(dú)特特征進(jìn)行檢測(cè),比單一光譜檢測(cè)具有更大的優(yōu)勢(shì)。
針對(duì)上述問(wèn)題,目前大多數(shù)方法主要集中在解決第一個(gè)問(wèn)題。通常情況下,標(biāo)準(zhǔn)的融合網(wǎng)絡(luò)會(huì)使用兩個(gè)分支的卷積神經(jīng)網(wǎng)絡(luò)(CNN)分別提取兩種光譜圖像的特征,并通過(guò)設(shè)計(jì)融合方法將這些特征信息直接合并。例如,文獻(xiàn)[12]和文獻(xiàn)[13]為確定最佳的融合階段,提出了在不同階段進(jìn)行融合的網(wǎng)絡(luò)結(jié)構(gòu)。文獻(xiàn)[11]提出了一個(gè)區(qū)域特征對(duì)齊模塊,通過(guò)對(duì)齊兩種光譜圖像中相應(yīng)的特征區(qū)域,以提高融合的質(zhì)量。文獻(xiàn)[14]針對(duì)模態(tài)不平衡的問(wèn)題,提出了一種差異化模態(tài)感知融合模塊。雖然上述方法提出了各種合理的解決方案,但這些方法忽略了不同模態(tài)特征內(nèi)在的相關(guān)聯(lián)系,限制了融合特征的表現(xiàn)潛力。同時(shí),這些方法也沒(méi)有考慮到可見(jiàn)光與熱成像光譜圖像中存在光譜特異性噪聲的問(wèn)題,這些噪聲會(huì)降低特征融合的性能。
為了解決上述問(wèn)題,本文提出一種全新的光照感知跨光譜融合行人檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠利用多光譜圖像中的特異性特征,同時(shí)輔助決策多光譜特征信息的選擇。本文方法包含三個(gè)部分:交叉注意力特征提取模塊、光照感知子網(wǎng)絡(luò)和檢測(cè)頭。首先,將兩種不同光譜的圖像輸入交叉注意力特征提取模塊中,通過(guò)注意力機(jī)制提取光譜間的全局共性特征,并得到兩組特征金字塔。其次,由于不同光照環(huán)境下兩種光譜特征的置信程度不同,將兩種光譜圖像輸入光照感知子網(wǎng)絡(luò)中,獲得兩種光譜特征的光譜權(quán)重,以實(shí)現(xiàn)自適應(yīng)校正。最后,通過(guò)檢測(cè)頭得到具有兩種光譜特征優(yōu)勢(shì)的檢測(cè)結(jié)果。本文提出的方法在行人檢測(cè)任務(wù)上表現(xiàn)出色,并且可擴(kuò)展到其他跨光譜應(yīng)用領(lǐng)域。
本文的主要貢獻(xiàn)有如下三方面:
1) 提出了一個(gè)新穎的光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)用于多光譜行人檢測(cè)。通過(guò)提出的交叉注意力特征提取模塊提取兩種光譜的全局共性信息,獲得表達(dá)更強(qiáng)的目標(biāo)信息特征。
2) 提出了一個(gè)光照感知自網(wǎng)絡(luò),通過(guò)提取兩種光譜的光照信息得到光譜權(quán)重,以根據(jù)光照條件的變化自適應(yīng)校正融合特征。
3) 本文提出的光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)在KAIST多光譜行人檢測(cè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,與多種現(xiàn)存網(wǎng)絡(luò)進(jìn)行比較,取得了令人滿意的檢測(cè)性能。
自從KAIST多光譜行人檢測(cè)數(shù)據(jù)集[6]被提出以來(lái),基于多光譜數(shù)據(jù)的算法取得了飛速的進(jìn)展[8-14]。最早的基線網(wǎng)絡(luò)由文獻(xiàn)[6]提出,它將聚合通道特征(ACF)[15]算法擴(kuò)展到了可見(jiàn)-紅外圖像對(duì)上,并在特征提取的最后階段融合兩個(gè)子網(wǎng)絡(luò)進(jìn)行檢測(cè)。隨后,Liu等[12]將兩個(gè)基于CNN的子網(wǎng)絡(luò)進(jìn)行融合,并設(shè)計(jì)了4種不同的網(wǎng)絡(luò)結(jié)構(gòu),以探究最佳的融合階段。然而,由于可見(jiàn)光譜更容易受到光照條件的影響,Li等[9]提出了一種基于光照的權(quán)重分配機(jī)制,以更合理地融合兩個(gè)光譜子網(wǎng)絡(luò)。跨模態(tài)交互注意力網(wǎng)絡(luò)(CIAN)[16]為了提取可見(jiàn)光與紅外圖像的相同特征,設(shè)計(jì)了一個(gè)交叉模態(tài)交互模塊,以自適應(yīng)地融合兩種光譜的特征。此外,為了解決可見(jiàn)光與紅外圖像對(duì)中位置偏移的問(wèn)題,弱對(duì)齊卷積網(wǎng)絡(luò)(AR-CNN)[10]設(shè)計(jì)了一個(gè)區(qū)域特征對(duì)齊模塊,來(lái)對(duì)齊兩個(gè)光譜的區(qū)域特征。傳統(tǒng)的特征融合方法通常基于兩個(gè)獨(dú)立的分支分別提取不同光譜特征,然后直接將它們合并在一起。然而,這些方法未能充分考慮不同光譜之間的相互關(guān)系,即不同光譜對(duì)同一目標(biāo)的多方位表達(dá),從而限制了目標(biāo)特征的表達(dá)潛力。因此,本文提出了一個(gè)光照感知子網(wǎng)絡(luò),以實(shí)現(xiàn)在不同光照條件下的自適應(yīng)調(diào)整,并進(jìn)一步提升多光譜行人檢測(cè)性能。
注意力機(jī)制最初在自然語(yǔ)言處理領(lǐng)域提出[17],由于其出色的性能,在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛應(yīng)用,包括圖像分類[18]、語(yǔ)義分割[19]、圖像捕捉[20]等任務(wù)。例如,壓縮與激勵(lì)網(wǎng)絡(luò)(SENet)[18]通過(guò)利用通道特征之間的相關(guān)性,重新校準(zhǔn)通道特征圖;選擇性卷積網(wǎng)絡(luò)(SKNet)[21]設(shè)計(jì)了不同的卷積核來(lái)自適應(yīng)地融合不同分支的輸入信息;通道注意力模塊(CBAM)[22]則依次計(jì)算了通道和空間維度的注意力圖,以自適應(yīng)地完善特征。對(duì)于多光譜行人檢測(cè),其中一個(gè)關(guān)鍵的挑戰(zhàn)是如何在兩種模態(tài)之間存在本質(zhì)區(qū)別的情況下,充分利用兩種模態(tài)以及它們各自的特定噪聲。為此,本文提出一種交叉注意力特征提取網(wǎng)絡(luò),結(jié)合注意力機(jī)制,充分利用多光譜的特異性特征。
本文提出的行人檢測(cè)網(wǎng)絡(luò)以一組可見(jiàn)光和紅外圖像對(duì)作為輸入,通過(guò)交叉注意力特征提取模塊來(lái)利用兩種光譜的潛在關(guān)系互相輔助地提取特征。同時(shí)本文設(shè)計(jì)了一個(gè)光照感知子網(wǎng)絡(luò),基于光照的差異提取目標(biāo)的光譜特性來(lái)進(jìn)一步提高檢測(cè)的精度。總體架構(gòu)如圖1所示。圖1中,Fri和Fti(i=1~5)分別表示可見(jiàn)光和紅外第i層的特征圖,Cri和Ctji分別表示經(jīng)過(guò)交叉注意力模塊融合后的可見(jiàn)光和熱成像第i層的特征圖(圖中未顯示第5個(gè)交叉注意力模塊),wr和wt分別表示輸入圖像被預(yù)測(cè)屬于白天或黑夜的概率。下面詳細(xì)解釋具體的網(wǎng)絡(luò)結(jié)構(gòu)。
在行人檢測(cè)中,提取并融合有效的可見(jiàn)與紅外光譜特征,對(duì)于準(zhǔn)確性至關(guān)重要。然而,由于兩種光譜內(nèi)都存在不可避免的特異性噪聲,直接融合會(huì)對(duì)特征質(zhì)量產(chǎn)生極大影響。具體地,可見(jiàn)光噪聲是傳感器噪聲,由復(fù)雜的光照條件所產(chǎn)生,例如低照度下傳感器只能采集微弱的圖像;紅外噪聲是溫度噪聲,通常由復(fù)雜的溫度環(huán)境所產(chǎn)生,例如與周圍環(huán)境相似的物體容易與周圍環(huán)境混淆。為了抑制光譜特異性噪聲并充分利用光譜特征之間的內(nèi)在關(guān)聯(lián)性,本文提出了交叉注意力特征提取模塊。通過(guò)聚合并提煉兩種光譜的共性特征,該模塊可以抑制特異性噪聲并重新校準(zhǔn)單一光譜特征提取,如圖1灰色區(qū)域所示。
由于可見(jiàn)光與紅外傳感器的成像機(jī)制,光譜特異性噪聲多表現(xiàn)為與目標(biāo)亮度或熱量近似的背景環(huán)境,即容易導(dǎo)致目標(biāo)與背景的混淆。因此,在每階段特征提取的過(guò)程中,需要對(duì)兩種光譜的中間特征進(jìn)行聚合與重新標(biāo)定。為防止特異性噪聲干擾另一光譜特征的提取,需要在特征聚合之前過(guò)濾置信度較低的特征。在實(shí)際操作中,如圖1灰色區(qū)域所示,將輸入的可見(jiàn)光與紅外圖像表示Ri∈RH×W×2(H為圖像的高,W為圖像的寬)和Ti∈RH×W×1,每一階段的光譜提取特征為Fri∈RHi×Wi×Ci(i為任一階段的序號(hào))和Fti∈RHi×Wi×Ci,其中Hi=H/(4*2i),Wi=W/(4*2i),Ci為第i階段特征的通道數(shù)。將每一階段的光譜提取特征輸入交叉注意力模塊fcross中,得到兩種光譜的去噪特征Cri∈RHi×Wi×Ci和Cti∈RHi×Wi×Ci。
交叉注意力模塊如圖2所示,其中fmlpr1、fmlpt1、fmlpr2、fmlpt2分別為可見(jiàn)與紅外特征的轉(zhuǎn)化函數(shù),softmax為歸一化指數(shù)函數(shù)。將輸入的兩種光譜特征Fri和Fti進(jìn)行拼接并重置尺寸得到Fci∈R2HiWiCi×1×1,分別通過(guò)兩個(gè)不同的多層感知機(jī)(MLP)層后得到兩種光譜的噪聲權(quán)重wri∈RHiWiCi×1×1和wti∈RHiWiCi×1×1,將其分別與輸入光譜特征Fri和Fti相乘,得到兩種光譜的去噪特征Vri∈RHi×Wi×Ci和Vti∈RHi×Wi×Ci,公式如下:

圖2 交叉注意力模塊架構(gòu)圖
Fci=reshape(Fri⊕Fti)
(1)
(2)
(3)
式中:reshape(·)表示矩陣變換操作;⊕表示拼接操作;?表示通道維乘法。
將兩種去噪特征進(jìn)行拼接,對(duì)拼接特征Vci∈RHi×Wi×2Ci分別輸入到3個(gè)不同對(duì)卷積層中,分別得到Q∈RHi×Wi×2Ci,K∈RHi×Wi×2Ci和V∈RHi×Wi×2Ci,經(jīng)過(guò)注意力操作,得到最終的增強(qiáng)特征Cri∈RHi×Wi×Ci,Cti∈RHi×Wi×Ci,公式如下:
Vci=Vri⊕Vti
(4)
(5)
(6)
(7)

最終的公式可以表示為
Fr1,Ft1=fca(Ri,Ti)
(8)
Cri,Cti=fca(Fri,Fti)
(9)
式中:fca表示交叉注意力模塊。
針對(duì)可見(jiàn)光和紅外光譜傳感器的光譜特性不同以及晝夜光照情況明顯差異的特點(diǎn),本文提出一種基于光照強(qiáng)度加權(quán)子網(wǎng)絡(luò)的檢測(cè)模型優(yōu)化方法,如圖1所示。該方法在模型中引入橘色區(qū)域所示的自適應(yīng)調(diào)整模塊,實(shí)現(xiàn)了在不同光照條件下的魯棒性提升和檢測(cè)精度的提高。
在實(shí)際操作中,選取第一階段的光譜提取特征Fr1和Ft1作為輸入圖像。這兩個(gè)特征分別經(jīng)過(guò)兩層卷積,得到新的特征Fr2和Ft2。然后,將這兩個(gè)特征拼接起來(lái),并通過(guò)一個(gè)調(diào)整過(guò)的S型生長(zhǎng)曲線(Sigmoid)函數(shù)進(jìn)行加權(quán)平均,以獲得最終的輸入圖像被預(yù)測(cè)屬于白天或黑夜的概率。該Sigmoid函數(shù)的參數(shù)是可學(xué)習(xí)的,因此它可以適應(yīng)白天或夜晚的不同情況。預(yù)測(cè)輸入圖像屬于白天或夜晚的權(quán)重的運(yùn)算公式如下:
(10)
式中:wd和wn分別為輸入圖像被預(yù)測(cè)屬于白天或黑夜的概率;wt、wr分別為紅外特征和可見(jiàn)光特征的權(quán)重。
光照感知子網(wǎng)絡(luò)的損失函數(shù)為
(11)

通過(guò)擴(kuò)展經(jīng)典的聚焦網(wǎng)絡(luò)(RetinaNet)[23]檢測(cè)頭結(jié)構(gòu),得到檢測(cè)頭網(wǎng)絡(luò),其中包括兩個(gè)并行分支,分別為分類分支和回歸分支。兩個(gè)分支中設(shè)置了不同數(shù)量的模塊。分類分支上有兩個(gè)模塊,回歸分支上有4個(gè)模塊,每個(gè)模塊包含一個(gè)卷積層、一個(gè)批處理歸一化層和一個(gè)線性整流(ReLU)層。將兩種光譜的特征金字塔Fri和Fti作為輸入,將結(jié)果與光照感知權(quán)重分別相乘并求和,得到最終的檢測(cè)結(jié)果S,公式如下:
(12)
S=∑(Sri×wr+Sti×wt)
(13)
式中:Head(·)表示RetinaNet中的檢測(cè)頭網(wǎng)絡(luò)層。則總損失函數(shù)L為
L=λL1+Lcls+Lreg
(14)
式中:λ為常量0.1;Lcls和Lreg分別為分類分支和回歸分支的損失函數(shù)。
3.1.1 參數(shù)設(shè)置
本文的檢測(cè)網(wǎng)絡(luò)通過(guò)擴(kuò)展RetinaNet網(wǎng)絡(luò)[23],并利用其在ImageNet上預(yù)訓(xùn)練模型的前5個(gè)卷積層和批歸一化層作為可見(jiàn)光與紅外圖像分支的初始參數(shù)。其余卷積層按正態(tài)分布初始化,取標(biāo)準(zhǔn)差為0.01,模型其他參數(shù)采用Xavier方法初始化。因?yàn)榻^大多數(shù)行人目標(biāo)都可以用垂直邊界框來(lái)表示,所以本文將長(zhǎng)寬比設(shè)為1/1和1/2,尺度設(shè)為[20,21/3,22/3],尺寸設(shè)為40、80、160和240。在4個(gè)Nvidia GTX 1080Ti上訓(xùn)練網(wǎng)絡(luò),每個(gè)批次大小設(shè)定為8。使用隨機(jī)梯度下降(SGD)作為優(yōu)化器,初始學(xué)習(xí)率為1×10-4,動(dòng)量為0.9,權(quán)值衰減為5×10-4。在數(shù)據(jù)增強(qiáng)方面,將輸入圖像的大小調(diào)整為512×640,并使用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪和馬賽克增強(qiáng)來(lái)增加多樣性。
3.1.2 評(píng)價(jià)指標(biāo)
使用標(biāo)準(zhǔn)漏檢率(MR-2)作為評(píng)估指標(biāo),這是行人檢測(cè)任務(wù)中最常用的指標(biāo),分?jǐn)?shù)越低表示性能越好。由于MR-2只關(guān)注高精度區(qū)域,它更適合于評(píng)估模型的應(yīng)用部署能力。此外,為了更好地說(shuō)明本文方法的性能,還遵循漏檢率乘每幀圖像的假陽(yáng)性(FPPI)[15]的標(biāo)準(zhǔn)評(píng)價(jià),采樣范圍為[10-2,100]。
3.2.1 數(shù)據(jù)集分析
1) KAIST多光譜行人數(shù)據(jù)集
KAIST多光譜行人數(shù)據(jù)集[6]由95 328個(gè)在不同光照條件下完全重疊的可見(jiàn)光和紅外圖像組成。提供的真值框包含1 182個(gè)實(shí)例中的103 128個(gè)行人邊界框。考慮到訓(xùn)練數(shù)據(jù)集中標(biāo)注錯(cuò)誤,遵循文獻(xiàn)[10]提供的標(biāo)準(zhǔn)準(zhǔn)則,共使用25 076幀進(jìn)行訓(xùn)練。為了進(jìn)行評(píng)估,使用文獻(xiàn)[24]重新標(biāo)注的注釋,它包含2 252幀,其中白天1 455幀,夜間797幀,這是與近期相關(guān)工作進(jìn)行公平比較的標(biāo)準(zhǔn)。此外,訓(xùn)練時(shí)僅考慮身高超過(guò)50像素的行人。
2) CVC-14行人數(shù)據(jù)集
CVC-14行人數(shù)據(jù)集[25]是一個(gè)用立體相機(jī)配置拍攝的多光譜行人數(shù)據(jù)集。該數(shù)據(jù)集包含可見(jiàn)光(灰度)和熱成像配對(duì)的圖像,其中7 085幀和1 433幀用于訓(xùn)練和測(cè)試集,并在每種模式下提供單獨(dú)的注釋。然而,該數(shù)據(jù)集的作者公布了裁剪后的圖像對(duì),但沒(méi)有公布非重疊區(qū)域。因此,將這個(gè)數(shù)據(jù)集視為一個(gè)完全重疊的(成對(duì)的)數(shù)據(jù)集,但仍然受到像素級(jí)錯(cuò)位問(wèn)題的影響。使用與KAIST數(shù)據(jù)集相同的參數(shù)配置進(jìn)行實(shí)驗(yàn),并利用在KAIST數(shù)據(jù)集上訓(xùn)練得到的模型作為CVC-14數(shù)據(jù)集的預(yù)訓(xùn)練模型進(jìn)行微調(diào)。
3.2.2 實(shí)驗(yàn)結(jié)果分析
1) KAIST多光譜行人數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
本文提出的光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)在KAIST行人檢測(cè)數(shù)據(jù)集上進(jìn)行了評(píng)估和比較,與目前流行的8種多光譜行人檢測(cè)方法進(jìn)行了對(duì)比。根據(jù)表1的數(shù)據(jù),發(fā)現(xiàn)在KAIST數(shù)據(jù)集中,光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)表現(xiàn)最佳,綜合性能排名第一。除了總漏檢率、白天漏檢率和夜晚漏檢率外,還對(duì)其他6個(gè)評(píng)估指標(biāo)進(jìn)行了比較,包括近距離、中距離、遠(yuǎn)距離、無(wú)遮擋、部分遮擋和重度遮擋。在9個(gè)評(píng)估子集中,光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)占據(jù)7個(gè)第1名的位置。例如,在夜間子集中,光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)(5.99%)的準(zhǔn)確率高于第2名MBNet(7.86%)1.87%,表明光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)在夜晚場(chǎng)景下具有優(yōu)異的表現(xiàn)。此外,由于傳感器與目標(biāo)之間的距離變化會(huì)引起光照變化,光照感知子網(wǎng)絡(luò)的有效性使得本文網(wǎng)絡(luò)在不同距離下的漏檢率最低。同時(shí),本文的網(wǎng)絡(luò)表現(xiàn)也在存在行人遮擋情況的所有子集中處于領(lǐng)先地位,證明了本文網(wǎng)絡(luò)對(duì)遮擋問(wèn)題具有顯著的處理能力。交叉注意力特征提取網(wǎng)絡(luò)能夠有效篩選光譜特異性噪聲,從而避免行人遮擋對(duì)檢測(cè)結(jié)果的影響。每幀圖像錯(cuò)誤檢測(cè)數(shù)量(FPPI)和MR-2的對(duì)數(shù)平均曲線如圖3所示。

表1 KAIST多光譜行人數(shù)據(jù)集[6]的所有9個(gè)子集的漏檢率比較

圖3 在KAIST數(shù)據(jù)集上與8種方法FPPI曲線比較結(jié)果
2) CVC-14行人數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
在CVC-14數(shù)據(jù)集的訓(xùn)練中,對(duì)KAIST預(yù)訓(xùn)練模型進(jìn)行微調(diào)。為了評(píng)估配對(duì)條件下的魯棒性,在該數(shù)據(jù)集上與5種其他方法進(jìn)行比較。如表2所示,本文的方法仍然取得了有競(jìng)爭(zhēng)力的結(jié)果,證明了本文的模型具有魯棒性,能夠在現(xiàn)實(shí)問(wèn)題中有效應(yīng)對(duì)。

表2 CVC-14行人數(shù)據(jù)集[25]的漏檢率比較
3.2.3 可視化分析
如表3所示,本文提出的光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)在白天和夜晚,都取得了優(yōu)秀的檢測(cè)表現(xiàn)。

表3 在KAIST數(shù)據(jù)集上的行人檢測(cè)結(jié)果
尤其是在光照條件較差或者行人目標(biāo)遮擋嚴(yán)重的情況下,該網(wǎng)絡(luò)能夠準(zhǔn)確地定位行人位置。相比其他多光譜行人檢測(cè)方法,在復(fù)雜場(chǎng)景中,本文的方法具有更低的漏檢率和誤檢率。
3.2.4 檢測(cè)速度分析
光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)與其他多光譜行人檢測(cè)方法的檢測(cè)速度比較如表4所示。與其他探測(cè)器相比,本文的網(wǎng)絡(luò)在相同漏檢率水平下仍有令人滿意的速度表現(xiàn),可以看出本文提出的方法在平衡漏檢率和速度方面表現(xiàn)出色。

表4 檢測(cè)速度比較
3.2.5 消融實(shí)驗(yàn)
1) 模塊有效性驗(yàn)證
本節(jié)在KAIST多光譜行人檢測(cè)數(shù)據(jù)集上進(jìn)行
了消融實(shí)驗(yàn),旨在展示光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)中本文提出的各個(gè)子網(wǎng)絡(luò)的有效性。具體地,在表5中,選擇以殘差網(wǎng)絡(luò)(ResNet50)為骨干網(wǎng)絡(luò),采用雙分支獨(dú)立提取特征,并使用簡(jiǎn)單拼接作為融合特征的檢測(cè)網(wǎng)絡(luò)作為基線網(wǎng)絡(luò)。值得注意的是,使用能夠過(guò)濾光譜特異性噪聲并利用光譜內(nèi)在關(guān)聯(lián)增強(qiáng)單光譜特征提取能力的交叉注意力特征提取網(wǎng)絡(luò)進(jìn)行特征提取,可以顯著地提高檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,本文提出的兩個(gè)子網(wǎng)絡(luò)都能使基線網(wǎng)絡(luò)的檢測(cè)性能有所提升,從而證明了本文提出的兩個(gè)子網(wǎng)絡(luò)的有效性。

表5 模塊有效性驗(yàn)證的消融實(shí)驗(yàn)
2) 交叉注意力模塊數(shù)量驗(yàn)證
為了進(jìn)一步驗(yàn)證交叉注意力模塊在光照感知跨光譜融合檢測(cè)網(wǎng)絡(luò)中的有效性,進(jìn)行了表6所示實(shí)驗(yàn),研究不同數(shù)量的交叉注意力模塊對(duì)網(wǎng)絡(luò)性能的影響。將加入交叉注意力模塊的ResNet50骨干網(wǎng)與基線網(wǎng)絡(luò)進(jìn)行比較,發(fā)現(xiàn)增加交叉注意力模塊并不能保證更低的失誤率(失誤率越低越好)。適當(dāng)?shù)目绻庾V交流可以消除特定光譜的噪聲,但過(guò)多的層可能會(huì)導(dǎo)致特定光譜信息的丟失,從而進(jìn)一步降低網(wǎng)絡(luò)性能。特別是當(dāng)應(yīng)用4個(gè)交叉注意力模塊時(shí),性能達(dá)到8.83%,比基線網(wǎng)絡(luò)高出3.85%。

表6 交叉注意力模塊數(shù)量驗(yàn)證的消融實(shí)驗(yàn)
3) 交叉注意力模塊的定性驗(yàn)證
表7中直觀的注意力圖,定性驗(yàn)證了交叉注意力模塊的有效性。通過(guò)比較使用和不使用注意力機(jī)制得出的特征圖可視化結(jié)果,顯式地展現(xiàn)了兩者之間的差別。這一對(duì)比結(jié)果直觀地展示了本文提出的方法在光譜特異性噪聲消除的有效性。

表7 交叉注意力模塊在不同光照條件下的定性驗(yàn)證
本文討論了如何將具有本質(zhì)差異的可見(jiàn)光和紅外圖像兩種光譜特征進(jìn)行融合,以及如何消除模態(tài)特異性遮擋的問(wèn)題;提出了一種新穎的、適應(yīng)性好的光照感知跨模態(tài)特征融合網(wǎng)絡(luò),通過(guò)注意力機(jī)制提取光譜內(nèi)在特征并消除光譜特異性噪聲。同時(shí),提出了一個(gè)光照感知子網(wǎng)絡(luò),以自適應(yīng)調(diào)整光譜特征權(quán)重,應(yīng)對(duì)變化的光照條件。
本文方法通過(guò)整合混合引導(dǎo)注意模塊和關(guān)聯(lián)模態(tài)注意模塊,使網(wǎng)絡(luò)能夠抑制模態(tài)特定的遮擋特征,并學(xué)習(xí)多模態(tài)特征的自適應(yīng)融合。實(shí)驗(yàn)結(jié)果表明,本文提出的光照感知跨模態(tài)特征融合網(wǎng)絡(luò)在精度和速度上均優(yōu)于其他8種檢測(cè)方法。下一步,希望能將此工作應(yīng)用于多模態(tài)語(yǔ)義表達(dá)等領(lǐng)域。