999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Swin Transformer和混合特征聚合的紅外與可見光圖像融合方法

2023-07-31 02:53:54李碧草盧佳熙劉洲峰李春雷
紅外技術(shù) 2023年7期
關(guān)鍵詞:特征融合信息

李碧草,盧佳熙,劉洲峰,李春雷,張 潔

基于Swin Transformer和混合特征聚合的紅外與可見光圖像融合方法

李碧草1,2,盧佳熙1,劉洲峰1,李春雷1,張 潔1

(1. 中原工學(xué)院 電子信息學(xué)院,河南 鄭州 450007;2. 鄭州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,河南 鄭州 450001)

紅外與可見光圖像融合可以生成包含更多信息的圖像,比原始圖像更符合人類視覺感知也有利于下游任務(wù)的進(jìn)行。傳統(tǒng)的基于信號(hào)處理的圖像融合方法存在泛化能力不強(qiáng)、處理復(fù)雜圖片融合性能下降等問題。深度學(xué)習(xí)有很強(qiáng)的特征提取能力,其生成的結(jié)果較好,但結(jié)果中存在紋理細(xì)節(jié)信息保存少、圖像模糊的問題。針對(duì)這一問題,文中提出一種基于多尺度Swin-transformer和注意力機(jī)制的紅外與可見光圖像融合網(wǎng)絡(luò)模型。Swin-transformer可以在多尺度視角下提取長(zhǎng)距離語義信息,注意力機(jī)制可以將所提特征中的不重要特征弱化,保留主要信息。此外本文提出了一種新的混合特征聚合模塊,針對(duì)紅外和可見光圖像各自的特點(diǎn)分別設(shè)計(jì)了亮度增強(qiáng)模塊和細(xì)節(jié)保留模塊,有效保留更多的紋理細(xì)節(jié)和紅外目標(biāo)信息。該融合方法包括編碼器、特征聚合和解碼器三部分。首先,將源圖像輸入編碼器,提取多尺度深度特征;然后,設(shè)計(jì)特征聚合融合每個(gè)尺度的深度特征;最后,采用基于嵌套連接的解碼器重構(gòu)融合后的圖像。在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文提出的方法對(duì)比其他先進(jìn)的方法具有更好的融合性能。其中在客觀評(píng)價(jià)指標(biāo)中EI、AG、QP、EN、SD指標(biāo)達(dá)到最優(yōu)。從主觀感受上,所提紅外和可見光圖像融合方法能夠使結(jié)果中保留更多的邊緣細(xì)節(jié)。

圖像融合;紅外和可見光圖像;Swin-transformer;特征聚合;注意力機(jī)制

0 引言

圖像融合是一種重要的圖像處理技術(shù)。旨在通過特定的特征提取和特征融合生成一幅包含源圖像互補(bǔ)信息的圖像。目前融合算法被廣泛應(yīng)用于自動(dòng)駕駛、視覺跟蹤和醫(yī)學(xué)圖像增強(qiáng)等領(lǐng)域。在圖像處理領(lǐng)域,紅外和可見光圖像的融合也是圖像融合的研究熱點(diǎn),紅外圖像中包含熱輻射信息,但由于紅外成像傳感器的特性,采集的紅外圖像中紋理細(xì)節(jié)信息不明顯。而可見光圖像中包含大量細(xì)節(jié)紋理信息,但是沒有熱輻射信息,融合后的圖像包含二者的互補(bǔ)信息,有利于人類的視覺感知。

現(xiàn)有的融合方法大致可分為兩類,傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。常用的傳統(tǒng)融合方法包括:基于梯度轉(zhuǎn)移的圖像融合[1](gradient transfer fusion,GTF);基于顯著性檢測(cè)的圖像融合方法[2](Two-scale Image Fusion,TIF);基于各向異性擴(kuò)散和Karhunen-Loeve變換[3]的融合方法(Anisotropic Diffusion Fusion,ADF);基于卷積稀疏表示[4](Convolutional Sparse Representation , CSR)的圖像融合方法;基于高斯濾波和雙邊濾波混合多尺度分解[5]的圖像融合方法等。這些方法雖然都取得了較好的結(jié)果,但都需要手工設(shè)計(jì)繁瑣的特征提取和融合規(guī)則,且泛化能力不強(qiáng),當(dāng)融合圖像復(fù)雜時(shí)融合性能下降。

近年深度學(xué)習(xí)在圖像融合任務(wù)中有不錯(cuò)的表現(xiàn)。研究學(xué)者們提出了很多相關(guān)模型。按網(wǎng)絡(luò)結(jié)構(gòu)來區(qū)分可以分為自編碼器和端到端兩種。Prabhakar等提出DeepFuse[6]融合方法,采用卷積神經(jīng)網(wǎng)絡(luò)來提取兩幅YCbCr圖像中Y通道的特征,然后將所提取的特征相加再經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)得到融合后的Y通道,Cb、Cr通道通過加權(quán)融合得到,最后將YCbCr圖像轉(zhuǎn)換成RGB圖像得到融合結(jié)果。Zhang等提出IFCNN[7](Image Fusion based onConvolutional Neural Network)是一種自編碼器結(jié)構(gòu)的網(wǎng)絡(luò)。該方法采用卷積神經(jīng)網(wǎng)絡(luò)分別提取兩幅源圖像的特征,之后通過一定的融合規(guī)則將所得到的特征融合,融合后的特征經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)重建出融合圖像。

此外,研究者還提出端到端的深度學(xué)習(xí)融合框架,并取得不錯(cuò)的效果。Xu等提出U2Fusion[8](Unified Unsupervised image Fusion Network)融合算法,通過特征提取和信息測(cè)量,自動(dòng)估計(jì)特征對(duì)應(yīng)源圖像的重要性,得到了較好的融合效果。Li 等提出RFN-Fuse[9](Residual Fusion Network)同樣是一種端到端的圖像融合方法,先用訓(xùn)練好的編碼器提取圖像特征,然后輸入進(jìn)融合網(wǎng)絡(luò)融合特征,再由解碼器重建圖像。Ma 等提出FusionGAN[10](Generative Adversarial Network),一種端到端的方法,將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于圖像融合,通過構(gòu)建一個(gè)生成器和一個(gè)鑒別器使二者相互博弈,迫使生成器生成包含兩幅源圖像信息的融合圖像。Fu等提出PerceptionGAN[11](GAN consistent with perception)通過將可見光圖像連接到網(wǎng)絡(luò)中的不同深度,使融合結(jié)果更接近人類的視覺感知,但其結(jié)果中紅外圖像信息較少。此外,基于GAN的方法也有其他研究學(xué)者提出[12-14]。由于端到端方法存在生成結(jié)果模糊、細(xì)節(jié)保存較少、如果沒有很好的約束和大量的訓(xùn)練數(shù)據(jù),融合性能并不佳等問題,本文采用自編碼器策略。

以上方法忽略了編解碼過程中的特征通道注意力信息,并且長(zhǎng)距離語義信息沒有被充分利用。因此本研究在網(wǎng)絡(luò)中應(yīng)用注意力機(jī)制和Swin-Transformer來緩解這一問題。此外,現(xiàn)有的方法通常只考慮可見光圖像的背景信息和紅外圖像的目標(biāo)亮度信息,而紅外圖像的背景亮度信息通常被忽略,導(dǎo)致紅外圖像中的部分背景信息細(xì)節(jié)丟失。充分利用紅外亮度信息會(huì)使背景更加清晰。紅外圖像的梯度信息也有助于生成更加清晰的圖像。因此,一個(gè)新的混合特征聚合被提出來融合特征,其中包含紅外亮度增強(qiáng)模塊和紋理細(xì)節(jié)增強(qiáng)模塊。紅外亮度增強(qiáng)模塊不僅可以增強(qiáng)紅外目標(biāo)信息,還保留了紅外圖像中部分背景的亮度。細(xì)節(jié)保留模塊通過梯度算子提取特征圖的梯度邊緣信息。特征聚合中還加入了注意力機(jī)制來融合特征,能夠保留更多細(xì)節(jié)。本文提出一種新的融合方法,主要貢獻(xiàn)如下:

1)提出一種注意力巢連接網(wǎng)絡(luò),充分利用多尺度分解和圖像重建過程中的注意力信息。

2)在解碼器中采用Swin-transformer提取圖像特征的長(zhǎng)距離依賴。增強(qiáng)模型特征提取能力。

3)提出了一種新的混合紅外特征增強(qiáng)、紋理細(xì)節(jié)增強(qiáng)和注意力的特征聚合模塊。可以充分保留來自源圖像的亮度與細(xì)節(jié)信息。

4)實(shí)驗(yàn)結(jié)果表明,所提方法能夠更清晰地融合紅外和可見光圖像,融合結(jié)果中的紋理和細(xì)節(jié)信息更多。與現(xiàn)有的融合方法相比,本文提出的融合框架在公開數(shù)據(jù)集上的主觀視覺評(píng)價(jià)和客觀評(píng)價(jià)均表現(xiàn)出更好的融合性能。

1 相關(guān)工作

隨著深度學(xué)習(xí)被廣泛應(yīng)用于圖像融合領(lǐng)域,很多基于深度學(xué)習(xí)的方法被提出。這些方法大致分為兩類,一是端到端的全神經(jīng)網(wǎng)絡(luò),二是深度學(xué)習(xí)與手工設(shè)計(jì)融合規(guī)則相結(jié)合的方法。本章首先介紹幾種經(jīng)典的深度學(xué)習(xí)圖像融合方法。

注意力機(jī)制被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)中。Hu等人從通道維度入手提出一種通道注意力機(jī)制[15],該機(jī)制可以對(duì)特征進(jìn)行校正,校正后的特征可以保留有價(jià)值的特征,剔除沒價(jià)值的特征。Li等人提出CSpA-DN[16]網(wǎng)絡(luò)將自注意力機(jī)制與DenseNet[17]結(jié)合,該方法為端到端的融合方法,大致分為3個(gè)部分:編碼網(wǎng)絡(luò)、注意力網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),編碼網(wǎng)絡(luò)的目的是提取兩幅源圖像的特征,注意力網(wǎng)絡(luò)對(duì)特征進(jìn)行校正,解碼網(wǎng)絡(luò)重建圖像。該網(wǎng)絡(luò)采用類似DenseNet設(shè)計(jì)具有密集短連接結(jié)構(gòu),可以很好地傳遞特征圖,減輕梯度消失,在一定程度上減少了參數(shù)量,并且在PET和MRI融合任務(wù)中取得了不錯(cuò)的效果。Li 等提出了一種結(jié)合深度學(xué)習(xí)和手工設(shè)計(jì)融合規(guī)則的方法DenseFuse[18]。該方法采用兩階段的融合方法,首先訓(xùn)練一個(gè)編碼和解碼網(wǎng)絡(luò),源圖像經(jīng)過編碼器提取特征,之后將所得特征相加,最后融合后的特征圖經(jīng)過解碼網(wǎng)絡(luò)重建得到融合圖像。這些方法都沒有充分利用特征圖的多尺度信息,并且融合策略相對(duì)簡(jiǎn)單。

其中具有多尺度結(jié)構(gòu)的模型在處理圖像任務(wù)時(shí)有不錯(cuò)的表現(xiàn)。Zhou等人提出了Unet++[19],用于圖像分割。Unet++在不同尺度的Unet網(wǎng)絡(luò)上探索并且把這些不同尺度的Unet嵌套在一起并使用跳躍連接組合成一個(gè)新的巢連接網(wǎng)絡(luò)。Li等設(shè)計(jì)了NestFuse[20]網(wǎng)絡(luò)采用巢連接結(jié)構(gòu),包含一個(gè)下采樣和上采樣過程,能夠提取圖像的深度特征信息。首先,訓(xùn)練一個(gè)提取多尺度信息的編碼網(wǎng)絡(luò)和一個(gè)對(duì)應(yīng)的解碼網(wǎng)絡(luò),在訓(xùn)練過程中沒有融合階段,只有編碼解碼過程。然后,使用設(shè)計(jì)的融合策略將編碼器提取的每個(gè)尺度的特征進(jìn)行融合。最后,由解碼器重建圖像并取得了較好的效果。然而,在編解碼過程中,該方法并未考慮每個(gè)特征圖的重要程度。因此,本文提出一種基于注意力的巢連接網(wǎng)絡(luò)。由于注意力機(jī)制能夠?qū)μ卣鲌D進(jìn)行篩選,將其引入融合模型,充分利用各尺度的通道注意力信息,增強(qiáng)融合性能。

2 融合方法

本章將詳細(xì)介紹基于注意力機(jī)制和巢網(wǎng)絡(luò)的融合模型,并介紹模型的細(xì)節(jié)以及特征聚合模塊。融合方法的總體框圖如圖1。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的融合方法主融合框架如圖1所示。其中EB為編碼器、FA為特征聚合、DB為解碼器。本節(jié)主要介紹編碼器、解碼器,特征聚合在2.2節(jié)中詳細(xì)介紹。

現(xiàn)有的U型網(wǎng)絡(luò)存在相同尺度上卷積層不深導(dǎo)致特征未充分利用的問題,為了緩解這個(gè)問題,本文采用巢連接策略,在同一尺度之間增加卷積層,并使用跳躍連接,在不同尺度之間采用上采樣連接,來充分利用特征。由于卷積只關(guān)注局部的紋理特征沒有充分利用長(zhǎng)程語義依賴,因此本研究在網(wǎng)絡(luò)中使用Swin-transformer來提取長(zhǎng)距離依賴如圖1所示。Swin-transformer相比于傳統(tǒng)的Transformer有更低的計(jì)算量和更強(qiáng)的特征提取能力,其結(jié)構(gòu)如圖2所示。

編碼器由4個(gè)卷積塊組成,如圖3(a)所示,其中Conv表示卷積層,用來提取圖像的淺層特征信息。在編碼器中,每個(gè)卷積塊都包括一個(gè)2×2的池化層,對(duì)特征圖進(jìn)行下采樣。圖3(a)中EB代表一個(gè)卷積塊,其結(jié)構(gòu)如圖3(b)。

圖1 本文融合方法的網(wǎng)絡(luò)結(jié)構(gòu)

圖2 基于Swin transformer的解碼塊

圖3 編碼器及編碼器中的卷積塊結(jié)構(gòu)

在編碼階段,圖像先經(jīng)過一個(gè)輸出通道數(shù)為16的卷積層,再依次經(jīng)過EB10,輸出通道數(shù)為64,分辨率大小為224×224。EB20輸出通道數(shù)為112,分辨率為112×112。EB30輸出通道數(shù)為160,分辨率大小為56×56,EB40輸出通道數(shù)為208,分辨率大小為28×28。參數(shù)如表1所示。

表1 編碼器和解碼器網(wǎng)絡(luò)參數(shù)

編碼過程表達(dá)式如(1)~(4)所示:

1=EB1(ATT(Conv()))(1)

2=EB2(ATT(1))(2)

3=EB3(ATT(2)) (3)

4=EB4(ATT(3))(4)

式中:,分別表示輸入圖像和多尺度特征;EB(×)表示多尺度特征提取函數(shù);表示多尺度層數(shù)∈1,2,3,4。表示各尺度所得特征圖。Conv(×)表示卷積層。

巢連接網(wǎng)絡(luò)沒有篩選特征能力不能突出重要特征,為了提升網(wǎng)絡(luò)提取特征能力,本文在多尺度網(wǎng)絡(luò)結(jié)構(gòu)中加入注意力機(jī)制,為每個(gè)尺度的特征圖增加一個(gè)權(quán)重。本文采用的注意力計(jì)算方法如下。對(duì)每個(gè)特征圖取平均池化操作,將得到的結(jié)果組成一個(gè)特征向量。計(jì)算單個(gè)×特征圖對(duì)應(yīng)的公式如(5)所示:

式中:、為像素坐標(biāo);(×,×)為平均池化操作。對(duì)通道數(shù)為的特征圖按通道進(jìn)行ATT(×)操作,得到1×維的特征向量。如圖2(b)中所示,使用線性層將所得特征向量的維度壓縮,經(jīng)過激活函數(shù),其目的是增加網(wǎng)絡(luò)的非線性,擬合通道之間的相關(guān)性。經(jīng)過第一個(gè)線形層后維度變?yōu)樵瓉淼?/,本文中=16。之后,再用線性層將特征向量擴(kuò)展到與原特征圖的通道數(shù)相同的維度。所得特征向量經(jīng)過Sigmoid函數(shù)之后得到與特征圖通道數(shù)維數(shù)一致的權(quán)重向量,最后與原特征圖相乘。

將圖像融合過程中部分特征圖可視化,如圖3所示,輸入為TNO數(shù)據(jù)集[21]中的可見光圖像。每對(duì)圖像的左右兩幅圖片分別為經(jīng)過注意力機(jī)制前后的特征圖。可以看出注意力機(jī)制能夠?qū)⒛:奶卣魅趸@些特征對(duì)重建圖像紋理和細(xì)節(jié)的保留的重要性相對(duì)較小。圖4為解碼器中DB21卷積塊中特征圖可視化結(jié)果,可視化結(jié)果表明注意力機(jī)制能夠?yàn)楦魍ǖ婪峙錂?quán)重,突出重要信息。

圖4 4對(duì)經(jīng)過注意力模塊前后的特征圖

紅外和可見光圖像分別經(jīng)過編碼器后使用特征聚合FA得到融合特征:

=FA(1,2)(6)

式中:FA(×)為特征聚合模塊,具體如2.2節(jié)所示。12分別為輸入源圖像的多尺度特征,表示多尺度層數(shù)。將輸入到解碼器中得到最終的融合圖像。

解碼階段網(wǎng)絡(luò)參數(shù)與編碼階段相對(duì)應(yīng)。具體參數(shù)設(shè)置如表1所示。解碼器由6個(gè)DB卷積塊組成,如圖5所示,用于重建融合圖像,解碼器的4個(gè)輸入與編碼器4個(gè)卷積塊相對(duì)應(yīng)。其中DB11和DB12由Swin-transformer塊組成如圖2(a)所示,每個(gè)Swin-transformer塊由7層不同尺度的Swin-transformer層組成,每個(gè)Swin-transformer層如圖2(b)所示。

編碼階段和解碼階段的卷積塊不完全相同。解碼階段的卷積塊由兩個(gè)卷積層、一個(gè)池化層和一個(gè)注意力模塊組成,注意力模塊與圖2(b)中所示的結(jié)構(gòu)相同。如圖5所示。其中第二個(gè)卷積層的核大小為1×1,用來匹配維度。解碼階段沒有用于下采樣的池化層,其余卷積層保持不變。特征圖上采樣后拼接到同尺度特征中。

2.2 特征聚合

大多數(shù)特征融合都是基于加權(quán)平均算子生成一個(gè)加權(quán)圖來融合源圖像。基于這一理論,權(quán)重圖的選擇成為一個(gè)關(guān)鍵問題。而現(xiàn)有的方法忽略了紅外圖像中的背景亮度信息及紅外圖像的梯度信息,為此在本研究中設(shè)計(jì)了紅外特征增強(qiáng)模塊保留更多紅外亮度信息,并且從兩幅源圖像中分別提取梯度信息,同時(shí)混合基于注意力機(jī)制[20]的特征聚合,達(dá)到保留更多細(xì)節(jié)的目的。如圖6所示。在網(wǎng)絡(luò)訓(xùn)練完成后,測(cè)試時(shí)將特征聚合加入到網(wǎng)絡(luò)中,兩副原圖像經(jīng)過編碼器后得到多尺度特征12,通過1-norm和Soft-max算子計(jì)算得到的權(quán)重映射12權(quán)重圖由公式(7)表示:

式中:||×||1表示1范數(shù);∈1,2。(,)表示多尺度深度特征(12)和權(quán)重圖(12)中對(duì)應(yīng)的位置,每個(gè)位置表示深度特征中的一個(gè)維向量。(,)表示一個(gè)維的向量。

圖5 解碼器網(wǎng)絡(luò)結(jié)構(gòu)

Fig.5 Network structure of decoder

圖6 特征聚合框架

現(xiàn)有方法中特征聚合大都只考慮空間信息。然而,深度特征是三維張量。因此,特征聚合中不僅要考慮空間維度信息,還要考慮通道信息。通道注意力特征計(jì)算過程與空間注意力特征計(jì)算過程大致相同,如圖6。利用通道注意力模塊計(jì)算后的結(jié)果是一個(gè)一維向量,各個(gè)值為對(duì)應(yīng)通道的權(quán)重。特征聚合輸入特征圖的權(quán)重向量12由公式(10)計(jì)算得出。

式中:為輸入特征中的通道數(shù);(×)為全局池化。全局池化方法是通過每個(gè)通道的奇異值求和得到。奇異值往往對(duì)應(yīng)著矩陣中隱含的重要信息,且重要性和奇異值大小正相關(guān)。

然后,使用Soft-max函數(shù)計(jì)算得到最終的加權(quán)向量12如公式(11):

在所提特征聚合中對(duì)兩幅圖像分別進(jìn)行梯度特征提取得到梯度權(quán)重圖,如公式所示:

式中:(×)代表Sobel函數(shù)用于提取特征圖的梯度特征。

紅外特征增強(qiáng)模塊首先將紅外特征通過分割的方法分離出來,如公式:

式中:seg(×)為閾值分割函數(shù),其閾值根據(jù)背景和紅外目標(biāo)像素值的最大類間方差獲得。為平衡權(quán)重,在本文中設(shè)置為0.3。

最終的注意力融合特征f由公式(16)計(jì)算得到。

2.3 訓(xùn)練階段

所提方法采用了兩階段訓(xùn)練策略。首先,訓(xùn)練一個(gè)可以提取圖片深層特征的自動(dòng)編碼器,和一個(gè)可以處理這些特征重建圖像的解碼器。訓(xùn)練框架如圖7所示,其中和分別為輸入圖像和重建圖像。訓(xùn)練數(shù)據(jù)集采用MS-COCO[22]數(shù)據(jù)集。

圖7 訓(xùn)練階段的網(wǎng)絡(luò)結(jié)構(gòu)

訓(xùn)練過程沒有融合階段,特征聚合不參與訓(xùn)練。只需訓(xùn)練解碼器和編碼器。在損失函數(shù)的約束下迫使網(wǎng)絡(luò)能夠重建出輸入圖像。在測(cè)試時(shí)編碼器要分別對(duì)兩幅源圖像進(jìn)行編碼,再經(jīng)特征聚合后輸入到解碼器。

在訓(xùn)練階段,損失函數(shù)total定義如下:

total=pixel+ssim(17)

式中:pixel和ssim分別表示源圖像和融合后圖像之間的像素?fù)p失和結(jié)構(gòu)相似度損失。是平衡兩個(gè)損失的加權(quán)因子。在本文中取值為100。

pixel由公式(18)得到:

式中:和分別表示輸出圖像和輸入圖像。其中||×||F為F范數(shù)。損失函數(shù)可以最大程度地使輸出圖像像素更接近于輸入圖像。

SSIM結(jié)構(gòu)相似度損失函數(shù)ssim由公式(19)得到。

式中:I,O和I,O分別為輸入輸出圖像的均值和標(biāo)準(zhǔn)差。IO為協(xié)方差,1,2為常數(shù)。ssim越小兩幅圖像的結(jié)構(gòu)越相似。

3 實(shí)驗(yàn)結(jié)果

本章中,首先介紹本文的實(shí)驗(yàn)設(shè)置。然后介紹消融研究。在主觀評(píng)價(jià)方面與現(xiàn)有方法進(jìn)行了比較,并利用多個(gè)質(zhì)量評(píng)價(jià)指標(biāo)對(duì)融合性能進(jìn)行了客觀評(píng)價(jià)。圖8展示了采用的21對(duì)紅外和可見光測(cè)試圖像的一部分。

圖8 TNO數(shù)據(jù)集中的3對(duì)紅外和可見光圖像

3.1 實(shí)驗(yàn)設(shè)置

選擇10種比較典型和先進(jìn)的融合方法來評(píng)價(jià)融合性能,包括:GTF[1],TIF[2],ADF[3],F(xiàn)usionGAN[10],DenseFuse[18],vggML[23],RFN-Fuse[9],DeepFuse[6],CSF[24](Classification Saliency-Based Fusion),Dual-branch[25],這些方法實(shí)驗(yàn)結(jié)果都由其公開代碼得到,其中參數(shù)設(shè)置與其論文所述相同。網(wǎng)絡(luò)訓(xùn)練時(shí)epoch和batch大小分別為2和2。實(shí)驗(yàn)平臺(tái)為:E5 2680 v4 CPU, NVIDIA GTX 1080Ti GPU,代碼實(shí)現(xiàn)使用PyTorch框架。

利用以下幾個(gè)質(zhì)量指標(biāo)對(duì)本文的融合方法和其他融合方法進(jìn)行了定量比較。其中包括:邊緣強(qiáng)度(Edge Intensity,EI)[26],視覺保真度(Visual Fidelity,VIF)[27],平均梯度(Average Gradient,AG)[28],信息熵(Entropy,EN)[29],標(biāo)準(zhǔn)差(Standard Deviation,SD),離散余弦特征互信息(Discrete Cosine Feature Mutual Information,F(xiàn)MI_dct)[30],相位一致(Phase Consistent,QP)[31]。測(cè)試采用的是TNO[21]和MSRS數(shù)據(jù)集[32],分別取21對(duì)圖像。客觀評(píng)價(jià)結(jié)果從其中選取21對(duì)圖像進(jìn)行測(cè)試,取21對(duì)圖像客觀結(jié)果的平均值進(jìn)行對(duì)比。

3.2 消融研究

如2.1節(jié)所述,本研究在編解碼網(wǎng)絡(luò)中加入了注意力機(jī)制。分別對(duì)有注意力機(jī)制(Att)和沒有注意力機(jī)制以及Swin-transformer(Att+ST)進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖9,其中測(cè)試圖像是從TNO數(shù)據(jù)集中選取的部分圖像。左邊一列(a)是加上注意力之后的結(jié)果,中間一列(b)是加入Swin-transformer后的結(jié)果,右邊一列(c)是所提融合方法的結(jié)果。可以看到加上注意力機(jī)制之后圖像包含更多的紋理信息,背景中的植物細(xì)節(jié)更加清晰(如圖9中紅框所示)。客觀評(píng)價(jià)方面,兩個(gè)不同模型的融合結(jié)果評(píng)價(jià)指標(biāo)如表2所示。

圖9 消融前后融合結(jié)果對(duì)比

表2 消融前后圖像評(píng)價(jià)指標(biāo)平均值

可以看出,加入的注意力機(jī)制對(duì)于客觀評(píng)價(jià)標(biāo)準(zhǔn)的提升非常明顯,各個(gè)評(píng)價(jià)標(biāo)準(zhǔn)都有不同程度地提升。客觀評(píng)價(jià)結(jié)果表明網(wǎng)絡(luò)中的注意力機(jī)制能夠使融合性能得以改善。21對(duì)圖片的客觀評(píng)價(jià)指標(biāo)對(duì)比如表2所示。可以看到加入注意力后VIFF、MI、MS-SSIM三個(gè)指標(biāo)有明顯提升。

3.3 結(jié)果分析

3.3.1 主觀評(píng)價(jià)

現(xiàn)有融合方法和本文融合方法得到的TNO融合結(jié)果中選取的一對(duì)圖像,如圖10所示。從圖中可以看出FusionGAN融合結(jié)果雖然有一些顯著的紅外特征但是有些地方比較模糊,例如草叢與路面等部分紋理細(xì)節(jié)不明顯。VggML、DenseFuse、Dual-branch的融合結(jié)果中紅外信息不突出并且也存在模糊現(xiàn)象。GTF中丟失部分紅外目標(biāo)信息,例如人物腳部部分。TIF融合結(jié)果較為清晰,但圖像中存在噪聲和信息融合不均衡現(xiàn)象。

此外,還可以從圖10紅框標(biāo)記的局部放大區(qū)域進(jìn)行比較。所提方法在主觀評(píng)價(jià)方面比其他融合方法有更好的融合性能,融合結(jié)果中的亮度信息也更均衡。RFN-Fuse融合結(jié)果相對(duì)較好,但在細(xì)節(jié)紋理保存方面稍有欠缺。從放大區(qū)域可以看出所提方法能較清晰地顯示出道路上的條紋,保存更多的紋理細(xì)節(jié)信息。此外為了體現(xiàn)模型的泛化性能本文還在MSRS數(shù)據(jù)集上做了對(duì)比試驗(yàn)如圖11所示。可以看出相比FusionGAN、RFN-Fuse所提方法的紅外信息和可見光信息更加平衡,融合結(jié)果中可以保留更多細(xì)節(jié)。

3.3.2 客觀評(píng)價(jià)

本文采用了客觀評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。采用的評(píng)價(jià)指標(biāo)有7種同3.1節(jié)所示指標(biāo)。其中每個(gè)評(píng)價(jià)標(biāo)準(zhǔn)最好的結(jié)果用紅色字體表示。

從表3可以看出本文方法有5個(gè)指標(biāo)是最優(yōu)的,用紅色字體標(biāo)出。視覺保真度高說明融合結(jié)果具有更高的視覺保真度。平均梯度、邊緣強(qiáng)度越高表明圖像質(zhì)量越高,也就更清晰。表4展示了MSRS數(shù)據(jù)集上的客觀評(píng)價(jià)結(jié)果可以看到所提方法的5個(gè)指標(biāo)達(dá)到最好結(jié)果與在TNO數(shù)據(jù)集得出結(jié)果一致,說明所提方法的泛化性能較好。

圖10 紅外和可見光圖像的融合結(jié)果

表3 TNO數(shù)據(jù)集21對(duì)圖像評(píng)價(jià)指標(biāo)平均值

表4 MSRS數(shù)據(jù)集21對(duì)圖像評(píng)價(jià)指標(biāo)平均值

4 結(jié)語

本文提出一種基于Swin-transformer和混合特征聚合的融合網(wǎng)絡(luò)并提出了一種新的混合特征聚合。將Swin-transformer與注意力機(jī)制引入到多尺度網(wǎng)絡(luò)中,充分利用長(zhǎng)距離語義信息與通道注意力信息,解決基于卷積神經(jīng)網(wǎng)絡(luò)方法中細(xì)節(jié)丟失的問題。所提特征聚合將注意力與特征增強(qiáng)模塊混合,能夠保留更多背景細(xì)節(jié)信息。所提方法首先利用一個(gè)解碼器來提取特征圖的多尺度信息。再將各個(gè)尺度的特征用所提特征聚合進(jìn)行融合,分別輸入到解碼器的對(duì)應(yīng)接口進(jìn)行解碼。由于在編解碼過程中使用了注意力機(jī)制,突出對(duì)結(jié)果有重要影響的通道,使得融合結(jié)果保留了更多細(xì)節(jié)和紋理特征。利用提出的網(wǎng)絡(luò)結(jié)構(gòu),可以在重構(gòu)過程中保留更多的顯著特征,提高圖像融合的性能。

[1] MA J, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization [J]., 2016, 31: 100-109.

[2] Bavirisetti D P, D Huli R. Two-scale image fusion of visible and infrared images using saliency detection [J]., 2016, 76: 52-64.

[3] Bavirisetti D P, Dhuli R. Fusion of infrared and visible sensor images based on anisotropic diffusion and karhunen-loeve transform [J]., 2015, 16(1): 203-9.

[4] LIU Y, CHEN X, WARD R K, et al. Image fusion with convolutional sparse representation [J]., 2016, 23(12): 1882-6.

[5] ZHOU Z, WANG B, LI S, et al. Perceptual fusion of infrared and visible images through a hybrid multi-scale decomposition with Gaussian and bilateral filters [J]., 2016, 30: 15-26.

[6] Prabhakar K R, Srikar V S, Babu R V. DeepFuse: a deep unsupervised approach for exposure fusion with extreme exposure image pairs[C/OL]//(), 2017,https://arxiv.org/abs/1712.07384.

[7] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network [J]., 2020, 54: 99-118.

[8] XU H, MA J, JIANG J, et al. U2Fusion: a unified unsupervised image fusion network [J]., 2020, 44(1): 502 - 18.

[9] LI H, WU X J, KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images [J]., 2021, 73: 72-86.

[10] MA J, YU W, LIANG P, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion [J]., 2019, 48: 11-26.

[11] FU Y, WU X J, DURRANI T. Image fusion based on generative adversarial network consistent with perception [J]., 2021, 72: 110-25.

[12] SONG A, DUAN H, PEI H, et al. Triple-discriminator generative adversarial network for infrared and visible image fusion [J]., 2022, 483: 183-94.

[13] XUE W, HUAN XIN C, SHENG YI S, et al. MSFSA-GAN: multi-scale fusion self attention generative adversarial network for single image deraining [J]., 2022, 10: 34442-8.

[14] ZHANG H, YUAN J, TIAN X, et al. GAN-FM: infrared and visible image fusion using gan with full-scale skip connection and dual markovian discriminators [J]., 2021, 7: 1134-47.

[15] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks [J]., 2020, 42(8): 2011-23.

[16] LI B, LIU Z, GAO S, et al. CSpA-DN: channel and spatial attention dense network for fusing PET and MRI images[C]//25th, 2021,DOI: 10.1109/ICPR48806.2021.9412543.

[17] HUANG G, LIU Z, MAATEN L V D, et al. Densely connected convolutional networks[C/OL]//, 2017, https://arxiv.org/abs/1608.06993.

[18] LI H, WU X. DenseFuse: a fusion approach to infrared and visible images[J]., 2019, 28(5): 2614-23.

[19] ZHOU Z, Rahman Siddiquee M M, Tajbakhsh N, et al. UNet++: A Nested U-Net architecture for medical image segmentation[J/OL]., 2018,https://arxiv.org/abs/1807.10165.

[20] LI H, WU X J, DURRANI T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models [J]., 2020, 69(12): 9645-56.

[21] TOET A. TNO Image Fusion Dataset[EB/OL]. 2014, https://doi.org/10.6084/m9.figshare.1008029.v2.

[22] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[J/OL]., 2014, https://arxiv.org/abs/1405.0312.

[23] LI H, WU X, KITTLER J. Infrared and visible image fusion using a deep learning framework[C]//(ICPR), 2018: 2705-2710, DOI: 10.1109/ICPR.2018.8546006.

[24] XU H, ZHANG H, MA J. Classification saliency-based rule for visible and infrared image fusion [J]., 2021, 7: 824-36.

[25] FU Y, WU X J. A dual-branch network for infrared and visible image fusion [J/OL].(ICPR), 2021, https://arxiv.org/abs/2101.09643.

[26] Xydeas C S, Petrovic? V. Objective image fusion performance measure [J]., 2000, 36(4): 308-309.

[27] HAN Y, CAI Y, CAO Y, et al. A new image fusion performance metric based on visual information fidelity [J]., 2013, 14(2): 127-135.

[28] CUI G, FENG H, XU Z, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition [J]., 2015, 341: 199-209.

[29] AARDT V, JAN. Assessment of image fusion procedures using entropy, image quality, and multispectral classification [J]., 2008, 2(1): 1-28.

[30] Haghighat M, Razian M A. Fast-FMI: Non-reference image fusion metric[C]//(AICT), 2014: 1-3, DOI: 10.1109/ICAICT.2014.7036000.

[31] ZHAO J, LAGANIERE R, LIU Z. Performance assessment of combinative pixel-level image fusion based on an absolute feature measurement[J]., 2006, 3(6): 1433-1447.

[32] TANG L, YUAN J, ZHANG H, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]., 2022, 83-84: 79-92.

Infrared and Visible Light Image Fusion Method Based on Swin Transformer and Hybrid Feature Aggregation

LI Bicao1,2,LU Jiaxi1,LIU Zhoufeng1,LI Chunlei1,ZHANG Jie1

(1.,,450007,;2.,,450001,)

The fusion of infrared and visible light images can generate images containing more information in line with human visual perception compared with the original images, and is also beneficial for downstream tasks. Traditional image fusion methods based on signal processing have problems such as poor generalization ability and reduced performance of complex image fusion. Deep learning is capable of features extraction and provides good results. However, its results have problems such as reduced preservation of textural details and blurred images. To address these problems, this study proposes a fusion network model of infrared and visible light images based on the multiscale Swin Transformer and an attention mechanism. Swin Transformers can extract long-distance semantic information from a multiscale perspective, and the attention mechanism can weaken the insignificant features in the proposed features to retain the main information. In addition, this study proposes a new hybrid fusion strategy and designs brightness enhancement and detail retention modules according to the respective characteristics of the infrared and visible images to retain more textural details and infrared target information. The fusion method has three parts: the encoder, fusion strategy, and decoder. First, the source image was input into the encoder to extract multiscale depth features. Then, a fusion strategy was designed to fuse the depth features of each scale. Finally, the fused image was reconstructed using a decoder based on nested connections. The experimental results on public datasets show that the proposed method has a better fusion performance compared with other state-of-the-art methods. Among the objective evaluation indicators, EI, AG, QP, EN, and SD were optimal. From a subjective perspective, the proposed infrared and visible light image fusion method can preserve additional edge details in the results.

image fusion, infrared and visible light images, Swin-transformer, feature aggregation, attention mechanism.

TP391.41

A

1001-8891(2023)07-0721-11

2022-07-30;

2022-09-13.

李碧草(1985-),男,博士,副教授,碩士生導(dǎo)師,主要研究方向?yàn)獒t(yī)學(xué)圖像處理、模式識(shí)別。E-mail: lbc@zut.edu.cn。

國(guó)家自然科學(xué)基金資助項(xiàng)目(61901537, 62072489);河南省留學(xué)人員科研擇優(yōu)項(xiàng)目資助經(jīng)費(fèi);中國(guó)博士后科學(xué)基金面上資助(2020M672274);中國(guó)紡織工業(yè)聯(lián)合會(huì)科技指導(dǎo)性計(jì)劃項(xiàng)目(2019059);中原工學(xué)院青年骨干教師培養(yǎng)計(jì)劃(2019XQG04);中原工學(xué)院學(xué)科青年碩導(dǎo)培育計(jì)劃(SD202207)。

猜你喜歡
特征融合信息
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 老司机久久99久久精品播放| 国产精品福利在线观看无码卡| 五月天久久婷婷| 日韩精品一区二区三区swag| 欧美一区精品| 精品人妻AV区| 人妻丝袜无码视频| 久久人体视频| 高清国产在线| 丁香六月综合网| a在线亚洲男人的天堂试看| 国产欧美精品午夜在线播放| 欧美日韩亚洲综合在线观看| аv天堂最新中文在线| 99在线视频精品| 视频二区中文无码| 欧美国产日产一区二区| 欧美成人午夜在线全部免费| 国产一级毛片在线| 欧美视频免费一区二区三区| 国产乱人视频免费观看| 国内精品小视频福利网址| 欧美精品成人一区二区在线观看| 国产精品白浆在线播放| 国产福利微拍精品一区二区| 国产一区自拍视频| 好吊妞欧美视频免费| 国产一区二区三区视频| av大片在线无码免费| 亚洲国产亚综合在线区| 欧美第九页| 亚洲午夜18| 国产精品视频a| 美女无遮挡免费网站| 国产成人亚洲精品无码电影| 中国精品久久| 亚洲午夜天堂| 热思思久久免费视频| 91尤物国产尤物福利在线| 亚洲国产成人精品无码区性色| 伊人91在线| 成人精品区| h视频在线播放| 久久精品波多野结衣| 亚洲成aⅴ人片在线影院八| 欧洲熟妇精品视频| 无码中文字幕精品推荐| 国产精品无码AV中文| 欧美成a人片在线观看| 中文字幕在线播放不卡| 欧美精品亚洲精品日韩专区| 亚洲国产无码有码| 97成人在线观看| 国产亚洲欧美日韩在线观看一区二区| 喷潮白浆直流在线播放| 在线播放国产一区| 国产女同自拍视频| 色网站在线视频| 亚洲另类国产欧美一区二区| 日韩欧美国产中文| 91亚洲国产视频| 亚洲欧美成人综合| 色天天综合| 动漫精品啪啪一区二区三区| igao国产精品| 国产真实二区一区在线亚洲 | 全午夜免费一级毛片| 欧美成人一级| 国产精品亚洲专区一区| 欧洲高清无码在线| 亚洲手机在线| 日韩精品亚洲人旧成在线| 4虎影视国产在线观看精品| 91丨九色丨首页在线播放| 亚洲视频二| 国产黄在线观看| 不卡无码h在线观看| 久久动漫精品| 国产aⅴ无码专区亚洲av综合网| 国产人成在线观看| 蜜臀AVWWW国产天堂| 一本一道波多野结衣av黑人在线|