基于注意力機制的紅外與可見光圖像融合網(wǎng)絡(luò)

2022-01-01 00:00:00陳伊涵鄭茜穎

計算機應(yīng)用研究 2022年5期

摘要：針對現(xiàn)有融合方法缺乏通用性的問題，提出一種結(jié)合空間注意力和通道注意力的特征融合網(wǎng)絡(luò)，設(shè)計一個端到端融合框架，采用兩階段的訓(xùn)練策略進行訓(xùn)練。在第一個階段，訓(xùn)練一個自編碼器用來提取圖像的特征；在第二個階段，使用提出的融合損失函數(shù)對融合網(wǎng)絡(luò)進行訓(xùn)練。實驗結(jié)果表明，該算法既能保留紅外圖像顯著目標特征，還能在保留可見光圖像細節(jié)上有很好的特性。主觀和客觀的實驗分析驗證了該算法的有效性。

關(guān)鍵詞：圖像融合；卷積神經(jīng)網(wǎng)絡(luò)；可訓(xùn)練融合策略；卷積神經(jīng)網(wǎng)絡(luò)；可見光圖像

中圖分類號： TP391.41"" 文獻標志碼： A

文章編號： 1001-3695（2022）05-049-1569-04

doi：10.19734/j.issn.1001-3695.2021.10.0422

Fusion network based on attention mechanism for infrared and visible images

Chen Yihan， Zheng Qianying

（College of Physics amp; Information Engineering， Fuzhou University， Fuzhou 350108， China）

Abstract： Aiming at the problem of lack of versatility in existing fusion methods，this paper proposed a feature fusion network combining spatial attention and channel attention.The network designed an end-to-end fusion framework and used a two-stage training strategy for training.In the first stage，it trained an auto-encoder to extract the features of the image.In the second stage，it trained the fusion network by the proposed fusion loss function.Experimental results show that the algorithm can not only retain the significant target features of the infrared image，but also have good characteristics in retaining the details of the visible image.Subjective and objective experimental analyses verify the effectiveness of the algorithm.

Key words： image fusion； convolution neural network； trainable fusion strategy； CNN； visible image

0 引言

圖像處理作為圖像識別、目標檢測、語義分割等任務(wù)的上游任務(wù)，具有重要的研究意義。圖像融合的目標是從多張圖像中提取各自重要的信息，并將其整合在一張圖像上。圖像融合有著幾十年的研究歷史，到目前為止，圖像融合已實現(xiàn)了良好的性能表現(xiàn)，它在目標跟蹤、軍事監(jiān)控領(lǐng)域發(fā)揮了重要作用。現(xiàn)有的融合方法可以分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法兩大類。傳統(tǒng)方法的計算代價比較高，在實際應(yīng)用中的運行速度較慢。而且針對不同的圖像融合任務(wù)，往往需要設(shè)計不同的融合策略。為了克服這些缺點，研究人員開始將深度學(xué)習(xí)方法應(yīng)用到圖像融合上。Li等人［1］基于VGG-19 預(yù)訓(xùn)練網(wǎng)絡(luò)提出了一個深度學(xué)習(xí)融合框架，雖然該方法利用了卷積神經(jīng)網(wǎng)絡(luò)提取深層信息，但是其融合策略還是相對簡單，并且VGG網(wǎng)絡(luò)特征提取的能力也不夠強，導(dǎo)致特征丟失部分信息。為了解決這些問題，文獻［2］進一步提出了結(jié)合 ResNet［3］和零相位組件分析（ZCA）的紅外與可見光圖像融合方法，首先利用預(yù)訓(xùn)練的ResNet-50直接提取源圖像的特征，然后通過ZCA將特征投影到相同的空間上，使用L1-norm和softmax得到?jīng)Q策圖。由于卷積自編碼器網(wǎng)絡(luò)強大的圖像表征能力，越來越多的研究人員開始將該結(jié)構(gòu)遷移到圖像融合任務(wù)上。DeepFuse［4］首先將該架構(gòu)用于多曝光圖像融合上，但是其網(wǎng)絡(luò)結(jié)構(gòu)比較簡單，提取的特征會丟失一些重要信息。受DeepFuse的啟發(fā)，文獻［5］提出一個新的圖像融合架構(gòu)DenseFuse。整個網(wǎng)絡(luò)分為編碼器、融合層和解碼器三部分，融合層使用特征相加或L1-norm的方式對特征進行加權(quán)計算，該結(jié)構(gòu)指導(dǎo)了后續(xù)圖像融合網(wǎng)絡(luò)的設(shè)計。為了提高編碼器的特征提取能力，借鑒了DenseNet中密集連接塊的設(shè)計，實現(xiàn)了特征的復(fù)用，使得編碼器能保留更多源圖像的特征信息，但是最后的融合效果還是很依賴于人工設(shè)計的融合策略。

為了解決人工設(shè)計特征融合策略的問題，一些學(xué)者提出了使用端到端的神經(jīng)網(wǎng)絡(luò)來直接對圖像進行融合。基于GAN的圖像融合框架FusionGAN［6］提出利用生成器對輸入源圖像進行特征級別的融合，而判別器則限制生成器生成的融合圖像從可見光圖像中獲取細節(jié)信息，也就是讓融合圖像盡可能獲取可見光圖像的細節(jié)信息但又不與可見光圖像非常相似。FusionGAN的損失函數(shù)由內(nèi)容損失和判別器損失兩部分組成。內(nèi)容損失使得融合圖像保留紅外圖像的顯著目標信息，而判別器損失則讓融合圖像擁有可見光圖像的紋理和邊緣等細節(jié)信息。為了提高FusionGAN的生成效果，文獻［7］提出了該網(wǎng)絡(luò)的升級版 FusionGANV2。FusionGANV2 改進了生成器的結(jié)構(gòu)，賦予其更強的特征提取能力；此外提出了新的目標邊緣增強損失函數(shù)和可見光細節(jié)保留損失函數(shù)，使得融合圖像擁有更豐富的紋理細節(jié)和更清晰的目標邊緣。IFCNN［8］提出了一種適用于多任務(wù)的通用圖像融合框架，它是一個有監(jiān)督的融合網(wǎng)絡(luò)，雖然使用大量ground-truth訓(xùn)練數(shù)據(jù)來訓(xùn)練模型，但該網(wǎng)絡(luò)太過簡單且其融合策略只是簡單的相加、取最大和取均值，得到的結(jié)果也不是最優(yōu)。文獻[9]提出一種結(jié)合引導(dǎo)濾波和快速共現(xiàn)濾波的融合方法，該方法以高斯濾波將源圖像分解為細節(jié)層和基礎(chǔ)層，然后使用不同的方法對這兩個層進行融合，提高了融合圖像的背景細節(jié)。

為了解決上述方法所產(chǎn)生的缺點，提出了一種新的、簡單高效的端到端圖像融合網(wǎng)絡(luò)（SCF-RDFuse），該網(wǎng)絡(luò)利用自編碼器網(wǎng)絡(luò)提取到的特征，將特征輸入到可訓(xùn)練的融合網(wǎng)絡(luò)（SCF）中，最后重建融合后的特征得到融合圖像。與人工設(shè)計的融合策略不同，本文采用了結(jié)合空間注意力和通道注意力的融合網(wǎng)絡(luò)，并設(shè)計了一個新的損失函數(shù)LSCF來保持可見光圖像的細節(jié)信息和突出紅外圖像的目標顯著性特征。與現(xiàn)有算法相比，本文算法提高了融合圖像的效果，得到了更好的視覺效果。

1 算法原理

本文SCF-RDFuse是一個端到端可訓(xùn)練網(wǎng)絡(luò)，如圖1所示，整個網(wǎng)絡(luò)由編碼器、SCF融合網(wǎng)絡(luò)和解碼器三大部分組成。輸入Ir和Iv分別表示紅外圖像和可見光圖像，If表示最終的融合圖像。編碼器用來提取圖像的特征，SCF 融合網(wǎng)絡(luò)結(jié)合空間注意力和通道注意力，根據(jù)輸入的紅外特征圖和可見光特征圖，自適應(yīng)地為它們分配權(quán)重，得到融合后的特征圖。最后解碼器根據(jù)融合特征重建出融合圖像。

2 分析與討論

2.1 訓(xùn)練過程中的實驗設(shè)置

使用PyTorch深度學(xué)習(xí)框架來實現(xiàn)本文算法，并在英偉達GTX 1080Ti顯卡的環(huán)境下進行訓(xùn)練。在第一個訓(xùn)練階段，即訓(xùn)練編碼器和解碼器的時候，本文使用MS-COCO作為訓(xùn)練集。首先將圖片轉(zhuǎn)為灰度圖，然后將其大小調(diào)整為256×256。在式（7）中，參數(shù)λ設(shè)為100，用來平衡LSSIM和Lp之間的數(shù)量級。每批訓(xùn)練圖片的大小設(shè)置為4，共訓(xùn)練四輪，學(xué)習(xí)率設(shè)置為1×10-4。參數(shù)α、β、δ和γ設(shè)置為α=500，β=1.0，δ=10.0和γ=0.01。在第二個訓(xùn)練階段，本文選擇KAIST來訓(xùn)練SCF網(wǎng)絡(luò)。KAIST數(shù)據(jù)集由大約90 000對圖片組成，其中80 000個紅外和可見光圖像對用來訓(xùn)練。圖像同樣采用第一階段的預(yù)處理，每批訓(xùn)練圖片的大小、訓(xùn)練輪數(shù)、學(xué)習(xí)率都和第一個訓(xùn)練階段一樣。

2.2 測試過程中的實驗設(shè)置

本文的測試圖像來自TNO數(shù)據(jù)集，圖6展示了數(shù)據(jù)集中的部分圖片。TNO數(shù)據(jù)集包含21對紅外和可見光圖像對。本文使用六個質(zhì)量評估指標來客觀地評估本文融合算法，包括entropy（En）［11］、mutual information（MI）［12］、spatial frequency（SF）［13］、Qabf［14］、the sum of the correlations of differences（SCD）［15］和multi-scale structural similarity（MS-SSIM）［16］。當(dāng)這六個指標增加時，則對應(yīng)融合圖像的質(zhì)量也將提升。

2.3 在21對圖像對上的結(jié)果

為了比較本文方法和其他先進算法的性能，選擇了八個比較有代表性的方法，其中包括convolutional sparse representation（ConvSR）、multi-layer deep features fusion method（VggML）、DeepFuse、ResNet50、DenseFuse、FusionGAN、IFCNN（elementwise-maximum）、DDcGAN。ConvSR將卷積稀疏表征學(xué)習(xí)引入到圖像融合任務(wù)中，將圖像分成基礎(chǔ)和細節(jié)兩部分，對細節(jié)部分應(yīng)用CSR模型。VggML算法是利用VGG-19預(yù)訓(xùn)練網(wǎng)絡(luò)提取輸入圖像的特征，并對特征進行人工策略的融合。ResNet50與VggML算法基本相同，只是將預(yù)訓(xùn)練網(wǎng)絡(luò)換成了ResNet50，并使用零相位分析法（ZCA）進行特征降維。DeepFuse和DenseFuse方法都是由編碼器、融合層和解碼器三部分組成，區(qū)別在于DenseFuse的編碼器使用了DenseNet的密集連接方式，能提取更加有效的特征。IFCNN則利用一個端到端的深度卷積神經(jīng)網(wǎng)絡(luò)進行圖像融合。FusionGAN和DDcGAN都是利用生成對抗網(wǎng)絡(luò)來進行圖像融合，不同的是DDcGAN采用雙判別器來區(qū)分融合圖像和兩個源圖像的結(jié)構(gòu)差異。

對于DenseFuse的融合策略，本文使用直接相加的策略，根據(jù)經(jīng)驗設(shè)置λ為100。對于其他模型，使用其在網(wǎng)絡(luò)上的公開代碼進行測試，所有參數(shù)都按照論文要求設(shè)置。本文選擇了測試集里比較有代表性的兩對紅外與可見光圖像對來和其他先進方法作視覺上的比較，融合結(jié)果如圖7所示。

圖7為第1組紅外與可見光圖像融合的結(jié)果。在圖7中，基于深度學(xué)習(xí)方法所得到的圖像整體亮度會比較暗，圖像包含更多的可見光細節(jié)。如圖中實線框所示，相比于本文方法，ConvSR、VggML和FusionGAN雖然保留了一些可見光中的重要特征，但是圖像整體會顯得比較模糊，物體的邊緣不夠清晰。而且實線框中的燈不夠明亮，融合效果還有待改進。而DDcGAN由于采用了雙判別器網(wǎng)絡(luò)進行訓(xùn)練，導(dǎo)致生成的融合圖像不夠真實，整體的圖像偏向紅外圖像，不符合正常人眼的視覺感受，并且目標周圍有比較嚴重的偽影產(chǎn)生。

現(xiàn)有方法在某些地方，比如商店外的椅子和街道邊屋檐，融合圖像的邊緣不夠清晰，且整體圖像也有點模糊。IFCNN則有點過度融合，圖像噪點過多。而本文方法不僅擁有更多的可見光細節(jié)，如圖像中的椅子輪廓比較清晰；而且，本文方法擁有比較合理的圖像亮度和對比度，這是因為本文算法使用了新的紅外對比度損失函數(shù)和紅外特征損失函數(shù)進行訓(xùn)練，模型能自適應(yīng)地學(xué)習(xí)到紅外圖像的對比度特征，并引導(dǎo)融合圖像擁有這類特征。圖8為第2組紅外與可見光圖像融合的結(jié)果。可以看出除了DeepFuse、DenseFuse、IFCNN和本文方法外，其他大多數(shù)融合方法不能很好地保留虛線框中“亭子”的細節(jié)特征。此類方法在融合中沒有合理權(quán)衡紅外和可見信息，導(dǎo)致“亭子”部分包含太多紅外的背景信息，細節(jié)分辨不清。與其他方法相比，在實線框中，使用本文方法融合出來的圖像有著更清晰的樹輪廓，并且融合出來的圖像能更好地平衡紅外和可見特征，達到一種較好的視覺感受。這是因為本文算法添加了新的梯度保留損失函數(shù)，通過最小化融合圖像和可見光圖像之間的梯度誤差，可以保留可見光圖像中物體的輪廓細節(jié)。

TNO數(shù)據(jù)集的實驗結(jié)果如表1所示，其中每列數(shù)據(jù)的最高值用粗體加以突出。從表中可以看出，本文融合框架（SCF-RDFuse）在Qabf、SCD和MS-SSIM指標上獲得了最高的數(shù)值，而在En、MI和SF指標上則獲得了第二高的數(shù)值。而DDcGAN雖然有著較高的En和MI，但其融合圖像噪聲太多而且有許多肉眼可見的偽影。本文融合網(wǎng)絡(luò)實現(xiàn)了良好的融合表現(xiàn)，產(chǎn)生了更清晰的圖像邊緣和更高的內(nèi)容保真度。

3 結(jié)束語

本文解決了現(xiàn)有融合方法缺乏通用性的缺點，提出了一種基于注意力機制的可學(xué)習(xí)融合策略，設(shè)計了一個端到端的融合框架（SCF-RDFuse），引入了一種雙階段的訓(xùn)練方法來訓(xùn)練SCF-RDFuse。本文算法在編碼器階段加入了殘差密集連接模塊，使模型提取到更豐富的特征。可學(xué)習(xí)融合策略結(jié)合注意力機制對圖像特征進行自適應(yīng)融合，獲得合適的融合特征。訓(xùn)練階段增加新的損失函數(shù)使圖像獲得更合適的對比度，突出紅外目標信息，保留圖像更多可見細節(jié)。本文算法在TNO數(shù)據(jù)集上進行了實驗，在Qabf、SCD和MS-SSIM指標上優(yōu)于其他算法。與其他融合算法相比，本文算法在圖像質(zhì)量上取得了較好的結(jié)果，融合圖像有著更清晰的圖像邊緣和可見細節(jié)。本文采用的SCF融合網(wǎng)絡(luò)需要大量的圖像對去訓(xùn)練，這對圖像融合任務(wù)不太友好，因此下一步將探索更高效的可學(xué)習(xí)融合策略的設(shè)計方法，考慮將傳統(tǒng)融合算法與神經(jīng)網(wǎng)絡(luò)的方法進行結(jié)合，減少訓(xùn)練所需的數(shù)據(jù)量。此外，本文將考慮把這種融合策略應(yīng)用到其他圖像融合任務(wù)，例如多曝光圖像融合、多焦點圖像融合和醫(yī)學(xué)圖像融合，以驗證本文算法的有效性和通用性。

參考文獻：

［1］Li Hui，Wu X J，Kittler J.Infrared and visible image fusion using a deep learning framework［C］//Proc of the 24th International Confe-rence on Pattern Recognition.Piscataway，NJ：IEEE Press，2018：2705-2710.

［2］Li Hui，Wu Xiaojun，Durrani T S.Infrared and visible image fusion with ResNet and zero-phase component analysis［J］.Infrared Physics amp; Technology，2019，102：103039.

［3］He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al.Deep residual lear-ning for image recognition［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016：770-778.

［4］Prabhakar K R，Srikar V S，Babu R V.DeepFuse：a deep unsupervised approach for exposure fusion with extreme exposure image pairs［C］//Proc of IEEE International Conference on Computer Vision.Pisca-taway，NJ：IEEE Press，2017：4724-4732.

［5］Li Hui，Wu X J.DenseFuse：a fusion approach to infrared and visible images［J］.IEEE Trans on Image Processing，2019，28（5）：2614-2623.

［6］Ma Jiayi，Yu Wei，Liang Pengwei，et al.FusionGAN：a generative adversarial network for infrared and visible image fusion［J］.Information Fusion，2019，48（4）：11-26.

［7］Ma Jiayi，Liang Pengwei，Yu Wei，et al.Infrared and visible image fusion via detail preserving adversarial learning［J］.Information Fusion，2020，54（2）：85-98.

［8］Zhang Yu，Liu Yu，Sun Peng，et al.IFCNN：a general image fusion framework based on convolutional neural network［J］.Information Fusion，2020，54（2）：99-118.

［9］朱文鵬，陳莉，張永新.基于引導(dǎo)濾波和快速共現(xiàn)濾波的紅外和可見光圖像融合［J］.計算機應(yīng)用研究，2021，38（2）：600-604. （Zhu Wenpeng，Chen Li，Zhang Yongxin，et al.Infrared and visible image fusion based on guided filter and fast co-occurrence filter［J］.Application Research of Computers，2021，38（2）：600-604.）

［10］Wang Zhou，Bovik A C，Sheikh H R，et al.Image quality assessment：from error visibility to structural similarity［J］.IEEE Trans on Image Processing，2004，13（4）：600-612.

［11］Roberts J，Van Aardt J，Ahmed F.Assessment of image fusion procedures using entropy，image quality，and multispectral classification［J］.Journal of Applied Remote Sensing，2008，2（1）：1-28.

［12］Qu Guihong，Zhang Dali，Yan Pingfan.Information measure for performance of image fusion［J］.Electronics Letters，2002，38（7）：313-315.

［13］Eskicioglu A M，F(xiàn)isher P S.Image quality measures and their perfor-mance［J］.IEEE Trans on Communications，1995，43（12）：2959-2965.

［14］Xydeas C S，Petrovic V.Objective image fusion performance measure［J］.Electronics Letters，2000，36（4）：308-309.

［15］Aslantas V，Bendes E.A new image quality metric for image fusion：the sum of the correlations of differences［J］.AEU-International Journal of Electronics and Communications，2015，69（12）：1890-1896.

［16］Ma Kede，Zeng Kai，Wang Zhou.Perceptual quality assessment for multi-exposure image fusion［J］.IEEE Trans on Image Processing，2015，24（11）：3345-3356.

計算機應(yīng)用研究2022年5期

計算機應(yīng)用研究的其它文章: 基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)視頻場景分割優(yōu)化算法; 基于多尺度殘差視覺信息融合的牧場牛只數(shù)量估計方法; 學(xué)習(xí)點云鄰域信息的三維物體形狀補全; PNet：融合注意力機制的多級低照度圖像增強網(wǎng)絡(luò); 結(jié)合結(jié)構(gòu)重參數(shù)化方法與空間注意力機制的圖像融合模型; 基于Transformer實現(xiàn)文本導(dǎo)向的圖像編輯