馬路遙,羅曉清,張戰(zhàn)成
基于信息瓶頸孿生自編 碼網(wǎng)絡(luò)的紅外與可見光圖像融合
馬路遙1,2,3,羅曉清1,2,3,張戰(zhàn)成4
(1. 江南大學(xué) 人工智能與計算機(jī)學(xué)院,江蘇無錫 214122;2. 江南大學(xué) 先進(jìn)技術(shù)研究院,江蘇 無錫 214122;3. 江蘇省模式識別與計算智能工程實驗室,江蘇 無錫 214122;4. 蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000)
紅外與可見光圖像融合方法中存在信息提取和特征解耦不充分、可解釋性較低等問題,為了充分提取并融合源圖像有效信息,本文提出了一種基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見光圖像融合方法(DIBF:Double Information Bottleneck Fusion)。該方法通過在孿生分支上構(gòu)建信息瓶頸模塊實現(xiàn)互補特征與冗余特征的解耦,進(jìn)而將互補信息的表達(dá)過程對應(yīng)于信息瓶頸前半部分的特征擬合過程,將冗余特征的壓縮過程對應(yīng)于信息瓶頸后半部分的特征壓縮過程,巧妙地將圖像融合中信息提取與融合表述為信息瓶頸權(quán)衡問題,通過尋找信息最優(yōu)表達(dá)來實現(xiàn)融合。在信息瓶頸模塊中,網(wǎng)絡(luò)通過訓(xùn)練得到特征的信息權(quán)重圖,并依據(jù)信息權(quán)重圖,使用均值特征對冗余特征進(jìn)行壓縮,同時通過損失函數(shù)促進(jìn)互補信息的表達(dá),壓縮與表達(dá)兩部分權(quán)衡優(yōu)化同步進(jìn)行,冗余信息和互補信息也在此過程中得到解耦。在融合階段,將信息權(quán)重圖應(yīng)用在融合規(guī)則中,提高了融合圖像的信息豐富性。通過在標(biāo)準(zhǔn)圖像TNO數(shù)據(jù)集上進(jìn)行主客觀實驗,與傳統(tǒng)和近來融合方法進(jìn)行比較分析,結(jié)果顯示本文方法能有效融合紅外與可見光圖像中的有用信息,在視覺感知和定量指標(biāo)上均取得較好的效果。
信息瓶頸;孿生自編碼;解耦表征;紅外與可見光;圖像融合
圖像融合是一種圖像增強技術(shù),旨在將由不同傳感器獲得的圖像合并為一幅圖像,從而增強對場景的解釋[1]。紅外與可見光圖像融合作為圖像融合分支,受到許多研究人員的關(guān)注[2-4]。
紅外圖像由紅外傳感器采集,含有顯著的熱輻射目標(biāo),成像不受時間、空間影響,但不能很好地采集到場景中的紋理細(xì)節(jié);相反,由可見光傳感器采集的可見光圖像雖然包含豐富的紋理細(xì)節(jié),但在天氣惡劣、有遮擋物的情況下容易丟失目標(biāo)[5]。紅外與可見光圖像融合技術(shù)能夠改善單一圖像成像的不足,將多傳感器圖像中的有用信息綜合,形成融合圖像,為軍事安全和夜視監(jiān)控等提供重要指導(dǎo)[6]。
在過去幾年中,深度學(xué)習(xí)模型由于其學(xué)習(xí)能力強、魯棒性高等優(yōu)點在圖像融合任務(wù)中展現(xiàn)了巨大的潛能[7-9]。自編碼網(wǎng)絡(luò)作為典型的深度無監(jiān)督學(xué)習(xí)模型,能夠從無標(biāo)簽樣本中自動學(xué)習(xí)樣本的有效特征[10],其分支孿生自編碼網(wǎng)絡(luò)由于其在類別不平衡數(shù)據(jù)上的良好表現(xiàn)吸引了眾多學(xué)者[11-12]。目前,自編碼網(wǎng)絡(luò)已大量應(yīng)用于圖像融合領(lǐng)域,并取得一系列成果,例如:Li等提出的Densefuse[13]首次引入自編碼網(wǎng)絡(luò)進(jìn)行圖像分解和圖像重構(gòu),隨后提出的NestFuse[14]在DenseFuse的基礎(chǔ)上使用了空間/通道注意力機(jī)制,進(jìn)一步提升了融合效果。但它們都只是簡單使用編碼器生成紅外與可見光特征圖,未對特征做進(jìn)一步分解,對不同傳感器模態(tài)之間的互補冗余信息未單獨關(guān)注。
圖像融合技術(shù)的本質(zhì)是綜合多傳感器圖像的互補信息,因此通過解耦表征方法探索圖像特征內(nèi)部的互補冗余關(guān)系,對互補信息和冗余信息采用不同的融合規(guī)則進(jìn)行融合是一條值得探索的途徑。近年來,研究者開始將解耦表征應(yīng)用于紅外與可見光圖像融合[15-17]。Zhao等提出DIDFuse(Deep Image Decomposition based IVIF)[18],通過將源圖像分解為具有高低頻信息的背景特征和細(xì)節(jié)特征來實現(xiàn)解耦,解耦后特征串聯(lián)送入解碼器獲得融合圖像。該方法的網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,并未充分解耦卷積神經(jīng)網(wǎng)絡(luò)提取的特征信息,生成的融合圖像清晰度不高。基于紅外與可見光圖像是在同一場景下由不同傳感器拍攝的背景,Xu等提出DRF(Disentangled Representation for Visible and Infrared Fusion)[19]方法,將源圖像解耦為相似的場景特征和獨特的傳感器特征,在融合階段進(jìn)行了交叉融合,并設(shè)計相應(yīng)的損失函數(shù)促進(jìn)解耦。此方法在大部分圖像上獲得了較好的解耦效果,但部分耦合度較高的圖像不適用于此網(wǎng)絡(luò),網(wǎng)絡(luò)魯棒性不高。雖然作者設(shè)置了紅外與可見光參數(shù)的不同配比來解決此問題,但需要依據(jù)具體圖像設(shè)置,因而不具備通用性。Xu等提出CUFD(Common and Unique Feature Decomposition)[20],此方法的新穎之處在于使用雙層自編碼網(wǎng)絡(luò)來實現(xiàn)特征解耦,其中一個編碼器將圖像映射為淺層特征和深層特征,另一個編碼器將淺層特征和深層特征又分別映射為共用信息和唯一信息,使得編碼階段特征解耦充分。以上基于解耦表征的圖像融合方法都是通過設(shè)置復(fù)雜的損失函數(shù)這種隱式約束方法來促進(jìn)解耦,并沒有進(jìn)行顯示監(jiān)督,這導(dǎo)致網(wǎng)絡(luò)的可解釋不高,對部分圖像會出現(xiàn)解耦不足、解耦過度等問題,融合算法魯棒性不強。
基于上述分析,本文提出一種基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見光圖像融合方法。信息瓶頸理論認(rèn)為,網(wǎng)絡(luò)像把信息從一個瓶頸中擠壓出去,去除掉那些含有無關(guān)細(xì)節(jié)的噪聲輸入數(shù)據(jù),只保留與預(yù)測目標(biāo)最相關(guān)的特征。對于自編碼圖像融合網(wǎng)絡(luò),其結(jié)構(gòu)含有編碼層、融合層、解碼層,其網(wǎng)絡(luò)訓(xùn)練過程可以理解為訓(xùn)練一個權(quán)重組合,使得與最終融合圖像相關(guān)的信息從網(wǎng)絡(luò)輸入(紅外與可見光圖像)傳播至網(wǎng)絡(luò)輸出(融合圖像),而與最終融合圖像無關(guān)的信息在編碼過程中壓縮掉。當(dāng)在網(wǎng)絡(luò)中引入信息瓶頸的權(quán)衡優(yōu)化時,融合網(wǎng)絡(luò)能夠逐層擠壓出與輸入源圖像有關(guān)但與融合圖像無關(guān)的信息,從而實現(xiàn)對冗余信息的壓縮和對互補信息的表達(dá),得到融合結(jié)果。因此,本文在編碼階段孿生分支上構(gòu)建信息瓶頸模塊,訓(xùn)練出最優(yōu)的信息權(quán)重圖,結(jié)合信息瓶頸思想實施對互補特征的表達(dá)和對冗余特征的壓縮,實現(xiàn)了特征圖信息顯式解耦,具有較好的可解釋性。在融合階段,進(jìn)一步采用信息權(quán)重實現(xiàn)了對互補信息的充分融合。
2020年,Naftali Tishby在“The information bottleneck method”一文[21]中率先提出了信息瓶頸理論。他從信息論中關(guān)于數(shù)據(jù)壓縮的經(jīng)典率失真定律出發(fā),拓展出信息瓶頸理論,并從信息瓶頸理論角度認(rèn)為深度學(xué)習(xí)訓(xùn)練過程包含“特征擬合”和“特征壓縮”兩個階段,將深度學(xué)習(xí)的訓(xùn)練問題表述為特征擬合和特征壓縮兩個階段之間的平衡問題[22-23]。
使用信息瓶頸理論的關(guān)鍵在于找到信息瓶頸理論的權(quán)衡問題以及如何使用信息瓶頸理論來設(shè)計一個強大的分離函數(shù)[24]。在深度網(wǎng)絡(luò)中,假設(shè)輸入數(shù)據(jù)記為,期望輸出數(shù)據(jù)為,深度學(xué)習(xí)的訓(xùn)練目標(biāo)可以解釋為尋求輸入源的最優(yōu)表示,即為網(wǎng)絡(luò)的信息瓶頸,整個過程包含兩個部分:①盡可能多地捕獲關(guān)于目標(biāo)的相關(guān)信息,即最大化(;);②通過丟棄不相關(guān)的部分即對沒有貢獻(xiàn)的信息來最大限度地壓縮,即最小化(;),兩個部分的優(yōu)化同時進(jìn)行。具體表示為以下的拉格朗日目標(biāo)[25]:

式中:(;)表示無關(guān)信息的壓縮程度,(;)表示相關(guān)信息的預(yù)測能力;為兩者之間的權(quán)衡參數(shù)。
本文方法是一個端到端的圖像融合網(wǎng)絡(luò),由編碼器、融合網(wǎng)絡(luò)和解碼器組成,融合框架如圖1所示。網(wǎng)絡(luò)的輸入為已配準(zhǔn)的紅外圖像(IR)與可見光圖像(VIS),輸出為融合圖像(F)。基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見光圖像融合流程如下:


圖1 DIBF流程圖
3)融合與解碼:在融合階段對編碼得到的兩類特征與分別融合。對特征采用基于信息權(quán)重圖加權(quán)平均的融合方法,對特征采用取最大值的方法融合,融合結(jié)果分別為f和f,融合過程詳見2.3節(jié)。最后,f和f都包含了經(jīng)過編碼階段的權(quán)衡優(yōu)化后保留的有效信息,為保證融合圖像信息充分,將和的融合結(jié)果取均值得到融合特征。然后將送入解碼器獲得融合圖像,解碼器包含4個卷積層,卷積核為3×3,通道數(shù)分別為64,32,32,3。
在編碼階段,為了將紅外和可見光特征圖中的互補信息和冗余信息解耦,并通過信息瓶頸理論對特征的表達(dá)與壓縮進(jìn)行權(quán)衡優(yōu)化,本文在前兩層孿生分支上構(gòu)建了IB模塊。
由信息瓶頸思想可知,本文IB模塊的權(quán)衡包含兩個部分:第一部分是將互補信息表達(dá),并通過后續(xù)融合與解碼獲得融合圖像。第二部分是將冗余壓縮,防止其影響融合圖像質(zhì)量,兩部分的權(quán)衡優(yōu)化同步進(jìn)行。
為實現(xiàn)特征的顯式解耦以及互補特征的表達(dá)與冗余特征的充分壓縮,每個IB模塊訓(xùn)練得到一個信息權(quán)重圖,的大小與特征圖的大小一致,值在0~1之間。以IR為例,IB模塊流程為:
①通過IB網(wǎng)絡(luò)訓(xùn)練獲得一個信息權(quán)重圖。

②使用均值特征對紅外圖像的特征進(jìn)行壓縮,得到壓縮后特征:

式中:權(quán)重表示紅外圖像中互補信息的權(quán)重;1-表示紅外圖像中冗余信息的權(quán)重;使用像素平均圖特征avg對紅外圖像中的冗余信息進(jìn)行抑制。可以看出,實現(xiàn)了對互補特征與冗余特征的顯式化解耦,更利于后續(xù)的融合操作。


圖2 信息權(quán)重圖示意圖
本文融合規(guī)則包含兩部分,分別為對特征(ir3,vis3)和特征(ir3,vis3)的融合:
①由于信息權(quán)重圖代表了各層次特征對最終融合圖像的貢獻(xiàn)程度,同時它經(jīng)過網(wǎng)絡(luò)訓(xùn)練獲得,因此能夠自適應(yīng)地用于紅外和可見光圖像中互補信息的融合,彌補了人工設(shè)計融合權(quán)重的不足,因此本文采用基于的加權(quán)平均的方法實現(xiàn)特征的融合:


②為保證融合方法不引入現(xiàn)有圖像對之外的信息,本文使用均值圖像作為噪聲圖像對IR與VIS的特征進(jìn)行壓縮,最終ir3和vis3為經(jīng)過編碼階段信息瓶頸權(quán)衡優(yōu)化后得到的特征圖,是紅外與可見光圖像互補信息充分提取、冗余信息充分壓縮的結(jié)果,因此直接采用取最大值的方法對壓縮特征ir3,vis3進(jìn)行融合:

式中:ir3和vis3分別為紅外與可見光圖像的特征經(jīng)過IB模塊權(quán)衡優(yōu)化后的第三層特征圖;f為ir3和vis3的融合特征圖。
為了更充分地獲取信息,最后將f和f取平均得到總體融合特征圖:

本文損失函數(shù)包含兩部分:第一部分為信息瓶頸損失IB,第二部分為編碼器重建損失rec,總損失函數(shù)表示如下:
train=IB+rec(7)
式中:為IB和rec之間的權(quán)衡參數(shù)。
2.4.1 信息瓶頸損失函數(shù)
信息瓶頸損失IB用來優(yōu)化信息瓶頸權(quán)衡過程,包含壓縮損失cut和預(yù)測損失pre兩部分,第一部分cut控制冗余信息的壓縮程度,第二部分pre控制互補信息的表達(dá)預(yù)測能力,IB表示如下:
IB=cut+pre(8)
式中:為兩者之間的權(quán)衡參數(shù)。
cut為和之間的內(nèi)積,cut越小,對冗余信息的壓縮程度越高。

pre包含gen和reg兩部分,表示如下:
pre=gen+reg(10)
gen為生成損失,控制編碼網(wǎng)絡(luò)同分支下第三層生成的特征和之間的一致性,gen越小,兩個特征越相似,使用兩個特征之間的余弦距離來表示:

reg為回歸損失,對融合圖像輸入編碼網(wǎng)絡(luò)孿生分支生成的特征進(jìn)行約束,包含pos和neg兩部分:
reg=pos+neg(12)
融合圖像經(jīng)過編碼網(wǎng)絡(luò)得到的特征分別為fir、fvis,紅外與可見光圖像經(jīng)過編碼網(wǎng)絡(luò)得到的特征分別為ir3、vis3,pos則約束由編碼網(wǎng)絡(luò)中同一分支得到的兩個特征接近,用余弦距離表示;neg約束由不同分支得到的兩個特征遠(yuǎn)離,并且遠(yuǎn)離程度保持一致(如圖3所示),圖3(a)中fvis應(yīng)在橫軸vis3附近,同時遠(yuǎn)離縱軸ir3,圖3(b)中fir應(yīng)在橫軸ir3附近,同時遠(yuǎn)離縱軸vis3。pos和neg具體定義如下:


2.4.2 訓(xùn)練重建損失函數(shù)
重建損失rec包含了融合圖像和源圖像之間的像素距離和梯度距離,分別使用像素和梯度之間的二范數(shù)來表示:

在訓(xùn)練階段,選擇Zhang等人提出的IFCNN數(shù)據(jù)集[26]作為訓(xùn)練集,它包含1400多對灰度多聚焦圖像,網(wǎng)絡(luò)模型在TensorFlow上的Keras中實現(xiàn),優(yōu)化器設(shè)置為Adam,批處理大小為2,迭代次數(shù)為200,學(xué)習(xí)率為0.0003。測試階段選擇源自TNO數(shù)據(jù)集的40對已配準(zhǔn)的紅外與可見光圖像進(jìn)行實驗。實驗環(huán)境為ubuntu16,CPU Intel(R) Core i7-6850k,內(nèi)存為64G,實驗參數(shù)設(shè)置為=1,=1.2,=1,=1。
為驗證本文算法的有效性和優(yōu)越性,將本文方法與6種經(jīng)典的圖像融合算法進(jìn)行定性和定量的比較分析,其中包含兩種傳統(tǒng)方法和4種基于深度學(xué)習(xí)的圖像融合方法,分別為GTF(Fusion via Gradient Transfer)[27]、Densefuse[13]、DRF[19]、DIDFuse[18]、SDNet(Squeeze-and-decomposition network)[28]、LPSR(Laplacian Pyramid and Sparse Representation)[29]。
本文從主客觀兩方面進(jìn)行對比分析:主觀上比較融合圖像的視覺效果;客觀上,選擇SSIM、EN、cv、CC、s和nice六種客觀指標(biāo)對融合結(jié)果進(jìn)行評價。其中,SSIM為相似度,衡量圖像結(jié)構(gòu)化信息丟失程度,SSIM的值越大,融合圖像與源圖像的相似度越大,融合質(zhì)量越好;EN為信息熵,用來衡量圖像中信息量的多少,EN的值越大,融合效果越好。cv是一種人類啟發(fā)感知的圖像融合質(zhì)量評價指標(biāo),cv的值越小,圖像質(zhì)量越高,保留的原始兩幅圖像的信息也就越多。CC為相關(guān)系數(shù),用來衡量源圖像和融合圖像之間的線性關(guān)系,CC的值越大,代表融合圖像與源圖像越相似。nice通過計算源圖像與融合圖像間的非線性相關(guān)信息熵來衡量圖像間的相似度,nice的值越大,圖像融合效果越好。
圖4為各方法在“soldier behind smoke”圖像上獲得的融合結(jié)果。紅外圖像(圖4(a))的互補信息是目標(biāo)人物和背景森林,可見光圖像(圖4(b))顯示此區(qū)域有煙霧,這是一種在軍事戰(zhàn)場環(huán)境下極容易出現(xiàn)的情況,即在可見光圖像中目標(biāo)人物被遮擋,而在紅外圖像中看不到可見光圖像中的煙霧的位置及大小情況,不利于軍事判斷。對融合圖像的要求是能夠同時顯示紅外圖像中的士兵信息和背景森林信息以及區(qū)域的煙霧性。
由圖4可知,GTF方法是一種使用VIS圖像中豐富的紋理來增強IR圖像的方法,但對于圖4中VIS圖像有濃厚煙霧的情況,此方法有明顯劣勢,從圖4(c)可以看出,融合圖像包含大量偽影,細(xì)節(jié)信息丟失嚴(yán)重;Densefuse方法是一種基于殘差網(wǎng)絡(luò)的獲得的融合圖像算法,能夠?qū)D像特征傳入更深層次的網(wǎng)絡(luò)中,避免過快出現(xiàn)梯度爆炸,從圖4(d)可以看出,煙霧、背景樹干和目標(biāo)人物信息融合較好,但由于沒有進(jìn)行解耦操作,相較于本文方法,圖像對比度和目標(biāo)人物的清晰度不高。DRF、DIDFuse都對圖像特征進(jìn)行了解耦,但解耦和重建過程都通過損失函數(shù)隱式約束,可解釋性不高,從圖4(e)~(f)可以看出,獲得的融合圖像中煙霧幾乎遮擋了人物信息,視覺效果較差。SDNet是一種復(fù)雜度較高的壓縮分解網(wǎng)絡(luò)模型,因此存在著在數(shù)據(jù)量不充足情況下的訓(xùn)練不充分問題,從圖4(g)可知,所得圖像存在大量偽影,煙霧區(qū)域不夠明顯。LPSR是一種結(jié)合了多尺度變換和稀疏表示的傳統(tǒng)方法,其中人工設(shè)計的復(fù)雜特征提取方法沒能有效保留源圖像的重要信息,從圖4(h)可以看出,其融合結(jié)果中煙霧信息提取過多,遮擋了目標(biāo)人物。對比可得,本文方法獲得的融合圖像目標(biāo)人物突出、背景信息豐富、煙霧輪廓清晰,具有較好的視覺效果。
表1為各方法在“soldier behind smoke”圖像上的客觀評價值,表中加粗?jǐn)?shù)據(jù)為該指標(biāo)的最優(yōu)值。
由表1可知,客觀指標(biāo)中本文方法在SSIM、s、nice上獲得最優(yōu)值,在EN和CC指標(biāo)上排名也相對靠前,進(jìn)一步驗證了本文方法融合效果較好,融合圖像信息豐富,較好地綜合了紅外與可見光圖像的有效信息,與定性分析結(jié)果保持一致。
圖5為各方法在“Kaptein”圖像上獲得的融合圖像,其中紅外圖像(圖5(a))包含突出的目標(biāo)人物信息和左上角的煙霧信息等,可見光圖像(圖5(b))包含樹葉、樹枝細(xì)節(jié)和地磚紋理等。結(jié)果融合圖像應(yīng)該充分融合到紅外圖像中突出的目標(biāo)人物信息和煙霧信息以及可見光圖像中樹枝、門框、花叢、小路、路燈等信息。

圖4 “soldier behind smoke”圖像的融合結(jié)果

表1 各融合方法在“soldier behind smoke”圖像上的客觀評價

圖5 “Kaptein”圖像的融合結(jié)果
由圖5可知,GTF、Densefuse、DIDFuse、SDNet(圖5(c)~(d),(f)~(g))獲得的融合圖像樹枝信息模糊,有大量偽影。DRF(圖5(e))獲得的融合圖像左上角的濃煙信息全部丟失。LPSR方法(圖5(g))獲得的融合圖像整體效果較好,但與本文方法相比,門前樹木的枝葉的紋理細(xì)節(jié)信息不夠清晰,對比度不高。本文方法獲得的融合圖像樹枝細(xì)節(jié)豐富、目標(biāo)人物清晰,很好地融合了紅外和可見光圖像中的有效信息。
表2為各方法在“soldier at the door”圖像上的客觀評價值,表中加粗?jǐn)?shù)據(jù)為該指標(biāo)的最優(yōu)值。
由表2可知,本文方法在SSIM、CV、s、nice上獲得了最優(yōu)值,在EN和CC指標(biāo)上的排名也相對靠前,客觀檢驗了本文方法優(yōu)越性,與定性分析的結(jié)論保持一致。
為驗證本文方法有效性,將各方法在TNO數(shù)據(jù)集上進(jìn)行客觀評價分析,從表3分析結(jié)果可以看出,本文算法在5個指標(biāo)上保持最優(yōu)值,在一個指標(biāo)上為次優(yōu)值。
為了驗證本文方法中融合策略的有效性,進(jìn)行消融實驗,包括:(1)融合階段僅對特征做融合;(2)融合階段僅對特征做融合;(3)對特征融合時僅使用第一層信息權(quán)重圖;(4)對特征融合時僅使用第二層信息權(quán)重圖。

表2 7種融合方法在“Kaptein”圖像上的客觀評價

表3 各方法在TNO數(shù)據(jù)集上的客觀評價
由圖6(a)~(c)可知,融合階段僅對特征或做融合得到的融合圖像背景森林信息嚴(yán)重丟失,人物信息不夠突出,煙霧區(qū)域不夠明顯。由圖6(d)~(f)可知,在特征融合過程中,僅采用第一層信息權(quán)重圖和僅采用第二層信息權(quán)重圖得到的融合結(jié)果視覺效果較差,圖像亮度較暗,并且圖片細(xì)節(jié)信息丟失嚴(yán)重。綜合分析本文所采用的將兩種融合結(jié)果求平均的方法和將前兩層信息權(quán)重圖求平均的方法取得較好的效果。
為更加客觀地檢驗本文設(shè)計融合規(guī)則的有效性與優(yōu)越性,在TNO數(shù)據(jù)集上進(jìn)行消融實驗,對40對圖像客觀指標(biāo)的平均值進(jìn)行對比分析。從表4可以看出,本文設(shè)計的融合規(guī)則獲得的融合圖像在所有指標(biāo)上均達(dá)到最優(yōu)。

圖6 “soldier behind smoke”圖像上的消融實驗

表4 40對圖像消融實驗客觀指標(biāo)
針對當(dāng)前圖像融合方法中存在的信息提取和特征解耦不充分等問題,本文提出了一種基于信息瓶頸孿生自編碼網(wǎng)絡(luò)的紅外與可見光圖像融合方法(DIBF)。本文方法整體采用自編碼網(wǎng)絡(luò)結(jié)構(gòu),通過基礎(chǔ)編碼網(wǎng)絡(luò)能夠獲得紅外與可見光圖像特征。同時,在編碼階段孿生分支上構(gòu)建信息瓶頸(IB)模塊用于實現(xiàn)特征解耦,結(jié)合信息瓶頸權(quán)衡思想訓(xùn)練網(wǎng)絡(luò)。IB模塊經(jīng)訓(xùn)練后得到信息權(quán)重圖,表示了特征圖中逐像素的信息權(quán)重,然后使用均值特征對紅外與可見光特征進(jìn)行壓縮,得到壓縮后特征為。融合階段將編碼獲得的兩類特征和分別融合,對特征采用基于信息權(quán)重圖加權(quán)平均的策略進(jìn)行融合,對特征采用取最大值的策略進(jìn)行融合,對兩種融合結(jié)果取均值得到融合特征,再將其送入解碼網(wǎng)絡(luò)得到融合圖像。由于信息權(quán)重圖是依據(jù)相應(yīng)源圖像的特征信息經(jīng)訓(xùn)練獲得,并將其用于融合階段,因此融合網(wǎng)絡(luò)具有較好的自適應(yīng)能力。總之,本文方法將圖像融合中特征表達(dá)與信息融合巧妙地表述成了信息瓶頸權(quán)衡問題,促進(jìn)了信息的有效表達(dá),是一種有效的紅外與可見光圖像融合方法。實驗結(jié)果表明,本文方法采用的信息瓶頸權(quán)衡優(yōu)化的思路促進(jìn)了圖像特征的顯式解耦,有效融合多傳感器圖像的有效信息,在視覺感知和定量指標(biāo)方面均取得較好的效果,與傳統(tǒng)及近來融合算法相比具有一定優(yōu)越性。
[1] 張冬冬, 王春平, 付強. 深度學(xué)習(xí)框架下的紅外與可見光圖像融合算法綜述[J]. 激光與紅外, 2022, 52(9): 1288-1298. ZHANG D D, WANG C P, FU Q. Overview of infrared and visible image fusion algorithms based on deep learning framework[J]., 2022, 52(9): 1288-1298.
[2] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.
[3] 陳永, 張嬌嬌, 王鎮(zhèn). 多尺度密集連接注意力的紅外與可見光圖像融合[J]. 光學(xué)精密工程, 2022, 30(18): 2253-2266. CHEN Y, ZHANG J J, WANG Z. Infrared and visible image fusion based on multi-scale dense attention connection network[J]., 2022, 30(18): 2253-2266.
[4] 孫彬, 諸葛吳為, 高云翔, 等. 基于潛在低秩表示的紅外和可見光圖像融合[J]. 紅外技術(shù), 2022, 44(8): 853-862. SUN B, ZHUGE W W, GAO Y X, et al. Infrared and visible lmage fusion based on latent low-rank representation[J]., 2022, 44(8): 853-862.
[5] 楊孫運, 奚崢皓, 王漢東, 等. 基于 NSCT 和最小化-局部平均梯度的圖像融合[J]. 紅外技術(shù), 2021, 43(1): 13-20. YANG S Y, XI Z H, WANG H D, et al. Image fusion based on NSCT and minimum-local mean gradient [J]., 2021, 43(1): 13-20.
[6] 劉智嘉, 賈鵬, 夏寅輝. 基于紅外與可見光圖像融合技術(shù)發(fā)展與性能評價[J]. 激光與紅外, 2019, 49(5): 123-130. LIU Z J, JIA P, XIA Y H, et al. Development and performance evaluation of infrared and visual image fusion technology[J]., 2019, 49(5): 123-130.
[7] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]., 2020, 128(10): 2402-2417.
[8] 馬梁, 茍于濤, 雷濤, 等. 基于多尺度特征融合的遙感圖像小目標(biāo)檢測[J]. 光電工程, 2022, 49(4): 49-65. MA L, GOU Y T, LEI T, et al. Small object detection based on multi-scale feature fusion using remote sensing images[J]., 2022, 49(4): 49-65.
[9] 雷大江, 杜加浩, 張莉萍, 等. 聯(lián)合多流融合和多尺度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)遙感圖像融合方法[J]. 電子與信息學(xué)報, 2022, 44(1): 237-244. LEI D J, DU J H, ZHANG L P, et al. Multi-stream architecture and multi-scale convolutional neural network for remote sensing image fusion[J]., 2022, 44(1): 237-244.
[10] 李明, 劉帆, 李婧芝. 結(jié)合卷積注意模塊與卷積自編碼器的細(xì)節(jié)注入遙感圖像融合[J]. 光子學(xué)報, 2022, 51(6): 406-418. LI M, LIU F, LI J Z.Combining convolutional attention module and convolutional autoencoder for detail injection remote sensing image fusion[J]., 2022, 51(6): 406-418.
[11] 劉博, 韓廣良, 羅惠元. 基于多尺度細(xì)節(jié)的孿生卷積神經(jīng)網(wǎng)絡(luò)圖像融合算法[J]. 液晶與顯示, 2021, 36(9): 1283-1293. LIU B, HAN G L, LUO H Y.Image fusion algorithm based on multi-scale detail siamese convolutional neural network[J]., 2021, 36(9): 1283-1293.
[12] Krishna V A, Reddy A A, Nagajyothi D. Signature recognition using siamese neural networks[C]//(ICMNWC), 2021: 1-4.
[13] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.
[14] LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J], 2020, 69(12): 9645-9656.
[15] LU B, CHEN J C, Chellappa R. Unsupervised domain-specific deblurring via disentangled representations[C]//, 2019: 10225-10234.
[16] WANG G, HAN H, SHAN S, et al. Cross-domain face presentation attack detection via multi-domain disentangled representation learning[C]//, 2020: 6678-6687.
[17] 文載道, 王佳蕊, 王小旭, 等. 解耦表征學(xué)習(xí)綜述[J]. 自動化學(xué)報, 2022, 48(2): 351-374. WEN Z D, WANG J R, WANG X X, et al. A review of disentangled representation learning[J]., 2022, 48(2): 351-374.
[18] ZHAO Z, XU S, ZHANG C, et al. DIDFuse: Deep image decomposition for infrared and visible image fusion[J]. arXiv preprint arXiv:2003.09210, 2020.
[19] XU H, WANG X, MA J. DRF: Disentangled representation for visible and infrared image fusion[J]., 2021, 70: 1-13.
[20] XU H, GONG M, TIAN X, et al. CUFD: An encoder–decoder network for visible and infrared image fusion based on common and unique feature decomposition[J]., 2022, 218: 103407.
[21] Tishby N, Pereira F C, Bialek W. The information bottleneck method[J]. arXiv preprint physics/0004057, 2000.
[22] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//(ITW)., 2015: 1-5.
[23] Shwartz-Ziv R, Tishby N. Opening the black box of deep neural networks via information[J]. arXiv preprint arXiv:1703.00810, 2017.
[24] Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck[J]. arXiv preprint arXiv:1612.00410, 2016.
[25] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//(ITW). IEEE, 2015: 1-5.
[26] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]., 2020, 54: 99-118.
[27] MA J, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]., 2016, 31: 100-109.
[28] ZHANG H, MA J. SDNet: A versatile squeeze-and-decomposition network for real-time image fusion[J]., 2021, 129(10): 2761-2785.
[29] LIU Y, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.
Infrared and Visible Image Fusion Based on Information Bottleneck Siamese Autoencoder Network
MA Luyao1,2,3,LUO Xiaoqing1,2,3,ZHANG Zhancheng4
(1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China;2. Institute of Advanced Technology, Jiangnan University, Wuxi 214122, China;3. Jiangsu Laboratory of Pattern Recognition and Computational Intelligence, Wuxi 214122, China;4. School of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215000, China)
Infrared and visible image fusion methods have problems such as insufficient information extraction, feature decoupling, and low interpretability. In order to fully extract and fuse the effective information of the source image, this paper proposes an infrared and visible image fusion method based on information bottleneck siamese autoencoder network (DIBF: Double Information Bottleneck Fusion). This method realizes the disentanglement of complementary features and redundant features by constructing an information bottleneck module on the twin branch. The expression process of complementary information corresponds to the feature fitting process of the first half of the information bottleneck. The compression process of redundant features corresponds to the feature compression process in the second half of the information bottleneck. This method cleverly expresses information extraction and fusion in image fusion as an information bottleneck trade-off problem, and achieves fusion by finding the optimal expression of information. In the information bottleneck module, the network obtains the information weight map of the feature through training, and uses the mean feature to compress the redundant features according to the information weight map. This method promotes the expression of complementary information through the loss function, and the two parts of compression and expression are balanced and optimized simultaneously. In this process, redundant information and complementary information are also decoupled. In the fusion stage, the information weight map is applied in the fusion rules, which improves the information richness of the fused images. Through subjective and objective experiments on the standard TNO dataset, compared with traditional and recent fusion methods, the results show that the method in this paper can effectively fuse useful information in infrared and visible images, and achieved good results on both visual perception and quantitative indicators.
information bottleneck, Siamese, disentangled representations, infrared and visible, image fusion
TP391.4
A
1001-8891(2024)03-0314-11
2022-11-24;
2022-12-30.
馬路遙(1998-)女,河南鄭州人,碩士研究生,研究方向:模式識別與圖像處理。
羅曉清(1980-)女,江西南昌人,博士,副教授,研究方向:模式識別與圖像處理。E-mail: xqluo@jiangnan.edu.cn。
國家自然科學(xué)基金(61772237);江蘇省六大人才高峰項目(XYDXX-030)。