李 威,李忠民
一種基于EASSF的紅外與可見光圖像視覺保真度融合
李 威,李忠民
(南昌航空大學 信息工程學院,江西 南昌 330063)
最近,多尺度特征提取被廣泛應用于紅外與可見光圖像融合領域,但是大多數提取過程過于復雜,并且視覺效果不佳。為了提高融合結果的視覺保真度,本文提出一種基于邊緣感知平滑銳化濾波器(Edge-Aware Smoothing-Sharpening Filter,EASSF)的多尺度圖像融合模型。首先,提出一種基于EASSF的多尺度水平圖像分解方法對源圖像進行分解,得到水平方向上的多尺度紋理成分和基礎成分;其次,采用最大值融合規則(Max-Fusion, MF)融合紋理成分,避免圖像細節信息的丟失;然后,通過一種感知融合規則(Perceptual-Fusion, PF)融合基礎成分,捕獲顯著性目標信息;最后,通過整合融合后的多尺度紋理成分和基礎成分得到融合圖像。實驗通過分析感知融合系數,對比融合結果的客觀數據得出紅外與可見光圖像融合在多尺度EASSF下較為合適的取值范圍;在該取值范圍內,本文提出的融合模型同一些較為經典和流行的融合方法相比,不僅解決了特征信息提取的復雜性,而且通過整合基礎成分的顯著性光譜信息,有效地保證了融合結果的視覺保真度。
紅外與可見光圖像融合;邊緣感知平滑濾波器;視覺保真度;感知融合
可見光圖像在弱光條件下不能很好地顯示場景信息,但可以通過反射光清晰地呈現細節和背景;相比之下,紅外圖像中的物體可以通過熱輻射來顯示,但紅外光圖像無法顯示細節和清晰的背景。整合兩者的優勢信息,能夠充分地描述特定場景的環境和背景,這對于目標識別、目標跟蹤和遙感遙測方面有著極為重要的作用[1-6]。
近年來,基于圖像特征信息提取技術在圖像融合領域取得了較為明顯的進步。2018年,Du等人提出了一種用于融合不同分辨率的紅外與可見光圖像的融合算法(Different Resolutions Total Variation,DRTV[7]),分別利用紅外圖像的像素灰度與融合圖像在數據保真度上的相似性和可見光圖像和融合圖像在梯度上的相似性,將融合問題表述為全變差(Total Variation, TV)最小化問題;為了提高收斂速度,Zhao等人在2020年提出了一種分層Bayesian模型[8],該模型引入TV,利用期望最大化算法對模型進行了高效的推斷,從而將圖像融合任務轉化為回歸問題。雖然基于TV的融合方法對圖像特征提取有很大的效果,能夠保留并且整合較多的結構特征信息,但是在視覺感知效果方面稍顯不足。
隨著神經網絡的不斷發展,深度學習慢慢地成為了圖像處理領域較為活躍的研究工具。Li等人在2018年利用深度學習框架視覺幾何組(Visual Geometry Group,VGG[9])整合紅外與可見光圖像的特征信息;隨后,Wu等人在2019年提出了一種基于深度學習殘差網絡(Residual-network, Resnet[10])和零相位分量分析的新穎融合框架。這些深度學習網絡能夠很好地提高圖像視覺效果,但是由于算法過于復雜,在細節特征提取方面存在一定的人為影響。為了實現深度次的特征提取,Tan等人在2021年基于多尺度邊緣濾波和脈沖耦合神經網絡(pulse coupled neural network,PCNN)提出了一種多模態融合方法(multi-level edge-preserving filtering,MLEPF11]),該方法雖然達到了多層次上的特征信息提取,但是受限于源圖像曝光度,容易使得融合結果形成局部斑塊。
通過上述的分析可知,紅外與可見光圖像融合目前的研究目標主要有兩個:①提高源圖像特征信息的提取能力,同時避免算法的復雜性帶來的人為影響;②在保證融合過程的可行性的同時,進一步優化和鞏固融合結果的保真度,從而契合人體的視覺效果。為了實現上述兩個目標,本文提出一種基于EASSF的多尺度紅外與可見光圖像融合模型,該模型通過EASSF實現多尺度分解,提取源圖像水平方向上的信息。
平滑可以去除圖像中的噪聲干擾,而銳化可以突出圖像的邊緣。2021年3月,Deng等人提出了一種邊緣感知平滑銳化濾波器(Edge-Aware Smoothing-Sharpening Filter,EASSF[12])用于圖像處理,EASSF通過調節平滑(銳化)參數就可以實現圖像特征信息的提取。圖1為可見光圖像“Road”在不同參數下的平滑銳化結果,從圖1中容易看出,當≤1時,EASSF進行圖像平滑;而>1時,EASSF進行圖像銳化。由于EASSF的簡便性和通用性,一種適用于多尺度水平方向的圖像分解方法被提出并且應用于圖像的特征提取。圖2為紅外圖像“Road”的分解示例圖,其中為輸入可見光圖像,EF為EASSF圖像平滑銳化過程,1,2和V分別是EF平滑銳化后的圖像;d1,d2和dn分別是分解后結果對數放大的紋理成分;B為輸入圖像的基礎成分。具體的多尺度水平分解過程可以用如下公式表示:

圖1 不同參數L的EASSF成像結果

圖2 EASSF圖像分解
d1=-1(1)
dn=(V-1)-V(2)
B=EF(V-1) (3)
圖3為本文提出的基于EASSF的融合算法框架,其中和分別代表可見光圖像和紅外圖像;可見光圖像和紅外圖像分解過程及得到的各個成分圖像參考圖2;d1,d2和dn分別為各尺度上融合后的紋理成分;B和分別為融合后的基礎成分和融合圖像;Max-fusion和Perceptual-fusion分別代表最大值融合規則和感知融合規則。具體的融合模型可以細分為4部分:
1)基于EASSF的紅外與可見光圖像分解
利用EASSF分別對可見光圖像和紅外光圖像進行分解得到分解后的紋理成分和基礎成分。
2)紋理成分融合
利用Max-fusion融合規則對紅外圖像的紋理成分和可見光圖像的紋理成分進行融合,得到融合后的紋理成分d1,d2和dn。
3)基礎成分融合
利用Perceptual-fusion感知融合規則對紅外圖像的基礎成分B和可見光圖像的基礎成分B進行感知融合,捕獲光譜信息,得到融合的基礎成分B。
4)重構源圖像
通過疊加融合后的紋理成分和基礎成分實現源圖像的重構,得到融合圖像。
基于EASSF的圖像分解過程可以參照第一章EASSF,其中數學公式如(1)~(3)所示。通過EASSF的多尺度水平分解分別得到對應源圖像的紋理成分和基礎成分。
通過EASSF的多尺度水平分解,我們可以得到較為細膩的紋理細節信息,從圖3可以明顯地看出紋理細節信息。眾所周知,如果圖像當中某點的像素較大,反映在圖像上是人體視覺感知最為明顯的一個區域或者一個位置,這也是圖像當中較為重要的一個信息點。為了盡量保留較多的細節信息,Max-fusion最大值融合規則被應用于整合紋理成分,融合后的紋理成分dn可以通過公式(4)得到:

基礎成分是源圖像的一個粗略縮寫,它大致上包含源圖像當中的基礎信息,其中以顯著性光譜信息尤為突出。為了使融合圖像達到突出顯著性目標效果,同時使得融合結果較為契合人體的視覺感知,一種稱為Perceptual-fusion的感知融合規則被應用于對紅外圖像的基礎成分RB和可見光圖像的基礎成分VB進行感知融合,從而得到融合的基礎成分FB。Perceptual-fusion的融合規則具體如下:
1)通過像素值得到初始權重值IW;

2)一種非線性函數()被引入用于調節紅外與可見光圖像融合的光譜信息:
()=arctan()/arctan() (6)
3)利用高斯濾波器對(IW)進行平滑,排除融合圖像數據因噪聲干擾而形成的不必要影響,得到最終的融合權重圖:
W=Gaussian((IW)) (7)

圖3 基于EASSF的圖像融合框架
4)重構融合后的基礎成分B。
B=W*B+(1-W)*B(8)
融合后的圖像通過公式(9)得到:

仿真實驗選取的數據集都來自文獻[13],我們選取了3對圖像數據進行實驗。所有的實驗平臺都是基于MATLAB R2018b,電腦配置為3.6GHz AMD Ryzen 5 2600X Six-Core Processor。5種經典并且流行的融合算法被用來驗證本文提出的融合算法,他們分別為DRTV、Bayesian、VGG、Resnet和MLEPF,其中VGG,Resnet和MLEPF是當前較為流行的融合算法,并且MLEPF是將多尺度與深度學習相結合的融合算法,而Bayesian和MLEPF分別在2020年和2021年被提出,所有的融合算法都是近3年內的。為了驗證本文基于EASSF融合算法的優勢,首先,對EASSF下的感知融合系數進行一定的實驗,獲取在EASSF融合模型下的最優融合結果;其次,基于該感知系數下,從主客觀層面對融合結果進行有效性分析,其中在客觀定量分析方面,7種融合圖像的指標被用于定量分析實驗融合效果,它們分別為信息熵EN、互信息量MI、基于人為影響的度量abf[14]、基于噪音干擾的度量abf[15]、差異相關性的總和SCD[16]、基于結構相似性的度量MS-SIM[17]和視覺保真度VIFF[1],上述定量指標除abf之外,數值越大表明融合結果表現越好[1,9]。
感知融合系數用來捕獲源圖像之間的光譜信息,實現人體視覺效果。實驗通過調節系數,得到的融合結果如圖4所示。其中實線方框標記的是行人,虛線方框標記的是指示燈。通過圖4可以很明顯地觀察到隨著值的變大,融合圖像能夠顯著性地突出行人;但是,被藍色標記的指示燈越來越不模糊,丟失可見光圖像的紋理信息,使得融合圖像視覺效果不佳。為了實現最佳的視覺感知融合效果,我們分別對圖4當中的圖像進行了客觀定量分析,得到的定量結果如表1所示。從表1中定量數據可以清楚地看出圖4(d)和圖4(e)兩幅圖的客觀數據最佳,而隨著值的增大,除了abf指標變差外,其他的客觀數據都在=[10,20]能夠有較好的表現。為了使得融合效果最佳,從全面且綜合的角度考慮,令=10,進行后續分析。
實驗選取的圖像是來自經過配準好的TNO圖像數據庫,在本節選擇3對圖像組進行主客觀分析,分別是“Road”、“Kaptein_1654”和“Kaptein_1123”,它們的圖像融合結果如圖5~7所示。
圖5反映的是一個路口交通情況,選取被黑色實線方標記的行人進行分析,可以很明顯的看出,與Bayesian、VGG、Resnet和MLEPF得到的融合結果相比,我們的方法EASSF融合可以很明顯地突出圖像目標人物;但是對于DRTV,我們的優勢在于融合圖像較為細膩,圖像數據保真度較高,感知視覺效果好。圖6呈現的是一個工作人員進門時的場景,從標記的目標與融合圖像的背景信息看出,我們提出的方法EASSF很好地定位了工作人員,融合效果較好。圖7展示的是一個舉傘路人路過涼亭的畫面,從圖7中我們能夠較為直觀地看出我們的融合結果最佳,能夠較為形象地描述出該特定場景。

圖4 不同參數l的EASSF成像結果

表1 不同感知系數下的融合定量數據

圖5 不同方法在“Road”圖像下的融合結果

圖6 不同方法在“Kaptein_1654”圖像下的融合結果

圖7 不同方法在“Kaptein_1123”圖像下的融合結果
客觀分析是從數據的角度定量衡量融合圖像的質量。選取的17組實驗圖像數據組進行分析,我們得到的結果見表2~表4。表2~表4分別是“Road”、“Kaptein_1654”和“Kaptein_1123”的客觀評價。在表2中我們的融合方法在MI、abf、SCD、MS-SIM和VIFF數值較高,而在EN和abf方面略低于DRTV和Resnet;而在表3當中,我們的方法EASSF在EA、MI、SCD和VIFF占據較好的優勢,其他指標略低于算法Bayesian和Resnet;另外在表4中,我們在MI和abf指標上略低于MLEPF和VGG,其他的數值指標都占優勢。而在SCD和VIFF指標上面,我們的融合方法都有良好的表現。而針對于個別如abf和abf指標的劣勢,這主要原因在于感知系數的變化。

表2 “Road”的客觀評價數據

表3 “Kaptein_1654”的客觀評價數據

表4 “Kaptein_1123”的客觀評價數據
從表1得出,越大,abf值越大,帶入的噪音越大,使得融合效果略顯不佳;從客觀分析總體上來說,我們的方法EASSF具有一定的優勢,能夠實現紅外與可見光圖像在視覺保真度融合。
針對圖像特征提取復雜度問題,為了實現圖像視覺保真度融合,本文基于EASSF提出了一種較為簡易且能夠滿足視覺感知融合的紅外與可見光圖像融合模型。利用EASSF平滑銳化的簡便性,實現了源圖像的多尺度水平特征提取,得到紋理成分和基礎成分;采用Max-fusion最大值融合規則實現了紋理成分的融合,而基礎成分利用Perceptual-fusion感知融合規則實現圖像的視覺保真度融合;最后疊加融合后的各個成分重構源圖像。實驗通過對感知系數的分析,得出較為合適的感知融合系數區間取值在[10,20];通過主客觀的分析表明,本文的融合方法EASSF與現在較為經典和流行的算法相比具有一定的優勢,能夠保留源圖像數據的真實性,整合較多的源圖像信息,并且契合人體的視覺感官。
[1] MA J Y, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey [J]., 2019, 45: 153-178.
[2] Singh R, Vatsa M, Noore A. Integrated multilevel image fusion and match score fusion of visible and infrared face image for robust recognition[J].. 2008, 41(3): 880-893.
[3] Reinhard E, Ashikhmin M, Gooch B, et al. Color transfer between images[J]., 2002, 21(5): 34-41.
[4] Somone G, Farina A, Morabito F C, et al. Image fusion techniques for remote sensing applications [J]., 2002, 3(1): 3-15.
[5] 陳峰, 李敏, 馬樂, 等. 基于滾動引導濾波的紅外與可見光圖像融合算法[J]. 紅外技術, 2020, 42(1): 54-61.
CHEN Feng, LI Min, MA Le, et al. Infrared and visible image fusion algorithm based on the rolling guidance filter[J]., 2020, 42(1): 54-61.
[6] 楊九章, 劉煒劍, 程陽. 基于對比度金字塔與雙邊濾波的非對稱紅外與可見光圖像融合[J]. 紅外技術, 2021, 43(9): 840-844.
YANG Jiuzhang, LIU Weijian, CHENG Yang. A symmetric infrared and visible image fusion based on contrast pyramid and bilateral filtering [J]., 2021, 43(9): 840-844.
[7] DU Qinglei, XU Han, MA Yong, et al. Fussing infrared and visible images of different resolutions vis total variation model[J]., 2018, 18(11): 3827.
[8] ZHAO Z, XU S, ZHANG C, et al. Bayesian fusion for infrared and visible images[J]., 2020, 177: 165-168
[9] LI H, WU X, Kittler J. Infrared and visible image fusion using a deep learning framework[C]//24th(), 2018: 2705-2710.
[10] LI Hui, WU Xiaojun, Tariq S. Durrani. Infrared and visible image fusion with ResNet and zero-phase component analysis[J]., 2019, 102: 1030390.
[11] TAN Wei, Thitn William, XIANG Pei, Zhou, Huixin. Multi-modal brain image fusion based on multi-level edge-preserving filtering[J]., 2021, 64(11): 102280.
[12] DENG Guan, Galetto Fernando J, Al-Nasrawi M, et al. A guided edge-aware smoothing-sharpening filter based on patch interpolation model and generalized Gamma distribution[J]., 2021, 2: 119-135.
[13] Toet A. TNO Image Fusion Dataset[EB/OL]. [2021-10-01]. http:// figshare.com/articles/TNO_Image_Fusion_Dataset/1008029.
[14] Xydeas C S, Petrovic V. Objective image fusion performance measure[J].., 2000, 36(4): 308-309.
[15] Aslantas V, Bendes E. A new image quality metric for image fusion: the sum of the correlations of differences[J]., 2015, 69(12): 1890-1896.
[16] LI H, WU X J, Kittler J. Infrared and visible image fusion using a deep learning framework[C]//24th(ICPR), 2018: 2705-2710.
[17] YAN Huibin, LI Zhongmin. A general perceptual infrared and visible image fusion framework based on linear filter and side window filtering technology[J]., 2020, 8: 3029–3041.
Visual Fidelity Fusion of Infrared and Visible Image Using Edge-Aware Smoothing-Sharpening Filter
LI Wei,LI Zhongmin
(School of Information Engineering, Nanchang Hangkong University, Nanchang 330063, China)
Recently, multi-scale feature extraction has been widely used in the field of infrared and visible image fusion; however, most extraction processes are too complex, and the visual effect is not good. To improve the visual fidelity of the fusion result, a multi-scale horizontal image fusion model based on an edge-aware smoothing-sharpening filter (EASSF) is proposed for infrared and visible images. First, to obtain multi-scale texture components and basic components in the horizontal direction, a multi-scale horizontal image decomposition method based on the EASSF is proposed to decompose the source image. Second, the maximum fusion rule is used to merge texture components, which can avoid loss of information detail. Then, to capture salient target information, the basic components are fused via the perceptual-fusion rule. Finally, the fused image is obtained by integrating the fused multi-scale texture components and basic components. By analyzing the perceptual fusion coefficient of PF, the appropriate range of infrared and visible image fusion in the multi-scale EASSF is obtained through the objective data of the fusion results. In this range, compared with several classical and popular fusion methods, the proposed fusion model not only avoids the complexity of feature information extraction, but also effectively ensures the visual fidelity of fusion results by integrating the significant spectral information of basic components.
infrared and visible image fusion, edge-aware smoothing-sharpening filter, visual fidelity, perceptual fusion
TP391
A
1001-8891(2022)07-0686-07
2021-10-24;
2021-11-09.
李威(1997-),男,碩士,主要從事圖像融合的研究,E-mail:lv2881314@163.com。
李忠民(1975-),男,博士,副教授,主要從事圖像融合和人工智能方向的研究,E-mail:zhongmli@nchu.edu.cn。
國家自然科學基金(61263040, 61861033);江西省自然科學基金(20202BABL202005)。