謝一博,程 進,周 順,侯勁堯,劉衛國
(西安工業大學光電工程學院,陜西 西安 710021)
可見光圖像是通過可見光傳感器所接收的信息經過光電轉換后所得的圖像,而人眼敏感的波長范圍恰好與可見光傳感器的波長近似相同;并且可見光圖像受環境影響較大,通常在夜晚或能見度較低的環境下無法看清物體的輪廓[1-2]。而紅外圖像在這種情況下根據熱成像的原理,可以識別物體的輪廓;但在正常環境下相比可見光圖像,紅外圖像的視覺感觀較劣。不同探測器的響應使得紅外圖像與可見光圖像在不同條件下都存在各自的優勢。因此,紅外與可見光圖像的融合作為一種多參量的分布式光電成像融合,成為了一大研究熱門,也在目標識別、目標檢測等領域被廣泛應用[3]。
紅外與可見光圖像的融合方法,主要包含基于多尺度變換的融合方法、基于稀疏表示的融合方法、基于神經網絡的融合方法和基于空間的融合方法等。其中多尺度變換方法能夠獲取不同層次的子圖像,可以保存更多的細節信息,故其應用較為廣泛,包括金字塔變換、小波變換以及非下采樣的多尺度多方向幾何變換等。小波變換最早由Mallat于1989年[4]提出并廣泛應用;后來1995年,Li等人[5]改進小波變換并提出一種離散小波(Discrete Wavelet Transform,DWT)變換的圖像融合,降低了圖像融合的噪聲影響;隨著學者們不斷對小波變換的研究,雙樹復小波變換(Dual-Tree Complex Wavelet Transform,DT-CWT)[6]、靜態小波變換(Lifting Stationary Wavelet Transform,LSWT)[6]等各種小波融合算法出現。在輪廓波變換(Contourlet)的基礎上,非下采樣輪廓波變換(Non-Subsampled Contourlet Transform,NSCT)被da Cunha等人[6]提出,該方法具有平移不變性、多尺度等特點,使得圖像融合領域進一步提升;而針對剪切波變換結果出現偽吉布斯現象的缺點,2008年Easley等人提出了非下采樣剪切波變換(Non-Subsampled Shearlet Transform,NSST)[6]使得融合結果進一步提升。隨著深度學習的逐漸發展,各種基于神經網絡的方法被應用到圖像融合中[7],由脈沖耦合神經網絡(Pulse Coupled Neural Network,PCNN)模型開始,深度學習成為國內外學者研究的主流,到后來經典的VGG-19(Visual Geometry Group-19)網絡、生成對抗網絡(Generative Adversarial Network,GAN)在圖像融合領域展現了較好的性能。2019年,Wei等人采用GAN網絡實現紅外與可見光圖像的融合提出了FusionGAN網絡模型[8];然而由于異源圖像并未有大量標準的數據集且該方法速度較慢,不適用于對實時性要求較高的場景,因此基于神經網絡的異源圖像融合還有待繼續研究[9-10]。根據高低頻子帶不同特征,常用的圖像融合規則有基于像素的融合規則和基于區域能量的融合規則,前者的速度快、算法簡單,但容易出現振鈴的現象;后者引入臨近像素的相關性,融合效果得到提升。
為解決夜視環境下紅外與可見光圖像融合速率低且效果不佳的問題,本文搭建結構簡單、響應速度快的雙目異型成像系統,軟件算法采用基于斜率一致性的圖像配準與多尺度變換的圖像融合結合方法,獲取紅外圖像的輻射信息以及可見光圖像的細節信息,將兩種圖像融合獲得一幅視覺感觀更優的融合圖像,保留夜視條件下圖像的更多細節信息并提升融合算法的速率,提升目標檢測的實時性。
為了同步獲取紅外圖像與可見光圖像,搭建出雙目異型成像系統。在上位機軟件中采用QT界面設計,圖像以實時狀態在界面上顯示,并以同步觸發的方式在幾毫秒的時間內獲取同一場景下的紅外圖像和可見光圖像。該成像系統的優勢是結構簡單、性價比高、以低成本提供分工式成像系統的設計思路。
本文將紅外相機與RGB相機平行放置,兩個相機固定且相對位置不變,使紅外相機和RGB相機的光軸盡可能平行且傳感器的中心位置盡可能在同一垂直豎線上,最終設計出雙目異型成像系統,如圖1所示。由上方的RGB相機和下方的紅外相機組合而成,同時連接至計算機上,上位機軟件采用多線程的方式同步觸發獲取圖像,并實現數據的高速同步傳輸。

圖1 雙目異型成像系統實物圖
系統所拍攝的目標為夜視條件的場景,通過圖像處理后可識別夜視下的目標。由于中紅外波段的信息最為豐富,故選擇8~14 μm范圍的相機;紅外相機的價格與分辨率呈正相關,故選擇分辨率為400×300性價比高的紅外相機;為使RGB相機與紅外相機所覆蓋的場景信息近似相同,選擇兩個相機的視場角近似相同,其焦距基本一致。圖1中的紅外相機與RGB相機的具體參數如表1所示。

表1 紅外相機與RGB相機的參數
為了獲得一幅信息豐富的融合圖像,對紅外圖像與可見光圖像采用軟件進行圖像處理,主要包括:數據下采樣、圖像濾波、圖像配準以及圖像融合。在對紅外圖像和RGB圖像分別進行濾波與雙線性下采樣處理后,將RGB圖像作為參考圖像對紅外圖像進行配準;再結合雙尺度融合算法融合方法處理紅外與可見光圖像,得到的融合圖像信息更加豐富。紅外與可見光圖像融合的實現步驟如圖2所示。

圖2 紅外與可見光圖像融合過程示意圖
由于可見光圖像的分辨率為1280×1024,而紅外圖像的分辨率為400×300,為了解決可見與紅外圖像的分辨率大小不匹配問題,采用雙線性插值的方式對可見光圖像進行下采樣,使可見光圖像符合紅外圖像大小。
由于紅外相機特殊的成像原理,其探測目標需經過大氣、光電轉換、數電轉換等復雜的過程;且紅外相機受環境以及目標的影響,導致紅外成像的圖像存在各種噪聲,這使得紅外圖像的信噪比低、畫質低,故其噪聲遠大于可見光圖像的噪聲。故,本文采用非局部均值(Non-Local Mean,NLM)濾波算法[11]對紅外圖像進行去噪處理,該濾波算法考慮像素之間的相似度,能夠較好地消除噪聲并保留細節信息,如圖3所示。

圖3 非局部均值濾波的示意圖
令噪聲圖像為v,濾波后的圖像為u。在u中x處的像素值由下式表示:
(1)
其中,w(x,y)為像素點x和y間的相似度,其值由以x、y為中心的鄰域N(x)、N(y)間的高斯加權歐式距離表示:
(2)
兩鄰域之間的歐式距離與歸一化參數分別表示為:

(3)
(4)
其中,Z(x)為歸一化的系數;h為平滑參數,控制著降噪效果強弱。h越大高斯函數變化越平緩,降噪強度越大,圖像會越來越模糊;h越小,降噪強度越小,邊緣細節信息保持得越多,但同時也會將過多的噪聲點保留下來。故h的大小隨不同圖像中的噪聲而不同。
NLM的h對圖像的濾波效果有一定的影響,所以如何根據不同局部圖像的熵值(Entropy,EN)選擇合適的h來達到更好的濾波效果尤為重要。為了保證圖像的噪聲能夠得到更好的消除,采用熵值來評價局部圖像的效果。在此基礎上,本文提出了一種基于熵的自適應h求解方法[11],具體過程如圖4所示。

圖4 基于熵的自適應h求解方法的流程圖
NLM參數h從0.01開始增加,步長為0.01,EN0初始值為0。為了防止h過大,導致細節信息無法保留,當EN大于EN0時更新EN0和hmin。這個方法中有一個定時器,EN0需要比較7次,如果hmin值沒有更新,則在第7次之后返回hmin。該值的選擇是為了去除噪聲并盡可能地保留圖像的細節信息。
通過上述方法對紅外圖像進行濾波,去除圖像中的部分噪聲,紅外圖像濾波前后的結果如圖5所示。經濾波處理的前后圖像的熵值從5.665提升至6.297,熵值變大證明圖像的背景噪聲被消除,圖像的細節分辨率能力越強,圖像質量越好,具體數據見表2。

表2 濾波前后圖像質量評價指標對比

圖5 非局部均值濾波前后的紅外圖像對比結果圖
為了更好地完成后續的圖像融合,需對紅外圖像與可見光圖像進行圖像配準,使不同圖像中空間上相同位置對應的點相互對應[2]。本文引入一種基于斜率一致性的配準算法,其具體流程為圖6所示。

圖6 圖像配準的流程圖
(1)對進行灰度化處理后的紅外與可見光圖像采用Canny邊緣檢測[12],得到紅外與可見光的邊緣圖像如圖7所示。

圖7 紅外與可見光圖像的邊緣檢測結果
(2)基于SURF算法的旋轉不變性和穩定性實現對[13]紅外與可見光的圖像邊緣的特征點提取和定位。
(3)采用基于斜率一致性[14]的特征點匹配算法對兩幅圖像的特征點進行匹配。兩幅圖像的對應的特征點對可以由斜率公式k=(y2-y1)/(x2-x1)所表示,如圖8所示。而根據先驗知識可知,圖像中正確匹配的特征點對的斜率基本上一致。

圖8 斜率一致性原理圖
基于上述方法,得到基于斜率一致性的配準圖像如圖9所示。從圖中可得,三對匹配點的斜率基本一致,特征點相對應。

圖9 基于斜率一致性的特征匹配結果
作為圖像配準的位置轉換關系,通過仿射變換矩陣計算兩圖像間的變換關系,完成兩幅圖像在同一坐標系下的匹配和校準。如圖10所示,待配準的原紅外圖像經過平移和旋轉變換得到校準后的紅外圖像。

圖10 紅外圖像配準前后對比圖
經過圖像配準處理后,采用雙尺度圖像融合算法(Two-scale Image Fusion algorithm,TIF)對兩幅圖像進行融合,得到目標突出且視覺效果良好的融合圖像[15-16]。與其他的圖像融合算法相比較,TIF算法更快速且高效,如圖11為雙尺度融合算法的示意圖。具體步驟包括:圖像分解、圖像融合和圖像重建三部分。

圖11 雙尺度融合算法示意圖
3.3.1 圖像分解
將可見光圖像F1(x,y)和紅外圖像F2(x,y)分別分解為基礎圖像和細節圖像。
其中的基礎圖像由原圖像經過均值濾波器μ(x,y)濾波后的圖像,由公式(5)~(6)表示:
(5)
(6)
將原圖像與基礎圖像做差處理,得到細節圖像。由公式(7)~(8)表示:
(7)
(8)
根據視覺顯著檢測的理論基礎,求解細節圖像融合的權重參數,即圖像均值濾波的結果與圖像中值濾波的結果作差后,絕對值化處理[16-17]。過程如下:
計算融合時的加權參數,可表示為:
ξ(x,y)=|Fu(x,y)-Fη(x,y)|
(9)
其中,Fu(x,y)為均值濾波后的結果;Fη(x,y)為中值濾波后的結果。
根據加權參數公式(9)計算兩者的權重值ξ1(x,y)、ξ2(x,y),求解細節圖像的融合系數矩陣,表示為:
(10)
(11)
3.3.2 圖像融合
本文所拍攝的環境是夜視環境下的場景,紅外圖像的基礎圖像效果優于可見光圖像效果,故以紅外與可見光的權重比為3∶2的方式對兩圖像的基礎圖像進行融合:
(12)
以加權平均的方式[18]融合細節圖像,其權值為ψ1(x,y)、ψ2(x,y),由下式表示:

(13)
3.3.3 圖像重建
將融合后的基礎圖像和融合后的細節圖像采用加和的方式得到最終重建結果:
γ(x,y)=FB(x,y)+FD(x,y)
(14)
本文對不同的室內外場景進行圖像采集,搭建一種由紅外與可見光相機組成的雙目異型成像系統,以實時的方式采集圖像后進行預處理,再通過基于斜率一致性的圖像配準結合本節的TIF算法處理紅外與可見光圖像。該算法采用顯著性對融合圖像進行重構,通過多尺度變換將紅外圖像和可見光圖像分解為基礎層和細節層,在源圖像的細節層應用顯著性提取模型,得到顯著性圖;后通過顯著性圖得到權重圖,得到融合后的細節圖像,最后將處理的的基礎圖像和細節圖像構造得到融合后的圖像。其運行速度快,適用于要求較高實時性的場景,可在夜視環境下進行目標識別的研究。
本文研究紅外圖像與可見光圖像的融合技術,選用幾種圖像融合規則:對應像素取最小、對應像素取最大、對應像素取平均、基于區域能量取小、基于區域能量取大以及常用的離散小波變換融合(DWT)、非下采樣輪廓波變換融合(NSCT)[19-20]作為紅外圖像與可見光圖像融合的對比算法,突顯雙尺度融合算法速度快、效果好的優勢。如圖12為紅外圖像、可見光圖像以及采用各種融合技術的圖像對比結果。為了更加客觀地描述TIF算法的優勢,本文采用的評價指標包括無參考圖像中的熵值(Entropy)、均值(Mean)、標準差(Standard deviation)[21]、邊緣強度(Edge Intensity)與峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[22],分析結果如表3所示。

表3 各圖像質量評價指標對比

圖12 圖像對比結果
無參考評價指標中的熵值、均值以及標準差分別表示圖像攜帶信息量、圖像的平均亮度和圖像像素值相對于均值的離散程度。邊緣強度用于評價圖像的邊緣特征,其值越大表示邊緣信息越豐富。
(15)
(16)
其中,sx(i,j)2、sy(i,j)2分別表示Sobel水平與垂直方向卷積核在點(i,j)處做卷積獲得的圖像。
峰值信噪比(PSNR)是對兩幅圖像之間差異的衡量,通常以分貝(dB)為單位。均方誤差由下式表示:
(17)
其中,I1(i,j)和I2(i,j)分別表示RGB圖像和融合圖像。
(18)
其中,MAXI是圖像的最大值,uint8類型圖像最大值為255。
本文在預處理時采用自適應熵值的非局部均值濾波算法去除圖像噪聲;在圖像融合時采用TIF算法,其中均值濾波能夠減少像素與其鄰域之間的強度變化,中值濾波能去除噪聲,通過兩種濾波的結果做差計算圖像的顯著特征。該算法將異源圖像分別在細節圖像與基礎圖像進行處理,能夠較好地將不同層圖像進行融合,最終重建出信息豐富的融合圖像。
觀察圖13中在夜視環境的IR圖像、RGB圖像以及各種融合后的圖像,其中以像素值取最小和基于區域能量取最小方式融合的圖像更突出RGB圖像的色彩信息,兩種方式所融合的圖像與原RGB圖像相近,未表現出IR圖像的特性;對應像素值取最大和基于區域能量取最大方式融合的圖像更突出紅外圖像的溫度信息,而未能表達RGB圖像的彩色信息;對應像素取平均方式融合的圖像與DWT融合圖像都既保留的紅外圖像的熱輻射特征又具有RGB圖像的紋理特征,其整體效果較好,但色彩光過亮,無法更好地突出RGB的彩色信息;NSCT融合圖像不僅未突出更多的顏色數據,且產生了“網狀”的現象;而采用雙尺度融合的圖像更加清晰、細節信息更加豐富,觀察圖13(j)人體的溫度以及輪廓分布、衣服的色彩信息都得以保留。觀察圖13中的(e)、(h)、(j),在融合圖像中既能觀察到可見光圖像中遠處的背景信息——左側的門和后方的玻璃窗,又保留了紅外圖像中的溫度信息——近處人體的溫度分布。為了進一步說明算法之間的差異并突顯TIF的效果,以客觀評價描述的方式說明,詳細數據見表3。

圖13 圖像對比結果2
分析表3中的數據,比較8種融合圖像的評價數據。均值與標準差分別表示圖像的平均亮度和圖像像素灰度的離散程度,故在通過對應像素值取最大、基于區域能量取最大與NSCT融合的圖像與紅外圖像更為接近,其亮度更高,因此這幾種融合圖像的均值和標準差較高,但其圖像并未表現出RGB圖像的特征,融合結果并不理想。而采用TIF融合圖像的熵值相比其他融合方式達到最大,與原紅外圖像相比其熵值提升了4.76 %;相比其他圖像,TIF融合圖像的標準差指標最大為43.064;以RGB圖像為參考進行PSNR評價時,TIF算法的參數指標達到了11.768 dB。計算各種融合算法的運行速度,TIF算法的時間效率最高,其速度最快僅需35 ms左右,相比其他的融合方法,速度快了10倍量級。故以雙尺度融合算法作為紅外與可見光圖像融合的主要算法。
該算法采用的顯著性是以一種自下而上的方式吸引人類的視覺注意力,根據人類視覺系統的機制,基于顯著性的融合方法能夠保持顯著目標區域的完整性,提高融合圖像的視覺質量,故非常適合于目標檢測與識別等應用。
觀察場景2的實驗,如圖13所示,采用8種圖像融合算法處理紅外與可見光圖像。其中以像素取最小融合方式及區域能量取最小融合方式所得的圖像未表現出紅外的溫度信息;而采用像素取最大融合方式及區域能量取最大融合方式的圖像較接近于可見光圖像;而NSCT融合方式過亮,使得周圍環境不清晰;像素取平均融合方式、DWT融合方式以及TIF融合方式的效果均表現出紅外數據與可見光的環境數據,能夠將在暗處的人表現出來。而TIF既能夠將紅外圖像的人體信息與人在桌上的倒影信息所保留,與紅外圖像中的背景信息所融合,能夠辨別出人在辦公室的角落處背對成像系統。為了進一步說明場景2圖像數據,客觀數據由表4說明。

表4 各圖像質量評價指標對比2
表4對8種融合圖像的數據結果進行評價,TIF算法的熵值、標準差、邊緣強度均最大,表明該算法的圖像信息量大且邊緣特征明顯;其時間最短,說明算法的實時性高。而像素取最小融合圖像與區域能量取最小融合圖像較接近RGB圖像,因此基于RGB圖像計算的PSNR數值較大。分析數據,TIF算法的綜合參數最優。
圖14所拍攝的是室外的場景,目標人物蜷縮在樹林中。像素取最小以及區域能量取最小圖像更接近可見光圖像的特征;像素取最大、區域能量取最大以及非下采樣輪廓波變換融合圖像更接近于紅外圖像的特性;像素取平均、離散小波變換融合圖像以及雙尺度融合圖像均保留了紅外與可見光的特性;其中TIF算法將紅外與可見光圖像從不同層進行融合,既使得目標很好的表現,也能夠將周圍的林木環境清晰的表征,樹葉的輪廓也得以保留。

圖14 圖像對比結果3
表5中可以看出,TIF算法在熵值、邊緣強度以及時間效率上最佳,說明該算法在圖像細節表現方面具有優越性;而在均值指標上像素取最大圖像的值最大;對于標準差,區域能量取最大圖像的值最大。這些是由于根據不同的融合規則,所表現圖像趨近于一種圖像,并不能將紅外與可見光圖像的特征同時表示。

表5 各圖像質量評價指標對比3
綜合上述數據,并結合圖12、13、14的主觀視覺分析,在不同場景下不同算法的參數指標各有優劣。但是對于主觀視覺融合效果較好的像素取平均融合圖像、離散小波變換融合圖像與雙尺度融合圖像三種結果,TIF算法的結果具有較好的優勢,其熵值、標準差及邊緣強度最大。討論幾種算法的時間開銷,分析3組數據的時間效率,TIF算法的運行速度最快,說明其可以實現實時的圖像融合。針對不同的室內外場景,采用不同尺度方式融合的TIF算法的效率最高,圖像質量最佳,不僅能夠保留真實色彩信息,而且具有高效的特性,其整體性能優于其他對比算法。
本文選用紅外相機與RGB相機搭建了雙目異型成像系統作為硬件平臺;通過上位機軟件采集圖像后,提出一種基于熵的自適應h求解方法來處理非局部均值濾波進而對紅外圖像進行濾波,對可見光圖像進行下采樣操作;在引入基于斜率一致性的圖像配準后采用調整權重融合的雙尺度融合算法融合紅外與可見光圖像,生成一幅信息豐富真實色彩的IR-RGB融合圖像。兩組實驗結果表明,相比原紅外圖像,TIF算法融合圖像的熵值提升了約5.14 %;其標準差與邊緣強度的參數指標最大;且該方法運行速度快,僅為普通的像素級融合方法的1/10;IR-RGB融合圖像展現出更加可靠的圖像信息內容,能夠更全面地表達拍攝圖像所包含的信息。故本文對紅外與可見光圖像融合的研究,為高實時性圖像融合的需求提供幫助,在目標識別和監測等領域具有廣泛的使用價值。