李海超,李成龍,湯 進,2,羅 斌,2+
1.安徽大學計算機科學與技術學院,合肥2306012.安徽省工業圖像處理與分析重點實驗室,合肥230039
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0407-07
?
熱紅外與可見光圖像融合算法研究*
李海超1,李成龍1,湯進1,2,羅斌1,2+
1.安徽大學計算機科學與技術學院,合肥230601
2.安徽省工業圖像處理與分析重點實驗室,合肥230039
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0407-07
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant No. 61472002 (國家自然科學基金); the National High Technology Research and Development Program of China under Grant No. 2014AA015104 (國家高技術研究發展計劃(863計劃)); the National Science and Technology Supporting Program of China under Grant No. 2012BAH95F01 (國家科技支撐計劃).
Received 2015-05,Accepted 2015-07.
CNKI網絡優先出版: 2015-08-11, http://www.cnki.net/kcms/detail/11.5602.TP.20150811.1515.002.html
摘要:融合熱紅外與可見光圖像能夠達到信息的互補,彌補單一模態在某些條件下的不足,因此具有較高的book=408,ebook=112研究和應用價值。采用了一種基于稀疏表示模型的熱紅外與可見光圖像融合算法。首先,根據一定量圖像樣本學習出較為完備的字典。其次,對于給定的兩模態圖像對,通過稀疏表示模型在學習出的字典上分別對其進行稀疏表示。同時,為了提高魯棒性,使用了拉普拉斯約束對表示系數進行正則化。然后,根據融合算法對兩模態圖像進行有效融合。最后,在公共的圖像以及收集的圖像上進行了實驗,實驗結果表明,該算法能夠有效地融合兩模態圖像的信息。
關鍵詞:多模態融合;稀疏表示;拉普拉斯正則化
多模態圖像融合是指將不同模態的傳感器所采集到的關于同一場景的圖像數據經過相關技術,最大限度地提取不同模態中的有用信息,最后合成新的信息量豐富的圖像。熱紅外傳感器是通過物體的熱輻射(絕對零度以上)進行成像,對光照變化不敏感,能夠很好地克服可見光傳感器在特定條件下的不足,如低照度環境、霧霾等惡劣天氣。因此,融合熱紅外與可見光圖像有較高的研究和應用價值,被應用于諸多領域中,如圖像增強、工業設備診斷和智能監控等。
常用的多模態圖像融合方法包括加權平均融合[1]、分層PCA(principal components analysis)融合[2]和基于稀疏表示模型的圖像融合[3-4]。加權平均融合對原圖像的像素值取相同的權值,然后進行加權平均得到融合圖像的像素值。但是,當待融合圖像灰度相差較大時,該方法會出現明顯的拼接痕跡并丟失大量原始信息。分層PCA的融合算法找到待融合圖像的主成分,然后根據主成分來確定各待融合圖像的權重。當待融合圖像的近似圖像存在一定差異時,PCA融合算法通常能夠得到比較好的權重分配;但是當待融合圖像的近似圖像差異過大,即相關性較弱,往往不能準確地分配權重,甚至會導致圖像嚴重失真。基于稀疏表示的融合算法得到的融合圖像局部特征信息可能會出現丟失,還會因為局部特征差異造成完全不同的融合結果,所以得到的融合圖像質量會受到一定損失。
為了克服以上問題,本文采用一種魯棒的稀疏表示算法對熱紅外與可見光圖像進行融合。首先,使用一定量的圖像樣本通過字典學習算法學習出字典。其次,給定待融合圖像對,在學習出的字典上進行稀疏表示。為了提高魯棒性,使用拉普拉斯約束對重構系數進行正則化。然后,使用最大值原則融合兩模態的重構系數,進而結合字典重構出融合圖像。實驗表明,本文的融合結果優于其他方法。
圖像稀疏表示的目的是在給定的過完備字典中用盡可能少的非零原子來表示圖像信號,獲得信號更為簡潔的表示方式,從而使人們更容易獲取信號中所蘊含的信息,更方便進一步對信號進行加工處理,如壓縮、編碼等[5]。
假設信號向量xi∈Rn×1(i=1,2,…,n),字典向量φi∈Rn×1(i=1,2,…,m),并且m>n,每個向量φi表示一個字典原子。將字典原子作為字典Φ的列,字典Φ=[φ1,φ2,…,φm],ai∈Rm×1(i=1,2,…,n)為表示系數向量。信號可以表示為字典原子的近似線性組合,字典的線性組合提供更大范圍的原子。這樣一個字典是過完備的,被稱為過完備字典[6]。字典的過完備表示在圖像信號表示方面有很好的靈活性,且在信號處理時十分有效。
通俗地說,稀疏表示就是為了在過完備字典中找到最稀疏的表示。它是一個最優化問題:

這里,A=[a1,a2,…,an]為表示系數矩陣,X=[x1,x2,…,xn]為信號向量集。式(1)中,λ||A||1用來保證表示的稀疏性。
目前,最常用求解該最優化問題的算法是OMP (orthogonal matching pursuit)算法[7],它在每次迭代中從字典中選擇一個最匹配的原子來逐漸實現原始信號的稀疏逼近,可以減少迭代次數和重構誤差。
本文通過字典學習算法獨立地學習出字典,然后在學習得到的字典上對輸入的各模態圖像進行稀疏表示,分別得到各模態圖像的表示系數。接著,融合各個模態圖像的表示系數生成融合圖像的表示系數,進而結合字典重構出融合圖像。
3.1多模態圖像字典學習
圖像信號集X可以從原始圖像中直接獲得,但字典Φ卻不能從原始圖像中直接獲得,因此本文通過學習得到字典。字典可以從一種模態的圖像中學習得到,也可以從多種模態的圖像中學習得到。本文選取了多種模態的圖像作為學習樣本,通過KSVD(K-singular value decomposition)算法[8-9]獨立地學習出字典。具體方法如下:
首先,選擇一定量各模態的圖像作為學習樣本。將其按照原子大小逐像素地分為大小為8×8的塊,將圖像塊按照列向量方式排列成樣本矩陣,構成樣本X。字典學習目標函數為:

這里,T0為一個設定的閾值,當T0足夠小時,得到的解是接近理想的。
其次,以DCT(discrete cosine transform)字典[10]作為初始化字典,X為樣本數據,利用K-SVD算法學習出所需要的字典。
字典的生成是通過尋找稀疏表示下的最優基來完成的。原始圖像信號能否盡可能地稀疏表示直接反映了生成字典的優劣,生成的字典要使圖像信號更精確地表示。
本文采用的學習樣本中包含待融合的圖像。因此,學習得到的字典包含待融合圖像的特征,更容易稀疏表示融合圖像。
3.2魯棒的稀疏表示模型
稀疏表示在特征量化上體現出了它的有效性。但也存在一定的局限性:第一,稀疏表示采用過完備字典編碼,因此局部非常小的一個特征差異就會造成完全不同的稀疏編碼。這將會影響圖像最終的稀疏表示。第二,局部特征中的依賴信息在稀疏編碼的過程中會有丟失。然而,這些特征在圖像表示中是十分重要的。
為了更好地描述圖像的局部特征,減小稀疏編碼對局部特征的影響。本文引入拉普拉斯正則化[11-12]保證稀疏編碼相似局部特征的一致性。魯棒的稀疏表示模型可表示為:

這里,δ用于調整正則化項;B表示一個二元矩陣,即表示兩個特征的關系:若ai是aj的k近鄰,Bij=1,否則,Bij=0。式(3)中最后一項可以轉化為:

這里,L=D-B是一個拉普拉斯矩陣,ai的度定義為:

D=diag(D1,D2,…,Dn)(5)因此,式(4)可以寫成:

用1∈Rm(m表示ai中元素個數)表示ai中所有值都為0,并將列向量的值用ψ(ai)進行表示:

因此,式(6)可以寫成:

用APG(accelerated proximal gradient)算法[13]求解上述最小化問題。
3.3多模態圖像融合算法
將多種模態圖像進行融合為了最大限度地提取各模態中的有用信息,最后合成新的信息量豐富的圖像,增強對場景的理解。本文采用基于魯棒稀疏表示模型的融合算法對各模態圖像進行融合。
假設I1,I2,…,Ik分別表示k種模態的圖像。X1,X2,…,Xk分別為k種模態圖像的向量化表示形式,其每一列,,…(i=1,2,…,k)對應原各模態圖像I1,I2,…,Ik中的圖像塊,,,…,分別對應,,…,的表示系數,A1,A2,…,Ak為各模態圖像的表示系數矩陣。
本文融合圖像的過程如下:
(1)輸入原始各模態圖像I1,I2,…,Ik,通過滑動窗口技術[14]利用8×8的滑動塊將各模態圖像每隔1個像素從左上角滑動到右下角,將得到的滑動塊圖像向量化表示為X1,X2,…,Xk。
(3)選擇表示系數矩陣A1,A2,…,Ak中相應的列,根據最大值原則,得到融合后圖像的表示系數,進而得到融合后圖像的表示系數矩陣AFusion。
(4)由學習得到的字典Φ,結合魯棒的稀疏表示模型得到融合后圖像的向量化表示XFusion。
(5)將融合后圖像的向量化表示XFusion通過逆運算重新表示為8×8的圖像塊,此時得到融合后的圖像。
在同一字典下,各模態圖像的表示系數一定程度上反映了各模態圖像中原子的活動水平,表示系數的絕對值越大,其對應的原子活動水平越高[15]。因此,本文采用最大值原則選擇各模態圖像中表示系數絕對值大的列,得到融合后圖像的表示系數。最大值原則可表示為:

本文的融合算法主要包括3個步驟:字典學習、稀疏表示和多模態融合。首先,通過一定量各模態圖像樣本離線學習出字典。其次,通過魯棒的稀疏表示模型得到各模態圖像的表示系數。最后,結合字典重構出融合后的圖像。
為了驗證本文算法的有效性,在3對圖像上進行實驗,將加權融合算法、分層PCA融合算法和基于原稀疏表示模型的融合算法與本文算法進行比較。采用圖像的熵、平均梯度和空間頻率這3種指標對融合后的圖像質量進行評價。具體地,圖像的熵是一種具有加和性的狀態函數,熵值越大,則信息量越大,也就說明效果更好。平均梯度反映了圖像微小細節反差變化的速率,即圖像多維方向上密度變化的速率,表征圖像的相對清晰程度。平均梯度越大,圖像層次越多,也就越清晰。空間頻率是圖像函數在單位長度上重復變化的次數,其值越大,則圖像越清晰。
4.1定量分析
表1給出的是SourceImage數據集(http://www. imagefusion.org)、本文收集的數據集和OSU Color-Thermal數據集上部分圖像的實驗結果。通過表1可以得知,在上述數據集的幾組圖像上,本文融合算法得到的融合圖像的熵均高于其他幾種融合算法,且熵的平均值也高于其他幾種融合算法,說明本文算法得到的融合圖像信息量大于其他幾種算法。另外,本文融合算法得到的圖像平均梯度和空間頻率的平均值高于其他幾種融合算法,說明本文算法得到的融合圖像相對更加清晰。實驗表明本文算法有效地保留了原圖像的信息,融合效果較好。
4.2定性分析
本文在之前所述的3個數據集上選取了部分圖像進行實驗,包括SourceImage數據集的SourceImage3 和SourceImage2,本文收集的數據集上的車和行人的場景,以及OSU Color-Thermal數據集的兩組圖像,實驗效果如圖1所示。
從圖1中可以看出,加權融合算法對融合后圖像的細節體現不太明顯,丟失了原圖像的一些原始信息。而分層PCA融合算法對熱紅外圖像的熱目標體現得比較明顯,而對可見光信息表達較弱。
基于原稀疏表示模型的融合算法所得到的融合結果相比其他算法,圖像從視覺上較為穩定,圖像上各個像素波動較小,但對圖像細節描述一般。與基于原稀疏表示模型的融合算法相比,由于本文的融合算法增加了拉普拉斯正則化項,其對圖像細節反映較好,對兩模態圖像局部特征保留較好,圖像總體信息量體現得較好。從總體上說,基于魯棒稀疏表示模型的融合方法得到的融合圖像質量較高,與實驗數據分析一致。

Table 1 Index of fusion images on three datasets using four fusion algorithms表1 4種融合算法在3個數據集上的融合圖像指標

Fig.1 Fusion result images圖1 融合效果圖
本文采用基于魯棒稀疏表示模型的算法實現了熱紅外與可見光圖像的融合,并運用常用的3種指標對融合圖像的效果進行評價,通過對比實驗,其融合后的圖像指標優于其他融合方法。但由于基于稀疏表示的模型融合算法要進行字典學習和稀疏分解,該算法的時間復雜度較高,運算速度較慢。下一步,可對算法進行優化,提高算法的運算速度,進一步優化算法的性能。
References:
[1] Garcia F, Mirbach B, Ottersten B, et al. Pixel weighted average strategy for depth sensor data fusion[C]//Proceedings of the 17th IEEE International Conference on Image Processing, Hong Kong, China, Sep 26-29, 2010. Piscataway, USA: IEEE, 2010: 2805-2808.
[2] Patil U, Mudengudi U. Image fusion using hierarchical PCA [C]//Proceedings of the 2011 International Conference on Image Information Processing, Shimla, Nov 3-5, 2011. Piscataway, USA: IEEE, 2011: 1-6.
[3] Ding Meng, Wei Li, Wang Bangfeng. Research on fusion method for infrared and visible images via compressive sensing[J]. Infrared Physics & Technology, 2013, 57: 56-67.
[4] Li X, Qin S Y. Efficient fusion for infrared and visible images based on compressive sensing principle[J]. IET Image Process, 2011, 5(2): 141-147.
[5] Deng Chengzhi. Applications of sparse representation in image processing[D]. Wuhan: Huazhong University of Science and Technology, 2008.
[6] Chen S S, Donoho D L, Saunders M A. Atomic decomposition by basis pursuit[J]. SIAM Review, 2001, 43(1): 129-159.
[7] Tropp J A, Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit[J]. IEEE Transactions on Information Theory, 2007, 53(12): 4655-4666.
[8] Aharon M, Elad E, Bruckstein A M. The K-SVD: an algorithm for designing of overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Image Processing, 2006, 54(11): 4311-4322.
[9] Aharon M, Elad M, Bruckstein A M. K-SVD: an algorithm for designing of overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[10] Liu Yan, Li Hong. Image and video pressing techniques in the DCT domain[J]. Journal of Image and Graphics, 2003, 8 (2): 121-128.
[11] Zhuang Bohan, Lu Huchuan, Xiao Ziyang, et al. Visual tracking via discriminative sparse similarity map[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1872-1881.
[12] Gao Shenghua, Tsang I W, Chia L T, et al. Local features are not lonely-Laplacian sparse coding for image classification[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, USA, Jun 13-18, 2010. Piscataway, USA: IEEE, 2010: 3555-3561.
[13] Bao Chenglong, Wu Yi, Ling Haibin, et al. Real time robust L1 tracker using accelerated proximal gradient approach [C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, Jun 16-21, 2012. Piscataway, USA: IEEE, 2012: 1830-1837.
[14] Yang Bin, Li Shutao. Multifocus image fusion and restoration with sparse representation[J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(4): 884-892.
[15] Yang Bin, Li Shutao. Pixel-level image fusion with simultaneous orthogonal matching pursuit[J]. Information Fusion, 2012, 13(1): 10-19.
附中文參考文獻:
[5]鄧承志.圖像稀疏表示理論及其應用研究[D].武漢:華中科技大學, 2008.

LI Haichao was born in 1988. He is an M.S. candidate at School of Computer Science and Technology, Anhui University. His research interests include pattern recognition and digital image processing, etc.李海超(1988—),男,安徽合肥人,安徽大學計算機科學與技術學院碩士研究生,主要研究領域為模式識別,數字圖像處理等。

LI Chenglong was born in 1988. He is a Ph.D. candidate at School of Computer Science and Technology, Anhui University. His research interests include pattern recognition, digital image processing and video analysis, etc.李成龍(1988—),男,安徽阜陽人,安徽大學計算機科學與技術學院博士研究生,主要研究領域為模式識別,數字圖像處理,視頻分析等。

TANG Jin was born in 1976. He received the Ph.D. degree in computer science from Anhui University in 2007. Now he is a professor and Ph.D. supervisor at Anhui University, and the member of CCF. His research interests include image processing, pattern recognition, machine learning and computer vision, etc.湯進(1976—),男,安徽合肥人,2007年于安徽大學計算機科學專業獲得博士學位,現為安徽大學教授、博士生導師,CCF會員,主要研究領域為圖像處理,模式識別,機器學習,計算機視覺等。

LUO Bin was born in 1963. He received the Ph.D. degree in computer science from York University in 2002. Now he is a secondary professor and Ph.D. supervisor at Anhui University, and the member of CCF. His research interests include large image database retrieval, image and graph matching, statistical pattern recognition and random graph model, etc.羅斌(1963—),男,安徽合肥人,2002年于英國約克大學計算機科學專業獲得博士學位,現為安徽大學二級教授、博士生導師,CCF會員,主要研究領域為大規模圖像數據庫檢索,圖和圖像匹配,統計模式識別,隨機圖模型等。
Research on Fusion Algorithm for Thermal and Visible Images?
LI Haichao1, LI Chenglong1, TANG Jin1,2, LUO Bin1,2+
1. School of Computer Science and Technology, Anhui University, Hefei 230601, China
2. Key Lab of Industrial Image Processing & Analysis of Anhui Province, Hefei 230039, China
+ Corresponding author: E-mail: luobin@ahu.edu.cn
LI Haichao, LI Chenglong, TANG Jin, et al. Research on fusion algorithm for thermal and visible images. Journal of Frontiers of Computer Science and Technology, 2016, 10(3):407-413.
Abstract:Fusion of thermal and visible images has a large research and application value due to their complementary benefits, which can overcome shortcomings of single modality under certain conditions. This paper adopts a sparse representation based algorithm to integrate thermal and visible information. Firstly, a relative complete dictionary is learned by some image samples. Secondly, given an image pair, this paper represents them on the learned dictionary by the improved sparse representation model, in which the Laplacian constraints on reconstructed coefficients are employed to improve its robustness. Then, the two modal images are integrated based on the constructed coefficients. Finally, extensive experiments on the public images and the collected images suggest that the method proposed in this paper can effectively fuse the information of two modalities.
Key words:multi-modal fusion; sparse representation; Laplacian regularization
doi:10.3778/j.issn.1673-9418.1506032
文獻標志碼:A
中圖分類號:TP391.4