毛義坪 馬茂源
(重慶師范大學計算機與信息科學學院 重慶 401331)
近年來,圖像融合成為了圖像處理的一個特別重要的子領域,同時也是研究者們的熱點課題[1]。圖像融合是將同一場景的兩幅或者多幅附帶不同信息圖像融合成一幅圖像的過程。融合后的圖像比原始單個圖像包含更多的信息,及融合后的圖像具有每個原始圖像的能量。由于視覺成像的相機景深是有限的,所以不能完美地使相機成像里的每個部分都聚焦。因此只要相機聚焦了某個點,相應的其他部分就不能聚焦。不在聚焦范圍內的部分給人的感覺就是模糊不清的。多聚焦圖像融合技術就是研究這樣的實際的問題,目的是使圖像的每個部分清楚。在此技術上,同一場景的每個原始圖像聚焦點不同。同時,多聚焦圖像融合技術也是圖像融合技術的一個子塊,大多數多聚焦圖像融合算法簡單修改或不改也可以用到其他的圖像融合上。比如,紅外與可見光圖像融合、多模態醫學圖像融合等。反之亦然。從某角度講,研究多聚焦融合是圖像處理中比較熱門的問題。
幾十年來,研究者們提出了很多圖像融合的可行方法,簡單地可以分為兩類,即變換域法和空域法[2]。最早提出圖像融合的變換域法是基于多尺度分解(multi-scale transform,MST)的算法。其中最早基于拉普拉斯金字塔變換[3]的方法已經提出三十多年的歷史。其他經典的基于多尺度變換方法也相繼提了出來,如:基于離散小波的方法(discrete wavelet transform,DWT)[4]、基于雙樹復小波方法[5]。在高維情況下,小波分析不能充分利用數據本身的幾何特性,不能用最優的或最稀疏的函數去表示信號,不具有平移不變性。因此,二十世紀后學者們提出了多尺度幾何分析(multi-scale geometric analysis,MGA),目的是發展最新最優的高維信號表示法。該方法也應用到了圖像融合領域。2007年,Nencini等[6]提出基于曲波圖像融合方法;2009年,Zhang等[7]提出了基于無下采樣輪廓波方法。通常上述基于多尺度分析方法一般有三個步驟:變換圖像、融合系數、反變換重組圖像[8]。一般被變換后的圖像分為高頻系數和低頻系數,低頻是對原始圖像的近似,高頻是圖像的細節。除了分解方法以外,系數融合也對融合質量好壞有比較大的影響。在大多數的基于多尺度分解的方法中,系數的融合規則是高頻取絕對值最大,低頻取均值。
近幾年來,學者提出了一種新的基于變換域的方法[9-11],并且迅速成為了圖像融合領域熱門方法。與多尺度分析方法不同的是,此方法利用比較先進的信號表示理論把原始圖像變換成單一尺度特征空間,如獨立成分分析理論、稀疏表示理論(sparse representation,SR)。為了保證融合圖像結果的平移不變性,此類方法通常會用到滑動窗口技術。最重要的問題是探索最有效的特征域來表示圖像的高頻信息。基于稀疏表示理論[10]的圖像融合技術就是把圖像塊映射到稀疏領域,用稀疏系數的L0范數來表示圖像塊的重要信息。自從2010年基于稀疏表示的方法提出,很多研究者對其十分感興趣,紛紛提出一些新的或改進的算法。有些是改進求稀疏解的算法,如正交匹配追蹤[12],有些是改進字典的方法,如,Yin[13]提出基于多尺度學習字典的方法。組成一個好的字典是融合質量的關鍵。為了提高字典的有效性,Kim[14]提出了基于局部塊字典的方法。由于局部塊字典是直接提取于源圖像,難免有些冗余和相應的效應。為了降低字典的冗余度提高相應的緊湊性。2016年,Kim等[15]提出了基于聯合塊聚類的學習字典,其原理是先對原始圖像塊聚類(水平邊緣、垂直邊緣、平坦邊緣)分別組成一個子字典,然后對子字典組成的母字典用PCA分析法進行分析,最終得到一個緊湊的字典。此方法比以前的字典效率明顯提高。更多基于稀疏表示的方法可以參考文獻[16]。
空域法圖像融合方法是基于圖像空域來處理的,不用對圖像進行某種轉換或映射到其他空間的形式。最簡單的空域法就是均值法,把原始圖像對應像素點相加除以原始融合圖像的數目。當然這樣的方法會丟失很多細節。早期空域法是把圖像分塊,然后比較原始圖像對應位置的聚焦程度,聚焦值大的塊作為融合圖像的相應塊。以此類推,比較所有原始塊。聚焦程度一般采用空間頻率、拉普拉斯算子和、方差等表示[17]。此類方法對融合結果有較大的影響,比如遇到復雜圖像,不能良好地區分到底哪塊是聚焦圖像塊,而且很容易引入塊效應。由于手動分塊會產生上述問題,Aslantas等[18]提出了采用差分進化算法自適應分塊算法,彌補了手動分塊算法的不足。相應的還有基于形態學的四叉樹結構聚焦檢測法[19],它能靈活地選擇原始圖像塊,比原始手工分塊的融合效果提高了不少。其他類型的空域法是基于圖像的分割[20]。分割方法與基于分塊法的道理類似,只是融合結果對分割精度的依賴性比較高,即要求盡量清楚分割聚焦區與非聚焦區域。2015年,Liu等[21]提出了基于DSIFT(Dense scale invariant features transform)的多聚焦圖像融合,其融合方法是用DSIFT對原圖做活躍程度度量,結合滑動窗口技術和一定策略形成決策圖,最后通過加權融合得到融合圖像。該算法克服了塊效應和一些傳統算法的缺點,得到了很好的融合效果。
上述基于多尺度分析方法中,由于低頻按平均值來融合,所以結果圖像對比度很容易降低,相應的低頻信息就丟失了。基于稀疏表示的方法中,字典一般情況表達能力不足,相應的融合圖像的紋理易丟失,且此方法時間復雜度較高,不能用到實時項目中。早期空域法是通過分塊或基于圖像分割,可能引起塊效應果區域模糊。為了克服這些問題,本文提出基于高斯拉普拉斯算子(LOG)的多聚焦融合算法。首先利用高斯拉普拉斯算子度量原始圖像的活躍度;為了不引入塊效應,采用滑動窗口技術得到決策圖;最后通過決策圖對原始圖像加權的方式得到融合圖像。實驗結果驗證了其有效性。
在圖像處理中,高斯拉普拉斯算子主要作為邊緣檢測之一,對噪聲與離散點的圖像有一定的魯棒性。如果圖像聚焦,圖像中的邊緣即那些灰度發生跳變的區域就會更亮,所以把高斯拉普拉斯算子應用在度量圖像活躍程度中。
高斯卷積函數定義為:
(1)
原圖像f(x,y)與高斯卷積可以定義為:
Δ|Gσ(x,y)*f(x,y)|=|ΔGσ(x,y)|*f(x,y)=
LOG*f(x,y)
(2)
LOG可以通過先對高斯函數進行偏導操作,然后進行卷積求解,公式表示為:
(3)
(4)
因此LOG核函數定義為:
(5)
為了編程方便,高斯拉普拉斯模板如圖1所示。

圖1 高斯拉普拉斯模板
由于高斯拉普拉斯算子在圖像中的邊緣即那些灰度發生跳變的區域十分敏感,于是將其應用到多聚焦圖像融合中,用于度量圖像活躍程度。塊內絕對值越大,證明圖像越活躍。
這里以融合兩幅圖像為例,多幅圖像可以以此類推。(1) 首先對原始圖像O1進行高斯拉普拉斯算子變換,得到高斯拉普拉斯算子變換矩陣O11。(2) 取O11矩陣的絕對值,得到|O11|。(3) 最后|O11|為聚焦度量圖A1。同理,對原始圖像O2操作得到其圖像的聚焦度量圖A2。然后通過一定策略比較聚焦度量圖得到決策圖。
文獻[21]提出了借助滑動窗口技術比較度量圖法。單獨像素點的比較容易受奇異點的影響,為了進一步提高圖像區域的聚焦度量,采用分塊與滑動窗口配合法。比較聚焦度量圖A1、A2相同坐標的塊,塊內所有值之和大的,相應的得分圖區域+1,最終通過得分圖來形成決策圖。具體形成過程如下:



圖2 聚焦得分示意圖

(3) 根據聚焦得分圖M1、M2,可以把原始圖像對應像素分為聚焦、散焦、不確定。對于原始圖O1像,分類規則為:
(6)
對于原始圖像O2,分類規則為:
(7)
對于上述分類規則,O1(x,y)、O2(x,y)、M1(x,y)、M2(x,y)表示為對應的像素點。為了嚴謹,只有同時滿足M1得分和M2不得分的情況下O1(x,y)才聚焦,O2(x,y)同理,否則為不確定。
然后對聚焦像素賦值1,對不聚焦或者不確定的賦值為0,由于圖像復雜且不確定,賦值后的聚焦圖會出現一些小洞,然后用MATLAB自帶函數(bwareaopen)修復小洞。
于是按照上面的分類標準得到融合決策圖:
(8)
通過上面的決策圖規則得到決策圖,決策圖只含三個值1、0、0.5。最后得到融合圖像策略如下:
F(x,y)=D(x,y)O1(x,y)+(1-D(x,y))O2(x,y)
(9)
實驗比較了近三年提出的基于結合多尺度分析、稀疏表示法(MST_SR)[22]和卷積稀疏表示法(Convolutional Sparse Representation,CSR)[23]。在文獻[22]中,多尺度分解用的拉普拉斯金字塔,字典大小256,用的是正交匹配追蹤算法求稀疏系數。具體參數見文獻[24]。仿真計算機參數為Inter(R)Core(TM)i5-3210M CPU@2.5 GHz,內存4 GB,軟件為MATLAB 2014a。
(1) 峰值信噪比(Peak signal-to-noise ratio,PSNR)。
PSNR是信號可能的最大功率與影響信號表示精度破壞性噪音功率之間的比值。PSNR的值越大證明信號保持度越好。其表達式為:
(10)
式中:MAX是信號的最大可能功率,MSE表示均方誤差,即各數據的誤差平方的平均數。
(2) 互信息量(Mutual Information,MI)。
MI[25]的定義是輸入和輸出后的信息互相包含的總和量,數值越大證明輸入輸出的交互信息越多,融合效果越好。其定義公式為:
(11)
式中:PX(x)表示信息X的邊緣概率密度,PY(y)表示信息Y的邊緣概率密度,PXY(xy)表示兩個信息量X、Y的聯合概率密度,MIXY(xy)即為X、Y兩信息的互信息量。
(3) 梯度相關指標QAB/F。
QAB/F[26]是一個常用的圖像融合評價指標,原理是基于梯度信息的,一般用于檢測原始圖像到處理后圖像之間梯度信息保留的程度。定義是:
(12)

實驗選取了幾對不確定聚焦圖像進行測試,如圖3所示[27]。

(c) clock (d) pepsi圖3 原始多聚焦圖像
圖3(a)中,左圖是近景對焦,右圖是遠景對焦,左圖書架看起來模糊,時鐘看起來清晰,右圖恰好相反。圖3(b)中,左圖近景聚焦,圖像里人物就沒有聚焦,看起來十分模糊。圖3(c)、(d)與(a)、(b)差不多,都是部分清晰,即圖像部分對焦其他區域散焦。
融合后的圖像如圖4-圖7所示。融合圖像從視覺上看,在圖像邊緣處,LOG算法優于其他算法,原因是在正確判斷圖像聚焦區域下,LOG算法融合結果就是源圖像本身,這樣就不會出現失真或邊緣模糊。然而多尺度算法因采樣方式或融合策略(比如,高頻取最大絕對值,低頻取平均值)可能會丟失較多信息。稀疏表示因字典表達能力不足,使邊緣或紋理出現模糊現象。LPFOG算法也可能出現判斷聚焦區域失敗而導致平均化失真。

圖4 “clock”三方法融合結果

圖5 “lab”三方法融合結果

圖6 “clocks”三方法融合結果

圖7 “pepsi”三方法融合結果
“clock”圖像融合指標結果如表1所示,可以看出,對于第一個指標PSNR,MST_SR算法融合結果略優于LOG算法。但從其他指標可以看出,LOG算法都優于其他算法。尤其是MI指標,明顯優于其他算法。表2“lab”融合指標結果與表1有些類似,在PSNR指標中,都是MST_SR融合算法略高一些,其他指標均是提出的LOG表現最好。

表1 “clock”圖像融合指標

表2 “lab”圖像融合指標
表3中列出的是“clocks”圖像融合結果。從結果上看,提出的LOG算法都優于對比算法。相對來說,基于卷積的稀疏表示法在PSNR指標中效果次于其他算法。“pepsi”原始圖像融合結果如表4所示。其融合指標結果也是全部優于比較算法。MST_SR算法與提出的LPF算法在QAB/F指標上比較接近,但提出算法還是略高MST_SR算法。

表3 “clocks”圖像融合指標

表4 “pepsi”圖像融合指標
由于圖像的不確定性與復雜性,在PSNR指標中,基于多尺度與稀疏表示算法指標在前兩對測試圖像上稍微高于提出的LPF算法,但總體看,提出的基于LOG算法優于MST-SR和CSR算法。
根據高斯拉普拉斯算子,對圖像進行掩膜卷積計算。將計算結果絕對值作為聚焦度量圖,然后用滑動窗口對聚焦度量圖打分,進行一定的策略得到決策圖,最后對決策圖乘以相應的權重,得到融合圖像。本算法通過判斷是否為聚焦區域來劃分,如果判斷是聚焦區域,就把此區域劃為最終融合結果。這樣得到的融合區域是原始圖像,即沒有對原始圖像采樣或某種近似表達,質量是非常好的。所以不論從主觀還是客觀評價指標上看,基于高斯拉普拉斯算子算法效果優于傳統的算法。本算法主要核心是判斷圖像聚焦區域,類似于劃分聚焦于散焦的分界線。如果可以準確劃分聚焦區域,融合質量自然理想,如何又快又好劃分聚焦區域是要繼續研究探討的問題。