黃文博,嚴(yán)華
(四川大學(xué)電子信息學(xué)院,成都610065)
圖像融合是把兩幅或多幅從不同類型傳感器采集而來(lái)的同一場(chǎng)景的圖像經(jīng)過(guò)特定的算法,將有效信息整合到一張圖片上,這張融合結(jié)果圖包含源圖像的不同種類的特征,實(shí)現(xiàn)了不同成像模式的優(yōu)勢(shì)結(jié)合的同時(shí)也彌補(bǔ)了不同傳感器的自身劣勢(shì)。常見(jiàn)的圖像融合有可見(jiàn)光與紅外圖像融合、多聚焦圖像融合、醫(yī)學(xué)圖像融合、多曝光圖像融合。可見(jiàn)光與紅外圖像融合在軍事上能夠提升裝備的探測(cè)和識(shí)別能力,可見(jiàn)光圖像和紅外圖像的成像原理不同,前者經(jīng)過(guò)物體的反射率進(jìn)行成像,類似于人類視網(wǎng)膜成像的工作原理,而紅外圖像則是根據(jù)物體的溫度和輻射率進(jìn)行成像,在軍事上對(duì)于探測(cè)隱蔽事物有極大幫助。目前圖像融合技術(shù)按層次分可以劃分為三類:像素級(jí)融合、特征級(jí)融合、決策級(jí)融合。像素級(jí)融合是最基層的融合,傳統(tǒng)主流方法大多基于像素級(jí)融合。顧名思義,像素級(jí)融合是直接針對(duì)像素點(diǎn)進(jìn)行融合操作的,在原始數(shù)據(jù)上進(jìn)行融合,可以增加原始數(shù)據(jù)的信息量,融合后的圖像具有更多的細(xì)節(jié)信息,如邊緣、紋理,有利于圖像的進(jìn)一步分析、處理與理解,還能夠把潛在的目標(biāo)暴露出來(lái),利于判斷識(shí)別潛在的目標(biāo)像素點(diǎn)的操作,這種方法才可以盡可能多地保存源圖像中的信息,使得融合后的圖片不論是內(nèi)容還是細(xì)節(jié)都有所增加,這個(gè)優(yōu)點(diǎn)是獨(dú)一無(wú)二的,僅存在于像素級(jí)融合中。
像素級(jí)圖像融合算法主要分為兩類:基于空間域的算法和基于變換域的算法。常見(jiàn)的空間域融合算法是基于塊操作的,如簡(jiǎn)單的線性加權(quán)平均、邏輯濾波、對(duì)比調(diào)制等方法,塊的選取也是尤為重要的。最常見(jiàn)的變換域融合方法基于多尺度變換理論,將圖像按照變換規(guī)則映射到另一空間,在變換后的空間進(jìn)行融合操作,最后再通過(guò)重構(gòu)操作逆變換回原始空間。如金字塔分解法(LP)[1]和基于小波變換的離散小波變換(DWT)[2]、平穩(wěn)小波變換(SWT)[3]和雙樹(shù)復(fù)小波變換(DTCWT)[4]。后面還出現(xiàn)了稀疏表示(SR)[5]的方法,基于SR的融合已經(jīng)成為圖像融合研究中一個(gè)活躍的新分支,并提出了許多改進(jìn)的方法。也有人將多尺度變換和稀疏表示方法相結(jié)合(MST-SR)[6],取得了不錯(cuò)的結(jié)果。但像素級(jí)圖像融合的局限性也是不能忽視的,由于它是對(duì)像素點(diǎn)進(jìn)行操作,所以計(jì)算機(jī)就要對(duì)大量的數(shù)據(jù)進(jìn)行處理,處理時(shí)所消耗的時(shí)間會(huì)比較長(zhǎng),就不能夠及時(shí)地將融合后圖像顯示出來(lái),無(wú)法實(shí)現(xiàn)實(shí)時(shí)處理;另外在進(jìn)行數(shù)據(jù)通信時(shí),信息量較大,容易受到噪聲的影響;還有如果沒(méi)有將圖片進(jìn)行嚴(yán)格的配準(zhǔn)就直接參加圖像融合,會(huì)導(dǎo)致融合后的圖像模糊,目標(biāo)和細(xì)節(jié)不清楚、不精確。所以有了后面的特征級(jí)融合,將特征信息從源圖像中提取出來(lái),包括源圖像中的目標(biāo)或者感興趣的區(qū)域,接著對(duì)這些特征信息進(jìn)行分析、處理,整合到一張圖片上,使融合結(jié)果包含盡可能多的特征信息。相較于像素級(jí)融合,特征級(jí)融合時(shí)處理的信息更少,因此更節(jié)省內(nèi)存和時(shí)間。但因?yàn)槭菍⑻崛〕龅奶卣髯鳛槿诤闲畔?,因此同時(shí)也會(huì)丟失部分細(xì)節(jié)性特征。
我們提出用快速的兩尺度分解方法分解源圖像,將源圖像I1和I2分別分解成基礎(chǔ)層Bi和細(xì)節(jié)層Di,i為源圖像個(gè)數(shù),即待融合圖像的個(gè)數(shù)。基礎(chǔ)層直接采用最大值融合規(guī)則進(jìn)行融合保留更多原始信息,得到融合后的基礎(chǔ)圖B。細(xì)節(jié)層送入預(yù)訓(xùn)練好的ResNet50網(wǎng)絡(luò)進(jìn)行細(xì)節(jié)特征的提取,分離出多個(gè)relu層得到的不同尺度的特征圖,特征圖通過(guò)求L1范數(shù)操作后得到更為稀疏的特征圖Ci,后接softmax操作得到不同尺度的權(quán)重圖Wi,用獲得的權(quán)重圖對(duì)源圖像Ii進(jìn)行加權(quán)平均得到不同層次的細(xì)節(jié)層融合結(jié)果,為了獲得更加豐富的細(xì)節(jié)特征,本文將最后兩個(gè)relu層的融合結(jié)果進(jìn)行相加獲得最終的細(xì)節(jié)層融合圖D。最后基礎(chǔ)層融合結(jié)果B與細(xì)節(jié)層融合結(jié)果D相加得到最終融合結(jié)果F。算法流程圖如圖1所示。

圖1 提出的融合流程圖
采用均值濾波器對(duì)源圖像I1和I2進(jìn)行濾波,濾波后的圖像包含大范圍的粗糙信息,作為基礎(chǔ)層B1和B2,源圖像I減去各自的基礎(chǔ)層B得到各自的細(xì)節(jié)層D。濾波器的大小決定濾波范圍,濾波器越大得到的基礎(chǔ)層模糊程度越高,相應(yīng)的細(xì)節(jié)層的細(xì)節(jié)信息就更多。其中f為均值濾波,I(s,t)為原始圖像,Sxy表示中心點(diǎn)在(x,y)處,大小為m×n的濾波器窗口,f(Ix,y)表示均值濾波后的圖像。

Bi=f(Ii)
(1)
其中i=1,2,下面同理。
Di=Ii-Bi
(2)
由于基礎(chǔ)層多為灰度變換緩慢的區(qū)域,包含大部分背景,代表平均能量,所以為了獲得更顯著的特征信息,我們采用最大值融合規(guī)則。同時(shí)能夠獲得更高的亮度和對(duì)比度,適應(yīng)于人類視覺(jué)系統(tǒng)。
B=max(Bi)
(3)

(4)
(5)
接下來(lái)通過(guò)softmax操作獲得初始權(quán)重圖W
(6)


(7)
得到的最終權(quán)重圖用于加權(quán)平均融合源圖像Ik。
(8)
Di表示源圖像I1和I2的第i個(gè)relu層的融合結(jié)果,要獲得更高質(zhì)量的融合圖像,需要更多細(xì)節(jié)信息,所以本文將最后兩層的結(jié)果相加得到細(xì)節(jié)層最終融合結(jié)果D。
D=D5+D4
(9)
最終的融合圖像由基礎(chǔ)層融合結(jié)果和細(xì)節(jié)層融合結(jié)果相加得到:
F=B+D
(10)
實(shí)驗(yàn)的目的主要是與最近和經(jīng)典方法的比較,包括主觀與客觀指標(biāo)的比較,以驗(yàn)證提出的方法的可靠性和實(shí)用性。本實(shí)驗(yàn)所使用的軟、硬件環(huán)境如表1所示。參數(shù)選擇見(jiàn)表2。

表1 軟、硬件環(huán)境

表2 實(shí)驗(yàn)參數(shù)選擇
我們挑選了47對(duì)來(lái)源于TNO據(jù)集[17]和OTCBVSBenchmark[16]數(shù)據(jù)集的圖片,其中包含樹(shù)、人物、建筑、道路、車輛等可見(jiàn)光和紅外圖像,所有的圖像都是經(jīng)過(guò)嚴(yán)格配準(zhǔn)的。這些圖像的示例圖如圖2。

圖2 示例源圖像,上面為紅外圖像,下面為可見(jiàn)光圖像
本方法將與當(dāng)前經(jīng)典方法進(jìn)行比較,分別為基于多尺度變換和系數(shù)表示的一種通用圖像融合框架(MST-SR)[6]、梯度傳遞融合(GTF)[9]、拉普拉斯金字塔(LP)[1]、基于非子采樣輪廓波變換方法(NSCT)[12]、曲波變換(CVT)[14]和基于ResNet50和零相位分量分析的紅外與可見(jiàn)光圖像融合(ResNet50)[10]、基于VGG19的紅外與可見(jiàn)光圖像融合(VGG19)[8]。
我們從來(lái)自包含多光譜圖像的TNO數(shù)據(jù)集[17]和OTCBVSBenchmarkDataset[16]中的47對(duì)圖像中挑選出了5對(duì)圖像進(jìn)行定量和定性的分析。其中包含坦克、草地、道路交叉口、人、營(yíng)地。所有的結(jié)果都由各算法公開(kāi)的代碼得到,結(jié)果在圖3中展示。

圖3 五組實(shí)驗(yàn)圖像,從左至右的五幅圖分別為坦克、草地、道路交叉口、人、營(yíng)地。從上至下前兩行為可見(jiàn)光圖像和紅外圖像,下面依次是GTF、LP、CVT、ResNet50、VGG19、MST-SR、NSCT、Proposed方法結(jié)果圖。
我們?cè)敿?xì)看道路交叉口圖,如圖4所示,圖(a)和(b)為可見(jiàn)光圖像和紅外圖像。從整體上來(lái)看,圖(c)整體色調(diào)偏暗,且目標(biāo)不清晰,圖(e)整體噪聲太多導(dǎo)致圖像看起來(lái)比較粗糙模糊,圖(f)、(e)整體呈灰色,分辨不出明顯的目標(biāo)。從對(duì)比度上來(lái)看,圖(h)、(i)和我們的結(jié)果都不錯(cuò),能清晰地看到目標(biāo)人物,但我們的結(jié)果整體風(fēng)格更加明亮,并且存在更少的黑色不均勻區(qū)域。從圖(c)、(d)、(e)、(h)、(i)細(xì)節(jié)中可以看出,GTF、LP、CVT、MST-SR、NSCT方法融合出的圖像偽影較嚴(yán)重,紅框中的人物放大在圖片右下角,放大后可以明顯地看出右側(cè)的偽影,基于深度學(xué)習(xí)框架ResNet50和VGG19的方法所代表的圖(f)、(g)雖然從人物上看不出明顯的偽影,但結(jié)合綠框中放大在左下角的窗戶背景來(lái)看,玻璃和窗格的灰度比較接近,致使融合結(jié)果的對(duì)比度不高,圖像所包含的信息也不顯著,比較模糊,未能很好地結(jié)合可見(jiàn)光和紅外圖像的顯著特征。相反我們的結(jié)果中,窗格為白色、玻璃為黑色,能夠清晰地看出整個(gè)窗戶的結(jié)構(gòu),在視覺(jué)上能夠很輕易地描繪出窗戶的輪廓,這符合圖像融合期望的結(jié)果。





圖4 各方法道路交叉口結(jié)果圖(a)、(b)分別為可見(jiàn)光與紅外圖像,(c)至(j)為GTF、LP、CVT、ResNet50、Vgg19、MST-SR、NSCT、Proposed方法結(jié)果圖
選擇圖像融合領(lǐng)域常用的四個(gè)指標(biāo)作為定量比較的指標(biāo),分別為熵(EN)、互信息(MI)、標(biāo)準(zhǔn)差(SD)、視覺(jué)保真度(VIF)[15],下面分別講解指標(biāo)所對(duì)應(yīng)的含義。
(1)客觀分析指標(biāo)
①熵EN
基于信息理論,熵的大小反映了信息量的多少,熵越大,融合圖像的質(zhì)量越高。
(11)
式子中L為灰度級(jí),設(shè)置為256,p(g)為灰度級(jí)為g級(jí)時(shí)融合圖像的歸一化直方圖。
②互信息MI
互信息量用于衡量?jī)蓚€(gè)分布之間的距離,也是衡量?jī)蓚€(gè)分布之間互相依賴的度量。MI值越大,表面融合結(jié)果含有源圖像的信息越多。
MI(A,B,F(xiàn))=MI(A,F(xiàn))+MI(B,F(xiàn))
(12)
其中A,B,F(xiàn)分別為源圖像1,源圖像2和融合結(jié)果。MI(A,F(xiàn))表示A和F之間的互信息,PA,F(xiàn)(i,j)為A和F的聯(lián)合概率密度,PB,F(xiàn)(i,j)同理,當(dāng)有多張?jiān)磮D像時(shí),融合圖像的互信息指數(shù)為融合圖像與所有源圖像的互信息指數(shù)之和。
③標(biāo)準(zhǔn)差SD
標(biāo)準(zhǔn)差用于測(cè)量一組數(shù)值的離散程度。離散程度越大,說(shuō)明圖像信息更加豐富。
(13)
此處xi,j表示在(i,j)位置處的像素值,μ為在該位置處的平均像素值。
④視覺(jué)保真度VIF
視覺(jué)保真度用于評(píng)估融合圖像的品質(zhì),VIF值越大表示圖像越符合人類視覺(jué)感知,圖像質(zhì)量越高。
(14)



(15)

(2)客觀指標(biāo)對(duì)比
在(1)中我們介紹了4種指標(biāo),包含衡量圖片信息量的EN和SD、表明融合圖像與源圖像之間相似程度的MI和衡量人類視覺(jué)保真度的VIF[15]。表3展示了2.2小節(jié)中不同方法的5組圖片的4個(gè)指標(biāo),加粗字體為最優(yōu)結(jié)果。結(jié)果表明,我們方法在各個(gè)方面都具有最好的性能。從EN值可以看出在包含信息量方面,我們的方法比其他方法平均高出接近0.5,表示我們方法得到的圖像具有更多的信息,融合圖像質(zhì)量更佳。MI互信息指標(biāo)優(yōu)于其他方法說(shuō)明我們的方法能夠更好地提取兩張?jiān)磮D像的信息,并融合進(jìn)結(jié)果圖中,我們的結(jié)果圖中包含更多來(lái)自源圖像的信息??梢钥吹轿覀兊腟D指標(biāo)高于其他方法,說(shuō)明我們的方法生成的圖像像素值分布更加離散均勻,圖像信息豐富。特別的是VIF,在某些場(chǎng)景下,我們的VIF指標(biāo)也高于其他方法,作為最符合人類視覺(jué)感知的指標(biāo),其值越大表明越貼合于人眼,所以我們的結(jié)果擁有高的對(duì)比度和分辨率??偟膩?lái)說(shuō),我們所提出的方法在實(shí)驗(yàn)結(jié)果上優(yōu)于其他方法。

表3 定量比較
我們提出一種基于快速兩尺度分解的圖像融合方法,用均值濾波進(jìn)行源圖像的分解得到包含背景粗糙信息的基礎(chǔ)層和包含紋理、邊緣等細(xì)節(jié)信息的細(xì)節(jié)層。對(duì)基礎(chǔ)層我們采取最大值融合規(guī)則,同時(shí)將深度學(xué)習(xí)運(yùn)用于細(xì)節(jié)層的融合。細(xì)節(jié)層被送入預(yù)訓(xùn)練好的ResNet50進(jìn)行特征的提取,我們分離出深度學(xué)習(xí)網(wǎng)絡(luò)不同層次的特征圖進(jìn)行融合。先讓不同層次的特征圖經(jīng)過(guò)提取L1范數(shù)和平均操作,得到稀疏的權(quán)重圖,再通過(guò)上采樣得到大小一致的最終權(quán)重圖,最終權(quán)重圖用于源圖像的加權(quán)平均得到細(xì)節(jié)層的融合圖像。最后將基礎(chǔ)層的融合結(jié)果和細(xì)節(jié)層的融合結(jié)果進(jìn)行相加獲得最終融合結(jié)果。我們的實(shí)驗(yàn)基于TNO數(shù)據(jù)集和OTCBVS Benchmark數(shù)據(jù)集,在4個(gè)指標(biāo)上與先進(jìn)的7種方法進(jìn)行對(duì)比,無(wú)論從主觀上還是客觀指標(biāo)上都表明我們的方法優(yōu)于其他方法。