王 娟, 柯 聰, 劉 敏*, 蔡霖康, 石 豪, 袁旭亮
(1.湖北工業大學太陽能高效利用及儲能運行控制湖北省重點實驗室, 武漢 430068;2.武漢大學-武漢華安科技公司博士后工作站, 武漢 430068)
由于光學透鏡的焦距設置在一定范圍里,所以只有在景深內的物體在照片中才會有清晰的顯示,其他物體可能會呈現出較模糊的狀態,而獲取全聚焦圖像的一種常用技術是將不同焦距設置下拍攝的同一場景的多幅圖像進行融合,即多聚焦圖像融合技術。多聚焦圖像融合技術能夠對不同焦距下的聚焦圖像進行融合,融合后的圖像能夠最大程度地保留源圖像的細節特征,為軍事探測、醫療診斷和目標識別等實際應用領域提供更加豐富的信息[1]。
近年來,研究人員提出很多種圖像融合的方法。這些方法大致歸為以下兩類[2]:變換域方法和空間域方法。變換域方法是基于傳統的多尺度變換理論的圖像融合方法,如基于拉普拉斯金字塔(laplacian pyramid,LP)方法[3]、基于離散小波變換(discrete wavelet transform,DWT)法[4]、基于非下采樣剪切波變換(non-subsampled shear transform,NSST)法[5]、基于非下采樣輪廓波(non-subsampled contourlet transform,NSCT)[6]等。基于多尺度變換的圖像融合方法是先對源圖像進行分解,再選用合適的融合規則對分解后的子圖像進行融合,最后將子圖像重新構建,從而獲得最終的融合圖像。空間域方法是空間域算法將圖像整體或是其中一部分看作是圖像自身的特征,使用某種規則進行合并,再重構出融合圖像。
隨著深度學習技術的興起,一些基于神經網絡的方法應用于多聚焦圖像融合上,與傳統方法相比,其更具有優越性。文獻[7]首次將卷積神經網絡(convolutional neural network,CNN)應用于多聚焦圖像融合,使用包含不同清晰程度的源圖像塊來訓練模型并獲得決策圖,通過學習CNN模型可以共同生成權重分配和融合規則,克服了現有融合方法所面臨的困難。但此方法僅使用網絡模型最后層的結果,忽略中間層可能會導致信息的丟失。
針對以上問題,本文提出一種基于改進生成對抗網絡(generative adversarial network,GAN)的多聚焦圖像融合方法,通過網絡模型進行特征提取及融合,規避人為設計權重分配和融合規則所引起的弊端。由卷積層構成的生成器和判別器的網絡結構克服了CNN模型在網絡加深時造成的圖像部分信息丟失,使得生成圖像在最大程度上保留了源圖像的細節信息,提高融合效果。
Goodfellow等[8]首次提出了GAN的概念,在深度學習領域引起大量的關注。GAN網絡主要包括兩個對抗模型:生成器模型(generative,G)和判別器模型(discriminative,D)。G用來捕捉分布的數據,刻畫數據是如何生成的;D不關心數據是如何生成,而是用來區分生成器生成的數據和真實數據。G和D進行博弈,通過互相競爭讓兩個模型同時得到增強。在優化過程中,其模型優化函數如下:
Ez~Pz(z)(lg{1-D[G(z)]})
(1)
式(1)中:x表示真實的輸入樣本;z表示輸入G的噪聲;pdata(x)表示數據真實分布;pz(z)表示輸入噪聲分布;D(X)表示判別器判斷真實圖像是否真實的概率;D[G(z)]表示判別器判斷G生成的圖片是否真實的概率。
原始GAN的目的主要在于擬合出相應的生成器和判別器用來生成圖像,并沒有對生成器和判別器的具體結構做出限制。所設計的生成器和判別器模型均使用卷積神經網絡,為了防止圖像在傳遞過程中造成細節信息的丟失,所以在網絡模型設計時未使用池化層以此來保證多聚焦圖像融合的效果。
多聚焦圖像融合的關鍵在于融合圖像能同時保留輸入源圖像的所有細節信息,通過GAN中的生成器G生成融合圖像,將融合圖像送入判別器,并且同時將兩幅源圖像分別送進判別器,通過判別器區分生成圖像和真實圖像,直到判別器無法區分出生成圖像和真實圖像,則可以獲得高質量的融合圖像。本文方法框架圖如圖1所示。

圖1 本文方法框架圖Fig.1 The method frame diagram of this paper
改進GAN的網絡結構包括兩部分:生成器網絡和判別器網絡。為了保證圖像的特征信息在網絡傳播中不受到大量的損失,因此生成器和判別器均采用卷積神經網絡。
生成器的目的在于提取源圖像中更多的細節信息,生成具有豐富細節的融合圖像,生成器的網絡結構如圖2所示。從圖2中可以看出生成器G是一個5層卷積神經網絡,第一層和第二層都是使用5×5的卷積核,第三層和第四層使用3×3的卷積核,最后一層使用1×1的卷積核。每一層卷積核的步長都設為1,并且生成器的輸入是由兩張多聚焦圖像連接而成,即輸入通道為2。同時為了避免梯度消失等問題,在生成器每層都使用BatchNorm[9]給數據歸一化,之后再使用LeakyRelu[10]激活函數來提升網絡的非線性程度。

圖2 生成器網絡結構Fig.2 Generator network structure

圖3 判別器網絡結構Fig.3 Discriminator network structure
判別器的目的在于區分目標圖像是生成器生成的圖像還是真實圖像,通過對目標圖像的特征提取再進行分類。判別器的網絡結構如圖3所示。從圖3中可以看出判別器D是一個8層的卷積神經網絡,每一層都是使用3×3的卷積核,第2~4層的卷積核步長設為2,其余層卷積核步長均為1。為了不引入噪聲,所以以步長為2的卷積層代替池化層,使得判別器的分類效果更好。與生成器相似的是前7層都使用BatchNorm給數據歸一化,再使用LeakyRelu作為激活函數,最后一層則是線性層用于分類。
本文算法中的損失函數由兩部分組成,即生成器G的損失函數和判別器D的損失函數,目的在于使損失函數最小化以得到最佳的訓練模型。用LG表示生成器G的損失函數,LD表示判別器D的損失函數,LGAN表示總損失函數,則有:
LGAN={min(LG),min(LD)}
(2)
生成器損失函數包括兩部分:一部分是生成器與判別器的對抗損失,用V表示,如式(3)所示;另一部分則是圖像細節信息在生成過程中的內容損失,用Lc表示,如式(4)所示。

(3)


(4)
則LG表示如式(5)所示:
LG=V+αLc
(5)

一般情況下,在沒有判別器的情況下,通過本文算法也是能夠得到融合圖像,但這樣的圖像往往不能很好地保留源圖像的細節信息。因此為了生成器所生成的融合圖像效果更好,所以引入判別器。判別器的損失函數為


(6)
式(6)中:b、c分別表示兩幅可見光圖像的真值標簽;d表示融合圖像的真值標簽;D(I1)、D(I2)、D(If)分別表示各自圖像的分類結果。
實驗使用的是Samet Aymaz提供的數據集,從其中選擇50對多聚焦圖像作為實驗的訓練集。為了能夠得到更好的訓練模型,用步長為14,大小為64×64的滑動窗口將每對多聚焦圖像分成子塊, 再將這些子塊以填充的方式將大小擴展為76×76,將其作為生成器的輸入。通過生成器輸出的融合圖像大小仍為64×64。生成的融合圖像作為判別器的輸入,并使用Adam[12]優化算法,直到達到最大訓練次數為止。
實驗基于DELLEMC PowerEdge R840四路機架服務器,采用Intel Xeon(R) Gold 5120 CPU, Nvidia Tesla P100 GPU的硬件環境,軟件環境為64位 Ubnutu 18.04的操作系統,Tensorflow V1.2,Python3.5。
選擇兩組多聚焦圖像作為本文算法融合效果的展示。為了驗證本文算法對于多聚焦圖像的融合效果,選取在多聚焦圖像融合領域表現較好的基于LP算法[3]、基于NSCT算法[13]、基于SR(sparse representation)算法[14]、基于CNN算法[7]等四種算法與本文算法進行對比。不同算法的融合效果圖如圖4所示。從視覺效果上看,上述幾種算法均較好地保持了源圖像的細節信息,并對多聚焦圖像進行了較好的融合。從圖4可以看出本文算法的對比度較高,圖像亮度提升,邊緣信息保存程度較高,可以得到更好的視覺效應。

圖4 多聚焦圖像融合結果Fig.4 Fused results of the multi-focus images
為了對融合結果進行更加全面的評價,選擇了5組客觀評價指標:平均梯度(average gradient,AG)、邊緣強度(edge intensity,EDI)、信息熵(information entropy,IE)、標準差(standard deviation,STD)、空間頻率(spatial frequency,SF),對融合圖像進行計算得到評價數據,如表1所示。
由表1第一組數據可知,本文算法在大部分客觀評價指標上達到了最佳值,在IE和STD這兩項指標上也取得了比較好的效果。在AG上比性能較好的NSCT算法上提高了20.7%,在EDI上比性能較好的NSCT算法上提高了21.1%,表明本算法提取的邊緣信息豐富,在進行圖像融合時可以更好地保留邊緣的信息,表現出更好的綜合性能。
由表1第二組可知,本文算法在AG、EDI、IE、STD上的性能均優于其他算法。在AG上比性能較好的LP算法上提高了19.7%,在EDI上比性能較好的LP算法提高了20.2%,本文算法雖然沒能在每個指標上達到最優,但均有著較好的效果。綜上所述,本文算法效果最好,在保持源圖像的細節信息上表現良好,融合后的圖像包含的內容更加豐富。

表1 融合圖像性能比較
提出了一種基于改進生成對抗網絡的多聚焦圖像融合方法,實現了端到端的自適應融合,避免了設計復雜的融合規則。實驗研究表明,本文算法可以較好地提取兩幅源圖像的細節信息和邊緣特征,達到了比較好的融合效果。需要指出的是,GAN的網絡結構以及參數設置對融合的效果有著巨大的影響,所以在后續的工作里需要對網絡結構進行進一步的改進,尋找更優的參數值,以求獲取效果更好的融合圖像。