基于像素校正的編解碼多聚焦圖像融合網絡

2022-01-22 02:18:12趙文義潘細朋楊輝華

計算機仿真 2021年12期

王杰，趙文義，潘細朋，楊輝華

(1.北京郵電大學自動化學院，北京 100876；2.桂林電子科技大學計算機與信息安全學院，廣西桂林 541004)

1 引言

在圖像采集過程中，由于相機景深有限，相機焦平面附近的物體在像平面上成像清晰，遠離焦平面的物體會在相平面上出現模糊，因此難以將一幅圖像中的所有物體都清晰成像。多聚焦圖像融合[1]技術將多幅不同聚焦區域的圖像融合成為一幅全聚焦圖像，使得圖像場景中的所有物體都能較為清晰的顯示，在醫學圖像處理[2]、軍事偵察、工業檢測等領域有著非常廣泛的應用。

目前，多聚焦圖像融合算法主要包括空間域與變換域兩類研究方法。變換域融合算法的主要思想是將原始圖像經過某種特定的多尺度變換分解為高頻部分與低頻部分，然后分別在各個頻段上依照一定的融合規則對變換域系數進行融合，最后執行相應的多尺度逆變換得到融合圖像。為此，Sun等人[3]提出的基于拉普拉斯金字塔(Laplacian Pyramid，LP)的方法，通過計算拉普拉斯能量和來計算源圖像中的聚焦區域，然后使用基于密度的區域增長算法來分割圖像的聚焦區域決策圖，最后通過分解決策圖金字塔來監督在源圖像拉普拉斯金字塔上的區域。Zheng[4]等人通過改進小波變換(Wavelet Transform，WT)并引入四元數構建上下文隱馬爾可夫模型，來對四元數小波變換系數進行建模。除此之外，非下采樣輪廓波變換(Non-Subsampled Contourlet Transform，NSCT)[5]的融合方法也取得了優異的效果，宋[6]等人利用非下采樣輪廓波變換的系數優勢，設計了變換域中高中低域的融合規則，然后結合基于區域分割的邊緣檢測方法完成多聚焦圖像融合。這些變換域方法得到的融合圖像，在多尺度變換與逆變換過程中容易丟失部分有用信息，導致融合圖像信息表達不完整。

基于空間域的方法主要是通過尋求一種圖像清晰度的描述方法，根據該方法評價源圖像對在相同位置的清晰程度，取較為清晰圖像在該位置的像素區域，遍歷整幅圖像，從而得到一幅全聚焦融合圖像。周[7]通過引入能夠反映多尺度邊緣和拐點結構清晰度的聚焦區域度量方式來檢測圖像的聚焦區域。屈[8]通過提出一種基于源圖像共享相似度的方案來生成決策區域，并且自動估計從物體到焦平面的距離。劉[9]通過使用密集的SIFT描述符來測量源圖像的聚焦區域從而得到最終融合結果。此類基于空間域的方法需要手動設計圖像塊的大小及圖像清晰度度量等具體的融合規則，因此融合規則的設計很大程度上影響著融合圖像的質量。近年來，深度學習技術在許多圖像處理任務中都取得了很好的進展[10-12]，為了克服傳統方法中手動設計融合規則存在的問題。許多基于深度神經網絡的圖像融合方法[13]被引入到多聚焦圖像融合任務中，主要包括基于卷積神經網絡(Convolutional Neural Network，CNN)[14-15]的方法。其主要方法為通過神經網絡對源圖像的圖像塊進行分類來完成聚焦區域的檢測。但是由于圖像塊的大小需要進行手動設置，且在圖像塊較小的情況下分類效果較差，容易存在聚焦邊緣分割不準確的問題。

針對現有研究方法聚焦區域無法精確提取，導致融合圖像邊界模糊、關鍵信息丟失的問題。本文提出了一種新的基于編解碼網絡多聚焦圖像融合算法。相對于其它基于神經網絡的方法，本文引入像素矯正模塊與結構相似性損失函數，通過對一對源圖像上每個像素進行分類確定聚焦區域得分圖，從而提取更加精細的聚焦區域，得到表達能力更強的融合圖像。

2 基于編解碼網絡的多聚焦圖像融合模型

本文采用編解碼網絡處理多聚焦圖像融合問題。使用生成的訓練數據集來訓練編解碼網絡。該網絡使用一對多聚焦圖像作為輸入，輸出一張與源圖像相同大小的得分圖，其中每個像素的數值代表該像素是前景的概率。然后通過得分圖融合這一對多聚焦圖像得到一張較高質量的融合圖像。整個過程如圖1所示。

圖1 基于編解碼網絡的多聚焦圖像融合過程

2.1 編解碼網絡

網絡輸入是一組經過灰度變換的多聚焦圖像沿著通道維度連接起來構成的2通道圖像，整個網絡由編碼器網絡和解碼器網絡組成。編碼器網絡采用兩分支結構使得輸出結果能夠獲取到低層的空間位置信息與高層的上下文語義信息。編碼器端包括13個卷積層與5個下采樣池化層。其中每個卷積層均采用大小為3×3的卷積核來減小網絡的參數量，并采用零填充使得通過卷積層前后的特征圖大小不變。因此，編碼器網絡的輸出特征圖大小只與下采樣池化層的數量有關，為輸入圖像大小的。解碼器網絡采用了比編碼器網絡更小的網絡，包括5個反池化層和5個卷積層。輸出與輸入圖像大小相同的聚焦區域得分圖。除了最后一層網絡的激活函數采用Sigmoid函數對特征圖上的每個像素點的類別映射至0到1的概率區間，其余卷積層的激活函數均采用線性整流函數(Rectified Linear Unit，ReLU) 進行非線性映射。對于每一層激活結果，采用批量歸一化(Batch Normalization，BN)來加快網絡訓練速度，防止模型過擬合。歸一化的公式如下

(1)

式中，xi為在像素點i處經過激活函數輸出的激活值，yi為在像素點i處歸一化以后的激活值，m為每一次訓練輸出圖像的批量值，γ與β為可學習的參數，隨著訓練的迭代而更新。

2.2 像素矯正模塊

由于解碼器網絡的輸入特征圖較小，單個像素誤差就能夠造成32個像素的解碼誤差。考慮到在編碼器之中的低層特征圖包含較多且準確的低層空間位置信息，而解碼器中的高層語義信息無法較好的恢復特征的空間坐標。為了減小誤差，引入像素矯正模塊(Pixel Correction Module，PCM)，其結構如圖1左下所示。橙色輸入特征圖為對特征映射進行上采樣得到的特征圖，藍色輸入為編碼器網絡中的特征圖。編碼器網絡中的特征圖通過一個3×3與一個1×1的卷積得到矯正特征圖，其中3×3的卷積采用線性整流函數進行非線性映射，1×1的卷積采用Sigmoid激活函數。把矯正特征圖與解碼器網絡中的上采樣的結果進行相加得到矯正后的輸出特征圖。PCM模塊的矯正特征圖為聚焦區域的粗略分割結果，通過把粗略分割結果與上采樣的結果相加，增加了聚焦區域的置信度，減小下采樣中的像素誤差。

2.3 損失函數

網絡采用了兩個損失函數。第一個采用均方誤差損失函數，定義為標簽得分圖與預測得分圖在每個像素的均方差值之和。由于絕對值不可微分，使用以下損失函數近似得到

(2)

第二個損失函數采用結構相似性損失函數(structural similarity，SSIM)，表示兩幅圖像的結構相似性之差。其計算公式如下

(3)

(4)

(5)

SSIM(X，Y)=L(X，Y)·C(X，Y)·S(X，Y)

(6)

SSIM的值越逼近1說明處理后的結構與原圖結構極為近似，即生成的結果圖更好。當兩幅圖像完全相同時SSIM=1。故實際中LSSIM取

LSSIM=1-SSIM(imgout，imgGT)

(7)

式中imgout是編解碼網絡輸出的得分圖與兩個輸入圖像通過式(10)得到，imgGT為全聚焦目標圖像。

imgout=imgA·score+imgB·(1-score)

(8)

式中，imgA、imgB為兩張輸入源圖像，score為編解碼網絡輸出的得分圖。

最終損失函數為兩個損失的加權和，定義如下，α為0.5。

Lall=α·La+(1-α)·LSSIM

(9)

3 實驗結果及分析

為了驗證本文算法的性能，本文首先建立了適用的高精度多聚焦圖像融合訓練數據集并對模型進行訓練，然后使用20對多聚焦圖像數據集“Lytro”圖像進行測試。測試圖像集的一部分如圖2所示。本文在測試圖像集上把本文提出的算法與四種代表性算法進行對比，這些算法包括基于多尺度梯度加權的融合(MWGF)[7]算法、使用自相似性和深度信息的融合(SSDI)[8]算法、基于密集尺度不變特征變換(DSIFT)[9]的融合算法、基于卷積神經網絡(CNN)[14]的融合算法，同時，在相同訓練集上訓練了無像素矯正模塊的模型進行對比。本文仿真平臺采用酷睿i7-8700 6核12線程CPU，顯卡型號為Geforce GTX1080 8G，內存16GB，深度學習框架為PyTorch。

圖2 部分多聚焦圖像測試集

3.1 數據集的構建與模型的訓練

現有公開數據當中可用于多聚集融合圖像訓練的標注數據較少，難以滿足神經網絡對于數據量的需求。而現有基于卷積神經網絡[14]的方法主要通過對無標注圖像進行處理來生成訓練數據。其具體步驟為：首先將一張較為清晰的彩色圖像轉換為單通道的灰度圖像，然后通過高斯模糊得到對應灰度圖像的模糊圖像，然后將這兩幅單通道圖像在通道維度連接起來作為神經網絡的輸入，將模糊圖像與清晰圖像的通道索引定義為類別標簽。由于此類方法需要對圖像中的每一個圖像塊上進行分類，當圖像塊中同時包含聚焦區域與非聚焦區域時容易造成分類錯誤，難以精確的提取到聚焦區域。因此具有精細像素級標注的數據集對多聚焦圖像融合來說是非常必要的。

現今多聚焦圖像的像素級標注成本較高，而圖像分割的數據集具有精細的像素級標注。對此本文提出一種方法，生成與現實情況相似并且易于獲得的訓練數據集。通過選取現有具有精細標注的數據集，將其標注的前景圖像作為前景數據，選擇公開數據集中無明顯散焦的圖像充當背景，通過把前景和背景區域分別當作聚集區域與非聚焦區域，生成與現實情況相似的合成數據集。

對于前景圖像和背景圖像，通過以下融合規則得到最終的一組融合圖像，其中GT代表圖像前景標注，Gauss(A)表示經過高斯模糊的圖像A。FG為前景圖像，BG為背景圖像，imgA與imgB為兩張生成的多聚焦源圖像，imgGT為對應的全聚焦圖像。

圖4 不同算法對源圖像“Boy”融合結果

imgA=FG·GT+Gauss(BG)·(1-GT)

(10)

imgB=Gauss(FG)·GT+BG·(1-GT)

(11)

imgGT=FG·GT+BG·(1-GT)

(12)

生成過程如圖3所示。左側三張圖分別為前景圖像、背景圖像與前景圖像的標注圖像，右側三張圖中，上面兩張圖為合成的一組多聚焦圖像，最下面一張圖為全聚焦圖像。

圖3 訓練數據生成過程

本文使用Alpha Matting的標注數據充當合成圖像的前景圖像。這個數據集包含27張帶標注的訓練圖像和8張測試圖像。對于每張前景圖像選擇1000張來自MS COCO 2014訓練數據集中的背景圖像生成訓練數據集。雖然訓練數據集有27000張圖像，但是只有27個對應的前景圖像。因此共有27000對有標注的訓練圖像以及8000對測試圖像用于編解碼網絡的訓練。為了更好的使用訓練數據并且避免過擬合，使用了以下的訓練方法。首先隨機選取聚焦區域的邊緣點，以該點為中心裁剪大小為320×320、480×480和640×640的圖像對。并將其統一調整為320×320。最后將每個訓練對以0.5的概率隨機進行翻轉。使得數據集具有多個尺度，盡可能的包含多種同時具有聚焦與散焦的場景圖像。

3.2 在測試集圖像上的主觀評價結果

圖4是以上算法在測試圖像“Boy”上的融合結果。由圖4融合結果可以看出，以上算法在源圖像聚焦區域與非聚焦區域中易分辨區域上融合效果相差無幾，相交區域的融合效果決定著算法的最終融合效果。觀察圖4 中每張圖片左下角的局部區域的放大圖，可以發現本文提出的方法在紅色虛線矩形框內，較好的保留了源圖像中的豎線細節，保留了源圖像中的局部特征。

由于融合結果的優劣難以區分，為了進一步證明編解碼網絡用于多焦點圖像融合的有效性，本文比較了各種方法生成的聚焦區域得分圖。在實際情況中，通過一個固定閾值把聚焦區域得分圖轉化為一個只包含0與1的二進制得分圖，也就是最后的決策圖。這其中，由于光照等原因，一些像素會被錯誤分類，從而導致在得分圖中出現一些小的孔洞。因此，采用形態學中的開運算來消除這些孔洞形成最后的得分圖。6對輸入源圖像的得分圖對比如圖5所示，可以看出本文方法對大多數像素均能夠正確分類，并且在邊界有較好的分類效果以上情況均假設源圖像只有兩個聚焦區域。對于超過兩個聚焦區域的多聚焦圖像，先選擇任意兩張圖像進行融合得到中間融合圖像，然后將中間融合圖像與剩余源圖像繼續融合，直到把所有源圖像都融合進去，得到最終融合結果。圖6為多個聚焦圖像的實驗結果。

圖5 不同算法在其它測試圖片上的決策圖對比

圖6 多個圖像的融合結果。從左至右依次為三張源圖像與融合結果

3.3 在測試集圖像上的客觀評價結果

除了視覺效果的直觀對比，使用四種融合圖像質量評價方法對融合圖像進行比較。四種客觀評價指標分別為：歸一化互信息熵(QMI)、基于梯度信息的評價指標(QG)、基于結構相似性的評價指標(QY)和基于人類感知的指標(QCB)。其中QMI表示融合圖像與源圖像之間的互信息量，QG可以衡量融合圖像對源圖像空間細節的保留程度，QY表示融合圖像中保留的結構信息量，QCB表示人類視覺系統的感知評價。

使用不同算法對20對測試圖像進行圖像融合實驗，得到的相應評價指標如表2所示。觀察發現本文算法在歸一化互信息熵、基于梯度信息的評價指標、以及在基于結構相似性的評價指標上均優于其它幾種算法。綜上可得，本文算法得到的融合結果能夠攜帶更多源圖中的有效信息，保留更多的源圖像細節信息與邊緣信息，在視覺上與評價指標上都取得了較好的效果。

表1 不同算法在20對測試圖像上的平均評價指標

4 結束語

本文提出了一種基于編解碼網絡的多聚焦圖像融合方法。首先，利用現有公開數據集生成具有精確標注的多聚焦圖像模擬數據集；然后在編解碼網絡設計像素矯正模塊與損失函數，該網絡以一對源圖像作為輸入，輸出源圖像對中的聚焦信息精確得分圖；最后，根據聚焦信息得分圖，將所有聚焦區域進行融合，構成融合圖像。理論分析和實驗結果表明，本文算法在主觀視覺效果與客觀評價指標上皆獲得較好效果，能夠保留更多的源圖像有效信息，在融合圖像的細節、輪廓處更令人滿意。