楊家俊, 陳 昕, 丁祝順
(1.超精密航天控制儀器技術實驗室,北京100039;2.北京航天控制儀器研究所,北京100039)
圖像融合是指從多源信道獲得多幅關于同一對象或區域的圖像數據,并從中最佳地提取各個信道中重要的互補信息,最終得到一幅融合了各個信道重要信息的高質量圖像[1]。其目標是輸出全面綜合了各個輸入圖像信息的單一圖像,以便于人的感知或后續的機器分析、理解及決策。依據數據來源的不同,可將圖像融合系統分為兩類,一類的源圖像來源于光學參數可變的同一傳感器,例如多聚焦圖像融合系統;另一類的源圖像來源于不同類型的圖像傳感器,典型場景包括可見光-紅外圖像及多模醫學圖像融合系統。圖像融合技術已經逐步成為大多數圖像信息處理系統實現數據預處理的關鍵模塊,被廣泛應用于各種實際場景中,如機器視覺、安防監控、醫學圖像分析、遙感圖像解譯、軍事目標識別與跟蹤等[2-5]。
早期的圖像融合算法以加權平均法、邏輯濾波法及數學形態法為代表,還包括了IHS變換[6-7]、PCA 變換[8]、 多尺度變換[9]等。 近年來, 許多新的圖像融合方法已被提出。2017年,Zhu等[10]提出的多模圖像融合方法將源圖像進行了分解,并基于稀疏表示方法融合了高頻成分,使用形態學方法融合了低頻成分。2018年,Tang等[11]提出了一種像素級卷積神經網絡(p-CNN),通過鄰域信息識別聚焦和散焦像素,以進行多聚焦圖像融合。2019年,Farid等[12]提出了一種多聚焦圖像融合方法,使用內容自適應模糊算法(CAB)檢測聚焦區域。2019年,Ma等[13]提出了一種基于生成對抗網絡的圖像融合方法FusionGAN,用于可見光及紅外圖像的融合。Yang等[14]首次將稀疏表示理論引入了圖像融合領域,他們的實驗結果表明,基于稀疏表示(Sparse Representation,SR)理論的圖像融合方法相較于傳統的基于多尺度變換(MST)理論的方法具有非常明顯的優勢。通過對原始的圖像信號執行對應于某個空間基的稀疏分解,稀疏表示(SR)理論提供了使用較少數據表達圖像核心信息的能力。這符合信號的自然稀疏特性,也符合人類視覺系統的生理特點,為視覺信息的底層感知與復原、高層理解和識別提供了有效的支撐。
采用加權平均法、邏輯濾波法及數學形態法等技術直接對圖像像素進行處理,難以利用圖像中較高層次的視覺特征信息,融合圖像質量較差。傳統的IHS變換、PCA變換、多尺度變換分析等變換域方法只著眼于特定的視覺特征信息或只適用于特定的圖像融合場景,融合圖像質量不及稀疏域變換方法。神經網絡方法依賴訓練數據和硬件算力,模型解釋性較差,應對新樣本的能力較差?,F有的基于稀疏表示的圖像融合算法只考慮對稀疏域的稀疏系數向量所包含的信息進一步發掘和利用,而不考慮使用來自字典的信息進一步提升融合圖像的質量。本文使用原子向量的l1范數構造信息量權向量,通過將字典原子的信息引入稀疏系數向量的融合過程,提升了融合圖像的質量。
根據稀疏表示(SR)理論,假設原始信號可以表達為一個向量x∈Rn,存在一個超完備字典矩陣D∈Rn×m(n<m),則原始信號x可以通過字典D的少量列的線性組合近似表達為x≈Dα,α∈Rm是未知的稀疏系數向量。如圖1所示,圖中紅框的線寬對應于稀疏系數向量α中元素的大小。由于字典D是超完備的,該欠定線性系統有無窮多的可行解。稀疏表示的目標是尋找具有最小零階范數的α,該稀疏編碼過程通常由正交匹配追蹤(Orthogonal Matching Pursuit,OMP)[15]算法實現。

圖1 稀疏表示理論的示意圖Fig.1 Diagram of sparse representation theory
假設源圖像為IA、IB, 則基于稀疏表示的圖像融合算法[14,16]的執行流程如下:
傳統的基于稀疏表示理論的圖像融合算法將超完備字典的每一列稱為一個原子,字典原子被用作完成圖像信號稀疏分解及重構的基本信號元。通過稀疏編碼過程將源圖像信號分解為字典原子的稀疏線性組合,將相應的圖像融合算法視為原子線性組合的系數,即稀疏系數向量的一階范數為輸入圖像信號包含信息量大小的度量標準,據此選擇作為圖像融合結果的稀疏系數向量。
通過分析稀疏編碼過程使用的超完備字典的構建原理,字典的每一個原子列所包含的信息量必然存在差異?,F有的相關研究文獻通常側重于考慮對稀疏域的系數向量所包含的信息量進一步發掘和利用,而較少考慮字典原子的信息量差異。本文以圖像融合系統為應用場景,探究對稀疏字典原子信息特性的進一步發掘和利用。通過對稀疏域信號引入來自超完備字典的約束,將稀疏系數元素及其對應的字典原子綜合考慮,并將其作為稀疏系數向量的融合依據。該操作可以降低融合圖像塊的選擇錯誤率,提升融合圖像的質量。
假設用于稀疏編碼的超完備字典為D,字典尺寸為“H×W”,源圖像塊對應的稀疏系數向量分別為ωA和ωB,稀疏系數向量的融合結果為ωF。以SR算法為基礎,AWSR算法原子加權部分的執行流程如下:
(1)字典規范化
為了消除原子能量對其信息量計算的干擾,使用相應的均值對原子進行規范化。將字典D的每一個原子的元素除以該原子的l2范數,得到規范化字典Dn

本文實驗使用K-SVD算法在規范化圖像數據庫上學習到的字典已經具有規范化原子。
(2)信息量度量
以規范化字典中每一個原子的l1范數作為其對于融合圖像信息量大小的貢獻程度度量,計算規范化字典Dn中每一個原子的一階范數,得到度量原子信息量的行向量VI

(3)構造權向量
調整不同原子稀疏系數比重的權重值,將整個字典所有原子的總信息量規范化為1。計算信息量行向量VI的每一個元素與元素和的比值,并將其作為對應原子的稀疏系數加權值,得到稀疏系數權向量Vw

(4)計算原子加權融合系數
分別計算兩個源圖像塊對應的稀疏系數向量ωA、ωB的絕對值與系數權向量Vw的內積,得到原子加權融合系數wA和wB

(5)加權稀疏系數向量融合
融合稀疏系數向量,選擇原子加權融合系數較大值對應的稀疏系數向量作為融合稀疏系數向量

將以上原子加權算法引入傳統的基于稀疏表示的圖像融合框架,即得到了基于原子加權稀疏表示(Atom-weighted Sparse Representation,AWSR)的圖像融合算法。圖2為完整的AWSR圖像融合算法的流程框圖。此外,該圖像融合框架也可以很容易地擴展到融合兩幅及以上源圖像的情況。

圖2 基于原子加權稀疏表示(AWSR)的圖像融合算法流程框圖Fig.2 Block diagram of image fusion algorithm based on AWSR
由于通常并不存在可以用來和融合圖像進行對比從而評價其融合質量的標準圖像,很難簡單地對融合圖像的質量進行準確評價。通常設置一組具有不同評價取向偏好的客觀指標進行實驗,通過其綜合表現評價融合算法的性能[17]。本文選取了六種常用的融合圖像質量客觀評價指標對原子加權稀疏表示(AWSR)圖像融合算法進行評價。假設系統輸入的源圖像為A、B,輸出的融合圖像為F,圖像尺寸為H×W。
(1)標準偏差(Standard Deviation,SD)
圖像標準偏差SD的定義為

式(6)中,μ為圖像F的均值。標準偏差主要用來度量融合圖像的對比度。
(2)基于梯度的融合度量 (QG)
基于圖像特征的評價指標QG由 Xydeas和Petrovic[18]提出,QG的計算公式為

式(7)中,QAF和QBF為邊緣強度和方向的保留值,ωA、ωB為其顯著性。評價指標QG主要用來度量梯度信息由輸入圖像到輸出圖像的保存情況。
(3)基于相位一致性的融合度量(QP)
評價指標QP由 Zhao等[19]提出,QP的計算公式為

式(8)中,p、M、m依次為相位的一致性、最大矩和最小矩,實驗取α=β=γ=1。評價指標QP主要用來度量輸入圖像的邊緣、角點等核心特征保存到輸出圖像的情況。
(4)基于通用圖像質量評價指標(UIQI)的融合度量 (QW)
基于圖像結構相似性的評價指標QW由Piella和 Heijmans[20]提出,QW的計算公式為

式(9)中,w為滑動窗口,和Q0(B,F|w)來自 UIQI評價指標[21],λ(w)為由方差計算的顯著性加權系數,c(w)為歸一化特征值。評價指標QW主要用來度量從輸入圖像到輸出圖像的類似人眼視覺的失真情況,包括相關系數、亮度以及對比度。
(5)歸一化互信息(Mutual Information,MI)融合度量 (QMI)
基于信息論的評價指標QMI由 Hossny等[22]提出, 該指標增強了互信息(MI)評價指標[23]的穩定性。QMI的計算公式為

式(10)中,H(·)為圖像的熵,MI(A,F)和MI(B,F)為互信息(MI)。 評價指標QMI主要用來度量輸出圖像保留輸入圖像信息的情況。
(6)基于空間頻率(Spatial Frequency)的融合度量 (QSF)
評價指標QSF由 Zheng等[24]提出,QSF的計算公式為

式(11)中,SFF為融合圖像由行方向、列方向、主對角線方向和副對角線方向一階梯度計算的空間頻率。參考空間頻率,SFR由源圖像的四個參考梯度計算

式(12)中,D代表四個方向。評價指標QSF主要用來度量輸出圖像保持輸入圖像空間頻率的情況。
為了構建具有廣泛適應能力、可以在任何特定場景及系統參數設定下使用的通用圖像融合系統,字典訓練使用的圖像數據庫由不同場景下的高品質自然圖像集隨機采樣獲得。為了消除圖像能量對稀疏字典信息編碼能力的影響,所有圖像向量的均值在字典訓練前均被設置為0。使用基于學習的K-SVD[25]算法獲得的字典中每個原子的均值也為0,即字典原子中只包含圖像的結構信息。輸入圖像塊的均值在稀疏編碼前也被設置為0。為了提升算法的穩定性及執行效率,稀疏編碼過程只作用于局部的圖像塊。為了提高算法對噪聲及誤匹配的魯棒性,使用滑動窗口技術對圖像進行層疊分塊。
圖3為在圖像融合實驗中使用的數據集[26]。為了充分評價原子加權稀疏表示(AWSR)理論在不同類型使用場景中的綜合性能表現,實驗選取了三種常見的圖像融合系統應用場景下的典型圖像作為測試數據集,包括多聚焦圖像(圖3(a))、可見光-紅外圖像(圖 3(b))及多模醫學圖像(圖 3(c), 由計算機斷層掃描CT圖像和磁共振MR圖像組成)。實驗使用的圖像塊分解尺寸為8×8,將滑動窗移動步長設置為2,稀疏字典尺寸為64×256。分別使用傳統的基于稀疏表示(SR)的圖像融合算法和基于原子加權稀疏表示(AWSR)的圖像融合算法對測試集源圖像進行融合,并評價其融合圖像質量。

圖3 算法測試數據集Fig.3 Diagram of algorithm test data set
(1)融合圖像質量主觀評價
圖4為原子加權稀疏表示(AWSR)圖像融合算法融合實驗的部分輸出圖像。

圖4 原子加權稀疏表示(AWSR)圖像融合算法的融合結果示例圖Fig.4 Fusion results of AWSR image fusion algorithm
其中,圖4(a)為兩次多聚焦圖像融合,左側為前景對焦圖像,中間為遠景對焦圖像,右側為融合圖像。由于圖像采集設備景深的硬件限制,只能通過調節設備的光學參數使得視場范圍內的有限區域成像清晰。通過對多幅不同焦距的圖像進行融合,可以獲得整幅畫面清晰的理想圖像。由圖4可以看到,圖4(a)右側的融合圖像(不論是遠處書架上的書籍、墻壁和綠植,還是畫面近處的鬧鐘及花朵)紋理清晰、細節豐富。融合圖像幾乎完美保留了兩幅源圖像中所有的有效信息。
圖4(b)為兩次可見光-紅外圖像融合,左側為可見光圖像,中間為紅外圖像,右側為融合圖像。由于圖像傳感器所敏感的電磁波譜的波段不同,可見光和紅外傳感器采集的圖像數據具有極強的互補性。可見光圖像包含場景的色彩、細節信息,而紅外圖像可感知場景的溫度分布信息。圖4(b)上方的融合圖像恰當地融合了可見光圖像中的廣告牌、路面燈柱及紅外圖像中的車輛、行人信息。圖4(b)下方的融合圖像既保留了可見光圖像中大面積的植被紋理信息,又保留了在紅外圖像中顯著但在可見光圖像中幾乎無法被辨識的行人信息。融合圖像大幅增強了單一圖像的信息量及畫面表現力,可以有效提升后續圖像分析與任務理解的可靠性。
圖4(c)為兩次多模醫學圖像融合,左側為計算機斷層掃描CT圖像,中間為核磁共振MR圖像,右側為融合圖像。單一模態的醫學圖像只能有效描述特定人體組織的橫斷面信息,CT圖像主要可反映骨骼組織的解剖結構,而MR圖像能清晰地反映人體軟組織和器官的解剖結構。圖4(c)右側的融合圖像既保留了CT圖像腦部四周高亮的骨骼結構信息,也保留了MR圖像中大腦內部的軟組織及器官信息。通過恰當地融合具有互補特性的多模態醫學數據,信息更加完備的融合圖像可以有效提升臨床疾病診斷的效率和準確性。
(2)算法執行效率
對圖像融合程序處理所有26組源圖像的平均運行時間進行統計,基于稀疏表示(SR)的圖像融合算法的耗時為13.0648s,基于原子加權稀疏表示(AWSR)的圖像融合算法的耗時為13.2964s,增加比率為1.7732%。相比傳統的基于稀疏表示(SR)的圖像融合算法,原子加權稀疏表示(AWSR)算法需要在進行稀疏編碼之后為稀疏系數向量引入來自字典原子的權重信息,這導致了算法的復雜度有所增加。由實驗結果可知,圖像融合程序的執行耗時只增加了約1.77%,增幅很小。因此,使用AWSR框架相較于傳統的稀疏表示方法并不會造成計算資源需求的明顯增加。
(3)融合圖像質量客觀評價
在實驗中,對26組源圖像分別使用傳統的稀疏表示(SR)算法及原子加權稀疏表示(AWSR)算法進行融合,使用六種常用的融合圖像質量客觀評價指標對融合結果進行評價。表1為基于SR和AWSR算法融合圖像的客觀質量評價得分。評價指標SD、QG、QP、QW、QMI的數值越大,圖像質量越高。經絕對值處理后,評價指標QSF數值越小,圖像質量越高。

表1 基于SR及AWSR算法的圖像融合質量客觀評價Table 1 Objective evaluation of image fusion quality based on SR and AWSR algorithms
由表1可知,所提出的原子加權稀疏表示(AWSR)圖像融合算法在所有六種常用的具有不同評價取向偏好的融合圖像質量客觀評價指標下的得分均優于基于傳統稀疏表示(SR)的圖像融合算法。實驗結果驗證了挖掘超完備字典原子的信息表達特性、使用原子信息量對稀疏系數向量進行加權的基于稀疏表示的圖像融合算法的有效性,使用AWSR融合策略使得基于稀疏表示理論的圖像融合質量得到了全面、可靠的提升。在所有六種客觀評價指標中,基于空間頻率的融合度量QSF的評價得分提升幅度最大,這表明AWSR算法獲得的融合圖像更好地保持了源圖像的空間頻率,相對源圖像的失真更小?;谙辔灰恢滦缘娜诤隙攘縌P的提升幅度次之,表明AWSR算法獲得的融合圖像保留了更多的邊緣、角點等源圖像核心特征,提升了融合圖像的信息量和表現力。
(4)算法魯棒性評價
融合性能評價實驗使用的來自標準數據集的測試圖像通常都具有較高的成像質量,但在實際工作環境下采集到的圖像普遍會在圖像采集及數據傳輸過程中受到噪聲的干擾。為了進一步評價原子加權稀疏表示(AWSR)圖像融合算法的魯棒性,對測試圖像集添加不同標準差的零均值加性Gauss白噪聲,以測試AWSR算法在不同噪聲水平下的融合圖像質量。以基于傳統稀疏表示(SR)的圖像融合算法為基準,圖5展示了原子加權稀疏表示(AWSR)圖像融合算法在不同噪聲水平下的融合圖像質量。曲線橫坐標為零均值Gauss白噪聲的標準差σ,縱坐標為基于AWSR及SR算法的融合圖像質量得分,評價指標QSF經絕對值處理后越小,圖像質量越高。


圖5 基于AWSR的圖像融合算法在不同噪聲水平下的融合圖像質量評價Fig.5 Fusion image quality evaluation of AWSR image fusion algorithm under different noise levels
由圖5可知,六種客觀評價指標在不同的噪聲水平下絕大部分都保持了對傳統稀疏表示(SR)圖像融合算法的性能提升,這表明原子加權稀疏表示(AWSR)圖像融合算法對噪聲具有較好的魯棒性。
(5)原子加權最優參數分析
圖6展示了原子加權稀疏表示(AWSR)圖像融合算法在不同加權水平下的融合圖像質量的變化趨勢,評價指標QSF的數值越小,融合圖像的質量越好。曲線橫坐標為加權比重p,將原始AWSR框架的稀疏系數權向量Vw做進一步修正

式(13)中,W為字典的寬度。當p=1時,代表原子加權稀疏表示(AWSR)圖像融合算法。當p=0時,代表傳統的基于稀疏表示(SR)圖像融合算法。曲線縱坐標為基于AWSR及SR圖像融合算法的評價得分,評價指標QSF越小,表示圖像的質量越高。
由圖6可知,幾乎所有的評價指標曲線隨著加權比重的增加均呈現先增后減的趨勢。其中,標準偏差SD指標曲線的波動較大,這主要是由于標準偏差只度量融合圖像的對比度,計算簡單,但可靠性較差。六種融合圖像質量客觀指標的最優值范圍集中在加權比重值p處于0.55到0.85之間,AWSR圖像融合算法的最優加權比重參數值在0.7左右。此外,在圖6中,AWSR算法的六種評價指標曲線基本都處于SR算法曲線的上方,這進一步驗證了將原子加權策略應用于稀疏表示理論的有效性。

圖6 基于AWSR的圖像融合算法在不同加權水平下的融合圖像質量評價Fig.6 Fusion image quality evaluation of AWSR image fusion algorithm under different weighting levels
(6)光電吊艙圖像融合實驗
為了進一步驗證算法的可行性及有效性,采用真實場景圖像數據進行融合實驗。圖7為將基于原子加權稀疏表示(AWSR)圖像融合算法應用于由光電吊艙采集的真實場景的可見光及紅外圖像數據。其中,圖7(a)為可見光圖像, 圖7(b)為紅外圖像,圖7(c)為使用 AWSR算法進行融合的圖像。

圖7 基于AWSR的圖像融合算法應用于真實光電吊艙的多源圖像融合Fig.7 Fusion of multi-source images from real optoelectronic pod based-on AWSR image fusion algorithm
由圖7可知,融合圖像既保留了可見光圖像豐富的紋理、細節信息,又保留了如近處可見光圖像過曝的墻面細節等紅外圖像提供的信息,綜合了可見光和紅外圖像的表達優勢,增強了圖像的信息表現力,提高了光電吊艙的輸出圖像質量。
本文提出了一種使用超完備字典的原子對稀疏編碼后的稀疏系數向量進行加權改進的基于稀疏表示(AWSR)的圖像融合算法。通過挖掘超完備字典中原子所包含的信息量差異構造權向量,提高了稀疏系數向量的融合質量。使用六種融合圖像質量客觀度量指標進行評價,針對多聚焦圖像、可見光-紅外圖像及多模醫學圖像的實驗結果表明,新的圖像融合算法對源圖像的空間頻率及核心特征的保護更好、失真更小,提升了融合圖像的質量。相較于傳統的基于稀疏表示(SR)圖像融合算法,實現了全面、可靠的性能提升。
在實驗結果中,各項客觀質量評價指標的提升幅度較小,但面對多種圖像融合場景,所有具有不同評價偏好的客觀指標均得到了全面的提升,這表明了該研究方向及結果是有效且可靠的,后續研究可以探索對字典原子信息特性更加合理、有效的挖掘和利用方式。同時,本文提出的稀疏表示(SR)算法的提升策略是普適性的,不僅可被應用于圖像融合系統,還可以很容易地被拓展到圖像去噪、壓縮、增強及目標識別等研究框架或非圖像信號處理系統中。