齊 濟,楊海濤,孔 卓
(1.航天工程大學 研究生院, 北京 101400; 2.航天工程大學 航天信息學院, 北京 101400)
高光譜圖像的波段數通常具有數百個甚至更多,相對于多光譜圖像而言,光譜特征豐富,可用于軍事監測、農業、地理信息監測和天氣預報等多個遙感領域[1]。在應用遙感圖像時,通常需要高空間分辨率的高光譜圖像,但并不能被單源傳感器直接獲得。在空間域和光譜域上,低空間分辨率高光譜圖像與高空間分辨率多光譜圖像具有一定的互補性[2],將兩者用圖像融合的技術結合,在很大程度上,能提升高光譜圖像的空間分辨率,提高其實際應用價值[3]。
近年來,在高光譜和多光譜圖像融合領域,傳統方法和深度學習的方法被廣泛應用。Shen等[4]提出了一種二次優化網絡,并結合了矩陣分解進行圖像優化,是將傳統方法和深度學習方法作了結合。Hu等[5]設計了一種基于變壓器的網絡,用于融合低分辨率高光譜圖像和高分辨率多光譜圖像。Qu等[6]為了實現高光譜圖像超分辨率,提出了一個無監督的稀疏Dirichler-Net框架。Wang等[7]進行多光譜和高光譜圖像融合時應用深度注意力網絡,可以將高光譜圖像的細節信息更好地提取。Liu等[8]提出了一種雙分支卷積神經網絡(ResTFNET)來解決多光譜圖像的泛銳化問題,本文中參考這一泛銳化的方法,并引申到高光譜的圖像融合研究中。Han等[9]為了將高光譜圖像的超分辨率問題解決,提出了一種深度卷積神經網絡(ConSSFCNN)。Yuan等[10]基于深度CNN,引入多尺度特征提取(MSDCNN)進行遙感圖像的處理。Zhang等[11]提出了一種基于CNN的空間光譜信息重構網絡(SSR-NET),以提高融合高光譜圖像的空間分辨率。此網絡的損失函數可以很好地計算到空間邊緣以及光譜邊緣的信息,但是由于高光譜圖像進行上采樣的操作有一定的不精確性,相對于多光譜圖像而言,這樣處理后的高光譜圖像的很多高頻邊緣紋理會丟失,直接的跨通道融合會產生結構性的問題[12]。
本文中結合文獻[8,11]提出一種新的卷積神經網絡結構。首先,將SSR-NET的第一步跨通道串聯圖像的像素級插值算法部分替換成文獻[8]的雙分支卷積神經網絡結構,用深度學習的方法代替矩陣間計算的方法進行特征提取,可提取到細節更豐富的圖像;然后,對提取到的特征進行融合;其次,通過圖像重建網絡,提取第二步融合圖像中的高空間分辨率的高光譜圖像;最后再對其進行空間邊緣和光譜邊緣的重構,得到最終的高空間分辨率的高光譜圖像。
預處理工作包含下采樣、插值、濾波、整形、降維等步驟。融合圖像的質量評估通常采用Wald的協議[13-14]。本文中的研究重點是低分辨率的高光譜圖像與高分辨率的多光譜圖像之間的融合,實驗所用數據集采用目前已公開的數據集:Botswana和Indian Pines(IP)。Botswana數據集總共有波段數242個,在將未校準和有噪聲的吸水特征波段去除后,保留剩余的145個波段,每個波段的圖像為1 476×256像素,空間分辨率為30 m。IP數據集有波段數224個。在將覆蓋水吸收區域的波段去除后,還剩下220個波段,每個波段的圖像為145×145像素[15]。
參考的高光譜圖像為原始的高光譜圖像數據集,經實驗估計的高光譜圖像表示為Z∈RH×W×L,H和W表示高和寬的尺寸,L表示光譜帶的數量。輸入的高光譜圖像表示為X∈Rh×w×L,多光譜圖像表示為Y∈RH×W×l。X和Y通過文獻[11]采用的方法在空間和光譜模式下進行下采樣。
X=Gaussian(Z)
(1)
X=Bilinear(X,1/r)
(2)
Y(k)=Z(sk),k∈{1,…,l}
(3)
sk=(k-1)*L/(l-1),sk∈{s1,…,sl}
(4)
其中,X通過Z經高斯濾波器進行預先模糊后以r的比率進行下采樣得到。Y以相等的波段間隔從Z采樣,Y(k)表示Y的第k個波段。s1,…,sl表示高光譜圖像中光譜取樣的編號。
本文中采用的4個客觀評價指標分別為:均方根誤差(root-mean-squared error,RMSE)、峰值信噪比(peak signal-to-noise ratio,PSNR)、相對無量綱全局誤差(erreur relative globaleadimensionnelle de synthèse,ERGAS)以及光譜角映射(spectral angle mapper,SAM)。
本文中采用的空間邊緣損失函數和光譜邊緣損失函數均采用文獻[11]提出的損失函數。
2.3.1空間邊緣損失
由于卷積神經網絡的黑盒特性,學習特征映射是不可控的。眾所周知,圖像的空間邊緣含有高頻特征,這對于空間重建至關重要。為了使空間重構網絡聚焦于空間信息的恢復,應用基于空間邊緣的空間邊緣損失算法。
用lspat表示,其公式為:
(5)
(6)
lspat=0.5*lspat1+0.5*lspat2
(7)

2.3.2光譜邊緣損失
在空間重構后,利用一個與空間重構相同結構的卷積層進一步重構光譜信息。類似于空間邊緣,頻帶的頻譜邊緣包含了對頻譜重建至關重要的高頻信息。為了著重于光譜信息的恢復,應用基于光譜邊緣的空間邊緣損失算法。
用lspec表示,其公式如下:
Espec(i,j,k)=Zspec(i,j,k+1)-Zspec(i,j,k)
(8)
(9)
(10)

對于最終估計的高光譜圖像Zfus,它的損失函數為:
(11)
最終總損失函數l為:
l=lspat+lspec+lfus
(12)
深度學習方法的網絡可以對多光譜圖像中的空間信息和高光譜圖像中的光譜信息綜合利用,在物理上直觀地獲得了最佳的融合質量。神經網絡的結構對CNN的性能發揮起著至關重要的作用。
LIM等[16]提出:由于不同于其他圖像處理任務,進行圖像融合時,批量歸一化層(batch normal,BN)會破壞數字圖像的對比度等信息,改變圖像的色彩分布特征。因此在本文中去掉雙分支卷積神經網絡中殘差單元的BN層,同時為了使融合后輸入分量不變,本文中還將雙分支卷積神經網絡中的所有PRelu層刪除。
模型總體結構如圖1所示。輸入的高光譜圖像和多光譜圖像在經歷雙分支卷積神經網絡提取特征后進行特征融合以及圖像重建得到初步的高分辨率高光譜圖像Zpre,之后將其空間信息和光譜信息進行重構,得到最后的高分辨率高光譜圖像。

圖1 模型總體結構示意圖
3.1.1特征提取融合網絡
在開始階段,我們使用2個分支分別從HSI和MSI中提取特征信息。2個分支結構相似,每個分支由3層卷積和一層下采樣組成。大部分CNN結構使用最大或平均池來獲得尺度和旋轉不變特征,但細節信息的提取更為重要,本文中采用步長為2的卷積核進行圖像的下采樣,而不是用簡單的池化操作實現。CNN結構中,殘差塊的改進如圖2和圖3所示。

在經歷特征提取步驟后,我們得到了高光譜圖像和多光譜圖像的特征圖,介于目標高光譜圖像要具有高空間以及高光譜分辨率,光譜信息和空間信息必須被特征同時捕捉到,基于此,將2個特征圖拼接到一起。融合網絡結構由4層卷積、一層下采樣和一層上采樣構成,它融合了2個輸入圖像的空間和光譜信息,通過CNN網絡將級聯的特征映射編碼成更緊湊的表示,特征提取融合部分的網絡結構如圖4所示。其中,CONV表示卷積層,Down-conv表示下采樣卷積層;Fusion表示將從輸入圖像提取到的特征進行融合。其中,Up-Conv表示上采樣卷積層,殘差網絡使用圖2所示的改進的網絡結構。

圖4 特征提取融合網絡結構示意圖
3.1.2圖像重建網絡
圖像重建網絡是在前面已融合的特征中重建所需要的高空間分辨率的高光譜圖像,圖像的空間分辨率應采用逐步上采樣的步驟以防止高頻信息的丟失,重建得到的圖像記為Zpre。特征提取網絡和特征融合網絡的作用相當于編碼過程,而圖像重建網絡相當于解碼的過程,從高層特征中恢復細節紋理是困難的,因為高層特征映射對圖像的語義和抽象信息進行了編碼。為了恢復精細和真實的細節,將所有層次的特征表示出來,仍采用圖2所示的改進殘差網絡結構,以加強模型訓練的穩定性以及恢復更多的細節信息。具體結構如圖5所示。

圖5 圖像重建網絡結構示意圖
在經過前一節的3個步驟處理后,為了從Zpre中重構空間信息,采用兩層卷積核為3×3的網絡結構,表示為:
Zspat=Zpre+Convspat(Zpre)
(17)
式中:Convspat表示卷積層。跳過連接(skip-connection)操作用于在訓練階段提高模型的穩定性。
在空間重構后,仍使用與空間信息結構相同的卷積層作為光譜信息重構的計算。其表述如下:
Zspec=Zspat+Convspec(Zspat)
(18)
式中:Convspec(Zspat)表示卷積層,也用到了跳過連接操作。網絡結構如圖6所示。

圖6 空間、光譜邊緣信息重構網絡結構示意圖
如表1所示,匯總了在前面所述的各個階段中,Bostwana數據集的網絡卷積層數量、卷積核大小、步長以及輸入和輸出的維度大小。

表1 Bostwana數據集中各個階段的網絡卷積層數量、卷積核大小、步長以及輸入和輸出的維度大小
對于Bostwana數據集,在每次迭代中,將中心128×128子區域裁剪,作為實驗的測試圖像,其余區域用于訓練。在每次迭代中,從訓練區域隨機裁剪具有相同空間分辨率128×128的訓練圖像。訓練和測試區域是不重疊的,這是通過在訓練階段用數據集中的零填充測試區域來實現的,對于IP數據集,因其受限的空間分辨率,在每次迭代中,將中心64×64子區域裁剪,作為實驗的測試圖像,其余區域作為訓練圖像。在每次迭代中,從訓練區域隨機裁剪具有相同空間分辨率64×64的訓練圖像,具體做法如圖7所示。選擇ConSSFCNN和MSDCNN以及SSR-NET三種深度學習方法作為比較方法來評估所提出方法的性能訓練階段迭代輪數為10 000,學習率為0.000 1,優化器為Adam優化器。本文中所有基于深度學習的實驗都是在Python 3.9上用Pytorch 1.9.0實現的,計算機硬件設備參數為GeForce RTX 3090,主頻為4.0 GHz,內存為64 GB。

圖7 數據集處理
在Bostwana數據集中,像素的空間分辨率高達30 m,因此,其空間信息比其他數據集更復雜,具有更高的特征提取要求。本文中提出的CNN模型可以在初始階段更好的提取圖像的高頻信息,有利于提取非線性深度特征以及空間重建。圖8和圖9中第一行所列的圖像表示不同方法的融合結果,第二行表示融合結果與參考圖像之間的差異。

圖8 不同方法在Bostwana數據集上的融合結果圖

圖9 不同方法在IP數據集上的融合結果圖
由圖8(e)可知,本文中提出算法的融合結果和參考圖像相比差異更小,融合性能更好;由圖8(b)可知,ConSSFCNN算法的效果并不理想,圖像細節信息丟失嚴重;由圖8(c)可知,MSDCNN算法融合結果和SSR-NET較為接近,但其對比度較差,部分紋理細節丟失。綜上所述,本文中提出的融合模型融合效果最佳。
由圖9(b)和圖9(c)可知,在IP數據集中,ConSSFCNN模型和MSDCNN模型融合結果分辨率仍較差,圖像細節信息丟失嚴重,圖像邊緣不清晰,場景信息模糊,且和參考圖像相比差異較大;由圖9(d)和圖9(e)可知,雖然提出的方法在與參考圖像對比度方面較SSR-NET模型差,但是SSR-NET模型融合結果圖像整體偏暗,含有較差的對比度,本文中提出的方法得到的融合圖像中,提取了相對完整的目標,含有清晰的圖像紋理、適中的亮度以及較高的對比度,整體融合效果更好,更符合人類視覺的感知。因此,本文中提出的方法更適合。
圖10和圖11根據2.2節所述的4項評價指標來對比本文中所提方法和其他方法的融合情況,其中圖10采用的是數據集Bostwana,圖11采用的是數據集IP。在四種客觀評價指標中,PSNR是正向指標,數值越大說明失真越少圖像越清晰,而其他3個指標RMSE值越小說明離散程度越好、ERGAS值越小表明融合質量越高、SAM值越小表示光譜失真越少,性能越好。

圖10 不同方法在Bostwana數據集上的結果曲線

圖11 不同方法在IP數據集上的結果曲線
由圖10可知本文中提出的方法的PSNR和RMSE指標遠高于其他3種算法,融合性能更好;在ERGAS和SAM指標方面,本文中提出的方法較其他3種算法相比,有著略微的優勢。由圖11可知,本文中提出的方法模型在PSNR、RMSE以及ERGAS評價指標中具有明顯的性能優勢,SAM指標則具有微弱的性能優勢。
表2和表3所列的是在2種數據集上,不同方法評價指標的最優值。由表2可知,對于Bostwana數據集,本文中提出的方法在PSNR指標上,比SSR-NET以及MSDCNN方法高出3.5左右,比ConSSFCNN方法高出9左右,其性能在PSNR方面具有非常大的優勢;本文中提出的方法在RMSE指標上,和其他3種方法相比,優勢不明顯,但也有略微提升;在ERGAS指標上,本文中提出的方法較ConSSFCNN而言,大約提升了13,具有良好的性能優勢,和SSR-NET以及MSDCNN方法相比也是有一定的提升;在SAM指標方面,本文中方法較其他3種方法均有一定的提升。

表2 不同方法在Bostwana數據集上的最優值(最優值用粗體標出)Table 2 Optimal values of different methods on the Bostwanadataset(Optimal values are marked in bold)

表3 不同方法在IP數據集上的最優值(最優值用粗體標出)Table 3 Optimal values of different methods on the IP dataset(Optimal values are marked in bold)
由表3可知,在IP數據集上,本文中提出的方法在PSNR指標方面,比SSR-NET提升了1左右,比MSDCNN提升了2左右,比ConSSFCNN提升了4左右;在RMSE指標方面,較SSR-NET而言,提升僅有0.2左右,較MSDCNN提升了1.4左右,較ConSSFCNN提升了2.3左右;在ERGAS方面,本文中方法較SSR-NET和ConSSFCNN而言提升較大,但稍落后于MSDCNN方法,原因是因為ERGAS度量的是全局誤差,而本文中改進的方法繼續采用了SSR-NET的損失函數,此損失函數計算空間、光譜的邊緣特征,忽略了全局特征;在SAM指標方面,本文中提出的方法均具有不同程度的性能提升。
提出一種基于CNN的高光譜和多光譜圖像融合方法。將初始圖像信息整合從圖像域轉化到特征域,可以更好地對圖像高頻信息進行提取,防止丟失細節信息;在進行空間信息和光譜信息重構時,將卷積層增加至四層,圖像的更深層次特征可以由更深層次的網絡結構提取到,具有更多的非線性特征,增強了網絡的判別能力。并沒有采用更深層的網絡,避免了過深的網絡產生的過擬合。實驗結果表明,本文中提出的方法較SSR-NET、MSDCNN、ConSSFCNN等方法而言,具有更優越的性能。后續將進一步對圖像融合耗時和模型結構等問題進行改進,以將更好的圖像融合效果所達到。