史夢陽, 張 弦, 王 麗, 施君南, 高葉盛
(1.上海交通大學電子工程系, 上海 200240;2.上海無線電設備研究所, 上海 201109;3.中國人民解放軍96962部隊, 北京 102206)
光學遙感圖像處理中,目標檢測一直是一個具有挑戰性的課題。由于遙感的目標圖像通常分辨率較低,并且伴隨不同程度的降質,導致獲得的目標特征不清晰,給目標檢測帶來難度。提升目標識別算法或處理硬件的性能都可以得到較高質量的圖像。但是硬件性能的提升通常需要很高的成本,因此針對圖像恢復的超分辨算法有著更廣闊的應用前景。圖像超分辨算法通常分為多張圖像超分辨算法和單張圖像超分辨算法,由于單張圖像超分辨算法更為方便和直接,因此應用更為廣泛。
單張圖像超分辨算法主要包括3種,分別為基于插值的超分辨算法、基于優化的超分辨算法和基于學習的超分辨算法。
基于插值的超分辨算法[1-2]包括最近鄰插值、雙線性插值、三次插值以及各種基于插值的改進超分辨算法。基于插值的超分辨算法具有重建速度快的優點,但是重建效果有限,不能很好地恢復圖像的細節信息。
基于優化的超分辨算法重點研究從高分辨率圖像到低分辨率圖像的退化過程。LI等[3]提出了一種基于通用隱馬爾可夫樹(hiding Markov tree,HMT)模型的遙感圖像超分辨的最大后驗概率方法。HMT 理論用于建立一個先驗模型,以便從一系列模糊、下采樣和噪聲污染的低分辨率圖像中重建圖像。SCHULTZ 等[4]提出了一種利用最大后驗概率估計高分辨率圖像的貝葉斯方法。
基于學習的超分辨算法主要包括基于稀疏表示的方法和基于神經網絡的方法。YANG 等[5]首先提出了一種基于稀疏表示的圖像超分辨方法,該方法通過學習一個冗余字典,建立了高分辨率圖像和低分辨率圖像的映射。ZHENG 等[6]首先將稀疏表示法應用于遙感圖像超分辨任務。基于優化和稀疏表示的超分辨算法可以充分利用先驗信息,但也存在計算量大的缺點。
近年來,神經網絡被廣泛地應用于圖像的超分辨算法。DONG 等[7]在2015年首次將卷積神經網絡(convolutional neural network,CNN)引入圖像超分辨算法中,取得了良好的效果。圖像多蒸餾網絡[8](information multi-distillation network,IMDN)是一個輕量級的圖像超分辨網絡,有較高的實用價值。LIEBEL 等[9]提出了用于遙感圖像的卷積神經網絡。LEI等[10]提出了局部-全局組合網絡(local-global combined network,LGCnet),LGCnet充分提取了目標圖像的局部信息與全局信息,因此可以得到很好的重建效果。HAUT 等[11]通過引入注意力機制,以很少的計算代價提高了遙感圖像的重建質量。神經網絡具有良好的性能,然而由于其獨特的結構,導致其缺乏可解釋性,不能靈活地利用傳統的先驗知識。
最近,一種將傳統優化算法與神經網絡相結合的圖像重建方法被提出。該方法將傳統的優化過程展開為一個網絡,稱為深度展開網絡,算法中的參數可以通過訓練得到。深度先驗圖像去噪網絡[12](learning deep CNN denoiser prior for image restoration,IRCNN)和深度即插即用超分辨率網絡[13](deep plug-and-play superresolution,DPSR)都是深度展開網絡,都可以很好地利用圖像的先驗信息,并且取得了較好的圖像重建效果。深度殘差去噪網絡[14](beyond a Gaussian denoiser:residual learning of deep CNN for image denoising,DNCNN)也是一個有效的去噪神經網絡。ZHANG 等[15]提出了超分辨率圖像深度展開網絡(deep u nfolding n etwork for image super-resolution,USRNet)用于處理多重退化的圖像超分辨問題,并獲得了良好的結果。USRNet可以充分利用先驗知識,但是并沒有對網絡進行良好的優化,導致網絡的整體性能提升有限。
對于遙感圖像處理算法,可解釋性至關重要。并且遙感圖像的數量有限,因此如何充分利用先驗信息減小網絡擬合的壓力也是需要研究的。為了提高算法的可解釋性和圖像重建性能,本文提出一種基于多特征提取的深度展開圖像超分辨網絡。首先利用半二次分裂算法對目標函數進行迭代求解,接著將其展開為一個神經網絡。為使網絡可以充分提取目標圖像的信息,提出一種多尺度空洞卷積注意力模塊。該模塊通過設計不同空洞率的空洞卷積組,擴大網絡的感受野,使得網絡可以充分挖掘圖像的信息。在此基礎上,引入通道注意力機制和空間注意力機制,使得網絡可以更加注意重要的特征圖和重要的空間位置信息。最終,在網絡具有良好的可解釋性的同時,得到較好的圖像超分辨重建效果。
在遙感圖像采集過程中,由于設備和環境的限制,圖像通常受多種退化因素影響。本文考慮了圖像模糊、隨機噪聲和圖像降采樣等幾種典型的退化因素,使超分辨模型更加實用。退化模型可以表示為
式中:y表示低分辨率圖像;k表示模糊核;?為卷積運算符;x表示高分辨率圖像;↓表示降采樣;S表示降采樣因子;n表示噪聲。基于此退化模型,目標函數可以表示為
式中:argmin(·)表示使目標函數為最小值時的自變量取值函數;‖·‖ 表示矩陣的2-范數運算;λ表示權重系數;?(x)表示先驗約束項。
在傳統優化算法中,先驗約束通常可以選擇稀疏先驗或者低秩先驗。但是很多情況下,算法性能與先驗約束的選擇息息相關,如果先驗約束選擇不合理,會影響算法的性能。本文將先驗約束設置為一個隱式先驗,此隱式先驗表達可以通過端到端的網絡學習得到。這種方式可以降低先驗約束選擇的難度,并能大大提高算法性能。為了求解式(2),引入輔助變量z,式(2)可以被重新表示為
拉格朗日函數Lλ,β可以用于處理有約束條件的問題。其表達式為
式中:β表示懲罰系數。可以使用半二次分裂法[16]來對式(4)進行迭代求解。式(4)可以被分解為兩個子問題,迭代公式分別表示為
式中:xi表示第i次迭代的高分辨率圖像;zi表示第i次迭代的輔助變量。
對式(5) 進行閉式解求解,閉式解通過快速傅里葉變換(FFT)在頻域求得,可以表示為
式中:F-1(·)表示逆傅里葉變換;F(·)表示傅里葉變換;表示傅里葉變換后取共軛。由于式(7)中包含隱式先驗項,因此使用神經網絡來求解。
本文提出一種基于多尺度特征提取的圖像超分辨深度展開網絡,網絡的整體結構如圖1所示。

圖1 深度展開網絡的整體結構
該網絡包括x模塊和z模塊,每一模塊都有明確的定義,并且分別執行不同的功能,因此網絡是可解釋的。x模塊對應式(5)子問題的求解,而式(7)是式(5)的閉式解,主要完成去卷積操作。x模塊可以充分利用模糊核的先驗知識,可以完成圖像的尺度變換和去模糊的任務。z模塊對應式(6)子問題的求解,主要完成去噪的任務。噪聲包含兩部分,一部分是圖像獲取時引入的噪聲,另一部分是x模塊去卷積時引入的噪聲。
Unet是一種經典的網絡結構,可以有效地提取目標圖像的多尺度特征。z模塊在原始Unet網絡的基礎上,在最小尺度特征圖轉換時,引入了多尺度空洞卷積模塊、通道及空間注意力模塊,完成對特征圖的多尺度信息的提取。z模塊的主體結構如圖2所示。

圖2 z 模塊的主體結構
首先設計多個尺度的空洞卷積模塊組,對特征圖進行信息的提取。不同尺度的空洞卷積采取不同的空洞率,可以產生不同感受野的卷積。較大的空洞率卷積可以更加關注圖像的非局部信息,較小的空洞率卷積可以更加關注圖像的局部信息。因此,不同空洞率的空洞卷積組可以更好地提取圖像的局部信息和全局信息。
然后對空洞卷積組提取到的特征圖進行注意力權重的分配。先進行通道注意力的生成,通過最大池化操作將每個通道的特征圖映射為一個權重,給每個通道施加不同的權重,使得網絡更加關注重要的特征通道。再使特征圖通過空間注意力模塊,通過最大池化操作將空間特征映射為不同的權重,使得網絡可以自適應地學習特征圖的空間信息。對當前重建像素比較重要的區域施加較大的權重,對不太重要的區域施加較小的權重,從而使得網絡具有更好的重建能力。
在注意力模塊的前后采取跳連接方式相連,將得到的特征圖進行多次上采樣,得到與原始圖像大小一致的特征圖。
綜上,該網絡迭代執行x模塊和z模塊,從而交替進行去模糊和去噪的操作。迭代流程與傳統優化算法相同,每一步驟都有明確的定義并且完成相應的功能。最終實現圖像的超分辨重建,并使用L1準則來計算最終的損失函數。
通過實驗來驗證所提算法的有效性。UC Merced Land Use數據集[17]是一個常用的公共遙感圖像數據集,包含21 種場景,每種場景有100張圖片,圖片大小為256×256像素。從中挑選了10種場景作為算法評估的數據集。每種場景的前40個樣本用來訓練,再隨機選擇5個樣本用來測試,最終得到400個訓練樣本和50個測試樣本。選擇文獻[10]中的6種模糊核來驗證算法的有效性,包括3個各向同性高斯模糊核和3個各向異性高斯模糊核,模糊核為21×21的矩陣。
實驗在Py Torch 框架下進行,使用Titan RTX 進行訓練。設置優化器為Adam、學習率為0.000 5、網絡迭代次數為3。本文中的空洞率設置為2,4,6。由于在去卷積的過程中已經引入了噪聲,為了實驗的簡便性,未再加入額外噪聲。
用峰值信噪比(PSNR)作為評價指標,不同算法的圖像重建結果如表1所示。可以看到,采用不同的模糊核,算法都表現出了較好的性能。本文所提算法與DNCNN、IMDN、IRCNN、DPSR等算法相比,重建圖像的峰值信噪比分別高1.15,1.50,1.98,0.29 dB。由此可以證明本文所提算法的有效性。

表1 不同重建算法的圖像峰值信噪比
圖3是不同算法的超分辨重建結果,場景為飛機場。選擇模糊核6,2倍下采樣。其中LR 是由低分辨率圖像進行最近鄰插值得到的圖像,OURS是采用本文所提算法重建的圖像。可知,經過降質的圖像已經變得不清楚了,無法分辨飛機的細節結構信息,對后續目標檢測非常不利。經過超分辨復原后,所有超分辨算法都可以使降質圖像變得清晰。其中IRCNN 的圖像重建效果優于其他幾種對比算法。而本文所提算法恢復的圖像最清晰,最有利于進一步的目標檢測。其他算法重建的圖像能大致分辨物體的結構,但是對于較為精細的結構不能很好地分辨。

圖3 不同算法的超分辨重建結果
綜上所述,本文所提算法無論是重建圖像的視覺效果還是峰值信噪比都是最好的,證明了算法的有效性。
本文提出了一種基于多特征提取的圖像超分辨深度展開網絡,網絡的每一部分都有明確的定義和特定的功能,因此是可解釋的。該網絡通過半二次分裂法求解優化問題,并將求解過程展開成一個網絡,使得網絡同時具有基于優化方法的可解釋性和神經網絡強大的擬合性。為了使網絡可以充分提取目標圖像的信息,進一步提出了一種多尺度空洞卷積注意力模塊。該模塊通過設計不同空洞率的空洞卷積組,使得網絡可以充分挖掘圖像的全局信息和局部信息,并且關注圖像中更重要的特征。實驗證明所提算法可以對低分辨率圖像進行有效的超分辨重建。