


摘要:圖像超分辨(super-resolution,SR)技術是將低分辨率圖像消除圖像退化,并將其重建為具有更多細節(jié)的高分辨率圖像。這項技術已被廣泛應用于視頻監(jiān)控、醫(yī)學診斷和遙感等領域。在遙感領域,高空間分辨率的圖像能使目標更加突出,目標檢測和識別等任務也會有更高的準確率。通過硬件升級獲取高分辨圖像會大大提高成本,采用軟件算法來從獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學習的迅速發(fā)展和算力的提升,基于深度學習的圖像超分辨算法取得了出色的表現(xiàn)。本文提出了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見長,而Transformer則具有強大的全局建模能力,本文提出的模型則探索了使用交叉注意力將這兩種機制結合起來的架構。交叉注意力作為多模態(tài)領域的常見方法,能夠在不同序列數(shù)據之間建立聯(lián)系,提供了一種很好的跨模態(tài)交互機制。本文提出的模型則利用了交叉注意力的交互能力,對CNN提取的特征圖和Transformer建立的全局序列數(shù)據進行了交互,使得最終超分辨重建能夠將局部細節(jié)與全局上下文結合起來。最終,本文的基于卷積和Transformer的交叉注意力超分辨網絡在PSNR和SSIM兩項指標上都獲得了28.06和0.7720的最優(yōu)結果。
關鍵詞 :遙感圖像超分辨;深度學習;交叉注意力;混合模型
一、引言
單幀圖像超分辨(Single Image Super-Resolution, SISR)采用軟件算法將一張低分辨率圖像(Low-Resolution, LR)補充退化過程中損失的細節(jié)信息重建出高分辨率圖像(High-Resolution, HR)。這項技術已被廣泛應用于視頻監(jiān)控、醫(yī)學診斷和遙感等領域。在遙感領域,高空間分辨率的圖像在許多場景都非常重要,如目標檢測、變化檢測和目標跟蹤等[1]。通過硬件升級獲取高分辨率的圖像會大大提高成本,而采用軟件算法來獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學習的迅速發(fā)展和算力的提升,基于深度學習的圖像超分辨算法取得了出色的表現(xiàn)。CNN是最適用于圖像數(shù)據的深度學習模型架構,具有天然的歸納偏置與局部性,且在特征提取方面有很大優(yōu)勢。目前,CNN在很多視覺任務中的表現(xiàn)都不如基于Transformer的模型。大多數(shù)研究者認為,Transformer成功的原因在于自注意力的全局建模能力。
最近,有很多研究者想要從全局性入手來提升純卷積模型性能,如Non-local Neural Networks[2]就提出了使用卷積來獲取像素之間的自相關信息。卷積操作具有天然的歸納偏置和局部性,而Transformer有卷積神經網絡所沒有的長程建模能力,如果能夠將二者有效結合起來,則有可能實現(xiàn)更好的超分辨重建。為了將卷積提取的特征和自注意力機制進行高效耦合,本文使用交叉注意力、結合CNN和Transformer各自的優(yōu)點構建了一種混合架構的超分辨模型。
二、模型架構
交叉注意力在多模態(tài)模型中可以將文本等提示信息作為Prompt去幫助完成分割、生成等下游任務。受交叉注意力啟發(fā),本文提出了一種新的超分辨框架,即使用交叉注意力將CNN提取到的特征看作一種Prompt,然后將其融合進Transformer的序列中。在具體操作上即將CNN提取的特征作為查詢Q和鍵K,Transformer輸出的序列作為值V。這種方法巧妙地將CNN和Transformer結合在一起,發(fā)揮了它們各自的優(yōu)點。
交叉注意力和自注意力大體的機制是一致的,唯一的不同在于輸入。自注意力的輸入是單一的序列,然后從這個輸入序列得到查詢、鍵和值。而交叉注意力則有兩個輸入,一個輸入序列作為查詢Q輸入,另外一個輸入則作為鍵K和值V輸入。
圖1是本文提出模型的總體框架:首先,輸入低分辨率圖像LR,然后使用一層卷積來提取初始淺層特征得到f0 。之后,將f0送入本章模型的主干網絡。主干網絡由殘差通道注意力塊[3](Residual Channel Attention Block,RCAB)、Transformer層和交叉注意力串聯(lián)并重復堆疊而成。主干網絡輸出的結果經過Pixel Shuffle來進行上采樣得到最終的輸出SR圖像。
本文使用了RCAB作為卷積特征提取基礎模塊。RCAB引入了通道注意力和殘差連接,因為簡單地堆疊殘差塊并不適用于實現(xiàn)非常深且性能強大的圖像超分辨網絡。
交叉注意力將自注意力的概念擴展到不僅考慮輸入序列內的關系,還考慮輸入序列和輸出序列之間的關系。例如,在機器翻譯的背景下,當生成目標序列中的每個單詞時,模型可以根據需要關注源序列中的不同單詞。
交叉注意力(Cross Attention)最常見的應用場景是在多模態(tài)模型中。利用交叉注意力機制,人們可以有效地整合兩個雖然信息各異、但維度一致的序列數(shù)據,從而得到一個融合了雙方特征的新序列。在最近的視覺大模型中就引入了交叉注意力來使用提示信息(文本或圖像)幫助完成分割任務。
交叉注意力和自注意力大體的機制是一致的,唯一的不同在于輸入。自注意力的輸入是單一的序列,然后從這個輸入序列得到查詢、鍵和值。而交叉注意力則有兩個輸入,一個輸入序列作為查詢Q輸入,另外一個輸入則作為鍵K和值V輸入。得到查詢和鍵值之后則可以開始計算注意力值。交叉注意力后續(xù)的注意力計算和自注意力是相同的。圖2所示是交叉注意力的計算流程。
三、實驗設計及結果
本文提出的基于卷積和Transformer的交叉注意力超分辨網絡將在公開的遙感數(shù)據集UCMerced上進行訓練和測試。在評價指標方面,本文的實驗中結合使用了PSNR和SSIM這兩種指標更全面地評估圖像的質量。每個數(shù)據集中的原始圖像被當作HR,對應的LR圖像通過對HR進行Bicubic 插值得到。
UCMerced數(shù)據集包含21類遙感場景,其中包括機場、公路、港口等。每一個場景類別都有100張圖像,每張圖像的尺寸大小為256×256像素,且這些圖像的空間分辨率都是0.3m/pixel。這個數(shù)據集被平均分為兩個部分,其中一部分被用作訓練集,共1050張圖像,另外一部分被用作測試集。訓練集的20%被用作驗證集。
本文模型使用的損失函數(shù)是超分辨任務中最常見的 L1損失。本文的實驗在UCMerced數(shù)據集上按照超分辨因子×4開展。訓練時對圖像進行隨機的裁剪。裁剪后的圖像大小為 192×192。訓練樣本經過了隨機的翻轉和旋轉來增加樣本多樣性。在訓練策略方面,本文實驗采用Adam優(yōu)化器,其中β1=0.9,β2=0.99 。實驗時的學習率在500、800和1000個Epoch時進行減半,并且初始學習率設置為2×10-4。在訓練過程中,實驗采用的Batch Size為8,對模型訓練了1500個Epoch。整個訓練在四塊NVIDIA 3080 Ti GPUs上完成。
為了驗證本文模型的有效性,將本文的模型和插值法,以及經典的深度學習超分辨方法SRCNN[4]進行了對比。其后根據開源代碼對所有這些比較方法進行重新訓練,并在相同的條件下進行了測試。表1是本文模型在UCMerced數(shù)據集上和其他方法的性能指標的對比結果。
結果表明,本文模型在×4超分辨因子下的PSNR和SSIM指標上實現(xiàn)了最佳性能結果。本文的方法PSNR分別比插值和SRCNN高了2.41db和1.28db。
通過定量的結果對比分析顯示,本文的方法在兩項評價指標上都取得了最優(yōu)的結果,圖3是本文模型輸出的超分辨圖像和對應的低分辨圖LR和高分辨圖HR。可以看到,本文方法對于港口船只取得了較好的重建效果,船只的紋理細節(jié)變得更加豐富和清晰。
四、結束語
本文主要介紹了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見長,而Transformer則具有強大的全局建模能力,本文提出的模型則探索了一種將二者結合起來的架構,同時又保留了它們各自的優(yōu)勢。交叉注意力作為多模態(tài)領域的常見方法,能夠在不同序列數(shù)據之間建立聯(lián)系,并提供了一種很好的跨模態(tài)交互機制。而本章模型則利用了交叉注意力的交互能力,對CNN提取的特征圖和Transformer建立的全局序列數(shù)據進行了交互,使得超分辨重建能夠將局部細節(jié)與全局上下文結合起來。實驗結果證明,本文提出的基于卷積和Transformer的交叉注意力超分辨網絡在PSNR和SSIM兩項指標上都獲得了最優(yōu)的結果,并且在可視化結果上也取得了不俗的效果。
作者單位:張文健 劉揚陽 中國科學院空天信息創(chuàng)新研究院 中國科學院大學光電學院
參考文獻
[1]李景文, 陳文達, 姜建武. 融合邊緣特征和對抗網絡的遙感影像超分辨重建方法 [J]. 計算機應用與軟件, 2023, 40(02): 240-245.
[2]WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks; proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, F, 2018 [C].
[3]ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks; proceedings of the Proceedings of the European conference on computer vision (ECCV), F, 2018 [C].
[4]DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution; proceedings of the Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part IV 13, F, 2014 [C].