黃夢宇 祁佳佳 魏東等

摘要:超分辨率重建技術將低分辨率圖像通過算法重建成高分辨率圖像。深度學習方法已經在超分辨率重建中取得了顯著的進展,文章綜述了基于深度學習的單幀圖像超分辨率重建技術。首先,介紹了超分辨率重建的研究背景及意義、傳統方法的缺陷,以及常見的公開數據集。然后,闡述了近年來基于殘差網絡及注意力機制的單幀圖像超分辨率重建技術等研究內容。最后,對基于深度學習的超分辨率重建技術進行了展望與總結,雖然當前已經取得了一些進展,但仍然面臨很多挑戰(zhàn),如模型的泛化能力不足、復雜場景下的超分辨率重建等問題。隨著深度學習技術的不斷發(fā)展和改進,超分辨率重建技術將會有更加廣泛的應用。
關鍵詞:深度學習;超分辨率;殘差網絡;注意力機制;Transtormcr
中圖法分類號:TP391 文獻標識碼:A
1 研究背景及意義
圖像超分辨率(Super?Resolution,SR)重建技術是計算機視覺領域重要的數字圖像處理技術,它通過使用一系列算法和模型,從低分辨率(Low?resolution,LR)圖像中重建出高分辨率(High?resolution,HR)圖像,由于圖像的高分辨率模式包含較多細節(jié)和信息,因此該技術在許多領域具有廣泛的用途。目前,該技術已經在醫(yī)療圖像分析、衛(wèi)星遙感觀測、人臉識別及刑偵分析、監(jiān)控視頻復原、視頻娛樂系統、工業(yè)成像監(jiān)測等領域得到越來越多的實際應用。
1.1 基于像素插值的重建算法
該方法通過簡單的像素插值技術來提高圖像的分辨率。雖然這種方法非常簡單,但其重建效果通常較差,因此它不能有效地處理圖像中的高頻信息。
1.2 基于邊緣信息的重建算法
該方法利用圖像中的邊緣信息來提高圖像的分辨率。這種方法通常比插值方法更有效,但它對噪聲和圖像偽影的處理效果并不理想。
1.3 基于局部統計的重建算法
該方法利用圖像中的局部統計信息來重建高分辨率圖像。這種方法通常需要高質量的低分辨率圖像和精確的統計模型,條件較為苛刻。
1.4 基于深度學習的重建算法
該方法基于深度學習技術使用卷積神經網絡(CNN)或生成對抗網絡(GAN)來訓練圖像的重建模型,這種方法通常具有較高的重建質量和準確度。在深度學習的框架下,超分辨率重建的任務通常被視為學習從低分辨率圖像到高分辨率圖像的映射函數,主要可以分為2 類:基于重建的算法和基于生成的算法。
1.4.1 基于重建的算法
基于重建的算法通過學習映射函數將低分辨率圖像重建成高分辨率圖像。通常使用卷積神經網絡對圖像進行特征提取和重建,其中SRCNN[1] 是第1個使用深度卷積神經網絡進行超分辨率重建的網絡,它采用3 個卷積層來提取特征,3 層分別為特征提取層、非線性映射層和重建層,然后使用反卷積層進行圖像重建。
1.4.2 基于生成的算法
基于生成的算法使用生成對抗網絡來學習生成高分辨率圖像。其中,SRGAN[2] 是第1 個使用生成對抗網絡進行超分辨率重建的網絡,它使用了1 個生成器網絡和1 個判別器網絡,生成器網絡負責將低分辨率圖像轉換為高分辨率圖像,判別器網絡則負責區(qū)分生成器生成的圖像和真實高分辨率圖像。
2 常見數據集
在超分辨率重建算法的研究中,為了評估算法的性能和效果,需要使用一些公開的數據集進行測試和比較。表1 列舉了較為常見的幾個公開數據集,其被廣泛應用于單圖像超分辨率重建的算法研究和評估中。研究者可以使用這些數據集進行算法的訓練、調試和測試,以提高超分辨率重建算法的性能和效果。
3 相關方法
3.1 基于殘差網絡的超分辨率重建技術
殘差網絡是一種深度神經網絡結構,主要用于解決深度網絡訓練中的梯度消失問題。殘差網絡引入了跳躍連接來學習殘差,即學習輸入和輸出之間的差異,從而避免了傳統的深度神經網絡中梯度消失的問題,其可以有效地學習到圖像的非線性特征,從而提高重建圖像的質量,因此其被廣泛應用于單圖像超分辨率任務中。由于受殘差網絡結構的啟發(fā)———通過增加網絡層數來加深網絡結構,因此極深卷積神經網絡的圖像超分辨率網絡VDSR[3] 被提出,并取得了更好的圖像重建效果。此后,也有極具代表性的網絡EDSR[4] 通過加深和加寬殘差模塊,使其學習到更復雜的圖像特征,該方法在提高圖像質量和保留細節(jié)方面都表現出色,并且具有較快的速度和較小的模型尺寸,該模型所具有的網絡結構成為后續(xù)大量相關研究工作所參考的基線。
大量研究表明,使用殘差網絡的單圖像超分辨率方法可以提高圖像的重建質量,使重建圖像更接近于原始高分辨率圖像。此外,許多研究還通過比較不同的網絡結構和訓練方法,進一步優(yōu)化了殘差網絡的超分辨率重建性能。
3.2 基于注意力機制的超分辨率重建技術
注意力機制是一種在深度學習中廣泛應用的技術,它可以使網絡集中于輸入圖像的特定區(qū)域,從而提高網絡的性能和準確性。單圖像超分辨率重建技術可以提高網絡對于圖像細節(jié)的捕捉和重建能力,常用的主要有通道注意力機制、空間注意力機制和自注意力機制3 種。注意力機制中的全局注意力機制能夠關注整張圖像,對圖像中所有的細節(jié)進行捕捉;局部注意力機制則可以關注特定區(qū)域,對細節(jié)進行更加精細的捕捉。
RCAN[5] 網絡首次將注意力機制使用在超分辨率圖像處理任務中,其僅使用了通道注意力作為該模型的注意力模塊,其余部分與EDSR 網絡相同,有了通道注意力的加持,該模型效果較EDSR 相比有顯著的提升。Transformer[6] 是另一類神經網絡結構,它完全消除了遞歸和卷積,可以同時對輸入序列中的所有位置進行處理,在自然語言處理和計算機視覺任務中表現出顯著的性能增強。Yang 提出了一種新的圖像超分辨率紋理Transformer 網絡TTSR[7] ,其由4 個相關聯的模塊組成,包括可學習紋理提取器、嵌入模塊、用于紋理轉移的硬注意模塊和用于紋理合成的軟注意力模塊,這些模塊針對圖像生成任務進行了優(yōu)化。該網絡可以通過注意力機制發(fā)現對應的深層特征,紋理變換器可以使用跨尺度方式進一步堆疊,從而能夠以不同放大率進行紋理恢復。
通過應用注意力機制,單圖像超分辨率重建模型可以更加準確地提取圖像特征,并在重建過程中更加關注重要的信息,從而提高重建質量和效果。
4 未來展望
使用殘差網絡的單圖像超分辨率已成為一種有效的圖像重建技術,具有廣泛的應用前景。但是,盡管該方法已經取得了較好的效果,但仍有許多挑戰(zhàn)需要克服。例如,如何處理復雜的圖像結構和紋理信息,如何減少計算成本等,未來仍需要繼續(xù)研究和探索這一領域。同時,在單圖像超分辨率任務中使用Transformer 可以實現更好的圖像重建效果,該技術可以作為未來研究的參考方向,以進一步提高圖像超分辨率的性能。這些方法的不同設計,也提供了不同的思路和靈感,可以啟發(fā)更多的創(chuàng)新想法。
5 結束語
超分辨率重建技術已成為計算機視覺領域一個重要的研究方向,雖然現有的技術和方法已經取得了一定的成果,但在真實場景中的應用還需要進一步的研究和改進。例如,訓練好的超分辨率重建模型在未見過的數據上的表現通常不如在訓練集上的表現,這可能是由于訓練數據不夠多樣化或者過擬合等引起的。另外,對于復雜場景下的圖像,如多物體、多紋理、有遮擋等,當前的超分辨率重建技術往往表現不佳。某些基于深度學習的超分辨率重建方法需要大量的計算資源和時間來進行訓練和推理,這限制了它們的實際應用。對于高倍率的超分辨率重建,當前的技術還無法滿足高質量的需求。隨著深度學習技術的不斷發(fā)展和改進,這些問題有望得到解決。未來,隨著硬件和軟件技術的不斷發(fā)展,基于深度學習的超分辨率重建技術必將有更廣泛的應用領域。
參考文獻:
[1] DONG C,LOY C C,HE K,et al.Learning a Deep ConvolutionalNetwork for Image Super?Resolution[C]∥European Conferenceon Computer Vision,2014:184?199.
[2] LEDIG C,THEIS L,HUSZAR F,et al.Photo?Realistic SingleImage Super?Resolution Using a Generative AdversarialNetwork[C]∥Proceedings of the IEEE/ CVF conference onComputer Vision and Pattern Recognition,2017:4681?4690.
[3] KIM J,LEE J K,LEE K M.Accurate Image Super?ResolutionUsing Very Deep Convolutional Networks[C]∥ Proceedingsof the IEEE/ CVF conference on Computer Vision and PatternRecognition,2016:1646?1654.
[4] LIM B,SON S,KIM H,et al.Enhanced Deep Residual Networksfor Single Image Super?Resolution [C] ∥ Proceedings of theIEEE/ CVF conference on Computer Vision and PatternRecognition,2017:136?144.
[5] ZHANG Y L,LI K P,LI K,et al. Image Super?ResolutionUsing Very Deep Residual Channel Attention Networks[C]∥European Conference on Computer Vision,2018:286?301.
[6] VASWANI A,SHAZEER N,PARMAR N,et al.Attention Is AllYou Need [C] ∥Advances in Neural Information ProcessingSystems,2017:30.
[7] YANG F,YANG H,FU J,et al.Learning Texture TransformerNetwork for Image Super?Resolution[C]∥Proceedings of theIEEE/ CVF conference on Computer Vision and PatternRecognition,2020:5791?5800.
作者簡介:
黃夢宇(1992—),碩士,研究方向:計算機視覺( 通信作者)。
祁佳佳(1996—),碩士,研究方向:MEMS 集成智能傳感器。
魏東(1968—),碩士,副教授,研究方向:計算機視覺。
揣榮巖(1963—),博士,教授,研究方向:MEMS 集成智能傳感器。