





摘" 要: 針對現有的圖像超分辨重建算法特征信息提取不充分的問題,基于SRResNet[1]網絡的生成器部分,引入混合注意力模塊和密集殘差模塊,以提取圖像的多尺度特征。混合注意力模塊集成通道注意力和自注意力機制,可以聚焦關鍵特征;密集殘差模塊通過堆積多個殘差密集塊學習多級特征,并采用改進的密集連接方式提高特征復用效率。模型在各基準數據集上對比當前的優秀重建算法有0.1~1db的提升,為單圖像超分辨率任務提供了有效的方案。
關鍵詞: 密集殘差網絡; 注意力機制; 圖像超分辨重建; 改進密集連接
中圖分類號:TP391.41" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-105-04
Research on image super-resolution based on dense residual
network and attention mechanism
Yu Chenghai, Hu Yi, Lu Zhilong, Ye Zezhi
(School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)
Abstract: To address the problem of insufficient feature information extraction in existing image super-resolution reconstruction algorithms, the hybrid attention modules and dense residual modules are introduced into the generator part of the SRResNet network to extract multi-scale features of images. The hybrid attention module integrates channel attention and self-attention mechanisms to focus on critical features. The dense residual module learns multi-level features by stacking multiple dense residual blocks and adopts improved dense connection method to improve feature reuse efficiency. The model achieves 0.1-1db improvement over current excellent reconstruction algorithms on various benchmark datasets, providing an effective solution for single image super-resolution tasks.
Key words: dense residual network; attention mechanism; image super-resolution reconstruction; improved dense connection
0 引言
圖像超分辨率重建是一種典型的底層計算機視覺任務,其目標是從低分辨率圖像中重建出高分辨率圖像,使圖像包含更多像素和更豐富的視覺信息。該技術已被廣泛應用于多領域。在醫學成像中,它可以在降低對患者輻射的同時提高醫生診斷圖像的分辨率;在公共安全監控中,它可以提高視頻質量以方便后續的車牌識別等機器視覺任務,也可以為警方提供更清晰的證據;在軍事偵察中,它可以實現對艦船、車輛等小目標的檢測以及對目標細節的觀測。
超分辨任務的主要工作是從輸入圖像中提取特征信息,并利用得到的高頻細節完成高清圖像重建,隨著深度學習的不斷發展,越來越多的模型被提出,如Tong[2]提出了經典的基于密集網絡的重建網絡SRDenseNet[3](Super-resolutionDenseNet)。該網絡首先使用一個卷積層學習低層特征,接著用多個密集塊學習高層特征。SRDenseNet通過密集連接的方式可以很好地將低層信息與高層信息融合,同時減少參數的數量。該結構能減輕梯度消失、加強特征傳播、支持特征復用,提高了重建性能。
Zhang等人[4]提出了殘差通道注意力網絡算法RCAN[5](Very deep residual channel attention networks),將通道注意力機制加入到殘差網絡中,該算法可以量化不同通道特征對超分辨任務的重要程度,通過學習不同通道的重要性得到權重值,然后通過給每個通道賦予不同的權重來自適應的調整通道特征,使RCAN方法能夠學習到更多有用的通道特征,提高網絡的表達學習能力。
Lim等人[6]提出了增強深度殘差網絡算法EDSR[7](Enhanced Deep Residual Networks),去除了殘差網絡中的批歸一化層,通過全局殘差和局部殘差相結合來學習更多的高頻細節,減小了網絡的訓練難度,此算法通過對模型進行合理的壓縮來減輕網絡的負擔,同時能很好地提高運行的速度,重建效果也有所提高。
基于以上研究,本文在SRResNet網絡中引入混合注意力模塊HAB并使用密集連接有效的提高了生成的高分辨圖像質量和結構相似度。
1 總體網絡設計
本文整體網絡結構如圖1所示,網絡輸入和輸出分別為Low-res和High-res,圖像將通過淺層特征提取、深層特征提取和高分辨圖像重建三個過程進行超分辨操作,具體流程如下。首先采用卷積層對低分辨率輸入圖像Low-res進行上采樣,提取圖像淺層特征信息。在深層特征提取模塊中,該特征信息將經過前置殘差網絡進行初步特征提取和維度轉換,然后進入多級注意力塊,通過通道注意力和空間注意力機制,提取淺層和深層特征,并通過全局殘差連接進行特征融合。融合特征繼續進入后置殘差網絡進行過濾,得到最終的深層特征。最后模型利用pixel-shuffle上采樣方式,對深層特征進行上采樣重建,得到高分辨率輸出圖像High-res。
上述設計有效融合了注意力機制、殘差連接和密集連接等機制,使網絡能夠對圖像高頻細節進行建模和重建,得到更好的超分辨效果。實驗結果表明,該網絡結構可以恢復圖像細節,達到較好的效果。
2 結合密集殘差和混合注意力機制的圖像超分辨模型
2.1 密集殘差網絡
本文使用了一種新穎的深度網絡模塊結構,即RRDB[8](Residual in Residual Dense Block)。RRDB模塊主要集成了殘差網絡(ResNet)和密集連接網絡(DenseNet)兩種經典網絡架構的核心思想。減少了網絡計算量,緩解了訓練過程中的梯度消失和爆炸問題,形成了整體的殘差學習結構。模塊提取多尺度特征并融合,進一步增強特征表示能力。通過上述設計,RRDB模塊形成一個融合殘差學習和密集連接特性的高效網絡模塊,能夠構建較深的模型并表現出色的性能。
2.2 HAB模塊
本文使用混合注意力模塊HAB(Hybrid Attention Block,如圖2所示),HAB模塊由窗口自注意力(Window-based Self-Attention)機制和通道注意力(Channel Attention)機制構成,從而聚焦和激活關鍵特征信息,實現更優的任務重建效果。
對于給定的輸入特征[x],計算過程如下:
[XN=LNx]" ⑴
[XM=SW-MSAXN+αCABXN+XN]" ⑵
[Y=MLPLNXM+XM]" ⑶
其中,[XN]和[XM]表示中間特征,LN表示LayerNorm層,MLP表示MLP層,[α]為預設的一個較小常數,[Y]表示HAB的輸出。
該模塊充分結合了局部和全局注意力信息,達到局部細節增強和關鍵信息激活的效果。
2.3 RDAG模塊
本文開創性地提出一種結合了改進密集網絡與注意力機制的模塊RDAG(Residual Dense Attention Group,如圖1 Attention Block部分),模塊通過堆疊多個殘差密集混合注意力塊(RDAB)進行深層特征的挖掘,其中每個RDAB包含多個混合注意力塊(HAB)和一個殘差連接的卷積層(如圖3)。
為融合不同級別的特征,各RDAB間通過改進密集連接構成RDAG模塊(如圖4),各層提取特征只在最后進行疊加計算實現特征重用,可以在避免冗余計算的同時更好的保留各層特征信息,并為注意力模塊(Attention Block)設置了一個全局殘差連接,將淺層特征和深層特征融合輸出。
3 實驗分析
3.1 實驗配置
⑴ 數據集和參數設置:本次實驗使用DF2K (DIV2K+Flicker2K)數據集中的3250張圖片作為訓練集進行放大因子為2,3,4的訓練,剩余的200張圖片作為驗證集用于驗證實驗效果。測試集使用Set5、Set14、BSD100、Urban100四個基準數據集來評估本文的方法。
實驗的Batch_Size設置為8,通道數量設置為180,迭代次數為500,使用L1Loss作為優化器優化實驗參數。初始學習率設置為2×10-5,使用多步長MultiStepLR動態調整學習率,實驗全程在Ubuntu操作系統上進行,使用的GPU為RTX A5000 24GB,CPU為AMD EPYC 7511p,內存32GB。運行環境為Python3.8,Pytorch 2.0.0,Cuda11.8.0。
⑵ 數據預處理:通過裁剪高分辨率 DF2K數據集生成的子圖像對整體網絡進行訓練,在×2和×4的放縮比例上使用128×128的裁剪尺寸,×3的放縮比例上使用192×192的裁剪尺寸,進入網絡后進行隨機取樣獲取64×64的輸入樣本。為了防止過擬合,使用隨機旋轉和水平翻轉進行數據增強。
⑶ 評價指標:在實驗中采用泛用的峰值信噪比(peak signal to noise ratio,PSNR)和結構相似度(structural similarity,SSIM)進行量化評估。
3.2 消融實驗
消融實驗采用DF2K數據集進行×4放縮比例下的訓練,使用Set5和Set14作為測試集,進行下列實驗,探究RRDB和RDAB模塊各自對整體網絡性能的影響。
為了探究RRDB模塊和RDAB模塊對圖像重建效果的影響,分別采取不使用RRDB和RDAB模塊、僅用RRDB模塊、僅用RDAB模塊、同時使用RDAB和RDAB模塊進行實驗,實驗結果如表1所示。
結果表明,RRDB模塊和RDAB對于基準網絡有著顯著的效果提升,其中RDAB模塊的提升效果更加明顯,而隨兩者的結合使用整體網絡的性能又得到進一步提高。
3.3 實驗結果
為了探討本文網絡對不同結構化圖像數據集的重建性能,將所提出的方法與當前先進的重建方法進行比較,包括基于殘差網絡的EDSR,結合殘差和通道注意力的RCAN,基于密集殘差網絡和生成式對抗網絡的ESRGAN[5]以及基于注意力機制的SwinIR[9]。在Set5、Set14、BSD100、Urban100四個基準數據集進行放大因子為×2,×3,×4的對比試驗,實驗結果如表2所示,實驗效果對比圖如圖5所示。
實驗結果表明,本文所提網絡結構在兩項指標上要優于其他對比方法,其中PSNR有著0.1~0.5db的提升,顯著領先于其他方法。
4 總結
本文提出了一種新的殘差密集注意力模塊RDAG,可用于單圖像超分辨率任務。該模塊集成了通道注意力機制、自注意力機制以及殘差密集連接,可以提升全局上下文信息的利用效率,并實現多尺度特征的復用。另外,網絡通過與殘差殘差密集塊(RRDB)的結合實現底層和高層語義信息的融合,增強了網絡表達能力。實驗結果表明,本文所提出的模塊可以改善超分辨率重建的性能,并在多個評價指標上都有著先進的效果。
參考文獻(References):
[1] Christian Ledig, Lucas Theis, Ferenc Husz ?ar, Jose
Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al. Photorealistic single image super-resolution using a generative adversarial network. In Proceedings of the IEEE conference on computer vision and pattern recognition,2017:4681-4690.
[2] BASHIR S MA,WANG Y.Deep Learning for the Assisted
Diagnosis of Movement Disorders,Including Isolated Dystonia[J].Frontiers in Neurology,2021,12:638266.
[3] T. Tong, G. Li, X. Liu, and Q. Gao. Image super-
resolution using dense skip connections. In Proc. IEEE Int. Conf. Computer Vision,2017:4799-4807.
[4] WangZ,Chen J, Hoi S C H. Deep learning for image
super-resolution:A survey[J]. IEEE transactions on pattern analysis and machine intelligence,2020,43(10):3365-3387.
[5] Yulun Zhang,Kunpeng Li, Kai Li, Lichen Wang, Bineng
Zhong, and Yun Fu. Image super-resolution using very deep residual channel attention networks. In Proceedings of the European conference on computer vision (ECCV),2018:286-301.
[6] Guo Y, Chen J,Wang J, et al.Closed-loop matters:Dual
regression networks for single image super-resolution[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020:5407-5416.
[7] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah,
and Kyoung Mu Lee. Enhanced deep residual networks for single image super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops,2017:136-144.
[8] Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu,
Chao Dong, Yu Qiao, and Chen Change Loy. Esrgan:Enhanced super-resolution generative adversarial networks. InProceedings of the European conference on computer vision (ECCV) workshops,2018.
[9] Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc
Van Gool, and Radu Timofte. Swinir: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision,2021:1833-1844.