蔡 靖,曾勝強
(上海理工大學 光電信息與計算機工程學院,上海 200093)
圖像超分辨率重建是指將低分辨率圖像重建為與之對應的高分辨率圖像重建,在機器視覺和圖像處理領域是非常重要的課題。超分辨率重建在醫學成像[1]、視頻監控和安全[2]等領域具有廣泛的應用場景,除了能提高圖像感知質量外,還有助于改善其他機器視覺任務[3]。然而,圖像超分辨率任務是一個不適定問題,因為重建過程中會存在多張高分辨率圖像對應一張低分辨率圖像。因此,研究重建性能高、適應性強的超分辨率算法至關重要。
Harris[4]于1964 年提出超分辨率重建任務,目前主要的重建方法包括插值法、重構法和基于學習的方法。其中,傳統的插值法包括近鄰插值、雙線性、雙三次線性插值等方法是最早提出的超分辨率重建方法,此類方法利用臨近像素值人為計算出某一位置的像素,雖然易于解釋和實現,但由于僅基于圖像自身的信息提高分辨率,實驗結果存在明顯的邊緣效應,細節恢復效果較差;重構法可分為頻域法[5]、空域法[6],此類方法需要預先配準圖像,操作復雜、效率較低、計算量大且難以保證重建精度,處理復雜退化模型的能力有限;基于學習的方法主要包括基于樣例學習、基于深度學習,基于樣例學習的方法包括基于圖像自相似性[7]、基于鄰域嵌入[8]和基于稀疏表示的方法[9]。
本文研究方法屬于基于深度學習的超分辨率算法。Dong 等[10]提出一個3 層卷積神經網絡——超分辨率圖像卷積網絡(Convolutional Network for Image Super-Resolution,SRCNN),自此將深度學習引入圖像超分辨率領域,但相較于深層網絡擬合能力較弱,無法高效學習低分辨率圖像到高分辨率圖像的映射。為此,Dong 等[11]提出快速超分辨率圖像卷積網絡(Faster Super-Resolution Convolution Neural Network,FSRCNN)進一步提升重建效果。近年來,研究人員在拓展網絡深度、寬度的基礎上,極大提升了所提超分辨率算法的網絡性能。Kim 等[12]提出深度卷積神經網絡超深超分辨卷積神經網絡(Very Deep Super-Resolution Convolution Neural Network,VDSR),將網絡層數加深到至20 層,引入殘差學習思想既有效解決了隨著網絡加深帶來的梯度消失問題,又提升了模型擬合能力。受到遞歸學習啟發,Kim 等[13]在VDSR 基礎上提出深度遞歸卷積網絡(Deeply-Recursive Convolutional Network,DRCN),取得了更優的重建效果。
深層網絡雖然能提升網絡性能,但會帶來梯度消失問題。針對該問題,He 等[14]提出深度殘差網絡(Deep Residual Network,ResNet),通過融合淺層、深層信息有效解決了梯度方面的問題。Huang 等[15]提出密集連接網絡(Densely Connected Convolutional Network,DenseNet)高度融合不同卷積層的特征。Tong 等[16]將DenseNet 融入超分辨率任務中提出SRDenseNet,取得了較好的效果。
上述網絡模型在各通道對圖像特征映射中均作出了相同處理,但在人類視覺環境中,圖像在不同區域、通道中的重要性各不相同,注意力機制起源于人眼系統能篩選重要信息而忽略其他次要信息這一生物特性。Hu 等[17]考慮到不同通道間的交互作用,設計注意力機制SENet(Squeeze-and-Excitation Network),首次提出通道注意力機制,通過全局平均池化將每個輸入通道壓縮到一個通道描述符中,利用Sigmoid 函數產生每個通道的重要系數。Zhang 等[18]結合通道注意力機制與超分辨率提出殘差通道注意 力網絡(Residual Channel-attention Network,RCAN),顯著提升了模型性能。Woo 等[19]提出注意力機制網絡CBAM(Convolutional Block Attention Module),在通道注意力的基礎上增加空間注意力機制。Zhao 等[20]首次提出像素注意力機制,相較于通道注意力與空間注意力,像素注意力機制能對所有像素分別分配權重,采用一個1×1的卷積核減少了網絡參數引用。
近年來,多種深度神經網絡[21]被引入以改善重建結果。然而,大量的參數和昂貴的計算成本限制了深度神經網絡在實際中的應用,通常使用遞歸或參數共享策略來減少實驗參數[22],但在減少參數的同時增加了網絡深度或寬度,導致計算復雜度大幅增加。為此,部分研究者設計輕量且高效的網絡結構,避免使用遞歸模型。例如,Hui等[23]提出一種信息蒸餾網絡(Information Distillation Network,IDN),該網絡明確地將提取的特征分為兩部分,一部分保留,另一部分進一步處理,以獲得良好的性能,但在各通道處理圖像的特征映射方法相同,存在改進空間。
本文提出一種輕量級的網絡,以更好地平衡模型性能與適用性,主要貢獻為:①提出雙分支特征提取模塊。多尺度提取圖像特征信息,結合注意力機制、殘差和密集連接加強特征提取;②提出多尺度上采樣重構模塊。該模塊相較于傳統上采樣方法能夠具有更豐富的紋理細節,并且目前鮮有將注意力機制引入重構階段的研究;③提出輕量級的圖像超分辨率網絡。實驗證明,所提算法不僅保持了較低的參數量,還具有更高的重建效率與視覺效果。
通道注意力的目標是生成一維(C×1×1)注意力特征向量,空間注意力是生成二維(1×H×W)注意力特征圖,而像素注意力(Pixel Attention,PA)可生成一個三維(C×H×W)注意力特征。其中,C 為通道數,H、W 為特征圖的高和寬。如圖1所示(彩圖掃OSID 碼可見,下同)。

Fig.1 Comparison of attention mechanism圖1 注意力機制比較
其中,GP 為Global Pooling,FC 為Fully Connected,C 為Convolution,S 為Sigmoid,像素注意力只使用1×1 的卷積核和Sigmoid 函數得到注意力權重,再與輸入特征相乘,在引入少量參數的前提下,分別計算每個像素的權重。
將輸入特征圖定義為xm-1,輸出特征圖定義為xm,PA可表示為:
式中,fPA為1×1卷積加Sigmoid 運算。
本文提出殘差與像素注意力相結合的雙分支卷積網絡(Two-branch with Residual and Pixel-attention Convolutional Network,TRPCN),該網絡主要由密集殘差特征提取模塊(Feature Extract with Residual and Dense Block,FERDB)與像素注意力上采樣模塊(Upsampling with Pixel-attention Block,UPAB)構成。
如圖2 所示,輸入的低分辨率圖像首先由一個特征提取層FE(Feature Extraction)提取淺層特征;然后通過核心特征提取模塊FERDB,該模塊包括16 個雙通道注意力殘差塊(Two-branch with Residual and Pixel-attention Block,TRPB),一層卷積核大小為1 的特征聚合層和兩個3×3 的卷積層;最后由像素注意力機制和上采樣層組成的上采樣模塊UPAB 進行處理輸出高分辨率圖像。

Fig.2 Network structure圖2 網絡結構
FE 層用來初步提取特征,為了降低模型參數量,僅由一個大小為3的卷積核組成。
式中,fconv3為3×3 卷積運算,ILR為輸入的低分辨率圖像特征。
2.2.1 TRPB模塊
FERDB 的內部核心特征提取模塊為前段的16 個TRPB 塊,如圖3(a)所示。首先將特征分別經過兩個1×1的卷積層輸入特征提取分支,每個分支特征維度減半以降低參數;然后合并提取出的特征,由1×1 卷積層增加各通道特征的交互性,輸出通道還原為輸入特征通道數;最終通過跳躍連接將其與淺層特征進行融合,輸出特征xn。
式中,x′n特征通道為像素注意力殘差分支,由像素注意力與淺層殘差塊(Shallow Residual Block,SRB)組成,x"n特征通道為淺層殘差分支。
SRB 的非線性變換如式(4)所示,組成結構如圖3(b)所示。
式中,激活函數采用LReLU,fconv3表示卷積核大小為3的卷積運算。
2.2.2 FERDB整體模塊
如圖4 所示,TRBP 模塊連接后段的特征聚合層組成FERDB 模塊。特征聚合層通過聚合淺層特征與核心TRBP模塊提取的特征,通過非線性變換輸出深度特征Fdf。

Fig.3 TRPB and SRB structure 圖3 TRPB和SRB結構

Fig.4 FERDB structure圖4 FERDB結構
式中,Fr為將淺層特征與密集特征進行殘差聚合的深度特征。
如圖5 所示,輸入特征分別由一條單上采樣分支與一條基于PA 的上采樣分支進行提取,融合后輸出最終圖像。本文所提方法相較于目前使用的單通道上采樣而言,能提取特征的深度與空間信息,像素注意力分支使輸出圖像紋理信息更豐富,單上采樣分支也保留了圖像的邊緣信息。

Fig.5 Structure of upsampling module圖5 上采樣模塊結構
當上采樣尺度為2 或3 時,僅進行圖5(a)所示一次上采樣;當上采樣尺度為4 時,進行圖5(b)所示兩次尺度為2 的上采樣。其中,Upsample1 為亞像素卷積上采樣;為降低參數量,Upsample2 采用鄰域插值上采樣。
本文將DIV2K 作為訓練數據集,DIV2K 由1 000 張2K分辨率圖片構成,以8∶2 的比例劃分訓練集與驗證集。為提高訓練速度和樣本數量,將每副圖像進行交叉劃分,每隔一段像素截取一張480×480 的小圖像,最終得到超過三千張可供訓練和驗證的小圖像。訓練時再隨機水平翻轉和90°旋轉圖像進行數據增強。
測試階 段,采 用Set5[24]、Set14[25]、B100[26]、Urban100[27]作為測試集。評價指標采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結構相似性(Structure Similarity Index,SSIM),均在Y 通道進行測試。
(1)峰值信噪比。其是信號的最大功率和噪聲功率之比。
式中,MSE 為重建圖像和高清圖像間的均方誤差,H、W表示圖像尺寸。一般PSNR 指標越高重建效果越好。
(2)SSIM。其是衡量兩幅圖像相似度的指標,取值范圍為[0,1],SSIM 值越大表示圖像失真程度越小,圖像質量越高,給定兩張圖像x、y,SSIM 計算公式如式(10)所示。
3.2.1 訓練細節
實驗硬件平臺為Intel(R)Core(TM)i7-9800X CPU,NVIDIA RTX2080,操作系統為Linux,采用CUDA11.5 加速訓練。訓練時,Batchsize=32,優化器選用Adam,初始學習率設為10-3,迭代周期為250K 次,最低學習率為10-7,總迭代1 000K 次。
3.2.2 損失函數
算法采用L1 損失,通過損失函數計算重建圖像與高分辨率圖像間的像素誤差。
式中,h、w、c分別表示高、寬、特征通道數,I^為重建圖像,I為高分辨率圖像。
實驗在4 個公開數據集上分別測試比較了放大兩倍、3 倍和4 倍的重建性能,如表1 所示。由此可見,本文所提模型參數量最多不到370K,但性能優于大多數最先進方法。具體而言,CARN 與本文模型具有相似的性能,但參數接近1 592K,大約為本文模型的4 倍;IMDN 為AIM2019 超分挑戰賽排名第一的算法,仍具有715K 的參數量。除了比較PSNR、SSIM 指標外,本文還對以上部分算法進行了視覺效果比較,如圖6-圖10所示。

Table 1 PSNR and SSIM index comparison表1 PSNR和SSIM指標對比
圖6 從左至右分別為Set5、Set14、B100、Urban100 中選取的高分辨率圖像,分別截取圖中一部分作為HR 圖片,然后通過Bicubic 算法進行4 倍下采樣后才作為測試圖片。圖7-圖10 從左至右分別為截取的原始HR 圖片、SRCNN、VDSR、CBPN-S、LESRCNN、IMDN、CARN 和本文所提算法處理后的圖片。由此可見,本文所提算法重建的圖像更好地還原了紋理,相較于其他算法避免了細節處的平滑處理,與原圖更接近。綜上,TRPCN算法在性能和模型復雜度方面取得了更好的權衡。

Fig.6 Original images of Set5,Set14,B100 and Urban100 dataset圖6 Set5、Set14、B100、Urban100原圖
本文通過參數量、計算量這兩個指標分析所提算法的輕量性。在重建尺度為4 時,分別比較DSR、DRCN、CBPN-S、LESRCNN 這4 個網絡,如表2 所示。由此可見,本文算法在參數量、計算量上均為最優。

Fig.7 Comparison of reconstruction effect at scale 4 from Set5圖7 Set5重建尺度為4的效果比較
為驗證上采樣方法的有效性,本文對圖5 中其他上采樣組合進行比較試驗,實驗均在Set5 驗證集上進行4 倍上采樣驗證,結果如表3所示。
方案1:關閉Upsample2 通道,Upsample1 采用亞像素卷積上采樣。
方 案2:Upsample1、Upsample2 均采用 鄰域插值上采樣。
方案3:Upsample1、Upsample2 均采用亞像素卷積上采樣。

Fig.8 Comparison of reconstruction effect at scale 4 from Set14圖8 Set14重建尺度為4的效果比較

Fig.9 Comparison of reconstruction effect at scale 4 from B100圖9 B100重建尺度為4的效果比較

Fig.10 Comparison of reconstruction effect at scale 4 from Urban100圖10 Urban100重建尺度為4的效果比較

Table 2 Model complexity comparison表2 模型復雜度比較
方案4:Upsample2 采用鄰域插值上采樣,Upsample1 采用亞像素卷積上采樣。

Table 3 Ablation experiment表3 消融實驗
由表3 可見,相較于方案2、3、4,方案1 只使用了單一的亞像素卷積上采樣,雖然參數量較少,但PSNR 不高。雖然同樣融入了PA,但方案3 的亞像素卷積上采樣相較于方案2 的插值上采樣擁有更高的評價指標,可見深度學習方法使輸出特征加入了更多非線性變換,最終輸出圖像的信息更豐富。方案4 同時采用亞像素卷積和插值上采樣,并在亞像素卷積分支融入PA,不僅使輸出特征加入了更多非線性變換,還豐富了輸出圖像的紋理細節,進一步加強了輸出圖像的結構特征,使輸出圖像具有更好的視覺效果。
本文提出一種輕量級的卷積神經網絡實現圖像超分辨率重建任務,不同于堆砌神經網絡深度或寬度來提升算法性能,通過合理利用卷積與注意力機制,設計多通道特征提取塊,在降低參數量的同時,保證了模型的重建效果。
此外,多尺度的上采樣重構模塊加強了生成圖像的紋理細節,使其更接近于真實圖像。實驗表明,本文所提模型能實現與最先進的超分辨率網絡相當的性能。