張法正,楊娟,汪榮貴,薛麗霞
(合肥工業大學計算機與信息學院,合肥 230009)
單張圖像超分辨率(Single Image Super-Resolution,SISR)重建將一個低分辨率(Low Resolution,LR)圖像映射到一個高分辨率(High Resolution,HR)圖像,已廣泛應用于安保系統[1]、智能監控系統[2]、醫學圖像增強[3]等領域。由于一個特定的低分辨率圖像可能對應多個高分辨率圖像,因此SISR 是一個高度病態的過程。研究人員提出基于插值[4]、基于重構[5],以及基于學習[6-7]的SISR 方法,其中基于卷積神經網絡(Convolutional Neural Network,CNN)的SISR 方法因其強大的表征能力而具有優異的重建性能。
深度學習已經成為計算機視覺領域的重要工具,通過構建端到端的卷積神經網絡來學習低分辨率到高分辨率之間的映射關系。DONG 等將超分辨率重建任務和深度學習相結合,提出只包含3 層卷積層的超分辨率重建網絡SRCNN[8],具有較優的重建效果。為提高網絡模型的映射能力,KIM 等根據殘差學習原理,提出更深的網絡VDSR[9]和DRCN[10]。TAI 等在DRRN[11]中引入遞歸殘差塊,降低網絡的訓練難度并通過遞歸塊減少網絡參數。這些方法都是通過插值將低分辨率圖像放大到與高分辨率圖像相同的尺寸,進而提取特征,導致網絡的訓練時間延長。針對該問題,SHI 等提出ESPCN[12],在網絡末端通過亞像素卷積將初始低分辨率圖像放大到與高分辨率圖像一致的尺寸。后續很多網絡模型結合亞像素卷積的優點,重建效果都得到了一定程度的提升。LIM 等考慮到BN 層對超分辨率重建效果的影響,利用殘差塊堆疊出EDSR 網絡[13],并去掉相應的BN層。ZHANG等在RCAN[14]中引入SE[15]模塊,在每個殘差塊中加入SE 模塊,使網絡在傳遞信息的過程中不斷被修正,從而提高模型的性能指標。為降低計算成本,在超分辨率重建任務中,輕量級和高效模型的構建越來越受到研究人員的關注。AHN 等在殘差網絡的基礎上,結合級聯機制通過局部和全局來集成多個層的特征,設計一個適用于移動場景的輕量級網絡CARN[16],導致重建后的指標降低。之后,MUQEET 等提出MAFFSRN[17]并引入多注意力模塊來提高性能。ZHAO 等在通道聚合網絡(Path Aggregation Network,PAN)[18]中引入像素注意力,使得模型在加入較少參數量的同時提升重建指標。文獻[19]設計一種基于蝴蝶結構的網絡LatticeNet 以自適應組合殘差塊,取得了較優的重建效果。輕量級超分辨率重建網絡能夠平衡峰值信噪比(Peak Signal to Noise Ratio,PSNR)與參數量之間的關系。
本文提出一種輕量化動態自適應層疊網絡(Dynamic Adaptive Cascade Network,DACN)。通過雙路殘差的學習方式提取圖像的紋理細節并過濾冗余信息,增強信息交互性,獲得更豐富的信息。通過縱向并行地共享雙路殘差塊(Dual Residual Block,DRB)中的部分卷積參數,利用可學習參數調整共享卷積的權重,在減少參數量的同時,使得卷積參數更加契合原始特征與目標特征的非線性映射關系,提高網絡對紋理細節的提取性能。
DACN 的架構如圖1 所示。DACN由N個動態自適應層疊模塊(Dynamic Adaptive Cascade Block,DACB)通過殘差連接相連構成,并通過一個全局跳躍連接保留原始特征,將不同的卷積塊串接后加上1×1 卷積層,獲得中高頻信息,從而改善圖像重建效果。DACB由M個DRB和M-1 個動態自適應模塊(Dynamic Adaptive Block,DAB)層疊組成。

圖1 動態自適應層疊網絡結構Fig.1 Structure of dynamic adaptive cascade network
DACN 主要由N個DACB 通過殘差連接方式級聯組成,低分辨率圖像先通過3×3 的卷積提取淺層特征,令x表示網絡的輸入,淺層特征的計算過程如式(1)所示:

其中:fs表示3×3 的卷積操作。通過DACB 提取圖像的深層特征,深層特征的計算過程如式(2)所示:



1.1.1 動態自適應層疊模塊
動態自適應層疊模塊目的是有效地提取重要的紋理細節,同時過濾掉無用的特征。動態自適應層疊模塊主要包括DRB 和DAB。
根據殘差網絡的思想,DACB 選擇以層疊的方式將DRB 和DAB 聯合,通過每次的疊加使得初始特征與更新后的特征進行交互,增強網絡的非線性映射能力。DACB 每次通過DAB 的特征增強后,將1×1卷積層作為過渡層,以便后續更有效地提取特征。令DACB 的輸入為F0,DACB 的信息流傳遞如式(5)~式(7)所示:

1)雙路殘差塊,采用雙路并行的方式提取特征。本文考慮到加入過多的普通卷積使得參數量顯著提升,DRB 的上路通過深度可分離卷積提取低頻特征。相比對應的卷積,深度可分離卷積不僅具有較多的計算量以及較少的參數量,同時能更好地進行維度變化。假設DRB 的輸入為x,DRB 的上路信息傳遞如式(8)所示:

其中:μ表示LReLU 激活函數;fdw表示深度可分離卷積。通過一個像素注意力來修改特征權重,將像素注意力生成的三維矩陣作為注意力特征。像素注意力通過1×1 卷積層和Sigmoid 函數得到注意力圖,然后將注意圖與輸入特征相乘,如式(9)所示:

其中:σ表示Sigmoid 激活函數;f1表示1×1卷積。DRB 的下路由兩個殘差塊組成,主要目的是通過串行方式提取高頻特征,得到豐富的紋理信息,如式(10)所示:

其中:fr表示下路兩個殘差塊。最后將低頻特征和高頻特征合并,如式(11)所示:

其中:y表示DRB 的輸出,通過這種學習方式使得DRB 在提取高頻特征的同時保留一些必需的低頻信息。
2)動態自適應模塊,通常情況下,網絡越深參數量越多,可學習到的內容也就越多,最終得到的結果也會更理想。而輕量化網絡因其參數量較少,通常對模型的設計要求較高,需要充分且合理地利用卷積核來提取豐富的特征。因此,本文基于動態卷積核[20]的思想,設計動態自適應模塊,并與雙路殘差塊聯合工作,在網絡參數量減少的同時進一步增強特征的提取能力。動態自適應模塊結構如圖2 所示,利用注意力機制得到每個卷積核所需要的權重,該注意力機制與通道注意力類似,不同點在于最后通過Softmax 函數將權重值控制在0 和1 之間,且權重值總和為1。

圖2 動態自適應模塊結構Fig.2 Structure of dynamic adaptive block
動態自適應模塊的注意力機制以非線性方式疊加卷積核,使得模型的表征能力得到顯著提升。利用上層DRB 的下路4 個卷積核和2 個新的卷積核作為動態卷積核的子卷積,每個卷積核與權重值相乘再相加,使得模塊在提取特征時可以自適應地選擇卷積核的參數。DRB 中的下路卷積核通過串行方式來逐步提取特征,此時卷積核已經有了“橫向”提取特征的特征參數,經過DAB 的并行處理,使得原本擁有“橫向”特征參數的卷積核學習到“縱向”的特征參數,有效地提升了卷積核的利用率。由于動態自適應模塊的輸入是DAB 的輸出與初始特征的加和,因此在DRB 中引入兩個新的卷積核作為子卷積核,以動態校準獲取到的特征,在參數量小幅增加的同時使得模塊具有指導DAB 共享卷積塊的作用。假設x為DAB 的輸入特征,首先通過全局平均池化對x進行壓縮操作,得到通道級的全局特征,如式(12)所示:

然后對全局特征進行Excitation 操作,通過2 個全連接層學習各個通道間的關系,第1 個對得到的全局描述特征進行壓縮降維,第2 個再將其恢復成原始維度。Excitation 操作過程如式(13)所示:

其中:σ表示Softmax 函數;v1、v2表示2 個全連接層;w1,w2,…,w6表示經Softmax 后得到的權重結果,且w1+w2+…+w6=1。利用雙路殘差塊中的下路共享卷積核和2 個新的卷積核與權重相乘,如式(14)所示:

1.1.2 重建模塊
本文考慮到普通的上采樣會引入一些無用信息,影響重建效果,采用亞像素卷積將圖像上采樣至目標尺寸,再通過一個3×3 卷積對重建結果進行微調。假設Ff為深層特征,將其與淺層特征F0相加并送入到重建模塊得到最終結果。重建模塊信息流如式(15)所示:

其中:y表示最終生成的SR 圖像;φ表示重建模塊,包括亞像素卷積和3×3 的卷積操作。
本文考慮到L1 損失函數的收斂速度比L2 快,選擇L1 函數作為損失函數,如式(16)所示:

其中:N表示訓練集中圖像的總數;θ表示需要優化求解的模型參數集和表示第i個低分辨率圖像和高分辨率圖像;H表示本文所提出的DACN。
在訓練階段,本文使用DIV2K 數據集,該數據集是廣泛應用于超分辨率重建的訓練集。圖像通過水平隨機翻轉和旋轉90°、180°、270°進行數據增強。在測試階段,本文使用Set5[21]、Set14[22]、BSD100[23]、Manga109[24]基準數據集,為了與之前的工作保持一致,在YCbCr 顏色空間的Y 通道上使用PSNR 和結構相似性(SSIM)來評價SR 結果。
在本文提出的DACN 網絡中,未說明的卷積核大小都是3×3。DACN 包括3 個DACB,每個DACB包含3 個雙路殘差塊。LIM 和WANG 等提出BN 不僅消耗大量的計算資源,而且在超分辨率重建任務中會限制網絡參數的自由變化范圍,因此模型未采用BN層。本文模型使用ADAM優化器進行訓練,其中β1=0.9,β2=0.999,?=10-8。學習率初始化為1×10-4,每經過200 輪學習率下降1/2。因此,本文模型在訓練過程中將batch-size 設置為8。DACN 模型用Pytorch 框架來實現,并在NVIDIA 2080Ti GPU上進行訓練。
為驗證模塊的有效性,本文對動態自適應層疊網絡進行消融實驗。在Set5、Set14、BSD100 數據集上,當放大因子為4 時,不同模型的PSNR 對比如表1所示,ORB 表示單路殘差模塊。
2.2.1 雙路殘差模塊的有效性
現有網絡利用殘差塊提取圖像特征,忽略了深度可分離卷積可以大幅減少模型參數量的能力。從表1 可以看出:當模型僅利用ORB 進行學習時,即表中的DACN+ORB,其在Set5 數據集上的PSNR 為32.14 dB;當模型利用DRB 進行學習時,在Set5 數據集上DACN+DRB 模型的PSNR 為32.22 dB,同時參數量相比DACN+DRB 模型僅增加1×105左右,說明提出的DRB 在增加少量參數的同時可以充分挖掘圖像的細節特征,增強網絡的重建能力。
2.2.2 動態自適應模塊的有效性
DACN+DAB 為加入動態卷積核的網絡模型,即動態卷積核的子卷積沒有共享DRB 的下路卷積,在Set5 數據集上的PSNR 指標提升到32.27 dB。由此可以看出:動態自適應模塊利用可學習參數調整卷積的權重,使得卷積參數更加契合原始特征與目標特征的非線性映射關系,增強網絡對紋理細節的提取性能,同時,參數量也會大幅增加。因此,本文提出的動態自適應層疊網絡結合DRB 中的共享卷積,利用卷積核減少參數的同時,使得DRB 中的卷積可以學習到不同角度的細節特征,有效地提升了網絡的重建性能。
在Set5 數據集上,當放大因子為4 時,參數N對PSNR、參數量、計算量的影響如圖3 所示。從圖3 可以看出,PSNR 最初隨著參數N的增加上升幅度較大,當參數N=4 時,上升幅度逐漸減慢,當參數N≥4時,參數N的增加所帶來的參數量和計算量都會大幅增多,不符合輕量化標準,并且PSNR 變化不大。為了使得模型性能與重建質量實現最佳平衡,DACN 選擇參數N=3,即包含3 個DACB。

圖3 參數N 對峰值信噪比、參數量、計算量的影響Fig.3 Influence of parameter N on PSNR,parameter quanitity and calculation quanitity
在Set5 數據集上,當放大因子為4 時,不同網絡的PSNR 與參數量、計算量之間的關系如圖4 所示,圓形標注的是其他網絡,正方形標注的是本文DACN 網絡。DACN 在參數量和計算量較小的情況下,PSNR 指標較大,在性能與質量上達到了平衡。

圖4 不同網絡的參數量、計算量與峰值信噪比的關系Fig.4 Relationship between PSNR and parameters quanitity,calculation quanitity of different networks
本文將DACN 與其他超分辨率重建網絡進行對比,包括SRCNN、VDSR、LapSRN[25]、MemNet[26]、CARN、PAN、RFDN[27]。所有網絡分別在放大因子為2、3、4 的情況下進行評估。本文均使用峰值信噪比(PSNR)和結構相似性(SSIM)作為指標。表2 所示為不同超分辨率網絡模型在不同放大因子下峰值信噪比與結構相似性對比。加粗的數據為重建效果最優的數據,加下劃線的數據為次優。從表2 可以看出,本文提出的DACN 在基準數據集上的重建效果較優,參數量也較為理想。

表2 不同網絡的峰值信噪比與結構相似性對比Table 2 Peak signal to noise ratio and structural similarity comparison among different networks
當放大因子為4 時,在Urban100 和BSD100 數據集上,不同網絡的可視化結果對比如圖5 所示。從圖5 可以看出,本文網絡DACN 在恢復圖像紋理細節上有較大優勢。對于重構Urban100 數據集中圖像時,雖然PAN 和RFDN 在一定程度上恢復了部分紋理信息,但生成的部分線條有不同程度的彎曲。相比CARN、PAN、RFDN 等網絡,本文所提的DACN網絡恢復的圖案線條更加符合原圖的紋理。

圖5 不同網絡的可視化結果對比Fig.5 Visualization results comparison among different networks
本文提出基于動態自適應層疊模塊的輕量化網絡,在雙路殘差塊中利用深度可分離卷積減少參數量,同時引入像素注意力機制使網絡精確地提取圖像細節信息,將雙路殘差塊的一部分卷積參數與動態自適應模塊共享,不僅從不同角度提取特征,還可以根據不同的輸入以自學習的方式自動調整卷積核的參數,有效提升重建圖像的質量。實驗結果表明,相比VDSR、CARN、PAN 等網絡,本文網絡具有較優的圖像重建性能且參數量較少,在可視化圖像中生成的紋理更接近原始圖像的紋理線條。后續考慮將剪枝算法融入到動態自適應層疊網絡中,進一步減少網絡參數量,提高圖像重建能力。