程 玉,鄭 華,2,3,4,陳曉文,林爍爍,張明偉
1(福建師范大學 光電與信息工程學院,福州 350007)
2(福建師范大學 醫學光電科學與技術教育部重點實驗室,福州 350007)
3(福建師范大學 福建省光子技術重點實驗室,福州 350007)
4(福建師范大學 福建省光電傳感應用工程技術研究中心,福州 350007)
生活水平的提升使得人們對于畫面清晰度的要求日益增高.在手機中,相機的拍攝功能直接影響銷量,廠商付出眾多精力提升圖像畫質,由此圖像超分辨率重建技術應運而生.其在醫學成像,圖像壓縮,安防監控等領域有著重要的研究意義[1].早先提高圖像分辨率的方法是改進圖像采集系統中的光學器件,然而這種方法受到生產成本和制造工藝的限制.近年來,隨著科學技術的高速發展,深度學習的蓬勃興起,實現圖像超分辨率重建成為計算機視覺領域一大熱門研究課題.
一直以來,圖像超分辨率重建可以分為3 大類:1)基于插值的方法,例如:最近鄰插值,雙線性插值和雙三次插值[2].2)基于重建的方法,例如:貝葉斯分析法,迭代反投影法等.3)基于學習的方法,例如:稀疏表示法,鄰域嵌入法等.傳統的方法對于圖像超分辨率重建的處理速度快但丟失大量高頻信息,細節紋理恢復有限且消耗大量資源.卷積神經網絡被應用在圖像超分辨率領域是2014年提出的SRCNN[3],該方法開啟了該領域的新面貌.自此,眾多研究者使用各種深度學習的方法來研究,成果不斷.
采用深度學習的方法進行圖像超分辨率重建的優勢主要在于卷積神經網絡具有強大的特征捕獲能力.但模型難以快速收斂,消耗大量時間的問題顯露出來.這也意味著需要消耗更大的內存空間,網絡也面臨著“過擬合”的風險.因此,如何在增加網絡深度的同時不增加網絡參數量且圖像重建精度高,是目前圖像超分辨率重建研究的重要任務[4].
本文提出的基于密集殘差注意力網絡的圖像超分辨率算法,可以明顯提升圖像重建視覺效果,網絡收斂速度快,有效緩解網絡“過擬合”的問題.該網絡的深層特征提取部分主要采用密集殘差網絡(Residual Dense Network,RDN),并且受到SE-Net 的激發,在網絡中加入通道注意力機制,區分高低頻信息,給高頻信息大的權重.網絡不需要學習低頻無用信息.經實驗驗證,本文提出的密集殘差注意力網絡在圖像超分辨率重建技術上取得了不錯的視覺效果.
近幾年來,圖像超分辨率領域迎來大熱潮,研究者廣泛使用深度學習的方法.Chao Dong 等人[5]改變了傳統方法復雜且效果有限的囧境,他們成功將卷積神經網絡運用于圖像超分辨率.研究者在SRCNN 的基礎上加以改進,不斷擴大網絡深度,加快模型訓練的速度,以獲取深層的圖像信息來實現超分辨率重建.FSRCNN提出SRCNN 模型的弊端,直接將LR 圖像輸入網絡,無需預處理操作,采用反卷積(deconvolution)進行圖像重建操作,加速網絡訓練,網絡性能提升一個臺階;VDSR[6]利用殘差學習(residual learning)將網絡深度擴大到20 層,擴大感受野,抓取深度特征,重建效果得以提升;DRCN 首次采用遞歸神經網絡(RNN)實現圖像的超分辨率[7];稠密塊(Dense Block)被應用于圖像的超分辨率是在SR-Dense-Net 中,該網絡最大的優勢在于重復使用特征圖,有效利用了LR 圖像的信息;LapSRN[8]多次擴大圖像的分辨率.該網絡的優勢體現在高放大倍數情況下,例如×4 放大倍數下,輸出結果是在×2 放大倍數下重建的圖像和原LR 圖像上再次重建得到,在一定程度上恢復出圖像的細節.
近年來,隨著科學技術的高速發展,深度學習的蓬勃興起,實現圖像超分辨率重建成為計算機視覺領域一大熱門研究課題.對于圖像超分辨率任務,圖像恢復起關鍵性作用的高頻成分主要是圖像的紋理和邊緣等特征,因此,均等地對待各通道特征是不現實的.研究者在研究人類視覺特性時,發現人在觀察事物時會選擇性地關注部分信息而忽略其他信息.2017年,SENet[9]中提出將注意力機制加入深度網絡中,對特征通道間的相關性進行建模,重點關注重要特征來提升準確率,SENet 的網絡框架如圖1所示.

圖1 注意力機制
圖1左側由C 個特征圖組成的輸入特征圖組為X=[x1,x2,…,xi,…,xC],大小均為H×W.具體操作如下:
(1)Sequeeze 操作
首先使用全局平均池化(global average pooling),將每個二維的特征通道變成一個標量,該標量具有全局感受野,該步驟稱為Sequeeze 操作,公式如下:

其中,Fsq為Sequeeze 操作的函數,第c個特征圖上位置(i,j)的 值為Xc(i,j).
(2)Excitation 操作
Excitation 利用參數w為每一個通道形成權重.該過程是由兩個全連接組成.第1 個全連接層將C個通道壓縮成C/r個通道,稱為通道下采樣(channel downscaling):第2 個全連接層恢復C個通道,公式如下:

其中,z是Sequeeze 操作的全局描述,δ表示ReLU 函數,σ為Sigmoid 函數.降采樣的卷積層權重設為WD∈,上采樣的卷積層權重設為WU∈,r是縮放率[10].
(3)融合操作
在Excitation 操作后獲得特征圖X的各個通道的權重,再將輸入特征與通道權重相乘,公式如下:

其中,Sc是第C個特征圖通道的權重,Xc是第C個特征圖.
如圖2所示,密集殘差注意力網絡主要包含4 大部分:淺層特征提取,深層特征提取,上采樣,重建.令輸入圖像為ILR,本文的淺層特征提取可用下式表示為:

其中,HSF代表淺層特征提取層的函數.F0代表該層的輸出.深層特征提取模塊即非線性匹配層,包含4 個密集殘差注意力模塊,具體公式如下:

其中,HRAM表示深層特征提取層的函數,FDF代表該層輸出的深層特征圖.深層特征提取層包含4 個密集殘差注意力模塊,可以充分獲取深層圖像高頻信息.具體操作將在3.2 節詳細討論.

圖2 網絡框架
接下來進行上采樣操作(Upscale).我們將深層特征圖輸入上采樣模塊,具體公式如下:

HUP代表上采樣函數,FUP代表上采樣后的特征圖.
最后將FUP輸入重建模塊,即:

其中,ISR代表最終輸出圖像,HRec代表圖像重建函數.
密集殘差注意力模塊主要包含4 個相同的殘差注意力塊(RAB)和密集連接(Dense Connection),具體框圖如圖3.
令第l個殘差注意力塊用公式表示為:

其中,Fl?1,Fl+1分別表示第l?1,l+1個RAB 模塊,即第l個RAB 模塊的輸入和輸出,Hl(·)表示第l個密集殘差注意力塊函數.第l個RAB 模塊操作細節如下:
首先Fl-1經過一個空洞卷積層(dilated convolution)得到Fl′,公式如下:

其中,HD-Conv表示空洞卷積操作的函數.由于網絡層數增加容易導致網絡退化等問題,因此,本文引入殘差塊解決這一問題.殘差塊可用式(10)表示為:

傳統的卷積操作均等對待每一個特征圖,在圖像超分辨率任務中,對超分辨率結果有用的特征和無用的特征被均等對待,極大降低網絡效率.因此,我們在網絡中加入通道注意力塊,為每一個特征通道學習一個權重,該權重代表特征圖的重要度.這將使網絡重點關注有用的信息.具體公式如下:

其中,是兩層卷積層后的特征圖,Al(·)代表第l個密集殘差注意力模塊的特征通道注意力函數.

圖3 殘差注意力塊
殘差網絡通過建立“短路連接”可以極大加深網絡,自問世以來深受研究者熱愛.當網絡深度加深到一定程度的弊端是網絡收斂速度極慢.密集網絡(DenseNet)[10]建立前面所有層與當前層的密集連接(dense connection),且能特征重用(feature reuse),很好地解決了此問題.具體結構如圖4所示.

圖4 密集連接機制
本文受到密集卷積神經網絡的啟發,在網絡中加入密集連接機制,如圖4所示.具體公式表示如下:

密集連接機制充分利用LR 圖像的特征且深層特征可以利用淺層的特征,增大信息的流動,減少了網絡訓練參數量.特征重用可以減少卷積操作的同時,增加特征圖的數量,有效提高網絡學習效率.
目前圖像超分辨率的訓練基準數據集主要有:DIV2K,Flichr2K,PixelShift200 等,如表1所示.本次實驗,我們采用Flichr2K 數據集來訓練網絡.主流測試數據集主要有:Set5,Set14,BSD100,Urban100,Manga109 等,如表2.深度學習模型需要通過大量數據進行訓練,然而現有的訓練數據集普遍包含的圖片數量較少.因此本文使用數據增強技術[11],將訓練數據隨機旋轉90°,180°,270°,平移和翻折,裁剪訓練的LR 圖像塊大小為48×48.目前圖像超分辨率網絡的輸入是LR圖像,獲取方式是由HR 圖像在Matlab 平臺,經4 倍的雙三次下采樣(BicubicDownsampling)得到.

表1 訓練數據集(單位:張)

表2 測試數據集(單位:張)
對于圖像超分辨率效果的客觀評價指標主要有PSNR和SSIM[12],圖像超分辨率的效果可以用這兩個指標衡量.
(1)PSNR
給定一個大小為m×n的HR 圖像X和重建的超分辨率圖像F,均方誤差(MSE)定義為:

PSNR定義為:

由于PSNR與人眼的敏感特性不完全符合,因此由于PSNR與人眼的敏感特性不完全符合,因此根據PSNR的數值判斷圖像生成的效果是不合理的.
(2)SSIM
SSIM是衡量圖像間結構相似性的指標,結構相似度是從圖像組成的角度將結構信息定義為反映場景中物體結構的屬性,并將失真建模為亮度、對比度和結構3 個不同因素的組合.其值在0 到1 之間,若兩幅圖結構完全相似,則SSIM值為1.
本文的實驗需要在配有NVIDA GeForce 1080Ti的計算機上進行,并調用PyTorch 庫.采用Adam 優化器,初始學習率設為10?4,每反向傳播2×105,學習率下降1/2.除了特征圖通道放大或縮小時卷積核大小設為1×1 以外,其余卷積操作的卷積核大小均設為3×3,卷積后使用PReLU 激活.
我們與目前超分辨率效果較好的幾種方法,例如:SRCNN,LapSRN,VDSR,RCAN[13],MCAN[14]等作比較.放大倍數分別為:×2,×4,×8.在Set5,Set14,BSD100,Urban100,Manga109 測試數據集上進行測試,得到如表3所示的PSNR和SSIM數值.從表中可以看出,在放大倍數為8 倍時,在Set14 測試集上,本文提出的方法的PSNR值達到25.43.從客觀評價指標上看,本文提出的方法可以將圖像中的細節恢復清晰,性能表現優于目前表現較好的RCAN 和MCAN 等方法.并且當放大倍數較高時,本文提出的算法性能越好.

表3 不同超分辨率方法的PSNR 和SSIM 數值比較
在視覺效果上,我們在圖5中展示了在×4 放大倍數下的效果,可以看出本文提出的算法恢復的圖像高頻紋理較其他算法清晰.可見,無論是PSNR和SSIM數據值還是人眼的視覺效果,本文提出的基于密集殘差注意力機制的圖像超分辨率算法細節恢復較好,圖像重建效果優于其他算法.
在訓練階段,本文提出的方法增加網絡深度,相對于RCAN,MCAN,參數量較少.如圖6所示,本文在×4 放大倍數下的Urban100 數據集上進行對比試驗.本文的方法在參數量和性能上做了較好權衡,獲得了較高的PSNR值,其參數量遠遠小于MCAN 和RCAN.
由于大部分圖像超分辨率算法的網絡訓練速度慢,生成圖像紋理不清晰,本文提出的基于密集殘差注意力網絡針對這些問題做出改進,并取得優秀的視覺效果.利用殘差網絡極強的特征捕獲能力,有效解決梯度消失的問題.注意力機制可以充分利用LR 圖像的特征,重點關注對圖像超分辨率有用的特征,忽略無用的特征,有效提高網絡的收斂速度,降低參數量.由實驗驗證可知,本文提出的基于密集殘差注意力網絡的圖像超分辨率算法參數量少,網絡收斂速度快.因此,基于密集殘差注意力網絡的圖像超分辨率算法在圖像重建質量和網絡性能上均優于其他主流超分辨率算法.

圖5 視覺效果對比

圖6 參數量分析