劉郭琦, 劉進鋒, 朱東輝
(寧夏大學 信息工程學院,寧夏 銀川 750021)
在現代生產生活中,人們對圖像質量的需求越來越高。由于低分辨率模糊圖像不能滿足應用需求,高分辨率圖像逐漸成為了人們的剛需。雖然光學器件的發展對超分辨成像效果顯著[1],但由于成本和應用環境的限制,算法層面的超分辨率重建技術仍然具有廣泛的應用價值和市場前景。
圖像超分辨率重建方法可分為傳統方法和基于深度學習的方法。傳統方法包括基于重建[2]和基于插值[3]兩種方法。基于重建的方法主要包括迭代反投影法[4]和凸集投影法[5]等,這類算法操作方便、重建速度比較快,但是所引入的先驗知識有限,在重建后會丟失很多圖像細節,效果并不理想。基于插值的方法包括雙三次插值法[6]、最近鄰插值法[7]等,這類方法原理簡單,重建速度快,但重建的圖像比較模糊,實際應用價值不高。基于深度學習的超分辨率方法效果相比傳統方法好很多,在研究發展過程中逐步提高了神經網絡的性能,使超分圖像具備了高頻信息,變得十分清晰。
對于基于深度學習的圖像超分辨率重建方法,通常如果學習的樣本足夠多,神經網絡趨近最佳映射,重建的效果更好。目前基于深度學習的卷積神經網絡算法是解決圖像超分辨率問題的主流方法,該類方法重建圖像質量高、受應用場景限制少。
2014年,Dong等人提出的超分辨率卷積神經網絡(SRCNN)[8]是超分辨率問題中深度學習的首次應用。SRCNN網絡結構包括3層:第一層提取補丁以低分辨尺度上的特征表示,第二層逼近非線性映射函數,第三層重構圖像。SRCNN是超分辨率技術的一個里程碑。
后來Kim等人提出的VDSR[9]是一個非常深的殘差網絡。VDSR的網絡結構共有20層,每一層都有一個小型濾波器。輸入圖像到輸出估計間采用跳躍連接,使得卷積層學習估計與真實圖像之間的殘差。梯度裁剪策略允許使用高學習率來訓練網絡,對于龐大的架構,仍然可加快收斂速度。梯度裁剪的原理是截斷單個梯度,以便將所有梯度限制在預定范圍內,同時增加網絡的深度,結果的準確性也得以提高。
深度遞歸卷積網絡(DRCN)[10]采用了遞歸結構,在減少參數量的同時增加了網絡的深度。遞歸結構通過重復使用相同的簡單濾波器來提取圖像特征,遞歸塊的所有中間輸出及網絡的輸入被饋送到卷積層用于生成輸出預測。輸出預測有4個,最終估計由輸出預測的線性組合確定,并由均方損失優化。限制普通遞歸網絡性能的因素主要是梯度爆炸或消失,它們導致網絡的不穩定和學習能力的下降。DRCN采用兩個策略來解決這個問題:遞歸監督和跳躍連接。遞歸監督是指遞歸塊的所有中間輸出都參與確定輸出預測,且每個輸出預測都接受均方損失的監督,輸出預測之間的差異能夠平滑參數的梯度。遞歸監督是消除梯度的一種補救方法,跳過連接可避免梯度爆炸。
隨著網絡深度的不斷加深,增強型深度殘差網絡(EDSR)[11]應運而生。使用殘差塊(ResBlock)可以在低分辨率上增強結構信息,提升了圖像質量,并在殘差塊中刪除了批量歸一化,引入了恒定的縮放層,減少了圖像細節被忽視的可能,保留了更多圖像的淺層信息,有利于圖像的重建,減少了參數總量,并使用L1損失訓練,擴大了模型的尺寸來提升圖像質量。
隨后Lai等人提出了拉普拉斯金字塔網絡(LapSRN)[12],目的是逐步重建高分辨率圖像的殘差,以低分辨率特征圖作為輸入,預測高頻殘差。但該結構每次采樣后計算量會成倍增加,所以在計算上會受到很大的限制,難以應用到深層網絡。
Zhang等人提出了一個殘差密集網絡(RDN)[13]。該研究比較了不同的網絡塊:殘差塊、密集塊、殘差密集塊,其中1×1卷積層用于減小維數,殘差塊強制濾波器學習殘差信息;而密集塊能提高網絡描述復雜功能的能力;殘差密集塊兼具前兩者的優點,可以提供更好的性能。
Ledig等人提出了超分辨率生成對抗網絡(SRGAN)[14],它的創新在于改變了損失函數,從原來的均方誤差(MSE)轉為基于VGG的內容損失函數,利用生成網絡和判別網絡之間相互對抗的方法來提高圖像的分辨率,將結果引入到生成網絡的損失函數中,重建后的圖像更加清晰,細節更加豐富,更符合人眼的主觀感受。
綜上所述,雖然超分辨率模型中神經網絡層數越來越深,對模型性能有著更好的提升,但是在視覺感受上還有著些許欠缺。SRGAN模型是上述模型中比較經典的模型,適用范圍很廣,但是這個模型對于圖像細節的恢復還有待進一步提升,為此本文對SRGAN模型進行了更深入的研究。受人類注意力機制的啟發,本文在該模型的基礎上引入了注意力機制,提出了改進優化模型,使其重建的圖像更加清晰。
基于深度學習的超分辨率技術有很多,但往往處理后的圖像過于平滑且缺乏高頻信息,生成對抗網絡的出現大為彌補了這一缺點。GAN擁有出色的擬合能力,在計算機視覺領域起著非常重要的作用。SRGAN在基于殘差網絡的圖像超分辨率重建方法的基礎上加入了判別器網絡,其主要改進有:(1)將均方損失函數(MSE)替換為對抗損失和內容損失;(2)引入了生成對抗網絡,把傳統像素空間的內容損失替換為對抗性質的相似性;(3)引入深度殘差網絡,用于提取更豐富的圖像細節。SRGAN的生成器網絡(Generator Network)結構和判別器網絡(Discriminator Network)結構如圖1所示。

圖1 SRGAN生成器G和判別器D模型Fig.1 SRGAN generator(G) and discriminator(D)model
圖1中,n代表特征圖個數,s代表卷積步長。生成器中包含了多個殘差塊,以及批量歸一化層(Batch Normalization,BN)和激活函數層;判別器包含8個卷積層,激活函數為Leaky ReLU函數,最后連接著全連接層。SRGAN目的是將超分辨率的放大因子增大,當放大倍數超過4倍時,能得到較好的效果。使用感知損失、對抗損失來實現圖像超分辨率重建,增加了恢復圖像的清晰度和逼真度,但SRGAN生成的圖像存在偽影。
近年來,隨著深度學習的研究越來越深入,注意力機制(Attention Mechanisms)[15]逐漸成為了深度學習研究的熱點問題之一,成為神經網絡中的一個重要概念。注意力源于人類的視覺系統,在人們觀察外界事物時,通常不會把外界事物看作一個整體,而是更傾向于選取事物中最重要的部分進行觀察,把重要部分和相對不重要部分組合起來,形成一個觀察的整體。注意力機制對網絡輸入的每個部分賦予不同的權重,提取所需的重要信息,輔助模型做出準確判斷,與此同時并不帶來更大的計算、存儲開銷,這也是注意力機制應用廣泛的原因。
注意力機制可分為空間域注意力、通道域注意力、混合域注意力和時間域注意力。
通道域注意力機制不考慮每個像素之間的差值,對所有的特征進行了加權。在神經網絡中,初始圖像按(R,G,B)三通道進行表示,經過不同的卷積核運算之后,每個通道都會自動產生新的信號。例如我們在使用64核卷積提取通道圖像特征時,都會自動產生64個新的通道矩陣(H,W,64),H和W分別表示其高度和寬度。每個通道上的信號都有一個權重,通道與通道之間具有一定相關性,如果權重越大,則相關性也就越高。
本文使用的ECA[16]通道注意力就是通道域注意力機制的一種。它是一種輕量級通道注意力,可以通過快速一維卷積有效地實現。此外,一個通道維數的函數就可以自適應地確定一維卷積的核大小,它代表了局域交叉通道相互作用的覆蓋范圍。ECA模塊可以靈活地整合到現有的CNN架構中,與同類網絡相比,ECA具有更高的效率。ECA通道注意力包含少量參數,顯著降低了模型的復雜度,性能得到明顯提升。
圖2為ECA通道注意力模塊示意圖。ECA模型通過全局平均池化層(GAP)獲得聚集特征,通過執行卷積核大小為k的快速1D卷積來生成信道權重,其中k是通過信道維度C的映射自適應所確定。

圖2 ECA通道注意力模塊Fig.2 ECA channel attention module
ECA模塊可以適當地捕獲本地跨通道交互,因此需要確定交互的覆蓋范圍。對于在不同CNN架構上具有不同頻道的卷積塊,可以手動調整交互的最佳覆蓋范圍。其中高維(低維)涉及固定組數的長距離(短距離)卷積。交互覆蓋范圍與信道維度C成正比,換言之,k與C之間可能存在映射關系φ:
C=φ(k),
(1)
最簡單的映射是線性映射,即φ(k)=γ*k-b,但用線性函數刻畫的關系過于有限。另一方面,信道維數C是濾波器的數量,通常設置為2的冪次。因此通常用線性函數φ(k)=γ*k-b擴展到非線性函數中解決更多的問題。
C=φ(k)=2(γ*k-b),
(2)
然后給定信道維度C,可自適應地確定卷積核大小k:
(3)
式中:|t|odd代表最接近t的奇數,γ和b分別代表簡單線性映射的斜率和截距。顯然通過映射ψ,高維通道具有較長的交互范圍,而低維通道則需要使用非線性映射經歷較短的范圍交互。
本文提出的網絡模型是在 SRGAN 模型的基礎上分別優化生成器G和判別器D。將生成器中的殘差模塊的BN層去除,并引入注意力模型——ECA通道注意力。判別器則去除了步長為1的卷積層,從而構建運行速度更快的生成對抗網絡的圖像超分辨率模型。
SRGAN的生成器包含多個殘差塊,本文對這些殘差塊進行了改進,改進的殘差塊網絡結構如圖3所示。改進后的殘差塊去除了BN層。對數據進行BN處理能夠加快網絡收斂速度、防止梯度彌散。但在圖像超分辨率重建問題中,批歸一化操作會破壞卷積層所提取到的特征映射分布,導致色彩歸一化、破壞原圖像的空間表征等問題,直接影響圖像重建效果;另一方面,BN層增加了計算的復雜度和內存消耗,因此本文移除了原SRGAN中的BN層。同時在殘差模塊中加入了ECA注意力模塊(ECA-Net),由于其高效、輕量的模型特性,能更好地獲取圖像的高頻信息。

圖3 (a)SRGAN殘差塊;(b)改進的殘差塊。Fig.3 (a)SRGAN residual block ;(b)Improved residual block.
表1是生成器結構的相關參數。每一個卷積層依次命名為Conv_1,Conv_2,Conv_3,Conv_4,Conv_5,Conv_6;每一個反卷積層依次命名為Deconv_1,Deconv_2,…Deconv_6。所有卷積層和反卷積層的參數都列在表1中。對于Leaky ReLU根據文獻[15]經驗,統一α等于0.2。

表1 生成器卷積層結構相關參數
對SRGAN的判別器網絡改進后的結構如圖4所示。為了描述方便,將一個卷積層(Conv)和批歸一化層(BN)和激活層(Leaky ReLU)稱為卷積模塊。在網絡中,圖像每經過1個卷積模塊,特征圖的尺寸減半,通道數擴大。因為池化層容易丟失有用的信息,本文采用步長為2的卷積層來代替原SRGAN中的池化層。經過4個卷積模塊后,使用全連接層(FC)將輸出的特征圖映射為一個值,再使用Sigmoid層將該值映射到(0,1)區間內,得到最終的預測值,該預測值用于判斷輸入的圖像是否為真實圖像。

圖4 改進后的判別器網絡Fig.4 Improved discriminator network
判別器各層數配置如表2所示。

表2 改進后判別器卷積層配置
對于超分辨率圖像重建技術的結果評價時,主觀評價在不同的環境下,不同的人往往會有不同的主觀感受,從而有不同的評價,并伴隨著周圍環境的變化而變化,因此評價往往不能統一,所以需要引入客觀評價標準,以此更好地對超分辨率圖像做出更真實和準確的評價。
本文采用的客觀評價指標是峰值信噪比(Peak signal to noise ratio, PSNR)和結構相似性(Structural similarity, SSIM),這兩個評價指標是目前基于深度學習圖像超分辨率重建的主要評價指標。
PSNR是衡量圖像重建質量效果的客觀評價指標,它與生成圖像的均方誤差(MSE)的對數成反比。PSNR能反映圖像的噪聲水平,可以表征重建圖像失真的大小,其值越大,表示重構圖像的效果越好。
SSIM是衡量圖像之間結構相似度的客觀度量,它可以表示為亮度、對比度和結構比較的加權乘積。SSIM的范圍為0~1,當兩張圖像一樣時,SSIM的值越接近1,說明圖像效果越好。
為了保證數據實驗的準確性和重建效果,本文提出的改進算法使用DIV2K、BSDS300、Set5、Set14高清數據集。
硬件平臺配置如表3所示。實驗使用的是Ubuntu操作系統,深度學習框架是Pytorch,在優化器為Adam的情況下訓練了100輪。同時依據電腦性能,圖像在輸入前統一被裁剪為128×128大小的圖像,訓練的batch size設置為64,驗證batch size設置為32,損失函數為L1。

表3 實驗環境Tab.3 Experimental environment
如圖5所示,圖(a)與圖(b)、圖(c)相比,在放大2倍和4倍的情況下,中間畫框區域放大后,改進后模型的翅膀線條依然清晰,說明重建起到了一定效果,因此本算法對高頻特征的恢復具有一定優勢。

圖5 不同放大因子下的超分辨率重建圖像。(a)低分辨率圖;(b)使用2倍放大因子;(c)使用4倍放大因子。Fig.5 Super-resolution reconstructed images at different magnification factors.(a) Low resolution image;(b) Under 2x magnification factor;(c) Under 4x magnification factor.
通過一系列實驗,本文將在客觀評價結果和主觀評價結果兩方面來表示優化后的模型重建能力。表4和表5給出在4倍放大因子下,Bicubic、SRCNN,SRGAN和本文提出的改進的模型(Ours)在4種數據集上,評價指標PSNR和SSIM的對比結果。

表4 4種網絡模型PSNR對比
改進后的模型在各個數據集的PSNR指標都有了一定提升,說明改進后有了一定提高。

表5 4種網絡模型SSIM對比
改進后的模型在各個數據集的SSIM指標都更高,說明改進后有了一定提高。
改進后的模型由于總參數量減少,在運行速度上也有了一定的提升。表6給出了SRGAN與本文改進的模型(Ours)總參數情況。

表6 改進前后模型的總參數量對比
由于總參數量的不同,改進后的網絡模型總參數量明顯小于SRGAN,因此運行速度也有了小幅的提升。
本文提出基于生成對抗網絡的超分辨率重建算法的改進,在生成網絡中加入了ECA通道注意力,在判別網絡中改變了卷積模塊,通過采用通用訓練集DIV2K、BSDS300、Set5、Set14進行測試,實驗表明改進的生成對抗網絡重建算法在峰值信噪比(PSNR)和結構相似性(SSIM)上均有提升,參數量有所減少,運行速度有所提高。最后本文利用普遍采用的 PSNR 和 SSIM 評價指標, 對本文方法產生的超分辨率圖像同其他方法進行了對比, 證明了本文方法的網絡性能和重建圖像在視覺質量上與數值評價上的優異表現。