張魯 李坤倫 魏澤發 柴艷娜
(長安大學教育技術與網絡中心,陜西西安 710064)
圖像超分辨率是從給定的低分辨率(Low Resolution,LR)圖像y中恢復高分辨率(High Resolution,HR)圖像x,退化模型可以定義為y=D(x),其中D是下采樣。當前,卷積神經網絡(Convolutional Neural Networks,CNN)被廣泛用于圖像超分辨率問題,此類方法假定LR圖像已經具有足夠的信息來預測相應的HR圖像。作為基于CNN的圖像超分辨率方法,SRCNN[1]通過預測LR和HR圖像之間的非線性映射重建高分辨率圖像。VDSR[2]通過采用更深的網絡,并結合殘差學習策略實現了比SRCNN更好的性能。
大多數基于CNN的圖像超分辨率方法都會選擇均方誤差(Mean Square Error,MSE)作為損失函數,MSE具有結構簡單、易于計算的特點,但通過MSE重建的高分辨率圖像過于平滑,針對這一問題本文選擇實例歸一化(Instance Normalization)改善重建圖像紋理和細節不足的缺點。
通常隨著網絡加深,非線性變換前的輸入值分布會逐漸偏移,整體分布往非線性函數取值區間的兩端靠近,導致反向傳播到低層神經網絡時梯度消失,這是訓練深度神經網絡收斂越來越慢的主要原因,因此需要利用歸一化技術避免這一問題。

表1 實例歸一化算法Tab.1 Instance Normalization
實例歸一化作為歸一化技術的一種,起初Ulyanov等人[3]將其應用在圖像風格轉換領域,相比批量歸一化能遷移更多的紋理和細節至目標圖像,借助這一特性,本文將實例歸一化用于圖像超分辨率。實例歸一化對一組數據中每個樣本分別做規范化操作,即將數據分布強行變換到均值為0方差為1的標準正態分布,算法如表1所示,使數據落在非線性函數比較敏感的區域,這樣輸入發生較小變化也會使損失函數產生較大變化,從而避免梯度消失的問題。對于一組數據格式為N×C×H×W(其中N為batch,C為channel,H×W為size),由于僅對每個樣本單獨做規范化操作,因此當N變小時需要增大H×W,即提高數據的尺寸,避免數據量過小造成網絡難以收斂。
在基于CNN的圖像超分辨率方法中加入實例歸一化有很多優點:梯度變大也意味著收斂速度變快,從而加快了模型的訓練速度;可以設置更大的學習率;降低了訓練過程中發生梯度爆炸或梯度消失的可能;對于卷積核初始化參數不是很敏感;在一定程度上可以避免過擬合等。
為了驗證實例歸一化的可行性,本文選擇VDSR的網絡結構作為基準,即前19層為卷積層+實例歸一化+ReLU激活函數,濾波器大小設置為3×3×64,最后一層為卷積層重建高分辨率圖像,濾波器大小設置為3×3×3。每一層都設置Padding,以確保經卷積運算的數據尺寸不發生變化。提出的方法同樣采用殘差學習策略,即學習高分辨率圖像和低分辨率圖像間(輸入圖像需經過Bicubic預處理)的殘差圖像。期望的殘差圖像和從噪聲輸入中估計的殘差圖像之間的平均均方誤差作為損失函數。
本文使用ADAM優化算法,其中beta1=0.9,beta2=0.999,epsilon=1e-8。所有模型共訓練50個epochs,學習率設置為1e-3(1~30epoch)至1e-4(30~50epoch)。選擇Pytorch 1.0深度學習庫驗證本文所有實驗,運行在Ubuntu 16.04+Python 3.6、CUDA9.0+cuDNN的軟件環境,和Xeon E3-1230 CPU、GTX 1080Ti GPU、64 GB RAM的硬件環境。
本文選擇DIV2K作為訓練數據,共包含900張分辨率超過2K的彩色圖像。為了驗證數據尺寸對模型訓練的影響,測試了四種不同的尺寸,包括60×60、120×120、240×240和480×480,對應的batch大小分別為128、32、8和2。選擇常用測試集Set5,Set14和BSD100[4]對提出的模型進行評估,評估方法包括峰值信噪比(PSNR)和結構相似性(SSIM)。
由圖1的變化曲線(BSD100數據集,放大倍數為×3)可以看到,模型精度隨訓練數據的尺寸增大而提升,480×480的曲線收斂最快且最平穩,PSNR達到28.85,高于60×60曲線0.85dB,驗證了前一節的觀點,對于加入實例歸一化的網絡,當N變小時需要適當增加H×W才能提高模型的性能。綜上本文基于480×480的訓練數據,對提出的方法(Proposed)和其他圖像超分辨率方法進行對比,包括×2,×3和×4三種放大倍數,與之對比的方法有Bicubic,SelfExSR[5],SRCNN[1],VDSR[2]。由表2可以看到,提出的方法在三個測試集中的表現優異,略高于基于CNN的圖像超分辨率方法VDSR。

圖1 不同尺寸數據收斂曲線Fig.1 Convergence curves of different size

表2 不同方法PSNR對比Tab.2 Comparison of PSNR

圖2 不同方法重建圖像對比Fig.2 Comparison of reconstructed image
視覺質量是圖像質量評估中非常重要的部分,圖2展示了不同超分辨率方法的重建圖像,放大倍數為×4,用于測試的圖像均來自BSD100。本文提出方法的重建圖像具有更多的紋理和細節,邊緣結構更清晰,更接近與原始高清圖像。相比VDSR有效改善了MSE損失函數的缺點,避免了重建圖像過于平滑。
本文為基于CNN的圖像超分辨率方法提供了一種思路,借助實例歸一化技術改善重建圖像的視覺效果,證實在圖像超分辨率問題中使用實例歸一化是可行的,即需要用更大尺寸的數據進行訓練。此外,本文提出的方法其重建圖像的精度也略高于同類型方法VDSR。