仝衛國, 蔡猛, 龐雪純, 翟永杰
(華北電力大學控制與計算機工程學院, 保定 071003)
隨著圖像處理技術的發展,圖像檢索、目標檢測、語義分割等處理過程中對圖像質量的要求越來越高。圖像超分辨率重建技術是一種從算法層面入手,利用一幅[1]或多幅[2]低分辨率(low resolution, LR)圖像生成一個具有良好視覺效果和接近真實圖像的高分辨率(high resolution, HR)圖像的方法。圖像超分辨率重建技術已經在許多領域中得到了廣泛應用,如在投影成像[3]、醫學影像報告[4]、航空航天監測[5]等都有著非常高的價值。
目前常用的超分辨率重建技術主要分為3類,分別為基于插值[6-7]、基于重建[8-9]和基于學習[10-13]的方法。其中,基于學習的重建方法為當前的主流方法。通過學習先驗知識,利用LR圖像和HR圖像之間的映射關系,重建出高分辨率圖像。Dong等[14]采用卷積神經網絡對低分辨率圖像進行特征提取,為了提高重建速度,在算法基礎上又提出了FSRCNN(fast super resolution convolutional neural networks)。為解決實時超分辨率重建問題,Shi等[15]提出了亞像素卷積層網絡(efficient sub-pixel convolutional network, ESPCN),將沒有經過任何操作的低分辨率圖片作為原始的輸入,使特征圖的尺寸得到了縮減。Kim等[16]提出了基于深度卷積神經網絡的重建方法(very deep convolutional networks for image super-resolution, VDSR),在更深的網絡多次使用級聯小濾波器,有效利用了圖像的下文信息,解決了網絡退化問題。Kim等[17]采用共享參數的遞歸結構,提出了深度遞歸卷積神經網絡(deeply-recursive convolutional network, DRCN)模型。Tai等[18]提出的深度遞歸殘差網絡(deep recursive residual network, DRRN),同時利用了局部殘差結構、全局殘差結構和遞歸結構。殘差單元之間共享,增加少量參數,改進了VDSR和DRCN的性能,但仍存在著提取特征單一的問題,不利于對低分辨率圖像信息進一步提取。
圖像重建質量的好壞與模型的網絡結構深淺以及卷積核感受野大小有著非常密切的聯系,現在已有的深度網絡模型,大多是直接增加卷積層來達到擴大網絡感受野的目的,但是這樣做不利于對圖像信息的進一步提取。孫超文等[19]提出了多尺度特征融合反投影網絡,在淺層特征提取層使用多尺度的卷積核提取不同維度的特征信息,然后構建多尺度反投影模塊通過遞歸學習執行特征映射,放大倍數大時重建性能相比其他算法效果更好。劉遵雄等[20]提出了多尺度并聯學習的生成對抗網絡結構,對提取的低分辨率圖像通過兩個子網絡的多尺度特征學習,融合不同尺度高頻信息,最終生成高分辨率圖像,在恢復低分辨率圖像的細節紋理信息有更好的效果。
為了增加圖像的細節語義信息提取,在DRRN的基礎上,現提出一種融合了多尺度特征的網絡模型,主要由多尺度特征提取模塊、遞歸網絡和密集連接網絡三部分組成。采用多尺度特征提取模塊代替原模型中的局部殘差結構,提取更加全面的特征信息;同時引入遞歸學習,提高網絡的收斂速度;添加密集連接結構,使特征傳播得到增強,減少參數計算,減輕梯度消失問題。
深度遞歸殘差網絡(DRRN)是深度卷積神經網絡模型,其深度達到了52層。DRRN算法將ResNet(residual network)中的局部殘差學習與VDSR中的全局殘差學習相結合,不僅加深網絡深度而且解決了梯度消失的問題,使圖像細節得到了增強。在增加深度的同時,在遞歸塊中遞歸地學習增強的殘差單元結構,并且將遞歸塊重復連接用來學習HR和LR圖像之間的殘差圖像,控制模型參數。
ResNet、VDSR、DRRN結構簡化示意圖如圖1所示,由圖1可以看出,ResNet中采用的是局部殘差模塊,VDSR中采用的是全局殘差模塊,而DRRN同時采用了這兩種結構單元,其中的綠色虛線框代表局部殘差單元,由兩個卷積層(conv)組成,紅色虛線框代表遞歸塊,每個遞歸塊由兩個殘差單元組成,并且可以使用多個遞歸塊進行連接,連接個數通常與具體要解決問題的實際情況相結合,DRRN中權重共享在殘差模塊中實現。

圖1 ResNet、VDSR、DRRN結構簡化示意圖Fig.1 Simplified schematic diagram of structure of ResNet, VDSR and DRRN
與ResNet不同的是DRRN將批歸一化層(BN)與線性修正單元(ReLU)放在權重層(weight)的前面,這種結構模式被稱為預激活(pre-activation)。以第u個殘差單元為例,預激活的網絡結構如圖2所示。

圖2 DRRN第u層殘差單元預激活網絡結構Fig.2 u-th layer residual unit pre-activated network structure of DRRN
黑色虛線框表示殘差函數F,殘差函數F由兩個卷積層組成,每個層由BN-ReLU-weight層堆疊而成。包含預激活結構的殘差單元的輸出公式為
Hu=F(Hu-1,W)+H0
(1)
式(1)中:Hu-1和Hu分別為第u層殘差單元的輸入和輸出;F(x)為殘差函數;W為在同一遞歸塊內的殘差單元共享的權重值;H0為遞歸塊中第一個卷積層的輸出結果。
DRRN整體結構的示意圖如圖3所示。


圖3 DRRN整體結構示意圖Fig.3 Schematic diagram of the overall structure of DRRN
由式(1)可知,第u層的殘差單元輸出為

(2)
因此,第b層的遞歸模塊的輸出xb為

=g[g(…{g[fb(xb-1)]}…)]
(3)
式(3)中:g(x)為殘差單元函數。
然而,DRRN算法僅使用一種大小的卷積核對低分辨率圖像進行特征提取,無法提取不同尺度對應的相關圖像信息,不利于圖像細節的恢復。
為了使提取的圖像特征更豐富,本文在DRRN的基礎上做出相應改進,提出一種融合了多尺度特征的遞歸網絡模型,其主要由三部分構成:多尺度特征提取模塊、遞歸網絡模塊和密集連接模塊。模型的主要改進思路為:保留DRRN中的全局殘差模塊,用多尺度特征提取模塊代替原來的局部殘差模塊,并且引入密集連接,整體算法模型結構如圖4所示。

圖4 模型整體結構示意圖Fig.4 Schematic diagram of the overall structure of the model
多尺度特征提取模塊相對于只使用單尺度的卷積核來說會對圖像特征進行更完整的信息提取,對于不同的特征信息進行全面提取,防止信息不能進行有效傳遞,將信息傳遞最大化,最大限度的利用LR圖像的淺層特征。
引入遞歸學習網絡并在其基礎之上引入密集連接網絡,最后將提取得到的特征與LR圖像相加進行全局殘差學習。通過全局殘差學習,對圖像隱含的深層信息進行提取,充分利用前面卷積層提取出的底層特征,對圖像的高頻信息進行恢復,令重建后的高分辨率圖像有更好的視覺效果,降低了訓練模型的參數量,使網絡收斂的速度得到加快。
不同尺度的卷積核對圖像提取出的特征信息不同,本文采用一種多尺度特征提取模塊,使用3種不同大小的卷積核進行特征提取,具體卷積核大小為1×1、3×3和5×5。雖然多尺度特征提取單元利用不同尺寸大小的卷積核進行特征提取,若將不同卷積核提取到的特征進行簡單疊加,可能會導致不同層信息利用程度下降,不利于將多種特征相互融合。Concat融合方式為通道維度上合并,圖像本身的特征數增加了,而每一特征下的信息沒有增加。如DenseNet(densely connected convolutional networks)[21]中采用了Concat融合,并取得了很好的效果,因此本文采用該方式來融合不同尺度的信息。此外,為了降低計算難度,在特征融合以后使用1×1的卷積核進行降維,加快重建速度。網絡結構圖如圖5所示。

圖5 多特征提取模塊Fig.5 Multi-feature extraction module
具體的提取過程為:輸入圖像首先經過一個3×3的卷積層,然后把3×3的輸出送到改進模塊中,改進的模塊是主要使用了1×1、3×3、5×5這3種不同大小的卷積核,因為卷積核大小不同,提取出的特征不同,然后將1×1與3×3的輸出進行特征融合,1×1與5×5的輸出進行特征融合,3×3與5×5的輸出進行特征融合,再對這三個融合的特征進行1×1卷積,主要是為了降低特征融合后的維度,減少參數量。然后將1×1與5×5融合的特征經過3×3的卷積層,1×1與3×3融合的特征經過5×5卷積層,3×3與5×5融合的特征經過1×1卷積層,再將這三個輸出特征進行特征融合,經過1×1卷積層降維后,作為改進模塊的輸出。
自Huang等[21]提出DenseNet以來,密集連接已經被越來越多的用到各種任務中。假設模型有L層,傳統的神經網絡就會有L個連接,而在DenseNet中,會有L(L+1)/2個連接,所有先前層的特征映射都用作當前層的輸入,當前層的特征映射也會用作所有后續層的輸入。
密集連接網絡中的某一層的輸入為該層之前所有層的特征信息的融合結果,充分利用了前面卷積層提取出的底層特征,使恢復后的圖像更加清晰,該網絡訓練不需要大量的參數,在網絡進行前向傳播以及反向傳播的時候可以保持良好的性能,增加網絡的訓練層數,另外密集連接結構有正則化的效果,對訓練集較小任務的過擬合有一定的抑制作用。密集連接結構如圖6所示。

圖6 密集連接結構圖Fig.6 Dense connection structure diagram
本文中提出的多尺度特征融合的遞歸網絡重建模型,在特征提取部分,使用不同大小的卷積核進行特征提取,將提取到的特征信息采用Concat的方式進行融合,加大了信息獲取的能力。本文中以DRRN作為基線模型,在其模型的基礎上進行相應改進,并結合密集連接的方法,將由多尺度特征提取模塊構成的遞歸模塊進行融合,最后將獲取的深層特征與低分辨率圖像的淺層特征進行全局殘差學習。在加深網絡結構的同時,減少網絡的相關參數,對模型占用的內存空間進行了優化。
本文提出的算法所需要的實驗環境為:Ubuntu操作系統,實驗硬件設備配置為Intel?CoreTMi5處理器,8 GB運行內存,NVIDIA Geforce GTX 1 080(8 GB)顯卡。
訓練數據集包含291張圖片,其中91張圖像來自Yang等[22],其他200幅圖片來自Berkeley分割數據集。為了進行測試,本次實驗使用了兩個廣泛使用的基準數據集,Set5和Set14,以及國家電網提供的部分電力巡檢圖片作為測試樣本。
為了避免訓練不充分,對訓練數據集進行了數據增強,主要方式為對圖像進行翻轉和旋轉。具體為,將原始圖片分別進行90°、180°、270°和水平翻轉。對于每個原始圖片,相當于增加了7張不同的圖片,因此,共有2 328個訓練集圖片。因為人眼對圖像的Y分量更敏感,因此在實驗之前,需要對實驗過程中的圖像進行YCbCr的顏色空間轉換,只提取Y通道[23],使用大小為2、3、4的尺度因子分別對高分辨率圖像進行下采樣,得到低分辨率圖像。
改進方法訓練參數設置:初始學習率為0.1,前30個epoch中,每10個epoch使學習率下降為原來的一半,30 epoch之后,每10個epoch使學習率降為原來的1/10,batch size為64,訓練輪數為100。
根據本文提出的改進方法,選取Set5與Set14中的測試圖像驗證改進方法的優越性,將其與雙三次插值重建算法和DRRN進行對比實驗分析。部分圖像采用x2模糊后不同算法的重建圖像結果展示如圖7~圖10所示。

圖7 Baby重建結果對比Fig.7 Comparison of reconstruction results of baby
通過對比可以看出,本文所提出的改進方法的邊緣清晰度相對來說表現更好,細節與低分辨率圖像相比更加豐富,更加接近原圖。在圖8中,經過對原圖中鼻子部分細節放大的對比發現,與其他算法相比,本文算法重建出的圖像能夠清晰地看出鼻子輪廓上的那些坑坑洼洼的細節,而且對于睫毛部分,重建出的圖像睫毛更加清晰,有一種根根分明的感覺,跟原圖相比更為接近。在圖10中,基于Bicubic重建的結果中眼部輪廓比較模糊,眼珠部分與眼睛上部輪廓界限不明顯,而且睫毛連成了一部分,不能清楚地觀測到圖像細節,DRRN重建結果較Bicubic方法有明顯改進,圖像更加清晰,重建細節也更多,本文方法的重建結果較其他兩種方法與原始圖像更為接近,視覺效果更好,細節更加豐富,睫毛層次更加分明,有一定改進效果。

圖8 Head重建結果對比Fig.8 Comparison of reconstruction results of head

圖9 Comic重建結果對比Fig.9 Comparison of reconstruction results of comic

圖10 Lenna重建結果對比Fig.10 Comparison of reconstruction results of lenna
為了更加客觀地對比不同方法重建的結果,經不同的放大因子X2、X3、X4生成低分辨率圖像后,采用不同的算法重建以后得到的PSNR與SSIM的相關數據如表1和表2所示。

表1 不同方法重建圖像的PSNR對比 Table 1 PSNR comparison of reconstructed images with different methods

表2 不同方法重建圖像的SSIM對比Table 2 SSIM comparison of reconstructed images with different methods
經過實驗對比,可以看出本文所提出的改進方法的PSNR與改進前方法的PSNR值相比平均提高了0.1~0.27 dB,SSIM平均提高了0.001~0.005。證明了本文所提算法能夠對圖像重建效果有一定提升。
部分輸電線路圖像采用X2模糊后經雙三次插值算法、DRRN算法與本文改進算法的重建4圖像結果展示如圖11~圖14所示。
由圖11~圖14可以看出,本文所提出的方法較其他方法能夠更加清晰地重建出圖像的輪廓,對于圖像的銳化效果也比較好,與原高分辨率圖像比較接近,在圖11中,本文方法可以將桿塔上的螺絲進行較為清晰地還原,與其他方法相比,螺絲上的細節更加明顯,有利于觀察桿塔上具體細小部件的情況,在圖13中,基于絕緣子的重建對比中,本文方法也同樣恢復的圖像細節程度更高,對于不同絕緣子之間的界限也較為明顯,在圖14中,Bicubic方法重建出的圖像輪廓模糊,不能較為清楚地恢復出圖像細節,應用本文方法重建出的圖像,可以較為恢復更多的圖像細節,清晰度也明顯提高。為了進一步對比不同方法的重建效果,部分輸電線路重建圖像的客觀評價指標如表3和表4所示。

表3 不同方法重建圖像的PSNR對比Table 3 PSNR comparison of reconstructed images with different methods

表4 不同方法重建圖像的SSIM對比Table 4 SSIM comparison of reconstructed images with different methods

圖11 桿塔重建結果對比Fig.11 Comparison of reconstruction results of tower

圖12 均壓環重建結果對比Fig.12 Comparison of reconstruction results of ring

圖13 絕緣子重建結果對比Fig.13 Comparison of reconstruction results of insulator

圖14 防震錘重建結果對比Fig.14 Comparison of reconstruction results of damper
通過對表格數據進行分析對比,可以發現本文改進的方法相對于原方法,在PSNR與SSIM兩個方面都進行了提升,這也進一步說明改進方法取得了一定的提升效果,在網絡層數不斷加深的基礎上,通過對特征提取方式以及網絡結構的調整,可以達到優化的目的。實驗結果進一步說明,本文改進方法在輸電線路場景中效果有提升并且可以進行應用。
提出了基于多尺度特征融合的超分辨率重建算法,利用多尺度特征提取模塊提取更多淺層信息;在網絡中添加密集連接結構,使特征傳播得到增強,用以解決現有的超分辨率重建算法存在的提取特征單一的問題。在基準測試集Set5、Set14以及電力巡檢數據集上的實驗結果表明,本文方法相較于其他幾種方法,在客觀評價指標和主觀視覺效果上均獲得了更好的表現。未來研究工作主要是增加算法實現的應用場景,驗證不同場景,不同目標的重建性能,以及將傳統方法與基于深度學習的方法進行結合,實現更優的超分辨率重建算法,進一步提升重建效果。