徐 健,高 艷,范九倫
(西安郵電大學 通信與信息工程學院,陜西 西安 710121)
圖像超分辨率(super resolution,SR)是指從低分辨率(low resolution,LR)圖像中恢復高分辨率(high resolution,HR)圖像的過程[1],隨著深度學習的發(fā)展,大多數(shù)圖像處理方法使用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)來實現(xiàn)圖像重建[2]。目前提高網(wǎng)絡性能的方法主要包括兩種:1)改進網(wǎng)絡結構;2)添加先驗信息。在改進網(wǎng)絡結構方面,文獻[3]率先提出一種基于CNN的3層模型;文獻[4]提出了殘差神經(jīng)網(wǎng)絡;文獻[5]提出添加擴展濾波器,雖然比文獻[4]提出的方法網(wǎng)絡層多了50 %,但效果更好。在添加先驗信息方面,文獻[6]提出了使用語義信息加入網(wǎng)絡重建模型的方法;文獻[7]在網(wǎng)絡模型中添加了多個降級模型。然而,大多數(shù)網(wǎng)絡需要依靠外部數(shù)據(jù)進行訓練,收斂速度慢且只有在滿足訓練條件時才對圖像的重建效果較好。因此,基于自學習的方法具有巨大的優(yōu)勢,但基于自學習的方法存在訓練樣本不足易使網(wǎng)絡欠擬合,進而導致圖像重建效果較差。
本文提出一種特征增強式提取的網(wǎng)絡結構對圖像的特征進行深層提取,該網(wǎng)絡致力于尋找和利用單幅圖像的內在信息,用一張低分辨率圖像作為訓練和測試樣本,訓練一個CNN,實現(xiàn)對該低分辨率圖像的重建。實驗結果表明:本文方法克服了外部學習運算時間長和訓練慢的缺陷,并解決了自學習樣本不足導致網(wǎng)絡易欠擬合的問題。
CNN圖像超分辨率方法是近年來的研究熱點[8,9]。CNN主要是通過對包含高/低分辨率圖像數(shù)據(jù)集進行訓練學習得到系統(tǒng)模型,不需要借助圖像處理算法分析圖像的特征,也不需要構造高/低分辨率圖像塊字典[10]。文獻[3] 率先成功地將CNN引入圖像超分辨率,該方法將傳統(tǒng)的處理圖像超分辨率的策略即稀疏編碼[11]的3個階段:特征提取、非線性映射、圖像重建,統(tǒng)一到一個CNN,實現(xiàn)了圖像的重建,如圖1所示。

圖1 圖像超分辨率重建過程
1)特征提取:從低分辨率圖像中提取多個圖像塊,每個塊經(jīng)過卷積操作,得到多維向量,將所有的特征向量組成特征矩陣。2)非線性映射:將n1維特征矩陣,通過卷積操作實現(xiàn)非線性映射,變換為另一n2維特征矩陣。3)圖像重建:將n2維特征矩陣經(jīng)過反卷積[12],還原為超分辨率圖像。
本文用一張低分辨率圖像LR作為訓練樣本和測試樣本,訓練一個CNN實現(xiàn)了對該LR圖像的超分辨率重建。具體做法是:首先,對該LR圖像I下采樣得到下采樣圖像Is,(s為采樣因子);其次,學習二者之間的映射關系;最后,將學習到的映射關系用于LR圖像的重建,即可得到重建圖像Is即高分辨率圖像HR,網(wǎng)絡設計思想如圖2所示。

圖2 網(wǎng)絡設計思想
由于只有一個實例圖像I沒有借助外部訓練集,缺乏訓練樣本,所以,本文對該低分辨率圖像I進行不同倍率的下采樣,得到圖像本身以及多個不同倍率的下采樣版本In,其中n∈Z+,并將得到的In進行旋轉、鏡像等增強操作繼續(xù)擴充樣本,如式(1)所示
Ie=f(In,A,M)
(1)
式中Ie為擴充后的圖像樣本,f為對樣本集In進行增強操作,A為將圖像進行不同角度的旋轉,M為將圖像進行鏡像翻轉。
本文利用圖像內在信息的重現(xiàn)性搭建了一個相對輕量且簡單的網(wǎng)絡,可以適應每個圖像的不同設置,能夠得到較好的重建結果。網(wǎng)絡由特征提取單元、特征增強單元、殘差單元和重建單元4個單元組成。
2.2.1 特征提取單元
特征提取單元是對下采樣后的低分辨率圖像進行淺層特征提取,為了避免圖像信息的流失和控制計算量,選取的卷積核大小為3×3,輸入圖像為三通道的彩色(RGB)圖像,所以濾波器設置為[3,3,3,64]。
2.2.2 特征增強單元
特征增強單元是對特征提取單元提取到的淺層特征進行再次提取。特征提取單元對圖像只是進行了淺層的提取,丟失了很多重要的細節(jié)信息,所以,本文設計一個增強單元提取圖像的深層特征。具體做法是:將前一層提取到的圖像特征與當前層提取到的特征進行線性堆疊,如式(2)所示
Fn+1=a*Fn+(1-a)*Fn-1
(2)
式中Fn為當前層提取的圖像特征,Fn-1為前一層輸出的圖像特征,Fn+1為當前層下一層的輸入,n為隱含層的層數(shù),為了控制網(wǎng)絡的深度,只選取了4層進行增強,a為經(jīng)過大量實驗得到的乘積因子,當a取0.6時,對圖像的重建效果最好,整個增強過程如式(3)所示
Fn+1=R(C(Fn,Fn-1))
(3)
式中C為線性堆疊操作,R為激活操作,為了更好擬合隱含層間的關系,每一層都用ReLU函數(shù)進行激活。
2.2.3 殘差單元
殘差單元是為了充分利用圖像的內在信息。在這個單元用了長/短跳躍連接,如圖3所示。低分辨率圖像中含有豐富的低頻信息,可直接用于圖像的重建,所以,用了一個長跳躍連接將輸入的低頻圖像和經(jīng)過網(wǎng)絡重建得到的高頻細節(jié)進行連接。不同于以往的殘差學習,只是將當前層直接傳遞給下一層,本文用了幾個短跳躍連接將網(wǎng)絡前幾層輸出分別傳遞給后幾層,傳遞方式可以如式(4)所示

圖3 殘差單元中的連接方式
Fp+1=Fp+Fq-p
(4)
式中F為提取特征的操作,Fp+1為p+1層的輸入,而Fp和Fq-p為各個隱含層的輸出,其中p和q均為網(wǎng)絡的層數(shù),不同的是q為網(wǎng)絡的總層數(shù),同樣為了不增加網(wǎng)絡的復雜度,將p的取值范圍設定為(1~(q/2-1))。
2.2.4 重建單元
重建單元是輸出網(wǎng)絡最終的重建圖像,其由兩部分組成,分別是輸入的低分辨率圖像和經(jīng)過網(wǎng)絡訓練學習得到的高頻細節(jié),如式(5)所示
Ioutput=Iinput+Ifinal
(5)
式中Iinput和Ioutput為網(wǎng)絡的輸入與輸出,Ifinal為網(wǎng)絡學習得到的高頻細節(jié)。本文的網(wǎng)絡結構如圖4所示。

圖4 網(wǎng)絡結構
由圖4可知,該網(wǎng)絡是一個端到端(end-to-end)的結構,即輸入低分辨率(LR)圖像通過訓練網(wǎng)絡可以得到高分辨率(HR)圖像。該網(wǎng)絡由兩部分組成:1)分特征提取單元,包括淺層特征提取和深層特征提取,其中深層提取部分加入了增強單元;2)殘差學習單元,加入了殘差組,連接方式如2.2.3節(jié)所述。
本文實驗平臺的操作系統(tǒng)為 Windows10,軟件環(huán)境為Pycharm 3.0,電腦處理器為 (GPU:1070Ti;CPU:AMD Ryzen5 2600 Six-Core Processor 3.85 GHz)。
訓練集和測試集來自數(shù)據(jù)集Set5,Set14和Ur-ban100的圖像。測試的低分辨率圖像由高分辨率圖像下采樣得到的,其中下采樣使用了雙三次差值法。訓練集是由測試集的圖像擴充得到的,具體做法是:將測試圖像隨機旋轉90°,180°和270°之后,用隨機采樣因子[0.5,0.6,0.7,0.8,0.9]對旋轉后的樣本進行下采樣。
本文網(wǎng)絡設計了10個隱含層,每一層有64個通道。搭建網(wǎng)絡時,首先為節(jié)點分配了隨機權重和偏差值,一旦收到單次迭代的輸出,就可以計算出網(wǎng)絡的損失,然后將該損失通過反向傳播算法反饋給網(wǎng)絡以更新網(wǎng)絡的權重。具體做法是:從0.001的學習率開始,周期性地對重構誤差進行線性擬合。當標準差大于擬合后的斜率時,將學習率除以10作為新的學習率,再次開始迭代;當學習率小于設定的最小值時,停止迭代,并在網(wǎng)絡的訓練階段加入了ADMA優(yōu)化器對網(wǎng)絡進行優(yōu)化。
本文搭建的網(wǎng)絡包含增強單元、殘差單元和線性疊加單元,為了驗證添加這些單元的必要性和有效性,設計了4種網(wǎng)絡結構在數(shù)據(jù)集Urban100上以采樣因子2做對比試驗。4種網(wǎng)絡結構分別是:結構1為增強單元+殘差單元;結構2為增強單元+線性疊加單元;結構3為殘差單元+線性疊加單元;結構4為增強單元+殘差單元+線性疊加單元。4種網(wǎng)絡結構的峰值信噪比(peak signal to noise ratio,PSNR)如表1所示。

表1 4種不同網(wǎng)絡結構的PSNR的比較結果
分析表1可知,結構4的PSNR值最高,即當網(wǎng)絡結合了增強單元、殘差單元以及線性疊加單元時,對圖像的超分辨率重建效果最好。
4.2.1 主觀評價
為了評定本文方法的性能,將本文的結果與一些現(xiàn)有方法A+[11],ZSSR[13],EDSR[14]的結果進行了對比,如圖5、圖6和圖7所示。

圖5 不同方法對人臉圖像的超分結果對比

圖6 不同方法對建筑圖像1的超分結果對比

圖7 不同方法對建筑圖像2的超分結果對比
分析圖5、圖6和圖7可知,在對人臉圖像進行超分辨率重建時,本文的方法與現(xiàn)有一些方法效果相當,但在對建筑圖像進行重建時,本文方法能夠得到視覺效果顯著提升的高分辨率圖像。
4.2.2 客觀評價
本文通過計算PSNR結構相似性(structural similarity,SSIM) ,對幾種方法進行了定量評估,以采樣因子2,3,4,在數(shù)據(jù)集set5,set14和Urban100上進行數(shù)據(jù)對比,具體如表2所示。

表2 不同方法的PSNR/SSIM比較結果
分析表2的結果可知,本文的方法相比于機器學習方法A+,深度學習的外部學習方法EDSR以及深度學習的自學習方法ZSSR,本文方法能夠得到PSNR更高且視覺效果更好的高分辨率圖像。
針對基于CNN的自學習圖像超分辨率現(xiàn)有方法訓練樣本不足導致網(wǎng)絡容易出現(xiàn)欠擬合的問題,提出一種特征增強式提取的網(wǎng)絡結構用于圖像超分辨率重建。在網(wǎng)絡中設計了增強單元和殘差單元用于提取圖像的深層特征,在增強單元中加入了線性堆疊去除冗余信息,在殘差單元中加入長短跳躍連接避免有效信息的流失,并通過自學習的方法充分利用了圖像的內部自相似性以及借助CNN的力量實現(xiàn)了對低分辨率圖像的重建。結果表明:本文網(wǎng)絡與現(xiàn)有方法相比,在對建筑圖像進行超分辨率重建時,PSNR提高了0.5~1 dB。