程德強(qiáng) 袁 航 錢建生 寇旗旗 江 鶴*
①(中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院 徐州 221116)
②(中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 徐州 221116)
高分辨率圖像在智能監(jiān)控[1]、醫(yī)學(xué)成像[2]和目標(biāo)跟蹤[3]等領(lǐng)域十分重要。然而,獲得圖像的硬件設(shè)備存在局限且成本高昂[4]。相較之下,基于信號(hào)處理的超分辨率重建算法更加靈活,成本更低。
圖像超分辨率(Super-Resolution, SR)重建有3類方法,即插值法[5]、重建法[6]和學(xué)習(xí)法[7-10]。近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中逐漸占據(jù)重要地位,Dong等人[11]提出了基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)SRCNN (Super-Resolution Convolutional Neural Network),并基于此實(shí)現(xiàn)了SR重建。Shi等人[12]提出了ESPCN (Efficient Sub-pixel Convolutional Neural Network),首次用亞像素卷積來(lái)實(shí)現(xiàn)了SR重建。Lim等人[13]提出EDSR (Enhanced Deep residual networks for single image Super-Resolution),將不適合SR重建的批歸一化層移除,極大減少了網(wǎng)絡(luò)參數(shù)量,同時(shí)提升了重建性能。Li等人[14]提出MSRN (Multi-Scale Residual Network),在網(wǎng)絡(luò)中充分地融合全局和局部特征,避免了特征消失。Hui等人[15]提出IMDN (Information Multi-distillation Network),使用了自適應(yīng)裁剪方法。Cheng等人[16]在此基礎(chǔ)上提出遞歸交叉的方式學(xué)習(xí)特征,取得了更好的效果。He等人[17]受到常微分方程啟發(fā),組成了網(wǎng)絡(luò)OISR-RK2 (ODEInspired network design for single image Super-Resolution)來(lái)實(shí)現(xiàn)SR重建。Li等人[18]在DID(a nested Dense In Dense structure)中提出用嵌套密集結(jié)構(gòu)來(lái)融合特征信息。Gao等人[19]混合卷積神經(jīng)網(wǎng)絡(luò)和Transformer,提出了輕量級(jí)的高效網(wǎng)絡(luò)LBNet (Lightweight Bimodal Network)。基于Transformer結(jié)構(gòu),Choi等人[20]利用滑動(dòng)窗口擴(kuò)大感受野,使網(wǎng)絡(luò)能夠更好地恢復(fù)退化像素。
雖然以上算法有著較好的重建性能,但仍然存在以下問(wèn)題:(1) 部分網(wǎng)絡(luò)通過(guò)加深網(wǎng)絡(luò)深度來(lái)提升性能,但同時(shí)會(huì)帶來(lái)更大的參數(shù)量,增加網(wǎng)絡(luò)的訓(xùn)練難度;(2) 網(wǎng)絡(luò)的感受野較小,使其不能充分捕獲特征來(lái)擬合潛在退化模型,進(jìn)而造成上下文信息的損失;(3) 傳統(tǒng)網(wǎng)絡(luò)往往是深層特征的堆疊,忽略了深層特征的差異性,容易造成信息冗余。
為了解決以上提出的這些問(wèn)題,本研究提出了深層特征差異性網(wǎng)絡(luò)(DFDN),創(chuàng)新點(diǎn)具體如下:
(1)提出相互投影融合模塊MPFB(Mutual-Projected Fusion Block),利用交替上下采樣對(duì)不同深度的差異性信息進(jìn)行捕獲和融合。
(2)受增強(qiáng)空間注意力ESA (Enhanced Spatial Attention)的啟發(fā),本研究提出了性能更好的注意力機(jī)制,它可以充分學(xué)習(xí)特征的差異性信息。
(3)本研究提出了一種深層特征差異性網(wǎng)絡(luò)用于實(shí)現(xiàn)SR任務(wù),不僅在量化指標(biāo)上取得了最優(yōu)的成績(jī),同時(shí)在主觀視覺(jué)方面表現(xiàn)優(yōu)異。
淺層特征提取使用兩個(gè)卷積核為3的卷積層,對(duì)輸入圖像進(jìn)行初步的特征提取。對(duì)于深層特征提取模塊,本研究選擇嵌入3個(gè)殘差特征融合模塊(Residual Feature Fusion Block, RFFB),并采用遞歸方式連接,以實(shí)現(xiàn)特征的多層提取。重建模塊采用的是Shi等人提出的亞像素卷積上采樣。圖1描述了本研究提出的網(wǎng)絡(luò)結(jié)構(gòu),其中藍(lán)色虛線框?qū)⒕W(wǎng)絡(luò)分為3個(gè)部分,分別對(duì)應(yīng)淺層特征提取、深層特征提取和圖像重建3個(gè)過(guò)程。

圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)圖
本研究使用卷積層來(lái)對(duì)輸入圖像進(jìn)行淺層特征提取 3×3,如圖1所示,該過(guò)程可以表示為
在式(1)中,ILR代表輸入的低分辨率圖像,conv3是卷積核大小為3×3的卷積層,B0表示淺層特征。
深層特征提取模塊由3個(gè)RFFB組成,以遞歸方式連接,這個(gè)過(guò)程可以用式(2)、式(3)描述。
其中,Hn為第n個(gè)RFFB模塊,b0為經(jīng)過(guò)卷積層轉(zhuǎn)換通道數(shù)后的輸出,B1為輸出的深層特征。
MPFB的結(jié)構(gòu)圖如圖2所示,在MPFB中,首先對(duì)輸入的特征進(jìn)行特征提取并輸出不同深度的特征圖,為了集中于更多的信息特征,本研究首先計(jì)算第1層和第2層特征圖之間的差異性信息O1,然后,對(duì)差異性信息O1進(jìn)行像素掩碼,該過(guò)程使用卷積核為1×1的卷積層,并與第2層特征圖進(jìn)行特征相加獲得新的特征圖O2,如式(4)和式(5)所示。

圖2 相互投影融合模塊結(jié)構(gòu)圖
式(5)中 c onv1為 1×1的卷積核。接著,對(duì)特征圖O2和第3層特征圖分別進(jìn)行上采樣,獲得兩者之間的差異性信息O3,將差異性信息O3降采樣,與特征圖O2進(jìn)行特征相加,并通過(guò)一個(gè)卷積核為1×1的卷積層降維,最終得到MPFB融合了3層特征之后的特征圖,如式(6)、式(7)所示。其中Hu為亞像素卷積上采樣,Hd為步幅卷積實(shí)現(xiàn)的下采樣,步幅為2,O4為一個(gè)MPFB模塊的輸出。
差異性信息表示在一個(gè)特征中存在,而在另一個(gè)特征中不存在的信息。差異性信息之間的投影使得網(wǎng)絡(luò)繞過(guò)共有信息,去更多地關(guān)注信息的不同,從而提高了判別能力。本研究提出的網(wǎng)絡(luò)結(jié)構(gòu)借鑒了DBPN (Deep Back-Projection Network)[21]的反投影思路,確保在融合不同特征的同時(shí),進(jìn)行差異性信息的學(xué)習(xí)。在圖2中可以看到,輸入特征會(huì)經(jīng)過(guò)3層遞歸殘差網(wǎng)絡(luò)RRB (Recursive Residual Network)的特征提取,其結(jié)構(gòu)如圖2(b)所示。RRB由殘差塊和卷積層組成,本研究采用了Lim等人提出的簡(jiǎn)化殘差塊RB (Residual Block),如圖2(c)所示。
受到ESA(Enhanced Spatial Attention)[22]的啟發(fā),本文提出了差異性空間注意力模塊DSA (Differentiated Spatial Attention),如圖3所示,該注意力模塊被放置在MPFB的末端,盡可能地讓網(wǎng)絡(luò)感興趣的區(qū)域中集中更多具有代表性的特征,同時(shí)也能夠?qū)μ卣鞑町愋赃M(jìn)行學(xué)習(xí)。

圖3 DSA模塊
在設(shè)計(jì)注意力模塊時(shí),有幾個(gè)因素必須被考慮。首先,注意力模塊必須有較小的參數(shù)量,因?yàn)樗鼘⒈欢啻斡迷诰W(wǎng)絡(luò)中。其次,該模塊還需具有足夠大的感受野來(lái)學(xué)習(xí)特征[23]。本研究設(shè)計(jì)的注意力模塊用1×1的卷積層來(lái)減小信道尺寸,從而實(shí)現(xiàn)輕量級(jí)的設(shè)計(jì)。然后,為了保證感受野足夠大,本研究使用步幅為3的最大池化層。與此同時(shí),本研究注意到ESA中缺少對(duì)差異性信息之間的學(xué)習(xí),因此,分別在步幅卷積和最大池化后面加入上采樣層和Conv Groups,在恢復(fù)空間維度的基礎(chǔ)上學(xué)習(xí)兩個(gè)分支間的差異性信息。Conv Groups的結(jié)構(gòu)圖如圖3(b)所示,它由卷積層和激活層組成。上采樣模塊采用的是雙線性插值法,下采樣模塊則是利用步幅為2的步幅卷積來(lái)實(shí)現(xiàn)。除此之外,本研究還使用跳躍連接將空間維度縮減之前的高分辨率特征直接傳遞到注意力模塊的末端,與剛剛學(xué)習(xí)到的殘差特征融合。
本研究選用亞像素卷積作為網(wǎng)絡(luò)的重建方法,如圖4所示,其中Shuffle為像素操作。

圖4 亞像素卷積
相比于流行的SR網(wǎng)絡(luò)中的重建模塊,本研究還添加了一條重建支路,該重建支路使用卷積核為5×5的卷積層和一個(gè)亞像素卷積層,直接從輸入圖像中提取粗尺度的特征并進(jìn)行重建,過(guò)程用式(8)、式(9)表示。在公式中: conv5代表卷積核為5×5的卷積層。最后,對(duì)兩者相加之后的特征圖進(jìn)行重建,將特征圖的通道數(shù)轉(zhuǎn)化為3,如式(10)所示。
實(shí)驗(yàn)采用Ubuntu18.04平臺(tái),代碼框架為Pytorch1.7,處理器為Intel(R) Core? i7-7800X CPU @2.5 GHzx12,內(nèi)存為32 GB,顯卡為GTX1080Ti,顯存為11 GB, cuda版本為8.0。訓(xùn)練過(guò)程中,采用DIV2K數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。初始學(xué)習(xí)率為0.000 1,每訓(xùn)練200輪學(xué)習(xí)率降為之前的一半,損失函數(shù)為L(zhǎng)1, 優(yōu)化器使用Adam,其參數(shù)為β1=0.9:ε=10-8,β1=0.9,β2=0.999。
本研究選擇SR任務(wù)中通用的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為重建性能的評(píng)價(jià)指標(biāo)。PSNR衡量了像素域之間的差異,它的單位為dB,PSNR數(shù)值越大,證明方法越優(yōu)。考慮到評(píng)價(jià)的全面性,本研究還選用了SSIM作為另一個(gè)評(píng)價(jià)指標(biāo),它的數(shù)值越接近1,表示重建出來(lái)的圖像與原圖像越相似。
為了驗(yàn)證MPFB和注意力模塊的有效性,本研究分別將MPFB和注意力模塊去除,以Urban100[24]作為測(cè)試數(shù)據(jù)集,進(jìn)行消融研究。
從表1的數(shù)據(jù)可以看出,若移除本研究提出的MPFB和注意力模塊,PSNR分別降低了0.14 dB和0.11 dB, SSIM分別降低0.001 3和0.000 9,這證明了MPFB和注意力模塊能夠有效地提升模型性能,改善重建效果。

表1 MPFB模塊和DSA模塊對(duì)模型性能的影響
本研究將提出的模型DFDN與SRCNN[11], VDSR[25], CARN[26], MSRN[14], IMDN[15], OISRRK2[17], LatticeNet[27], DID-D5[18], LBNet[19], NGswin[20], SwinIR-light[28]等多種SR算法比較,并測(cè)試PSNR和SSIM的值。為了比較的公平性,本研究修改了DID網(wǎng)絡(luò)中密集塊的卷積數(shù),將參數(shù)量調(diào)整到與DFDN相似的大小,并命名為DID-D5。
表2展示了10種算法在數(shù)據(jù)集Set5[29], Set14[30],BSD100[31]和Urban100[24]上3種不同縮放因子的情況下測(cè)試的結(jié)果。圖5-圖6為不同算法重建出的圖像對(duì)比圖,本研究從Set14和Urban100數(shù)據(jù)集中選取了3張圖片,對(duì)比不同模型的重建效果。從對(duì)比圖中看出, DFDN相比于其它算法,能夠重建出紋理更加清晰的圖像。

表2 縮放因子為2、3、4時(shí)在基準(zhǔn)數(shù)據(jù)集下的指標(biāo)對(duì)比

圖5 Set14中barbara重建結(jié)果

圖6 Urban100中Img075重建結(jié)果

圖7 Urban100中Img092的重建結(jié)果
將MPFB的數(shù)量記為M,將每個(gè)模型訓(xùn)練400輪,以Urban100數(shù)據(jù)集為測(cè)試集,其中在計(jì)算重建時(shí)間時(shí)假設(shè)SR尺寸為1920×960。
從表3中的測(cè)試結(jié)果可以看出,當(dāng)MPFB數(shù)量從2增加到3時(shí),參數(shù)量增加了1.61 M,而PSNR值僅提高了0.15 dB, SSIM也僅提高了0.001。考慮到在模型參數(shù)量提升的同時(shí),網(wǎng)絡(luò)訓(xùn)練的難度也會(huì)加大,本研究最終選擇M=2的模型。

表3 不同MPFB數(shù)量對(duì)網(wǎng)絡(luò)性能的影響
為了驗(yàn)證提出的注意力模塊DSA相較于ESA擁有更好的性能,本研究進(jìn)行了消融實(shí)驗(yàn)。從表4中可以清晰地看出,本研究模型在Set5, BSD100,Urban100等3個(gè)數(shù)據(jù)集上的重建結(jié)果均優(yōu)于使用ESA的模型,且在Set14數(shù)據(jù)集上差距微小,證明DSA能夠更好地對(duì)完成圖像重建任務(wù)。

表4 不同注意力模塊對(duì)網(wǎng)絡(luò)性能的影響
為了驗(yàn)證通道數(shù)對(duì)網(wǎng)絡(luò)性能的影響,將不同通道數(shù)下的數(shù)據(jù)進(jìn)行對(duì)比,使用的測(cè)試集為Set5,對(duì)比結(jié)果如表5所示。當(dāng)通道數(shù)為64時(shí),相比于本模型,模型性能略微提升,但參數(shù)量卻大幅增加了83.99%,重建時(shí)間也增加了34.10%。

表5 通道數(shù)對(duì)網(wǎng)絡(luò)性能的影響
本研究進(jìn)一步分析MPFB中特征提取殘差塊數(shù)量Res對(duì)模型性能的影響。將殘差塊的數(shù)量分別設(shè)置為2, 4, 6,對(duì)其在Set5數(shù)據(jù)集上的重建結(jié)果進(jìn)行對(duì)比,表6為對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果表明,增加模型殘差塊數(shù)量,對(duì)PSNR和SSIM值都有部分提升,然而過(guò)多的殘差塊卻帶來(lái)了參數(shù)量和重建時(shí)間的增長(zhǎng),以及梯度消失的隱患,綜合考慮以上因素,本研究將殘差塊數(shù)量置為4。

表6 不同殘差塊數(shù)量對(duì)網(wǎng)絡(luò)性能的影響
本研究將RFFB的數(shù)量記為D,為提高訓(xùn)練速度,設(shè)第一個(gè)RFFB的通道數(shù)為16,其余皆為32,
測(cè)試集為Urban100,結(jié)果如表7所示。可以從表中清晰地看出,每增加一個(gè)RFFB模塊都會(huì)帶來(lái)參數(shù)量的大幅度提升。綜合考慮重建速度和性能指標(biāo),本研究最終確定RFFB的數(shù)量為3。

表7 不同RFFB數(shù)量對(duì)網(wǎng)絡(luò)性能的影響
相比于CNN,研究者們嘗試用Transformer來(lái)實(shí)現(xiàn)圖像超分辨率重建任務(wù),如SwinIR、NGswin等,將本研究算法與其在參數(shù)量和性能指標(biāo)兩方面進(jìn)行對(duì)比,如表8所示,測(cè)試集為4倍Urban100。

表8 與基于Transformer算法的對(duì)比
相比于參數(shù)量為11.8M的SwinIR, DFDN在參數(shù)量減少67.29%的情況下,指標(biāo)僅降低了0.49%,而相比于SwinIR-light、LBNet等參數(shù)量較少的網(wǎng)絡(luò),DFDN通過(guò)犧牲小部分參數(shù)量,換來(lái)了指標(biāo)的大幅度提升,達(dá)到了參數(shù)量與指標(biāo)之間的平衡。
為了驗(yàn)證DFDN在學(xué)習(xí)圖像高頻細(xì)節(jié)方面的能力,本研究設(shè)計(jì)了對(duì)比實(shí)驗(yàn),使用均方誤差MSE(Mean Square Error)作為度量標(biāo)準(zhǔn)。MSE值越大,說(shuō)明該圖像塊的重建結(jié)果與真實(shí)結(jié)果之間的差距越大,即模型的性能越差。
具體而言,實(shí)驗(yàn)通過(guò)計(jì)算重建圖像和真實(shí)圖像Y通道分量的MSE值來(lái)評(píng)估模型性能,如式(12)所示。其中,ISR和IHR分別為重建圖像和輸入圖像的Y通道分量,H和W為圖像塊的高和寬。
圖8-圖10展示了本研究提出的模型與先進(jìn)的Transformer模型在恢復(fù)細(xì)節(jié)信息方面的對(duì)比。可以觀察到,在紋理特別復(fù)雜的區(qū)域(如頭發(fā)、草地、云朵),DFDN具有最小的MSE值。這進(jìn)一步證明了DFDN在不規(guī)則紋理細(xì)節(jié)上能夠充分關(guān)注到圖像的高頻細(xì)節(jié)信息。

圖8 Set5中head的差異圖

圖9 B100中291 000的差異圖

圖10 Urban100中Img027的差異圖
本文提出了一種深層特征差異性重建網(wǎng)絡(luò),該模型通過(guò)構(gòu)建特征融合模塊、差異性空間注意力模塊解決了現(xiàn)有網(wǎng)絡(luò)不能夠充分學(xué)習(xí)圖像特征差異性的問(wèn)題。該模型核心模塊由6個(gè)相互投影融合模塊和3個(gè)差異性空間注意力模塊構(gòu)成。相互投影融合模塊將提取到的差異性信息充分融合學(xué)習(xí),從而有效地關(guān)注圖像細(xì)節(jié)。通過(guò)在多個(gè)公開(kāi)測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,本研究提出的網(wǎng)絡(luò)模型在保持了參數(shù)量和處理效率的同時(shí),對(duì)圖像細(xì)節(jié)信息的提取能力、量化評(píng)價(jià)指標(biāo)和主觀視覺(jué)效果上均優(yōu)于現(xiàn)有的網(wǎng)絡(luò)。本文未來(lái)的后續(xù)實(shí)驗(yàn)中將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、研究出參數(shù)量更小,性能更高效的模型。