






摘要:深度學習在一定程度上解決了從低分辨率圖像中恢復出高分辨率圖像這一圖像超分辨率問題。目前基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)的方法可以從超分辨率數(shù)據(jù)集中學習低/高分辨率圖像映射關(guān)系,從而生成具有真實紋理細節(jié)的超分辨率圖像。然而,基于 GAN 的圖像超分辨率模型訓練通常不穩(wěn)定,其結(jié)果往往帶有紋理扭曲和噪聲等問題,提出了采用掩膜(mask)模塊以輔助對抗網(wǎng)絡(luò)訓練。在網(wǎng)絡(luò)訓練過程中,掩膜模塊根據(jù)生成網(wǎng)絡(luò)輸出的超分辨率結(jié)果和原始高分辨率圖像,計算得到相應(yīng)觀感質(zhì)量信息,并進一步輔助對抗網(wǎng)絡(luò)訓練。在實驗中對3個最近提出的基于 GAN 的圖像超分辨率模型進行修改,引入掩膜模塊,修改后的模型在超分辨率圖像輸出的觀感和真實感量化指標上均有明顯地提升。掩膜模塊的優(yōu)點是可以進一步提升基于 GAN 的圖像超分辨率網(wǎng)絡(luò)輸出的超分辨率圖像觀感質(zhì)量,并僅需對生成對抗網(wǎng)絡(luò)訓練框架進行修改,因此適用于多數(shù)基于 GAN 的圖像超分辨率模型的進一步優(yōu)化。
關(guān)鍵詞:深度學習;超分辨率算法;對抗生成網(wǎng)絡(luò)
中圖分類號:TP391文獻標志碼:A文章編號:1000-582X(2023)05-093-09
Optimization of generative adversarial network based image super-resolution by using image mask
JIANGQilei, MAYuanxi
(1. School of Information Science and Technology, ShanghaiTech University, Shanghai 201210, P. R .China;2. Shanghai Institute of Microsystem and Information Technology, Chinese Academy ofSciences, Shanghai 200050, P. R . China;3. University of Chinese Academy of Sciences, Beijing100049, P. R . China)
Abstract: Inferring high resolutionimagefromsinglelowresolution (LR) input isill-posedanddeeplearning helps to some extent. The latest algorithms take the advantage of the Generative Adversarial Network (GAN) and present photo-realistic results by learning low/high resolution mappings from super resolution datasets . However, training of GANs can be hard and traditional GAN -based architectures often exhibit noise and texture distortion in their super-resolution (SR) results . In this paper, a mask-aided adversarial training strategy for current GAN -basedSRframeworksisproposed . Duringtraining,maskmodulehelpsthediscriminatorbyintroducingadditional perceptual quality information with generator’s outputs and the ground truth images . In experiment, three current state-of-the-artGAN -basedSRmodelsareselectedandthemaskmoduleisintegratedintotheiradversarial training . Theimproved mask-aided models yield better resultsin bothquantitativeandqualitative benchmarks than the original ones . Mask module only modifies GANframework and thus is suitable for many GAN -based solutions for further improving the SR perceptual quality.
Keywords: deep learning; super resolution algorithm; generative adversarial network
單張圖像超分辨率任務(wù)(以下簡稱為圖像超分辨率)是計算機視覺領(lǐng)域廣泛研究的問題之一。目前,該問題在監(jiān)控安防和社交網(wǎng)絡(luò)等方面也有著較高價值。圖像超分辨率任務(wù)目標是從分辨率受限的單張圖像中生成具有較高觀感質(zhì)量的高分辨率圖像。基于深度學習的圖像超分辨率方法利用深度神經(jīng)網(wǎng)絡(luò)優(yōu)勢,通過恢復從低分辨率圖像到高分辨率圖像的非線性映射,獲得了較好的超分辨率圖像結(jié)果。但是,由于低分辨率圖像本身采樣不足而丟失較多高頻信息,因此也無法獲得與真實高分辨率圖像相當?shù)募y理細節(jié),其仍然有著很大的優(yōu)化空間。
目前,流行的大多數(shù)基于深度學習的圖像超分辨率模型,大致可以分為面向峰值信噪比(peak signal-to- noise ratio,PSNR )的網(wǎng)絡(luò)和基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN )的模型。峰值信噪比的計算依賴于2張圖像之間的均方誤差,因此可用于量化超分辨率圖像的恢復水平。 SRCNN[1]是面向 PSNR 的網(wǎng)絡(luò)的先驅(qū),它使用卷積神經(jīng)網(wǎng)絡(luò)進行從低分辨率到高分辨率圖像映射的學習。由于基于卷積神經(jīng)網(wǎng)絡(luò)的模型通常無法較好地學習高頻信息,這種基于編碼器/解碼器的體系結(jié)構(gòu)在較大的縮放比例下,通常無法恢復高分辨率圖像當中的紋理細節(jié)。 VDSR[2]為了進一步提升網(wǎng)絡(luò)的學習能力,其卷積層數(shù)增加到了20。由于網(wǎng)絡(luò)的低分辨率輸入圖像通常較為完整地保留了場景的低頻分量,為了易于網(wǎng)絡(luò)學習,該網(wǎng)絡(luò)模型采用了殘差學習(residual learning)方法,并僅預(yù)測了高頻分量。隨后出現(xiàn)的一些網(wǎng)絡(luò),例如 EDSR[3]和 RDN[4],均使用了殘差塊[5]的變體來構(gòu)建更深的網(wǎng)絡(luò)。因此這些面向 PSNR 的模型在其重建的超分辨率圖像上,均表現(xiàn)出了較高的峰值信噪比,有著很高的重建精度。但是峰值信噪比在捕捉高頻紋理的能力上非常有限,而且該值無法較好的量化圖像的觀感質(zhì)量。大多數(shù)面向 PSNR 的圖像超分辨率模型都存在一定的模糊、失真等問題。
基于 Goodfellow 等人[6]所提出的生成對抗網(wǎng)絡(luò)訓練框架,通常能夠使得圖像超分辨率網(wǎng)絡(luò)生成更加逼真的結(jié)果。生成對抗網(wǎng)絡(luò)的生成器的輸入為低分辨率圖像,并返回超分辨率結(jié)果,而鑒別器則通過區(qū)分超分辨率圖像和原始高分辨率圖像之間的差異來保留更多圖像的高頻信息。這樣,生成器可以將高頻紋理部分添加入其超分辨率結(jié)果,并生成比面向 PSNR 的圖像超分辨率網(wǎng)絡(luò)更逼真的圖像。超分辨率生成對抗網(wǎng)絡(luò) SRGAN[7]引入了由 Johnson 等人[8]所提出的觀感損失函數(shù),并獲得了逼真的圖像超分辨率結(jié)果。該觀感損失函數(shù)依賴于由Russakovsky等人[9]所創(chuàng)建的 ImageNet 數(shù)據(jù)庫,進行預(yù)先訓練的分類網(wǎng)絡(luò)所計算得到。增強型 SRGAN (enhanced SRGAN,ESRGAN )[10]則應(yīng)用了一種相對性鑒別器[11],使得訓練效果和穩(wěn)定性得到了提升,并進一步調(diào)整了觀感損失函數(shù)來優(yōu)化 SRGAN 網(wǎng)絡(luò)結(jié)構(gòu),以生成在視覺上更加逼近真實圖像的超分辨率的結(jié)果。Self-Attention GAN ( SAGAN )[12]則引入了自我關(guān)注機制以突出圖像內(nèi)不同區(qū)域之間的遠距離依賴,從而使超分辨率圖像看起來更加自然。然而,通過使用整個圖片作為對抗網(wǎng)絡(luò)的輸入,仍很難在訓練中得到穩(wěn)定的收斂,由此生成的圖像在觀感上仍具有不可預(yù)測的噪聲和紋理的扭曲。
在此基礎(chǔ)上,提出了一種新穎的,用以輔助基于 GAN 的圖像超分辨率模型方法。通過使用掩膜(mask)模塊來輔助對抗網(wǎng)絡(luò)訓練,將更多與真實感相關(guān)的信息納入對抗網(wǎng)絡(luò)中,獲得更好的超分辨率結(jié)果。掩膜的計算依賴于生成網(wǎng)絡(luò)所得到的超分辨率圖像和對應(yīng)的原始高分辨率圖像。通過將掩膜引入鑒別器可以更好地幫助生成網(wǎng)絡(luò),恢復低分辨率圖像輸入中潛在的高頻分量。以圖像超分辨率網(wǎng)絡(luò) ESRGAN[10]為例,掩膜模塊在生成對抗網(wǎng)絡(luò)訓練框架當中的位置如圖1所示。基于 GAN 的圖像超分辨率網(wǎng)絡(luò)和面向 PSNR 的方法除了對抗學習部分的不同,其余均大致?lián)碛邢嗤慕Y(jié)構(gòu)。研究提出的掩膜優(yōu)化生成對抗網(wǎng)絡(luò)訓練的方法,在很大程度上更好地結(jié)合了兩類網(wǎng)絡(luò)的優(yōu)點,因此可以生成在視覺效果上相較之前的網(wǎng)絡(luò)更具有真實感的超分辨率圖像。主要貢獻有以下2點:
1)提出了掩膜模塊用以輔助基于 GAN 的圖像超分辨率網(wǎng)絡(luò)訓練。該方法僅對生成對抗網(wǎng)絡(luò)訓練框架進行修改,因此適合應(yīng)用到很多現(xiàn)有的此類模型上,以進一步提升超分辨率效果;
2)全面分析并解釋了面向 PSNR 和基于 GAN 的圖像超分辨率網(wǎng)絡(luò)模型,其本身結(jié)構(gòu)所帶來的優(yōu)缺點,以及超分辨率結(jié)果中相應(yīng)的特征。
1 觀感質(zhì)量信息的估算
常見的基于 GAN 的圖像超分辨率模型的損失函數(shù)通常包括均方誤差損失項LossMSE以及 GAN 損失項LossGAN,并具有如下形式
Loss = LossGAN + LossMSE +···。(1)
網(wǎng)絡(luò)從對應(yīng)的低/高分辨率圖像數(shù)據(jù)集中學習映射關(guān)系,生成網(wǎng)絡(luò)的輸入為低分辨率圖像,輸出為超分辨率圖像。隨后超分辨率圖像傳入對抗網(wǎng)絡(luò),通過鑒別器判斷圖像為真實圖像的概率。生成網(wǎng)絡(luò)的優(yōu)化目標是降低超分辨率結(jié)果和對應(yīng)的高分辨率圖像之間的均方誤差損失,以及提升超分辨率結(jié)果被鑒別器判斷為真實圖像的概率。
1.1 一種圖像等價類的定義
一個標準的圖像超分辨率神經(jīng)網(wǎng)絡(luò)通常需要一個包含了大量的真實高分辨率圖像的數(shù)據(jù)集。定義該數(shù)據(jù)集為
Ω={ I∣I 為高分辨率圖像}。(2)
定義1.在數(shù)據(jù)集Ω中的等價關(guān)系~,表示為“可以降采樣至無法區(qū)分的低分辨率圖像。”
等價關(guān)系是二元關(guān)系,并且具有自反性(reflexive)、對稱性(symmetric)、和傳遞性(transitive)。在數(shù)據(jù)集Ω中任意采樣2張圖像 I1和 I2,可觀察到:
1) I1~ I1(自反性);
2) I1~ I2當且僅當 I2~ I1 (對稱性);
3)如果 I1~ I2而且 I2~ I3,則 I1~ I3(傳遞性)。
從數(shù)據(jù)集Ω中采樣的圖像 I的等價類可以表示成
[ I ]~={ x ∈Ω∣x ~ I }。(3)
從等價類的表達式中可以看出,圖像 I的等價類由相似的高分辨率圖像所組成,[ I ]中的元素和 I有著不可區(qū)分的降采樣結(jié)果。
圖2為圖像等價類的一個例子。其中,網(wǎng)格代表像素的大小,低分辨率紋理為1×1像素區(qū)域,表示低分辨率圖像中出現(xiàn)的紋理,對應(yīng)4倍上采樣的超分辨率紋理為4×4像素區(qū)域。由于低分辨率紋理采樣不足,無法包含對應(yīng)超分辨率紋理中的高頻信息;圖中4種超分辨率紋理均可以作為圖像超分辨率網(wǎng)絡(luò)的輸出,對低分辨率紋理進行解釋。因此,圖中出現(xiàn)的4種超分辨率紋理均處于相同的等價類,該等價類內(nèi)的圖像在降采樣后損失了高頻信息,得到的結(jié)果均接近于圖中所示的低分辨率紋理。
1.2 超分辨率圖像誤差分析
根據(jù)選擇的損失函數(shù)不同,網(wǎng)絡(luò)訓練得到的超分辨率結(jié)果也不同。網(wǎng)絡(luò)的最優(yōu)參數(shù)集θ通常以最小化在特定數(shù)據(jù)集中的經(jīng)驗誤差得到。在數(shù)據(jù)集Ω中,有
θ = arg min EI∈Ω[ l θ(I )]。 (4)
這里,l θ(.)是網(wǎng)絡(luò)定義的損失函數(shù)。面向 PSNR 的圖像超分辨率網(wǎng)絡(luò)通常以均方誤差損失項為主,在Ω數(shù)據(jù)集上進行訓練可以得到的最優(yōu)參數(shù)集為
θ = argmθinn (DS ( I );θ)-I 2
其中:n(.;θ)網(wǎng)絡(luò);θ是該網(wǎng)絡(luò)本身所提供的訓練參數(shù);DS (I )對Ω中的高分辨率圖像 I進行降采樣,得到相應(yīng)的低分辨率圖像。通過降低網(wǎng)絡(luò) n(DS (I );θ)所輸出的超分辨率圖像和 I 之間的均方誤差損失項,從而提升超分辨率圖像的重建精度。
根據(jù)等價類~的定義,分析公式(5)中網(wǎng)絡(luò)損失的下界
其中:網(wǎng)絡(luò) n(DS (I );θ?)的輸入為Ω中的高分辨率圖像 I 的降采樣 DS(I );根據(jù)等價類的定義,[ I ]~中的圖像或區(qū)域均可以解釋該低分辨率輸入。優(yōu)化均方誤差的過程將結(jié)果收斂至期望值,即。網(wǎng)絡(luò)所引入的誤差和期望與樣本之間的誤差總和為εgt;0。對于輸入圖像,網(wǎng)絡(luò)所生成的超分辨率結(jié)果和原始高分辨率圖像之間的誤差并不能通過網(wǎng)絡(luò)更為充分的訓練來消除。其下界為輸入圖像對應(yīng)的等價類方差。即
通過網(wǎng)絡(luò)實際生成的結(jié)果也可以驗證公式(7)。面向 PSNR 的圖像超分辨率網(wǎng)絡(luò)輸出結(jié)果的質(zhì)量和輸入的低分辨率圖像相關(guān),包含較多高頻信息場景的低分辨率輸入圖像所對應(yīng)的等價類方差較大,其均值往往損失了較多的高頻信息。因此,超分辨率結(jié)果往往在觀感上呈現(xiàn)出模糊的紋理細節(jié);然而在輸入的低分辨率圖像包含較少高頻信息的情況下,潛在的等價類方差較小,期望可以很好地代表該等價類的元素。因此,在這種情況下,面向 PSNR 的圖像超分辨率網(wǎng)絡(luò)往往可以生成具有較高重建精度的超分辨率圖像。
2 掩膜模塊輔助對抗網(wǎng)絡(luò)訓練的流程
基于 GAN 的圖像超分辨率模型的損失函數(shù)通常包括均方誤差損失項和 GAN 損失項。均方誤差損失項提升了超分辨率結(jié)果的重建精度,但不可避免地損失了一定的高頻信息;GAN 損失項可以更好地引導生成網(wǎng)絡(luò)計算,得到具有真實感的超分辨率結(jié)果,但通常包含難以避免的紋理扭曲和噪點等特征。
公式(7)給出了進一步優(yōu)化基于 GAN 的圖像超分辨率網(wǎng)絡(luò)的方向。對于生成網(wǎng)絡(luò)得到的超分辨率結(jié)果,通過計算相應(yīng)均方誤差,可以得到圖像不同區(qū)域的等價類方差估計;較大方差區(qū)域,通過優(yōu)化均方誤差損失函數(shù)得到的超分辨率圖像往往無法很好地表示真實的結(jié)果,因此對抗網(wǎng)絡(luò)需要加強此類區(qū)域的真實感。等價類方差和 GAN 損失項的系數(shù)成正比。通過公式(7)對超分辨率圖像進行相應(yīng)的計算,可以在對抗網(wǎng)絡(luò)當中引入更多的超分辨率圖像真實感信息。
進一步提出掩膜的概念,將對超分辨率圖像的真實感估計,封裝成輔助對抗網(wǎng)絡(luò)訓練的模塊。結(jié)合公式(7),有
mask = kEI∈Ω[ l θ?(I )]+ b 。(8)
其中:k,b為掩膜模塊的相應(yīng)參數(shù);掩膜的數(shù)值范圍為[0, 1],并對超出的該范圍的數(shù)值進行截斷處理。由上述討論可知,掩膜數(shù)值較小的區(qū)域,均方誤差較小,對應(yīng)的等價類方差較小,因此超分辨率結(jié)果所在的等價類的期望,可以較好地解釋網(wǎng)絡(luò)輸入的低分辨率圖像。反之,則需要引入對抗網(wǎng)絡(luò)訓練,以增強超分辨率結(jié)果的真實感。因此掩膜數(shù)值較大的區(qū)域,GAN 損失項系數(shù)較大。在超分辨率結(jié)果輸入到對抗網(wǎng)絡(luò)之前,計算相應(yīng)的掩膜,并且和超分辨率結(jié)果進行乘積,以有效約束 GAN 損失項在不同圖像區(qū)域中的作用強度(具體流程見圖3)。生成網(wǎng)絡(luò)從輸入的低分辨率圖像中計算得到相應(yīng)的超分辨率圖像,該結(jié)果和對應(yīng)的高分辨率圖像一起輸入至掩膜模塊,以計算圖像掩膜。對抗網(wǎng)絡(luò)的輸入為超分辨率圖像和掩膜的逐通道乘積結(jié)果,以添加額外的超分辨率圖像真實感信息,并自動調(diào)節(jié)不同超分辨率圖像區(qū)域的 GAN 損失項權(quán)重。
3 實驗
筆者挑選了目前效果較好的3個基于 GAN 的圖像超分辨率模型。通過比較應(yīng)用掩膜模塊前后的超分辨率結(jié)果,以驗證所提出的掩膜模塊的有效性;選取的模型為 ESRGAN,PESR[13],和 EDSR,它們將作為基礎(chǔ)模型,并在各自的生成對抗網(wǎng)絡(luò)訓練框架當中,添加掩膜模塊(添加方法見圖1)。選取了4個超分辨率數(shù)據(jù)集:Urban100[14]由真實建筑圖像組成,包含窗戶,欄桿,磚石等結(jié)構(gòu)性較強的紋理;PIRM 數(shù)據(jù)集[15]本身即作為圖像超分辨率任務(wù)的驗證數(shù)據(jù)集提出,因此包含各類檢測超分辨率效果的場景;Berkeley 數(shù)據(jù)集(BSD100)[16]包含各類自然場景,最初作為檢驗圖像分割任務(wù)所提出;DIVerse 2K( DIV2K)數(shù)據(jù)集[17]也是一個包含各種高分辨率圖像的數(shù)據(jù)集。每一類型均包含100張用于檢驗超分辨率效果的低/高分辨率圖像。超分辨率結(jié)果量化方法采用觀感系數(shù)(perceptual index,PI )[18]
其中,Ma[19]和 NIQE[20]均為無參考(no-reference)的圖像質(zhì)量量化方法。觀感系數(shù)根據(jù)預(yù)先定義的一組圖像真實特征的計算方法,對圖像進行真實感估計,因此并不需要提供對應(yīng)的真實圖像。越低的觀感系數(shù)值表示越高的圖像觀感質(zhì)量。
3.1網(wǎng)絡(luò)訓練參數(shù)設(shè)定
ESRGAN 最開始的10個訓練周期的學習速率為2×10-4,并僅通過均方誤差損失項訓練生成網(wǎng)絡(luò);隨后的50個訓練周期為基于 GAN 的訓練,并保持2×10-4的學習速率,訓練50個訓練周期;在60個訓練周期之后,每隔10個訓練周期,減少一半的學習速率,此過程進行80個訓練周期。訓練過程中生成網(wǎng)絡(luò)輸入的低分辨率圖像的大小為64×64像素單位,4倍上采樣。損失函數(shù)為
Loss =1*VGG54+5×10-3*GAN +1×10-2*L 1。(10)
PESR 按照5×10-5的學習速率訓練20個周期,隨后學習速率減至2.5×10-5。訓練周期共計40個。網(wǎng)絡(luò)輸入的 LR 圖像尺寸為64×64像素單位,4倍上采樣,所采用的損失函數(shù)為
Loss =50*VGG54+1*GAN +1*L 1+1×10-6* TV。( 11)
EDSR 對于超過2倍的上采樣,均需要2倍上采樣的訓練網(wǎng)絡(luò)。因此,此處訓練基于 EDSR 原始的2倍上采樣模型,并進行4倍上采樣模型的訓練。訓練周期共計200個。學習速率設(shè)置為1×10-4。網(wǎng)絡(luò)輸入的低分辨率圖像尺寸為48×48像素單位,所采用的損失函數(shù)為
Loss =5*VGG54+0.15*GAN +0.1*L 1。(12)
上述網(wǎng)絡(luò),使用 DIV2K 所提供的訓練數(shù)據(jù)集進行訓練,共計800張高分辨率圖像。網(wǎng)絡(luò)均采用 ADAM優(yōu)化器,參數(shù)為β=(0.9,0.999),并且均為4倍的上采樣。
3.2 量化結(jié)果的比較
在 ESRGAN,PESR,和 EDSR 的基礎(chǔ)上應(yīng)用掩膜模塊(掩膜模塊的應(yīng)用方法見圖1),并對比前后的觀感質(zhì)量變化。4個所采用的測試數(shù)據(jù)集均在上文有相應(yīng)的介紹。量化的結(jié)果見表1。其中,選取的掩膜模塊參數(shù)為 k =0.2,b =0.5。可以觀察到應(yīng)用掩膜模塊之后,3個網(wǎng)絡(luò)的超分辨率結(jié)果,均顯示出更低的觀感系數(shù),即更高的觀感質(zhì)量。觀感質(zhì)量提升的水平和模型有關(guān)。PESR 在應(yīng)用掩膜模塊后,其超分辨率圖像觀感質(zhì)量有著顯著的提升,另外2個圖像超分辨率模型在應(yīng)用掩膜模塊后,觀感質(zhì)量量化結(jié)果也有著不同的提升,并且在4個驗證數(shù)據(jù)集中,均沒有出現(xiàn)觀感質(zhì)量指標下降的情況。
3.3 觀感上的比較
圖4為3個圖像超分辨率模型在應(yīng)用掩膜模塊前后的超分辨率結(jié)果對比。總體上可以看出,應(yīng)用掩膜模塊后的各個模型的超分辨率結(jié)果,在圖像觀感質(zhì)量和重建精度上均得到了有效提升。如第一行窗戶的紋理,原始 ESRGAN 網(wǎng)絡(luò)輸出圖像有著一定的紋理扭曲,應(yīng)用掩膜模塊后,該現(xiàn)象得到了顯著的消除;PESR 對應(yīng)的2個超分辨率結(jié)果中可以觀察到,原圖樹木紋理和毛發(fā)紋理包含較多的高頻信息,由于均方誤差損失項的作用,原始網(wǎng)絡(luò)生成的超分辨率結(jié)果在觀感上呈現(xiàn)模糊的效果,而應(yīng)用掩膜模塊的對應(yīng)模型,則可以明顯地看出圖像紋理的清晰度得到了提升。
3.4 掩膜模塊參數(shù)對超分辨率結(jié)果的影響
生成對抗網(wǎng)絡(luò)的訓練結(jié)果和初始參數(shù)的設(shè)定相關(guān),且不容易收斂。通過實驗觀察掩膜模塊參數(shù)對整體網(wǎng)絡(luò)效果的影響,以 ESRGAN 作為基礎(chǔ)網(wǎng)絡(luò)應(yīng)用掩膜模塊,并測試應(yīng)用不同掩膜模塊參數(shù)下的超分辨率結(jié)果差異。掩膜模塊參數(shù)由公式(8)給出。原始 ESRGAN 以及應(yīng)用不同掩膜模塊參數(shù)后的對應(yīng)超分辨率圖像觀感質(zhì)量的量化結(jié)果見圖5。可以看到,應(yīng)用掩膜模塊的 ESRGAN 模型,均得到了比原始網(wǎng)絡(luò)更優(yōu)的超分辨率圖像觀感系數(shù);因此掩膜模塊具有良好的魯棒性。應(yīng)用合理參數(shù)的掩膜模塊,通常可以得到相較原始網(wǎng)絡(luò)更優(yōu)的超分辨率結(jié)果。
4 結(jié)語
研究提出了掩膜模塊用以輔助基于 GAN 的單張圖像超分辨率模型訓練,可以實現(xiàn)更好的超分辨率圖像觀感質(zhì)量。掩膜由超分辨率結(jié)果和原始高分辨率圖像計算得到,提供超分辨率圖像區(qū)域相關(guān)的觀感質(zhì)量信息。對抗網(wǎng)絡(luò),則根據(jù)掩膜對超分辨率圖像各區(qū)域獨立地調(diào)整 GAN 損失權(quán)重。實驗選取了3個基于 GAN 的超分辨率模型,通過比較掩膜模塊應(yīng)用前后的超分辨率結(jié)果對方法有效性驗證。實驗結(jié)果表明,掩膜模塊可以較好地提升基于 GAN 的超分辨率模型的超分辨率結(jié)果觀感質(zhì)量。掩膜模塊在輔助對抗網(wǎng)絡(luò)訓練過程當中僅依賴生成網(wǎng)絡(luò)的超分辨率結(jié)果和原始高分辨率圖像,因此可添加至現(xiàn)有的很多基于 GAN 的超分辨率模型當中,以進一步提升相應(yīng)網(wǎng)絡(luò)的超分辨率圖像結(jié)果觀感質(zhì)量。目前,對超分辨率圖像區(qū)域相關(guān)的觀感質(zhì)量信息由相應(yīng)公式估算得到,如何通過深度學習更有效地計算相關(guān)信息,將是下一步研究的方向。
參考文獻
[1] Dong C , Loy C C , He K M , et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2015, 38(2):295-307.
[2] Kim J, Lee J K , Lee K M . Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA .IEEE , 2016:1646-1654.
[3] Lim B , Son S , Kim H , et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference onComputer Visionand PatternRecognition Workshops (CVPRW ). July 21-26, 2017. Honolulu, HI, USA: IEEE , 2017:1132-1140.
[4] Zhang Y L , Tian Y P, Kong Y, et al. Residual dense network for image super-resolution[C]//2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition . June 18-23, 2018. Salt Lake City, UT, USA:IEEE , 2018:2472-2481.
[5] He K M , Zhang X Y, RenS Q , et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on ComputerVision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA:IEEE , 2016:770-778.
[6 ] GoodfellowI,Pouget-AbadieJ,MirzaM ,etal. Generativeadversarialnetworks[J]. Communicationsof the ACM , 2020,63(11):139-144.
[7] LedigC , Theis L , Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017. Honolulu, HI, USA:IEEE , 2017:105-114.
[8] JohnsonJ,AlahiA ,LiFF. Perceptuallossesforreal-timestyletransferandsuper-resolution[EB/OL].2016: arXiv:1603.08155. https://arxiv.org/abs/1603.08155
[9] Russakovsky O , Deng J, Su H , et al. ImageNet large scale visual recognition challenge[J]. International Journal of ComputerVision, 2015, 115(3):211-252.
[10] WangXT,YuK ,WuSX ,etal. ESRGAN : enhancedsuper-resolutiongenerativeadversarialnetworks[C]//EuropeanConference on Computer Vision . Cham: Springer, 2019:63-79.
[11] Jolicoeur-MartineauA . Therelativisticdiscriminator: akeyelementmissingfromstandardGAN [EB/OL].2018: arXiv:1807.00734. https://arxiv.org/abs/1807.00734
[12] Zhang H , Goodfellow I, Metaxas D , et al. Self-attention generative adversarial networks[EB/OL].2018: arXiv:1805.08318.https://arxiv.org/abs/1805.08318
[13] VuT, LuuTM ,YooCD . Perception-enhancedimagesuper-resolutionvia relativisticgenerativeadversarial networks[C]//European Conference on Computer Vision . Cham: Springer, 2019:98-113.
[14] Huang J B , Singh A , Ahuja N . Single image super-resolution from transformed self-exemplars[C]//2015 IEEE Conference onComputer Vision and Pattern Recognition (CVPR). June 7-12, 2015.Boston, MA , USA:IEEE , 2015:5197-5206.
[15] Blau Y, MechrezR ,Timofte R , et al. The 2018 PIRM challenge on perceptual image super-resolution[C]//European Conferenceon Computer Vision . Cham: Springer, 2019:334-355.
[16] MartinD ,F(xiàn)owlkesC ,TalD ,etal. Adatabaseofhumansegmentednaturalimagesanditsapplicationtoevaluatingsegmentationalgorithmsandmeasuringecologicalstatistics[C]//ProceedingsEighthIEEEInternationalConferenceon Computer Vision . ICCV. July 7-14, 2001, Vancouver, BC , Canada . IEEE , 2002:416-423.
[17] AgustssonE ,TimofteR . NTIRE 2017 challengeonsingleimagesuper-resolution: datasetandstudy[C]//2017 IEEEConference on Computer Vision and Pattern Recognition Workshops (CVPRW ). July 21-26, 2017. Honolulu, HI, USA: IEEE , 2017:1122-1131.
[18] Ignatov A ,Timofte R , Vu T V, et al. PIRM challenge on perceptual image enhancement on smartphones: report[C]// EuropeanConference on Computer Vision . IEEE ,2018.
[19] Ma C , Yang C Y, Yang X K , et al. Learning a no-reference quality metric for single-image super-resolution[J]. Computer Visionand Image Understanding, 2017, 158:1-16.
[20] Mittal A ,SoundararajanR ,Bovik AC . Makinga“completelyblind”imagequalityanalyzer[J]. IEEESignalProcessingLetters, 2013, 20(3):209-212.
(編輯侯湘)
?