999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學(xué)習(xí)的圖像超分辨率重建技術(shù)綜述

2022-09-15 10:27:30楊才東李承陽(yáng)李忠博謝永強(qiáng)孫方偉
計(jì)算機(jī)與生活 2022年9期
關(guān)鍵詞:方法模型

楊才東,李承陽(yáng),2,李忠博+,謝永強(qiáng),孫方偉,齊 錦

1.軍事科學(xué)院 系統(tǒng)工程研究院,北京 100141

2.北京大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100871

圖像超分辨率重建技術(shù)(super-resolution reconstruction,SR)是將輸入的模糊、包含信息較少的低分辨率(low-resolution,LR)圖像重建為清晰、包含更多信息的高分辨率(high-resolution,HR)圖像,是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要方向。生成圖像還可以為下游的計(jì)算機(jī)視覺(jué)相關(guān)任務(wù)提供服務(wù),如目標(biāo)檢測(cè)、目標(biāo)定位等,可以增強(qiáng)任務(wù)效果,提高識(shí)別正確率。在現(xiàn)實(shí)生活中,圖像超分辨率重建應(yīng)用前景十分廣泛,如醫(yī)學(xué)成像、安全監(jiān)測(cè)、圖像壓縮等領(lǐng)域。

傳統(tǒng)的圖像超分辨率重建方法主要有以下三種:基于插值的超分算法,如雙三次插值、最近鄰插值等;基于退化模型的超分算法,如迭代反投影法、凸集投影法和最大后驗(yàn)概率法等;基于學(xué)習(xí)的超分算法,包括流形學(xué)習(xí)、稀疏編碼方法等。傳統(tǒng)的超分算法已經(jīng)取得了很大的成功,但是隨著尺度因子的放大,從×2 到×4、×8,用于超分重建所需要的信息越來(lái)越多,人為定義的先驗(yàn)知識(shí)已經(jīng)不能滿足需求,很難實(shí)現(xiàn)重建高質(zhì)量圖像的目的。

隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功,2014 年Dong 等人首次將深度學(xué)習(xí)方法引入圖像超分重建任務(wù),借助神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,取得了優(yōu)于傳統(tǒng)方法的成績(jī)。隨后研究者們提出了一系列不斷優(yōu)化的算法模型,從最早的基于卷積神經(jīng)網(wǎng)絡(luò)的SRCNN(super-resolution convolutional neural network)模型,到基于生成對(duì)抗網(wǎng)絡(luò)的SRGAN(superresolution generative adversarial network)模型,再到基于最新的Transformer的TTSR(texture transformer network for SR)模型,基于深度學(xué)習(xí)的圖像超分重建技術(shù)不斷取得新的突破,并且已經(jīng)提出了很多適用于超分領(lǐng)域研究的專有數(shù)據(jù)集。

本文從輸入圖像數(shù)量的角度,將基于深度學(xué)習(xí)的圖像超分辨率重建方法分為兩種,分別是僅輸入一張圖像的單圖像超分辨率重建方法(single image super-resolution reconstruction,SISR)和輸入多張圖像的基于參考的圖像超分辨率重建方法(referencebased super-resolution reconstruction,RefSR)。

1 單圖像超分辨率重建方法

SISR 方法輸入一張低分辨率圖像,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)LR-HR 圖像對(duì)之間的映射關(guān)系,最終將LR 圖像重建為一張高分辨率圖像。SISR 方法的經(jīng)典模型發(fā)展如圖1 所示。最早基于深度學(xué)習(xí)的SISR方法模型是2014 年提出的SRCNN 模型,利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)LR 圖像到HR 圖像之間的映射關(guān)系,得到了比傳統(tǒng)方法更高的峰值信噪比(peak signal-tonoise ratio,PSNR)和結(jié)構(gòu)相似度(structure similarity index measure,SSIM)指標(biāo)。這個(gè)階段的SISR 方法的改進(jìn)方向主要以增加神經(jīng)網(wǎng)絡(luò)的深度,從而提高PSNR和SSIM 指標(biāo)為導(dǎo)向。2017年提出的SRGAN模型中,首次提出要提高圖像的感官質(zhì)量,引入了感知損失函數(shù)。隨后提出的模型開(kāi)始以優(yōu)化重建圖像紋理細(xì)節(jié)為目標(biāo),不斷推動(dòng)著圖像超分領(lǐng)域的發(fā)展。

圖1 典型的SISR 模型Fig.1 Typical SISR model

目前已經(jīng)提出了很多性能較好的SISR 模型,盡管各模型之間存在一定的差異,但本質(zhì)依然是在超分框架的基礎(chǔ)上,對(duì)一系列組件進(jìn)行改進(jìn)和組合,得到一個(gè)新的超分模型。這些組件包括上采樣模塊、非線性映射學(xué)習(xí)模塊以及損失函數(shù)等,本文分別對(duì)超分框架及各組件進(jìn)行介紹和分析。

1.1 超分框架

SISR 方法的框架由兩部分構(gòu)成,分別是非線性映射學(xué)習(xí)模塊和實(shí)現(xiàn)圖像放大的上采樣模塊。非線性映射學(xué)習(xí)模塊負(fù)責(zé)完成低分辨率圖像到高分辨率圖像的映射,這個(gè)過(guò)程中利用損失函數(shù)來(lái)進(jìn)行引導(dǎo)和監(jiān)督學(xué)習(xí)的進(jìn)程;上采樣模塊實(shí)現(xiàn)重建圖像的放大。兩個(gè)模塊共同協(xié)作,最終完成輸入圖像的超分辨率重建。根據(jù)上采樣模塊的位置不同,可以將SISR 方法總結(jié)為以下四種超分框架:

(1)前端上采樣超分框架:這種框架最早被采用,如圖2 所示。前端上采樣可以避免在低維空間上進(jìn)行低維到高維的映射學(xué)習(xí),降低了學(xué)習(xí)難度,是一種簡(jiǎn)單易行的方法。但是同時(shí)噪聲和模糊等也被增強(qiáng),并且在高維空間進(jìn)行卷積運(yùn)算將會(huì)增加模型計(jì)算量,消耗更多的計(jì)算資源。

圖2 前端上采樣框架Fig.2 Pre-upsampling framework

(2)后端上采樣超分框架:如圖3 所示,針對(duì)前端上采樣超分框架存在的問(wèn)題,提高計(jì)算資源利用效率,研究者提出了后端上采樣超分框架,將上采樣模塊放置在網(wǎng)絡(luò)后面部分。該框架下的大部分卷積計(jì)算在低維空間進(jìn)行,最后再利用端到端可學(xué)習(xí)的上采樣層,如轉(zhuǎn)置卷積和亞像素卷積,進(jìn)行上采樣放大。這樣的好處是進(jìn)一步釋放了卷積的計(jì)算能力,降低模型復(fù)雜度。

圖3 后端上采樣框架Fig.3 Post-upsampling framework

(3)漸進(jìn)式上采樣超分框架:隨著超分的發(fā)展,超分尺度不斷增大,常規(guī)的上采樣模型已經(jīng)不能滿足要求。在這樣的需求下,漸進(jìn)式上采樣超分框架被提出,如圖4所示。在該框架中,圖像放大是逐級(jí)進(jìn)行的,中途生成的圖像繼續(xù)輸入后續(xù)模塊,直到達(dá)到目標(biāo)分辨率。常用方法是采用卷積級(jí)聯(lián)或者Laplace金字塔的方式,再結(jié)合多級(jí)監(jiān)督等學(xué)習(xí)策略,就能完成大的超分倍增系數(shù)下的超分重建任務(wù)。

圖4 漸進(jìn)式上采樣框架Fig.4 Progressive upsampling framework

(4)升降采樣迭代式超分框架:Timofte 等人借鑒了反向投影的思想,提出了升降采樣迭代式超分框架,具體如圖5所示。隨后Haris等人采用了這種超分框架,在DBPN(deep back-projection networks)中交替使用上、下采樣,結(jié)合得到的所有特征圖來(lái)完成低分辨率圖像的重建。這種方法通過(guò)反復(fù)進(jìn)行LRHR 的映射學(xué)習(xí),能充分學(xué)習(xí)出兩者之間的映射關(guān)系。但是目前這種超分框架的結(jié)構(gòu)復(fù)雜,設(shè)計(jì)標(biāo)準(zhǔn)也不明確,仍需要進(jìn)一步地探索。

圖5 升降采樣迭代式框架Fig.5 Iterative up-and-down sampling framework

1.2 上采樣方法

在神經(jīng)網(wǎng)絡(luò)占據(jù)主導(dǎo)地位的情況下,部分傳統(tǒng)的上采樣方式因其可解釋性以及容易實(shí)現(xiàn),在深度學(xué)習(xí)的超分模型中經(jīng)常見(jiàn)到,并且取得了讓人滿意的效果。本節(jié)主要介紹基于插值的傳統(tǒng)上采樣方法和端到端可學(xué)習(xí)的上采樣方法。

(1)基于插值法的上采樣方法

插值法的原理就是利用一定的數(shù)學(xué)策略,從相關(guān)點(diǎn)中計(jì)算出待擴(kuò)展點(diǎn)的像素值,這在數(shù)學(xué)上很容易實(shí)現(xiàn),因此在超分重建領(lǐng)域最早采用插值法進(jìn)行。但是因?yàn)椴逯岛瘮?shù)本身的連續(xù)性,導(dǎo)致了重建圖像較為平滑而模糊。圖像紋理處常常是各種突變,這與函數(shù)的連續(xù)性互為矛盾,這正是基于插值的方法的局限性以及本質(zhì)問(wèn)題所在。

(2)端到端可學(xué)習(xí)的上采樣方法

為了解決基于插值法的上采樣方法存在的問(wèn)題,研究者們提出了端到端可學(xué)習(xí)的上采樣方法:轉(zhuǎn)置卷積和亞像素卷積。

轉(zhuǎn)置卷積又稱為逆卷積,即卷積過(guò)程的逆過(guò)程。轉(zhuǎn)置卷積通過(guò)卷積學(xué)習(xí)來(lái)增大圖像分辨率,實(shí)現(xiàn)了端到端的放大,避免了人工設(shè)計(jì)帶來(lái)的干擾,并且可以與卷積神經(jīng)網(wǎng)絡(luò)保持很好的兼容,因此被廣泛應(yīng)用在圖像超分辨率重建領(lǐng)域中。

亞像素卷積又稱為像素清洗。成像系統(tǒng)在利用感光元件對(duì)現(xiàn)實(shí)連續(xù)的世界離散化表示的過(guò)程中,每一個(gè)像素點(diǎn)之間比像素更小一級(jí)的存在,這就是“亞像素”。

亞像素卷積具體過(guò)程就是利用卷積計(jì)算對(duì)圖像進(jìn)行特征提取,再對(duì)不同通道間的特征圖進(jìn)行重組,從而得到更高分辨率的特征圖。由于每個(gè)像素的擴(kuò)展都是通過(guò)卷積完成,相應(yīng)的參數(shù)都需要學(xué)習(xí)產(chǎn)生,解決了插值方法中存在的人工痕跡問(wèn)題,更好地?cái)M合了像素之間的關(guān)系。

目前,端到端可學(xué)習(xí)的放大方法已經(jīng)被廣泛使用,尤其是在網(wǎng)絡(luò)模型的后端進(jìn)行上采樣,將大部分的數(shù)據(jù)計(jì)算工作在低維空間進(jìn)行,大大提高了模型的計(jì)算速度,空間復(fù)雜度也大幅降低。

1.3 非線性映射學(xué)習(xí)模塊

非線性映射學(xué)習(xí)模塊在訓(xùn)練過(guò)程中利用LR-HR圖像對(duì)學(xué)習(xí),使模型獲得從低分辨率圖像到高分辨率圖像的映射能力。在重建過(guò)程中,低分辨率圖像在該模塊完成分辨率的映射變換,再結(jié)合上采樣模塊實(shí)現(xiàn)超分辨率重建。

根據(jù)該模塊結(jié)構(gòu)的不同分為以下四種:基于卷積神經(jīng)網(wǎng)絡(luò)的模型、基于生成對(duì)抗網(wǎng)絡(luò)的模型、基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)模型以及基于Transformer 的網(wǎng)絡(luò)模型。網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。

圖6 四種不同網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Four different network structures

(1)基于卷積神經(jīng)網(wǎng)絡(luò)的SR 方法

卷積神經(jīng)網(wǎng)絡(luò)早在1989 年就被提出,但直到近幾年隨著計(jì)算機(jī)技術(shù)的發(fā)展以及訓(xùn)練樣本的增加,CNN 網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域廣泛使用。

2014 年Dong 等人提出SRCNN算法,第一個(gè)將卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)模型引入到超分辨率重建領(lǐng)域,如圖7 所示。

圖7 SRCNN 結(jié)構(gòu)圖Fig.7 SRCNN structure

SRCNN 先對(duì)圖片進(jìn)行下采樣預(yù)處理得到低分辨率圖像,利用雙三次插值放大到目標(biāo)分辨率,再用卷積核大小分別為9×9、1×1、5×5 的三個(gè)卷積層,分別進(jìn)行特征提取,擬合LR-HR 圖像對(duì)之間的非線性映射以及將網(wǎng)絡(luò)模型的輸出結(jié)果進(jìn)行重建,得到最后的高分辨率圖像。SRCNN 雖然結(jié)構(gòu)簡(jiǎn)單,但是依托于對(duì)大樣本數(shù)據(jù)的學(xué)習(xí),重建效果超過(guò)了傳統(tǒng)算法,從而掀起了深度學(xué)習(xí)在超分領(lǐng)域的研究熱潮。

隨后Dong等人繼續(xù)對(duì)SRCNN 進(jìn)行改進(jìn),提出了FSRCNN(fast super-resolution convolutional neural network)。與SRCNN 相比,F(xiàn)SRCNN 主要有三點(diǎn)改進(jìn):(1)直接用LR 圖像作為輸入,降低特征維度;(2)使用比SRCNN 更小的濾波器,網(wǎng)絡(luò)結(jié)構(gòu)加深;(3)采用后端上采樣超分框架,在網(wǎng)絡(luò)最后加入反卷積層來(lái)將圖像放大至目標(biāo)分辨率。FSRCNN采用更小的卷積核、更深的網(wǎng)絡(luò)層數(shù),訓(xùn)練速度提高,重建的HR 圖像質(zhì)量效果進(jìn)一步得到提高。

此時(shí)基于卷積神經(jīng)網(wǎng)絡(luò)的模型的主要改進(jìn)方向在卷積層的層數(shù)上,理論上來(lái)說(shuō),增加模型深度,可以提取到更高級(jí)的特征,提供更好的表達(dá)能力。2014 年VGGNet算法層數(shù)達(dá)到19 層時(shí),取得了當(dāng)時(shí)最先進(jìn)的結(jié)果。但是隨著模型深度的繼續(xù)增加,算法會(huì)出現(xiàn)模型退化、難以訓(xùn)練等問(wèn)題。這個(gè)問(wèn)題直到2015 年何愷明提出ResNet算法后,才得到真正解決。隨后提出的VDSR(very deep convolutional networks)、EDSR(enhanced deep residual networks for SR)、DBPN以及RCAN(residual channel attention networks)等模型,不斷加深了網(wǎng)絡(luò)深度,進(jìn)一步提高了模型的性能。

(2)基于生成對(duì)抗網(wǎng)絡(luò)的SR 方法

隨著圖像超分辨率重建技術(shù)的發(fā)展,研究者們發(fā)現(xiàn),盡管重建出來(lái)的高分辨率圖像的PSNR/SSIM指標(biāo)越來(lái)越高,但是生成的圖像過(guò)于平滑,高頻紋理信息丟失,重建圖像缺乏人眼感官上的照片真實(shí)感,并且在工業(yè)界的實(shí)際使用效果依然很差。為了解決這個(gè)問(wèn)題,研究者們將生成對(duì)抗網(wǎng)絡(luò)引入超分領(lǐng)域,重建出了令人滿意的紋理細(xì)節(jié)。

2017 年Ledig 等人首次將生成對(duì)抗網(wǎng)絡(luò)引 入超分重建領(lǐng)域,最早開(kāi)始將超分研究的注意力從PSNR/SSIM 指標(biāo)上轉(zhuǎn)移到圖像感知質(zhì)量上,并提出了SRGAN算法。Ledig等人利用生成對(duì)抗網(wǎng)絡(luò)來(lái)對(duì)照片進(jìn)行重建,同時(shí)摒棄了像素級(jí)的均方誤差(mean square error,MSE)損失,利用VGG 網(wǎng)絡(luò)提取出來(lái)的特征計(jì)算損失函數(shù)作為內(nèi)容損失,使得生成的圖片具有更多的紋理信息,更具有人眼感官上的真實(shí)感。內(nèi)容損失加上對(duì)抗網(wǎng)絡(luò)本身的對(duì)抗損失,共同構(gòu)成了感知損失函數(shù)。

基于生成對(duì)抗網(wǎng)絡(luò)的超分模型已經(jīng)取得了很好的性能,但是依然存在幾個(gè)嚴(yán)重的問(wèn)題。首先,生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練很不穩(wěn)定,訓(xùn)練過(guò)程中很容易崩潰;其次,生成的圖像缺乏多樣性。基于生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的超分方法訓(xùn)練難度大,設(shè)備要求高。

(3)基于深度強(qiáng)化學(xué)習(xí)的SR 方法

深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,從而實(shí)現(xiàn)從環(huán)境感知到行為映射的端到端可學(xué)習(xí)的一種算法。強(qiáng)化學(xué)習(xí)在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,循環(huán)利用學(xué)習(xí)得到的新的數(shù)據(jù),不斷提高模型的學(xué)習(xí)能力。該方法已經(jīng)被證明在不監(jiān)督每一步的情況下對(duì)序列模型進(jìn)行全局優(yōu)化的有效性。

在圖像超分領(lǐng)域早期,利用深度學(xué)習(xí)算法學(xué)習(xí)LR 圖像到HR 圖像所有塊之間的映射時(shí),沒(méi)有考慮到塊與塊之間的相關(guān)性。2017 年Cao 等人受人類感知過(guò)程的啟發(fā),從整體圖像開(kāi)始,對(duì)不同區(qū)域的相關(guān)關(guān)系進(jìn)行建模,并按照各個(gè)區(qū)域的關(guān)聯(lián)線索進(jìn)行融合,探索具有注意力轉(zhuǎn)移機(jī)制的區(qū)域序列,結(jié)合深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,提出了基于深度強(qiáng)化學(xué)習(xí)的注意感知人臉超分方法。

(4)基于Transformer的SR 方法

循環(huán)神經(jīng)網(wǎng)絡(luò)使得模型記憶能力,用以往的記憶和當(dāng)前的輸入來(lái)共同生成下一步的輸出,但是因?yàn)槠溆?jì)算過(guò)程被限制為順序的,循環(huán)神經(jīng)模型的并行能力受到了制約。當(dāng)信息跨度比較大時(shí),在序列計(jì)算過(guò)程中會(huì)出現(xiàn)信息丟失。2017 年Vaswani 等人提出了Transformer,利用注意力機(jī)制打破RNN 計(jì)算順序限制,將序列中的任意位置距離縮小,可以很好地進(jìn)行并行處理上的優(yōu)化。

2020 年Yang 等人最早將Transformer 引入圖像超分領(lǐng)域,提出了基于Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的TTSR超分算法。為了充分利用參考圖像的紋理信息,Yang等人在TTSR中提出了特征融合機(jī)制,利用上采樣方式實(shí)現(xiàn)不同層級(jí)間的特征互相融合。大量的實(shí)驗(yàn)表明,TTSR在客觀和主觀評(píng)價(jià)方面都取得了顯著的進(jìn)步。

1.4 損失函數(shù)

損失函數(shù)在非線性映射學(xué)習(xí)模塊的學(xué)習(xí)過(guò)程中,指導(dǎo)著超分模型向著預(yù)期的方向?qū)W習(xí)和前進(jìn),通過(guò)損失函數(shù)的變化可以知道當(dāng)前模型的訓(xùn)練與預(yù)期之間的差距,同時(shí)調(diào)控模型學(xué)習(xí)方向。

(1)像素?fù)p失函數(shù)

像素?fù)p失函數(shù)包括MSE 損失函數(shù)、像素L1 損失函數(shù),它們表示的都是重建圖像與目標(biāo)圖像之間像素的損失。

將深度學(xué)習(xí)引入超分領(lǐng)域的初始階段,都是采用MSE 作為損失函數(shù)。MSE 損失函數(shù)表達(dá)式如下:

MSE 損失函數(shù)(L2 loss)中,當(dāng)誤差較小時(shí),MSE會(huì)進(jìn)一步對(duì)誤差進(jìn)行縮小,因此對(duì)較小的誤差無(wú)能為力;當(dāng)誤差大于1 時(shí),MSE 會(huì)將誤差進(jìn)一步放大,導(dǎo)致模型對(duì)這種誤差更為敏感,即使是一些異常值,模型也會(huì)進(jìn)行調(diào)整以適應(yīng),這就使得最終重建圖像更為平滑、模糊,缺乏高頻的紋理細(xì)節(jié)。為了提高模型的重建效果,陸續(xù)改用L1 損失。

L1 損失函數(shù)即平均絕對(duì)誤差,表達(dá)式如下:

在實(shí)踐中,L1 損失函數(shù)的實(shí)際效果要比MSE 更好,更能提高模型性能,得到更高的指標(biāo)。

(2)內(nèi)容損失

為了提升圖像的感知質(zhì)量,引入了內(nèi)容損失函數(shù)。相對(duì)像素?fù)p失來(lái)說(shuō),內(nèi)容損失不再要求像素層面上的精確,而是追求人眼感官層面的相似。為了提升感知質(zhì)量,利用神經(jīng)網(wǎng)絡(luò)中生成的圖像特征與真實(shí)圖像特征之間的距離來(lái)進(jìn)行計(jì)算,表達(dá)式如下:

(3)對(duì)抗損失

對(duì)抗損失來(lái)源于具有強(qiáng)大學(xué)習(xí)能力的生成對(duì)抗網(wǎng)絡(luò)。2017 年Ledig 等人提出了圖像超分領(lǐng)域的經(jīng)典模型SRGAN,生成的圖像包含更多高頻信息,在感官上更符合人眼的要求。對(duì)抗損失在SRGAN中的定義如下:

其中,()是基于交叉熵得到的生成器的損失函數(shù),(,)是鑒別器的損失函數(shù),()表示生成器生成的圖像是自然圖像的概率。

但是,使用這個(gè)損失函數(shù)時(shí)網(wǎng)絡(luò)難以訓(xùn)練且容易崩潰。為了解決這個(gè)問(wèn)題,在WGAN(Wasserstein generative adversarial network)模型中對(duì)該函數(shù)進(jìn)行了改進(jìn),在輸出層中去掉了sigmoid 或softmax 層,將權(quán)值限定在一定的范圍內(nèi),定義如下所示:

在WAGN-GP中,研究者認(rèn)為將權(quán)值進(jìn)行限定不合理,將限定去掉后使用梯度懲罰對(duì)鑒別器進(jìn)行約束,如下所示:

(4)感知損失

感知損失通過(guò)衡量提取的特征之間的距離來(lái)進(jìn)行優(yōu)化,可以很好地改進(jìn)圖像的感知質(zhì)量,使得超分重建的圖像更加符合人眼的感官感受。在SRGAN 中將感知函數(shù)定義成內(nèi)容損失和對(duì)抗損失的加權(quán)和:

其中,為感知損失,為內(nèi)容損失,()為對(duì)抗損失。

2 基于參考的圖像超分辨率重建

RefSR 方法借助引入的參考圖像,將相似度最高的參考圖像中的信息轉(zhuǎn)移到低分辨率圖像中并進(jìn)行兩者的信息融合,從而重建出紋理細(xì)節(jié)更清晰的高分辨率圖像。目前的參考圖像可以從視頻幀圖像、Web 檢索圖像、數(shù)據(jù)庫(kù)以及不同視角的照片中來(lái)獲取。RefSR 在重建圖片紋理細(xì)節(jié)方面有著很大的優(yōu)越性,近幾年來(lái)受到越來(lái)越多的關(guān)注。

RefSR 方法可以分為兩步:第一步將參考圖像中有用的信息與輸入圖像中的信息進(jìn)行匹配,能準(zhǔn)確對(duì)應(yīng)兩者的信息是重建令人滿意的細(xì)節(jié)紋理的關(guān)鍵。第二步將匹配到的信息進(jìn)行提取,并與輸入圖像進(jìn)行融合,進(jìn)而重建出滿意的圖像。因此,RefSR方法性能好壞的決定性因素就是LR 圖像與高分辨率參考圖像之間的匹配和融合的準(zhǔn)確性。

本文根據(jù)紋理細(xì)節(jié)在神經(jīng)網(wǎng)絡(luò)中的匹配方式,將RefSR方法分為像素對(duì)齊和Patch匹配兩類,如圖8所示。

圖8 典型的RefSR 模型Fig.8 Typical RefSR model

2.1 像素對(duì)齊

利用額外的高分辨率參考圖像來(lái)輔助LR 圖像的超分重建過(guò)程,這就要求兩者圖片具有一定的相似性,如具有相同或相似的事物,或者是兩者的拍攝角度改變,同一事物但背景不同等。圖像對(duì)齊是實(shí)現(xiàn)利用參考圖像輔助重建的前提條件,先從LR 圖像中檢測(cè)稀疏的特征,再在參考圖像中進(jìn)行特征匹配,最后基于這些匹配特征將原LR 圖像映射到另一個(gè)圖像中,從而實(shí)現(xiàn)圖像對(duì)齊。

在早期的工作中,Landmark提出了檢索相關(guān)網(wǎng)絡(luò)圖像作為參考圖像的方法。如圖9 所示,為了解決檢索出來(lái)的參考圖像的HR細(xì)節(jié)的不確定性,Landmark通過(guò)全局配準(zhǔn)來(lái)將參考圖像與上采樣后的LR 圖像進(jìn)行對(duì)齊,從而識(shí)別出這些圖像中各自對(duì)應(yīng)的區(qū)域,減少失配或錯(cuò)配的情況。最后通過(guò)求解能量最小化問(wèn)題來(lái)將匹配的HR 細(xì)節(jié)信息與輸入圖像進(jìn)行混合,以恢復(fù)期望的SR 圖像。

圖9 Landmark 結(jié)構(gòu)圖Fig.9 Landmark structure

引入?yún)⒖紙D像來(lái)促進(jìn)低分辨率圖像的超分重建過(guò)程,盡管參考圖像與LR 圖像具有相似的細(xì)節(jié)信息,但是兩者的分辨率差距較大,有時(shí)達(dá)到了8 倍甚至更大的差距。同時(shí)因?yàn)橹暗姆椒ㄍǔJ遣捎眉?jí)聯(lián)方式連接,往往是具有獨(dú)立定義的目標(biāo)函數(shù)的合成流水線,從而導(dǎo)致生成圖像發(fā)生塊間錯(cuò)位、網(wǎng)格效應(yīng)等問(wèn)題。

為了解決這個(gè)問(wèn)題,2018 年Zheng 等人提出了CrossNet模型,模型結(jié)構(gòu)如圖10 所示。CrossNet 模型是一種端到端的完全卷積的深度神經(jīng)網(wǎng)絡(luò),通過(guò)預(yù)測(cè)光流量來(lái)進(jìn)行跨尺度變換,包括了圖像編碼器、跨尺度變換層以及融合解碼層。其中跨尺度變換層負(fù)責(zé)將編碼層提取的參考特征圖與LR 特征圖在空間上對(duì)齊,有了參考圖像的特征互補(bǔ),有效緩解了參考圖像中巨大的分辨率差距問(wèn)題。由于使用了跨尺度變換,CrossNet網(wǎng)絡(luò)能夠以端到端的方式在像素級(jí)上實(shí)現(xiàn)對(duì)齊。

圖10 CrossNet結(jié)構(gòu)圖Fig.10 CrossNet structure

2018年Zhao等人提出了高頻補(bǔ)償超分辨率(highfrequency compensation super-resolution,HCSR)模型。該模型引入了SISR 圖像的中間視圖,得到與HR 圖像分辨率相同的LR 圖像,此LR 圖像在該分辨率下缺失的高頻細(xì)節(jié)在SISR方法下無(wú)法得到,僅僅將其中的信息作為需要超分重建過(guò)程中的低頻信息。HCSR為了解決跨尺度輸入之間的顯著分辨率之差引起的變換問(wèn)題,需要計(jì)算從參考圖像到所有LR 光場(chǎng)圖像的多個(gè)視圖差,然后利用混合策略對(duì)精化的視差圖進(jìn)行融合,最后得到高質(zhì)量的超分圖像。

利用光流預(yù)測(cè)的方法僅限于小視差的條件,盡管在光場(chǎng)數(shù)據(jù)集上可以達(dá)到很高的精度,但處理大視差情況的效果迅速下降。這些采用像素對(duì)準(zhǔn)的RefSR 方法在很大程度上依賴于LR 和HR 基準(zhǔn)之間的像素級(jí)對(duì)準(zhǔn)質(zhì)量。

2020 年Shim 等人在堆疊的可變性卷積的基礎(chǔ)上提出了可實(shí)現(xiàn)端到端的新穎高效的參考圖像特征提取模塊——相似性搜索與提取網(wǎng)絡(luò)(similairity search and extraction network,SSEN),可以從參考圖像中提取對(duì)齊的相關(guān)特征,并且可以插入到任何現(xiàn)有的超分辨率網(wǎng)絡(luò)中。Shim 等人使用非局部塊作為偏移量估計(jì)來(lái)積極地搜索相似度,可以以多尺度的方式執(zhí)行像素對(duì)齊。與使用暴力搜索或光流估計(jì)的方法相比,SSEN 無(wú)需任何額外的監(jiān)督或繁重的計(jì)算,只需要一次網(wǎng)絡(luò)操作就可以預(yù)測(cè)最佳匹配,極大地提高了RefSR 方法的魯棒性。

2.2 Patch 匹配

Patch 匹配是一種紋理合成的方法,利用自身圖片或參考圖片中其他區(qū)域來(lái)恢復(fù)目標(biāo)圖片的邊緣區(qū)域,這與RefSR 的目的完全吻合。

2017 年Zheng 等人利用Patch 匹配的方法,提出了SS-Net 模型。具體來(lái)說(shuō),SS-Net 首先設(shè)計(jì)了一個(gè)跨尺度對(duì)應(yīng)網(wǎng)絡(luò)來(lái)表示參考圖像和低分辨率圖像之間的跨尺度Patch 匹配。這個(gè)跨尺度對(duì)應(yīng)網(wǎng)絡(luò)就是一個(gè)分類網(wǎng)絡(luò),它從搜索范圍內(nèi)的候選Patch中預(yù)測(cè)正確的匹配,再利用擴(kuò)張卷積,有效地實(shí)現(xiàn)了訓(xùn)練以及特征圖的生成。跨尺度對(duì)應(yīng)網(wǎng)絡(luò)選擇了需要的Patch之后,在多個(gè)尺度上對(duì)低分辨率圖像的Patch與參考圖像的Patch進(jìn)行融合,最終合成HR圖像并輸出。

利用參考圖像促進(jìn)LR 圖像有效超分重建的前提是兩者需要具有一定的相似度,這直接關(guān)系到重建圖像質(zhì)量的高低。當(dāng)相似度很低時(shí),生成圖像質(zhì)量急劇下降。

為了解決這個(gè)問(wèn)題,增強(qiáng)模型的魯棒性,2019 年Zheng 等人提出了端到端可學(xué)習(xí)的SRNTT(superresolution by neural texture transfer)網(wǎng)絡(luò)模型,模型結(jié)構(gòu)如圖11 所示。Zheng 等人將RefSR 問(wèn)題表述為神經(jīng)紋理轉(zhuǎn)移問(wèn)題,模型根據(jù)紋理相似度自適應(yīng)地完成紋理轉(zhuǎn)換,豐富了HR 紋理細(xì)節(jié)。與原始像素空間進(jìn)行匹配不同,SRNTT 對(duì)預(yù)先訓(xùn)練的VGG 中提取的參考特征與LR 特征在自然空間中進(jìn)行多級(jí)匹配,促進(jìn)了多尺度神經(jīng)傳輸,這樣模型就可以從相關(guān)的參考紋理中獲得更多的收益,并且即使在參考圖像極不相關(guān)的情況下,模型性能也只會(huì)降低到SISR的性能。

圖11 SRNTT 結(jié)構(gòu)圖Fig.11 SRNTT structure

2020 年Yang 等人進(jìn)一步將Transformer架構(gòu)引入RefSR 任務(wù),提出了TTSR 模型。如圖12 所示,TTSR 以跨尺度的方式堆疊紋理轉(zhuǎn)換器以融合多層信息,Transformer中的硬注意和軟注意有助于更精準(zhǔn)地傳遞參考圖像中的紋理特征。TTSR 總共有四個(gè)模塊,分別是可學(xué)習(xí)的DNN(deep neural networks)紋理提取器、相關(guān)嵌入模塊、用于紋理轉(zhuǎn)移的硬注意力模塊和用于紋理合成的軟注意力模塊。通過(guò)這樣的設(shè)計(jì),硬注意力模塊可以發(fā)現(xiàn)深層的特征并完成對(duì)應(yīng),準(zhǔn)確地將紋理特征傳遞到軟注意力模塊實(shí)現(xiàn)紋理合成,完成跨越不同圖像的特征聯(lián)合學(xué)習(xí)。整個(gè)模型可以通過(guò)跨尺度的方式進(jìn)行堆疊,滿足不同放大尺度的超分重建的同時(shí)得到令人滿意的恢復(fù)紋理。

圖12 TTSR 結(jié)構(gòu)圖Fig.12 TTSR structure

SRNTT 和TTSR 結(jié)合深度學(xué)習(xí)框架和Patch 匹配,獲得令人滿意的視覺(jué)效果的同時(shí),進(jìn)一步擴(kuò)展了在沒(méi)有視圖約束的情況下對(duì)高分辨率圖像的參考。SRNTT 將RefSR 問(wèn)題重新考慮為神經(jīng)紋理轉(zhuǎn)移問(wèn)題,以風(fēng)格轉(zhuǎn)移的方式對(duì)預(yù)訓(xùn)練的VGG 特征進(jìn)行合成。TTSR 設(shè)計(jì)了一個(gè)充分利用注意力機(jī)制來(lái)完成Patch 匹配和信息合成的紋理轉(zhuǎn)換器。SRNTT 和TTSR 都需要對(duì)提取的Patch進(jìn)行徹底的比較,當(dāng)紋理較少或圖像區(qū)域重復(fù)時(shí),兩者都不能很好地處理,這就導(dǎo)致兩者的Patch 匹配方法計(jì)算成本很高。

現(xiàn)有的RefSR 方法普遍存在一個(gè)問(wèn)題,當(dāng)?shù)头直媛蕡D像和高分辨率參考圖像的分辨率差異較大時(shí),如兩者相差8 倍,很難實(shí)現(xiàn)高保真超分辨率。

針對(duì)這個(gè)問(wèn)題,2021 年Zhou 等人從解決實(shí)際多尺度相機(jī)系統(tǒng)中的RefSR 問(wèn)題出發(fā),受到多平面圖像(multiplane image,MPI)表示的啟發(fā),提出了一個(gè)端到端可學(xué)習(xí)的RefSR 網(wǎng)絡(luò)模型——Cross-MPI 模型。Cross-MPI 模型由平面感知MPI 機(jī)制、多尺度引導(dǎo)的采樣模塊以及超分辨率融合模塊三部分組成。模型中提出的平面感知MPI 機(jī)制充分利用了場(chǎng)景結(jié)構(gòu)進(jìn)行有效的基于注意機(jī)制的對(duì)應(yīng)搜索,不需要進(jìn)行跨尺度立體圖像之間的直接匹配或窮舉匹配。在此基礎(chǔ)上,Cross-MPI 進(jìn)一步結(jié)合從粗到精的引導(dǎo)上采樣策略,實(shí)現(xiàn)了精準(zhǔn)的細(xì)節(jié)傳輸,同時(shí)增強(qiáng)了模型的穩(wěn)定性。

利用高分辨率參考圖像來(lái)恢復(fù)低分辨率圖像的高頻紋理細(xì)節(jié),實(shí)現(xiàn)高質(zhì)量的匹配成為生成圖像質(zhì)量好壞的關(guān)鍵。除此之外,現(xiàn)有方法忽略了參考圖像和低分辨率圖像在分布上存在巨大的差異,這對(duì)信息的有效性產(chǎn)生了一定的影響。

針對(duì)這些問(wèn)題,2021 年Lu 等人提出了MASA(matching acceleration and spatial adaptation)模型。MASA模型中設(shè)計(jì)了兩個(gè)新的模塊來(lái)解決上述問(wèn)題,分別是特征匹配與提取模塊和空間自適應(yīng)模型。特征匹配與提取模塊在保持高質(zhì)量匹配的同時(shí),通過(guò)由粗到精的對(duì)應(yīng)匹配方案,利用自然圖像的局部相關(guān)性,針對(duì)LR 圖像特征圖中的每個(gè)Patch,將其搜索空間從整個(gè)參考圖像特征圖縮小到一個(gè)特點(diǎn)的參考?jí)K,顯著降低了計(jì)算成本。空間自適應(yīng)模塊學(xué)習(xí)低分辨率圖像和參考圖像之間的分布差異,有效處理兩者在顏色、亮度等分布上存在較大差異的情況,并以空間自適應(yīng)的方式將參考圖像特征的分布重新映射到低分辨率圖像特征的分布中。有了這些設(shè)計(jì),參考圖像中真正有用的信息可以更有效地轉(zhuǎn)移和利用。最后提出了雙殘差聚合模塊(dual residual aggregation module,DRAM)來(lái)完成參考圖像特征和LR 圖像特征的融合。

紋理傳輸?shù)年P(guān)鍵步驟就是找到低分辨率圖像和參考圖像之間的對(duì)應(yīng)關(guān)系。常見(jiàn)的RefSR 方法都是基于內(nèi)容和外觀相似度進(jìn)行計(jì)算的,這忽略了高分辨率參考圖像與低分辨率圖像之間的底層轉(zhuǎn)換關(guān)系,如縮放和轉(zhuǎn)換等,盡管有著相同的對(duì)象或者相似的紋理,當(dāng)發(fā)生底層轉(zhuǎn)換時(shí)往往會(huì)導(dǎo)致外觀發(fā)生變化。再加上分辨率上的差距,這在真實(shí)情況下將很難準(zhǔn)確計(jì)算兩者之間的對(duì)應(yīng)關(guān)系,此時(shí)僅僅利用外觀去計(jì)算對(duì)應(yīng)關(guān)系是不準(zhǔn)確的。除此之外,高分辨率參考圖像在進(jìn)行下采樣時(shí)也不可避免地丟失信息,這阻礙了網(wǎng)絡(luò)對(duì)紋理精細(xì)區(qū)域的搜索。上述原因?qū)е碌淖罱K結(jié)果是參考圖像的有用信息不能得到充分利用,紋理傳輸不理想。

為了解決上述問(wèn)題,2021 年Jiang 等人提出了C-Matching 模型。C-Matching 模型由三個(gè)模塊組成,分別是對(duì)比網(wǎng)絡(luò)模塊、教師-學(xué)生蒸餾模塊以及動(dòng)態(tài)聚合模塊。對(duì)比網(wǎng)絡(luò)模塊解決了底層變換之間的差距,利用輸入圖像的增強(qiáng)視圖來(lái)學(xué)習(xí)底層變換之后的對(duì)應(yīng)關(guān)系,增強(qiáng)模型魯棒性。師生相關(guān)蒸餾模塊用于解決分辨率差距問(wèn)題,從HR-HR的匹配中提取知識(shí)來(lái)指導(dǎo)不明確的LR-HR 匹配。動(dòng)態(tài)融合模塊用來(lái)解決潛在的錯(cuò)位問(wèn)題。大量實(shí)驗(yàn)表明,C-Matching模型的性能顯著優(yōu)于現(xiàn)有技術(shù)1 dB以上,同時(shí)對(duì)大尺度和旋轉(zhuǎn)變換具有較強(qiáng)的魯棒性。

已經(jīng)證明,在恢復(fù)圖像細(xì)節(jié)紋理方面,RefSR利用參考圖像信息來(lái)補(bǔ)償?shù)头直媛蕡D像中丟失的細(xì)節(jié)信息,比SISR 具有更大的優(yōu)勢(shì),可以生成更真實(shí)的令人視覺(jué)滿意的紋理。即使兩者圖像紋理相似度很低,RefSR也可以達(dá)到同等程度的SISR的效果。

但是RefSR 的網(wǎng)絡(luò)模型結(jié)構(gòu)比較復(fù)雜,需要消耗更大的計(jì)算資源,同時(shí)RefSR 網(wǎng)絡(luò)模型的性能取決于信息的對(duì)齊和匹配,因此探索更好的對(duì)齊方法和匹配準(zhǔn)則,是該領(lǐng)域的研究熱點(diǎn)也是難點(diǎn)。除此之外,引入的參考圖像與輸入低分辨率圖像的相關(guān)程度也會(huì)對(duì)最終生成圖像的質(zhì)量產(chǎn)生相應(yīng)影響。

3 超分?jǐn)?shù)據(jù)集和圖像質(zhì)量評(píng)估

3.1 常用數(shù)據(jù)集

benchmark 數(shù)據(jù)集是同一領(lǐng)域內(nèi)的對(duì)比標(biāo)準(zhǔn),表1 主要列舉了該領(lǐng)域的benchmark 測(cè)試數(shù)據(jù)集,即Set5、Set14、BSD100、Urban100 以及DIV2K 數(shù)據(jù)集。除此之外,F(xiàn)lickr2K 也是超分領(lǐng)域主流的訓(xùn)練數(shù)據(jù)集,以及后續(xù)提出的具有LR-HR 圖像對(duì)的真實(shí)數(shù)據(jù)集City100、RealSR、DRealSR。

表1 benchmark 數(shù)據(jù)集介紹Table 1 Introduction to benchmark datasets

3.2 圖像質(zhì)量評(píng)估

為了更好地對(duì)圖像超分辨率重建結(jié)果進(jìn)行評(píng)估,需要引入圖像質(zhì)量評(píng)估指標(biāo)。目前的評(píng)估主要分為客觀評(píng)估和主觀評(píng)估兩種。客觀評(píng)估是對(duì)超分重建結(jié)果的定量評(píng)價(jià),直接定量地反映圖像質(zhì)量,從數(shù)據(jù)上可以直接得出結(jié)果的好壞。主觀評(píng)價(jià)是對(duì)超分重建結(jié)果的定性評(píng)價(jià),是以人為主體,邀請(qǐng)受訪者對(duì)重建的圖像質(zhì)量進(jìn)行對(duì)比和評(píng)估,這種評(píng)價(jià)方法依賴于人的判斷。目前來(lái)說(shuō),主觀評(píng)價(jià)和客觀評(píng)價(jià)的結(jié)果往往是不同的,客觀評(píng)價(jià)是從數(shù)學(xué)角度出發(fā),并沒(méi)有考慮到人的感官感受,這使得客觀評(píng)估指標(biāo)較好但又不符合人眼的感官感受,因此還存在一定的爭(zhēng)議。

(1)峰值信噪比

峰值信噪比(PSNR)是圖像進(jìn)行有損變換時(shí)最常用的度量指標(biāo)之一,也是目前超分領(lǐng)域使用最廣泛的客觀評(píng)價(jià)指標(biāo)。PSNR由圖像的最大像素值和均方誤差(MSE)來(lái)定義,如式(11)所示:

其中,為均方誤差,MAX指表示圖像點(diǎn)顏色的最大數(shù)值,圖像的最大像素值由二進(jìn)制位數(shù)決定,如8 位二進(jìn)制表示的圖像的最大像素值就是255。

由于PSNR 與MSE 有關(guān),沒(méi)有考慮到人的視覺(jué)感知,雖然模型能達(dá)到比較高的PSNR 指標(biāo),但在真實(shí)場(chǎng)景中的實(shí)際效果依然不能使人滿意。盡管如此,由于缺乏更為準(zhǔn)確的感知評(píng)價(jià)指標(biāo),PSNR 依然被研究者廣泛使用。

(2)結(jié)構(gòu)相似度

結(jié)構(gòu)相似性(SSIM)也是目前圖像超分領(lǐng)域被廣泛使用的性能指標(biāo)之一。SSIM從人類視覺(jué)系統(tǒng)中獲得靈感,將圖像的組成分為亮度、對(duì)比度以及結(jié)構(gòu)三部分,并用均值作為亮度的估計(jì),標(biāo)準(zhǔn)差作為對(duì)比度估計(jì),協(xié)方差作為結(jié)構(gòu)相似程度估計(jì),數(shù)學(xué)表達(dá)式如下:

其中,(,)表示圖像的亮度比較,(,)表示圖像的對(duì)比度比較,(,)表示圖像的結(jié)構(gòu)比較,代表均值,表示標(biāo)準(zhǔn)差,σ表示協(xié)方差,為常數(shù),避免出現(xiàn)分母為0 導(dǎo)致系統(tǒng)錯(cuò)誤。在工程中,常常令===1,=/2,得到簡(jiǎn)化后的SSIM:

(3)平均意見(jiàn)評(píng)分

平均意見(jiàn)評(píng)分(mean opinion score,MOS)是一種常用的主觀圖像質(zhì)量評(píng)估的方法,通過(guò)邀請(qǐng)接受過(guò)訓(xùn)練的普通人以及未接受過(guò)訓(xùn)練的普通人來(lái)對(duì)重建的圖像進(jìn)行評(píng)分,并且兩者人數(shù)大致均衡。通過(guò)給重建圖像打分,再對(duì)最后的得分進(jìn)行平均,在視覺(jué)感知方面遠(yuǎn)遠(yuǎn)優(yōu)于其他評(píng)價(jià)指標(biāo),可以準(zhǔn)確測(cè)量圖像感知質(zhì)量。

目前普遍采用PSNR/SSIM 作為圖像質(zhì)量指標(biāo),這也導(dǎo)致模型以刷新PSNR/SSIM 指標(biāo)為目的,忽略了圖像超分辨率重建最初的目標(biāo),即重建出包含更多細(xì)節(jié)、更為清晰的圖像。現(xiàn)在的研究者們發(fā)現(xiàn)采用PSNR/SSIM 作為唯一評(píng)價(jià)指標(biāo)帶來(lái)的問(wèn)題,盡管該評(píng)價(jià)指標(biāo)達(dá)到了一定的高度,但重建出來(lái)的圖像變得平滑、模糊,不符合人眼感官。研究者們開(kāi)始注重圖像感官質(zhì)量,提出了主觀圖像質(zhì)量評(píng)價(jià)指標(biāo)。但是到目前為止,除了耗時(shí)耗力的人為主觀評(píng)分,仍然沒(méi)有被該領(lǐng)域統(tǒng)一公認(rèn)的指標(biāo)出現(xiàn),因此這也是目前該領(lǐng)域需要取得突破的方向之一。

4 模型分析

4.1 SOTA 模型統(tǒng)計(jì)

表2 對(duì)SISR 中具有代表性的模型進(jìn)行了統(tǒng)計(jì),表3 對(duì)RefSR 中具有代表性的模型進(jìn)行了統(tǒng)計(jì)。

表2 SISR 模型統(tǒng)計(jì)Table 2 SISR model statistics

表3 RefSR 模型統(tǒng)計(jì)Table 3 RefSR model statistics

4.2 模型性能分析

本節(jié)對(duì)具有典型代表性的超分模型進(jìn)行性能對(duì)比,利用PSNR/SSIM 指標(biāo)來(lái)進(jìn)行性能評(píng)估,表4 和表5 分別是SISR 方法和RefSR 方法的性能對(duì)比。表中數(shù)據(jù)來(lái)自相關(guān)文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù)。

表4 SISR 算法性能評(píng)估Table 4 Algorithm performance evaluation of SISR

結(jié)合表2和表4來(lái)看,目前SISR方法性能的提升除了增加模型深度和寬度外,主要集中在以下幾個(gè)方面:

(1)更復(fù)雜的損失函數(shù)。從最早的MSE 損失,到L1 損失,再到后來(lái)的對(duì)抗損失、梯度加權(quán)損失、內(nèi)容損失、感知損失以及重構(gòu)損失等,越來(lái)越復(fù)雜的損失函數(shù)不僅僅可以在指標(biāo)上提升模型性能,更能提高重建圖像的紋理細(xì)節(jié)。

(2)多種網(wǎng)絡(luò)模型的結(jié)合。最早的SRCNN 模型直接進(jìn)行CNN 卷積直連,獲得了超過(guò)傳統(tǒng)算法的結(jié)果。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,性能越來(lái)越好的網(wǎng)絡(luò)結(jié)構(gòu)被提出,殘差網(wǎng)絡(luò)、稠密網(wǎng)絡(luò)以及注意力機(jī)制網(wǎng)絡(luò)等模型逐漸應(yīng)用到了超分領(lǐng)域,多種網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合,越來(lái)越復(fù)雜的超分模型,大大增強(qiáng)了超分算法模型的性能。

(3)充分利用圖像全局特征。神經(jīng)網(wǎng)絡(luò)通過(guò)感受野來(lái)獲取相應(yīng)范圍內(nèi)的圖像特征,增加模型深度可以增大感受野范圍。雖然通過(guò)殘差可以在一定程度上解決模型的訓(xùn)練問(wèn)題,但是仍不可避免地帶來(lái)巨大的計(jì)算量以及龐大的模型結(jié)構(gòu)。RCAN、SAN(secondorder attention network)、CDC(component divide-andconquer)以及HAN(holistic attention network)和DFCAN(deep Fourier channel attention network)等模型通過(guò)結(jié)合殘差網(wǎng)絡(luò)和注意力機(jī)制,使得模型可以充分利用全局特征進(jìn)行學(xué)習(xí)和重建。并且從超分的實(shí)現(xiàn)來(lái)說(shuō),對(duì)所有對(duì)象一視同仁不利于計(jì)算資源的充分利用,也不符合實(shí)際,一張圖像中不同區(qū)域?qū)W習(xí)超分重建的難度也不相同。

(4)增強(qiáng)特征信息流的流動(dòng)和融合。全局特征、局部特征、不同層之間的特征以及不同通道之間的特征都有利于超分圖像的重建。HAN 模型通過(guò)注意力模塊實(shí)現(xiàn)了對(duì)不同層、通道以及位置之間的特征關(guān)系的學(xué)習(xí),增強(qiáng)了特征表達(dá)能力。SAN 通過(guò)二階注意力通道模塊來(lái)學(xué)習(xí)中間層特征之間的關(guān)系,結(jié)合非局部操作來(lái)提取圖像的上下文信息,大大提高了模型性能。多尺度信息提取也大大增強(qiáng)了模型對(duì)特征的利用效率。

結(jié)合表3 和表5,對(duì)RefSR 方法進(jìn)行如下總結(jié):

表5 RefSR 算法性能評(píng)估(4 倍放大)Table 5 Algorithm performance evaluation of RefSR(×4)

解決參考圖像與輸入圖像的對(duì)應(yīng)關(guān)系,是RefSR方法面臨的關(guān)鍵問(wèn)題,這在很大程度上決定了RefSR模型的性能。早期的主要是通過(guò)圖像對(duì)齊的方式完成兩者的對(duì)齊,因?yàn)閰⒖紙D像與輸入圖像之間較大的分辨率差距,影響了模型的學(xué)習(xí)能力。CrossNet方法利用融合解碼層來(lái)解決分辨率差距的問(wèn)題,但是也只能用于小視差的條件。除了圖像對(duì)齊,還可以通過(guò)Patch 匹配來(lái)獲得與輸入圖像紋理相似的參考圖像紋理,再對(duì)兩者進(jìn)行融合進(jìn)而生成紋理清晰的圖像。與圖像對(duì)齊相比,基于Patch 匹配的模型擁有更好的性能,PSNR/SSIM 指標(biāo)上也獲得了很大的提升。但是這就要求輸入圖像與參考圖像的紋理具有一定的相似度。在SRNTT 中,模型在特征空間進(jìn)行多級(jí)匹配,促進(jìn)了多尺度神經(jīng)傳輸,使得模型即使在參考圖像與輸入圖像不相關(guān)的條件下也只是降低到相應(yīng)的SISR 級(jí)別。

如圖13 所示,雖然RefSR 方法可以重建出令人滿意的紋理細(xì)節(jié),但是其結(jié)構(gòu)復(fù)雜,需要消耗大量的計(jì)算機(jī)資源。單圖像超分辨率重建問(wèn)題本身的不適應(yīng)性決定了解決該問(wèn)題的難度,但是同時(shí)SISR方法在輸入僅為一張低分辨率圖像的情況下自動(dòng)生成高分辨率圖像,具有很強(qiáng)的實(shí)用性和很高的研究?jī)r(jià)值。

圖13 兩種方法對(duì)比Fig.13 Comparison of two methods

4.3 改進(jìn)方向

通過(guò)上述總結(jié),可以得到以下超分模型的改進(jìn)和提升方向:

(1)提出更加復(fù)雜的損失函數(shù)。最早在SRCNN模型中采用像素?fù)p失函數(shù)MSE 和L1 損失函數(shù),雖然很輕松就提高了圖像的PSNR/SSIM 指標(biāo),且易于實(shí)現(xiàn),但是重建的圖像平滑而模糊,不符合人眼感官。在SRGAN 中,首次采用VGG 網(wǎng)絡(luò)中的特征信息作為內(nèi)容損失,再結(jié)合GAN 網(wǎng)絡(luò)中的對(duì)抗損失,提出了感知損失函數(shù),大幅提升了重建圖像的感知質(zhì)量,重建了圖像中的部分細(xì)節(jié)紋理,取得了質(zhì)的發(fā)展。隨后的網(wǎng)絡(luò)中,損失函數(shù)越來(lái)越復(fù)雜,在感知損失的基礎(chǔ)上,加入了重構(gòu)損失、內(nèi)部監(jiān)督損失等函數(shù),進(jìn)一步提升了圖像的感知質(zhì)量。

(2)實(shí)現(xiàn)任意尺度下的超分重建。在圖像重建過(guò)程中,放大倍數(shù)越大,需要重建的細(xì)節(jié)信息就越多,同時(shí)重建所需的信息也更多,困難程度也隨之增大。早期的模型方法只能實(shí)現(xiàn)×2、×3 以及×4 的倍數(shù)放大,在2017 年提出的LapSRN模型中,采用了漸進(jìn)式上采樣超分框架,利用前向推理過(guò)程中生成的圖像繼續(xù)進(jìn)行重建,實(shí)現(xiàn)了×8 的放大,并且一次前向推理便可以得到×2、×4 以及×8 的放大圖像。后續(xù)提出的模型大多都能實(shí)現(xiàn)×8的放大,但是隨著尺度因子的增加,重建效果變得不太理想。在2021 年提出的LIIT模型中,通過(guò)連續(xù)表達(dá)學(xué)習(xí),最終實(shí)現(xiàn)了×30的放大。可見(jiàn),實(shí)現(xiàn)大尺度重建是目前的研究趨勢(shì)之一。

(3)提升模型性能的同時(shí),追求模型的輕量化。直接增加模型深度,增加模型參數(shù)數(shù)量,可以更好地對(duì)數(shù)據(jù)進(jìn)行擬合,進(jìn)而重建出更好的圖像。但是這樣也會(huì)導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)規(guī)模過(guò)大,需要巨大的算力,不符合實(shí)際使用情況,只能在實(shí)驗(yàn)室算力條件下才能進(jìn)行。在2016 年提出的DRCN(deeply-recursive convolutional network)模型中,將遞歸學(xué)習(xí)引入超分模型中,利用遞歸結(jié)構(gòu)參數(shù)共享的特點(diǎn),可以在增加模型深度的同時(shí)不增加參數(shù)。隨后的DRRN(deep recursive residual network)、MemNet等模型中,都加入了遞歸結(jié)構(gòu),DSRN(dual-state recurrent network)、SPFlow等模型不僅僅加入了遞歸結(jié)構(gòu),還加入了自注意機(jī)制,能夠?qū)崿F(xiàn)對(duì)有用信息的放大和無(wú)用信息的抑制,進(jìn)一步輕量化超分模型。

(4)多種網(wǎng)絡(luò)模塊的有效組合。在最早的SRCNN 中僅僅用了三層卷積層,在VDSR 中加入了殘差塊,加深了網(wǎng)絡(luò)模型;在SRResNet中直接加入了殘差網(wǎng)絡(luò),大大增加了模型的深度,同時(shí)網(wǎng)絡(luò)性能也得到很大提高,PSNR/SSIM 指標(biāo)達(dá)到了當(dāng)時(shí)最高。SRDenseNet模型結(jié)合了殘差網(wǎng)絡(luò)和稠密網(wǎng)絡(luò),RCAN模型中結(jié)合了殘差網(wǎng)絡(luò)和注意力機(jī)制網(wǎng)絡(luò),多種網(wǎng)絡(luò)的組合使得模型性能進(jìn)一步提升。基于參考的圖像超分辨率重建技術(shù)可以重建出令人滿意的紋理細(xì)節(jié),但是因?yàn)楸旧砭W(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,占據(jù)大量的計(jì)算資源,如果能解決模型的輕量化問(wèn)題,模型的實(shí)用性將會(huì)得到大大提高。

(5)采用降質(zhì)方式更加復(fù)雜的數(shù)據(jù)集進(jìn)行訓(xùn)練,利用相機(jī)獲得同一場(chǎng)景下不同分辨率的圖像,這也更符合圖像超分的實(shí)際需要。深度學(xué)習(xí)在訓(xùn)練過(guò)程中需要大量包含LR-HR 圖像對(duì)的訓(xùn)練樣本,通過(guò)下采樣這種方式獲取低分辨率圖像本身就決定了降質(zhì)方式的單一。然而,現(xiàn)實(shí)中的低分辨率圖像的產(chǎn)生方式多種多樣,如風(fēng)霜雨雪霧等天氣原因以及物理采集設(shè)備造成的目標(biāo)不清晰等,這也是超分重建技術(shù)實(shí)際需要解決的問(wèn)題。2018 年的Learning to Zoom中,Zhang 等人利用相機(jī)制作了真實(shí)場(chǎng)景下具有LRHR 圖像對(duì)的數(shù)據(jù)集Raw Data,讓模型自己學(xué)習(xí)如何縮放。隨后提出的RealSR 和DRealSR 數(shù)據(jù)集也都是具有LR-HR 圖像對(duì)的真實(shí)場(chǎng)景數(shù)據(jù)集,且內(nèi)容更多樣化,覆蓋面更廣。目前,針對(duì)于已知退化模型的超分方法研究,盲超分作為解決未知退化模型問(wèn)題的方法,成為當(dāng)前比較熱的研究方向。

5 總結(jié)展望

本文對(duì)基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)進(jìn)行了綜述,包括單圖像超分辨率重建技術(shù)和基于參考的圖像超分辨率重建技術(shù),分別對(duì)兩者進(jìn)行分析和論述,總結(jié)了目前該領(lǐng)域的研究現(xiàn)狀。最后對(duì)圖像超分領(lǐng)域研究的未來(lái)進(jìn)行展望,總結(jié)了以下幾點(diǎn)發(fā)展趨勢(shì):

(1)真實(shí)場(chǎng)景下的圖像超分重建

深度學(xué)習(xí)在訓(xùn)練過(guò)程中需要大量的數(shù)據(jù)集作為樣本進(jìn)行訓(xùn)練,訓(xùn)練樣本的質(zhì)量高低在很大程度上會(huì)對(duì)模型的性能產(chǎn)生影響。自然條件下低分辨率圖像的獲取和收集存在一定難度,目前大多數(shù)模型都是通過(guò)降采樣獲取,雖然這解決了訓(xùn)練樣本有無(wú)的問(wèn)題,但是同時(shí)也大大減弱了模型對(duì)真實(shí)場(chǎng)景的圖像的重建能力。在接下來(lái)的研究中,真實(shí)場(chǎng)景下的低分辨率圖像的獲取和收集會(huì)成為該領(lǐng)域的研究熱點(diǎn),針對(duì)真實(shí)場(chǎng)景的超分重建研究將大大提高圖像超分的實(shí)際應(yīng)用價(jià)值。

(2)無(wú)監(jiān)督超分辨率重建

有監(jiān)督的圖像超分辨率重建需要LR-HR 圖像對(duì)作為數(shù)據(jù)集,在模型中需要設(shè)計(jì)降質(zhì)模塊來(lái)對(duì)HR 圖像進(jìn)行降質(zhì)。這種降質(zhì)方式固定且單一,與實(shí)際復(fù)雜多變的降質(zhì)情況不符,嚴(yán)重影響了圖像超分的發(fā)展和應(yīng)用價(jià)值。無(wú)監(jiān)督圖像超分不需要成對(duì)的訓(xùn)練樣本,降低了訓(xùn)練樣本的要求,更符合實(shí)際情況的超分需要,但是這也對(duì)模型的學(xué)習(xí)能力提出了更高的要求。因此,如何實(shí)現(xiàn)無(wú)監(jiān)督的超分辨率重建,即在不需要構(gòu)建LR-HR 圖像對(duì)的情況下進(jìn)行超分辨率重建,是未來(lái)很有發(fā)展前景的方向。

(3)特殊領(lǐng)域的超分重建研究

目前大多數(shù)的圖像超分重建研究都是針對(duì)自然圖像,雖然具有普適性,但是從專業(yè)和實(shí)用的角度來(lái)說(shuō),這大大減弱了超分的研究?jī)r(jià)值。不同應(yīng)用場(chǎng)景下的圖像之間的特征差距十分明顯,甚至不同場(chǎng)景下的圖像特征會(huì)對(duì)模型正確的特征表達(dá)產(chǎn)生反向抑制的效果。從視頻監(jiān)控、衛(wèi)星遙感到醫(yī)學(xué)成像、刑偵分析等,對(duì)特殊領(lǐng)域的超分研究,將使模型變得簡(jiǎn)單而專業(yè),可以充分滿足該領(lǐng)域的實(shí)際需求。

(4)交叉模態(tài)信息下的超分研究

不同模態(tài)的信息在超分重建過(guò)程中能提供不同的信息,如在人臉超分重建的過(guò)程中,目標(biāo)的性別、身份以及其他屬性信息也能對(duì)重建過(guò)程產(chǎn)生幫助,甚至還可以利用聲音信息來(lái)引導(dǎo)重建。除了音頻信息之外,深度、近紅外光譜信息也可以用于超分重建。多模態(tài)信息融合下的超分研究將會(huì)成為該領(lǐng)域的研究方向之一。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 精品三级在线| 久久久久久久蜜桃| 激情综合网址| 亚洲天堂在线视频| 欧美日韩精品一区二区视频| 91蜜芽尤物福利在线观看| 播五月综合| 午夜三级在线| 日本国产在线| 高清无码一本到东京热| 国产成人91精品| 国产极品粉嫩小泬免费看| 99视频在线观看免费| 2021无码专区人妻系列日韩| 丁香六月综合网| 91精品视频在线播放| 中文字幕在线视频免费| 久久激情影院| 乱系列中文字幕在线视频| 成人韩免费网站| 精品伊人久久久大香线蕉欧美| 国内精自视频品线一二区| 午夜日b视频| 国产精品妖精视频| 日韩黄色大片免费看| 亚洲AV色香蕉一区二区| 国产精品密蕾丝视频| 国产精品尤物铁牛tv| 欧亚日韩Av| 精品一區二區久久久久久久網站| 国产又色又爽又黄| 成人精品在线观看| 午夜一区二区三区| 乱人伦视频中文字幕在线| 日韩高清在线观看不卡一区二区| 乱人伦中文视频在线观看免费| 精品少妇人妻一区二区| 亚洲欧美在线综合图区| 欧美一级高清片欧美国产欧美| 久久精品亚洲中文字幕乱码| 亚洲美女视频一区| 麻豆精品在线播放| 综合人妻久久一区二区精品| 福利视频一区| 欧美一级夜夜爽www| 亚洲品质国产精品无码| 91国内视频在线观看| 四虎精品国产AV二区| 日韩精品毛片人妻AV不卡| 四虎精品国产AV二区| a级毛片免费网站| 亚洲高清中文字幕在线看不卡| 国产噜噜噜视频在线观看 | 日本尹人综合香蕉在线观看| 欧美综合区自拍亚洲综合绿色 | 国产成人久久777777| 亚洲愉拍一区二区精品| 国产情侣一区二区三区| 国产成人1024精品| 午夜一区二区三区| 国产成人一区免费观看| 不卡国产视频第一页| 国产又爽又黄无遮挡免费观看 | 国产波多野结衣中文在线播放| 激情无码视频在线看| 亚洲视频免费播放| 久久公开视频| 亚洲国产天堂久久综合226114| 亚洲天堂网2014| 国产成人精品高清不卡在线| 精品日韩亚洲欧美高清a| 国产日本欧美在线观看| 国产人免费人成免费视频| 久久a毛片| 亚洲人成人无码www| 婷婷中文在线| 女同国产精品一区二区| 欧美一级大片在线观看| 黄色网页在线观看| 色哟哟国产成人精品| 萌白酱国产一区二区| 女人爽到高潮免费视频大全|