999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度神經網絡的圖像修復算法綜述

2023-10-30 08:57:38呂建峰邵立珍雷雪梅
計算機工程與應用 2023年20期
關鍵詞:語義特征區域

呂建峰,邵立珍,雷雪梅

1.北京科技大學 自動化學院,北京 100083

2.北京科技大學 順德創新學院,廣東 佛山 528399

3.北京科技大學 信息化建設與管理辦公室,北京 100083

圖像修復是根據未損壞區域的信息來推測缺失內容并對破損區域進行復原的技術,早期的圖像修復主要應用于藝術畫作,修復師根據自身的想象力來還原的原本的畫作[1]。不同于圖像分類[2]、檢測[3]等高層視覺語義分析,圖像修復任務不僅需要對圖像進行特征的提取,還需要輸出相應的圖像,主要實現的是圖像編輯這種底層視覺的任務[4]。

傳統圖像修復方法包括基于擴散方法和基于樣本方法。基于擴散的方法[5-6]利用偏微分方程,根據圖像缺失部分邊緣的已知信息確定擴散的方向和大小,由四周逐步擴散至中心區域,直到傳播至整個缺失部分。對于存在有明顯復雜紋理圖像的照片來說,使用擴散會出現畸變。并且對于大面積的信息缺失的圖片,信息會隨著擴散而逐漸丟失,導致中心區域模糊不清,因此該方法不適合用于大區域修復。基于樣本方法[7-9]將未知區域與已知區域樣本進行相似度匹配,將相似度最高的塊直接復制到對應缺失部分。此類方法可以處理較大破損面積,但置信度會隨著填充而下降,檢索速度和匹配效率較低。傳統圖像修復方法只能關注圖像的結構和紋理,忽略了圖像高層的語義信息,對于紋理結構復雜、缺失面積較大的圖像都不能處理得很好。深度學習方法能夠很好地提取圖像深層的語義特征,使缺失區域的修復符合視覺語義一致的效果,因此基于深度學習的圖像修復得到廣泛研究。

隨著卷積神經網絡(convolutional neural network,CNN)[10]、自編碼器(auto encoder,AE)[11]以及生成對抗網絡(generative adversarial network,GAN)[12]的提出,圖像修復技術已經能在語義、紋理結構上保持與原圖一致,視覺效果日漸趨于真實圖像,圖像修復技術已經被應用于物質文化遺產保護[13]、醫學領域圖像處理[14]、日常圖像編輯修復[15-16]等領域。

盡管目前國內有部分發表的圖像修復綜述性工作,但都存在一些方面沒有考慮,如缺少質量指標的定量對比、實驗數據缺少相關的數值分析、沒有對分類的修復方法進行概括總結等。因此本文首先在概述傳統圖像修復方法及其不足基礎上,對近幾年基于深度神經網絡的圖像修復方法按照不同優化方向進行分類與綜述;然后介紹了圖像修復研究常用的數據集和性能評價指標,并在相關數據集上對具有代表性的圖像修復算法進行性能評價和分析總結;最后,對現有圖像修復方法目前面臨的挑戰進行分析,并對未來研究方向進行了展望。本文的主要貢獻是按照圖像修復的優化方向進行分類綜述,并結合相關的實驗條件進行了性能分析,包括圖像分辨率、掩膜類型以及推理時間,最后總結了圖像修復四種優化方向各自的優勢、局限性以及適用場景。

1 基于深度學習的圖像修復方法

基于深度學習的圖像修復是利用深度自編碼器(deep auto encoder,DAE)[17]與卷積自編碼網絡(convolutional auto encoder,CAE)[18]實現的,其通過卷積網絡將整個破損圖像進行數據信息的特征提取,然后利用解上采樣將關鍵的特征重新組合起來,從而完成修復區域的生成。GAN 主要由生成器G(generator)和判別器D(discriminator)組成,其中生成器G主要任務是用噪聲信號通過數據分布來生成新的圖像,判別器D的作用則是判別生成的圖像是真實圖像還是虛假圖像。此時判別器做的是不斷訓練自己的判別能力,既能將真實圖片判別為真實,同時也要將生成圖片判定為虛假;而生成器需要做的是不斷訓練自己生成的圖片盡可能地真實,以此來使生成器與判別器達到平衡。

自編碼網絡需要GAN對抗損失來彌補傳統像素級別的距離損失,所以目前基于深度學習的圖像修復主流是將自編碼網絡的生成模型和GAN的對抗損失結合起來。按照模型的優化方向,將圖像修復方法分為基于網絡結構優化的方法、基于注意力機制的方法、基于輔助信息指導的方法以及基于損失函數優化的方法。

1.1 基于網絡結構優化的方法

Pathak等人[19]結合了自編碼網絡與GAN的思想,提出了上下文編碼器(context encoders,CE)網絡,開創了深度學習圖像修復的先河,其網絡結構如圖1所示。具體來看,context encoders網絡將帶有缺失區域的圖像作為輸入,利用編碼器提取出圖像的高級潛在特征,接著解碼器將提取的特征進行上采樣生成缺失的圖像內容。作者發現僅使用與真實圖像之間的L1距離作為重構損失函數會導致修復圖像內部模糊不清,并且修復邊緣明顯,而加入對抗損失可以讓生成的圖片更加自然,使得修復內部圖像更加具有真實性。但context encoders網絡僅僅對修復的局部圖像進行鑒別、使原圖與生成圖像邊緣出現較為明顯的割裂感,大大降低了整體圖像的觀感,并且context encoders 網絡針對的破損圖像僅為中心規則掩膜,并不能很好地處理隨機的不規則圖案。

圖1 Context encoder網絡結構Fig.1 Network structure of context encoder

常規的卷積網絡會把感受野上的所有像素進行卷積,但被污染的圖片上的像素分為有效像素和破損像素,同時將其卷積會導致修復邊界出現扭曲偽影等視覺問題。Liu等人[20]提出了部分卷積(partial convolutions,PConv),其能夠對掩膜按照規定好的公式進行自動更新,避免了無效像素對圖像特征提取的影響,同時加大了破損邊緣的權重,實現了對不規則破損圖像的修復。使用掩碼自動更新的部分卷積來代替普通卷積可以有效消除偽影問題,并且部分卷積作為即插即用的模塊可以廣泛地推廣到其他圖像修復模型中,且無需任何額外處理操作。但人為設定掩膜更新機制作為硬門控不能自主學習權重系數,具有不同數量的有效像素一同卷積導致邊緣信息消失,同時破損像素隨著網絡深度逐漸消失。因此Yu 等人[21]提出了可學習的門控卷積(gated convolutions,GConv),門控卷積自主學習了破損圖像以及掩膜通道和空間位置的動態特征,掩膜同樣由特征圖作為輸入進行卷積操作更新,而不再是通過人為規則更新,門控卷積能夠自動學習掩膜的權重,使不規則圖像修復邊緣過渡更加自然,減少偽影以及扭曲等視覺問題。但GConv網絡結構采用了由粗到精的兩階段修復,并在精修復網絡中添加了注意力模塊,增加了大量網絡參數與計算成本。

由于常規卷積只有固定的感受野,因此Wang 等人[22]提出了多列分支結構網絡,通過不同卷積核大小的膨脹卷積提取出具有不同感受野以及多分辨率的特征,使解碼器能夠利用不同層級以及更遠的全局特征信息進行圖像生成,但此方法面對不同對象和場景的大規模數據集時仍然存在困難。Zhang等人[23]從課程學習中獲取靈感,通過合理的修復順序能夠比一次性完成修復獲得更好的效果。因此文章將大區域的圖像修復劃分為了多階段的區域修復,通過漸進式的修復方式使圖像能夠從邊界逐步向中心完成修復,但此方法只能針對固定的規則掩膜進行設計,并不能處理不規則或者隨機的破損圖像。

早期圖像修復大多采用批歸一化(batch normalization,BN)[24]、層歸一化(layer normalization,LN)[25]以及實例歸一化(instance normalization,IN)[26],這導致破損區域與已知區域一起進行歸一化而造成均值方差偏移的問題。Yu等人[27]提出了區域歸一化(region normalization,RN),其核心是分別對破損區域和已知區域各自進行歸一化處理,通過計算各自的均值和方差以此來區分不同區域的數據分布。由于網絡后層區域掩膜已經融合,所以文中還提出了在不需要區域掩模下能自動檢測損壞區域并獲得掩碼的可學習區域標準化(learnable region normalization,RN-L),解決了均值和方差移位問題并增強了破損區域的融合。但該網絡需要明確的掩膜信息,對于破損區域與未破損區域難以分辨的圖像,或者掩膜信息在卷積過程中被融合,都會導致RN-L 無法確定破損的區域,使修復圖像較為模糊。

修復生成的圖像不一定要與原圖一樣,只要看起來合理,就允許產生多種解決方案,Peng 等人[28]通過分層向量量化變分自動編碼器(hierarchical vector quantized variational auto-encoder,VQ-VAE)得到離散化的圖像結構與紋理信息,紋理生成器將生成的不同粗糙結果通過結構注意力模塊來輔助紋理細節的增強,從而實現修復結果的多樣化以及確保了圖像的視覺質量,但該方法仍只能處理分辨率不高的圖像。

傳統CNN 無法捕捉長距離的信息,所以CNN 需要通過其他方法來獲取全局信息的能力,Zeng等人[29]提出了上下文信息聚合轉換(aggregated contextual transformations,AOT)網絡,AOT block采用多個不同膨脹率空洞卷積,用門控連接并且代替了普通殘差塊中的Identity連接,在增強對遠距離特征的捕捉的同時也降低了邊緣顏色偏差問題,但該網絡中AOT block分支數與膨脹率是根據研究設定的,當修復不同大小的圖片時需要再次尋找最佳的參數設置。Quan 等人[30]提出了一種三階段生成網絡,其中小感受野的局部細化網絡對于修復局部紋理更為有效,而大感受野和注意力方案用于修復長距離細節與大結構,通過局部和全局細化網絡組合可以處理不同的修復場景。然而三階段的網絡也會產生更多的參數與計算成本,將局部和全局細化作為一個整體才會實現更高效的存儲和計算。Zheng等人[31]提出了級聯調制生成網絡(cascaded modulation GAN,CM-GAN),該網絡具有全局調制塊和空間調制塊級聯的雙流解碼器,應用全局調制特征圖中提取的空間樣式調整特征圖,從而確保全局和局部生成的一致性,但網絡對于合成像人或動物這種特定類型的大型物體方面仍然具有局限性。He等人[32]認為視覺圖像具有高度冗余的特點,提出直接隨機mask大部分patch來降低冗余信息,而視覺任務中解碼器重構更多的是低語義信息像素。因此作者設計了一種非對稱的編碼器-解碼器架構,僅通過對可見Patch進行編碼以及通過輕量級的解碼器進行圖像重建,在加快訓練速度的同時提高精度,使模型能夠輕松擴展到其他模型中。

1.2 基于注意力機制的方法

普通卷積的感受野十分有限,所以基于CNN 的圖像修復網絡不能很好地將破損區域與較遠的已知區域聯系起來,這就導致了圖像修復缺乏精細的紋理細節[33]。而早期基于樣本修復的方法能夠通過匹配和復制粘貼補丁塊,使得修復的圖像擁有高頻的紋理細節,但此種方法又不能捕捉到圖像的深層信息,導致出現修復的圖像語義混亂和不一致。因此人們考慮在自編碼網絡的基礎上加入匹配塊,使網絡既可以學習到深層的語義信息,又能學習到高頻的細節紋理信息。

Yan 等人[34]在U-Net[35]為主干網絡的基礎上添加了移位連接層,Shift-Net通過將編碼層特征和解碼層特征以及匹配最相近的特征塊進行跳躍連接融合,從而引導編碼器對未知區域的特征的修復。Yu 等人[36]引入了注意力機制的概念,通過上下文注意力層從遠距離的區域提取出與待修復區域相近的特征,其上下文注意力層如圖2所示。具體來看就是將整個圖像通過卷積,匹配出已知區域和待修補區域相近的塊,然后按照塊的得分進行上采樣來重建待修補區域,以此提升網絡的遠距離信息抓取能力。但上述方法都只是關注到缺失區域與已知區域特征信息的相關性,直接將已知區域特征轉移修復區域容易導致修復邊界信息混亂,以及生成圖像內部斷層的問題。

圖2 上下文注意力層Fig.2 Contextual attention layer

考慮到待修復區域內部自身的相關性,Liu 等人[37]針對破損區域內部特征之間的相關性問題,提出了連貫語義注意力(coherent semantic attention,CSA),其不僅使用注意力機制將破損區域與已知區域建立聯系,同時也用CSA 層關注到缺失區域修復中塊之間的相關性,有效解決了修復區域內部斷層以及扭曲的問題。在計算特征塊的相似度時,使用不同大小的塊會導致修復的關注點不同,越大的塊就越會關注高層語義之間的相似性,相反則會關注圖片低層紋理細節之間的相似性,Wang 等人[38]將不同尺度塊進行特征融合,然后通過壓縮和激勵(squeeze-and-excitation,SE)模塊來調整不同尺度注意力層的權重,使修復的圖片能夠關注到紋理細節與全局語義。但上述方法都只是針對注意力提取的特征進行改進,對于邊界信息以及整體結構還有待改善。為了保證圖像修復紋理細節與高級語義的一致性,Zeng等人[39]基于多尺度特征金字塔的網絡結構(feature pyramid network,FPN)[40]提出了金字塔式上下文編碼網絡。網絡同時將淺層提取的紋理細節特征、深層提取的高級語義特征以及注意轉移網絡學習的注意力得分進行了融合,通過金字塔形式逐層完成多尺度的圖像補全。該方法在圖像修復的同時也進行了特征層面的補全,將高級語義的學習與紋理細節的學習聯系在了一起,保證了紋理與語義的一致性。但多尺度的注意力機制也導致了模型訓練時間長、參數大等問題,如今的圖像分辨率越來越高,需要修復破損區域的面積越來越大,需要一種輕量級的修復網絡解決這些問題。

針對漸進式修復對于大面積破損圖像計算量大與時間成本大的問題,Li 等人[41]提出循環特征推理網絡,該網絡將注意力機制嵌入在循環特征推理模塊(recurrent feature reasoning,RFR)中,通過反復利用RFR 的參數使模型輕便化,并用知識一致注意力模塊以自適應的方式融合注意力得分,從而逐步完善特征圖。雖然上述方法能解決大面積缺失問題,但針對高分辨率圖像仍然需要計算成本,為此Yi等人[42]提出了上下文殘差聚合網絡,第二階段網絡計算的注意力得分不僅用于圖像的精細修復,同時也共享在殘差聚合的高分辨修復中,該網絡的優勢在于可以只針對低分辨率圖像進行學習,通過上采樣并加入高頻殘差得到最終高分辨的補全圖像。此外作者還設計了輕量級的門控卷積,使網絡在降低參數數量和推理時間的同時也保持了有效性,大大降低了計算時間和成本。

Transformer[43]最初是針對NLP領域提出的,并且在NLP領域大獲成功,Google團隊隨后也提出了在計算機視覺領域中使用Transformer 視覺自注意力模型(vision transformer,ViT)[44]。卷積網絡對全局信息具有局限性且不支持多元輸出,而Transformer 擁有很強的結構理解能力但計算量大,為此Wan 等人[45]將兩者結合起來,通過顏色離散化和圖像壓縮來減少計算復雜度,采用雙向Transformer 不斷將標記為掩膜的token 進行修復,而修復好的token會繼續參與新的重建中,以此打破CNN局部感知的空間限制以及循環神經網絡(recurrent neural network,RNN)單項傳播的順序限制,最后網絡再通過高分辨率掩膜引導CNN 來填充細節紋理。Zheng 等人[46]用Transformer替換了VQ-VAE編碼CNN特征生成器,其網絡通過代碼共享策略能夠高效且魯棒地學習語義豐富的離散特征,最鄰近特征經過Transformer 實現未知編碼的補全,從而獲得多樣化的高質量修復結果。但上述方法最后都需要經過CNN 進行高分辨的精修復,并且需要針對不同數據類型訓練不同模型以獲得通用的代碼本。

1.3 基于輔助信息指導的方法

對于圖像修復任務,直接將缺失圖像映射成完整圖像會使得結果過于平滑以及結構扭曲,受到書畫修復師以及人類大腦對圖像補全認知過程的啟發,研究人員開始對圖像修復加上先驗的輔助信息[47]。基于輔助信息指導的方法類似于由粗糙到精確的兩階段法,首先把破損的圖片放到第一個修復網絡中,根據未破損的圖像信息構建出破損區域的先驗信息,然后把輸出的輔助信息和原來破損圖一起輸入到第二階段修復網絡中,來幫助完成圖像補全修復任務。不同于常規兩階段法生成粗糙結果的紋理約束,基于輔助信息指導方法生成的主要是高級語義結構的約束,因此增加結構信息指導的修復減少了修復區域與未破損區域之間的過渡平滑與模糊,使修復的圖像結構符合原本的語義。

語義分割是對圖像中的每一個像素進行分類,Song等人[48]將圖像修復過程分為分割預測網絡(segmentation prediction net,SP-Net)和分割指導網絡(segmentation guidance net,SG-Net),將兩個部分串聯起來形成語義預測指導網絡(segmentation prediction and guidance network,SPG-Net),其網絡結構如圖3 所示。利用全卷積網絡(fully convolutional networks,FCN)[49]得到的破損語義分割圖送入SP-Net生成完整的語義信息圖,以此作為輔助先驗信息來指導圖像的生成,有效消除了修復中的類間差異。但面對數據集語義不明顯或者存在相同語義的對象時,這種輔助信息往往也會導致相應紋理修復出現問題。受到藝術家工作方式靈感啟發,Nazeri等人[50]認為輪廓恢復是圖片修補中的一項簡單的任務,提出的Edge Connect 網絡采取了先生成輪廓線條得到完整邊界信息,再指導圖像填充色彩的方法。輪廓生成器的作用可以把圖片修補任務的難度降低,將修復三通道RGB 圖的任務轉為修復輪廓的二值圖,當修復得到完整的輪廓圖片后,再將圖像修復的任務轉變為上色任務。這個過程相當于把恢復高頻信息與低頻信息的過程解耦合,使圖像修復任務能夠有效地重建高頻信息。

圖3 SPG-Net網絡結構Fig.3 Network structure of SPG-Net

但上述方法都有不足之處:首先是在混合場景中直接從缺失圖像預測完整語義分割或輪廓圖都很困難,而不準確的先驗信息將會降低后續圖像修復的質量;其次輔助信息的生成與圖像修復的過程不應該割裂,而應該是相互促進的。為此Li 等人[51]設計了視覺結構重建(visual structure reconstruction,VSR)層,在圖像特征提取的同時進行圖像輪廓的更新,通過漸進式的邊緣補全指導圖像內容的修復,VSR層的主要目的是將結構信息整合到重構的特征映射中,通過共享參數提高彼此的性能,采用單一階段逐步完成修復。Liao等人[52]提出了單一階段語義指導圖像修復模型,其通過漸進式方式生成更高分辨率的語義分割圖像來引導模型獲得更精確的修復結果。此外,為了解決語義分割預測的不準確問題,作者還提出了一種可以預測語義分割可信度的評估模塊(segmentation confidence evaluation module,SCEM),SCEM 會根據語義分割結果的類別概率生成一個掩膜矩陣,來標記出置信度不高的區域,通過漸進式解碼逐漸減少不確定的語義分割以此提高最終語義的準確性。

常用的圖像修復方法需要輸入破損圖像相對應的破損掩膜,但實際生活中往往不知道圖像需要修復的是什么區域,或者說標定相應的破損區域相對困難。如果要利用人工標注掩膜,用戶則需要仔細手動定位損壞區域,而且對于批量圖片操作也會耗費大量時間和精力。較早的盲修復都是針對固定噪聲直接端到端進行修復[53],但對于圖像缺失區域語義不一致等情況卻很難進行處理,因此Wang 等人[54]提出了一種能實現圖像盲修復的網絡,其中掩碼預測網絡(mask prediction network,MPN)用于預測視覺不一致區域,MPN的目標是檢測所有損壞的區域并生成對應的掩膜矩陣;魯棒補全網絡(robust inpainting network,RIN)用于補全視覺不一致區域,利用概率上下文規范化對輸入的預測掩膜進行處理,其誤差也會在RIN優化時反向傳播到MPN中,使網絡中的掩膜預測與圖像修復相互關聯。

結構輔助信息的增加可以使圖像語義更清晰,但內部依然會存在混亂的顏色偽影問題,Wang 等人[55]設計了外部-內部修復方法,外部學習通過數據集學習語義知識重建缺失圖像的結構,內部學習統計單個圖像的顏色數據,漸進式地對圖像進行顏色恢復,從而消除了突變顏色振鈴的缺陷,但此方法對每個測試圖像都需要顏色學習訓練,所以推理時間較長,不能完成實時運算。

Zeng 等人[56]設計了將置信度圖作為輔助信息來反饋修復準確度,以此來應對圖像出現較大破損區域時中心部分修復效果較差的問題。網絡通過置信度圖的信息循環迭代來指導修正上一次的生成結果,并采用指導式上采用來生成高分辨率的結果。雖然網絡處理大面積破損以及高分辨圖像有一定優勢,但由于網絡需要迭代運算,所以計算資源也較大。Guo等人[57]也指出修復過程中紋理信息和結構信息是相互影響、相互促進的,為此提出了一種雙流的網絡結構。網絡擁有紋理和結構的編解碼器,用結構約束紋理特征生成,用紋理特征引導結構的重建,將紋理和結構彼此作為輔助信息從而引導恢復。同時網絡設計的雙向門控征融合模塊和上下文特征聚合,使結構和紋理特征之間能夠共享和組合信息,從而增強圖像紋理細節的一致性。

1.4 基于損失函數優化的方法

Context encoders網絡雖然使用了對抗損失作為約束,但其僅僅作用于圖像局部區域,因此存在修復區域模糊和邊界結構不一致的問題。Iizuka等人[58]在context encoders局部對抗損失基礎上新增了全局對抗損失,全局判別網絡會把生成圖像與原本圖像拼接起來判斷整體圖像的真偽,利用全局對抗損失可以在保證圖像全局結構一致性的同時,也使得生成的圖像更具真實性,其網絡結構如圖4所示。

圖4 全局局部一致圖像補全網絡結構Fig.4 Network structure of globally and locally consistent image completion

Johnson 等人[59]提出了感知損失和風格損失概念。感知損失是原始圖像與修復圖像相似特征之間的L1距離;風格損失為原始圖像與修復圖像特征圖對應格拉姆矩陣的L1 距離[60]。感知損失與風格損失的加入,使圖像風格細節受到更多的顏色和紋理約束,用于衡量兩張圖片之間高級感知及語義差別。利用這種思想,Yang等人[61]通過VGG-19網絡[62]的圖像特征層進行已知區域與缺失區域特征塊的最相近匹配,利用提取的圖像深層特征實現了圖像紋理的匹配,其本質就是增加了一個紋理約束作為損失函數。文獻[22]將感知損失進行隱式多元馬爾科夫隨機場(implicit diversified Markov random fields,ID-MRF)正則化,采取相對距離來度量特征之間的相似性,與直接相似性度量相比,該方法可以還原更真實的紋理、增加結構的變化。同時為了使修復邊界的未知像素受到更強的約束,作者還設計了置信驅動的重建損失,將掩膜卷積得到的權重作用到損失函數中,以此來改變圖像不同位置的約束權重。

文獻[36]在注意力機制網絡中添加了空間權重衰減損失,離待修復區域的邊緣越遠,其中心修復的圖像就越自然,而邊緣部分由于和已知區域相連,其紋理結構就會受到已知區域更多的約束。因此作者給邊緣部分的損失更大的權重,而離邊緣越遠,其權重衰減越厲害,從而達到對邊緣約束的同時也讓缺失區域中心能夠不受到原圖的影響。后來作者又借鑒了PatchGAN[63]和譜歸一化(spectral normalization,SN)[64],在門控卷積網絡中加入了簡單高效的SN-PatchGAN判別器。其中SN解決了判別器訓練不穩定以及模式崩潰的問題;而PatchGAN 又稱馬爾可夫判別器,其輸出為N×N的矩陣,每個Patch對應著原圖的一片感受野,判別器將會對每一塊Patch 進行鑒別,因此解決了傳統判別器受輸入分辨率的限制以及判別區域不能為任意形狀的問題。文獻[29]在PatchGAN 的基礎上進行改進,為了突出優化圖片生成的部分,將原圖部分改為真實,但強行優化生成部分也會導致與原圖片部分融合不夠充分,通過給硬標簽加上高斯濾波進行模糊處理就變成了軟便簽PatchGAN。

由于缺少已知區域與未知區域對應關系的約束,使用注意力層將已知區域塊轉移到未知區域可能會導致匹配錯誤,Zeng等人[65]在精修復網絡中加入了上下文重建損失,通過最小化輔助圖像的修復損失,鼓勵網絡尋找最佳的補丁塊并移動到相應的位置,使得生成器找到適當的已知區域作為填充。

2 相關數據集與性能分析

2.1 圖像修復相關數據集

圖像修復作為底層視覺任務,其常用于街景、場景以及人臉等場合,因此圖像修復相關數據集主要也分為以上三大類。

在街景上,Paris StreetView數據集[66]拍攝于現實的街景,大多為巴黎街景圖片,其包含訓練圖像14 900張,數據集較早用于圖像修復場景,分辨率為963×537;Cityscapes 數據集[67]是以歐洲城市為主的街道場景,其擁有的語義分割和實例分割可以作為輔助信息幫助完成圖像修復任務。

對于場景數據集,Places[68]具有1 000 多萬張圖片,包含了400多種場景,圖像分辨率為256×256,主要用于場景環境的高級視覺任務中;ImageNet 數據集[69]具有1 400萬張圖片,包含兩萬多個生活場景的物體圖像,擁有用于分類、定位和檢測任務評估的數據。

針對人臉數據集,Celeba[70]數據集收集了20 萬多張人臉圖像,包含一萬多個身份,分辨率為178×218;CelebaHQ[71]則是高分辨版本的Celeba,分辨率為1 024×1 024;人臉高清數據集(flickr-faces-high-quality,FFHQ)[72]最初作為GAN的基準創建,包含1 024×1 024分辨率的高質量人臉圖像,每張圖像都有多種屬性標簽。

由于現有的圖片很難找到對應的實際破損圖像,所以目前圖像修復使用的破損圖像數據集基本都是在上述公共數據集上加入掩膜圖像生成的。最早使用的主要是中心矩形的規則掩膜,但由于其掩膜不符合實際生活的破損圖像,所以文獻[20]提供了NVIDIA Mask數據集,其不規則掩膜由視頻的兩個連續幀之間的遮擋和去遮擋生成,圖像分辨率為512×512,該數據集實例如圖5所示。文獻[21]提出的隨機掩膜(free-form masks),主要利用程序代碼,通過改變垂直邊距、水平邊緣、圖像尺寸等參數來隨機生成相應的掩膜。還有部分文獻使用的不規則掩膜也是利用程序代碼隨機生成的,但其方法在代碼上各不相同。上述掩膜都沒有人為因素的實際干預,要么存在鋒利的邊緣,要么就是過渡的涂抹,為此快速繪制不規則掩碼數據集(quick draw irregular mask dataset,QD-IMD)[73]提供了手繪制的筆畫組合的不規則掩膜圖案,圖像分辨率為512×512。

圖5 NVIDIA Mask數據集Fig.5 NVIDIA Mask data set

2.2 圖像修復評價指標

圖像修復評價指標分為主觀和客觀評價指標,由于圖像修復屬于底層視覺任務,所以其主觀評價又顯得尤為重要,主要根據人的視覺來對修復圖像進行認知,但對于修復結果的好壞也依賴于主觀判斷能力,并且需要大量的樣本才能確保評價結果的一致。下面對常用的客觀評價指標進行說明。

平均絕對誤差(mean absolute error,MAE),指修復圖像與真實圖像像素值之差絕對值之和的平均值,即L1 損失函數,MAE 越大則像素差異越大;MAE 越小則與真實圖像的像素差異也就越小。峰值信噪比(peak signal to noise ratio,PSNR),該指標評價的是噪聲對圖像修復差異的影響,PSNR越大,說明修復的圖像與真實圖像失真越小。結構相似性(structural similarity index,SSIM)[74]用來衡量圖片相似度,主要關注邊緣和紋理相似性來模仿人類感知,由亮度、對比度和結構三部分組成,SSIM 越大圖片相似度越高。弗雷歇距離(Fréchet inception distance,FID)[75],其使用Inception v3[76]網絡提取圖像特征的均值和方差計算它們分布距離,FID分數越低,代表兩者分布越近,兩組圖像也就越相近。

2.3 圖像修復方法性能分析

本節采用MAE、PSNR和SSIM作為評價指標,對前文所述基于深度神經網絡的圖像具有代表性的修復方法進行性能分析。其中“—”表示此算法文獻沒有該項性能指標數值,掩膜類型為“不規則掩膜”的數據集為NVIDIA Mask[20]。計算時間能夠體現出算法成本和性能的特性,也是體現修復算法質量的重要因素,尤其是實時應用,計算時間更是計算機視覺任務的一項挑戰。因此表格也加上了推斷時間數據,代表修復一張圖像所需要花費的時間。表1~表4 分別列出了在基于網絡結構優化、基于注意力機制、基于輔助信息指導、基于損失函數優化具有代表性的算法在常用數據集上的性能。

表1 基于網絡結構優化的算法性能Table 1 Algorithms comparison based on network structure optimization

從表1圖像分辨率以及掩膜類型可以看出,由于先前圖像修復還不太成熟,只能處理低分辨率以及人工放置在圖像中心區域規則掩膜的簡單圖像,但隨著編碼器-解碼器網絡結構的優化,能夠處理的圖像分辨率逐漸提高,也能實現一些復雜的不規則掩膜圖像的修復,同時推理時間也在不斷縮減。PGN 通過將整體拆分成子任務的漸進式修復,LGNet 將修復分為粗修復、局部精修復和全局優化三階段修復,這種分階段思想使MAE和PSNR數值有所提升;而GMCNN通過不同尺寸的卷積核,AOT-GAN 通過不同膨脹系數的卷積都獲得了更大的感受野,使CNN 獲得了捕捉更長距離信息的能力,從而能夠處理更多類型的數據集以及更高分辨率的圖像。

分析表2數據,從Shift-Net到CA再到CSA,隨著注意力方法的不斷改進,性能指標數據也在不斷提高,但相應的推斷時間卻越來越長,這是由于注意力的引入使得網絡需要處理的數據量增多,從而導致推理時間變慢。隨著圖像分辨率提高,圖像修復的計算時間也需要解決,RFR網絡通過循環網絡參數以及融合注意力得分使模型輕量化,同時使用了漸進式方法,可以看到在性能指標相差不大的情況下,RFR網絡能夠處理較大面積的掩膜;CRA 通過殘差聚合模塊能夠在100 ms 內處理2K 甚至4K 分辨率的高清圖像;ICT 采用的Transformer結構可以利用自注意力機制獲得更遠的信息,也擁有更強的全局理解能力強,因此其性能指標在高掩膜占比情況下都優于其他注意力方法,能夠很好地實現復雜場景以及大面積破損圖像的修復。

表2 基于注意力機制的算法性能Table 2 Algorithms comparison based on attention mechanism

表3 主要是對比EC 與PRVS 兩種靠邊緣信息指導圖像補全的算法,不同于EC 兩階段串聯的方法,PRVS算法得益于漸進式方式以及輔助信息與圖像補全的相互促進,在不同掩膜占比的情況下性能指標均優于使用二階段法的EC算法。而VCNet由于缺少了掩膜的輸入信息,因此其性能指標不如其他算法,但VCNet 使用掩膜預測網絡與補全網絡相結合的方法能夠實現更為常見的盲修復任務,并且破損區域不再局限于黑白掩膜,還能夠處理各種語義不一致的問題,開辟了圖像修復新的方向。

表3 基于輔助信息指導的算法性能Table 3 Algorithms comparison based on auxiliary information guidance

從表4可以看出在設計新的圖像修復算法時,往往不會只針對其中一種方向進行優化,而是會針對多方面進行不同的優化,通過改進現有的損失函數從而使自身網絡的優勢發揮更大的作用。如HR針對高分辨率圖像引入了感知損失,CA 算法針對注意力引入了空間權重衰減損失,這都使性能指標得到一定程度上的提升。

分析四種不同優化方向的修復算法,由于目前圖像修復處理領域沒有專門和標準化的基準數據集以及評價指標,從各算法分析結果來看,除了訓練的圖像分辨率大小以及數據集不一樣外,使用的掩膜類型、占比大小也各不相同。從數據集分析上看,對于同一種算法,Places數據集上的性能指標均低于StreetView和Celeba,可以說明場景數據集Places具有更復雜的圖像背景,修復對象多樣化,使圖像修復更為困難。基于人臉圖像數據集Celeba 的性能指標最高,因為人臉圖像對象單一,不存在冗雜的背景修復,因此人臉修復更為簡單。從掩膜類型對比來看,在掩膜占比近似情況下,中心規則掩膜的性能指標基本高于不規則掩膜,由此推斷出規則掩膜中心孔洞面積較大,正中心區域距離已知信息區域較遠,所以25%的規則掩膜相比于20%~30%占比的隨機掩膜邊緣約束相對較弱,導致最后修復效果與原圖有一定差距,但隨著不規則掩膜占比面積的增大,其性能指標下降得也越快,可以反映出大面積修復仍然是圖像修復領域的重大難題。總的來說,數據集、掩膜類型、圖像分辨率的不同都會對圖像修復性能產生很大差異。

作為底層視覺任務的圖像修復也離不開人的視覺來對修復圖像進行評定,較好的定量評價指標不意味著圖像修復的定性評價結果會更好,因此部分文獻在實驗結果分析中加入了用戶評估圖像的真實性與自然性。許多圖像修復算法都是針對某一問題進行優化,如面部修復、大面積破損修復、高分辨率修復等,其最后通過放大修復圖片的局部來體現優化效果,根據不同的優化方向可以總結出其注重優化視覺效果的不同方面。根據上述表格以及上章基于深度學習的圖像修復方法的機制、優勢、局限性對比可以總結出:

(1)基于網絡優化角度的算法主要針對的是對特征提取上的優化,使網絡可以捕捉到更深的高級特征,增強語義學習能力,使生成的圖像更加符合原本圖像的語義,但缺點是對圖像紋理學習不足,修復區域上的紋理細節有待提高;

(2)基于注意力機制算法針對圖像遠距離特征提取以及紋理細節上的優化,通過優化網絡頸部,使圖像能夠在捕捉深層特征的同時也能學習到高頻的紋理細節特征,更善于捕捉全局信息,因此基于注意力機制優化的方向在大面積破損修復上表現得更好,但缺點則是增加了計算量,同時修復邊緣以及內部語義連貫的問題還是沒能得到解決;

(3)基于輔助信息指導算法則是通過增加先驗信息確保了圖像的語義結構,加強了模型輸入約束,從而使生成圖像與原本圖像的連接處的語義結構具有一致性,使修復起來更為輕松,因此也更適合修復復雜的對象和場景,但缺點是生成先驗信息的準確性會對后續修復產生較大的影響,同時修復內部的紋理細節還需進一步加強;

(4)基于損失函數算法不僅解決了如判別器訓練不穩定的問題,同時通過增加新的約束使輸出的圖像邊緣、紋理細節、圖像風格以及整體視覺上都有一定的提高,往往模型在對其他方向優化的同時會根據自身的需求來改進損失函數,從而使自身網絡的優勢發揮更大的作用,但缺點則是網絡參數也會相應地有所增大。

總結來看,四種不同的優化方向分別對應了模型的編碼解碼、網絡頸部、輸入與輸出約束的優化,其在一定程度上都使生成的圖像更加真實與自然,更符合人類的視覺觀感,而不是單純地為了指標數值上的提高。

3 圖像修復面臨的挑戰

近年來,應用計算機視覺技術處理圖像修復得以普遍關注。相比基于傳統方法的圖像修復,基于深度學習方法通過優化網絡結構、先驗信息、損失函數等方法使得網絡能夠處理不規則遮擋、大面積損失以及紋理細節恢復等問題。雖然圖像修復在實驗上取得了一定的效果,但針對實際應用還存在很多不足之處,本文在對現有的圖像修復方法上進行分析的基礎上,針對該領域面臨的挑戰性的問題歸納如下:

(1)數據集對于深度學習至關重要,如今關于圖像修復的數據集大多只是將完好的圖片增加掩膜的方式形成破損圖像,這樣就造成了目前的修復網絡并不能很好地將真實生活中遭到破損的圖像進行還原。目前已經有工作在對現實場景具有完整語義結構、有意義的物體進行掩膜處理,適用于實際對象去除的任務,未來還需要對相關破損圖像以及相應完好圖像的收集,使得訓練數據集符合大部分圖像修復任務的需求。

(2)現有大部分模型存在復雜結構以及大量參數,同時高分辨率圖像的修復也意味著更大的計算量和成本。因此如何實現快速、網絡結構輕量,是圖像修復算法實用化的關鍵,不僅要考慮到實現修復圖像紋理細節與語義結構一致,也要考慮到高分辨率、低延遲的問題,從而實現快速與高質量的修復。目前對高分辨率圖像修復研究的工作還相對較少,因此高分辨率修復以及低延遲的推理計算正是目前熱門的研究方向之一。

(3)在實際生活中人們對于需要修復的圖像往往不能提供相對精確的掩膜,而針對此問題的盲修復網絡僅在最近兩年內才出現,并且研究得相對較少。需要收集相關的數據集,或者研究相應的檢測方法,在某些場合內對圖像特定區域進行智能擦除并修復的預處理,如在人臉識別系統上自動對頭發遮擋、佩戴的墨鏡、口罩進行擦除修復,進而方便后續的識別操作,所以能夠實現僅輸入破損圖片就能夠輸出修復圖像的全自動網絡將會成為未來研究的熱點問題。

(4)目前圖像修復質量評價指標使用較多的是MAE、PSNR和SSIM,這些指標都需要將修復圖像與原始圖像進行對比,所以生成的圖像會盡可能與原圖一樣,具有一定的局限性。因此可以設計更加系統合理的、無需與原圖進行對比的無參考指標,能根據人類視覺對生成圖像直接進行評價。同時研究還應該根據圖像的邊緣、紋理細節、結構等人眼視覺敏感的特征來調整網絡結構和參數,使圖像修復效果更加符合人眼評判標準。

4 結束語

本文對近幾年的圖像修復研究進行了綜述,總結了圖像修復方法中經典模型的設計思路和優勢,對模型不同優化方向的圖像修復方法進行歸納和分析。通過對已有圖像修復方法的分析,可以概括總結為以下方面:基于網絡結構優化更注重圖像原本語義,基于注意力機制獲得遠距離較多的細節信息,基于輔助信息指導生成的圖像與未破損圖像的結構更加一致,基于損失函數優化使整體圖像更為自然。目前CNN通過不斷優化網絡結構來彌補自身遠距離信息獲取能力不足的缺陷,Transformer的出現也讓圖像修復生成結果更加多樣化,輔助信息指導可以為盲修復等更加艱巨的圖像修復任務提供幫助,多方向優化的模型在未來將具有更好的視覺效果,但需要在性能和成本上尋找平衡。未來圖像修復研究應該更加關注推理速度以及特定對象目標的盲修復,以滿足實際應用的需要。

猜你喜歡
語義特征區域
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
認知范疇模糊與語義模糊
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产激情第一页| 丰满少妇αⅴ无码区| 国产制服丝袜91在线| 午夜视频日本| 亚洲一区国色天香| 97精品久久久大香线焦| 中文字幕佐山爱一区二区免费| 国产精品网址在线观看你懂的| 亚洲午夜国产片在线观看| 国产日韩精品欧美一区喷| 亚洲一级色| 亚洲人成网站色7799在线播放| 伊人久久久久久久久久| 日韩在线中文| 国产黄在线免费观看| 国内精品久久久久久久久久影视| 欧美成人免费一区在线播放| 成年人国产视频| 日本妇乱子伦视频| 啦啦啦网站在线观看a毛片| 国产99在线| 国产精品福利导航| 成人无码一区二区三区视频在线观看 | 一级毛片中文字幕| 久久婷婷综合色一区二区| 免费一级成人毛片| 日韩一区二区在线电影| 91久久偷偷做嫩草影院免费看| 亚洲精品777| 2021天堂在线亚洲精品专区| www.日韩三级| 色呦呦手机在线精品| 91精品国产一区| 免费看av在线网站网址| 日韩欧美亚洲国产成人综合| 免费一级α片在线观看| 91精品综合| 日韩黄色大片免费看| 国产在线高清一级毛片| 亚洲精品无码专区在线观看| 欧美成人影院亚洲综合图| 欧美日韩在线观看一区二区三区| 亚洲天堂久久| 国产精品亚洲αv天堂无码| 999精品色在线观看| 少妇极品熟妇人妻专区视频| 91成人在线免费视频| 波多野结衣无码AV在线| 欧美一区日韩一区中文字幕页| 欧美 国产 人人视频| 日a本亚洲中文在线观看| 欧美中文字幕在线播放| 一级毛片在线免费视频| 久久综合色天堂av| 人人爽人人爽人人片| 久久综合九九亚洲一区| 成年女人a毛片免费视频| 亚洲精品日产精品乱码不卡| 91精品啪在线观看国产| 呦视频在线一区二区三区| 青青草原国产一区二区| 精品撒尿视频一区二区三区| 欧美激情第一欧美在线| 欧美日韩在线观看一区二区三区| 免费无遮挡AV| 伊人AV天堂| 国产成人无码久久久久毛片| 自拍亚洲欧美精品| 亚洲综合第一区| 亚洲成a人片| 日本免费一区视频| 97久久超碰极品视觉盛宴| 亚洲人成影院午夜网站| 2021国产精品自产拍在线| 欧美一区二区丝袜高跟鞋| 国产精品.com| 久久久久亚洲AV成人人电影软件| 亚洲人在线| 四虎亚洲精品| 欧美成人免费午夜全| 成人毛片免费观看| 色135综合网|