999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合特征調整與聯合自注意力的圖像修復

2023-10-10 10:39:06李曉明
計算機工程與應用 2023年19期
關鍵詞:語義特征方法

彭 豪,李曉明,2

1.太原科技大學 計算機科學與技術學院,太原 030024

2.太原科技大學 計算機科學與技術學院 計算機重點實驗室,太原 030024

圖像修復的目的是為圖像中的缺失區域生成視覺上合理的圖像結構和局部細節[1]。圖像修復在圖像編輯中得到了廣泛的應用,如照片編輯[2]、對象移除[3]和計算機輔助文物修復等[4-5]。近年來,深度學習在圖像修復領域取得了成功。然而,如何在圖像破損區域合成與現有上下文區域結構語義一致、內容準確、細節豐富的局部圖像信息仍然是圖像修復中需要解決的難點問題[6]。

在人們將深度學習技術廣泛應用于圖像修復之前,人們使用了傳統的圖像修復技術。這些方法主要分為兩類:基于擴散的方法和基于樣本的方法?;跀U散的方法利用待修復區域的邊緣信息,同時采用一種由粗到細的方法來估計等照度線的方向,并采用傳播機制將圖像已知信息傳播到待修復的區域內,以便得到較好的修復效果?;跇颖镜姆椒ㄍㄟ^搜索缺失區域外的已知樣本來填補缺失區域。然而,缺失區域的圖像并非總能在已知圖像中找到,而且在重建圖像中也容易出現重復的圖案?;跀U散的方法和基于補丁的方法都傾向于在缺乏對圖像的高級語義理解下使用未缺失區域的低層次特征,以某種方式對缺失區域進行修復。因此,它們可能在某些具有重復結構的圖像中工作良好,但無法為具有獨特結構的缺失圖像生成合理的修復結果。

圖像特征中的高級語義和豐富的空間信息存在于不同的分辨率/尺度級別中[7]。如何有效地生成不同尺度的特征成為完成圖像修復任務時需要克服的關鍵問題之一[8]。一般來說,有兩種常見的方法來解決這個問題。第一種是在不降低空間分辨率的情況下,使用不同擴張率的atrous convolutions[9]來有效捕獲語義上下文信息,另一種是使用自上而下的網絡結構[10]來構建不同尺寸的具有高級語義信息的特征圖。更具體地說,高級語義空間上的特征圖在與自底向上路徑的對應特征圖合并之前需要進行上采樣。然而,由于常用的上采樣操作的不可學習性以及下采樣和上采樣的重復使用,自底向上的特征與上采樣的特征之間存在著不準確的對應關系。這種不準確的特征對應關系反過來又會對后續層的學習產生不利的影響,導致模型在處理不規則缺失區域時,經常會出現像素不連續的結果,這是一種明顯的語義差距,尤其是在物體邊界附近。

因此,本文認為保持上采樣的特征圖與自底向上特征圖的特征空間位置一致性和加強模型對圖像不同尺度特征的利用是提升圖像修復性能的關鍵。本文的主要貢獻總結如下:

(1)引入了一種上下文特征調整模塊(contextual feature adjustment,CFA),該模塊通過調整卷積核中的每個采樣位置,使上采樣的特征圖與對應特征圖保持一致,減少了自底向上和上采樣特征之間存在的特征位置偏移問題。

(2)設計了一種聯合自注意力模塊(joint self-attention,JSA),通過在空間和通道維度內部保持比較高的分辨率,并采用了Softmax-Sigmoid聯合的非線性函數,使得模型能夠在圖像修復任務上獲得更好的性能。

(3)本文將這兩個模塊整合到一個自上而下的金字塔結構中加強了模型對圖像不同尺度特征的利用,并提出了一種結合上下文特征調整和聯合自注意力的圖像修復方法。本文在多個標準數據集上進行實驗,通過定性和定量比較表明:當修復任務涉及大面積缺陷或復雜結構時,本文的方法比現有的主流方法具有更高的修復質量。

1 相關工作

1.1 基于生成模型的圖像修復方法

基于生成模型的圖像修復方法指利用生成模型強大的圖像生成能力來基于缺失圖像已知先驗分布推測未知分布的修復方法。生成式對抗神經網絡[11]作為一種非監督的生成式深度學習模型,能夠自動學習和捕捉數據中的重復可用特征,在圖像語義修復任務上取得了巨大進展。但是現階段基于生成式對抗網絡的圖像修復算法仍然有許多值得完善的地方,如深度卷積神經網絡[12]沒有完全利用已知區域的信息,導致修復后的區域有嚴重的貼片感,甚至會產生不合理的修復內容。在生成對抗網絡之后,context encoders[7]利用深度神經網絡生成缺失區域。上下文編碼器通過從原始圖像中提取特征來填補缺失區域。然而,這種方法的缺點是生成的圖像包含太多的視覺偽影。為了獲得更真實的修復效果,Ⅰizuka等人[13]擴展了上下文編碼器的工作,并提出了局部和全局鑒別器,以使生成的圖像更逼真。Shift-Net[14]使用具有特殊移位連接層的U-Net[15]體系結構來指導圖像生成。Zhang等人[16]將圖像修復任務視為一個課程學習問題,提出了從外到內的逐步修復策略。該方法能夠逐步縮小原始圖像中的缺失區域。Li 等人[17]提出了一個遞歸特征推理模塊,該模塊可以反復推斷缺失區域邊界的特征映射并將其用作下一步推斷的線索?;谏赡P偷姆椒梢詫崿F多樣性修復,但由于生成模型存在訓練不穩定,該類方法目前僅能處理較低分辨率的圖像。

1.2 基于注意力機制的圖像修復方法

傳統圖像修復方法中,基于紋理合成的圖像修復方法中的塊匹配方法是在像素或圖像塊層面進行修復,缺少對圖像語義和全局結構的理解。基于此,研究者們嘗試將圖像塊匹配思想引入圖像特征空間,在注意力機制的引導下為缺失區域尋找最相似的特征塊進行特征匹配,最終提出了一系列基于注意力機制的圖像修復方法。隨著注意力機制的提出和應用[18],Liu等人[19]引入了連貫語義注意力層,以改善相鄰像素的連續性。Wang等人[20]介紹了一種特殊的多級注意力模塊,該方法將編碼器編碼的高級語義特征進行多尺度壓縮和多層級注意力特征傳播,以實現包括結構和細節在內的高級特征的充分利用。Yu 等人[21]認為圖像結構扭曲和紋理模糊的原因是卷積神經網絡在明確地從遙遠的空間位置借用或復制信息方面的無效性。因此,他們引入了上下文注意力機制來增強模型的遠距離建模能力,但是該模型無法從遠處像素獲取準確的特征信息,并且無法充分利用圖像中不同尺度的特征信息。

2 結合上下文特征調整的多級注意力特征融合的圖像修復模型

本文提出的圖像修復算法的體系結構如圖1 所示。本文在編碼器encoder 和解碼器decoder 的相應層之間使用跳躍連接[15]。跳躍連接將不同的編碼器級別與作為解碼器的分層主網絡的級別連接起來。本文在CelebA數據集上對EfficientNet中B1~B7不同的網絡結構進行了圖像修復質量測試,如表1所示EfficientNet-B7實現了最高圖像修復質量,因此本文在backbone 部分使用EfficientNet[22]網絡中B7網絡結構。EfficientNet網絡主要探究增大網絡的寬度、深度以及分辨率來提升模型的性能。本文通過調整EfficientNet網絡中子模塊(MBConvBlock模塊)的stride來修改不同階段所輸出的feature map的分辨率。如圖1,經過stride=n的feature map輸出,n為2、4、8、16。首先解碼器中對應編碼器的特征圖都使用聯合自注意力模塊來強化有效特征,然后使用雙線性上采樣,并在上下文特征調整模塊幫助下與下一個分辨率更佳的特征圖連接。本文鑒別器使用patch-based discriminator network[23]用于判別接收到圖像的真假。下面將具體闡述本文的上下文特征調整模塊和聯合自注意力模塊。

表1 EfficientNet B1~B7在CelebA上的圖像修復質量測試Table 1 EfficientNet B1~B7 image inpainting quality test in CelebA

圖1 提出的圖像修復算法的體系結構Fig.1 Architecture of proposed image inpainting algorithm

2.1 上下文特征調整模塊

在特征提取過程中,由于重復使用下采樣操作導致上采樣特征圖與相應的自底向上的特征圖Ui之間存在一定的空間偏差,導致直接使用element-wise addition或者channal-wise concatenation的融合會損害目標邊界的預測。因此,本文在特征融合之前,使用文獻[24]中的特征調整方法對圖像修復任務中的上采樣特征F和下采樣的特征Ui進行調整。在特征融合之前,根據相應的自底向上的特征圖Fi-1提供的空間位置信息調整上采樣特征圖Ui??臻g位置信息是通過二維特征圖來表示的,其中每個偏移值可以看作是在二維空間中F每個點與其Ui對應點之間的偏移距離Δi。上下文特征調整的過程可以看作是兩個步驟:首先從上采樣和下采樣特征圖中,f1為學習空間偏差Δi:

然后通過f2將偏差Δi作用于下采樣特征圖Ui,進行調整得到調整后的特征圖F:

其中,f1、f2都是使用可變形卷積[25]和同樣卷積核大小的標準卷積組成。

本文使用可變形卷積來完成本文的特征調整功能。本文首先定義一個輸入特征映射Fi∈RHi×Wi和K×K大小的卷積,在卷積核之后的任意位置x輸出特征F為:

其中,N為K×K卷積核大小的卷積,wn和Bn分別表示對于第n次卷積采樣位置的權重和預先指定的偏移量,除了預先指定的偏移外,可變形卷積還嘗試學習其他偏移ΔBn適用于不同的采樣位置,公式表示如下:

其中,ΔBn是一個(h,w)元組,h∈(-Hi,Hi),w∈(-Wi,Wi)。

2.2 聯合自注意力機制

圖像修復任務要求模型在低計算開銷下,能夠有效地建模高分辨率輸入/輸出特征的遠距離依賴關系,進而來估計高度非線性的像素語義。卷積神經網絡中的注意力機制能夠捕獲遠距離的依賴關系,但是這種方式比較復雜并且是對噪聲比較敏感的。本文采用的是encoder-decoder 結構,encoder 用來降低空間維度、提高通道維度;decoder采用的是上采樣,用來提高空間的維度、降低通道的維度。因此,連接encoder 和decoder 的tensor通常在空間維度上比較小。雖然這對于計算和顯存的使用比較友好,但是對于像圖像修復這樣的細粒度像素級任務,這種結構顯然會造成性能上的損失。

如圖2所示,本文的注意力機制由通道注意力分支和空間注意力分支兩種組成。本文注意力機制主要有兩個設計上的亮點:(1)在通道和空間維度保持比較高的分辨率,在通道上保持C/2 的維度,在空間上保持[H,W]的維度減少降維造成的信息損失;(2)采用Softmax-Sigmoid聯合的非線性函數。

圖2 聯合自注意力機制示意圖Fig.2 Diagram of joint self-attention mechanism

通道注意力分支的權重計算公式C(x)如下:

其中,z1、z2和z3為張量重塑操作,FS是Softmax操作,F為Sigmoid 函數,×為矩陣積運算。將輸入的特征x通過1×1的卷積得到q和v特征,其中q的通道被完全壓縮,而v的通道維度依舊保持在一個比較高的水平(也就是C/2)。由于q的通道維度被壓縮,為了避免信息損失,本文首先通過Softmax對q的信息進行了增強,然后將q和v進行矩陣乘法,并在后面接上1×1卷積將通道上C/2 的維度升為C。最后用Sigmoid 函數使得所有的參數都保持在0~1之間。

空間注意力分支計算權重的公式S(x)如下:

與通道注意力分支的權重計算相似,本文先用了1×1的卷積將輸入的特征轉換為q和v特征。其中,本文使用FGPglobal pooling 將q特征空間維度壓縮為1×1的大小,而v特征的空間維度則保持在一個比較高的水平(H×W)。由于q的空間維度被壓縮了,所以本文使用Softmax對v的信息進行增強。首先將q和v進行矩陣乘法,然后使用reshape操作和Sigmoid激活函數使得所有的參數都保持在0~1 之間。最后對通道分支和空間分支的結果進行了并聯得到最終聯合自注意力JSAp:

其中,x∈RC×H×W,⊙c為channel-wise 上的乘法運算,⊙s為spatial-wise 上的乘法運算。本文采用的是selfattention[18]的方式來獲取注意力權重,充分利用了selfattention 結構的建模能力,并且本文對q也進行了特征降維,所以在保證計算量的情況下,實現了一種非常有效的遠距離建模。

2.3 損失函數

為了更好地恢復缺失圖像中的語義和真實細節,本文將對抗損失、像素重建損失、感知損失、風格損失結合起來共同訓練本文的模型。

2.3.1 對抗損失

對抗損失[11]可以提高生成圖像的視覺質量,常用于圖像生成[26]和圖像風格遷移[27]。此外,對抗損失使得生成器和鑒別器不斷優化,提高了生成圖像的細節質量。本文的圖像修復網絡的對抗損失為:

其中,Pdata(Igt)表示真實圖像的分布;Pmiss(Ipred)表示修復圖像的分布;minΘ生成器在盡可能地使該式的結果最小化;而maxD判別器卻在盡可能地使結果最大化,模型在這種對抗中不斷得到優化。

2.3.2 像素重構損失

像素重構損失Ll1[28]計算的是修復圖像Ipred與真實圖像Igt之間的像素差。像素重建損失的L1-Norm范數誤差表示為:

2.3.3 感知損失

對抗損失改善了紋理質量,但這種損失在模型學習結構信息時是有限的。這些損失仍然無法捕獲高級語義,不適合生成與人類感知[29]一致的圖像。與此不同的是,感知損失是將卷積得到的特征與真實圖像進行比較。這種損失可以度量圖像[30]之間的高級語義的相似性,有效地改善了修復圖像的結構。圖像修復網絡的感知損失為[28]:

其中,?i是從ⅠmageNet[31]數據集上預先訓練的VGG-16[32]網絡的池化層中提取的圖像I的第l層特征圖,hl、wl和cl分別是?i(I)的長度、寬度以及通道數。

2.3.4 風格損失

雖然對抗性損失和感知損失可以有效地改善圖像的紋理和細節,但它們無法避免修復結果產生視覺偽影。因此,本文在損失函數中添加了風格損失,以提高整體一致性,圖像修復網絡的風格損失定義為:

其中,Gram矩陣用于計算特征間的相關性。Gram矩陣是通過計算內積的Hermitian矩陣得到,其構造定義為:

2.3.5 模型目標

根據上述損失函數,本文模型的總體目標損失函數如下:

其中,α、αp、αs和αl1是平衡不同損失項貢獻的超參數。在本文的實現中,本文根據文獻[11]設置了α=0.1,αp=1,αs=250,αl1=1。

2.4 算法流程

結合上下文特征調整的多級注意力特征融合的圖像修復算法如下:

輸入:受損原圖,隨機掩碼。

輸出:本文算法修復后的圖片。

Begin algorithm

1.首先從訓練數據中批量采樣圖像x,然后為每一批圖像中的每一張圖像使用隨機掩碼來獲得受損圖像。

2.if stage==1。

3.訓練生成器=True;訓練判別器=False。

4.epochs 為40,每輪4 000 次迭代,在重建損失、感知損失、風格損失和TV懲罰項的加權損失函數下更新生成網絡來得到修復圖。

5.elif stage==2。

6.訓練生成器=False;訓練判別器=True。

7.epochs 為10,每輪2 000 次迭代,在對抗性損失函數下更新判別器。

8.elif stage==3:

9.訓練生成器=True;訓練判別器=True。

10.加權所有損失函數來更新整個網絡,epochs 為10,每輪2 000次迭代。

3 實驗及分析

在模型訓練過程中,輸入圖像均被縮放至256×256大小。所有實驗都是在Ubuntu 17.10系統上使用Python進行的,該系統配有i7-6800K 3.40 GHz CPU 和11 GB NVⅠDⅠA RTX2080Ti GPU。

3.1 實現細節

訓練分為三個階段:首先訓練生成網絡,批處理大小設為6,每輪4 000次迭代,共40輪,學習率為0.000 2;然后固定生成網絡,訓練2 個判別器,批處理大小設為6,每輪2 000 次迭代,共10 輪,學習率為0.05。最后,將生成網絡和2個判別器聯合訓練,批處理大小設為6,每輪2 000次迭代,共10輪,學習率為0.000 2。

3.2 實驗數據集和圖片掩碼

本文在3個公共數據集和1種掩碼上評估了本文的方法。

CelebA[33]:這個數據集是香港大學在2015年發布的一個大型人臉屬性數據集,包括約20萬張名人圖片。

Paris StreetView[34]:該數據集包含14 900 張訓練圖像和100 張從巴黎街景中收集的測試圖像。這個數據集側重于城市的真實街道場景。

Places2[35]:數據集中包含來自365 個場景的800 多萬張圖像。

Ⅰrregular masks:本文使用了[36]中的掩碼集,它有12 000 個不規則掩碼,根據掩碼的大小預分為3 個區間(10%~20%,30%~40%,50%~60%)。

3.3 模型對比

將本文的方法與幾個主流的方法進行比較。這些模型在與本文相同的實驗設置下被訓練到收斂,這些模型如下所示。

EC[37]:邊界信息引導的圖像修復模型,利用邊界信息來完成圖像修復。

CA[21]:算法采用encoder-decoder結構去推斷已缺失圖像區域的上下文,利用了高層次的上下文注意特征細化紋理細節。

MFE[38]:用于圖像修復的互編解碼模型。來自淺層的CNN特征表示紋理,來自深層的特征表示結構。

RFR[17]:特征推理修復模型,通過逐步填充缺失區域的信息來完成圖像修復。

3.4 實驗結果

在這一部分,將本文的模型與上一節中提到的幾種最先進的方法進行了比較。分別進行了定性分析和定量分析,以證明本文方法的優越性。

定性比較:圖3展示了本文方法與對比方法在CelebA、Places2和Paris StreetView數據集上的對比結果,GT為真實圖像。在大多數情況下,本文的修復結果比對比方法具有更準確的結構重建能力,明顯減少了不一致性,與其他方法相比,產生了更詳細合理的修復結果。

圖3 不同模型的圖像修復結果定性對比Fig.3 Qualitative comparison of image inpainting results for different models

定量比較:本文用結構相似度指數(SSⅠM)、峰值信噪比(PSNR)和mean L1 loss來客觀衡量修復結果的質量。其中,PSNR 和SSⅠM 可以大致反映模型重構原始圖像內容的能力,為人類的視覺感知提供了良好的近似。mean L1 loss 損失直接測量重建圖像與真實圖像之間的L1 距離,是一個非常實用的圖像質量評估指標。如表2所示,本文的方法在掩碼率為50%到60%時擁有最高的SSⅠM、PSNR和最小平均L1 loss。

3.5 消融研究

3.5.1 上下文特征調整模塊的消融實驗

為了驗證上下文特征調整模塊的有效性,本文比較了沒有使用上下文特征調整模塊的圖像修復效果和使用上下文特征調整模塊的效果。實驗結果如圖4所示。本文發現使用上下文特征調整模塊的生成圖像中具有更準確和完整的結構信息,從而證明了上下文特征調整模塊能夠有效地保持圖像修復中語義結構信息的完整性。

圖4 有/無CFA的圖像修復結果Fig.4 Ⅰmage inpainting results with/without contextual feature adjustment

3.5.2 聯合自注意力模塊消融實驗

聯合自注意力被設計用來提高本文方法中的修復性能。為了研究它們的有效性,本文進行了消融研究。如圖5所示。本文發現在生成的圖像中,使用聯合自注意力模塊可以更好地恢復圖像中的紋理細節,從而證明了聯合注意在恢復圖像細粒度紋理方面的優勢。

圖5 有/無JSA的圖像修復結果Fig.5 Ⅰmage inpainting results with/without Joint self-attention

3.5.3 模塊有效性研究

為驗證上下文特征調整模塊以及聯合自注意力的有效性,本文以平均L1 損失為性能參考進行了對比定量研究,結果如表3 所示。其中,CFA1 至CFA4 為上下文特征調整組件,JSA為本文所提出的聯合自注意力模塊。一般來說,隨著模塊的增加,平均L1 損失越小,修復性能更高。具體而言,上下文特征調整模塊有助于學習更精確的場景布局,使用聯合自注意力可以生成更真實的紋理,兩者結合進一步改進了修復圖像的結構和紋理的完整性。

表3 模塊有效性研究Table 3 Module validity study

4 結束語

本文提出了一種結合上下文特征調整與聯合自注意力的圖像修復模型。該模型主要由兩部分組成:(1)上下文特征調整模塊;(2)聯合自注意力模塊。通過上下文特征調整模塊使上采樣的特征圖與對應特征圖空間位置保持一致,減少了自底向上和上采樣特征之間存在的特征位置偏移問題。通過使用聯合自注意力機制在保證計算量的情況下,實現了一種非常有效的遠距離建模,使得模型能夠在圖像修復任務上獲得更好的性能。本文將這兩個模塊整合到一個自上而下的金字塔結構中,加強了模型對圖像不同尺度特征的利用,并形成了一個新的圖像修復模型。實驗表明,本文的方法可以為最終結果提供穩定的性能提升,特別是當圖像修復任務涉及大面積缺陷或復雜結構時,本文的方法在質量上和數量上都優于現有的主流方法。

猜你喜歡
語義特征方法
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 草草影院国产第一页| 精品无码国产自产野外拍在线| 2021亚洲精品不卡a| 日韩高清在线观看不卡一区二区| 亚洲欧美不卡视频| 久久91精品牛牛| 重口调教一区二区视频| 欧美日韩中文国产| 国产对白刺激真实精品91| 91成人在线免费视频| 一本综合久久| 无码久看视频| 亚洲精品无码抽插日韩| 国产成人精品男人的天堂| 国内毛片视频| 国产成人精品高清不卡在线 | 国产女主播一区| 五月婷婷综合网| 久热中文字幕在线| 美女裸体18禁网站| 久久久久免费精品国产| 国产日韩AV高潮在线| 亚洲丝袜中文字幕| 激情亚洲天堂| 日本人真淫视频一区二区三区| 狠狠色噜噜狠狠狠狠奇米777| 国产亚洲精久久久久久久91| 国产人人乐人人爱| 国产va免费精品观看| 欧美精品一区二区三区中文字幕| 亚洲无码91视频| 国产成人a在线观看视频| 91丝袜在线观看| 中文字幕无码制服中字| 欧美97欧美综合色伦图| 亚洲精品第五页| 国产精品任我爽爆在线播放6080| 中文字幕波多野不卡一区| 欧美啪啪精品| 亚洲精品另类| 国产精品亚洲精品爽爽| 97一区二区在线播放| 国产aaaaa一级毛片| 精品三级在线| 91www在线观看| 成人亚洲国产| 亚洲性一区| 欧美日韩在线亚洲国产人| 色偷偷av男人的天堂不卡| 免费观看男人免费桶女人视频| 国产在线精品99一区不卡| 欧美精品一二三区| 伊人查蕉在线观看国产精品| 日韩成人在线视频| 国产精品3p视频| 亚洲国产日韩欧美在线| 国产美女免费网站| 一本一道波多野结衣av黑人在线 | 91福利免费| 成人久久18免费网站| 天堂在线亚洲| 亚洲国产中文综合专区在| 久久天天躁狠狠躁夜夜躁| 波多野结衣AV无码久久一区| 91毛片网| 国产区在线观看视频| 欧美精品v| 久久国产亚洲欧美日韩精品| 手机在线国产精品| 99久久精品久久久久久婷婷| 国产成人高清精品免费软件| 香蕉综合在线视频91| 国产日韩欧美在线视频免费观看| 日韩性网站| 国产精品亚洲综合久久小说| 亚洲欧美日韩天堂| 久久免费视频6| 99在线视频免费观看| 自拍亚洲欧美精品| 亚洲欧美日韩中文字幕在线一区| 欧美一区精品| 日韩大片免费观看视频播放|