999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于通道注意力機制的文本生成圖像方法

2022-04-18 10:56:48張云帆易堯華湯梓偉王新宇
計算機工程 2022年4期
關鍵詞:語義特征文本

張云帆,易堯華,湯梓偉,王新宇

(武漢大學 印刷與包裝系,武漢 430079)

0 概述

文本生成圖像任務[1]是圖像生成領域的重難點之一,旨在根據輸入的文本描述生成相應的自然場景圖像,其包括計算機視覺和自然語言處理兩方面,是一個多模態的交叉型任務。文本生成圖像可應用于計算機輔助設計、智能美工、醫療圖像生成[2]等多個技術領域。

隨著深度學習技術的發展,生成對抗網絡(Generation Adversarial Network,GAN)[3]及其各種變體[4]成為文本生成圖像的主流方法。在早期有MIRZA等[5]提出的CGAN 和REED 等[6]提出的GAN-INT-CLS,但是這些方法生成的圖像分辨率都較低。為了解決生成圖像分辨率低問題,文獻[7]提出了Stack-GAN,主要是將生成高分辨率圖像的問題分成不同階段,在低分辨率圖像生成階段側重圖像對象的布局和結構生成,在圖像精煉階段則糾正了低分辨率階段生成圖像的一些錯誤,然后對圖像中的紋理細節[8]進行繪制。

多階段生成圖像的方法解決了生成圖像分辨率低的問題,但是依然存在生成圖像與文本條件不符及兩者語義一致性較低的問題。為了進一步提高生成圖像與文本條件之間的語義一致性,文獻[9]在Attn-GAN中引入注意力機制,通過注意力模塊將語義特征向量和生成圖像中與之最相關的區域對應起來。文獻[10]通過局部和全局特征相結合,設計了針對圖像邊框和圖像對象的級聯生成網絡,提高了生成圖像的邏輯性,使圖像生成更加準確。文獻[11]在圖像生成任務中結合了空間注意力機制,實現了可控的圖像生成,提高了生成圖像的準確性。文獻[12]提出了動態注意力生成對抗網絡模型(DM-GAN),在每個生成階段計算出每個單詞與圖像子區域之間的相關性,提高了生成圖像與文本條件之間的語義一致性,但是依然存在生成圖像細節缺失、低分辨率階段生成圖像存在結構性錯誤的問題。

針對上述問題,本文提出一種基于通道注意力的文本生成圖像方法。在特征圖上采樣過程中,引入基于內容感知的上采樣模塊,提高特征圖和輸入文本之間的語義一致性,使生成圖像更準確。同時在卷積層中使用通道注意力機制,對特征圖進行加權,增加不同通道間的信息交互,以使生成圖像的細節更豐富。

1 相關工作

1.1 通道注意力機制和上采樣方法

近年來,通道注意力被廣泛地應用于視覺處理任務[13],可以對每一個特征通道進行加權,實現突出重要信息及抑制無用信息的效果。典型代表是HU等[14]提出的SENet,實現了通過全局損失函數自適應地調整每個特征通道的權重,SENet 在圖像分類任務中取得了顯著效果。文獻[15]在SENet 的基礎上提出了ECANet,相比上述方法,ECANet 對特征通道加權時只需要計算與其相鄰的k個通道,降低了參數量,同時保證了性能提升。

上采樣是圖像處理中常用的一種操作,其原理是根據圖像原有的像素生成新的像素點,常用方法有插值法和反卷積[16]。文獻[17]在目標檢測任務中結合反卷積實現對小目標的有效檢測。文獻[18]提出了基于特征圖語義的上采樣方法,通過輸入特征圖得到重組卷積核,充分利用了語義信息,同時參數量較少,在圖像增強和圖像超分辨率重建任務中取得了較好的效果。

1.2 文本生成圖像方法

文本生成圖像主流方法是使用堆疊式的生成對抗網絡生成高質量圖像。文獻[19]通過設計不同分辨率的特征融合模塊,提高了訓練的穩定性,網絡收斂更快。文獻[20]提出了鏡像生成對抗網絡(Mirror-GAN)模型,通過集成兩個網絡構建鏡像結構,對生成圖像進行重新描述[21],將得到的結果和給定文本條件進行對齊,由此提高生成圖像和文本條件的語義一致性。但是低分辨率階段生成的圖像結構嚴重不合理,會導致后續的生成圖像質量較差。如圖1 所示,從上到下為DM-GAN 從低分辨率到高分辨的圖像生成結果,可以看到在低分辨率階段生成的圖像存在結構不合理的錯誤,如生成了兩個“頭部”,缺少“爪子”等,后續精煉過程難以修正。所以,在低分辨率階段設計更合理的生成器,保證低分辨率階段生成的圖像準確合理,是保證生成高質量圖像的關鍵。

圖1 DMGAN 各階段生成圖像Fig.1 Result at each stage of DMGAN

2 基于通道注意力機制的生成對抗網絡模型

圖2 所示為本文提出一種基于通道注意力機制的生成對抗網絡模型(ECAGAN)。網絡結構可以分為低分辨率圖像生成階段和圖像精煉階段,低分辨率圖像生成階段的生成器生成64×64 像素的低分辨率圖像,圖像精煉階段的生成器生成128×128 像素和256×256像素的圖像。判別網絡有多個判別器{D0,D1,D2},在低分辨率階段(k=0),判別器D0只對低分辨率圖像和真實圖像進行真假判定,在精煉階段(k=1,2)有相應的判別器Dk對生成圖像進行真假判定。

圖2 ECAGAN 網絡結構Fig.2 Network structure of ECAGAN

2.1 低分辨率圖像生成階段

在低分辨率圖像生成階段,將給定的文本描述輸入文本編碼器得到語義特征向量s和詞向量V,本文使用的文本編碼器為預訓練的循環神經網絡(Recurrent Neural Network,RNN)。語義特征向量s是一個包含文本語義特征的向量,用于低分辨率圖像生成。詞向量V是一個包含了18 個單詞語義的向量,用于精煉階段的圖像生成。編碼得到語義特征向量s需要進行條件增強,具體方法是從語義特征向量s的高斯分布N(μ(s),∑(s))中得到平均協方差矩陣μ(s)和對角協方差矩陣ν(s),然后計算得到特征向量c0,(c0=μ(s)+ν(s)⊙ε,⊙代表點乘操 作,ε~N(0,1)),最后c0和一個從正態分布中取樣的隨機噪聲Z拼接得到。將進行一次全連接操作后輸入內容感知上采樣模塊,上采樣之后得到特征圖R0,特征圖輸入通道注意力卷積模塊之后得到低分辨率圖像。

2.1.1 內容感知上采樣模塊

在低分辨率圖像生成之前需要對特征圖進行上采樣操作,目前通用的上采樣方式包括最鄰近插值和反卷積。但是最鄰近插值的感受野太小,而且未利用語義信息,反卷積則計算量太大。本文的內容感知上采樣模塊利用原始特征圖得到重組卷積核,使用重組卷積核對輸入特征圖進行上采樣,考慮到了每個像素和周圍區域的關系,同時避免了參數過多、計算量太大的問題。內容感知上采樣模塊由自適應卷積核預測模塊和內容感知特征重組模塊組成[18],結構如圖3 所示,特征圖輸入內容感知上采樣模塊之后共重復4 次上采樣操作,假設輸入特征圖R的尺寸為C×W×H,上采樣的倍率設置為S(本文中設置為2)。經過內容感知上采樣模塊之后輸出上采樣之后的新特征圖R′,其尺寸為C×SH×SW,輸出特征圖R′中的區域l′=(i′,j′),對應于輸入特征圖R中的l=(i,j),對應關系為

圖3 內容感知上采樣模塊Fig.3 Content-aware upsampling module

特征圖R輸入之后在自適應卷積核預測模塊ψ中對輸出特征圖R′的每一個區域l′預測出卷積核γl′,如式(1)所示,原特征圖在內容感知特征重組模塊ξ中和預測得到的卷積核進行點乘得到結果,如式(2)所示:

其中:Z(Rl,kup)代表特征圖R中點l周圍kup×kup大小的子區域;kencoder表示內容編碼器的大小。

在自適應卷積核預測模塊中,特征圖首先經過一個1×1 的卷積層將通道數從C壓縮到Cm,然后通過內容編碼器對卷積核進行預測,輸入通道數為Cm,輸出通道數為,將通道維在空間維展開,得到大小為的重組卷積核,最后利用softmax 函數進行歸一化,使得重組卷積核權重和為1。

內容感知特征重組模塊對于輸出特征圖中的每個位置l′,將其映射回輸入特征圖,取出以l=(i,j)為中心的kup×kup大小的區域,和以該點預測出的重組卷積核作點積,得到輸出值,如式(3)所示,相同位置的不同通道共享同一個重組卷積核。

其中:l=(i,j)為輸出特征圖在輸入特征圖上的對應位置的點;r=為l的鄰域。

2.1.2 通道注意力卷積模塊

經過上采樣之后得到特征圖輸入生成器,經過卷積運算生成圖像。通過通道注意力對特征圖進行加權,使生成圖像細節更豐富。此外,跨通道交互可以在顯著降低模型復雜度的同時保持性能。通道注意力[15]模塊結構如圖4 所示。

圖4 通道注意力卷積模塊Fig.4 Channel attention convolution module

在通道注意力卷積模塊中,通道注意力權重ω的計算如式(4)所示:

其中:y=GGAP(R),由輸入特征圖經過全局平均池化得到;Q是權重矩陣;σ則是Sigmoid 函數。假設接受的特征圖R∈RW×H×C,W、H、C分別代表特征圖的寬度、高度和通道維度。全局平均池化公式如(5)所示:

權重矩陣Q大小為k×C,對于每一個通道yi,對應的權重ωi計算只需要考慮相鄰的k個通道(本文中設置為5),如式(6)所示:

2.2 圖像精煉階段

在低分辨率圖像生成階段完成后,需要對生成圖像進行進一步精煉,如圖2 所示精煉次數設置為2(k=1,2)。具體的精煉算法步驟如算法1 所示,當兩次精煉完成,可以得到高分辨率特征圖,生成高質量圖像。

算法1圖像精煉算法

輸入上一階段生成的特征圖Rk-1,詞向量V

輸出高分辨率特征圖Rk

步驟1將特征圖Rk-1和詞向量V輸入動態注意力計算層,表示為:

步驟2在動態注意力層中首先計算詞向量中每一個單詞νi與圖像子區域ri之間的相關性mi:

步驟5將特征圖進行上采樣操作,上采樣倍率為2

步驟6將特征圖輸入一個兩層殘差網絡,得到高分辨率特征圖Rk

重復步驟1~步驟6,得到符合要求的特征圖,結束精煉過程,將特征圖輸入通道注意力卷積模塊得到高質量圖像。

2.3 損失函數

本文提出的模型ECAGAN 屬于生成對抗網絡,根據生成對抗網絡的特點,網絡損失函數分為生成器損失函數和判別器損失,其中生成器損失函數形式如式(7)所示:

各級生成器損失函數如式(8)所示:

同時判別器的損失函數和生成器損失函數相似,也包括條件損失和非條件損失兩部分,如式(9)所示:

在式(7)~式(9)中:Gi和Di分別代表第i階段的生成器和判別器;xi來自第i階段的真實圖像分布則是來自模型分布是經過編碼器編碼后的語義特征向量。

DAMSM 模塊通過計算文本語義特征向量和生成圖像特征向量之間的相似度,來衡量生成圖像和文本條件之間的語義一致性。圖像特征向量使用Inception-V3[22]進行提取,DAMSM 損失函數可以提高生成圖像和文本條件的語義一致性,條件增強損失則是通過從高斯分布中重新采樣輸入語句向量來增強訓練數據,避免模型過擬合,如式(10)所示:

其中:N(0,I)代表高斯分布;μ(s)代表語義特征向量的平均協方差矩陣;Σ(s)是對角協方差矩陣。感知損失可以讓生成圖像的高層信息和真實圖像更接近,如式(11)所示:

其中:I和I′代表真實圖像和生成器生成的生成圖像;?是對圖像進行特征提取操作,本文使用一個在ImagNet 數據集上預訓練的VGG-16 網絡來對圖像進行特征提取;C、H、W分別代表特征圖的通道數、高度和寬度。

在訓練過程中,通過生成器損失和判別器損失交替迭代來優化更新參數,在訓練生成器時判別器參數固定,在訓練判別器時生成器參數固定。最終得到能夠生成高質量圖像的生成模型。

3 實驗結果與分析

3.1 實驗環境及數據集

本文實驗環境如下:Ubuntu 16.04,CPU 為i7-4790k,GPU 為GeForce GTX 1080Ti,實驗代碼使用了Pytorch 深度學習框架,在GPU 上運行。

本文使用的數據集為公開數據集CUB-200-2011(Caltech-UCSD Birds-200-2011)[23],CUB 數 據集中包含200 種不同的鳥類圖像,共計11 788 張圖像,其中包含訓練集8 855 張圖像和測試集2 933 張圖像。訓練中設置batch size 為10,生成器和判別器的學習率均為0.000 2,訓練輪數設置為900,優化器使用Adam,β1設置為0.5,β2設置為0.999。

3.2 評價指標

為驗證本文方法的有效性,本文采用3 種評價標準對生成圖像的質量與多樣性和語義一致性進行評價:

1)R-值精度(R-precision)。由XU 等提出用來評估生成的圖像與輸入文本條件之間的語義一致性。對于每個生成的圖像,使用其真實的文本條件和從測試集中隨機選擇的99 個不匹配描述來形成文本條件池,然后提取生成圖像和給定文本描述的全局特征向量,最后計算全局圖像向量和全局文本向量之間的余弦相似度。R值越高代表生成的圖像與輸入文本條件之間的語義一致性越高。

2)初始分數(Inception Score,IS)。由文獻[24]提出,用于衡量生成圖像的清晰度和多樣性,具體方法是通過計算邊緣分布和條件分布的相對熵損失,衡量生成圖像的質量,如式(12)所示:

其中:x表示由生成器生成的樣本;p(y)表示邊緣分布;p(y|x)表示x輸入圖像分類網絡得到的分布;DKL(A||B)表示A、B兩者之間的KL 散度,用來衡量兩個分布之間的相似度,IS 值越大,表示生成圖像質量越高。

3)Frechet Inception 距離得分(Frechet Inception Distance score,FID)。由文獻[25]提出,具體方法是計算生成圖像和真實圖像分布之間的距離,如式(13)所示:

3.3 結果分析

本節將定量和定性地與其他方法進行比較,從評價指標和視覺效果兩個方面來評估實驗結果。首先是評價指標的量化對比分析,使用R值、Inception Score 和FID 3 個評價指標對本文方法和經典文本生成圖像網絡在CUB 數據集上進行對比。然后對本文方法和之前的方法進行主觀視覺對比,驗證本文方法的有效性。

3.3.1 定量結果分析

為了得到式(7)中超參數λ1的最優值,在保證其他參數不變的情況下將λ1分別設置為0、0.1、1、5、10進行對比實驗,實驗結果如表1 所示,粗體表示值最優。可以看到:當λ1=1 時模型的評價指標值最好,分析可知,將式(7)超參數λ1的值設置為1 時模型的性能最佳。

表1 不同參數設置下ECAGAN 方法R、IS和FID的最優值Table 1 Optimal values of R,IS and FID for ECAGAN methods under different parameter settings

與主流方法的對比結果如表2 所示,其中,“—”表示沒有數據,加粗字體為每列最優值。

表2 不同方法在CUB 數據集上的對比Table 2 Comparison of different methods on CUB dataset

通過對比發現,本文提出的方法(ECAGAN)在CUB數據集上的實驗結果與目前主流網絡相比均有一定提升。相比AttnGAN 和DMGAN,R值分別提高了11.5%和4.6%,Inception Score 分別提高了10.7%和1.6%,FID也有一定的降低。實驗結果表明,ECAGAN 模型生成的圖像質量更好。

3.3.2 定性結果分析

在視覺效果方面,圖5 為4 種GAN 模型在CUB 數據集上的可視化結果。在圖5(a)~圖5(d)中,第1、2、3、4、5 列輸入的文本條件和圖1 一致,結果表明本文方法有效提高了生成圖像的質量。可以看到圖5(a)~圖5(d)中第1、2 列中本文方法生成的圖像在大面積的紋理特征上比較清晰,頭部細節豐富合理,每個部位之間紋理過渡合適,其他模型生成的圖像缺乏細節,不同部位如頭部、軀干差異較大,導致圖像缺乏真實感。在圖5(a)~圖5(d)第3、4 列圖像中,本文方法生成的鳥類對象完整,每個部分細節合理且與背景相符。其他模型生成的圖像鳥類結構缺失,細節不足,在背景中顯得十分突兀,導致圖像真實感不夠。在圖5(a)~圖5(d)第5、6、7 列則能明顯看出,相比其他3 種方法,本文算法生成的圖像具有完整的結構和豐富的細節。StackGAN、AttnGAN、DMGAN 3 種方法生成的圖像存在結構不合理,缺少喙、爪子、眼睛等部位,或者出現了2 個頭部、3 個爪子等情況,明顯存在語義一致性較差、無法按文本條件生成圖像、圖像存在結構性錯誤等問題。

圖5 4 種GAN 方法在CUB 數據集上的生成結果Fig.5 Generation results of four GAN methods on CUB dataset

本文方法使用內容感知上采樣模塊,提高了生成圖像和文本條件之間的語義一致性,使生成圖像更準確。結合通道注意力卷積模塊,使生成圖像邊緣細節平滑過渡,生成對象各個部位的紋理特征準確,區別明顯,生成圖像的質量更高,更接近真實圖像。

3.4 消融實驗

為了驗證本文提出的內容感知上采樣模塊和通道注意力卷積模塊的有效性,分別設置DMGAN、DMGAN+CAU、DMGAN+ECA 和DMGAN+CAU+ECA 4 組對比實驗,實驗結果如表3 所示。本文的基礎網絡為DMGAN,CAU 表示內容感知上采樣模塊,ECA 表示通道注意力卷積模塊。從表3 可以看出,兩個模塊對生成結果均有正向調節作用,最終結合兩個模塊可得到本文方法的最佳效果,證明了本文方法的有效性。

表3 消融實驗結果對比Table 3 Comparison of ablation experiment results

4 結束語

本文基于動態注意力生成對抗網絡模型,針對生成圖像細節缺失、低分辨率階段生成圖像存在結構性錯誤的問題,提出一種基于通道注意力的文本生成圖像方法。通過引入內容感知上采樣模塊,提高生成圖像和文本條件之間的語義一致性,改善低分辨率階段生成圖像的結構性錯誤。在卷積層加入通道注意力機制,使生成圖像細節更加清晰,在訓練過程中結合感知損失使訓練更加穩定。實驗結果表明,本文模型生成的圖像質量更高,更加接近真實圖像。本文方法雖然在生成圖像上取得了較好的效果,但仍然存在網絡模型較大、訓練時間長等問題,下一步將對網絡模型進行精簡優化,在保證性能的基礎上達到提高訓練速度的目標。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美日本在线| 亚洲成肉网| 1769国产精品视频免费观看| 麻豆精品视频在线原创| 色婷婷在线播放| 欧美国产日韩在线播放| 亚洲欧美日韩另类在线一| 国产精品人莉莉成在线播放| 欧美h在线观看| 国产日韩丝袜一二三区| AV不卡国产在线观看| 亚洲欧美日韩久久精品| 亚洲成在人线av品善网好看| 国产资源免费观看| 国产成人精品男人的天堂| 亚洲男人的天堂在线| 日本精品视频一区二区| 亚洲天堂色色人体| 在线观看免费AV网| 亚洲成aⅴ人片在线影院八| 久久精品一卡日本电影| 国产麻豆91网在线看| 亚洲一欧洲中文字幕在线| 久久香蕉国产线看观看精品蕉| 日韩无码视频专区| 四虎影视8848永久精品| 波多野结衣爽到高潮漏水大喷| 亚洲va精品中文字幕| 亚洲精品无码不卡在线播放| 午夜视频www| 中文字幕在线日本| 国产精品亚洲片在线va| 视频二区欧美| 成人午夜天| 欧美在线三级| 亚洲免费毛片| 国产一区成人| 日韩精品无码一级毛片免费| 91亚洲免费视频| 欧美人在线一区二区三区| 一级不卡毛片| 国产91av在线| 性网站在线观看| 在线网站18禁| 久久久亚洲色| 亚洲一级毛片免费看| 欧美a在线| 亚洲av综合网| 91毛片网| 精品人妻系列无码专区久久| 成人国产一区二区三区| 久久久久国产精品嫩草影院| 午夜视频在线观看区二区| 色老二精品视频在线观看| 国产成人免费| 99在线观看免费视频| 天天视频在线91频| 亚洲一级毛片在线观播放| AV片亚洲国产男人的天堂| 自慰高潮喷白浆在线观看| 精品视频在线观看你懂的一区| 自拍偷拍欧美| 成色7777精品在线| 亚洲天堂网站在线| 亚洲福利一区二区三区| 日韩天堂视频| 国产黄色免费看| 国产美女人喷水在线观看| 玩两个丰满老熟女久久网| 午夜国产大片免费观看| 在线中文字幕日韩| 亚洲免费黄色网| 久久久久久久久18禁秘| 亚洲另类国产欧美一区二区| 国产亚洲高清在线精品99| 欧美.成人.综合在线| 免费久久一级欧美特大黄| 国产福利在线免费观看| 欧美激情第一欧美在线| 无码有码中文字幕| 亚洲香蕉在线| 国产精品亚洲专区一区|