999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于對比學習的文本生成圖像

2025-02-15 00:00:00周剛李捍東陳燁燁
軟件工程 2025年2期

摘 要:針對在多目標文本生成圖像和語義相關(guān)度高的情況下,于CUB數(shù)據(jù)集中進行實驗時,發(fā)現(xiàn)生成的鳥圖像中有許多“多頭”“多腳”情況,文章在MA-GAN(多階段注意力機制的生成對抗網(wǎng)絡(luò))模型上加入對比學習以優(yōu)化圖像生成。同時,采用特征插值方法增強圖像的某些特征,從而提高語義一致性和文本辨識度。通過在CUB和COCO數(shù)據(jù)集上的實現(xiàn)驗證,改進后模型的IS(InceptionScore)指標分別提高了0.11和2.58,而R 分數(shù)(Rprecision)指標分別提高了1.98和1.37,證明了改進后的模型能夠解決圖像質(zhì)量和語義一致性問題。

關(guān)鍵詞:文本生成圖像;對比學習;文本特征表示;特征插值

中圖分類號:TP393 文獻標志碼:A

0 引言(Introduction)

在文本生成圖像的過程中,人為挑選同一類圖片的文本特征詞缺乏客觀性,而在同一類圖像的文本注釋中,不同語義描述會造成生成圖像的改變。為了使得到的圖像質(zhì)量更高和圖文語義一致,代婷婷等[1]于2023年引入了對比學習方法以解決合成圖像屬性丟失的問題。曹寅等[2]于2024年提出了深度融合注意力的生成對抗網(wǎng)絡(luò)。吳春燕等[3]于2023年提出了一種基于特征增強的生成對抗網(wǎng)絡(luò)。賀小峰等[4]提出了一種語義-空間特征增強的生成對抗網(wǎng)絡(luò)。MA等[5]提出了一種基于語義一致性的生成對抗網(wǎng)絡(luò)。張佳等[6]于2023年提出了一種基于條件增強的深度融合生成對抗網(wǎng)絡(luò)模型。因此,本文引入對比學習和特征插值方法對多階段自注意力機制的文本生成圖像模型進行優(yōu)化。該方法能夠增強語義一致性,并通過實驗數(shù)據(jù)和圖像結(jié)果驗證方法的可行性[7]。

1 圖文匹配算法(Imagematchingalgorithm)

圖文匹配算法在跨模態(tài)中得到了廣泛的運用,其主要作用是計算圖像與文本的匹配程度。圖文匹配算法就是用文本搜索許多與文本描述相一致的圖像,在這個過程中,如何找到相似的圖片,就依賴于文本與圖片之間的關(guān)聯(lián)度;與此類似,通過給定的一張圖片,也可以找到與圖片有關(guān)聯(lián)的文本信息;在一些關(guān)于圖像問答的任務(wù)中,可以通過圖文兩者之間的相關(guān)性得到圖像中的信息。實際上,圖文兩者各自都代表了一種語言意義;而在跨模態(tài)的范圍內(nèi),這兩種模態(tài)的差異性能夠呈現(xiàn)出千百種表現(xiàn)形式。

在文本到圖像的生成過程中,關(guān)鍵在于圖像和文本的精準匹配,在這個過程中實現(xiàn)對文本和圖像的語義最大化處理。深度注意力多模態(tài)相似性模型的主要作用是對文本生成圖像的細節(jié)進行優(yōu)化。深度注意力相似性模型訓練流程圖如圖1所示。深度注意力相似性模型[8](DAMSM)是通過訓練不同的編碼器來分別獲取圖像特征和文本特征,然后將兩種特征編碼到相同語義表達區(qū)間中,同時得到它們之間相似性的損失度。然而,對于同一個圖像的文本描述是可以不同的,這就會造成生成圖像背離原本圖像的現(xiàn)象。為了解決這個問題,本文提出使用對比學習方法將同一圖片對應(yīng)的相似文本進行整合,并且拋棄那些和不同圖片對應(yīng)的文本表示。

2 MA-GAN模型架構(gòu)(MA-GANmodelarchitecture)

MA-GAN模型[9]加入了自注意力機制,其結(jié)構(gòu)圖如圖2所示,注意力生成網(wǎng)絡(luò)是這個模型的重要組成部分,加入自注意力機制的作用是用與圖像最關(guān)聯(lián)的單詞生成圖像的局部關(guān)鍵區(qū)域。該模型首先將輸入的文本用相應(yīng)編碼器生成全局句子級特征向量,其中的關(guān)鍵詞也會生成對應(yīng)的詞級特征向量。通過自注意力機制將句子級特征向量生成第一階段的圖像;其次利用生成的多個局部特征圖像向量查找相關(guān)聯(lián)的詞級特征向量。最后利用生成的局部圖像向量與對應(yīng)的詞級特征向量匹配得到多模態(tài)的特征向量。這個多模態(tài)特征向量能夠使模型在附近的局部區(qū)間內(nèi)合成與原圖像不一樣的特征。

3 模型訓練(Modeltraining)

3.1 對比學習理論

對比學習方法因為具有自我監(jiān)督的能力,所以在計算機視覺領(lǐng)域展現(xiàn)出巨大的吸引力。在眾多對比學習方法中,比較有名的是SimCLR(SimpleContrastiveLearningofVisualRepresentations)模型,該模型能夠在樣本比較少的情況下較好地完成視覺方面的任務(wù)。在預(yù)訓練相關(guān)模型中,SimCLR模型能夠給出令人滿意的答案。在SimCLR模型出現(xiàn)之前,有監(jiān)督學習方式要比自監(jiān)督的更具優(yōu)勢,而SimCLR模型的出現(xiàn)顯著提高了自監(jiān)督學習的性能,并且在圖像進行分類任務(wù)中也有不錯的表現(xiàn)。對比學習的過程,就是讓機器學會區(qū)分兩個樣本的相似程度,對比學習原理圖如圖3所示。

為了讓機器學習更加準確地表示出樣本的相似程度,我們需要解決幾個關(guān)鍵問題。首先,要將相似的樣本和不同的樣本一起放入模型進行訓練,這個過程需要用到無監(jiān)督學習,而如何將這一學習方法融入模型是我們需要解決的第一個關(guān)鍵問題;其次,需要讓機器學會如何識別圖片中的有效信息,這是確保模型準確性的關(guān)鍵;最后,如何計算這些信息的相似度也是一個亟待解決的問題。為此,本文提出了一個有效的數(shù)據(jù)增強方案,首先輸入一張原始圖片,并對其進行數(shù)據(jù)增強處理,得到相應(yīng)的增廣圖片,其次用基礎(chǔ)編碼器得到對應(yīng)的圖像信息,最后利用圖像編碼器以及特征插值生成對應(yīng)的圖像表現(xiàn)形式Z,其主要目的是得到原始圖像處理后的不同圖像的相似度。對比學習獲得相似度模型如圖4所示。

以原始圖像為基礎(chǔ)得到的圖像hi 和hj 經(jīng)過非線性處理后,將其依次進行解碼,再經(jīng)過特征插值對圖像的特征進行增強并投影到不同的空間Z 中。不同空間中Z 的相似度計算運用如下面的余弦相似度公式:

Si,j= ZiTZj/τ‖Zi‖Zj‖ (1)

其中,τ 起到了一個調(diào)節(jié)輸入的作用,并且余弦相似度的有效值也會隨著其改變而改變。公式(1)用于計算出原始圖像經(jīng)過變體處理后得到的兩個圖像的余弦相似度,這種計算方式使得同類圖片的相似度提升,而不同類圖片的相似度下降。

3.2 模型預(yù)訓練

圖像文本匹配的作用就是要讓機器分辨出文本特征與圖像特征的相似性。在文本生成圖像的過程中,文本表示的特征作為生成圖像的條件,本小節(jié)運用了一種更為有效的圖文匹配模型。該模型運用了對比學習的思想,通過對應(yīng)的解碼器得到相對應(yīng)的圖像和文本特征,經(jīng)過不同特征的兩兩對比,計算出相應(yīng)的對比損失度。然而,相同的圖像需要放入同一個空間中進行預(yù)訓練處理,而不同圖像的文本特征則是用對比損失度進行表示,損失度越高,則表明圖文越不匹配。引入對比學習的深度注意力相似性模型流程圖如圖5所示。

該模型主要由3個部分組成。第一部分是采樣過程,對于預(yù)訓練過程來說,首先是對一小部分的圖像和文本進行采樣處理,而文本y 和文本y'匹配于圖像x。在圖文匹配過程中,不僅需要圖像與文本的配對(xi,yi)和(xi,yi)作為正向匹配來計算圖像xi的對比損失,而且還要通過正向的文本和文本的組合(yi,y'i )來得到對比損失度。第二部分是編碼器,編碼器的作用是提取出樣本中的特征向量。圖像編碼器f是為了提取圖像樣本中全局和局部的視覺特征向量,而文本編碼器g是用來提取出樣本中全局和局部單詞的特征向量表示[10]。如果文本編碼器g能夠在模型中實現(xiàn)為公共端口,那么整個框架就可以適用于多種神經(jīng)網(wǎng)絡(luò)模型。第三部分是損失函數(shù),其值是通過不同樣本之間的匹配結(jié)果計算得到的。計算損失度的損失函數(shù)如公式(2)所示:

其中:i 與j 互為正匹配關(guān)系;函數(shù)1k≠i只有在k≠i 時,才為1;τ 表示溫度參數(shù);N 為某一批次的數(shù)量。公式(3)用于計算最終的對比損失值,最終的對比損失通過計算一個小批量中的所有正配對損失得到。

在每次迭代過程中,給定圖像編碼器f、文本編碼器g、溫度參數(shù)及批次量N ,公式(4)和公式(5)分別是對小部分的圖像x 和與之相關(guān)聯(lián)的文本y 進行采樣,而公式(6)是對與圖像x有關(guān)的另一部分文本y'進行采樣,然后使用公式(7)、公式(8)和公式(9)分別計算圖像文本對的匹配損失度β1、β2 和β3,公式(10)用于計算總的損失度β。通過調(diào)整文本和圖像編碼器的參數(shù),可以使得損失度β 降低。

m=f(y) (4)

n=g(y) (5)

n'=g(y') (6)

β1=DAMSM (m,n) (7)

β2=DAMSM (m,n') (8)

β3=NT-Xent(n,n') (9)

β=β1+β2+β3 (10)

預(yù)訓練過程就是預(yù)先對其編碼器進行訓練的過程,一是學習如何將文本與圖像有效匹配,掌握圖文配對的內(nèi)在表示方式;二是學習如何表達具有相同圖像屬性的文本,并探索比較不同圖像屬性差異的方法。編碼器通過預(yù)訓練后,能夠在改進后的模型中得到圖像和文本相匹配的屬性,這樣就可以用對比損失度減小與同一類圖像關(guān)聯(lián)的文本表示的差距,并且增大與不同類圖像關(guān)聯(lián)的文本表示的差距。

3.3 GAN訓練的對比學習

本文中COCO(CommonObjectsinContext)和CUB(Caltech-UCSDBirds-200-2011)數(shù)據(jù)集中的圖片都是由人工標注,因此對相同圖片的文本描述是有很大區(qū)別的。在復雜的場景中,文本單詞的不同選擇會引入主觀因素的影響,導致同一圖像可能產(chǎn)生多種不同的文本描述,這使得機器難以學到一致且準確的特征,進而影響最終模型生成的圖像質(zhì)量,使其可能不符合預(yù)期要求。在框架中增加對比學習方法能夠使圖像和對應(yīng)文本的表示相關(guān)性更強,并且生成的圖像更加真實。文本到圖像合成的模型框架如圖6所示。

(1)采樣。采樣過程中需要采樣一小部分的圖像x、文字y 和文字y',而文本y 和y'都與各自的圖像x 相對應(yīng)。模型的輸入是文本y 和y',而圖像x 和x'則是模型中生成器的輸出。將圖像特征對(mi,m'j)作為對比學習的正配對。

(2)模型架構(gòu)。GAN(生成對抗網(wǎng)絡(luò))模型主要通過生成器與判別器之間的對抗機制生成逼真的數(shù)據(jù)。生成器G為判別器D提供判別的數(shù)據(jù),而判別器D則是用真實訓練樣本判斷新數(shù)據(jù)的有效性。該GAN方法使用的統(tǒng)一框架是從傳統(tǒng)GAN擴展而來的,輔助信息n 是由文本y 通過編碼器g轉(zhuǎn)換得到的。GAN模型以此文本信息為基礎(chǔ),通過對抗訓練的方式,不斷優(yōu)化生成的數(shù)據(jù),過程如公式(11)所示:

(3)損失函數(shù)。除了對抗性損失,還有利用同一種文本得到的衍生圖像之間的對比損失。通過對比損失,能夠?qū)蓚€不同文本表示生成的相同圖像的差異性降到最低,并且把與之生成的不同圖像的差異性提升至最高。這里同樣運用了前文提出的歸一化溫標交叉熵損(NT-Xent)作為對比損失。

(4)相關(guān)公式。通過公式(2)和公式(3)能夠推導出生成器G和判別器D的損失度公式,公式(12)至公式(15)分別用于計算判別器D和生成器G的損失度:

其中:sx,n是圖像與文本特征的配對(xi,ni)在判別器D中的輸入,而sz,n則是噪聲與文本特征的配對(zi,ni)在生成器G中的輸入。

4 實驗結(jié)果分析(Analysisofexperimentalresults)

對比試驗同樣采用的是CUB數(shù)據(jù)集和COCO 數(shù)據(jù)集。實驗主要是從兩個角度對模型的性能進行對比。一是通過量化指標評估模型的性能,主要選取了初始分數(shù)(IS)指標和Rprecision[11]。初始分數(shù)是通過計算KL散度條件和邊際概率分布得到的,該值越大,說明模型性能越好,生成的圖像質(zhì)量更好且具有多樣性;R-precision指標則是用來評價文本和生成圖像的匹配度,該值越高,說明輸入的文本和生成的圖像匹配度越高。二是通過直觀的視覺效果評判模型性能的優(yōu)劣,主要是通過模型最后生成的圖像結(jié)果進行比較。

實驗分別是在MA-GAN模型和StackGAN++(RealisticImageSynthesiswithStackedGenerativeAdversarialNetworks)模型[12]的基礎(chǔ)上加入了對比學習的方法,MA-GAN模型使用了CUB和COCO數(shù)據(jù)集進行訓練,而StackGAN++模型使用CUB數(shù)據(jù)集進行訓練。為了實現(xiàn)模型的最優(yōu)收斂速度,需要將生成器和對抗器的學習率都設(shè)為0.0002。實現(xiàn)運行環(huán)境選擇在Colab平臺進行,而模型訓練則是依托NVIDIA顯卡和Pytorch框架實現(xiàn)。不同模型在各數(shù)據(jù)集中的指標值如表1所示。根據(jù)表1中的實驗結(jié)果可以看出,在加入對比學習方法后,MA-GAN和StackGAN++模型在CUB數(shù)據(jù)集中獲得的IS和R-precision分別提高了0.11、2.58和0.12、2.16。MA-GAN模型在COCO數(shù)據(jù)集中獲得的IS和R-precision分別提高了1.98和1.37。與CUB數(shù)據(jù)集相比,COCO數(shù)據(jù)集適用于更加復雜的場景。在加入對比學習方法后,模型在更為復雜的COCO數(shù)據(jù)集上依然表現(xiàn)出色。綜上所述,從數(shù)據(jù)化層面來看,模型在加入了對比學習方法后,無論在CUB數(shù)據(jù)集還是COCO數(shù)據(jù)集,其各項指標都有了一定程度的提升。

為了進一步驗證改進方法的可行性,我們分別在CUB數(shù)據(jù)集和COCO數(shù)據(jù)集上對改進前后的模型進行了圖像生成結(jié)果的對比分析。通過對比生成的圖像,可以明顯看出改進后的模型生成的圖像更加逼真,與文本描述更為契合,并且有效解決了生成圖像中出現(xiàn)的“畸形”問題。

根據(jù)MA-GAN模型生成的圖像可以明顯看出多頭現(xiàn)象的問題,改進前模型在CUB數(shù)據(jù)集中的效果圖如圖7所示。

在加入對比學習后,生成的圖像中畸形現(xiàn)象顯著減少,圖像質(zhì)量得到明顯提升。改進后模型在CUB數(shù)據(jù)集中效果圖如圖8所示。

在COCO數(shù)據(jù)集中,模型改進前后的圖像生成效果存在顯著差異,改進前模型在COCO數(shù)據(jù)集中的效果圖如圖9所示。改進前,盡管草地等背景元素與文本描述相符,但是目標對象如牛的關(guān)鍵特征難以辨別,表明原MA-GAN模型在多目標場景中表現(xiàn)欠佳。在加入對比學習后,生成的圖像中牛和草地的基本特征均清晰可見,圖像質(zhì)量得到顯著提升。改進后模型在COCO數(shù)據(jù)集中的效果圖如圖10所示。無論是在CUB數(shù)據(jù)集還是在COCO數(shù)據(jù)集中,改進后的模型都能夠生成更加清晰和逼真的圖像。因此,從可視化角效果的層面來看,對比學習和特征插值方法的加入使得MA-GAN模型能夠更好地解決效果圖特征失效的問題。

5 結(jié)論(Conclusion)

本文在MA-GAN模型的基礎(chǔ)上引入了對比學習和特征插值的方法,使得生成的圖像擁有更高的質(zhì)量和文本描述匹配度。通過對比改進前后模型的實驗結(jié)果,我們采用兩個數(shù)據(jù)化評價指標驗證了改進模型的性能,同時從視覺層面也確認了改進模型能夠有效解決生成圖像“畸形”的問題。盡管引入對比學習后,生成的圖像與文本描述高度一致,但是我們發(fā)現(xiàn)改變文本描述無法控制其圖像的局部特征改變,例如在CUB數(shù)據(jù)集中,如果改變鳥冠顏色的描述,那么鳥的其他特征也會相應(yīng)改變,就無法只改變所描述部分的局部特征。改變鳥的羽毛特征描述,也會出現(xiàn)同樣的結(jié)果。這表明,改進后的模型在根據(jù)局部特征描述控制生成圖像局部特征方面仍存在不足。因此,如何更精準地依據(jù)文本描述控制生成圖像的局部特征,仍是未來研究需要深入探索的方向。

參考文獻(References)

[1]代婷婷,范菁,曲金帥,等.基于Transformer和對比學習的文本生成圖像方法[J].中國科技論文,2023,18(7):793-798,812.

[2]曹寅,秦俊平,高彤,等.基于生成對抗網(wǎng)絡(luò)的文本兩階段生成高質(zhì)量圖像方法[J].浙江大學學報(工學版),2024,58(4):674-683.

[3]吳春燕,潘龍越,楊有.基于特征增強生成對抗網(wǎng)絡(luò)的文本生成圖像方法[J].微電子學與計算機,2023,40(6):51-61.

[4]賀小峰,毛琳,楊大偉.文本生成圖像中語義-空間特征增

[5]MAY,LIUL,ZHANGHX,etal.Generativeadversarialnetworkbasedonsemanticconsistencyfortext-to-imagegeneration[J].Appliedintelligence,2023,53(4):4703-4716.

[6]張佳,張麗紅.基于條件增強和注意力機制的文本生成圖

[7]譚紅臣.文本至圖像生成的語義一致性研究[D].大連:大連理工大學,2021.

[8]李校林,高雨薇,付國慶.基于生成對抗網(wǎng)絡(luò)的文本轉(zhuǎn)圖像研究[J].計算機應(yīng)用與軟件,2024,41(3):188-193,219.

[9]何義.基于生成對抗網(wǎng)絡(luò)的文本圖像研究[D].貴陽:貴州

[10]何麗.基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖文摘要生成方法研究

[11]SINGHV,TIWARYUS.Visualcontentgenerationfromtextualdescriptionusingimprovedadversarialnetwork[J].Multimediatoolsandapplications,2023,82(7):10943-10960.

[12]ZHANG H,XU T,LIH S,etal.StackGAN:realisticimagesynthesiswithstackedgenerativeadversarialnetworks[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2019,41(8):1947-1962.

作者簡介:

周 剛(1998-),男(漢族),廣安,碩士生。研究領(lǐng)域:計算機控制,自動化控制。

李捍東(1966-),男(漢族),遵義,教授。研究領(lǐng)域:計算機控制,嵌入式系統(tǒng)。

陳燁燁(1998-),女(漢族),遵義,碩士。研究領(lǐng)域:控制工程,新能源技術(shù)。

主站蜘蛛池模板: 亚洲国产无码有码| 人妻少妇乱子伦精品无码专区毛片| 国产成人成人一区二区| 天天色综网| 亚洲国产黄色| 亚洲日韩精品综合在线一区二区 | 成人午夜久久| 国产日韩欧美在线视频免费观看| 亚洲日本在线免费观看| 国产激情国语对白普通话| 2020亚洲精品无码| 婷婷开心中文字幕| 欧美国产成人在线| 国产精品主播| 午夜少妇精品视频小电影| 久久国产精品嫖妓| 国产成熟女人性满足视频| 在线免费不卡视频| 99re这里只有国产中文精品国产精品 | 日韩成人高清无码| 国产丰满大乳无码免费播放| 黄色三级网站免费| 国产另类视频| 亚洲成人免费在线| 国产欧美精品午夜在线播放| 国产亚洲一区二区三区在线| 国产特级毛片aaaaaa| 2021最新国产精品网站| 高清无码不卡视频| 欧美天堂久久| 久久国产精品77777| 亚洲精品在线观看91| 中文字幕 欧美日韩| 国产精品护士| 天天色综网| 制服丝袜在线视频香蕉| 中日无码在线观看| 亚洲成人播放| 久久亚洲日本不卡一区二区| 手机看片1024久久精品你懂的| a国产精品| 第九色区aⅴ天堂久久香| 婷婷激情亚洲| 国产精品无码翘臀在线看纯欲| 真实国产乱子伦视频| 色妺妺在线视频喷水| 国产欧美网站| 国产鲁鲁视频在线观看| 国产成人精品在线1区| 精品福利视频导航| 欧美一区二区啪啪| 97超爽成人免费视频在线播放| 婷婷伊人久久| 91av国产在线| 亚洲人成网址| 国产美女无遮挡免费视频| 91香蕉国产亚洲一二三区| 亚洲人免费视频| 久久77777| 性做久久久久久久免费看| 亚洲第一av网站| 国产偷国产偷在线高清| 欧美精品一区在线看| jizz亚洲高清在线观看| 热久久综合这里只有精品电影| 久久无码av一区二区三区| 日韩不卡免费视频| 国产噜噜在线视频观看| 欧美成人免费午夜全| 国产成人综合日韩精品无码首页 | 538精品在线观看| 亚洲成a人片77777在线播放| 韩国福利一区| 自偷自拍三级全三级视频| 日韩午夜片| 日韩精品少妇无码受不了| 亚洲日本中文字幕乱码中文 | 亚洲欧美自拍中文| 四虎成人在线视频| 综合五月天网| 中文字幕日韩视频欧美一区| 国产一区在线视频观看|