






摘要:針對現(xiàn)有方法在段落生成圖像任務(wù)中存在的圖文不一致、語義準確度不足的問題,提出一種融合語義重構(gòu)約束的序列圖像生成框架。首先,該方法采用基于Transformer的文本注意力機制和時間卷積網(wǎng)絡(luò),以增強對段落上下文特征的捕捉。其次,引入空間語義感知卷積網(wǎng)絡(luò)(SSACN) ,融合歷史圖像信息以指導(dǎo)當(dāng)前圖像的生成。最核心的是,設(shè)計了一個語義重構(gòu)約束,將生成的序列圖像解碼回文本描述,并與原始輸入文本進行比對,從而強制模型在語義層面保持高度一致。實驗結(jié)果表明,該方法在生成結(jié)果的圖像連貫性和視覺真實性方面有顯著提升,同時有效增強了文本描述與生成圖像之間的語義對齊度。
關(guān)鍵詞:文本生成序列圖像;生成對抗網(wǎng)絡(luò);語義一致性;語義重構(gòu);文本注意力編碼器
中圖分類號:TP391" " " 文獻標識碼:A
文章編號:1009-3044(2025)21-0004-04
開放科學(xué)(資源服務(wù)) 標識碼(OSID) :
0 引言
文本生成圖像是計算機視覺領(lǐng)域的一個熱門研究問題,指的是將給定的文本描述生成與描述內(nèi)容相對應(yīng)的圖像。文本生成圖像已廣泛應(yīng)用于文本分析、圖像處理、數(shù)據(jù)擴充、人機交互等領(lǐng)域。目前,常見的文本生成圖像方法有擴散模型[1]、自回歸模型[2]和生成對抗網(wǎng)絡(luò)模型[3]等。
生成對抗網(wǎng)絡(luò)受到了廣泛關(guān)注,通過鑒別器對圖像信息的約束,使生成對抗網(wǎng)絡(luò)模型能夠生成更逼真、更自然的圖像,其進展帶來了新的圖像生成方法和思想。
Reed等[4]提出了GAN-INT-CLS,在輸入中增加了文本描述用于指導(dǎo)生成器和判別器,首次將GAN應(yīng)用于文本生成圖像任務(wù),生成64×64的圖像。Li等[5]提出了StoryGAN,首次引出文本生成序列圖像的任務(wù),學(xué)習(xí)從一段連續(xù)的文本描述生成序列圖像,但該任務(wù)仍然面臨時序連貫性不足、語義與圖像信息不匹配等問題。
為了提高單幀圖片生成質(zhì)量,Johnson等[6]提出了一種利用場景圖生成圖像的Sg2im模型,解決了生成復(fù)雜場景圖像時變得混亂的問題。Takahiro等[7]提出了NoiseCollage,當(dāng)利用文本和布局信息生成匹配度高的多對象圖像時,通過預(yù)估每個對象的噪聲并對其合并,實現(xiàn)對多對象圖像生成過程的布局控制。為了提高語義一致性,Hu等[8]提出了語義空間感知生成對抗網(wǎng)絡(luò)(SSA-GAN) 。Axel等[9]提出了StyleGAN-T,解決了大規(guī)模文本到圖像的穩(wěn)定生成問題。
然而,面對連續(xù)文本描述輸入時,現(xiàn)有方法生成的圖像序列仍面臨兩大核心挑戰(zhàn):一是對象間關(guān)系表征的精確度不足,二是序列圖像跨幀語義連貫性的缺失。因此,本文在SGGAN[10]的基礎(chǔ)上,提出了一種基于語義重構(gòu)約束的段落生成序列圖像方法(SRCGAN,Semantic Reconstruction Constraint Generative Adversarial Networks) 。本文通過引入基于Transformer的文本注意力編碼器,增強上下文語義的建模能力;加入空間語義感知卷積網(wǎng)絡(luò)(Spatial-Semantic Aware Convolutional Network,SSACN) ,將歷史視覺特征與當(dāng)前文本特征融合,提高序列圖像之間的連貫性;構(gòu)建語義約束鑒別器,通過生成的圖像再次生成文本信息,并與原文本信息進行語義重構(gòu)約束計算,實現(xiàn)跨模態(tài)語義的端到端對齊。
本文方法在CLEVR[11]數(shù)據(jù)集和CoDraw[12]數(shù)據(jù)集上進行測試,定量和定性實驗分析結(jié)果表明,所提出方法增強了生成模型的信息預(yù)測能力,改善了生成結(jié)果與文本描述的語義對齊度。
1 語義重構(gòu)約束生成對抗網(wǎng)絡(luò)
1.1 網(wǎng)絡(luò)框架
基于語義重構(gòu)約束的生成對抗網(wǎng)絡(luò)旨在創(chuàng)建一系列圖像來描述輸入的段落S。其模塊主要由兩部分組成:1) 圖像生成器基于時間卷積網(wǎng)絡(luò)、場景圖和空間語義感知卷積網(wǎng)絡(luò),將段落S處理為上下文特征并傳入,進一步通過級聯(lián)細化網(wǎng)絡(luò)與空間語義感知卷積網(wǎng)絡(luò)融合,生成語義一致的序列圖像;2) 段落鑒別器和語義約束鑒別器,引導(dǎo)圖像生成過程,確保生成圖像序列的真實性和語義一致性。
SRCGAN的總體架構(gòu)如圖1所示。給定段落[S=[s1, s2, s3, …, sn]],n為可變化的句子數(shù)量。首先,通過文本注意力編碼和時間卷積網(wǎng)絡(luò),提取上下文相關(guān)的句子級特征信息[T=[t1, t2,t3, …, tn]]。隨后,對于序列中的每一步[k],句子特征[tk]被輸入場景圖生成器,產(chǎn)出場景布局[lk]。同時,句子特征[tk]與前一時刻生成的圖像特征一同輸入7個空間語義感知卷積網(wǎng)絡(luò)模塊(SSACN) ,生成圖像[gk]。最后,將布局信息[lk]輸入CRN,與圖像信息[gk]融合,生成當(dāng)前時刻的圖像[ik]。整個生成過程由段落鑒別器和語義約束鑒別器共同監(jiān)督。
1.2 文本注意力編碼器
如圖2所示,段落S的文本信息可由文本注意力編碼器提取。通過Transformer模塊,采用全局注意力機制,實現(xiàn)全局語義的關(guān)聯(lián)。編碼器能夠建立字符級的語義關(guān)聯(lián)網(wǎng)絡(luò),輸出經(jīng)過上下文增強的文本特征表示[fT]([1≤T≤n]) 。
將段落[S]輸入編碼器中,通過正弦位置編碼作為固定位置編碼器(FPE) ,解決并行處理導(dǎo)致的時序缺失問題。
編碼器模塊由三個組件組成:1) 多頭自注意力(MSA) 層,實現(xiàn)跨元素的全局語義關(guān)聯(lián);2) 層標準化(LN) ,以穩(wěn)定特征分布;3) 前饋網(wǎng)絡(luò)(FFN) 層,進行非線性變換。各組件間通過殘差連接實現(xiàn)梯度優(yōu)化,最終得到計算后的文本特征向量。
1.3 時間卷積網(wǎng)絡(luò)和場景圖網(wǎng)絡(luò)
段落S經(jīng)過編碼器處理后,可將信息按順序輸入時間卷積網(wǎng)絡(luò)(Temporal Convolutional Networks,TCN) 中,沿時間維度處理文本特征,模擬段落之間的時間關(guān)系,得到上下文特征[T=[t1, t2,t3, …, tn]]。如圖3所示,TCN由殘差塊和全連接層組成,可以根據(jù)每句文本在段落中的固定位置依次向后一句話傳遞前一句話的信息,從而極大限度地關(guān)聯(lián)不同文本間的信息。
接下來,對于序列中的每一步[k],TCN將處理后的上下文特征[tk]通過場景圖網(wǎng)絡(luò)獲得關(guān)系感知表示,解析為場景圖,其中每個節(jié)點表示不同區(qū)域和對象,邊表示區(qū)域之間的聯(lián)系。進而計算出每個區(qū)域的邊界框和分割掩膜,轉(zhuǎn)化為場景布局信息[lk]。
級聯(lián)細化網(wǎng)絡(luò)[13](Cascaded Refinement Networks,CRN) 是一種端到端的網(wǎng)絡(luò)。當(dāng)給定場景布局[lk]時,經(jīng)CRN能夠不斷輸入當(dāng)前序列的信息,通過逐步細化圖像來生成高分辨率、逼真的圖像。
1.4 空間語義感知卷積網(wǎng)絡(luò)
本文方法的核心模塊為空間語義感知卷積網(wǎng)絡(luò)(SSACN) 。如圖4所示,SSACN的主要功能是動態(tài)地將當(dāng)前文本特征與歷史視覺信息相融合,為圖像生成器提供空間感知的引導(dǎo)。
在當(dāng)前時間步[k],SSACN的輸入包括:1) 當(dāng)前時刻[k]的上下文特征[tk];2) 前一時刻[k-1]生成的圖像特征[gk-1](若[k=1],則為初始噪聲) ;3) 前一次迭代圖像[gr-1k]([r]為SSACN模塊數(shù),[1≤r≤7]) 。其最終輸出為一個增強的、具有空間語義信息的256×256的圖像。
每次輸入的信息會經(jīng)過7個SSACN塊處理,該SSACN模塊采用四級結(jié)構(gòu)設(shè)計,包含:
1) 上采樣塊。采用雙線性插值算法對特征圖進行空間維度擴展,實現(xiàn)分辨率的提升。
2) 掩膜預(yù)測器。如圖4左側(cè)所示,輸入上采樣后的圖像特征圖,通過計算后輸出預(yù)測掩膜[mk]。[mk]標識出當(dāng)前特征圖中需要文本信息增強的部分,提高了后續(xù)步驟生成圖像與文本的語義一致性。
3) 語義空間條件規(guī)范化層。如圖4右側(cè)所示,將預(yù)測掩膜[mk]分別與預(yù)處理的上下文特征逐元素相乘,得到更符合語義的圖像特征。同時,將其與前一時刻圖像[gk-1]和前一次迭代圖像[gr-1k]共同計算,生成結(jié)合歷史信息的當(dāng)前迭代圖像[grk]。
4) 殘差塊。通過跨層特征復(fù)用機制,在文本引導(dǎo)的圖像生成過程中保持原始視覺內(nèi)容的完整性,避免文本無關(guān)區(qū)域的語義失真。
第一個SSACN塊不存在前一時刻圖像,輸入的[gk-1]為噪聲向量經(jīng)全連接層投影后的初始特征圖4×4×512。經(jīng)過SSACN塊多次上采樣后,圖像特征圖的分辨率為256×256。段落S的上下文特征經(jīng)SSACN模塊處理后,輸出的圖像信息與CRN輸出信息拼接,再經(jīng)過卷積對齊維度,最終得到生成的序列圖像[I=[i1, i2, i3, …,in]]。
2 鑒別器結(jié)構(gòu)
本文的鑒別器結(jié)構(gòu)包括兩個部分:
1) 段落鑒別器。該鑒別器通過對抗性損失函數(shù),評估生成圖像與真實圖像的分布差異。
2) 語義約束鑒別器。引入語義約束鑒別器,結(jié)合由卷積—LSTM架構(gòu)構(gòu)建的語義重構(gòu)模塊,將生成圖像反向解碼為文本描述,確保生成圖像與輸入文本的語義對齊,并通過交叉熵損失函數(shù)量化兩個關(guān)鍵的一致性:①圖像—文本一致性,驗證重構(gòu)后的文本與生成圖像內(nèi)容的匹配度;②文本—文本一致性,驗證重構(gòu)后的文本與原文本的語義對齊度。
語義重構(gòu)模塊先通過生成的序列圖像[ik]重新生成對應(yīng)語義的文本信息[wk],再將其與初始信息[sk]進行比較計算。若生成圖像與輸入文本的語義匹配時,其解碼后的結(jié)果應(yīng)較好地保留高層語義特征,例如實體、屬性和空間關(guān)系等。該損失函數(shù)可表示如下:
[LRTA=-j=0L-1logpj(sj)] (1)
其中,[sj]為句子[s]中的第j個單詞,[pj]為預(yù)測概率分布,L為句中的單詞數(shù)。
該鑒別器通過分階段語義對齊策略計算重構(gòu)損失,具體流程為:在生成過程的每個階段,基于當(dāng)前輸入的文本描述計算階段語義重構(gòu)損失[LRTAi],最終通過累加所有[i]個階段的損失值得到總體的語義重構(gòu)損失。該損失函數(shù)可表示如下:
[LDMMAC=-t=0n-1LRTAi] (2)
其中,n表示序列的長度(即段落中句子的數(shù)量) ,[LRTAi]表示第i個階段的損失函數(shù)。
3 實驗與分析
3.1 實驗環(huán)境與數(shù)據(jù)集
本文基于PyTorch框架構(gòu)建訓(xùn)練和測試平臺,操作系統(tǒng)為Ubuntu 22.04 LTS,計算設(shè)備采用NVIDIA Tesla V100。實驗分別在CLEVR-SV和CoDraw-SV兩個標準數(shù)據(jù)集上完成模型的訓(xùn)練和驗證。
3.2 實驗結(jié)果
在段落生成序列圖像任務(wù)中,本文通過編碼器對段落進行解析,檢測語義信息構(gòu)建場景圖與預(yù)測區(qū)域,同時結(jié)合歷史序列圖像控制當(dāng)前時刻的圖像生成。如圖5所示,以第二行圖像為例,SSACN模塊通過多模態(tài)特征融合機制,將[t-1]時刻的生成圖像與當(dāng)前文本描述進行跨模態(tài)對齊,輸出包含空間語義關(guān)系的特征表示及區(qū)域預(yù)測掩膜。該特征進一步與場景圖編碼進行融合,最終通過級聯(lián)細化網(wǎng)絡(luò)生成時序連貫的時刻目標圖像。
表1為SRCGAN與主流方法(DF-GAN和SSA-GAN) 在CLEVR-SV數(shù)據(jù)集中的量化對比結(jié)果。與DF-GAN相比,SRCGAN的FID降低了0.43%,IS提高了0.86%,SSIM提高了3.84%,Acc評分提高了6.70%。與SSA-GAN相比,SRCGAN的FID降低了0.25%,IS提高了0.39%,SSIM提高了2.63%,Acc評分提高了3.33%。實驗數(shù)據(jù)表明,本文方法SRCGAN在CLEVR-SV數(shù)據(jù)集中的跨模態(tài)對齊能力、序列一致性和生成質(zhì)量均有所提高。
表2為SRCGAN與主流方法(DF-GAN和SSA-GAN) 在CoDraw-SV數(shù)據(jù)集中的量化對比結(jié)果。與DF-GAN相比,SRCGAN的FID降低了0.55%,IS提高了1.45%,SSIM提高了4.44%,Acc評分提高了6.66%。與SSA-GAN相比,SRCGAN的FID降低了0.31%,IS提高了0.85%,SSIM提高了3.99%,Acc評分提高了6.66%。實驗數(shù)據(jù)表明,本文方法SRCGAN模型的結(jié)構(gòu)相似性、準確度和精確度均有明顯提高。
如圖6所示,為SRCGAN模型在CoDraw數(shù)據(jù)集上的可視化結(jié)果。實驗結(jié)果顯示,模型能夠基于前序圖像特征和當(dāng)前文本描述共同計算,準確生成符合語義要求的圖像內(nèi)容,且生成結(jié)果在目標物體的空間位置關(guān)系方面表現(xiàn)出良好的連續(xù)性。
4 結(jié)論
本文提出了一種名為SRCGAN的新型段落到序列圖像生成方法,其核心貢獻在于引入了一種語義重構(gòu)約束機制。首先,基于Transformer的文本編碼器有效提升了上下文語義的建模能力;其次,設(shè)計的SSACN模塊能夠生成更貼合文本描述的圖像序列;并且,在訓(xùn)練過程中引入語義重構(gòu)約束,通過將生成圖像反向解碼為文本并與原始文本描述進行對比,顯著提升了跨模態(tài)語義一致性。實驗結(jié)果表明,該約束與本文設(shè)計的文本注意力編碼器和空間語義感知模塊相結(jié)合,在CLEVR和CoDraw數(shù)據(jù)集上能夠有效提升生成圖像的真實性和語義一致性。
然而,當(dāng)前方法在處理包含復(fù)雜場景或抽象概念的文本時仍有局限,這部分受限于現(xiàn)有訓(xùn)練數(shù)據(jù)集的規(guī)模與多樣性。未來研究將探索更大規(guī)模、更多樣化的訓(xùn)練數(shù)據(jù),并研究如何將常識知識庫融入模型,以提升對復(fù)雜場景的理解與生成能力。
參考文獻:
[1] RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical text-conditional image generation with CLIP latents[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2022.
[2] YU J, XU Y, KOH J Y, et al. Scaling autoregressive models for content-rich text-to-image generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 14369-14379.
[3] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems,2014: 2672-2680.
[4] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]//Proceedings of the 33rd International Conference on Machine Learning, 2016: 1060-1069.
[5] LI Y T,GAN Z,SHEN Y L,et al.StoryGAN:a sequential conditional GAN for story visualization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019.Long Beach,CA,USA.IEEE,2019:6322-6331.
[6] JOHNSON J,GUPTA A,LI F F.Image generation from scene graphs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:1219-1228.
[7] SHIRAKAWA T,UCHIDA S.NoiseCollage:a layout-aware text-to-image diffusion model based on noise cropping and merging[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 16-22,2024,Seattle,WA,USA.IEEE,2024:8921-8930.
[8] LIAO W T,HU K,YANG M Y,et al.Text to image generation with semantic-spatial aware GAN[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:18166-18175.
[9] SAUER A, SCHWARZ K, KARRAS T, et al. StyleGAN-T: Unlocking the power of GANs for fast large-scale text-to-image synthesis[C]//Proceedings of the 40th International Conference on Machine Learning,2023: 30054-30075.
[10] 張瑋琪.基于生成對抗網(wǎng)絡(luò)的文本生成序列圖像方法研究[D].蘇州:蘇州科技大學(xué),2022.
[11] JOHNSON J,HARIHARAN B,VAN DER MAATEN L,et al.CLEVR:a diagnostic dataset for compositional language and elementary visual reasoning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1988-1997.
[12] KIM J H,KITAEV N,CHEN X L,et al.CoDraw:collaborative drawing as a testbed for grounded goal-driven communication[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence,Italy.Stroudsburg,PA,USA:ACL,2019:6495-6513.
[13] CHEN Q F,KOLTUN V.Photographic image synthesis with cascaded refinement networks[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:1520-1529.
[14] LI W B,ZHANG P C,ZHANG L,et al.Object-driven text-to-image synthesis via adversarial training[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019.Long Beach,CA,USA.IEEE,2019:12166-12174.
【通聯(lián)編輯:唐一東】