中圖分類號TP391.41文獻標志碼A
0 引言
隨著深度學習技術和自然語言處理技術的快速發展,文本生成圖像的任務需求量以及任務難度也在不斷增加.所謂的文本生成圖像是指建立圖像空間與文本語義空間的可解釋映射,將低維的文字語義信息轉換為高維圖像信息.
傳統的文本生成圖像模型,例如 Zhu 等[1]提出的文字到圖像(text-to-picture)合成系統,以及生成對抗網絡[2](GenerativeAdver-sarialNetwork,GAN)、自回歸模型[3(AutoRegressive,AR)等,雖然可以有效實現文本生成圖像,但會出現模型訓練不穩定、生成的圖像質量不佳等問題.新型的擴散模型(Diffusion Model,DM)[4-7]是一種高效的生成模型,可以通過輸入特定的文本提示符來創建高質量的圖像.得益于擴散模型的出現,生成高質量、高貼合度的圖像成為可能.
對于文本生成圖像任務,現有的先進方法雖然取得了令人印象深刻的結果,然而在不同程度上都存在如下問題:1)大部分生成模型在控制圖像的空間組成方面有所欠缺,無法僅通過文本提示來精確表達復雜的圖像布局、姿勢和形狀,生成一個和主觀意向準確匹配的圖像通常需要無數次的循環試錯,極大地增加了操作時間;2)無論是傳統的生成模型還是新型的擴散模型生成圖像都需要大量的訓練,不僅耗費巨大算力、浪費大量時間,而且隨著實際需求的不斷變化,模型訓練周期會變得更長;3)擴散模型的主干網絡 U-Net[8] 模型通過疊加卷積和池化操作來逐步減少特征圖的大小,模型運行效率較低,無法在訓練深度較深的同時保持較高的準確率,且模型無法有效識別的特征圖中包含有意義的通道信息與位置信息.
為了解決上述問題,本文提出一種基于改進后擴散模型添加條件控制的文本圖像生成方法,通過提供指定所需圖像組成的附加圖像來實現更細顆粒度的空間控制.針對主干網絡存在的問題,重新設計殘差塊結構,解決了模型梯度消失的問題,加深了模型表達能力從而提高模型性能;在噪聲估計網絡中添加注意力模塊CBAM,通過強化特征注意力和空間注意力,讓模型可以更好地關注圖像的重要區域以及捕捉到不同通道之間的關系;同時,結合條件控制網絡,通過有效的微調將空間局部化的輸入條件添加到預訓練的擴散模型中,有效地實現了特定姿勢生成圖像.
1相關工作
高質量、高貼合度的文本圖像生成是一項具有挑戰性的任務,目前主流的深度學習方法基本分為三種:基于生成對抗網絡的文本圖像生成;基于自回歸模型的文本圖像生成;基于擴散模型的文本圖像生成.
1.1基于生成對抗網絡的文本圖像生成
生成對抗網絡(GAN)最早在2014年被提出,在文本生成圖像領域具有開創性地位,它為這一領域帶來了重要的技術突破.為了解決生成對抗網絡模型分辨率較低問題, Wu 等[9]提出了StackGAN模型,該方法采用雙層嵌套的形式提升模型分辨率.同時,還提出了顏色一致性正則化項,可以最小化不同生成器輸出的顏色和結構差異,提升生成圖像質量.HfGAN[10]在多個生成器層次融合的體系結構,只用一個判別器就可以判別真實度和匹配程度.
AttnGAN[11] 中的注意力機制允許網絡在全局句子向量的基礎上,根據詞來合成細節,實現文本圖像對齊.Control GAN[12] 可以通過描述,在不影響其他圖像內容的情況下對紋理等進行修改生成.SEG-AN[13] 使用孿生網絡的思路,訓練利用真實圖像進行語義對齊的連體結構.然而,GAN的訓練過程是一個博弈過程,這一過程是不穩定的,有時會出現訓練崩潰或者模式崩潰,造成生成的結果缺乏多樣性且難以生成特定任務的目標圖像.
1.2基于自回歸模型的文本圖像生成
自回歸模型(AR)起初應用于生成數據,在圖像生成上的應用晚于生成對抗網絡,該模型生成圖像質量較高,且和文本較為一致.2021年,OpenAI發布DALLE- ?E[14] 模型,其生成圖像的質量和速度引領全球.百度研究的自回歸雙向生成模型ERNIE-ViLG[15]將注意力層的最后一層的特征向量通過多層感知機映射為圖像特征.CogView[16]將文本信息轉變為文本特征向量,再將圖像輸人到內部的圖像解碼器中提取圖像特征向量,拼接后作為輸入,學習圖像和文本之間的關聯.香港大學和字節跳動研究團隊提出新型圖像生成模型LlamaGen[17],將大型語言模型中的自回歸預測范式應用到視覺生成領域,實現了先進的圖像生成性能,
但是,基于自回歸模型的方法在先驗學習過程中采用文本特征到離散特征空間的映射,導致難以生成高質量圖像,且訓練過程中需要不斷推演巨量參數,使得訓練極其困難.
1.3基于擴散模型的文本圖像生成
擴散模型在理論上具有強大的生成能力,但在早期由于圖像生成質量和采樣速度上的不足,并未受到廣泛關注.2020年以后,一些基于擴散模型的文本圖像生成方法被提出,并具有良好的效果.擴散概率模型[18](Diffusion Probabilistic Model,DPM)可以不斷地迭代破壞數據的分布,再通過逆向過程恢復分布,從而訓練模型,被廣泛應用于圖像生成.在擴散模型的噪聲優化方面,Nichol等[19]在正向過程中添加余弦噪聲,在反向去噪中添加可學習的方差,減少了采樣步驟.
針對特殊數據,Sehwag等[20]在低密度數據中采樣;Austin等[21]則使用離散狀態空間生成模型;Joli-coeur-Martineau等[22]使用一種穩定的一致性退火采樣方案,提出一個由去噪分數和對抗目標組成的混合訓練公式; Kim 等[23]提出一種非線性擴散模型,使用可訓練的標準化流與擴散模型相結合的模型,通過流網絡在潛在空間中進行線性擴散來學習噪聲的分布,再將其用在數據空間上進行非線性擴散.
潛在擴散模型[24](LatentDiffusion Model,LDM)在潛在空間中執行擴散步驟,可以在降低計算成本的同時提高生成圖像質量.文本到圖像擴散模型通過預訓練的語言模型,比如模型CLIP(ContrastiveLanguage-ImagePretraining)將文本輸人編碼為潛在向量,從而獲得最先進的圖像生成結果.如圖1所示,CLIP模型同時理解學習文本以及圖像兩種不同模態的信息,并在它們之間建立聯系.CLIP模型通過在向量空間中計算圖像和文本的相似性,實現跨模態理解,從而指導擴散模型實現文本圖像生成.
2改進噪聲估計網絡結合條件控制的擴散模型
擴散模型通過模擬擴散過程,將數據逐步轉化為噪聲,然后學習逆向過程,從噪聲中逐步恢復出原始數據,實現高質量的生成效果,近年來在文本圖像生成領域取得了顯著的效果.
2.1 正向擴散過程
擴散模型作為一類基于概率生成模型的深度學習方法,分為正向和逆向兩種擴散過程.正向過程是一個逐漸加噪的過程.模型添加的是高斯噪聲,高斯噪聲是一種具有正態分布的噪聲,其均值通常為0.通過逐步加噪,將圖像轉換為完全的高斯噪聲圖.正向擴散和逆向擴散過程如圖2所示.
圖1擴散模型文本生成圖像原理
Fig.1Schematic of text-to-image generation using diffsion model

圖2正向擴散與逆向擴散
Fig.2Forward diffusionandbackward diffusion

擴散模型中的加噪過程是在圖像中不斷添加噪聲,噪聲的添加方式是重中之重.其中, xt 與 xt-1 的關系式為

擴散模型基于馬爾可夫定理, t 時刻的分布只和t-1 時刻有關,所以式(1)中僅出現 xt-1 ,沒有 xt-2 等. αt 為經驗常量,且 αt 會隨著 t 的增大而減小. z1 是服從標準高斯分布的噪聲.也就是說, xt 等于前一時刻的分布 xt-1 和標準高斯分布 z1 的權重之和.隨著步數的增大, αt 會逐漸變小,所以, xt-1 的權重會逐漸變小, z1 的權重會逐漸變大.因此,隨著步數的增大,噪聲的比重越來越大,前一時刻的分布占比越來越小.
隨著加噪步數的增加,如果想得到加噪步數為 Ψt 的分布,就需要計算 t-1 次,較為繁瑣

將式(2)代入式(1)可得:

再整理為

式(4)中
為兩個高斯分布相加,計算可得:


推導可得相加之后的高斯分布為
N(0,σ12I)+N(0,σ22I)~N(0,(σ12+σ22)I).
將式(5)(6)代人式(7)可得:

其中:

由式(9)可得:

綜上所述,可得:

其中:

q(x0) 是真實數據分布(即大量的真實圖像),從該分布中采樣可以得到一張真實的圖像 x0~ q(x0) .定義正向過程為 q(xt∣xt-1) ,將隨機產生的且服從高斯分布的噪聲樣本添加到其中可得:

根據上述公式推理可得:

2.2 逆向過程
擴散模型的逆向擴散過程是去除噪聲的過程,前文已經推導如何計算出 q(xt∣xt-1) ,并且可以得到任意步數下的 xt .現需要計算 pθ(xt-1∣xt) ,可以使用貝葉斯公式:

引入新的變量 x0

化簡可得:

其中:





又知高斯分布的概率密度函數為

其中: μ 表示方差; σ 為均值.
將式(18)—(20)代入式(15)可得:


已知:

根據 αt 分別可以計算出均值和方差,分別為


由式(11)可得:

代人整理可得:

其中, zt 是一個噪聲,用神經網絡進行擬合.在正向擴散過程的每次迭代中,以高斯噪聲分布中采樣得到的噪聲記錄為標簽來訓練模型,讓模型根據 xt 來預測 zt ,根據 zt 來計算t-1時刻分布的均值,其中方差為定值,則可以根據 χt 時刻求得t-1時刻的分布.
2.3 改進噪聲估計網絡
2.3.1改進殘差塊
在擴散模型的訓練流程中,梯度消失或爆炸的問題時常會出現.為了有效規避這類問題,模型通常會引人ResBlock[25]作為網絡傳遞的“橋梁”,它正是構建ResNet的核心組件.在模型導人并處理訓練數據的過程中,通過對數據的精準擬合與合理的正則化手段,可以確保模型在未見過的數據上同樣展現出強大的泛化能力.
由此可見,模型的擬合能力與泛化能力之間存在著密切的關聯.具體而言,模型的擬合能力由其容量所決定:容量越大,擬合能力自然越強.然而,當模型容量過高,尤其是在處理復雜任務時,雖然訓練誤差會持續下降,但泛化誤差卻可能不降反升,這一現象如圖3所示.
圖3模型誤差與模型容量關系
Fig.3Relationship between model errorand model capacity

圖3所顯示的最優容量點左邊模型容量小,處于欠擬合狀態,右邊模型容量大,處于過擬合狀態.一般來說,模型的參數量越大,模型的容量就越大,對于兩個由相同基礎網絡層構建的模型而言,層數較深的模型相較于層數較淺的模型有著更大的模型容量.這也意味著層數較深的模型在訓練過程中的訓練誤差是較低的.事實上,深層模型相較于淺層模型更難被優化,所以導致深層模型對比淺層模型有著更高的訓練誤差.
假設淺層模型是在該數據集上的最優網絡,用深層模型去訓練,訓練開始時將淺層模型的參數復制給了深層模型,那么優化算法能夠將深層模型的其他卷積層訓練成恒等映射以達到在該數據集上的最優結果.可以用式(28)(29)表達.
將某一層網絡的映射記為 H(x) ,由參數 θ 控制,使得 H(x)=x ,將其改寫成:
H(x)=F(x)+x.
ResBlock假設學習的是一個等于0的函數,因此 H(x)=F(x)+x 可以更好地優化深層模型, F(x) 可表達為
F(x)=H(x)-x.
如圖4所示,傳統的ResBlock塊的跳躍鏈接使用了恒等映射的方式,即直接將輸入與輸出相加.這樣設計的ResBlock塊通常會出現內部協變量偏移(internalcovariateshift)的問題,即每一層的輸入分布會在訓練過程中發生變化.
為此,本文設計了一種新的殘差塊.選擇在ResBlock塊中增加了BN(BathNormalization),在網絡的每一層對輸入數據進行歸一化處理,使得數據的分布具有相同的均值和方差,后層網絡不必適應底層網絡中的輸入變化,實現層與層之間的解耦,這樣網絡中每層輸入數據的分布變得更穩定,從而增加學習速度.添加了BN的模型更容易收斂,泛化能力也更強.
圖4殘差塊 Fig.4 Residual block

新型殘差塊保留原本的卷積層以提取特征、保持空間結構和減少模型參數量.選擇ReLU函數作為模型的激活函數,它是一個分段線性函數 F(x)= max(0,x) ,其結構較為簡單,計算非常高效,能在一定程度上加速訓練,而且比較容易地插入到模型中.選擇將BN和激活函數放在卷積之前,新型殘差塊的具體結構如圖5所示.
圖5改進后的殘差塊 Fig.5Improved residual block

改進的殘差塊在反向傳播中,梯度可以完全往回傳導,不會出現梯度消失的情況.用式(30)驗證,定義 xL 是深層 L 層的單元,損失函數是 ε ,公式如下:

根據鏈式法則,損失函數回傳到 L 層可以拆分為
以及
可以保證損失函數返回 L 層,
可以保證損失函數傳遞到 L 層時梯度不會為0.
在網絡預測噪聲過程中,將其與時間 χt 對應的正弦位置編碼一起送入網絡中進行訓練,計算 χt 時刻的噪聲圖像,可以預測噪聲,并且和實際噪聲進行擬合,不斷更新權重.
2.3.2 改進網絡結構
為了提高噪聲估計網絡性能,提高生成圖像的質量,選擇在噪聲估計網絡中引入輕量化卷積注意力模塊CBAM(ConvolutionalBlock Attention Mod-ule)[26],它是一種用于卷積神經網絡的注意力模塊,可以增強模型對圖像特征的建模能力.在網絡中間層添加CBAM,同時考慮了通道注意力和空間注意力,有選擇地調整不同通道和空間位置的特征響應,從而提高模型的性能.同時,CBAM可以使網絡更好地理解圖像的特征,提升對重點部分的關注度,且在處理時保留圖像的細節信息.由于CBAM設計得非常靈活,可以很容易地加到模型中去.
CBAM核心組成部分包括兩個模塊:通道注意力模塊和空間注意力模塊.通道注意力模塊通過學習通道間的關聯性來調整通道特征的權重,而空間注意力模塊則通過學習特征圖中不同空間位置的關聯性來調整空間特征的權重.這兩個模塊的結合使得CBAM注意力機制能夠更全面地關注圖像中的重要信息.
在訓練過程中,CBAM首先對輸入的特征進行特征壓縮,也就是通過最大池化以及平均池化,將每個通道壓縮成一個單獨的值,分別代表最大值和平均值.接著通過一個兩層的MLP將通道數降維以減少參數量,再升維恢復.最后將最大池化和平均池化得到的特征圖相加并計算得到每個通道的權重系數,得到的特征圖通過通道壓縮和特征卷積計算出每個空間上的權重系數.CBAM的結構如圖6所示.
假設輸人是 F∈?{Rc×H×W} Mc∈{Rc×1×1} 是通道注意力模塊的一維卷積,輸出的通道權重數據為c×1×1 ,則有:

其中: F′ 是通道注意力輸出; MS∈{R1×H×W} 是空間注意力模塊的二維卷積.將通道注意力輸出結果與空間注意力結果進行集合的交運算后得到輸出結果F′′ :CBAM作為一個輕量化模塊可以直接嵌入到網絡結構中,不需要額外的參數或者計算,可以有效提升模型性能.改進后的噪聲網絡估計結構如圖7所示.
2.4結合條件控制
在實際文本生成圖像中,如果單從文本提示出發,很難精確地表達復雜的空間布局、人物姿勢或者物品形狀,因此生成一個符合預期的圖像需要大量的嘗試.為此,在改進后的網絡結構上加入Control-Net[27] 模型,提前鎖定預訓練的噪聲預測網絡的參數,克隆到控制網絡的可訓練副本中,在已經鎖定的網絡上引入條件信息,可以達到對預訓練網絡優化的作用.
為了擴散模型的深層特征中不會加入有害噪聲,以及可訓練副本在訓練中不被噪聲所破壞,將可訓練副本和鎖定模型用零卷積層連接,權值初始化為零,可以在訓練過程中持續增長.具體結構如圖8所示.
圖8中, x 與 y 是二維特征圖, x∈Rh×w×c ,其中,h 為長度, w 為寬度, c 為通道數.將ControlNet添加到預訓練的神經網絡塊中,且不改變原有神經塊中的參數 θ ,函數 f 表示神經網絡塊操作,對于殘差塊,有公式如下:

函數 z 為權重和偏置初始化為零的 1×1 卷積層,構建 θz1 與 θz2 為參數的卷積層, θc 為可訓練副本的參數,可得:
yc=f(x;θ)+z(f(x+z(c;θz1);θc);θz2).
式中,“ + ”表示特征相加
在初始化訓練中,由于零卷積層的權重和偏置參數都被初始化為零,因此

圖6CBAM結構Fig.6 CBAM structure

圖7改進后的噪聲估計網絡結構 Fig.7Improved noise estimation network structure

圖8條件控制結構Fig.8Conditional control structure

同時,由于上述設置,前饋過程中不受任何影響,有害噪聲不會影響神經網絡層.又因為 z(f(x+ z(c;θz1):θc):θz2) 為零,添加后的神經網絡可以接受圖像為輸入條件.
在經過反向傳播后,模型中的零卷積層通過學習過程逐漸變為優化值,變為非零并影響輸出.假設零卷積層為
y=ωx+b.
其中: w 和 b 分別是權重和偏差; x 是輸入特征.每一項的梯度

分別表示零卷積層 y 對權重求偏導數 ?y 對輸人特征的求偏導數,以及 y 對偏差求偏導數,結果分別為輸入特征、權重以及1.如果權重 w 為零且輸入特征 x 不為零,則

如果權重為零且輸入特征不為零,則輸入特征的梯度為零,權重和偏差的梯度不為零,利用梯度下降和鏈式法可知在一步訓練之后,輸入特征的梯度也為非零.這樣可以避免在訓練的數據集過小時發生過擬合.由于鎖定了模型的參數,不需要對模型進行訓練,在加快訓練速度的同時不會對模型有任何影響,且每次優化都會讓模型的性能提升.引入ControlNet后模型推理流程如圖9所示.
3實驗結果及分析
3.1 數據集
本文在CelebA- ?HQ[28] 數據集中部分數據上進行訓練,驗證文本生成圖像任務的有效性.該數據集有超過3萬張人臉圖像,包含不同的姿態、表情、光照等多種條件變量,且每張圖像都有對應的標簽.與目前的領先方法 KNN-Diffsuion[29]、 CogView2[30] 、text-StyleGAN[31]、Simple diffusion[32]進行對比實驗,并且對實驗結果做了定性與定量分析.
圖9改進后模型流程
Fig.9Improved model processes

3.2 實驗細節
本文使用較為先進的LatentDiffusion模型作為預訓練的基礎模型.為了讓模型的訓練速度和收斂速度處于較高水準且保證模型在訓練過程中不會發散或者出現局部最小的問題,將模型的學習率設置為0.0003,添加標準差為0.35的高斯噪聲,擴散步長選定為 t=500 為了保證模型最優,選擇批次樣本數量為8.實驗選擇深度學習框架Pytorch(1.7.0),使用的cuda版本為11.0,Python版本為3.8.5.
3.3 定性分析
本文從3個方面對原有的LatentDiffusion模型進行改進,分別是改進殘差模塊、改進噪聲估計網絡結構以及結合條件控制網絡.為了保證公平性,對比實驗將不采用ControlNet結構.
從可視化角度對改進后的模型效果與現有的先進方法進行對比,實驗結果如圖10所示.
從圖10可以看出,KNN-Diffusion生成圖像的細節不清晰,顯得虛假不真實.例如:第2列第1行,生成小狗臉部形狀怪異,嘴巴處明顯和實際不吻合;第2列第4行,生成小貓的條紋怪異,細節處光影做得不好.Simplediffusion同樣如此,第3列第1行生成小狗姿勢奇怪,出現多足;第3列第3行生成玫瑰花質量遠低于真實圖像;第3列第5行,生成熊貓腰部出現不明異常黑條,與實際不符.CogView2生成的圖像質量普遍較低,特別是第4列第1、第5行.text-StyleGAN生成圖像質量不穩定,第5列第3行的玫瑰花、第5列第4行的小貓,生成質量都較差.而改進后的方法,無論是光影效果、圖像質量,還是細節特征,都優于對比方法.
3.4 定量分析
為了客觀分析文本生成圖像的質量,采用弗雷謝特感知距離FID(FrechetInceptionDistance)和感知得分IS(InceptionScore)以及結構相似性指數SSIM(StructuralSimilarity)這三種度量標準,來比較生成圖像和真實圖像之間的相似程度以及多樣性.
簡單來說,生成圖像相似度越高,表示圖像包含的細粒度信息越多,生成的圖像就更加真實.在計算FID時,首先從真實數據分布和生成模型中分別抽取一組樣本,通過預訓練Inception網絡中的中間層特征之間的距離,以及協方差矩陣之間的距離來度量兩者的相似度.FID計算公式如下:

IS則是對生成的圖像進行分類,在計算每個類別預測概率的均值和方差,加權平均后就會得到IS值.IS值越高,表示生成圖像的質量和多樣性越好,具體公式如下:

SSIM更符合人眼的直觀感受,SSIM的值越大,表示生成的圖像越接近真實圖像,具體公式如下:

如表1所示,與目前主流模型相比,本文方法的FID平均下降 36.4% ,IS和SSIM分別平均提高了11.4% 和 3.9%
3.5結合條件控制
從圖11可以看出,引入ControlNet模型的擴散模型有效地實現了定向動作的圖像生成,極大地方便了特定動作的文本生成圖像任務,避免了生成特定圖像的多次循環試錯.但生成后的圖像質量還有很大改進空間.
圖105種模型生成圖像對比
Fig.10Comparison of images generated by five models

表15種模型生成效果的定量對比
Table1 Quantitative comparison of generation performancebetween fivemodels

3.6 消融實驗
本文從2個維度對噪聲估計網絡進行改進.為了確保每個維度都有效,針對不同的維度進行消融實驗.首先將僅增加CBAM的擴散模型與原有的La-tentDiffusion模型進行對比實驗,結果如圖12所示.
如圖12所示,第1行為僅添加CBAM的擴散模型,第2行為未改動的原始模型,可以看到,在輸入文本引導信息相同的情況下,添加CBAM的模型在生成圖像細節、光影效果、整體構圖上都明顯處于較高水平,生成圖像中斑馬的形態、條紋等都與真實圖像相差不大.反觀原始模型,如第2行第1列,近景生成斑馬有黑白條紋,遠景則沒有;第2行第2列,斑馬腿部上半部分有條紋,下半部分沒有;第2行第3、第4列,會出現多足以及腿部模糊、連接等情況.這表明添加CBAM的擴散模型,通過運用通道注意力和空間注意力,有效地提高了生成圖像的質量,避免了一些細節錯誤.
圖11結合條件控制的生成圖像

Fig.11Generatingimageswith conditional control
圖12添加CBAM與原模型對比
Fig.12Comparison of models with and without CBAM

為了嚴謹可靠,防止主觀看法影響結果,對上述2組數據進行定量分析,結果如表2所示.可以看出,添加CBAM后,FID、IS、SSIM指標均有優化
將改進殘差塊的擴散模型與原有的LatentDiffusion模型進行對比實驗,結果如圖13所示.
表2消融實驗生成效果的定量對比
Table2Quantitative comparison of generation performanceinablationexperiments

如圖13所示,第1行為僅改進殘差模塊的擴散模型,第2行為未改動的原始模型.可以看到,在輸入文本引導信息相同的情況下,改進了殘差模塊的模型在生成圖像細節、光影效果、整體構圖上都明顯處于較高水平,如第1行第2、第5列的光影效果幾乎可以假亂真,第1行第2列生成圖像,皮毛紋理較為真實.反觀原始模型,如第2行第1列,北極熊爪子個數形態都出現扭曲變形,第2行第2列整體形態怪異,第2行第3、第4列會出現多趾,以及腿部姿勢怪異等情況.這表明改進殘差模塊的擴散模型,能讓模型提取出輸人數據中更豐富的特征信息,提高模型的性能,讓模型在進行深層訓練時可以生成較好質量的圖像,更符合實際.
圖13改進殘差模塊模型與原模型對比
Fig.13Comparison between diffusion model with improved residual block and original model

定量分析結果如表3所示,可以看出,改進后模型的FID、IS、SSIM指標均有優化.
表3消融實驗生成效果的定量對比
Table3Quantitative comparison of generation performance inablation experiments

4 結束語
本文針對文本生成圖像任務,提出一種基于擴散模型改進網絡結構結合條件控制的生成方法.設計新型結構的殘差模塊并且在噪聲估計網絡中添加輕量級的注意力模塊CBAM,提高了生成圖像的能力和效果.改進后的殘差塊可以有效避免模型在進行深層訓練時性能下降,同時解決了梯度消失或梯度爆炸的問題.通過應用通道注意力與空間注意力模塊,讓模型更好地關注到圖像中的重要信息,提高了模型的性能.結合ControlNet網絡,有效地實現了特定人物姿勢、空間布局的文本生成任務.對比實驗結果表明,算法有效地實現了特定姿勢控制,并且生成圖像的結構更加合理,圖像也更加真實.
擴散模型的主干網絡仍有很大的改進空間,未來將思考是否將原有的U-Net模型與當前比較熱門的 Transformer結合,進一步提高模型生成速度與生成圖像質量.另外,現有的模型優化基本沿用標準的MSEloss,可以考慮借鑒NLP社區在強化學習方面的經驗.
參考文獻References
[1]Zhu XJ,Goldberg AB,Eldawy M,et al.A text-to-picture synthesis system for augmenting communication [C]// Proceedings of the 22nd National Conference on Artificial Intelligence.July22-26,2007,Vancouver,British Columbia,Canada.ACM,2007:1590-1595
[2]陳培培,邵曦.基于生成對抗網絡的音樂標簽自動標 注[J].南京信息工程大學學報(自然科學版),2018, 10(6) :754-759 CHEN Peipei, SHAO Xi. Music auto-tagging based on generative adversarial networks[J]. Journal of Nanjing Universityof Information Scienceamp; Technology(Natural Science Edition),2018,10(6):754-759
[3]Michalczak M,Ligas M. Short-term prediction of UT1- UTC and LOD via dynamic mode decomposition and combination of least-squares and vector autoregressive model[J]. Reports on Geodesy and Geoinformatics, 2024,117(1) :45-54
[4]YiXP,Tang L F,ZhangH,et al.Diff-IF:multi-modality image fusion via diffusion model with fusion knowledge prior[J].Information Fusion,2024,110:102450
[5]杜洪波,袁雪豐,劉雪莉,等.基于擴散過程的生成對 抗網絡圖像修復算法[J].南京信息工程大學學報, 2024,16(6) :751-759 DU Hongbo,YUAN Xuefeng,LIU Xueli,et al.Generative adversarial network image restoration algorithm based on diffusion process[J]. Journal of Nanjing University of Information Science and Technology,2024,16(6) :751-759
[6]郝文月,蔡懷宇,左廷濤,等.基于擴散模型的自監督 預訓練血管內超聲圖像分割方法[J].激光與光電子 學進展,2024,61(18):365-373 HAO Wenyue,CAI Huaiyu,ZUO Tingtao,et al. Self-supervised pre-training for intravascular ultrasound image segmentation method based on diffusion model[ J].Laser amp; Optoelectronics Progress,2024,61(18) :365-373
[7] 錢楓,胡桂銘,祝能,等.基于改進擴散模型的圖像去 雨方法[J].重慶理工大學學報(自然科學),2024,38 (1) :59-66 QIANFeng,HU Guiming,ZHU Neng,etal.Researchon image de-raining method based on improved diffusion model[J].Journal of Chongqing University of Technology (Natural Science),2024,38(1) :59-66
[8]Zeng Y Y,Chen X Y,Zhang Y,et al. Dense-U-Net: densely connected convolutional network for semantic segmentation with a small number of samples[C]//Tenth International Conference on Graphics and Image Processing(ICGIP 2018).December 12-14,2018,Chengdu, China. SPIE,2019:159
[9]Wu F,Qi Z. Multi-layer stacks of GaN n -Al GaN self0.5 assembled quantum dots grown by metal-organic chemical vapor deposition[C]//SPIE Conference on Applied Optics and Photonics.July 7-9,2019,Beijing,China.CSOE amp; SPIE,2019:84-92
[10]Han JY,Liu JW.HfGAN-CN:T2I model via text-image hierarchical attention fusion[C]//2022 34th Chinese 2022,Hefei,China. IEEE,2022:6112-6117
[11]Xu T,ZhangPC,HuangQY,et al.AttnGAN:finegrained text to image generation with atentional generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Patern Recognition. June 18-23,2018,Salt Lake City,UT, USA. IEEE,2018: 1316-1324
[12]LiB,Qi X,Lukasiewicz T,et al. Controllable text-to-image generation[J].Advances in Neural Information Processing Systems,2019,32(18) :2065-2075
[13] Tan H C,Liu XP,Li X,et al. Semantics-enhanced adversarial nets for text-to-image synthesis[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019,Seoul,Korea. IEEE,2019:10500-10509
[14] Zhang H,Yang S Y,Zhu H Q. CJE-TIG: zero-shot crosslingual text-to-image generation by Corpora-based joint encoding[J].Knowledge-BasedSystems,2022, 239 :108006
[15] Zhang H, Yin W,Fang Y,et al. ERNIE-ViLG: unified generative pre-training for bidirectional vision-language generation[J].arXiv e-Print,2021,arXiv:2112.15283
[16] Ding M,Yang Z,Hong W,et al. CogView:mastering textto-image generation via transformers[J].Advances in Neural Information Processing Systems,2021,34: 19822-19835
[17]Sun P Z,Jiang Y,Chen S F,et al. Autoregressive model beats diffusion:Llama for scalable image generation[J]. arXiv e-Print,2024,arXiv:2406.06525
[18] Sohl-Dickstein J,Weiss E A,Maheswaranathan N,et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning.July6-11,2015,Lille,France.ACM,2015: 2256-2265
[19] Nichol A,Dhariwal P,Ramesh A,et al. Glide: towards photorealistic image generation and editing with textguideddiffusion models[J].arXive-Print,2021, arXiv:2112. 10741
[20]Sehwag V,Hazirbas C,Gordo A,et al.Generating high fidelity data from low-density regions using diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 18-24, 2022,New Orleans,LA,USA.IEEE,2022:11482-11491
[21]Austin J,Johnson D D,Ho J,et al. Structured denoising diffusion models in discrete state-spaces[J].arXiv e-Print,2021,arXiv:2107.03006
[22] Jolicoeur-Martineau A,Piché-TailleferR,desCombesR T,et al. Adversarial score matching and improved sampling for image generation[J].arXiv e-Print,2020,arXiv : 2009. 05475
[23] KimD,Na B,Kwon SJ,etal.Maximum likelihood training of implicit nonlinear diffusion models[J].arXiv ePrint,2022,arXiv:2205.13699
[24] Rombach R,Blattmann A,Lorenz D,etal.High-resolution image synthesis with latent diffusion models[C]// Proceedings of the IEEE/CVF Conference on Computer VisionandPatternRecognition.June18-24,2022,New Orleans,LA,USA.IEEE,2022:10684-10695
[25] ZhangSC,ShenHC,DuanSK,etal.Positionadaptive residual block and knowledge complement strategy for point cloud analysis[J].Artificial Intelligence Review, 2024,57(5):129
[26] Mekruksavanich S,Jitpattanakul A.Deep residual networkwith a CBAMmechanismfortherecognition of symmetricand asymmetric human activity using wearable sensors[J].Symmetry,2024,16(5):554
[27] Qin Z.A multimodal diffusion-based interior design AI with ControlNet[J].Journal ofArtificial Intelligence Practice,2024,7(1):25-27
[28] KarrasT,AilaTM,LaineS,etal.Progressivegrowingof GANs forimproved quality,stability,and variation[J]. arXive-Print,2017,arXiv:1710.10196
[29] SheyninS,AshualO,PolyakA,etal.KNN-diffusion:imagegenerationvialarge-scale retrieval[J].arXiv e-Print,2022,arXiv:2204.02849
[30] DingM,ZhengWD,HongWY,etal.CogView2:faster andbetter text-to-image generation via hierarchical transformers[J].arXive-Print,2022,arXiv:2204.14217
[31] Zhang Y,Lu H C.Deep cross-modal projection learning forimage-text matching[C]//Proceedings of the EuropeanConference on Computer Vision 2O18.Cham:Springer International Publishing,2018:707-723
[32] HoogeboomE,HeekJ,SalimansT,etal.Simplediffusion [C]//Proceedings of the 4Oth International Conference onMachineLearning.July23-29,2023,Honolulu,Hawaii,USA.ACM,2023:13213-13232
Text-to-image generation based on improved diffusion model combined with conditional control
DU Hongbo1XUE Haoyuan1ZHU Lijun2 1School of Science,Shenyang University of Technology,Shenyang 11O870,China 2Schoolof InformationandComputing Science,Northern Universityfor Nationalities,Yinchuan75oo21,China
AbstractAnoveltext-to-image generation method based on difusion model is proposed toaddress the problems of lowimage fidelity,complex generationoperation,and narrow applicability tospecifictask scenarios inexisting textto-image generation methods.Thisapproach takes adifusion model as the backbone networkand designs a novel residual block structure to enhance generation performance.Additionally,a CBAM(Convolutional Block Attention Module)is integrated intothe noise estimation network to improve themodel'sabilitytoextractkeyimage information,thereby improving output quality.By combining conditional control networks,the approach achieves precise text-to-image generation with user-specific poses.Qualitative and quantitative analyses,along with ablation experiments,were conducted on the CelebA HQ dataset against methods such as KNN-Difusion,CogView2,textStyleGAN,and Simple difusion.Evaluation metrics and generation results demonstrate that,the proposed method effectively improves generation quality,with an average decrease of 36.4% in FID(the Frechet Inception Distance),average increases of 11.4% in IS(Inception Score)and 3.9% inSSIM(Structural Similarity).These results validate theeffctivenessof theproposed approach.Furthermore,by integrating the ControlNet framework,the model enables text-to-image generation with controllable directional poses.
Key wordsdifusion model;text-to-image generation;conditional control;residual block ;convolutional block at.tention module(CBAM)