









摘 要:生成對抗網絡(generative adversarial network,GAN)已成為圖像生成問題中常用的模型之一,但是GAN的判別器在訓練過程中易出現梯度消失而導致訓練不穩定,以致無法獲得最優化的GAN而影響生成圖像的質量。針對該問題,設計滿足Lipschitz條件的譜歸一化卷積神經網絡(CNN with spectral normalization,CSN)作為判別器,并采用具有更強表達能力的Transformer作為生成器,由此提出圖像生成模型TCSNGAN。CSN判別器網絡結構簡單,解決了GAN模型的訓練不穩定問題,且能依據數據集的圖像分辨率配置可調節的CSN模塊數,以使模型達到最佳性能。在公共數據集CIFAR-10和STL-10上的實驗結果表明,TCSNGAN模型復雜度低,生成的圖像質量優;在火災圖像生成中的實驗結果表明,TCSNGAN可有效解決小樣本數據集的擴充問題。
關鍵詞: 生成對抗網絡;圖像生成;Transformer;Lipschitz判別器
中圖分類號: TP183文獻標志碼:A 文章編號: 1001-3695(2024)04-038-1221-07
doi: 10.19734/j.issn.1001-3695.2023.07.0357
TCSNGAN: image generation model based on Transformer and CNN with spectral normalization
Qian Huimin, Mao Qiuling, Chen Shi, Han Yixing, Lyu Benjie
Abstract:GAN has become one of the commonly-used image generation models. However, the discriminator of GAN is prone to the vanishing gradient problem in the training process, which leads to the instability of training. So that it is difficult to obtain the optimal GAN, and the quality of generation image is poor. To solve this problem, it designed a CNN with spectral normalization which satisfied the Lipchitz condition as the discriminator. Together with the Transformer generator, this paper proposed an image generation model, namely TCSNGAN (Transformer CSN GAN). The network structure of discriminator was simple, which could solve the problem of training instability of GAN model, and could configure the number of adjustable CSN modules according to the image resolution of data sets to achieve the optimal performance of the model. Experiments on public datasets CIFAR-10 and STL-10 show that the proposed TCSNGAN model has low complexity, and the generated image quality is good. And the experiments of fire image generation task demonstrates the effectiveness of small-sample dataset augmentation. Key words:generative adversarial networks; image generation; Transformer; Lipschitz discriminator
0 引言近年來,生成式模型在圖像生成領域已取得了一定進展。基于生成式模型的圖像生成,旨在采用生成式模型學習圖像的像素值概率分布規律,繼而預測生成相似圖像。但是,現有生成式模型的性能在對分布規律復雜的圖像建模時仍存在不足[ 2]。目前常用的生成式模型有自回歸模型、變分自編碼器、流生成模型和生成對抗網絡等。相比于其他模型,GAN無須知道顯式的真實數據分布,只需要輸入隨機噪聲便可以生成接近于真實圖像的樣本[ 3,4]。GAN及其改進模型已成為圖像生成問題常用的模型之一[5]。2014年,Goodfellow等人[6]提出基于多層感知機 (multilayer perceptron,MLP)的生成對抗網絡MLP-GAN。該模型由生成器和判別器兩部分組成,前者捕獲數據分布生成符合真實分布的圖像,而后者則判別輸入是真實圖像還是生成器產生的圖像,兩者進行最小最大博弈,直至納什平衡。但是,MLP-GAN的判別器訓練很不穩定,以致模型生成的圖像與真實圖像差異較大。隨著卷積神經網絡的發展,Radfor等人[7]提出了深度卷積生成對抗網絡(deep convolution generative adversarial network,DCGAN),其判別器和生成器均采用CNN,DCGAN既提高了生成圖像的質量,也提高了訓練的穩定性。BigGAN[8]、StyleGAN[9]這些模型生成的圖像質量均逐漸接近真實圖像的質量。
2017年,Vaswani等人[10]提出Transformer,且已廣泛應用于計算機視覺領域,如目標檢測的DETR(detection with Transformers)模型[11]、視覺分類的ViT(vision Transformer)模型[12]等。相較于CNN,Transformer的優勢是可以建立圖像的全局依賴關系,從而獲取更多的圖像全局信息[13]。受此啟發,Jiang等人[14]提出生成器和判別器均使用Transformer的圖像生成模型TransGAN。鑒于Transformer對圖像全局信息的表達能力,TransGAN能在48×48分辨率數據集下生成質量較好的圖像。但是,它的計算量很大,訓練時間很長。另一方面,基于GAN的圖像生成模型易出現訓練不穩定。研究發現,當生成圖像和真實圖像的像素值分布不重疊或者重疊部分可以忽略不計時,判別器模型訓練時易出現梯度消失,從而導致GAN訓練不穩定[15]。因此,Arjovsky等人[16]提出使用Wasserstein距離判別真實數據和生成數據的分布是否相同,以解決以上情況下判別器模型在訓練時易出現梯度消失的問題。之后,Gulrajani等人[17]提出在Wasserstein距離中增加梯度懲罰項,以進一步提高判別器訓練的穩定性。Miyato等人[18]提出在判別器模型訓練過程中,對參數矩陣進行譜歸一化,使得模型參數梯度被限制在一個范圍內,以此實現判別器的穩定訓練。進一步地,Zhou等人[19]提出欲保證GAN的判別器訓練穩定,本質上要使判別器的函數滿足Lipschitz 條件。TransGAN的判別器是Transformer,其模型函數不滿足Lipschitz條件,因此,TransGAN在訓練過程中易出現不穩定,從而不能獲得最佳模型。
針對上述問題,本文設計了模型結構簡單且滿足Lipschitz條件的判別器——譜歸一化卷積神經網絡(CNN with spectral normalization,CSN),結合具有更強表達能力的Transformer作為生成器,由此提出基于Transformer和CSN的圖像生成模型TCSNGAN(Transformer-and-CSN-based GAN)。在公共數據集CIFAR-10和STL-10上的實驗表明,TCSNGAN模型復雜度較低,生成的圖像質量高。本文工作主要貢獻為:
a)針對現有GAN的判別器易在訓練過程出現不穩定的問題,設計了譜歸一化卷積神經網絡判別器,并在判別器結構中設置了可調節CSN模塊數,為不同分辨率數據集進行最佳配置,以在最簡潔結構下生成最佳質量的圖像;設計的CSN判別器結構簡潔,滿足Lipschitz 條件,訓練穩定。
b)提出了TCSNGAN圖像生成模型,采用Transformer生成器、CSN判別器;Transformer生成器的自注意力機制使模型具有更強的表達能力;結構簡潔的CSN判別器使得圖像生成模型的計算復雜度低,且性能良好。
c)在CSN判別器訓練過程中,對生成器的生成圖像和真實圖像均進行DiffAugment數據增強,提高了生成圖像的質量。
1 生成式網絡的Lipschitz判別器
生成式網絡的期望訓練過程是交替訓練生成器(generator,G)和判別器(discriminatory,D)。生成器的目標是捕獲真實圖像的分布,以便生成更接近真實圖像的新圖像;判別器的目標則是盡可能地區分真實圖像和生成圖像。生成器和判別器之間進行兩者極小極大博弈,直至收斂至納什平衡點,即生成器達到最小值,判別器達到最大值[11]。
假設生成器G的輸入為隨機噪聲向量 z ,G( z)表示噪聲z 經生成器G生成的圖像,其數據服從分布p z ;x為真實圖像,其數據服從分布px;函數D(·)表示判別器D的輸入“·”為真實圖像的概率。GAN的優化過程可由以下最大-最小值函數V(D,G)[20]表示:
其中:E是期望函數。判別器和生成器的優化目標完全相反,前者期望V(D,G)達到最大值,后者期望V(D,G)達到最小值,因此需要小心平衡判別器和生成器的訓練程度[16]。
平衡判別器和生成器的訓練程度并不容易,訓練過程中常會出現以下兩種情況[21]:a)判別器的判別能力過強,導致生成器過早收斂,由此,生成器不再進行多樣化嘗試,只生成重復模式的圖像,此時GAN的訓練過程出現模式崩塌[22];b)生成器的生成能力過強,導致判別器過早收斂,由此判別器無法指導生成器的訓練,此時GAN的訓練過程提前終止。對此,Zhou等人[19]提出欲保證GAN的判別器訓練穩定,本質上要使判別器模型的函數滿足Lipschitz條件。滿足Lipschitz條件的判別器稱為Lipschitz判別器。
則稱f符合Lipschitz條件。其中,dX、dY分別是實數集子集X、Y上的度量,滿足Lipschitz條件的最小常數K為函數f的Lipschitz常數。由以上定義可知,Lipschitz 條件限定函數f在某一局部區域的變化幅度不會超過Lipschitz常數K。對于神經網絡而言,如果其函數滿足Lipschitz條件,則其梯度的值也不會超過對應的Lipschitz常數K,由此在神經網絡函數的訓練過程中就不會出現梯度爆炸,這就可增強網絡訓練的穩定性。
WGAN首次提出采用權重剪枝方法使得GAN的判別器滿足Lipschitz條件[16]。但是,剪枝使得判別器權重矩陣的結構被破壞,以致WGAN收斂速度較慢[14]。Miyato等人[18]提出在訓練判別器時,通過譜歸一化操作將每一層網絡的權重矩陣限制在一個范圍內,從而使判別器函數滿足Lipschitz 條件。受此啟發,本文通過在CNN中引入譜歸一化層,設計譜歸一化卷積神經網絡判別器。
2 TCSNGAN模型鑒于Transformer對圖像中全局依賴關系的建模能力,并考慮生成式網絡的訓練穩定性問題,本文提出了一種新的生成式對抗網絡模型TCSNGAN,它由Transformer生成器和CSN判別器構成。
2.1 Transformer生成器Transformer生成器的結構如圖1所示。為了方便說明各部分輸入輸出向量尺寸的變化,以CIFAR-10數據集為例(數據集圖像尺寸為3×32×32)[23]。生成器的輸入是滿足正態分布的隨機噪聲向量,這里取向量的尺寸為1×256。需要說明的是,噪聲向量的維度不能太小,否則在圖像生成過程中易出現模式崩潰的現象。
首先,輸入的向量經全連接層(fully connected,FC)映射成維度為C×H×W(C=1024,H=8,W=8)的張量 T 0,位置編碼器(positional encoding)為 T 0中的每一個像素賦予一個可學習的位置編碼,并在后續處理中將 T 0中的每一個像素值及其位置編碼記為一個token。接著, T 0經線性展平操作(linear flatten)將所有像素展平,生成1×1×(1024×8×8)的序列張量 T1。然后,T1 被輸入N1個連續的Transformer編碼器(Transformer encoder)中進行特征表示的學習,輸出張量 T2。之后,T2 輸入Transformer循環體(TransCir),循環M次后,生成張量 T3,大小為1×1×(1024/16×32×32)。最后,T3由線性展平恢復操作(linear unflatten)重新拼接成尺寸為1024/16× 32×32的張量 T 4,并通過1×1的卷積操作(1×1 conv),獲得尺寸為3×32×32的輸出圖像 T5 。
Transformer生成器通過多頭自注意力機制提取信息,這一機制使其可以對輸入的上下文信息進行編碼,并且可以讓模型學習到不同tokens之間的依賴關系[24,25]。
2.1.1 Transformer編碼器Transformer編碼器的組成如圖1 所示,包含歸一化 (layer norm,LN) 層、多頭自注意力機制 (multi-head self-attention,MHSA)層、多層感知機(multilayer perceptron,MLP)層和dropout層。
LN層旨在對張量 T5 進行歸一化操作,獲得歸一化輸出Y。MHSA層的多頭自注意力機制運算則可以提取特征信息。MLP層由兩個FC層構成,其后的dropout層則可避免過擬合現象的產生。
需要說明的是,Transformer編碼器的個數與數據集的分辨率有關,圖像的分辨率越高,生成高質量圖像所需的Transformer編碼器的個數越多。以數據集CIFAR-10為例,取N1=5,N2=4。
2.1.2 TransCir循環體TransCir循環體由線性展平恢復、像素重組(pixel shuffle)、位置編碼、線性展平、Transformer編碼器組成。其中,像素重組操作是對輸入張量進行上采樣,以提高圖像的分辨率。TransCir循環體的個數也與數據集的分辨率有關,選取循環體個數M=2。
2.2 CSN判別器
2.2.1 CSN判別器的結構
CSN判別器的結構如圖2所示,它由殘差型網絡Res_CSN、多個CSN模塊、平均池化層(AvgPooling)和全連接層(FC)構成。需要說明的是,CSN模塊由3×3卷積層和譜歸一化層級聯而成,深紅色CSN模塊含ReLU激活函數層,其余不含。殘差型網絡Res_CSN的結構如圖2虛線框所示。其中的直聯結構由均值池化層(2×2 AvgPooling)、卷積層(1×1 conv)和譜歸一化層(spectral norm)構成。直聯結構使網絡能獲得更穩定且保留更多原圖信息的特征圖。譜歸一化層的數學表達為
2.2.2 CSN判別器是Lipschitz判別器
假設判別器網絡D(x)由n個多層神經網絡Di(x)(i = 2, …, n)構成,則第n個神經網絡的輸出Dn(x)可以表示為
如果要使n層判別器網絡滿足1-Lipschitz條件,就需要保證每一層權重矩陣的最大奇異值恒等于1。由式(3)可知,CSN判別器通過譜歸一化層將每一層的權重矩陣的最大奇異值恒等于 從而使CSN判別器的梯度大小被限制在1以內,但并沒有破壞權重矩陣的結構。因此,CSN判別器滿足Lipschitz 條件,能幫助提高TCSNGAN訓練的穩定性。進一步地,以STL-10[26]數據集為例,圖3對比了TransGAN的Transformer判別器、TCSNGAN的CSN判別器的訓練損失函數曲線。其中,縱坐標為損失函數值,橫坐標為模型訓練的次數。由圖3可知,CSN判別器的損失函數值在迭代1 500次之后基本穩定,而Transformer判別器的損失函數值在迭代2 500次之后仍然不穩定。
3 DiffAugment數據增強
深度神經網絡因參數眾多,對訓練數據的數量要求較高。在訓練數據不足的情況下,常采用數據增強操作擴充訓練集。常用的數據增強方法包括調整亮度、對比度、飽和度、色調等以降低模型對色彩的敏感性,或者隨機剪裁、隨機反轉等以降低模型對目標位置的敏感性[27]。但是,在訓練GAN模型時使用上述數據增強方法,反而會破壞生成器和判別器之間的微妙平衡,使得生成器性能大幅下降。Zhao等人[28]提出了一種可微分的數據增強方法DiffAugment,它可在數據增強的同時動態調節生成器和判別器之間的平衡,從而提升網絡性能。因此,本文在CSN判別器的訓練過程中也引入了DiffAugment數據增強。
DiffAugment的具體方法為:對真實圖像x和生成圖像G(z)進行可微分的數據增強T,T的可學習參數會隨著每一次梯度更新而動態變化。因此,基于DiffAugment數據增強,判別器的學習對象從真實圖像x和生成圖像G(z)的分布轉變為可微增強函數T(x)和T(G(z))的分布,并在每一次模型學習后動態變化。T隨著模型的變化而變化,可避免訓練過程中生成器性能的下降。
4 實驗結果與分析
4.1 數據集和實驗設置
實驗在CIFAR-10和STL-10數據集上進行。CIFAR-10數據集包含60 000張尺寸為32×32的圖像,50 000張訓練圖像和10 000張測試圖像。STL-10數據集則包含5 000張訓練圖像和100 000張無標簽圖像,尺寸48×48。
TCSNGAN模型的訓練過程如圖4所示。噪聲矩陣 Z 輸入Transformer生成器,得到生成圖像;繼而生成圖像和數據集中的真實圖像均輸入CSN判別器,判別器判斷兩幅圖像的相似度,并輸出f(x)。Transformer生成器的損失函數[14]為
其中:y為真實圖像或生成圖像的標簽,取值為1或-1;f(x)為判別器網絡的輸出值。需要說明的是,TCSNGAN的Transformer生成器模型借鑒了TransGAN的生成器模型(https://github.com/VITA-Group/TransGAN)。
實驗環境為Ubuntu 20.04,PyTorch深度學習框架,硬件為4塊RTX 3090顯卡。生成器和判別器的訓練均使用了Adam優化器,beta1為0,beta2為0.99。生成器的學習率為0.000 batchsize為128;判別器的學習率為0.000 15,batchsize為64。
實驗使用Inception Score(IS)[30]和Frechet Inception Distance(FID)[31]作為生成圖像質量的評價指標。IS通過圖像類別分類器來評價圖像的質量,圖像越清晰,類別越豐富,則IS的值越高。FID則通過計算生成圖像和真實圖像的分布距離來評價圖像的質量,FID值越小,則代表生成圖像越接近真實圖像。
4.2 實驗結果與分析
本文從以下幾方面開展實驗:確定CIFAR-10和STL-10數據集下的最佳CSN模塊數K;通過消融實驗驗證提出技術的有效性;從模型復雜度、生成圖像的質量角度,比較了TCSNGAN與已有模型。1)確定最佳CSN模塊數K
首先在CIFAR-10數據集(圖像尺寸為32×32)上進行枚舉實驗,確定最優的K值,如表1所示。當K=4時,IS值最大,FID值最小。此外,當Klt;2時,訓練判別器的損失函數很快收斂,說明在生成器與判別器的對抗過程中,生成器生成的圖像很容易就騙過了判別器,使得判別器過早收斂。當Kgt;5時,在判別器的訓練前期,損失函數基本不更新,且最后只能生成一些沒有意義的噪聲圖像。
進一步地,圖5給出了K=2, 3, 4時的生成圖像。由圖可知,當K=2時,大部分圖像無法肉眼觀察出它具體的類別,并且背景會和圖像混在一起。當K=3時,可以分辨出大部分圖像的類別,但生成的圖像有些還不完整并存在扭曲的現象。當K=4時,達到最佳生成圖像的質量,大部分圖像為完整清晰的類別。
然后在STL-10數據集(圖像尺寸為48×48)上進行枚舉實驗,確定最優的K值,如表2所示。當K=10時,IS值最大,FID值最小。此外,當Klt;6時,訓練判別器的損失函數過早收斂。當Kgt;11時,在判別器的訓練前期,損失函數基本不更新,且最后只能生成一些沒有意義的噪聲圖像。圖6給出了K=6, 8, 10時的生成圖像,由圖可知,當K=6時,生成圖像大部分沒有確切的形狀,只是顏色的堆積,并且較為模糊。當K=8時,圖像逐漸形成確定的形狀,少許圖像能夠分辨其類別。當K=10時,達到最佳生成圖像的質量,大部分圖像能夠分辨其類別并且更加清晰。綜上可知,當數據集中圖像的分辨率越高,判別器中可調節CSN模塊數K的最優值更大,也即分辨率更高圖像生成所需的判別器的結構更復雜。具體地,對于CIFAR-10和STL-10數據集來說,圖像的分辨率從32×32提高到了48×48后,CSN塊增加了7個。
2)消融實驗消融實驗驗證了在卷積神經網絡上增加譜歸一化層構成CSN判別器,及引入DiffAugment數據增強方法的效果。實驗結果如表3所示。其中,TCSNGAN(only CNN)表示采用Transformer的生成器網絡結構,但將判別器中CSN模塊后的譜歸一化層舍去。DiffAug(r)、DiffAug(f)、DiffAug(r+f)分別表示僅在真實圖像上、僅在生成圖像上和在生成圖像與真實圖像上均使用DiffAugment數據增強。
由表3可知,與不采用譜歸一化層的TCSNGAN(only CNN)相比,TCSNGAN在CIFAR-10數據集上的IS提高了16.9%,FID降低了48.6%;在STL-10數據集上IS提高了26%,FID降低了4.9%。進一步地,與TCSNGAN相比,在生成圖像和真實圖像集上均使用DiffAugment數據增強方法,在CIFAR-10數據集上IS提高了0.2%,FID降低了8.3%;在STL-10數據集上,IS提高了19.6%,FID降低了50.4%。因此,在CIFAR-10和STL-10數據集上采用譜歸一化和數據增強均對TCSNGAN生成的圖像質量有提高的作用,其中譜歸一化對IS的提高作用更為明顯,而數據增強則對降低FID值更有幫助。因為數據增強通過改變數據集的形狀顏色等特征,本質上擴充了原本數據集的大小,增強了判別器的泛化能力,所以生成圖像的多樣性得到了進一步的提高。此外,僅在真實圖像上使用DiffAugment數據增強,在CIFAR-10和STL-10數據集上均生成了具有一定質量的圖像,但效果不佳;僅在生成圖像上使用DiffAugment數據增強,在CIFAR-10和STL-10數據集上均生成了失敗的圖像,原因是使用數據增強后完全破壞了生成器生成圖像的規律,判別器無法從生成的圖像中學習到規律,導致生成器生成的圖像完全迷惑了判別器。兩組實驗證明了在進行數據增強時,需要同時維持生成器和判別器的微妙平衡,只維持其中一方會導致生成圖像的質量下降,而僅在生成圖像上使用數據增強,則會導致生成失敗的圖像。
3)模型復雜度對比TCSNGAN模型采用了Transformer生成器、CSN判別器,而TransGAN模型和ViTGAN則采用了Transformer生成器和Transformer判別器。通過比較這三種模型的復雜度,分別對模型的計算量FLOPs(floating point operations)和參數量Params進行統計,如表4所示。其中,G表示每秒進行1 000個浮點運算,M表示兆字節。
由表4可知,判別器的計算量占生成網絡模型總計算量的大部分,其中TransGAN和ViTGAN中Transformer判別器占總計算量的80%左右,TCSNGAN中CSN判別器占總計算量的46.76%,因此優化判別器的計算量是優化GAN計算量的關鍵。Transformer模型運用了多頭自注意力機制來提取圖像特征,需要對長序列的張量進行乘法運算,當序列張量的長度越長,其計算量會呈指數級擴大。例如,TCSNGAN與TransGAN具有相同的生成器,而前者的CSN判別器的計算量遠小于后者Transformer判別器的計算量,因此與TransGAN相比,TCSNGAN在CIFAR-10數據集上,FLOPs減少了62.05%,Params減少了9.71%;在STL-10數據集上,FLOPs減少了54.16%,Params減少了35.89%。綜上,與TransGAN和ViTGAN相比,復雜度更低的Trans-CSN模型可應用于更低性能的硬件設備,提高模型在實際場景中的普適性。
4)TCSNGAN與其他GAN模型的比較最后,比較了TCSNGAN與其他GAN模型的性能,如表5所示。其中,LN表示層規范化(layer norm),即GAN-LN為采用層規范化的GAN;WN表示權重規范化(weight norm),即GAN-WN為采用權重規范化的GAN;DiffAug表示采用DiffAugment數據增強。需要說明的是,除了TransGAN、ViTGAN和TCSNGAN外,其余GAN模型均使用基于CNN的生成器,帶*數據為本文復現時獲得的最佳結果。表5結果表明,從IS和FID指標看,TCSNGAN模型生成的圖像質量優于多數已有GAN模型,包括TransGAN。DiffAugment數據增強能進一步提升模型的性能,特別是FID值。由于數據增強對復雜模型Transformer的性能提升更有效,DiffAugment數據增強用于TransGAN模型后,其指標提升效果優于TCSNGAN。但是,TransGAN存在訓練不穩定的問題,即在訓練過程中常常會出現生成器或判別器訓練不充分的情況,此時生成的圖像質量下降嚴重,IS和FID指標也就不能總是達到最佳值。這種情況在圖像分辨率稍大的數據集(如STL-10)上更容易發生。而TCSNGAN模型能穩定訓練,模型性能保持在最佳值。
進一步地,圖7給出了三種模型的生成圖像,可知,SN-GAN模型生成的圖像中部分目標的輪廓與真實物體存在差距;相較而言,TransGAN和TCSNGAN模型生成的圖像中的目標更接近真實物體。
綜上,TCSNGAN模型與TranGAN相比,評價指標IS和FID與TranGAN接近,但計算量減少了60%左右,因此本文模型具有較強的競爭力。此外,雖然ViTGAN在CIFAR-10數據集上的性能優于TCSNGAN模型,但由表4可知,TCSNGAN模型的計算量同樣具有較大的優勢。
4.3 模型在火焰圖像生成中的應用在基于深度神經網絡的火災檢測研究中,獲取多樣化、數量大的火災圖像樣本數據,是提高火災檢測模型準確率的方法之一。但是,火災圖像的獲取存在困難,通過圖像生成模型可以擴充火災圖像數據集。本文采用TCSNGAN生成火焰圖像,并將這些火焰圖像與不同的背景圖像融合,從而生成多樣化、大數量的火災圖像樣本,擴充火災檢測模型的訓練樣本集。具體地,從Bilkent大學火災數據集[33]中裁剪出火焰區域(利用數據集的標注數據),經圖像縮放建立尺寸為32×32的火焰數據集。圖8(a)給出了火焰數據集中的部分樣本圖像。將火焰數據集中的圖像輸入訓練好的TCSNGAN模型中,生成圖8(b)所示的火焰圖像,可知,生成的火焰圖像與真實的火焰圖像非常接近。由于生成火焰圖像的尺寸僅為32×32,生成的火焰圖像還需要通過像素重組(pixel shuffle)進行上采樣,這樣才能較好地與不同的背景圖像融合。圖8(c)給出了生成火焰圖像經上采樣6倍后的圖像,尺寸為192×192。
進一步,生成的火焰圖像與不同背景圖像進行融合,得到如圖9所示的火災圖像。這些融合后的火災圖像可用于擴充火災檢測模型的訓練數據集,提高火災檢測模型的準確率。
5 結束語
基于深度神經網絡的生成式對抗網絡是圖像生成領域的研究熱點。鑒于現有GAN的訓練穩定性差以及模型復雜度高的問題,本文提出基于Transformer和譜歸一化的卷積神經網絡的圖像生成模型TCSNGAN,其生成器為Transformer,判別器為CSN。該CSN判別器滿足Lipschitz條件,使得TCSNGAN可以穩定訓練。在公共數據集CIFAR-10和STL-10上的實驗表明,生成圖像的質量評價指標IS和FID優于多數現有模型,并且,該網絡的判別器結構更簡單,使其更易于應用在實際場景中。進一步,本文將該模型應用于火災圖像生成中,以擴充火災檢測模型的訓練樣本集,提高火災檢測模型的準確率。但模型直接生成的圖像尺寸較小,在實際應用中仍需要經圖像縮放處理,下一步將研究如何生成尺寸較大的圖像。
參考文獻:
[1]Gui Jie,Sun Zhenan,Wen Yonggang,et al. A review on generative adversarial networks: algorithms,theory,and applications [J].IEEE Trans on Knowledge and Data Engineering ,2023, 35 (4): 3313-3332.
[2]林懿倫,戴星原,李力,等. 人工智能研究的新前線: 生成式對抗網絡 [J]. 自動化學報,2018, 44 (5): 775-792. (Lin Yilun,Dai Xingyuan,Li Li,et al. The new frontier of AI research: generative adversarial networks [J].Acta Automatica Sinica ,2018, 44 (5): 775-792.)
[3]陳佛計,朱楓,吳清瀟,等. 生成對抗網絡及其在圖像生成中的應用研究綜述 [J]. 計算機學報,202 23 (2): 347-369. (Chen Foji,Zhu Feng,Wu Qingxiao,et al. A survey about image generative with generative adversarial nets [J].Chinese Journal of Compu-ter ,202 23 (2): 347-369.)
[4]胡銘菲,左信,劉建偉. 深度生成模型綜述 [J]. 自動化學報,2022, 48 (1): 40-74. (Hu Mingfei,Zuo Xin,Liu Jianwei. Survey on deep generative model [J].Acta Automatica Sinica ,2022, 48 (1): 40-74.)
[5]Wang Zhengwei,She Qi,Ward T. Generative adversarial networks in computer vision: a survey and taxonomy [J].ACM Computing Surveys ,202 54 (2): 1-38.
[6]Goodfellow I,Pouget J,Mirza M,et al. Generative adversarial networks [J].Communications of the ACM ,2020, 63 (11): 139-144.
[7]Radford A,Metz L,Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks [C]// Proc of International Conference on Learning Representations. 2016.
[8]Brock A,Donahue J,Simonyan K. Large scale GAN training for high fidelity natural image synthesis [C]//Proc of International Conference on Learning Representations. 2018.
[9]Karras T,Laine S,Aila T. A style-based generator architecture for generative adversarial networks [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4401-4410.
[10]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6000-6010.
[11]Hong Yongjun,Hwang U,Yoo J,et al. How generative adversarial networks and their variants work: an overview [J].Communications of the ACM ,2019, 52 (1): 1-43.
[12]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words: Transformers for image recognition at scale [C]// Proc of International Conference on Learning Representations. 2021.
[13]裴炤,邱文濤,王淼,等. 基于Transformer動態場景信息生成對抗網絡的行人軌跡預測方法 [J]. 電子學報,2022, 50 (7): 1537-1547. (Pei Zhao,Qiu Wentao,Wang Miao,et al. Pedestrian trajectory prediction method using dynamic scene information based Transformer generative adversarial network [J].Acta Electronica Sinica ,2022, 50 (7): 1537-1547.
[14]Jiang Yifan,Chang Shiyu,Wang Zhangyang. TransGAN: two pure transformers can make one strong GAN,and that can scale up [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2021: 14745-14758.
[15]Arjovsky M,Bottou L. Towards principled methods for training gene-rative adversarial networks [C]// Proc of International Conference on Learning Representations. 2017.
[16]Arjovsky M,Chintala S,Bottou L. Wasserstein GAN [C]//Proc of International Conference on Learning Representations. 2017.
[17]Gulrajani I,Ahmed F,Arjovsky M,et al. Improved training of Wasserstein GANs [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 5767-5777.
[18]Miyato T,Kataoka T,Koyama M,et al. Spectral normalization for ge-nerative adversarial networks [C]// Proc of International Conference on Learning Representations. 2018.
[19]Zhou Zhiming,Liang Jiadong,Song Yuxuan,et al. Lipschitz generative adversarial nets [C]// Proc of International Conference on Machine Learning. New York: ACM Press,2019: 7584-7593.
[20]Saxena D,Cao J. Generative adversarial networks (GANs) challenges,solutions,and future directions [J].ACM Computing Surveys ,202 54 (3): 1-42.
[21]Karnewar A,Wang O. MSG-GAN: multi-scale gradients for generative adversarial networks [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2020: 7799-7808.
[22]Bau D,Zhu Junyan,Wulff J,et al. Seeing what a GAN cannot gene-rate [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4502-4511.
[23]Krizhevsky A,Hinton G. Learning multiple layers of features from tiny images [J].Handbook of Systemic Autoimmune Diseases ,2009, 1 (4): 1-60.
[24]Hao Yaru,Dong Li,Wei Furu,et al. Self-attention attribution: interpreting information interactions inside Transformer [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 12963-12971.
[25]Wang Junpu,Xu Guili,Li Chunlei,et al. Defect Transformer: an ef-ficient hybrid Transformer architecture for surface defect detection [C]// Proc of International Conference on Learning Representations. 2022.
[26]Coates A,Ng A,Lee H. An analysis of single-layer networks in unsupervised feature learning [C]// Proc of International Conference on Learning Representations. 2011: 215-223.
[27]Falcon W,Cho K. A framework for contrastive self-supervised lear-ning and designing a new approach [C]//Proc of International Con-ference on Learning Representations. 2009.
[28]Zhao Shengyu,Liu Zhijian,Lin Ji,et al. Differentiable augmentation for data-efficient GAN training [C]// Proc of Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2020: 7559-7570.
[29]Bartlett P,Wegkamp M. Classification with a reject option using a hinge loss [J].Journal of Machine Learning Research ,2008, 9 (8): 1823-1840.
[30]Salimans T,Goodfellow I,Zaremba W,et al. Improved techniques for training GANs [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2016: 2234-2242.
[31]Heusel M,Ramsauer H,Unterthiner T,et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 6626-6637.
[32]Gong Xinyu,Chang Shiyu,Jiang Yifan,et al. AutoGAN: neural architecture search for generative adversarial networks [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway,NJ: IEEE Press,2019: 3224-3234.
[33]Ali R,Reza T,Reza D. Fire and smoke detection using wavelet analysis and disorder characteristics [C]// Proc of International Confe-rence on Computer Research and Development. Piscataway,NJ: IEEE Press,2011: 262-265.
收稿日期:2023-07-25;修回日期:2023-09-15
作者簡介:錢惠敏(1980—),女,江蘇宜興人,副教授,碩導,博士,CCF會員,主要研究方向為計算機視覺、機器學習;毛邱凌(1998—),男(通信作者),江蘇南通人,碩士研究生,主要研究方向為基于生成對抗網絡的圖像生成(am_hohai@163.com);陳實(1999—),男,江蘇鹽城人,碩士研究生,主要研究方向為基于深度神經網絡的視頻分析與理解;韓怡星(1998—),男,江蘇蘇州人,碩士研究生,主要研究方向為基于深度學習的圖像理解;呂本杰(1998—),男,江蘇南通人,碩士研究生,主要研究方向為小樣本圖像的生成.