基于多條件對抗和梯度優化的生成對抗網絡

2021-10-13 04:51:30李響嚴毅劉明輝劉明

電子科技大學學報 2021年5期

關鍵詞：模型

李響，嚴毅，劉明輝，劉明

(電子科技大學計算機科學與工程學院成都 610054)

生成對抗網絡(generative adversarial nets,GAN)[1]是受零和博弈的思想啟發而提出的一種新穎的生成模型框。它由一個生成網絡與一個判別網絡組成，通過讓兩個神經網絡相互博弈、相互對抗的方式進行學習，最終達到納什均衡。GAN 通常用于生成以假亂真的圖片[2]、影片、音頻[3]、3D 模型、文本[4]等等，在諸多領域都取得了顯著的成效。

盡管如此，GAN 還有一些突出的問題有待研究，比如模式崩潰問題。普遍的看法是因為數據的支持和生成的分布是不相交的或位于低維流形中[5]。根據Monge-Ampere 方程的正則性理論，如果目標度量的支持是斷開的或只是非凸的，則最優轉換映射是不連續的。而通用DNN只能近似連續映射，這種內在沖突導致了模式崩潰[6]。對于這個問題，前期也有很多研究，如通過優化使得網絡具有更加優異的學習能力，從而能夠學習具有一般性的特征，而不是集中于某種特異性特征；或是通過控制損失函數，逼迫模型學習更多類型的特征。本文從多生成器博弈的角度出發，通過對現有的多生成器模型的一系列改進來促使不同的生成器生成不同的模式數據，達到有效解決模式崩潰問題的目的。現有的多生成器模型的基本思路都是使用多個生成器的聯合分布去模擬樣本的真實分布，多個生成器網絡參數共享或者不進行共享，通過引入分類器來最大化各個生成器生成數據的JS 散度，強制不同生成器去捕獲不同的模式，取得了較好的效果。Multi-generator GAN(MGAN)是其中效果較好的網絡，但也存在一些問題。因為MGAN 的損失函數是在原GAN 的損失函數基礎上添加一個最大化生成器樣本差異的正則項，該正則項主要是對多個生成器系統整體進行約束，而從單個生成器的角度出發，模式崩潰問題還是存在的。并且，由于GAN的損失函數的缺陷[7]也會造成生成樣本的質量在達到一定水平后，繼續訓練生成質量反而會下降的不穩定現象。

針對MGAN 上述的問題，本文主要優化思路如下：

1)使用Wasserstein 距離作為多個生成器與判別器間的博弈損失函數，改善訓練過程中的梯度消失、訓練不穩定等問題。

2)引入一個正則懲罰項使得損失函數可以更好地滿足Lipschitz 連續，從而使得梯度可以向著更快和更好的角度前進，同時也在一定程度上避免了梯度消失和過擬合帶來的影響。

3)引入一個超參數來平衡多角度損失函數帶來的差異性，避免過度偏向其中某一種梯度方向。

4)提出了一種多生成器參數共享策略，減少訓練代價的情況下同時提高了網絡的性能，方便各個生成器獨立處理圖像的高維特征。

1 相關工作

為了解決原始GAN 模式崩潰的問題，各類研究提出了非常多的思路和方法。AdaGAN[8]利用一個二分類器的置信度來計算樣本在下一輪迭代中的權重。GAM[9]在測試階段將要比較的一對GAN 的判別器進行交換后再比較。GAP[10]提出同時對多對生成器和判別器進行訓練，并將GAM 中GAN比較階段交換判別器的操作引入訓練階段。MADGAN[11]訓練多個生成器來模擬整個樣本集上的分布，使不同的生成器盡量去生成不同模式的樣本。WGAN[12]用嚴謹的數學推證了原始GAN 梯度消失和模式崩潰的兩大問題，并提出了引入Wasserstein距離對原始損失函數進行替換的解決方案。WGAN-GP[13]在判別函數中添加了一個梯度懲罰項，以解決WGAN 中參數集中化的問題。MGAN[14]采用多生成器的方案嘗試解決原始GAN 的模式崩潰問題，使用多個生成器來模擬真實樣本分布，并通過最大化各個生成器之間的差異以鼓勵不同的生成器生成不同模式的樣本。

現有的多生成器模型的基本思路都是使用多個生成器的聯合分布去模擬樣本的真實分布，多個生成器網絡參數共享或者不進行共享，通過引入分類器來最大化各個生成器生成數據的JS 散度，強制不同生成器去捕獲不同的模式，取得了比較好的效果。

2 基于多生成器的生成對抗網絡

2.1 整體架構

本文提出了一種采用多生成器架構的生成對抗網絡模型(improved-MGAN,IMGAN)，網絡結構如圖1 所示。圖中z表示隨機噪聲，Gk為k個生成器。

2.1.1 模型參數共享

本文的參數共享策略是在保持前置卷積神經網絡參數共享的基礎上，對網絡的最后一層卷積和全連接層進行了獨立訓練，即除了網絡的全連接層和最后一層卷積輸出參數外，網絡的其他層參數都共享，在減少訓練代價的情況下同時提高了網絡的性能。

2.1.2 模型的模塊組成

在這種網絡架構下，多個生成器將輸入的隨機噪聲轉化為圖片；判別器對接收到的圖片進行區分，判斷是生成器生成的圖片還是樣本集中的圖片；分類器對多個生成器生成的樣本進行區分，判斷是由哪個生成器生成，評估不同生成器生成樣本的相似性。經過多個生成器、判別器、分類器之間的多方博弈，最終達到納什均衡。

2.2 損失函數

為了優化典型的多生成器網絡如MGAN 易出現的梯度消失、訓練不易收斂等問題[15]，引入WGAN-GP 的Wasserstein 距離的損失函數作為IMGAN 模型中多個生成器與判別器間的博弈的損失函數。

引入WGAN-GP 的損失函數后，此時判別器的輸出結果是樣本圖片分布與生成的圖片分布間的Wasserstein 距離的近似，較之原模型的判別器的輸出結果在度量上發生了變化，因此引入一個參數項 λC來平衡判別器與分類器對網絡公共部分的影響：

式中，LD為判別器的損失；LC為分類器的損失；Ltotal為判別/分類網絡的損失函數。

由于本文是對每個樣本獨立地施加梯度懲罰，為防止引入同一批次樣本間的相互依賴關系，本文也按照WGAN-GP 的思路對判別網絡的結構進行了調整，去掉了判別器/分類器網絡的批量歸一化以及判別器最后一層的激活函數Sigmoid。

2.2.1 分類器的損失函數

為了避免模式崩潰，希望不同的生成器生成的樣本之間有明顯的差異，所以分類器的損失函數需要引導不同的生成器生成差異較大的樣本，采用交叉熵來衡量不同生成器生成樣本的差異，分類器損失函數為：

式中，πk為第k個生成器生成的分布在多個生成器形成的聯合分布中的權重；PGk為第k個生成器生成的分布；Ck(x)為樣本來自第k個生成器的概率。由式(1)可知，當各生成器生成的樣本差異較大，分類器易于區分時，損失較小；當各生成器生成的樣本較為接近，分類器難以區分時，損失較大，由此可以促使不同的生成器生成不同的樣本。

2.2.2 生成器的損失函數

為了使模型訓練過程更加穩定，生成器的損失函數采用WGAN 生成器的損失函數：

式中，Pmodel代表多個生成器生成的聯合分布；D(x)為判別器的判別結果，在WGAN 的損失函數中不需要取對數。生成器損失函數由兩部分組成，前一項為GAN 的經典損失，用于促使生成器生成的圖片與真實樣本更接近，后一項是前面提到的分類器損失函數，用于使生成器生成盡可能差異化的樣本，兩部分通過參數 β進行調節，通過該損失函數來提升生成器生成結果的質量和多樣性。

2.2.3 判別器損失函數

為了應對訓練過程中出現的梯度消失的問題，本文模型的判別網絡部分的損失函數采用了WGANGP 中的判別器損失函數：

式中，Pmodel是多個生成器生成的聯合分布；λgp是梯度懲罰項的參數。最后一項梯度懲罰項使判別器滿足Lipschitz 約束，能夠平滑判別器的參數，有效緩解WGAN 收斂困難的問題。

2.3 網絡結構

本文通過引入殘差塊[16]將構成MGAN 網絡的基本單元進行替換，解決原網絡中存在的隨著訓練輪數的增加活性神經元的比例會逐漸下降的問題。在同等網絡深度下，殘差網絡不僅具有更小的參數量，還能夠進一步提高模型生成圖像的質量。

2.3.1 生成網絡結構

生成網絡的結構包含輸入、反卷積、激勵、輸出幾層。網絡結構中都采用了批量歸一化操作來代替池化層以避免一些有用的特征丟失和整體與部分關聯關系被忽略的問題。卷積神經網絡中的反卷積操作由殘差塊通過上采樣完成。

多個生成器采用了參數共享機制，輸入層到第一層全連接層以及最后一層反卷積層參數不共享，其余層參數都共享。各個生成器的數據批量歸一化分開進行[17]，網絡結構如圖2 所示。

圖2 生成器網絡結構

2.3.2 判別/分類網絡結構

判別卷積神經網絡/分類卷積神經網絡同樣采用參數共享，最后一層參數不共享，網絡的其余層參數都進行共享。兩個網絡由卷積、池化、激勵和輸出幾層構成。由于采用了WGAN-GP 的損失函數，所以不需要對判別器的數據進行批量歸一化，去掉了判別器的最后一層Sigmoid 激活函數。判別/分類網絡中的卷積操作通過下采樣殘差塊完成，其結構如圖3 所示。

圖3 判別/分類網絡結構

3 實驗結果與分析

3.1 實驗數據集

本文實驗選取了Cifar10 和CelebA 兩個數據集對本文的模型進行驗證。Cifar10 數據集提供了60000張大小為32*32 像素的彩色圖片，分為10 類，每類包含6000 張圖片，是開放的物體識別數據集。CelebA 包含了10177 個名人的共202599 張做了特征標記和屬性標記的人臉圖片。

3.2 實驗設置

實驗需要對本文提出的IMGAN 與典型的多生成器模型MGAN 進行對比，首先要排除超參數對實驗的影響，受限于實驗條件，未尋找模型在某一數據集上的最優值，而是采用了相關文獻給出的較優值。相關參數的取值如表1 所示。

表1 實驗參數設置

由于在生成對抗網絡中，損失函數輸出的損失值并不能直接代表生成圖片的質量，即使通過訓練，損失值已經很小了，但實際生成的圖片仍然和真實圖片相去甚遠，所以本文引入了GAN 生成質量的常用評價標準(Frchet inception distance,FID)來對IMGAN 模型的生成效果進行評價。FID 使用均值和協方差矩陣來計算兩個分布之間的距離：

式中，x為真實圖片分布；g為生成圖片分布；μ為均值；Σ 為協方差；Tr 為矩陣的跡，即矩陣對角線上元素的總和。FID 值越低，兩個分布越接近，說明生成圖片的質量較高、多樣性較好。

3.3 Cifar10 實驗

在Cifar10 數據集上，分別測試了：1)單獨更改參數共享方案，解綁模型的最后一層參數；2)單獨更改損失函數，使用Wasserstein 距離；3)在引入1)、2)優化的基礎上再更改網絡結構，引入殘差塊這3 種場景來驗證本文優化方法的效果，計算這3 種場景的FID 值來進行評估。采用Adam 優化器，設置初始學習率為0.02，隨訓練輪數的增加遞減，設置Adam 優化器的衰減參數β1=0.5，β2=0.90，設置多樣性調節參數β=0.05。

引入殘差塊后網絡中多個生成器的結構如表2所示，判別/分類網絡結構如表3 所示。

表2 Cifar10 上多個生成器網絡配置

表3 Cifar10 上判別/分類器網絡配置

實驗結果FID 值如表4 所示。從實驗結果可以看出，本文策略確實能夠有效降低FID 值，性能較MGAN 有了明顯的提升。

表4 Cifar10 上IMGAN 不同優化策略效果

從圖4 的兩種模型生成的圖片對比來看，IMGAN較之MGAN 生成的圖片直觀上體現了較大的差異性，也沒有出現單個生成器的模式崩潰問題，體現出了更好的生成效果。

圖4 兩個模型在cifar10 上的效果圖

3.4 CelebA 實驗

在CelebA 數據集上的實驗中，采用FID 值來對模型的表現進行評價。網絡優化同樣采用Adam優化器；設置初始學習率為0.02，隨訓練輪數增加遞減，設置Adam 優化器的衰減參數β1=0.00，β2=0.90，設置超參數λC=0.90。由于CelebA 的屬性標記比Cifar10 更加復雜，將調節模型生成樣本多樣性的超參數進一步增大，設置β=0.10。

網絡中多個生成器的結構如表5 所示，判別/分類網絡結構如表6 所示。

表5 CelebA 上多個生成器網絡配置

表6 CelebA 上判別/分類器網絡配置

同在Cifar10 數據集上的實驗一樣，分別測試：1)單獨更改參數共享方案，解綁模型的最后一層參數；2)單獨更改損失函數，使用Wasserstein 距離；3)在引入1)、2)優化的基礎上再更改網絡結構，引入殘差塊這3 種場景來驗證本文優化方法的效果。模型收斂時，FID 指標對比如表7 所示。

表7 兩模型在CelebA 上的對比實驗評估指標

模型迭代100000 輪后，得到的生成樣本對比如圖5 所示。直觀上來觀察模型的生成效果，IMGAN生成的人臉更加清晰和真實，FID 值也比原模型下降了0.679，這說明本文的模型在CelebA 數據集上能夠進一步提高生成圖片的質量。

圖5 CelebA 上兩個模型生成樣本對比

4 結束語

本文針對生成對抗網絡訓練中模式崩潰的問題，從多生成器博弈的角度出發，通過對現有的多生成器模型的一系列改進來促使不同的生成器生成不同的模式數據，有效解決模式崩潰問題，使用Wasserstein 距離作為多個生成器與判別器間的博弈損失函數，改善訓練過程中的梯度消失、訓練不穩定等問題；提出了一種多生成器參數共享策略，減少了訓練代價的同時提高了網絡的性能；引入一個超參數來平衡多角度損失函數帶來的差異性；引入一個正則懲罰項使得損失函數可以更好地滿足Lipschitz 連續等。通過一系列的實驗，驗證了本文方案的有效性，能夠提升生成器生成圖片的質量，并且保證其生成的多樣性，有效緩解了模式崩潰的問題。