陳佛計,朱 楓,吳清瀟,郝穎明,王恩德
(1.中國科學院沈陽自動化研究所,沈陽 110016;2.中國科學院機器人與智能制造創新研究院,沈陽 110016;3.中國科學院大學,北京 100049;4.中國科學院光電信息處理重點實驗室,沈陽 110016)
(*通信作者電子郵箱1754208529@qq.com)
近年來,基于深度學習的方法在很多領域取得了良好的表現,但是很大程度上依賴于海量標數據。在某些條件下,標注紅外數據很難獲取,而且需要大量的人力成本。因此,針對紅外數據少、數據難以獲得的問題,基于現有的數據進行數據增強是一種比較好的、獲取更多數據的方法。目前,數據增強的方法有兩種:基于有監督的方式和基于無監督的方式。有監督方式的數據增強是采用預設的規則,在已有的數據上進行數據的擴增,包括幾何變換類和顏色變換類等方法。但是,基于有監督方式進行數據增強并沒有對數據集進行實質性的改變;而無監督數據增強是通過模型學習數據所服從的分布,隨機生成與樣本集分布一致的數據,該方法可以使得數據集覆蓋更多的模式,更有利于提高模型的性能。生成模型是無監督學習任務中最為關鍵的技術,目前比較常用模型有基于有向圖模型的赫姆霍茲機(Helmholtz Machines)[1]、深度信念網 絡(Deep Belief Network,DBN)[2]、變分自動編碼器(Variational Auto-Encoder,VAE)[3];基于無向圖模型的受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)[4]、深度玻爾茲曼機(Deep Boltzmann Machine,DBM)[5]、自回歸模型(AutoRegressive model,AR)[6]以及基于零和博弈的生成對抗網絡(Generative Adversarial Network,GAN)[7]等。AR 和VAE是通過一種顯示方式對數據進行建模,但是AR 是按照像素點去生成圖像,導致計算成本太高,而且在并行性上受到限制,在處理大分辨率圖像的時候有一定的困難。VAE 雖然在圖像生成上是可并行的,但是其生成的圖像比較模糊。相較于顯示建模方式,隱式建模方法GAN 不僅避免了難解的推斷,而且還可以生成高質量的圖像;并且由于其擬合高維數據分布的能力,以及在圖像生成方面的優良表現,GAN 是生成模型中目前較好的一種方法。
生成紅外圖像模型的總體結構如圖1 所示,GAN 由生成器和鑒別器兩個部分組成。生成器的目的是生成和樣本數據所服從分布一致的新樣本來騙過鑒別器;而鑒別器的目的是鑒別輸入的圖像是否來自于真實數據分布。通過對抗訓練,生成器和鑒別器的性能不斷提升,最終達到納什平衡狀態。林懿倫等[8]對生成對抗網絡的基本思想以及其常見的模型架構和訓練方式進行了詳細的介紹,并且對其一些應用場景進行了介紹。曹仰杰等[9]對生成對抗網絡的優點和缺點進行了總結和歸納,并且對其在高質量圖像生成和圖像翻譯等領域的研究現狀和未來的發展方向進行了闡述。因此,本文的目標是基于生成對抗網絡的方法生成更多的類似于真實紅外圖像樣本的數據。最近有很多工作基于GAN 來作圖像生成,一種方式是基于服從某一分布的隨機向量生成圖像,該方法的基本思想是用一個多層神經網絡實現一個非線性的映射,該映射可以將采樣的隨機向量映射為目標域中的圖像。基于該思想的模型有標準GAN、集成高斯混合模型的條件生成對抗網絡[10]、信息最大化生成對抗網絡(Info-GAN)[11]、自注意力生成對抗網絡(Self-Attention Generative Adversarial Network,SAGAN)[12]等。另一種方式是圖像到圖像的轉換,該方法的基本思想是用神經網絡學習域之間的映射關系,基于該映射可以將圖像從一個域轉換到目標域,而且變換前后的圖像在內容上是一致的,基于該思想的模型有圖像翻譯生成對抗網絡(Pix2Pix)[13]、循環一致性對抗網絡(Cycle-GAN)[14]、輔助分類器生成對抗網絡(Auxiliary Classifier Generative Adversarial Network,ACGAN)[15]、星型生成對抗網絡(Star-GAN)[16]等。在實際項目中,有些場景和目標的紅外圖像很難獲取,而且數據量少,但是可以獲取目標和場景大量彩色圖像,為了得到大量紅外圖像數據,因此將彩色圖像轉換為紅外圖像是進行數據增強的一種很好的思路。在對抗網絡之前主要是基于仿真的技術將圖像從彩色域轉換到紅外域,例如:許洪等[17]研究的紅外多光譜圖像的仿真生成;陳珊等[18]進行的基于可見光圖像的紅外場景仿真。但是仿真的方法是一個復雜的過程,需要大量計算和建立復雜的模型。而生成對抗網絡可以基于神經網絡強大的擬合能力學習一個端到端的映射,基于該映射直接將圖像從彩色域轉換到紅外域,從而避免仿真方法那些復雜的計算。因此,針對紅外數據少的問題,基于GAN 將彩色圖像轉換成紅外圖像是一種解決該問題很好的方法。

圖1 生成紅外圖像模型的總體結構Fig.1 Overall structure of infrared image generation model
本文將重點關注如何基于彩色圖像來生成紅外圖像,從而為深度學習模型提供更多的訓練數據。首先,基于編碼器-解碼器的神經網絡架構來構建生成對抗網絡中的生成器,它通過解碼從編碼器得到的隱變量來生成紅外圖像,而鑒別器是通過一個卷積神經網絡來實現。其次,基于Wasserstein 距離來度量生成分布和真實分布之間的距離,并且基于此構建模型的損失函數。為了很好地約束模型生成更高質量的圖像,在損失函數中還加入了L1 正則化項。最后,基于由彩色圖像和紅外圖像成對數據構成的數據集對模型進行訓練,并且驗證了將彩色圖像轉換成紅外圖像方法的有效性。
基于深度神經網絡的生成對抗網絡是生成模型中生成圖像質量最好的一種方法,按照生成器輸入量的不同,目前基于生成對抗網絡做圖像生成主要分為基于隨機向量生成圖像和基于圖像轉換生成圖像兩種方法,下面分別對其介紹。
1)基于隨機向量生成圖像。標準GAN 通過Kullback-Leibler散度對真實樣本數據服從的分布和生成樣本數據服從的分布之間的相似性進行度量,但是由于Kullback-Leibler 散度固有的缺陷,導致模型會出現梯度消失和模式崩潰的問題,最終使得生成圖像的質量不是很理想。因此瓦瑟斯坦生成對抗網絡(Wasserstein Generative Adversarial Network,WGAN)[19]采用瓦瑟斯坦距離來對真實分布和生成分布之間的距離進行度量,該方式很好地避免了梯度消失的問題。在標準GAN中,輸入向量通常會被生成器進行過度耦合的處理,導致隱向量中每一個維度的量沒有足夠明確的語義信息。因此,Info-GAN[11]將輸入向量分解為隱變量和條件變量兩個部分,并且將其一起送入生成器,在訓練過程中通過加入互信息正則化的約束項來實現變量之間的解耦,從而使得輸入向量中的某些維度可解釋性。在構造生成對抗網絡生成器的時候,小的卷積核使得網絡難以發現圖像中的依賴關系,大的卷積核會導致喪失計算上的效率。因此,SAGAN[12]通過引入自注意力機制來捕捉數據或特征的內部相關性,并且全局信息也會被很好地利用去生成質量更好的圖像。基于SAGAN[12],大規模生成對抗網絡(BIG-GAN)[20]通過增加Batch的大小、模型的容量以及共享嵌入核正交正則化等技巧進一步改善了生成圖像的質量和多樣性。
2)基于圖像轉換生成圖像。計算機視覺和圖像處理中的很多問題都可以被看作是圖像轉換的問題。圖像轉換的問題經常被很多模型看作是像素的分類或者是回歸問題,這些模型以輸出的每一個像素條件獨立于輸入圖像中的所有像素為條件,逐個生成圖像的每一個像素,但是這些模型生成的圖像一般都比較模糊。Pix2Pix[13]模型通過學習一個條件生成模型,在對抗損失函數和重構損失項的約束下,基于條件輸入圖像來生成相應的圖像。在Pix2Pix[13]模型的基礎上,Pix2pixHD[21]基于實例分割圖像,使用多尺度的生成器和鑒別器來生成高分辨率的圖像。Cycle-GAN[14]通過在損失函數中加入循環一致性損失,基于不成對的數據來生成圖像。Star-GAN[16]實現了基于一個生成器來進行多域之間圖像的轉換,該模型以圖像和目標域的類標簽作為輸入,將輸入圖像轉換到由類標簽指明的域。為了增加生成圖像的多樣性,ACGAN[15]在網絡架構中加入輔助分來器,來約束模型生成更多種類的圖像。
基于GAN 進行圖像轉換主要包含目標函數的設計、生成器架構的設計、鑒別器架構的設計以及訓練算法的設計四個部分,下面對每一個部分進行詳細介紹。
GAN 最終目的是最小化生成數據分布PG和真實數據分布PData之間的距離,而度量該距離的方式有兩種,分別是f散度和積分概率度量(Integral Probability Metric,IPM)。相較于f散度,IPM 度量標準不會受到數據高維度的影響,并且即使是兩個分布之間的支撐集沒有相應的交集時,該方式也不會出現梯度消失的問題。因此,采用IPM 度量標準中的Wasserstein 距離來對PG和PData之間的差異進行度量,并且該距離被定義為如式(1)所示:


式(2)表示評價函數f在滿足k利普希茨連續性約束的條件下(f(x))的上確界就等價于PG和PData之間的Wasserstein 距離。并且式(2)中的f函數可以用一個w參數化的,最后一層神經網絡不用非線性激活函數的多層神經網絡fw來實現,其實際上就是對應對抗網絡中的鑒別器。通過約束神經網絡的參數w不超過某個范圍的條件下,PG和PData間的Wasserstein距離可以表示成如下形式:

由于生成器的目標是最小化PG和PData之間的瓦瑟斯坦距離,而鑒別器的目標是最大化PG和PData之間的瓦瑟斯坦距離。因此,該模型的損失函數可以被設計成式(4)和式(5)所示的形式。
生成器Loss:

鑒別器Loss:

由于基于成對的數據來對模型進行訓練,為了更好地保持輸入圖像和輸出圖像之間內容上的一致性,在生成器的損失函數部分加入了由生成樣本和真實樣本差的1 模實現的正則化項,可以表示成如下形式:

其中:y代表真實的樣本數據;G(x')表示生成的樣本數據;x'表示生成器的輸入彩色樣本數據。
生成器的目的是基于輸入的彩色圖像生成服從于真實數據分布PData的紅外圖像。因為生成器的輸入和輸出在內容上、物體的位置上是一致的,僅僅在表面上是不一樣的,所以兩者的高維特征是一致的。基于這樣的構想,采用Encoder-Decoder[22]的神經網絡架構來實現生成器。Encoder 和Decoder 都是基于卷積塊(卷積運算-批量正則化-ReLu 激活函數)和轉置卷積塊(轉置卷積運算-批量正則化-Leak-ReLu激活函數)來實現。Encoder的作用是將輸入的彩色圖像映射成一個高維特征向量,而Decoder的作用是將這個高維特征向量解碼成和輸入圖像內容一致的紅外圖像。由于生成器輸入和輸出的許多低層信息是一致的,為了更好地利用輸入圖像的這些低層信息,在Encoder 和Decoder 之間加入了跳躍連接來更好地共享這些信息。生成器的網絡架構如圖2 所示,具體說明如表1所示。

圖2 生成器的網絡架構Fig.2 Network architecture of generator

表1 生成器的編解碼神經網絡結構Tab.1 Encoder-decoder neural network structure of generator
鑒別器的目的是區分真實紅外圖像樣本和生成紅外圖像樣本,其作用等價于一個二分類的問題,因此,可以基于一個多層的卷積神經網絡來實現鑒別器。為了更好地捕捉圖像中的高頻信息,將圖像分成N小塊,然后讓鑒別器鑒別小塊圖像是來自于真實數據分布PData還是來自于生成數據分布pG,最后將鑒別器對N小塊圖像的平均輸出作為最終鑒別器的輸出。鑒別器的網絡結構如圖3和表2說明所示。

圖3 鑒別器的網絡架構Fig.3 Architecture of discriminator

表2 鑒別器的二分類神經網絡結構Tab.2 Two-classification neural network structure of discriminator
在訓練過程中為了更好地減小生成樣本和真實樣本之間的差距,必須先擁有一個優良的鑒別器,因此,在訓練對抗網絡的過程中更新鑒別器參數k次,才更新生成器參數1次。同時,使用批量正則化都的技巧來解決初始化差的問題,在一定程度上緩解生成器過擬合,并且防止生成器將所有的樣本都收斂到樣本空間中的一點。該節對訓練模型的算法進行詳細的說明,其偽代碼形式如算法1所示。
算法1 紅外圖像生成模型訓練算法。
參數設置:初始化生成器的參數θG和鑒別器的參數θD,迭代次數N和步數k是在訓練鑒別器的時候會用到的超參數。

為了驗證該模型的有效性和泛化性能,在多個數據集上對該模型進行了測試。其中一個數據集RGB-INR 是由成對彩色圖像和近紅外圖像組成的針對自然場景的數據集。該數據集包含9 個類別477 張圖像[23],自然場景類別包括鄉村、田地、森林、室內、山地、建筑物、街道、城市以及水等。另一個數據集VEDAI[24]也是基于成對彩色圖像和紅外圖像組成的空對地拍攝的場景圖像,該數據集中的目標除了有尺度大小變化外,還包含多方位、光照、陰影和阻擋的變化。同時,該數據集對同一場景采集了不同波段和分辨率的圖像。
在實驗中為了探索不同正則化對生成圖像質量的影響。分別設計了不帶正則化、帶有L1 正則化以及帶有L2 正則化的三種不同損失函數。如圖4 所示,圖中右邊的三列分別對應三種損失函數下生成器生成的紅外圖像,通過對比可以看出,當目標函數沒有正則化的時候,生成的圖像比較模糊。當帶有正則化時,生成器可以很好地捕捉圖像中的細節信息,并且生成圖像的質量比較高。

圖4 不同損失函數下的實驗結果Fig.4 Experimental results under different loss functions
對生成圖像的質量進行評估是一個比較難的問題。傳統的像素均方誤差評估標準無法對實驗結果的聯合統計進行評估,因此沒法對損失函數想要捕捉的結構進行合理的測量。所以新的方法FID(Fréchet Inception Distance)[25]被用于對生成圖像的質量和多樣性進行評估。該方法的基本思想基于Inception網絡[26]的卷積特征層將真實數據分布PG和生成數據分布PData建模為一個均值為μx、μg,方差為Σx、Σg的多元高斯分布。基于這些信息,FID 這種度量方式可以被表示成如下形式:

該度量方式的思想與人類的判斷相似,該指標的值越小,表示生成圖像的質量和多樣性越好。同時該度量方式對噪聲不是很敏感,并且可以很好地反映模式崩潰的問題。基于該評估方式對生成圖像的定量評估結果如表3所示。

表3 對實驗結果的FID定量評估Tab.3 Quantitative evaluation of FID on experimental results
通過上述定量評估指標的比較,可以發現加入正則化使得FID 的數值降低,也就意味著模型在正則化的約束下,生成圖像的質量有所提高,并且L1 正則化的作用比L2 正則化更加有效。
基于仿真技術生成的紅外圖像,如圖5 所示,通過與相應場景真實的紅外圖像比較,發現基于紅外仿真技術生成的圖像丟失了場景中海水表面的一部分信息,而且場景中艦艇目標的形狀相較于真實紅外圖像中艦艇目標的形狀發生了改變。而基于生成對抗網絡生成的紅外圖像,如圖5 所示,很好地保留了原始圖像中各種目標的形狀、紋理等信息,同時生成的紅外圖像和原始紅外圖像比較接近。但是,基于對抗網絡生成的紅外圖像會存在局部模式崩潰的現象,而基于仿真方法生成的紅外圖像不會出現模式崩潰的現象。

圖5 真實紅外圖像和對抗網絡生成的紅外圖像以及仿真技術生成的紅外圖像Fig.5 Real infrared images,infrared images generated by adversarial neural network and infrared images generated by simulation technology
針對實際項目中紅外圖像少的問題,本文提出了一種基于生成對抗網絡將彩色圖像轉變為紅外圖像的方法,從而為模型的訓練提供更多可用的訓練樣本。通過成對的數據訓練該模型,使得基于編碼器-解碼器神經網絡架構的生成器具有在高維空間中將彩色圖像映射為紅外圖像的能力,而且通過實驗證明,該方法可以生成高質量的紅外圖像。目前該方法只是針對分辨率比較小的圖像,實際中可能要求更大分辨率的圖像,因此后續將繼續改進該方法,進一步對生成紅外圖像有更加深入的研究。同時,在模型的訓練過程中生成器生成的圖像存在模式崩潰的現象,而且目前對生成對抗網絡生成圖像的評估還沒有一個統一的標準,因此,希望研究者們在將來的研究中對以上兩個問題有更加深入的研究。