劉牧云,卞春江,陳紅珍
1.中國科學院國家空間科學中心復雜航天系統綜合電子與信息技術重點實驗室,北京 100190
2.中國科學院大學計算機科學與技術學院,北京 100049
近年來,遙感圖像采集和深度學習技術快速發展,遙感圖像智能解譯算法取得了重大突破[1]。空中目標檢測與識別是遙感技術在軍事偵察領域的重要應用,隨著天基遙感影像分辨率提升及軍事偵察工作的需要,空中目標細粒度檢測任務對分類精確度提出了更高標準要求。但性能優異的深度學習模型通常依賴準確標注的大規模數據集訓練,樣本收集、人力標注需要耗費大量資源和精力[2]。并且,飛機目標的高動態特性以及復雜多變的背景環境導致其缺乏長期數據收集的客觀觀測條件,大規模、高質量的遙感飛機目標圖像數據集存在收集困難的問題[3]。因此,現有的遙感圖像飛機細粒度圖像數據集往往存在各子類樣本數較少且分布不均衡情況。基于數據驅動的深度學習模型容易在樣本數量豐富的類別上過擬合,而在樣本數量缺乏的類別上欠擬合,這種現象稱為長尾效應,是導致導致分類、檢測等模型的性能難以提升的重要因素[4]。為數據匱乏的類別生成更多樣本圖像補充原有數據集是緩解模型過擬合,提升下游模型性能的直接途徑。
數據增強是解決樣本不足、不平衡的關鍵技術。傳統的數據增強方法包括仿射變化、色彩變換、信息遮擋、多圖融合等,這類方法生成的樣本雖然能在數量上對原有數據集做補充,但存在泛化能力差、樣本多樣性不足的瓶頸問題[5]。小樣本圖像生成技術是圖像數據增廣的一種方式,其僅利用少量未知種類的圖像數據生成大量真實且多樣的同類別圖像,在不實質性增加數據的條件下,通過深度生成模型提高原始數據的數量和質量,讓有限的數據產生等價于更多數據的價值,從而為細粒度圖像分類、目標檢測等多種的下游任務提供數據支持。并且,相比于上述傳統數據增強方法,小樣本圖像生成技術能夠提供更加多樣的圖像,并且在特征層面生成更加豐富和合理的語義信息。當前基于深度生成模型的圖像生成方法往往依賴大規模數據集訓練,提出一種少樣本條件下的數據增廣方法是有必要的。
小樣本圖像生成技術能夠借助深度生成模型(deep generation models,DGM)從現有數據集中學習和模擬真實的數據分布,并生成新的圖像。當前主流的深度生成模型可分為3 類:變分自編碼器[6](variational auto-encoders,VAE)、生成對抗網絡[7](generative adversarial networks,GAN)和擴散模型[8](diffusion models,DM)。GAN 網絡由生成網絡和判別網絡兩部分組成,以對抗的方式,交替優化網絡參數,直到二者達到納什均衡,從而生成以假亂真的樣本。但GAN 網絡對數據分布是隱式建模,并且在模型訓練過程中容易陷入模式坍塌。DM 的基本思想是在正向擴散過程中系統地擾動原始數據分布,在反向擴散過程中學習如何恢復數據分布。DM 雖然在圖像生成質量上優于GAN 和VAE,但其仍存在采樣效率低、最大似然估計效果差、訓練所需資源多的問題。VAE 是小樣本圖像生成技術的主流生成模型之一,其包含一個編碼器作為推斷網絡和一個解碼器作為生成網絡。它是基于變分推斷思想的概率模型,能夠對于數據分布進行顯式建模,這大大提高了生成樣本的可解釋性。總的來說,相比于其他生成式模型,VAE有可解釋性強、訓練穩定、資源消耗小的優勢。
并且,近年來,VAE及其變體在醫學影像分析、人臉識別、故障檢測等領域取得了優異的表現并具有重要的實際應用價值。但在遙感圖像處理的應用領域,仍缺少相應的數據增廣方法。一方面,傳統的VAE 方法需要大規模數據作為支撐用于訓練模型,無法解決少樣本條件下的數據增廣問題;另一方面,由于真實場景下的遙感飛機目標圖像存在類間相似度高、類內差異性大的特性,針對全局特征擬合的小樣本圖像生成算法難以生成高質量和多樣性的細粒度飛機圖像。
因此,針對目前空中高價值目標數據匱乏的實際問題,為了增強生成樣本多樣性和模型可解釋性,采用基于特征解耦的小樣本圖像生成技術生成特征豐富的遙感飛機圖像樣本。在模型編碼階段通過變分推斷和平均池化的方式分別提取圖像的類內可變特征和類間判別特征,在解碼階段多次隨機采樣重組特征以提高生成圖像多樣性。并且,利用上述方法的生成結果補充現有數據集,有效提升了后續目標精細化識別準確率。
在本文中,做出了如下貢獻:
(1)為解決生成樣本多樣性不足的問題,提出了“圖像由類內可變特征和類間判別特征組成”的假設,并根據此假設構建特征解耦模塊。
(2)改進原始VAE 結構,提出了特征解耦變分自編碼器(feature disentangle variational auto-encoders,FD-VAE),用于在少樣本條件下生成具有特征多樣性、語義信息豐富的遙感細粒度飛機樣本圖像。
(3)在兩個細粒度飛機數據集上FAIR1M[9]和MAR20[10]驗證FD-VAE 算法生成圖像的性能。將生成的樣本補充到原有的數據集中形成增廣數據集,并輸入到下游ResNet-18[11]分類網絡中驗證數據增廣對提升下游模型分類精度的效果,形成閉環實驗。實驗結果證明了本文方法在飛機圖像生成效果上的優勢以及對于下游模型分類準確率提升的有效性。
隨著人工智能的快速發展,越來越多的人試圖解決低樣本情況下的機器學習問題。小樣本學習(few-shot learning,FSL)和圖像生成結合的方法被稱作小樣本圖像生成技術(few-shot image generation,FSIG),用于在數據規模有限的情況下,生成高質量、多樣性的圖像,增強原有數據集。FSIG是利用可見類別數據訓練生成模型,再通過少量未知種類的條件圖像來控制生成模型生成特定圖像。通過生成額外的圖像對小樣本類別進行增強可以有效緩解小樣本學習中由于訓練數據類別不平衡(long-tailed)導致的過擬合問題,并從根源上解決實際應用中某些類別樣本數量不足的情況。
許多相關研究內容已經發表,研究人員通過修改網絡框架、損失函數、迭代方法等方式來構建新的生成網絡,從而提高圖像生成器的性能。從當前小樣本圖像生成模型的工作原理出發將小樣本圖像生成方法分為優化法、類內轉換法以及特征融合法。
優化法是指將元學習(meta-learning)算法與深度生成模型結合的小樣本圖像生成方法[12-14],其基本原理是在可見類別數據上用元學習算法框架訓練生成式模型,在少樣本數據集上進行參數微調后得到針對小樣本類別圖像的生成器。基于優化的方法能夠成功生成圖像,但生成圖像往往不夠清晰和真實,在圖像生成質量上還有較大的提升空間。
基于特征融合的小樣本圖像生成[15-17]是指通過全局或局部特征匹配的方式將多張條件圖像特征融合并形成新樣本的方法。LoFGAN[17]提出的局部融合策略,解決了由于條件圖像語義信息不對齊導致生成樣本存在混疊偽影的不合理現象,但仍存在生成樣本多樣性不足的問題。由于特征匹配和融合理論的固有限制,目前的融合方法難以在生成圖像形狀、姿態等方面做出改變。并且,此類方法需要輸入多張條件圖像,并不適用于單樣本圖像生成。
類內轉換法[18-20]的基本假定是同一類別不同樣本之間的差異是能夠泛化到其他的類別中的。用大量的可見類別樣本中訓練模型學習如何提取和轉換的類內可變特征到非可見類別樣本中,生成新樣本。近年來,基于類內轉換的方法實現了從小樣本特征增強到圖像生成的進步。AGE[20]試圖在編碼好的隱空間中學習有效的特征編輯方向,通過編輯特征向量生成多樣性的圖像,實現了在沒有明確監督的情況下的特征解耦和圖像編輯,但仍需要借助預訓練到解碼和圖像到編碼的逆轉換模型。
相較于基于優化和基于融合的小樣本生成方法,基于類內轉換的方法在生成更加多樣性的圖像上具有顯著優勢。因為類內轉換的方式能夠學習到條件圖像可移植的類內可變特征或可編輯屬性,并借此生成更加多樣化的同類別圖像,這種方法有效地提升了模型的創造力。另一方面,在圖像生成的真實性和清晰度上,基于類內轉換的樣本生成方法也達到了當前最為先進的水平。
隨著小樣本圖像生成領域的研究逐漸深入,其應用場景也愈加豐富。如今,小樣本圖像生成技術廣泛應用于醫學影像分析[21]、故障檢測[22]等領域,具有重要的實際應用價值。相對來說,小樣本圖像生成技術在遙感圖像增廣領域的相關研究比較匱乏。雖然一些遙感場景下基于深度生成模型的建筑物[23]、飛機[24]、船舶目標圖像[25]數據增廣方法被提出,但均沒有考慮少樣本條件下的圖像生成問題。姜雨辰等人[26]提出改進StyleGAN2方法適用于少樣本條件下的遙感圖像數據增強,但此方法主要針對遙感圖像中的大型建筑目標,生成樣本缺乏局部細粒度信息。
在少樣本條件下,提出一種遙感細粒度圖像生成方法用于數據增廣是有必要的。因此,針對當前小樣本遙感圖像生成的應用領域缺少解決細粒度圖像增廣方法的實際問題,本文提出了基于類內轉換法的圖像生成算法特征解耦變分自編碼器FD-VAE 用于少樣本條件下的光學遙感飛機細粒度目標圖像增廣,助力下游分類模型精度提升。FD-VAE 每次僅輸入一張條件圖像即可生成多樣性的增廣樣本,實現完成1-shot 生成。并且,相較于當前基于類內轉換法的模型結構,FD-VAE無需任何預訓練和逆轉換模型。
2013年Kingma提出了基于變分推斷思想的概率生成模型VAE,其整體結構如圖1所示。在訓練階段VAE的編碼器作為推斷網絡擬合數據分布,將輸入樣本映射為隱空間的概率分布,解碼器作為生成網絡用于重構圖像。在生成階段,網絡使用采樣器在潛在空間的概率分布中隨機采樣,再輸入到已訓練的解碼器用于生成新的圖像。VAE 的基本原理是利用逼近變量后驗概率變分下界的方式擬合目標數據的最大似然概率分布,再利用重采樣的方式生成多樣化目標數據集。

圖1 變分自編碼器結構圖Fig.1 Basic structure diagram of VAE
假設每個真實樣本Xk都存在一個專屬分布p(Z|Xk),那么整體輸入數據的概率分布p(x)可表示為:
由于分布q(z|x)計算較為復雜,對上式求對數似然,可得到:
根據詹森不等式,可推出:
VAE將數據概率分布p(x)的推斷問題轉化為近似分布q(z|x)的優化問題。式(3)稱作分布logp(x)的變分下界(evidence lower bound,ELBO),其標準形式表示為:
如圖2 所示,輸入樣本圖像x,編碼器通過優化分布q(z|x)使得變分下界L最大化,將輸入數據映射到隱空間中,得到隱變量z的壓縮表達:

圖2 變分自編碼器原理圖Fig.2 Schematic diagram of VAE
為了避免采樣噪聲為0 導致生成模型的隨機性減少,VAE假設p(z|x)服從正態分布,式(5)可表示為:
隱變量z可以在分布N(μ,σ)中采樣得到,但此過程不可導。為解決此問題,VAE 使用重參數技巧,先在分布N(0,I)中采樣ε,再經線性變換得到:
最終,在訓練階段,解碼器將采樣到的隱變量z重構為原圖像。在生成階段,解碼器將隱空間中隨機采樣的點還原為圖像,從而生成新樣本。
VAE 以其優雅的推斷理論和穩定的訓練過程在圖像生成領域大放光彩,并迅速涌現出一系列基于VAE的改進模型。VAE 系列改進方法根據其工作原理大致可分為3 類,增加條件約束提升模型的用戶控制能力、通過分解隱變量提高生成圖像清晰度、將VAE 與GAN等其他深度生成模型結合,增強模型生成性能和生成圖像多樣性。
(1)增加條件約束
VAE能夠實現用給定的隨機噪聲生成圖像,但其生成結果是不可控的。為了生成指定類別的圖像,如圖3所示,條件變分自編碼器(conditional variational autoencoder,CVAE)[27],在輸入階段同時輸入圖像x和其對應的類別標簽y,用于約束生成圖像的類別。編碼器從估計樣本圖像在潛在空間的概率分布p(x)擴展為估計隱變量的條件概率分布p(x|y),解碼器在標簽的監督下重構圖像,從而生成指定標簽類別的樣本。

圖3 條件變分自編碼器原理圖Fig.3 Schematic diagram of CVAE
動態變分自編碼器(dynamical variational autoencoder,DVAE)[28]輸入數據改進為序列數據x1:T,按照時間序列分解輸入序列和隱變量序列如式(8)所示:
其中,x、z、u分別為模型的輸入序列、隱變量和控制變量,變量之間遵循時間鏈式法則。
DVAE 考慮了數據向量的序列以及對應的隱變量的序列在時間維度上的關聯性,常用于音頻或視頻生成,但對于輸入數據規模和質量要求較高。以上兩種相關方法都是為輸入變量增加關聯約束,從而促使模型生成特定類別或時間的樣本。
(2)分解隱變量
Nouveau VAE[29](NVAE)引入多尺度設計,分層次設置了多組隱變量,再利用自回歸的高斯模型擬合復雜的連續型分布,其模型框架如圖4所示。

圖4 NVAE框架圖Fig.4 Framework diagram of NVAE
具體來說,NVAE通過設計多尺度的編碼器將原有的隱變量z分解為L組隱空間中的向量,即:
并為分解后的每個隱變量z1,z2,…,zL建立高斯分布,將整體模型建立為自回歸高斯模型,后驗概率分布可表示為:
最終,解碼器自上而下地利用多組隱變量實現樣本圖像的還原。
不同于NVAE構建多尺度隱變量,量子化自編碼器[30](vector quantized variational autoencoder,VQ-VAE)為解決連續隱變量逼近精度有限的問題,將圖像編碼為離散的隱變量,再通過自回歸模型擬合離散分布。這類分離隱變量的改進方法有效提高了生成圖像的清晰度,但其訓練代價也顯著增大。
(3)與其他深度生成模型結合
自省變分自編碼器[31](introspective variational autoencoder,IntroVAE)借助GAN網絡對抗訓練的思想構建自省變分自編碼器,將生成圖像循環輸入到編碼器中。如圖5所示,編碼器不僅作為需要獲得輸入圖像的概率分布,它還充當一個“判別網絡”,將真實輸入圖像與解碼器生成的圖像區分開。相對地,解碼器希望盡可能真實地重建圖像來欺騙編碼器。最終,IntroVAE通過編碼器、解碼器交替對抗訓練的方式進一步提升了模型的圖像生成質量。Soft IntroVAE[32]進一步解決了IntroVAE中需要人為設定硬邊界閾值的限制,并且訓練過程更加穩健。這類與其他深度生成模型結合的改進方法雖然有效提高了模型的生成性能,同時也存在訓練不穩定的問題。

圖5 Intro-VAE原理圖Fig.5 Schematic diagram of IntroVAE
提出的方法FD-VAE與以上三類改進思路不同,上述相關方法僅針對圖像層面的樣本進行還原和重構,主要關注隱層編碼在圖像色彩和結構上的還原能力,其構建的隱空間往往存在不均勻和無規律的情況,這一定程度上限制了生成樣本的可解釋性和多樣性。針對以上問題,為在平滑、連續的潛在空間中隨機采樣或插值得到有意義和可解釋的樣本,并且進一步增強模型生成結果的多樣性和語義信息合理性,本文提出的解耦變分自編碼器FD-VAE 一方面使用特征解耦模塊促使模型在解碼階段進行特征層面的學習,試圖讓模型“理解”樣本的語義信息,從而生成更加有意義的樣本圖像。另一方面,在模型解碼階段引入特征調節因子α,控制判別特征和可變特征的重組關系,從而提高模型生成樣本的多樣性。
由于遙感飛機目標圖像類間相似度高、類內差異性大的特性,提出的圖像由類內可變特征和類間判別特征組成的基本假設。類內可變特征包括光照、陰影、飛機涂裝、飛機停放角度、背景條件等環境因素,這些特征在所有類別中共享,即在真實環境下,不同型號的飛機樣本可能存在相似的停放角度、背景條件、光照條件等環境特征。在數據模擬階段,使用共同分布p(zv)為類內可變特征建模。類間判別特征指飛機的型號特征,如引擎數量、氣動結構等。相同類別的飛機樣本具有同樣的類間判別特征,因此,對每個類別的樣本圖像特征求均值即可得到各個類別飛機的類間判別特征。在圖像生成階段,通過多次隨機采樣的方式增強生成樣本環境特征多樣性,從而更改同類別樣本的類內可變特征,達到生成大量類別相同而環境特征多樣的樣本圖像的目的。
基于上述假設提出了特征解耦變分自編碼器FDVAE,其原理圖如圖6所示。不同于VAE及其衍生模型使用變分推理的方式擬合整體圖像特征概率分布,而是僅擬合圖像的類內可變特征分布,即陰影、飛機涂裝、飛機停放角度、背景條件、光照條件等客觀環境因素,并結合平均池化模塊提取圖像的類間判別特征,從而分離類間判別特征和類內可變特征(客觀環境特征),并通過多次隨機采樣和特征重組的方式達到提升生成樣本多樣性的目的。

圖6 FD-VAE原理圖Fig.6 Schematic diagram of FD-VAE
FD-VAE 的整體網絡結構如圖7 所示,包含一個特征提取器、一個編碼器用于擬合類內可變特征zv、一個池化模塊用于提取類間判別特征zd,一個解碼器和一個特征重構器用于重構和生成圖像。特征提取器選用基于卷積層的殘差網絡,它包含兩個殘差模塊。圖像重構器相比于特征提取器增加了一個全連接層用于分類重構圖像,確保生成圖像的判別特征保持不變。

圖7 FD-VAE網絡結構圖Fig.7 Framework of FD-VAE
特征解耦模塊由編碼器和池化模塊組成。基于輸入圖像xi的特征是由類內變量特征和類間判別特征組成的假設,圖像特征可以表示為:
其中,輸入圖像xi對應特征圖X(i)的類間判別特征zd由多個同類別圖像特征圖的平均池化得到。
其中,n為批量數(batch size,BS)。
真實的后驗分布p(z|x)難以計算,可用分布q(z|x)近似推斷p(z|x),并用KL散度約束二者間的距離:
進一步假設近似后驗分布p(z|x)是各項獨立的正態分布,表示為:
其中,μ(i)、σ(i)由編碼器擬合數據分布得到,根據公式(10)和重參數技巧,zv可以表示為:
最大化p(x)的變分下界使得真實后驗分布與近似分布之間的差距最小,可表示為:
其中,p(X|z(i))由解碼器提供。
每個輸入條件圖像唯一確定一個類內判別特征zd:
lbp(x)的變分下界可寫為:
編碼器通過優化式(19)變分下界和多次采樣獲得樣本的可變特征。
圖像生成階段,為了生成更多樣的樣本,在生成階段FD-VAE引入了特征調節因子α,用于控制重構特征中類間鑒別特征zd和類內變量特征zv的比例。特征向量zd、zv均歸一化后:
損失函數由重構損失、KL損失和分類損失組成。
分類損失用于確保池化模塊所提取到類間判別特征zd的準確性:
其中,y(i)表示輸入特征圖X(i)的類別標簽。
重構損失和KL 損失用于監督編碼器學習數據分布,由于p(X|zr)被建模為近似高斯分布,lbp(X|zv)等價于x和p(X|zr)均值的平方誤差重構損失,lbp(x)的變分下界可寫為:
式(23)的前半部對應重構損失,后半部對應于KL損失。βrec和βkl是重構損失和KL 損失對應的超參數權重。
為了與編碼器變分下界的重構約束保持一致,采用加權圖像級MSE重構損失來約束解碼器生成的圖像Xr:
編碼器的目標函數包括分類損失和變分損失,變分損失由KL損失和重構損失組成。
解碼器的目標函數包括分類損失和重構損失:
其中,βcls、βrec、βkl分別對應分類損失、重構損失和KL損失的超參數權重。
FD-VAE 網絡根據上述三類目標函數進行端到端優化。
本文選取兩個細粒度的遙感圖像數據集FAIR1MAircrafts[9]MAR20[10]作為模型效果評估的數據集。這兩個數據集的飛機類別不重疊。
(1)FAIR1M-AIRCRAFTS:在FAIR1M 數據集中截取了9 種不同類型的民用飛機圖像,共19 299 個示例。其中7 個類別被設置為可見類別,用于訓練,另外兩個被指定不可見類別,用于測試。
(2)MAR20:MAR20 包括20 種軍用飛機,共有22 341 個示例。其中,16 個類別用于訓練,其余4 個類別的樣本用于評估。
本文的網絡采用端到端的形式進行訓練,輸入圖像大小為64×64,批量數為32,共迭代300次。在超參數設置方面,對于FAIR1M-Aircraft 數據集,超參數設置為βcls=1,βrec=2,βkl=4,z_dim=512 ,其中z_dim表示隱特征空間的維度。對于MAR20 數據集,潛在編碼維度是512,其他參數設置為βcls=1,βrec=4,βkl=8。在測試階段,遵循標準的小樣本圖像生成評估方案。根據1-shot和3-shot的實驗設置,每次使用1或3張未見類別樣本圖像輸入到生成器。
將本文提出的FD-VAE方法分別與原始VAE方法、引入對抗訓練的VAE 方法IntroVAE、基于特征融合的樣本生成方法LoFGAN 以及基于類內轉換的樣本生成方法AGE對比生成圖像質量。
采取了一系列試驗驗證FD-VAE 在圖像生成方面的性能,包括生成圖像的定性和定量分析實驗用于評估生成圖像質量,特征解耦消融實驗用于驗證本方法的特征可分性以及隱空間的線性插值實驗用于驗證本方案生成圖像的多樣性和真實性。
3.3.1 生成圖像質量定性評價
將FD-VAE(1-Shot,每次生成僅使用1個輸入樣本)與LoFGAN(3-Shot,每次生成使用3 個輸入樣本)、AGE(1-Shot)方法在FAIR1M數據集上的生成圖像進行定性比較。
如圖8 所示,前兩列是輸入真實樣本,其余各列分別是AGE、LoFGAN 和提出的FD-VAE 算法生成結果。第1 至5 行分別展示了輸入樣本在一般情況下、存在多目標實例或實例不完整、存在涂裝、存在尾影、高曝光或陰影條件下各方法的圖像生成結果。AGE方法生成的圖像清晰度較高但生成的飛機主體存在局部扭曲的現象,并且當輸入樣本實例不完整、存在局部涂裝時,AGE難以重建圖像。LoFGAN 方法雖然能夠完成各種情況下的圖像重建,但存在重構機身不完整、局部模糊的現象。相比之下,FD-VAE在生成圖像清晰度和真實性方面優于其他方法,而且具有很好的魯棒性。

圖8 LoFGAN、AGE和FD-VAE方法生成圖像質量比較Fig.8 Comparison between images generated by LoFGAN,AGE and FD-VAE
3.3.2 生成圖像質量定量評價
選取FID[33]和LPIPS[34]兩個定量指標評估圖像的生成質量。
FID(fréchet inception distance)指標用于計算真實樣本、生成樣本在特征空間之間的距離,表示生成圖像分布和真實圖像分布的距離,較低的FID意味著較高圖片的質量,其表達式如下:
其參數是將圖像真實分布Pr和生成圖像分布Pg建模為多維高斯分布(μr,Σr),(μg,Σg),其中μ、Σ分別表示均值向量和協方差矩陣,tr 表示矩陣的跡(矩陣對角元素之和)。
學習感知圖像塊相似度(learned perceptual image patch similarity,LPIPS),用于度量兩張圖像在數據分布上的差別。對于生成樣本集來說,較高的LPIPS代表圖像具有較好的多樣性和真實性,其計算表達式為:
其中,d為x與x0之間的距離,l為特征提取堆的層數,Hl、Wl分別為通道的行和列數。
在評估階段,FD-VAE 對于每個不可見類別的測試樣本生成1 024張圖像用于計算FID和LPIPS。
表1、表2 分別展示了本文的方法和其他幾種先進的小樣本圖像生成方法在FAIR1M-Aircrafts 和MAR20數據集上的測試結果。所提出的FD-VAE 方法與其他方法相比在FID 和LPIPS 評價指標上取得了顯著改進。與原始VAE生成方法相比,本文的方法在FAIR1M數據集上的測試結果FID下降了20.07%,LPIPS上升了13.21%。在MAR20 數據集上的測試結果FID 下降了21.83%,LPIPS上升了21.36%。這表明FD-VAE生成的圖像具有更好的特征多樣性和圖像真實性,本文方法的核心優勢在于從編碼器擬合的數據分布N(μ(i),σ(i))中多次采樣類內可變特征zv并保持與原始圖像相似的判別特征zd。前者提高了生成圖像的多樣性,后者保證了生成圖像的真實性。這使得本文方法的生成結果與其他方法相比,在真實性和多樣性的評價指標上表現出極大的優勢。

表1 FAIR1M-Aircrafts數據集上的定量評價結果Table 1 Quantitative comparison on FAIR1M-Aircrafts

表2 MAR20數據集上的定量評價結果Table 2 Quantitative comparison on MAR20
3.3.3 特征解耦消融實驗
在圖像生成階段,特征調節因子α決定了生成圖像判別特征和類內可變特征的比例。如圖9 所示最左側一列是輸入的真實圖像,其余各列是不同α取值對應生成圖像。如式(21)所示,特征調節因子α僅決定重構圖像判別特征和類內可變特征的比例,與輸入樣本的類別無關。當α=0 時,生成的圖像僅由類間判別特征重建。可視化結果表明,此時重建圖像主體突出,而背景趨于模糊,色調趨于均勻,這表明判別特征zd被成功提取,證明了特征解耦模塊設計方案的合理性。當α值逐漸升高,可變特征zv在重構特征z中所占的比例增大,生成的圖像與原始圖像的差異越大,這種可視化結果表明額外添加的類內可變特征zv在不影響圖像真實性的前提下,改變了圖像生成結果,增強生成模型結果的多樣性。

圖9 不同特征調節因子α 對應的重構圖像Fig.9 Images generated with different regulatory factor α
3.3.4 線性插值實驗
對于VAE 系列生成模型來說,編碼器所映射隱空間的規則性和連續性決定了生成圖像的質量。設計并完成了隱空間的線性插值實驗。
在潛在空間中兩個真實圖像的特征向量之間進行線性插值,將插值特征向量輸入到解碼器中獲得生成圖像,以證明編碼空間的連續性。如圖10所示,第一列和最后一列是真實圖像,其余5列是生成的插值圖像。按行從左至右觀察,可見生成圖像的背景、紋理、光強、飛機類型和旋轉角度按照最左側輸入圖像向最右側輸入圖像逐漸改變,這種平滑的變化過程表明本文的編碼空間是一個流暢的、連續的流形空間。語義豐富且合理的插值結果表明,本文的模型準確地“捕獲”了潛在空間中圖像的語義特征,而不僅僅是“記住”它們。

圖10 隱空間兩個真實圖像間的平滑插值圖像Fig.10 Smooth interpolation between two real images in latent space
為了驗證提出的小樣本圖像生成方法FD-VAE 對下游分類模型精度提升的增益效果,設計了一系列定量和定性實驗。
選用ResNet-18 作為下游分類模型,在FAIR1MAircrafts 數據集上測試。FAIR1M-Aircrafts 數據集包含9類民用飛機樣本,其中ARJ21型號的飛機樣本數量最少,為197 張,A220 型號的飛機樣本數量最多,為6 173張。整體數據集樣本數量不均衡較為明顯,9類樣本數量的平均數為2 400張,存在6類樣本數量低于平均數。
未做任何處理的FAIR1M-Aircrafts 數據集,稱為原始數據集A0。將A0 中樣本數量高于平均數的類別樣本隨機抽取2 400 張,樣本數量低于平均數的類別樣本分別利用FD-VAE 或傳統方法增廣為2 400 張,補充至原有數據集。傳統方法增廣選用50%隨機旋轉、25%色彩變換、25%隨機縮放的增廣方案。最終形成FD-VAE增廣的數據集A1,傳統方法增廣的對照數據集A2。各數據集樣本數量如表3所示,數據集A0、A1、A2均按照60%、20%、20%劃分為各自的訓練集、測試集和驗證集。

表3 三種測試數據集的樣本數量Table 3 Number of samples of three datasets
使用劃分好的未增廣數據集A0、增廣數據集A1、對照數據集A2 分別訓練ResNet18 網絡,分類準確率如表4所示。

表4 三種數據集的ResNet-18網絡分類準確率Table 4 Classification accuracy of ResNet-18 network on three datasets 單位:%
使用FD-VAE增廣后的數據集A1分類準確率相比原始數據集A0提升了2.3個百分點,相比傳統方法增廣的對照數據集A2 提升了2.05 個百分點,并在ARJ21 類別的飛機樣本上分類準確率達到99.79%。實驗結果驗證了提出的圖像增廣算法FD-VAE 在提升下游模型分類精度方面的有效性。
本文提出了一種用于少樣本條件下遙感飛機圖像生成的算法FD-VAE,在兩個公開數據集上定性和定量的測試其圖像生成能力,實驗結果表明生成網絡在小樣本圖像生成領域十分具有競爭力,生成圖像具有多樣性和可解釋性,FD-VAE的定量評價結果超過了目前較為先進的1-Shot和3-Shot模型。并且,使用提出的圖像生成方法增廣后的數據集有助于提升下游模型分類精度。