













黃丹丹,汪梅,張永高,等.基于改進DCGAN的對地觀測圖像生成方法[J].西安科技大學學報,2024,44(5):985-995.
HUANG Dandan,WANG Mei,ZHANG Yonggao,et al.Earth observation image generation method based "on improved DCGAN[J].Journal of Xi’an University of Science and Technology,2024,44(5):985-995.
摘要:為了研究無人機對地觀測圖像樣本的平衡性,提高對地觀測在深度學習中的應用,采用圖像生成方法對無人機對地觀測圖像進行大量生成;針對圖像生成模型在訓練時出現的穩定性和生成圖像的質量問題,提出一種基于改進DCGAN的對地觀測圖像生成方法。首先在DCGAN的生成器和判別器的網絡結構中增加批處理層,然后將判別器的優化器改進為隨機梯度下降,且生成器的優化器采用自適應學習率,最后改進模型的損失函數。結果表明:改進后的DCGAN網絡模型生成的數據與原始數據的統計特征相似,模型性能良好,相比于其他的GAN衍生模型,改進后的DCGAN模型更具有穩定性,在訓練過程中未出現模式崩塌的現象,模型生成圖像的FID分數值為4.631,比原始DCGAN模型低2.409,該方法生成的圖像質量更好,更加適用大規模的對地觀測圖像數據的生成。
關鍵詞:對地觀測;深度卷積生成對抗網絡;深度學習;圖像生成
中圖分類號:TP 391
Earth observation image generation method based on improved DCGAN
HUANG Dandan1,WANG Mei1,ZHANG Yonggao1,SHI Junjie1,
ZHANG Yan2,LI Yuancheng1
(1.College of Computer Science and Engineering,Xi’an University of Science and Technology,Xi’an 710054,China;
2.College of Electrical and Control Engineering,Xi’an University of Science and Technology,Xi’an 710054,China)
Abstract:In order to study the balance of UAV ground observation image samples and improve the application of ground observation in deep learning,an image generation method is used to generate a large number of UAV ground observation images.For the stability of the image generation model during training and the quality of the generated images,a ground observation image generation method based on improved DCGAN is proposed.Firstly,a batch processing layer is added to the network structure of the generator and discriminator of DCGAN;secondly,the optimizer of the discriminator is improved to stochastic gradient descent and the optimizer of the generator adopts adaptive learning rate,and finally,the loss function of the model is improved.The experimental results show that the data generated by the improved DCGAN network model is similar to the original data in terms of statistical characteristics,and the model performance is good.Compared with other GAN-derived models,the improved DCGAN model is more stable,and there is no pattern collapse during the training process,and the FID score value of the model-generated image is 4.631,which is 2.409% lower than that of the original DCGAN model,indicating that the quality of the image generated by the proposed method is very high.The FID score of the model generated image is 4.631,which is 2.409 lower than the original DCGAN model,indicating that the proposed method generates better the images in quality and is more suitable for large-scale Earth observation image data generation.
Key words:earth observation;deep convolutional generative adversarial networks;deep learning;image production
0引言
對地觀測是指利用航天航空飛行器和各種地面傳感平臺獲取地表和深層區域的時空信息[1],結合深度學習相關技術能夠實現對世界全球的實時觀測[2],是促進地球系統科學和空間信息科學發展的重要支柱[3],為環境監測和地球系統科學研究提供了基礎條件。隨著中國信息化建設的飛速發展,利用無人機進行航拍和偵查是對地觀測中的一個重要領域,無人機作為信息采集的獨特載體,憑借自身優勢,在航拍、農業、救災防災、野生動物觀測、測繪、電力巡線、影視、新聞報道等領域都有很大的應用[4],無人機航拍圖像與深度學習檢測技術的結合也逐漸成為當今的熱門研究方向。但由于無人機在采集對地觀測圖像時會受到各種惡劣天氣的干擾,使得所拍攝的圖像可用性不高,導致樣本不平衡,無法滿足后續應用需求。因此,處理不平衡的數據集也就是獲得大量清晰可識別的對地觀測圖像是至關重要的。
在以往的研究中,有許多方法被用來處理不平衡的數據。最直接的方法是重新采樣數據集,但這種方法在對地觀測過程中花費較多,成本太大;后來過采樣的方法也被用于平衡數據集,但由于存在重復的樣品,過采樣的方法很容易導致因過擬合而采樣不足的問題,而且由于只使用了部分樣本,在采樣過程中圖像信息可能會丟失,這些缺點都會導致數據處理不完善。而隨著深度學習的興起,對于處理不平衡的數據集方面,又有了新的突破[5]。深度學習可以通過學習深度非線性網絡結構來實現復雜函數逼近,并表征輸入數據的分布式表示,能夠應用于數據集的擴展和增強[6]。
在2014年以前,CHAWLA等提出了基于插值的合成少數過采樣技術(煙霧)來合成少數類別新樣本的方法,該方法防止了隨機過采樣中的過擬合問題,但容易出現樣本重疊的問題[7];VINCENT等提出了自動編碼器模型,該方法經過驗證得到的結果較差[8];YANG等提出了變分自編碼器模型,本質上是基于自編碼器的改進,經過試驗驗證后得到的結果也很差[9]。直到2014年,GOODFELLOW等提出了生成對抗網絡(Generative Adversarial Networks,GAN)模型[10],在GAN模型中,還有另一種判別模型可以幫助生成模型更好地監測數據的條件分布。GAN是深度學習發展的一個里程碑,在圖像領域的發展相對比較成熟,但其訓練過程和結果仍不穩定。
為了改善上述問題,NOWOZIN等提出了f-GAN模型,模型生成的結果具有較大的不確定性,且更多的是一種推論[11];MAO等提出了LSGAN(Least Square GAN)模型,LSGAN模型使用最小二乘損失函數代替傳統GAN模型中的交叉嫡損失函數,但模型在訓練時依然有可能不穩定[12];WU等提出了WGAN(Wasserstein GAN)模型,WGAN模型使用Earth-Mover 距離來計算真實數據的概率分布與生成數據的相似度,有很大可能出現生成的數據樣本質量較低,收斂失敗的問題[13]。這幾個模型對GAN模型的優化都是從目標函數優化的方法著手,雖然也解決了一部分問題,但模型訓練的穩定性和梯度消失問題仍沒有得到很好的處理,直到MIRZA等提出了CGAN(Conditional GAN)模型,CGAN模型網絡能夠朝著既定的方向生成樣本,但是在訓練時依然出現不穩定的現象[14];DCGAN(Deep Convolutional GAN)模型的提出為GAN模型的發展做出了突出貢獻,將卷積神經網絡(Convolutional Neural Network,CNN)和GAN模型結合起來,填補了CNN在有監督學習和無監督學習成功之間的差距[15-16],DCGAN模型在大多數訓練下是穩定的。
綜上所述,從目標函數方面優化GAN的圖像生成模型在訓練時會出現不穩定的問題,而從模型架構穩定方面優化的模型則忽略了生成圖像的質量問題,因此,選用模型架構較好的DCGAN模型,并對其進一步改進,用來對地觀測圖像的生成。針對原始DCGAN模型的缺陷和無人機對地觀測圖像的特點,首先在DCGAN的生成網絡和判別網絡中增加批處理層,其次將判別器的優化器改進為隨機梯度下降,最后改進模型中的損失函數。在對采集到的數據進行預處理后,使用改進后的DCGAN進行數據生成,對于新獲得的圖像數據,最后采用FID分數進行質量評估。
1DCGAN算法原理
1.1生成對抗網絡
生成對抗網絡(GAN)是一種深度學習模型,是近年來在復雜分布中最有前途的無監督學習方法之一[17]。該模型通過框架中2個模塊的相互博弈學習,分別是G(生成模型)和D(鑒別模型),產生了相當好的輸出。GAN的原理是:假設存在一個概率分布M,它被看作是一個黑盒,為了理解這個黑盒子中是什么,建立了2個模型G和D,G是另一個完全已知的概率分布,D是用來區分一個事件是從黑盒子M或由G產生的[18]。不斷調整G和D,直到D無法區分事件為止。
在生成器G中,G是一個輸入為z,輸出為x的函數,給定一個先驗分布Pprior(z),概率分布PG(x)由函數G定義;在鑒別器D中,D是一個輸入為x、輸出為標量(“實”或“假”)的函數,計算PG(x)和Pdata(x)之間的“差值”。
當D不能區分事件的來源時,可以認為G和M是相同的[19]。因此,對抗網絡的公式為
minGmaxDV(D,G)=Ex~Pdata(x)[logD(x)]+
Ez~PG(z)[log(1-D(G(z))]
(1)
式中x~Pdata(x)取自真實分布M;z~PG(z)取自模擬的分布G。
因此,當優化D時,D*G為最大V(D,G),而當優化G時,G*為最小V(D,G),優化后的公式為
D*G=argmaxDV(G,D)
(2)
G*=argminGV(G,D*G)
(3)
式中G為捕獲樣本數據的分布,用來生成一個類似于真實訓練數據的樣本,噪聲z服從一定的分布(均勻分布、高斯分布等);D為一種分類器,估計從訓練數據(而不是生成的數據)中得到一個樣本的概率。
如果樣本來自真實的訓練數據,D輸出較大的概率,否則,D輸出較小的概率。過程如圖1所示。
在GAN網絡訓練中,用梯度下降K次來訓練D,然后在每次迭代中梯度下降一次就訓練一次G。這是因為D訓練是一項非常耗時的操作,而且在有限的集合上,太多的訓練很容易過度擬合。基于GAN的不足,近些年來研究者們提出來很多改進的模型,并且模型在訓練過程更穩定。因此,選擇DCGAN作為數據生成模型。
1.2深度卷積生成對抗網絡
基于深度卷積的生成對抗網絡(DCGAN)是一個將最佳圖像處理模型CNN與創新的生成模型GAN相結合的神經網絡[20]。DCGAN的原理與GAN基本相同,只是用2個卷積神經網絡代替了上面的G和D,但并不是直接的替代,而是對卷積神經網絡的結構進行了一些改變,以提高樣本的質量和收斂速度[21]。相比于GAN模型,DCGAN 模型的架構發生了變化。首先,GAN使用空間池化方法,而DCGAN使用卷積步幅;其次,對于G中的上采樣過程,DCGAN實現了轉置卷積;最后,DCGAN不像GAN架構那樣需要完全連接層。DCGAN的結構如圖2所示[22]。
DCGAN的損失函數公式為
V(D,G)=Ex~Pdata(x)[logD(x)]+
Ez~Pz(z)[log(1-D(G(z)))]
(4)
上述式子是用于G的等式,用于D的損失函數公式為
LOSS(D)=-(logD1(x))+
log(1-D2(G(z)))
(5)
LOSS(G)=-(log(D2(G(z)))
(6)
式中D和G分別為判別器和生成器;G(z)為隨機向量生成的樣本;x為真實世界的數據。當損失函數減少時,就會產生最佳權重值。
2MSE-DCGAN算法
隨著深度學習和無人機技術的發展,GAN系列模型不斷被應用于無人機對地觀測研究中,其中被廣泛應用的就是DCGAN模型。由于DCGAN 模型中的卷積網絡有著強大的特征提取能力,因而具有重要的實際應用前景[23],不僅可以提高數據增強和合成能力、填補數據缺失和不完整性、進行地貌和氣象模擬,還能生成目標檢測和分類訓練數據等。這些應用有助于提升對地觀測數據的質量和多樣性,為環境科學、地理信息系統和氣候研究等提供支持[24]。然而DCGAN模型架構雖好,但是對GAN訓練穩定性來說是治標不治本,而且相比于GAN其他的衍生算法,也沒有更進一步的性能優化,針對這些問題,將結合無人機對地觀測圖像特點,首先對DCGAN 模型結構進行改進,提高模型的穩定性;其次改進模型的損失函數,平衡生成器和判別器的能力,提高模型的收斂速度;最后改進模型的優化器,提高模型生成的對地觀測圖像質量,平衡數據樣本集。將改進的DCGAN統稱為MSE-DCGAN,主要通過生成器G、判別器D和損失函數3個部分來描述具體的改進。
2.1改進生成器
在生成器中,首先使用分數步長卷積代替池化層,以提高生成圖像的質量,并在除最后一層外的其他層加入批量歸一化層,增加網絡學習的穩定性。改進后的生成器G網絡結構如圖3所示。
激活函數也是DCGAN模型中必不可少的,其作用是將模型的輸入進行非線性映射,使得神經網絡可以任意逼近任何非線性函數。
常用的有Sigmoid函數、Tanh函數、ReLU等,公式分別為
f(z)=11+exp(-z)
(7)
f(z)=exp(z)-exp(-z)exp(z)+exp(-z)
(8)
f(z)=max{0,z}
(9)
Sigmoid函數是將連續實值變換為0~1的輸出;Tanh函數的取值范圍為[-1,1]。為了提高DCGAN模型的性能,生成網絡除輸出層采用Tanh函數,其余層激活函數均為LeakyReLU函數。同樣,優化算法的選擇對模型來說也是重中之重,優化算法的不同,模型訓練的效果也有所不同。在深度學習中,常用的優化算法有批量梯度下降法(BGD)、隨機梯度下降法(SGD)、自適應學習率優化算法(Adam)等,為了使生成的圖像質量很好,生成器中的優化器采用Adam優化器,Adam優化器既可以加速優化,又可以自動調整學習率,能夠大大提高生成器的性能。
Adam公式表示為
mt=μmt-1+(1-μ)gt
(10)
nt=vnt-1+(1-v)g2t
(11)
t=mt1-μt
(12)
t=nt1-vt
(13)
Δθt=tt+ε*η
(14)
式中mt,nt分別為對梯度的一階矩估計和二階矩估計;
t,t為對mt,nt的校正,這樣可以近似為對期望的無偏估計。生成器的輸入為均勻分布的隨機噪聲,經過Reshape后得到大小為 4×4 的 512 層圖像。再經過一系列的4個分段卷積,就轉換成了一個128×128像素的圖像。
2.2改進判別器
在判別器中,使用步長卷積來代替池化層,要在中間層加入批量歸一化層,除最后一層使用Sigmoid激活函數,其他層均采用 LeakyReLu函數,為了使判別器的性能優良,采用SGD優化器來代替原來的優化器,SGD不僅能夠加快判別器優化的速度,還能提高模型的收斂速度。
SGD公式表示為
gt=SymbolQC@
θt-1f(θt-1)
(15)
Δθt=-η*gt
(16)
式中η為學習率;gt為梯度SGD完全依賴于當前Batch的梯度;η可理解為允許當前Batch的梯度在多大程度上影響參數更新。
判別器的輸入有2部分:一個是用無人機獲取的真實的對地觀測圖像數據,另一個是生成網絡生成的假的對地觀測圖像數據。判別器的作用是要判斷生成的對地觀測圖像的真實性,DCGAN模型的判別器網絡結構如圖4所示。
2.3改進損失函數
傳統的DCGAN模型以判別器為分類器,采用交叉熵損失函數。如第1節所述,在更新生成器時,這個損失函數會導致位于決策邊界但仍遠離真實數據的樣本出現梯度消失的問題。為了解決這個問題,使模型在訓練中趨于穩定和收斂,防止出現梯度消失的現象,用最小二乘改進DCGAN模型的損失函數。當判別器對真實樣本和生成器生成的‘假’樣本進行分類時,使用交叉熵損失函數雖然能夠分類正確,但是會導致那些在決策邊界被分類為真的,卻仍然遠離真實數據的假樣本(即生成器生成的樣本)不會繼續迭代,使判別器無法識別,從而在更新生成器的時候就會發生梯度彌散的問題。而用最小二乘改進后的損失函數則會使假樣本更接近決策邊界,能夠準確識別距離決策邊界太遠的假樣本,使整個網絡的學習過程更加穩定,最終生成出來的圖像質量更好。
假設對判別器使用a-b編碼方案,其中a和b分別是假數據和真實數據的標簽。改進后的DCGAN模型的損失函數可以表示為
minDV(D)=12Ex~pdata(x)[(D(x)-b)2]
+12Ez~pz(z)[(D(G(z))-a)2]
(17)
minGV(G)=12Ez~pz(z)[(D(G(z))-c)2]
(18)
式中c為G希望D相信假數據的值。
為了使模型訓練的速度更快,將模型設置成每訓練1次判別器,就訓練8次生成器,也就是每更新 1 次判別器的權重就需要更新8次生成器的權重,如此循環往復,生成器不斷地學習真實數據的特征分布,最終就會生成讓判別器無法辨別真假的對地觀測圖像。在整個訓練過程中,生成器與判別器保持基本相同的學習速率互相學習,隨著不斷地迭代更新,最終會達到納什均衡的效果。
3試驗和結果
3.1數據描述
無人機作為低空遙感平臺的運載工具[25],基本上分為2類:固定翼無人機和多旋翼無人機。文中主要使用無人機遙感系統來獲取數據,如圖5所示,低空遙感平臺主要由運載工具,"地面站以及微型傳感器系統構成。運載工具主要以四旋翼無人機,固定翼無人機等飛行器為主,可以在低空穩定飛行。地面站主要用于控制與監測運載工具飛行路線以及監控飛行的速度,高度,俯仰角等關鍵信息;通過地面站可以提前規劃飛行區域,路線,以及高度等重要參數。
數據集采用自建數據集,數據集是使用四旋翼無人機采集到的某高校校園場景圖。無人機設備通過調整后,再確定場景,即可拍攝得到圖像數據集。原始的圖像數據集首先會經過人工篩選,進而得到較為清晰的對地觀測圖像樣本集,一共有1 200張,圖像分辨率為960×540,部分原始數據集如圖6所示。
3.2評價指標
用來判斷生成圖像質量的評價指標一般就IS(Inception Score)、FID(Fréchet Inception Distance)2種。IS使用在ImageNet上預訓練的Inception V3 Network作為分類網絡,將生成器生成的圖像輸入到Inception V3 Network中,對該網絡輸出值(圖像所屬類別)做統計分析[26]。
IS的計算公式為
IS(G)=exp(Ex~PgDKL(p(yx)‖p(y)))
(19)
式中x~pg為x是從pg中生成的圖像樣本;DKL(p‖q)為分布p和q間的KL散度(衡量2個分部間距離);p(yx)為在給定圖像x下分類為y的概率(∈[0,1]1 000,表示ImageNet中的1 000類);p(y)=∫xp(yx)pg(x)為類別的邊緣分布;exp為便于比較最終計算的IS值。
IS值越大說明模型效果越好,但只考慮了DCGAN模型生成樣本的質量,并沒有考慮真實數據的影響,因此,選用FID值作為評價指標。FID[27]是用來計算真實圖像與生成圖像的特征向量間距離的一種度量。
假設真實分布Pr和生成分布Pg建模為多維高斯分布,參數分別為(μr,∑r)和(μg,∑g),其中μr和∑r分別為均值向量和協方差矩陣。
FID的計算公式為
d2((μr,∑r),(μg,∑g))=‖μr-μg‖2+
Tr(∑r+∑g-2(∑r∑g)12)
(20)
式中Tr為矩陣的跡(矩陣對角元之和)。
FID分數是表示生成圖像質量的度量。將真實數據(訓練數據集)的圖像質量與生成的輸出的圖像質量進行比較。FID得分越低,模型的表現就越好,看起來與數據集中給出的圖像高度相似。最好情況即是FID=0,2個圖像的質量相同。
3.3消融試驗
為了驗證MSE-DCGAN模型對無人機對地觀測圖像的生成效果,基于自建數據集對各個階段的改進措施設置了消融試驗,并與基準模型DCGAN進行了對比,結果見表1。
對于無人機對地觀測圖像的生成,DCGAN在每個階段都有一定的改進:①只對DCGAN生成器的改進,使得模型的損失值和生成圖像的FID值都有所下降,且FID值下降得較為明顯,表明DCGAN生成器的改進能夠有效地提升模型生成圖像的質量;②只對DCGAN 判別器的改進導致了損失值的大幅降低,而FID值的變化并不明顯,說明單一的生成器改進并不能達到提高生成圖像質量的目的;③對DCGAN損失函數的改進能夠使模型的損失值大幅降低,而FID值的變化并不明顯,說明損失函數的改進能夠有效降低模型的損失值,提高模型的收斂速度;而MSE-DCGAN模型通過對DCGAN生成器、判別器以及損失函數3個部分同時進行改進,不僅導致模型的損失值下降,FID值也有效降低,并且較為明顯,2個指標分別降低了2.409(FID)和43.8%(LOSS)。結果表明,本章改進后的模型能夠提升無人機對地觀測圖像生成的質量,有效提高了模型的性能。
3.4MSE-DCGAN試驗
基于改進MSE-DCGAN的對地觀測圖像的生成算法過程如圖7所示。利用MSE-DCGAN模型生成對地觀測圖像的試驗過程如下:首先將隨機噪聲輸入生成網絡中,生成“假”的樣本數據,再將生成的“假”樣本數據與實際圖像一起輸入到判別網絡,經過不斷的循環迭代,即可得到目標圖像。
經過試驗得知,MSE-DCGAN模型的各參數設置見表2,且在這些參數值下,MSE-DCGAN模型的網絡性能更好。
輸入均勻分布的隨機噪聲,輸出是分辨率為 128×128 的對地觀測圖像。經過10 000次訓練,對地觀測圖像如圖8所示。
從圖8可以看出,模型在訓練1 000次時,生成的圖像隱約能看出色彩分布,但是噪音較大,肉眼難以辨別;在訓練5 000次時,生成的圖像已隱約能看出場景分布,但是質量依舊很差;而在訓練10 000次后,生成的圖像清晰可見,能夠看出此時模型生成的圖像質量較好。
為驗證MSE-DCGAN模型生成的圖像質量更好,利用自建數據集設計了GAN、CGAN、DCGAN、LSGAN和MSE-DCGAN這5種網絡的對比試驗。在相同輸入條件和參數設置下,5個模型生成的圖像如圖9所示。在訓練10 000次后,GAN模型生成的圖像質量模糊不清,CGAN、LSGAN和DCGAN生成的圖像質量比GAN模型較好,但是可用性依然不高,而MSE-DCGAN模型生成的圖片質量與其他5種模型相比不僅質量清晰,而且可用性較高,MSE-DCGAN模型更適用于對地觀測圖像的生成。
為進一步驗證改進后的DCGAN模型的性能,現將改進模型的損失值曲線與其他生成模型的損失值曲線進行比較。GAN模型、CGAN模型、LSGAN模型、DCGAN模型和MSE-DCGAN模型的損失曲線如圖10所示。在0到6 000個epoch時,5個模型的損失曲線都在不斷震蕩,說明生成模型的生成器和判別器在不斷學習,互相博弈,使得生成的圖像越來越接近于真實圖像,但是由于此時訓練次數不夠,5個模型生成器生成圖像的質量都比較差,GAN模型、CGAN模型、LSGAN模型、DCGAN模型等4個模型的損失值都比MSE-DCGAN模型的損失值高。在6 000到10 000個epoch時,隨著訓練次數越來越高,GAN模型、CGAN模型和LSGAN模型出現模型崩塌現象,而DCGAN模型和MSE-DCGAN模型依舊能保持較好的性能,且生成器和判別器的損失曲線仍然在不斷震蕩,此時生成器已經可以較好地學習到真實圖像的特征,能夠生成質量較好的圖像,但是可以明顯看出,MSE-DCGAN模型的損失值是5個模型中最低的,模型性能較好。
從5個模型的損失曲線圖上看,MSE-DCGAN模型的損失曲線在0到10 000個epoch中,能夠一直保持較高的震蕩頻率且最終收斂,表示該模型性能良好,訓練過程較為穩定,且生成的圖像多樣性較好。為了更加直觀地表示模型的損失值對比,現計算5個模型的平均損失值,結果見表3。改進后的模型MSE-DCGAN的平均損失值為0.253,比GAN低0.736、比CGAN低0.533、比LSGAN低0.065、比DCGAN低0.438,表明文中模型的性能更好,收斂速度更快。
最后,將GAN模型、CGAN模型、LSGAN模型、DCGAN模型和MSE-DCGAN模型的參數設置成相同的值,在迭代10 000次后計算其生成圖像的FID值,結果見表4。
GAN模型和CGAN模型的FID值較高,DCGAN模型和LSGAN模型FID值大幅下降,說明這2個模型的性能有所提升。其中FID分數越低,其生成的圖像質量越高。而MSE-DCGAN模型的FID分數最低,說明文中模型的性能最好。其中MSE-DCGAN模型的FID值為 4.631,低于其他模型的FID值。MSE-DCGAN模型生成的對地觀測圖像質量優于其他的GAN衍生模型。
為了進一步驗證MSE-DCGAN模型的有效性和泛化能力,選用CelebA 數據集(人臉圖像)來驗證MSE-DCGAN的性能。 CelebA數據集包含10 177個名人身份的202 599張人臉圖片,每張圖片都做好了特征標記,包含人臉bbox標注框、5個人臉特征點坐標以及40個屬性標記。隨機選用圖像數據集中的1 000張圖片,在經過人工篩選和簡單預處理后作為原始數據集,在與上文相同的參數和試驗環境下,用MSE-DCGAN模型訓練10 000次后生成的圖片如圖11所示。
從圖11可以看出,MSE-DCGAN模型生成的人臉圖像比DCGAN模型生成的圖像更加清晰,為了更加清晰地表示改進模型的性能,計算DCGAN模型和MSE-DCGAN模型生成的圖像的FID值,結果見表5。
從表5可以看出,MSE-DCGAN模型在生成人臉圖像時,生成圖像的FID值比原始模型低3.132,表明改進后的模型MSE-DCGAN能夠應用于其它數據集的生成,適用性較廣,也更加證實文中模型能夠有效生成無人機對地觀測圖像數據,為下一步的對地觀測研究打下了基礎。
4結論
1)改進DCGAN模型的網絡結構和損失函數,提高了DCGAN模型的性能、生成圖像的質量以及訓練過程的穩定性。改進后的DCGAN模型解決了在訓練次數較高時模型出現不穩定和梯度消失的問題,模型損失率更低、生成的圖像的FID值比原始DCGAN低2.409。
2)與GAN模型、CGAN模型、LSGAN模型、DCGAN等模型生成的圖像進行對比后,得到所提出的方法訓練更加穩定,生成的圖像效果更好,損失度更低,且FID值比GAN模型低10.043,比CGAN模型低10.107,比LSGAN模型低3.02,比DCGAN低2.409,能夠解決對地觀測數據集不平衡的問題,為后續深度學習在對地觀測領域中的深度應用奠定了基礎。
3)將改進后的DCGAN模型用于公共數據集CelebA 數據集的生成時,發現最終生成的圖像質量較高,FID值比原始DCGAN模型的FID值更低,表明改進后的模型能夠應用于其他數據集的生成中,適用性廣,泛化能力強。
參考文獻(References):
[1]安培浚,高峰,曲建升.對地觀測系統未來發展趨勢及其技術需求[J].遙感技術與應用,2007,22(6):762-767.
AN Peijun,GAO Feng,QU Jiansheng.Trend and technology requirements of earth observing system[J].Remote Sensing Technology and Application,2007,22(6):762-767.
[2]林宗堅,李德仁,胥燕嬰.對地觀測技術最新進展評述[J].測繪科學,2011,36(4):5-8.
LIN Zongjian,LI Deren,XU Yanying.General review on the new progress of earth observations[J].Science of Surveying and Mapping,2011,36(4):5-8.
[3]王毅.國際新一代對地觀測系統的發展[J].地球科學進展,2005,20(9):980-989.
WANG Yi.The development of the earth observation system[J].Advance in Earth Sciences,2005,20(9):980-989.
[4]李運江,王冬,高旭.無人機激光掃描技術在礦區地形測量中的應用[J].山東煤炭科技,2023,41(8):207-210.
LI Yunjiang,WANG Dong,GAO Xu.Application of drone laser scanning technology in topographic survey of the mining area[J].Shandong Coal Science and Technology,2023,41(8):207-210.
[5]郭昕.統計區域合并的彩色圖像分割算法[J].西安科技大學學報,2015,35(3):392-396.
GUO Xin.Color image segmentation method of statistical region merging[J].Journal of Xi’an University of Science and Technology,2015,35(3):392-396.
[6]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[7]CHAWLA N V,BOWYER K W,HALL L O,et al.Smote:Synthetic minority oversampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[8]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Extracting and composing robust features with denoiseng "autoencoders[C]//Proceedings of the 25th international conference on Machine learning,2008:1096-1103.
[9]YANG X,TANG K H,ZHANG H W,et al.Auto-encoding scene graphs for image captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:10685-10694.
[10]GOODFELLOW I,JEAN P.Ge-nerative adversarial networks[J/OL].arXiv:1406.2661,2014.http://arxiv.org/abs/1406.2661.
[11]NOWOZIN S,CSEKE B,TOMIOKA R.F-GAN:Training generative neural samplers using variational divergence minimization[J].Advances in Neural Information Processing Systems,2016(6):271-279.
[12]MAO X D,LI Q,XIE H R,et al.Least squares generative adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV),2017:2813-2821.
[13]WU J Q,HUANG Z W,THOMA J,et al.Wasserstein divergence for GANs[C]//Proceedings of the European Conference on Computer Vision(ECCV),2018:653-668.
[14]MIRZA M,OSINDERO S.Conditional generative adversarial nets[J/OL].ArXiv:1411.1784,2014.http://arxiv.org/abs/1411.1784.
[15]RADFORD A,METZ L,CHINTALA S.Unsupervised representation learning with deep convolutional generative adversarial networks[J/OL].ArXiv:1511.06434,2015.http://arxiv.org/abs/1511.06434.
[16]汪美琴,袁偉偉,張繼業.生成對抗網絡GAN的研究綜述[J].計算機工程與設計,2021,42(12):3389-3395.
WANG Meiqin,YUAN Weiwei,ZHANG Jiye.Overview of research on generative adversarial network GAN[J].Computer Engineering and Design,2021,42(12):3389-3395.
[17]馬天,李凡卉,席潤韜,等.基于生成對抗網絡結合Transformer的半監督圖像增強方法[J].西安科技大學學報,2023,43(6):1207-1218.
MA Tian,LI Fanhui,XI Runtao,et al.Semi-supervised image enhancement method based on generative adversarial network combined with Transformer[J].Journal of Xi’an University of Science and Technology,2023,43(6):1207-1218.
[18]MAAYAN F A,IDIT D,EYAL K,et al.GAN based synthetic medical image augmentation for increased CNN performance in liver lesion classification[J].Neurocomputing,2018,321:321-331.
[19]SHAO S,WANG P,YAN R.Generative adversarial networks for data augmentation in machine fault diagnosis[J].Computers in Industry,2019,106:85-93.
[20]DU Y.DCGANbased data generation for process monitoring[C]//2019 IEEE 8th Data Driven Control and Learning Systems Conference,2019:410-415.
[21]王士斌,高梓雕,劉棟.一種基于有限數據的改進DCGAN圖像生成方法[J].河南師范大學學報(自然科學版),2023,51(6):39-46.
WANG Shibin,GAO ZI Diao,Liu Dong.An improved DCGAN image generation method based on limited data[J].Journal of Henan Normal University,2023,51(6):39-46.
[22]DEWI C,CHEN R C,LIU Y T,et al.Synthetic data ge-neration using DCGAN for improved traffic sign recognition[J].Neural Comput amp; Applic 34,2022:21465-21480.
[23]戚銀城,郎靜宜,趙振兵,等.結合注意力機制的相對GAN螺栓圖像生成[J].電測與儀表,2019,56(19):64-69.
QI Yincheng,LANG Jingyi,ZHAO Zhenbing,et al.Relativistic GAN for bolts image generation with attention mechanism[J].Electrical Measurement amp; Instrumentation,2019,56(19):64-69.
[24]張光華,王福豹,段渭軍.基于DCGAN的高分辨率天文圖像生成研究[J].計算機仿真,2019,36(12):200-204.
ZHANG Guanghua,WANG Fubao,DUAN Weijun.High resolution star galaxy image generation using deep con-volutional generative adversarial neural networks[J].Computer Simulation,2019,36(12):200-204.
[25]白由路,楊俐蘋,王磊,等.農業低空遙感技術及其應用前景[J].農業網絡信息,2010(1):5-7.
BAI Youlu,YANG Liping,WANG Lei,et al.The agriculture low-altitude remote sensing technology and its application prospect[J].Agriculture Network Information,2010(1):5-7.
[26]矯紅巖,楊彥利.基于DCGAN的絕緣子圖像生成方法[J].自動化與儀表,2021,36(1):5-9.
JIAO Hongyan,YANG Yanli.Imagegeneration method of insulator based on DCGAN[J].Automation amp; Instrumentation,2021,36(1):5-9.
[27]翁麗芬,李晨陽,許華榮.基于GAN的分步合成人臉素描生成算法[J].計算機輔助設計與圖形學學報,2023,35(9):1363-1373.
WENG Lifen,LI Chenyang,XU Huarong.Stepwise synthetic face sketch generation algorithm based on GAN[J].Journal of Computer-Aided Design amp; Computer Graphics,2023,35(9):1363-1373.
(責任編輯:劉潔)
收稿日期:2024-02-03
基金項目:國家重大專項項目(2022ZD0119005);西安市重點產業鏈核心技術攻關項目(23ZDCYJSGG0025-2022);陜西省自然科學基金項目(2023JC-YBMS-539)
第一作者:黃丹丹,女,河南信陽人,碩士研究生,E-mail:21208049005@stu.xust.edu.cn
通信作者:汪梅,女,安徽金寨人,教授,E-mail:wangm@xust.edu.cn