陳德海 潘韋馳 丁博文 黃艷國
(江西理工大學電氣工程及自動化學院 江西 贛州 341000)
目前全球對地觀測系統(EarthObservingSystem,EOS)的快速發展,使得大量的遙感影像數據成為人類了解地球信息的重要信息來源,從而導致影像數據中所包含的空間信息越來越豐富,影像分辨率越來越高,使得影像場景中復雜的語義信息難以提取。而這些信息在城市規劃、自然災害中有著不可或缺的作用。此外,類內差異性和類間相似性等問題的存在對遙感影像場景分類帶來了巨大的挑戰。雖然目前有許多研究方法被提出[1-4],但大部分的方法是基于圖像的低、中層特征,因此在遙感影像場景樣本有限甚至沒有的情況下,如何有效地提取遙感影像場景的高層語義特征,并研究出能有效提升大規模遙感影像場景分類性能的方法是目前遙感信息領域亟待解決的問題。
近幾年,深度學習因其強大的學習能力被應用到諸多領域[5-7],同時也被不少學者應用于遙感影像場景分類[8-13]中,取得了不錯的效果。然而,在使用卷積神經網絡進行遙感影像場景分類時,通常只是單一地通過堆疊卷積層來提取遙感影像場景的高層特征,由于遙感影像中存在著復雜的空間特征信息,使得遙感影像在場景分類中分類精度不理想。文獻[14]利用卷積神經網絡進行場景分類,同時在訓練過程中通過整合額外的光譜信息計算出深度特征,進而可以進行高分辨率遙感圖像中建筑物以及非建筑物的識別。文獻[15]針對遙感場景分類,分析了三種卷積神經網絡策略用以提高分類精度,降低訓練參數。文獻[16]通過聯合顯著性采樣和卷積神經網絡進行遙感場景分類,但對于類內差異性和類間相似性等問題,顯著性算法無法識別。遙感影像場景分類的域適應方法在近幾年也有學者進行研究[17-20],其在域適應問題上的特點在于:其一,源域與目標域遙感影像場景特征空間分布不同;其二,遙感影像場景中含有的特征復雜,也就意味著需要大量的遙感影像場景樣本支持。
針對上述情況,本文提出了一種重校準特征融合對抗域適應的分類方法,該方法首先將SEblock嵌入VggNet16中學習遙感影像場景的細粒度特征,然后利用對抗域適應方法減少源域和目標域遙感影像場景的特征差異,提高模型對目標域遙感影像場景的分類精度以及泛化能力。實驗中構建一個大型遙感影像場景數據集作為源域并利用UCMerced_LandUse和SIRI-WHU兩個通用數據集作為目標域,用來驗證本文方法的有效性。
文獻[21]通過研究網絡結構中通道之間的關系,提出一種新的結構單元——縮聚與激發模塊(SqueezeandExcitationblock)。其目標是通過卷積特征通道之間的相互依賴性來提高網絡生成的特征圖的質量,允許網絡執行特征重新校準。通過該機制,它可以學習使用全局信息來選擇性地強調有效的信息特征并抑制干擾特征。SEblock分為3個步驟。首先通過縮聚操作用全局平均池化(GAP)將輸入的特征圖進行統計求和,獲取全局信息。具體公式如下:
式中:Z∈RC,H、W表示特征圖的高度和寬度;Zc表示經過全局平均池化后特征圖的集合。
其次,使用激發操作捕獲通道之間的依賴性,對縮聚操作中的特征圖進行處理。具體公式如下:
s=σ(W2δ(W1z))

最后,進行對特征的重校準操作,公式如下:
yc=Fscale(uc,sc)=sc·uc
式中:yc表示經過重校準后的二維矩陣。通過將特征圖uc與權重sc相乘,得到第c個通道的輸出矩陣yc。
生成式對抗模型GANs(Generative adversarial networks)是Goodfellow等[22]提出的一種深度學習框架,其在圖像處理和計算機視覺領域中的應用尤為成熟。GANs的核心思想來源于博弈論,由生成器G與判別器D組成。生成器從圖像的特征分布采樣出隨機噪聲并輸入到生成器中,產生生成樣本,然后通過判別器辨別樣本的真實性,生成器和判別器二者進行相互對抗更新迭代,使生成器能夠擬合真實樣本的特征。GANs的實質是一個極大極小博弈(minimax game)優化問題,其數學描述如下:
Ez~pz(z)[log(1-D(G(z)))]
式中:x表示來自真實樣本Pdata(x)中的真實圖像;z表示來自采樣噪聲Pz(z)中的向量;E為數學期望值;D(x)表示數據通過判別器D后的輸出;G(z)表示生成的圖像。通過訓練判別器D以盡可能地去分配真實樣本與生成器G中生成樣本的標簽,同時訓練生成器G以最小化log(1-D(G(z))),即最大化判別器的損失值。
在給定生成器G的條件下,需要極小化V(G,D)來求得最優解。可將V(G,D)寫成積分形式:

式中:pdata(x)與pg(x)分別是真實樣本與生成樣本的概率密度函數。此時求解上式的極小值。解的最優解如下所示:

2·JS(pdata(x)‖pg(x))-2log2
由上述推導可知,極大極小博弈問題此時已轉化為真實樣本與生成樣本分布之間的JS散度問題,當pdata(x)=pg(x)時,模型達到最優。所以,以V(G,D)作為損失函數,最終G(z)的輸出將趨近于真實樣本分布。為此,本文將對抗學習方法引入到遙感影像場景分類的對抗域適應中,最小化源域遙感影像場景和目標域遙感影像場景的特征分布差異。
對抗域適應方法需要對源域影像特征與目標域影像特征進行差異性訓練,而遙感影像具有地理特征復雜、空間信息豐富等特點,往往忽略了一些細粒度特征,增加場景分類的難度,而僅通過單一的堆疊卷積層,無法獲得遙感影像場景的重要特征,從而導致分類不精確。因此受到SE block啟發,通過將SE block嵌入到VggNet中,提高SE block提取有效遙感場景影像特征抑制場景中干擾特征的效果,提高網絡提取影響場景細粒度特征的能力。網絡結構設計如圖1所示。

圖1 網絡結構設計
網絡結構設計步驟為:在每個Vgg block的卷積變換之后嵌入SE block,對每個遙感場景特征通道的信息進行權重自動分配;通過Scale操作加權到最初遙感場景特征圖中,以增強整個模型的分類性能。
通過該結構,既可以學習影像場景的全局信息,獲得遙感場景特征的健壯性表示,還可以根據每個特征通道的重要程度去增強有效特征權重并抑制干擾特征權重,從而實現特征通道的自適應校準,提高遙感影像場景的分類精度,使得對抗域適應方法訓練得到的差異性特征更加有效。


圖2 本文總體框架
對于源域遙感影像場景部分,訓練過程中本文使用標準監督損失函數,公式如下:
式中:Xs表示源域的遙感影像場景數據集;Ys表示數據集的標簽;Ms表示源域的特征映射;C表示為源域分類器。Ⅱ[·]是一個指示函數,取值規則為:[表達式為真]=1,[表達式為假]=0。
為了最小化源域與目標域遙感影像場景特征差異,判別數據點來自于源域還是目標域。在對抗域適應中,判別器D與最小化特征映射M的損失函數如下式所示:
Ext~Xt[logD(Mt(Xt))]
式中:Xt為目標域遙感影像場景;Mt為目標域的特征映射;D為判別器。在對抗域適應階段,主要目的是正則化SE-VggNet提取到的源域與目標域的遙感影像場景特征,然后最小化兩者的映射分布,通過源域分類器C對目標域特征進行分類。判別網絡結構如表1所示。

表1 判別網絡結構
目前還未有公開適用于對抗域方法的數據集,因此需要一個大型的源域數據集。本文的源域數據集由RSI-CB256[23]與NWPU-RESISC45[24]構成。RSI-CB256數據集利用眾包的OSM的POI數據標注了全球范圍內的大規模遙感影像,該數據集包含35類影像場景,共36 000幅圖片,每類約為690幅,數據來源于Google Earth和Bing Maps,空間分辨率為0.22~3 m。NWPU-RESISC45數據集包含45類場景圖片,每類700幅,與RSI-CB256數據集相比只有14個類別是重復的,其余31個類別是不重復的,該數據集分辨率為0.2~30 m。以上2種數據集共同構成本文的源域數據集,總計67 500幅,影像場景,所有影像場景統一尺寸為224×224,部分影像場景示例如圖3所示。

沙漠 高爾夫球場 海港 森林圖3 源域數據集部分示例
實驗數據集1為UCMerced_LandUse data set(University of California Merced Land-Use data set),選自美國地質勘探局國家城市地圖航空遙感影像。數據集含有停車場、森林、高爾夫球場等21類影像場景,每類含有100幅尺寸為256×256的遙感影像,空間分辨率為0.3 m,部分圖像示例如圖4所示。

農田 飛機 棒球場 海灘圖4 UCMerced_LandUse數據集部分示例
實驗數據集2為SIRI-WHU數據集,選自Google Earth遙感影像數據,共12類,每類包含200幅尺寸為200×200的遙感場景影像,空間分辨率為2 m,部分圖像示例如圖5所示。

工業區 商業區 海港 居民區圖5 SIRI-WHU數據集部分示例
本文實驗在Tensorflow框架下進行,硬件環境為Amazon EC2的P2.xlarge實例,該實例的GPU型號為Nvidia Tesla K80。
實驗采用3個指標用于評價本文方法的分類性能:總體分類精度、混淆矩陣、Kappa系數。
總體分類精度定義為:
式中:N代表總體樣本數量;S代表分類正確的樣本數量。
混淆矩陣用于評估各類遙感影像場景之間的混淆程度,矩陣的行和列分別代表真實與預測的遙感場景,矩陣中任意一個元素xij代表將第i種遙感場景預測為第j種遙感場景的數量占該類別總數的比例。
Kappa系數由混淆矩陣計算得出,公式如下:
式中:N為總體樣本數;K為遙感影像場景類別數;xii是混淆矩陣的對角元素;ai是該矩陣第i行元素總和;bi是該矩陣第i列元素總和。
UCM_LandUse數據集實驗結果如圖6所示,總體分類精度為89.45%,Kappa系數為0.882。從混淆矩陣可以看出21類遙感影像場景,18類場景分類精度能達到84%以上,其中10類場景分類精度能達到95%以上。由于農田與高爾夫球場包含植被、土地等特征信息,導致分類精度僅有81%和82%,而由于密集住宅區包含大量的空間特征信息,如建筑物、街道等,易與其他場景影像產生特征交叉容易產生混淆,導致分類精度僅有51%,但大部分影像場景分類精度較高,表明本文方法能夠有效減少源域和目標域遙感影像場景的特征差異并且能夠提高對于目標域遙感影像場景數據集的分類精度。

圖6 UCM_LandUse數據集混淆矩陣
SIRI-WHU數據集實驗結果如圖7所示,總體分類精度為98.12%,Kappa系數為0.978。由混淆矩陣可以看出12類遙感影像場景的分類精度均在95%以上,其中農田、商業區、水源場景達到了100%的分類精度,立交橋與池塘場景的分類精度與其他場景相比分類精度較低,分別為95%與96%,但總體上表明本文方法對該數據集的分類性能好,能夠有效克服源域和目標域遙感影像場景的特征分布問題。UCM_LandUse數據集與SIRI-WHU數據集相比分類精度較低,主要是因為居民區場景的特征相似程度高以及農田與高爾夫球場存在特征相似的情況,容易使模型產生混淆。綜上所述,本文針對遙感影像場景分類提出的結合校準特征與對抗域適應的方法分類精度高,能夠有效解決源域和目標域遙感影像場景特征分布不同導致目標域數據集分類精度較低的問題。

圖7 SIRI-WHU數據集混淆矩陣
為了進一步說明方法的有效性,將本文方法與現有方法進行對比分析。對比的方法有:(1) Source Only利用源域數據集和卷積神經網絡學習場景影像的特征,利用該特征直接對目標域數據進行分類,不使用對抗域適應方法;(2) MMD[25]使用MMD損失函數最小化源域和目標域的特征分布差異,使用最后一個全連接層輸出計算MMD損失;(3) DANN[26]利用對抗學習方法最小化源域與目標域的特征分布,在域分類器之前加入了一個梯度反轉層。各方法精度如表2所示。

表2 各方法分類精度 %
由表2可知,在UCM_LandUse和SIRI-WHU中,本文方法的分類精度要優于其他方法,與MMD方法相比分類精度提高了6.01%和3.29%,與DANN方法相比分類精度提高了6.58%和4.29%。結果表明,結合校準特征的對抗域適應方法在遙感影像場景分類上有明顯的優勢,具有較好的分類性能,同時對于不同數據集有較高的泛化能力。
本文提出結合校準特征與對抗域適應的遙感影像場景分類方法,利用在VggNet16中嵌入SE block進行特征重校準,提高有效特征權重并抑制干擾特征權重,使得網絡訓練出更能體現遙感影像場景的有效特征,然后利用對抗域適應方法降低源域與目標域遙感影像場景特征差異并實現遙感影像場景分類。在兩種公開數據集UCM_LandUse和SIRI-WHU上的實驗表明,本文方法可提取到遙感影像場景的有效特征,相較于其他方法在分類精度和泛化能力上有明顯的優勢,也為未來的無監督分類方法提供了一種新的思路。