宋中山,梁家銳,鄭 祿*,劉振宇,帖 軍
(1.中南民族大學計算機科學學院,武漢 430074;2.湖北省制造企業智能管理工程技術研究中心(中南民族大學),武漢 430074;3.中南民族大學資源與環境學院,武漢 430074)
(*通信作者電子郵箱lu2008@mail.scuec.edu.cn)
遙感場景分類是航空和衛星圖像分析領域的一個活躍的研究課題,它根據圖像內容將場景圖像劃分為不同的類別。由于遙感圖像場景的地物類型較為復雜,因此對其精確分類是一項艱巨的任務[1-2]。
遙感場景分類的早期研究主要是基于手工制作的特征,利用手工提取后的特征對其進行分類。如Swain 等[3]提出的顏色直方圖和Lowe[4]提出的尺度不變特征變換(Scale Invariant Feature Transform,SIFT)等分別利用了圖像的顏色特征以及形狀特征。為了彌補手工制作特征的局限性,通過從圖像中學習特征而不是依靠手動設計的特征,如Hotelling[5]提出了主成分分析(Principal Component Analysis,PCA),Olshausen 等[6]提出了K-均值聚類、稀疏編碼方法,能在降低手工設計特征成本的同時更精準地對圖像進行分類。而在深度卷積神經網絡上,從Hinton 等[7]在深度特征學習方面取得了突破,以及Krizhecsky 等[8]提出的AlexNet的巨大成功開始,研究工作相繼在卷積神經網絡(Convolution Neural Network,CNN)模型上有進一步的發展,如Simonyan 等[9]提 出 的VGGNet,Szegedy 等[10]提出的GoogleNet。在優化深層次神經網絡提高可訓練以及訓練的速度上,He等[11]提出了ResNet殘差網絡和Cheng 等[12]提出了DenseNet,解決了深層網絡訓練難和訓練慢的問題。近來研究已經開始利用這些功能強大的CNN 來對遙感場景進行分類。如Liang[13]采用轉移學習的方法來微調現有的CNN 用于遙感場景分類;王鑫等[14]利用CNN結合多核學習的方法進行分類;趙春暉等[15]采用視覺詞袋結合CNN 的方法進行分類;Wang 等[16]利用預訓練的ResNet 的完全連接層來提取遙感場景表示;陳雅瓊等[17]等利用微調的AlexNet模型對遙感場景圖像進行分類,其結果表明利用深度學習的方法優于傳統遙感場景分類方法。但是,在直接利用CNN 最后一層進行分類的方法中會忽略來自CNN 不同層次層的功能。而受到RestNet 以及DenseNet 等多層卷積特征的互補性啟發,研究工作開始利用不同層的特征組合進行分類。同時,許多研究[18]也證明了頂部卷積層可以有效地捕獲語義特征,而底部卷積層可以提取外觀特征,為此也有一部分工作通過聚合不同的卷積層特征互補的方式來提高分類的精度。如Wang 等[19]提出了一種遞歸注意網絡結構來捕獲遙感場景關鍵區域的特征;Sun 等[20]提出了一種端到端的門控雙向網絡(Gated Bidirectional Network,GBNet),以在統一的卷積網絡中進行分層特征聚合和干擾信息消除。
文獻[20]提出的方法局限于網絡中的卷積特征部分,而且在做底層與頂層特征互補時,在統一特征尺寸的過程中,淺層卷積特征的信息丟失過多。而淺層卷積特征是遙感場景外觀特征較豐富的一部分,若能充分利用淺層的外觀特征信息,對于解決遙感圖像數據集存在的紋理、形狀和顏色上存在較大差別,以及因拍攝高度和角度不同存在的尺度差異導致的模型分類精度不高的問題,提高遙感場景分類精度會有一定的促進作用。
為此,本文提出了一種端到端的,利用主動旋轉聚合來融合不同尺度特征,并通過雙向門控提高淺層特征與頂層特征互補性的特征融合補償卷積神經網絡(Feature Aggregation Compensation CNN,FAC-CNN),以在進行分層特征聚合時減少淺層卷積特征信息的丟失,提高網絡捕獲不同旋轉信息以及尺度信息的能力,從而提升模型的泛化能力。
由于遙感影像的獲取時間、位置的不同,導致對同一類場景的獲取時存在因為方向不一致而產生的紋理不一致、形狀大小有明顯的差異;同時也因為光照等環境因素的影響使得同一類別的地物類型顏色差異大。如圖1 所示為同一類別的地物類型遙感圖像在紋理、形狀和顏色上存在的差別。

圖1 同類圖像的類內差異示例Fig.1 Examples of intra-class differences of similar images
拍攝是在不同高度、多個角度和多個方向拍攝的,也會導致獲取到的圖像有著尺度上差異,如圖2所示。
經典和有效的特征聚合操作可以分為兩類:級聯聚合和算術聚合。級聯聚合是指在特征通道上堆疊卷積特征圖,如圖3 所示;算術聚合是指在相同的空間位置和通道上進行卷積特征的和、乘或平均等運算,如圖4 所示。其中圖3 與圖4的feature1、feature2 和feature3 為待聚合特征,feature4 為聚合后的特征。

圖3 級聯聚合示意圖Fig.3 Schematic diagram of cascade aggregation

圖4 算術聚合示意圖Fig.4 Schematic diagram of arithmetic aggregation
1)級聯聚合。
由于CNN 的固有層次結構,不同的卷積特征xi可以串聯以生成具有豐富特征的。在進行級聯聚合操作之前,為了通過堆疊卷積特征圖來實現聚合,需要將要聚合的所有卷積特征調整為相同大小[H,W],由于是堆疊方式的聚合所以通道數C可以是任意的。級聯聚合可以表示為:

2)算術聚合。

遙感場景分類可以理解為通過提取場景特征,再以不同的特征區分為不同的類別的過程。本文以VGG-16 作為特征提取器,根據文獻[20]所做先驗工作,選取conv3-3、conv5-1和conv5-3作為頂層高級語義特征組合,以用作特征互補。同時,通過定量分析方法(本文以conv3-3 之前的卷積特征做定量分析),在淺層卷積特征中選取3 個卷積特征層進行聚合提取淺層的外觀卷積特征,并將提取到的高級語義特征、外觀卷積特征與全局特征合并。最終通過sofmax 層進行場景分類。模型結構如圖5 所示,左框部分為淺層特征編碼提取淺層外觀卷積特征,右邊點虛線框部分為密集連接提取高級語義特征,實線框部分為門控連接,促進兩個卷積特征的互補性,其中conv3-1 為多尺度特征融合后得到的特征圖,圖5 中省略了多尺度特征提取部分的另兩個分支結構,最后的1×1×C中的C為分類的類別數。

圖5 FAC-CNN模型結構Fig.5 FAC-CNN model structure
針對遙感圖像由于拍攝的位置和方向不同產生的形狀紋理差別較大的問題,本文提出了一種主動旋轉特征融合的方式,通過主動旋轉后結合級聯聚合的方式來使融合后的特征圖包含不同的方向信息,以使模型擁有對從未見過的旋轉樣本的泛化能力。
通過數據增強的方式(如旋轉)擴充數據集可以使模型具備獲得全局或局部旋轉的捕獲能力,同樣,通過主動旋轉的聚合方式可以在未進行數據增強的情況下有效地捕獲旋轉信息。如圖6 所示,將特征圖旋轉不同的角度后進行級聯聚合使不同的維度上保留了方向信息,增強特征圖的淺層特征表達能力。聚合特征由每個卷積特征xi經過主動旋轉后串聯生成。主動旋轉聚合可表示為:


圖6 主動旋轉變換示例Fig.6 Active rotation transformation example
圖7(a)可視化展示了淺層外觀卷積特征提取融合得到的特征圖,圖7(b)展示了未改進前VGG 的底層特征圖,可以發現融合后的特征能有效地捕獲到圖像的結構特征并具有方向性。

圖7 淺層卷積特征可視化Fig.7 Visualization of shallow convolution features
針對遙感圖像由于拍攝高度和角度的不同存在的尺度差異的問題,與其他方法利用圖像金字塔將不同尺度圖像輸入多個網絡后將最后的全連接層特征融合不同的是,本文探討了一種直接通過改進的網絡分支結構形式來提取不同尺度特征方式,以此來提高模型對不同尺度圖像的識別能力,如圖8所示。對于加州大學默塞德分校(University of California Merced,UC Merced)數據集、西北工業大學遙感場景分類數據集(Northwestern Polytechnical University REmote Sensing Image Scene Classification,NWPU-RESISC)中的原始圖像大小為256×256 像素,采用原圖縮小為224×224 像素后采用拉普拉斯金字塔向上采樣與高斯圖像金字塔向下采樣分別得到448×448 像素和112×112 像素的圖像。對于航空影像數據集(Aerial Image Dataset,AID)以及武漢大學遙感影像WHURS19(Wuhan University Remote Sensing)圖像數據集原始圖像大小為600×600 像素,進行等比例縮小至448×448 后采用高斯圖像金字塔進行向下采樣得到224×224 和112×112 像素的圖像。將獲取到的不同尺度的圖像輸入到網絡的不同分支中提取特征,分支網絡可以提取到網絡的底層特征所包含豐富的形狀和紋理信息。上部分為大尺度圖像的特征提取網絡,中間部分的為VGG-16的網絡前5個卷積層,下部分為小尺度圖像的特征提取網絡,最后通過主動旋轉融合方式將提取到的不同尺度的特征表示進行融合,并作為conv3-2 的特征輸入。

圖8 多尺度特征提取結構Fig.8 Multi-scale feature extraction structure
通過上、中和下三個分支的卷積池化操作將圖像尺寸改變為56×56×256,提取圖像不同尺度下的特征后利用主動旋轉聚合的方式將不同尺度的特征融合在一起得到淺層特征表達能力強的特征圖。該特征圖經過1×1 卷積改變通道數為256 后作為conv3-1 繼續輸入網絡conv3-2 中進一步提取高層次的語義特征,同時該特征也作為下文中的淺層卷積編碼的一部分加強特征的表達能力,促進模型分類精度的提升。
對于遙感場景分類,不同層的卷積特征是互補的。有效地利用不同層次卷積特征所包含的空間結構信息,可以提高分類精度。如文獻[21-22]利用淺層的外觀信息與頂層的高級語義信息來提高分類精度。因此,設計特征聚合操作充分利用不同層的輔助信息對于提高分類精度至關重要。針對頂層與底層特征聚合過程中淺層信息丟失過多的問題,本文提出了淺層卷積編碼的方式以提高模型捕獲淺層外觀信息的能力。淺層卷積編碼與傳統的分別編碼各層特征的編碼方法不同,淺層卷積特征編碼同時將所有中間卷積特征作為輸入以生成卷積表示。首先,通過池化操作將不同卷積特征大小都統一成一個尺寸。其次,通過1×1 卷積操作將不同通道數的卷積特征統一成同一通道數,再利用線性整流函數(Rectified Linear Unit,ReLU)操作增強通道上卷積特征之間的互補性。1×1 卷積后緊跟ReLU 運算是一種簡單有效地增加跨通道特征非線性相互作用的操作[10,23]。最后,利用主動旋轉聚合的方式將各卷積特征聚合。
通過外觀補償特征選取的定量分析中,得出conv1-2、conv2-2 和conv3-1 的組合對于各數據集的準確率影響最高。選取的conv1-2、conv2-2、conv3-1 尺寸分別為224×224×64,112×112×128 和56×56×256。conv1-2 經過兩步2×2 的最大池化,conv2-2 經過一步2×2 的最大池化,conv1-2 與conv2-2 的長寬都變為56×56,再利用主動旋轉聚合將不同的卷積特征合并,得到56×56×448 的卷積特征,這個卷積特征再經過1×1 的卷積以及ReLU 操作后,將通道數統一成1 024,以便于與密集連接層提取到的頂層卷積特征進行互補,并利用4×4 的最大池化操作將卷積特征大小調整14×14。最終得到編碼好的大小為14×14,通道數為1 024 的淺層外觀卷積特征。此外,采用L2 歸一化對通道間的卷積特征進行歸一化[24]。因為不同卷積特征的值的大小是完全不同的,L2 歸一化可以有效地避免過擬合問題。通道L2歸一化的公式表示為:

串聯的層次網絡在深度增加時,當輸入或者梯度的信息通過很多層之后,可能會出現梯度消失或梯度爆炸。文獻[11-12]通過利用殘差網絡與密集網絡等跳躍連接的機制,很好地解決了此問題;同時,由于不需要重新學習冗余特征圖,這種密集連接相較于傳統連接方式只需要更少的參數也更易于訓練。本文的高級語義特征提取部分基于此思想,在端到端的FAC-CNN 提取頂層高級語義卷積表示的過程時,采用密集連接機制,將conv3-3作為conv5-1的輸入,conv3-3和conv5-1 作為conv5-3 的輸入,最后得到的卷積特征表示作為頂層高級語義卷積特征,如圖9 所示,其中:x1、x2和x3分別對應conv3-3、conv5-1、conv5-3。具體細節如下。

圖9 密集連接Fig.9 Dense connection


最終得到的作為頂層高級語義卷積特征表示,作為最終的場景分類的一部分卷積特征。
通過門控機制,可以有效地利用淺層外觀卷積特征與頂層高級語義卷積特征的互補性以提高遙感場景分類的精度。本文采用了文獻[20]中的門控機制,以更好地提升淺層外觀卷積特征與頂層高級語義卷積特征的互補性。
利用門控函數控制淺層外觀卷積特征xs互補信息向傳遞,如圖10所示。

圖10 雙向門控連接Fig.10 Bidirectional gated connection
激勵門控函數的結構,生成C(C為xs的通道數)維門控向量gs∈R1×C,每個元素取值{0,1}。xs的第i個通道乘以gs的第i個元素,消除干擾信息。將xs饋送到一個全局平均池化層,生成一個向量,將這個1×1×C的向量饋送到一個與ReLU激活函數相結合的全連通層,以及一個與sigmoid 激活函數相結合的全連通層,生成gs。gs可以表示為:

經過門控連接獲得淺層卷積特征xs的補償信息后,最終可表示為:

將得到的淺層外觀卷積特征與xs頂層高級語義卷積特征通過全局平均池化操作,將兩個特征池化為1×1×1 024的特征向量,合并后與全局特征合并得到1×1×4 096 的特征向量,最后采用線性softmax 分類器進行分類。本文的FAC-CNN 采用交叉熵損失函數。如下所示:

其中:xcon是淺層外觀卷積特征與高級語義特征連接后的特征;y是分類場景標簽;θ是線性分類器的參數;K是遙感場景類別的數量;N是訓練批次的大小;1{?}是一個指標函數(如果yn等于j,則1{yn=j}=1;否則1{yn=j}=0)。
本文場景分類方法的總體技術路線如圖11所示。

圖11 總體技術路線圖Fig.11 Overall technology roadmap
為驗證本文方法有效性,在UC Merced、NWPU-RESISC、AID 和WHU-RS19 四個數據集上進行實驗。為公平比較,數據集的設置與其他方法一致,選取指定比例的數據,將一部分作為訓練樣本剩余部分作為測試樣本,UC Merced 采用50%和80%的數據作為訓練樣本,NWPU-RESISC 采用10%和20%的數據作為訓練樣本,AID 采用20%和50%的數據作為訓練樣本,WHU-RS19采用40%和60%的數據作為訓練樣本。
UC Merced 數據集從美國地質勘探局(United States Geological Survey,USGS)國家地圖城市地區圖像集[25]下載。該數據集包含21 個土地使用場景。每個場景包含100 張圖像,共2 100 張256×256像素,空間分辨率為1ft(1 ft=30.480cm)。圖12給出了部分示例。

圖12 UC Merced數據集21類遙感圖像示例Fig.12 Examples of 21 types of remote sensing images in UC Merced dataset
NWPU-RESISC數據集[26]是由西北工業大學(Northwestern Polytechnical University,NWPU)創建的遙感圖像場景分類(RESISC)的公開基準。該數據集包含31 500 張圖像,涵蓋45個場景類別,每個類別700個圖像。
AID數據集是由華中科技大學和武漢大學于2017年發布的遙感數據集,它包含30 個遙感場景類別,每個類別有220~420張,整體共計10 000張600×600像素的圖像。
WHU-RS19 數據集是由武漢大學于2011 年發布的遙感數據集,它包含19 個遙感場景類別,總共有1 005 張,每個類別至少包含50張600×600像素的圖像。
USGS數據集大小為10 000×9 000像素,空間分辨率為2 ft的大幅遙感影像如圖13 所示,主要包含居住區、農場、森林和停車場四個類別。

圖13 USGS遙感影像Fig.13 USGS remote sensing image
本文提出的FAC-CNN 中端到端訓練的詳細參數設置如表1 所示。初始學習率設置為0.001,在經過50 個epoch 后學習率除以10,批大小設置為32,采用隨機梯度下降算法訓練參數且動量設置為0.9,使用ImageNet 上預訓練的VGG-16 初始化網絡模型的權重參數。分支網絡權重初始化采用XAvier初始化。

表1 超參數設置Tab.1 Hyperparameter setting
實驗結果采用平均總體分類準確率、標準差和混淆矩陣作為分類性能的評估方法。總體分類準確率計算方法如式(13)所示:

其中:N為測試樣本的總數;T為各類型分類正確數的總和。
平均總體分類準確率和標準差的計算公式如式(14)~(15)所示:

其中:M為重復實驗的次數,本文M為10。
混淆矩陣從不同的側面反映了圖像分類的精度,可以直觀地展示各類型之間的混淆比率。其中行為真實類型,列為預測類型。矩陣的對角線元素為各類型的分類準確率,其他任意元素xi,j代表第i類被誤識為第j類場景占該類型的比率。
分析conv3-3 之前的conv1-1、conv1-2、conv2-1、conv2-2、conv3-1 以及conv3-2 共有6 個卷積特征,從中選取3 個特征,共20 種組合。在僅作為特征信息輔助,驗證不同組合對場景分類的結果影響。在表2 中,展示了對數據集準確率影響前三的淺層特征組合。

表2 每個數據集準確率前三的淺層特征組合Tab.2 Top three shallow feature combinations for each dataset in accuracy
從表2可看出:對于UC Merced數據集準確率影響最高的組合是conv1-2、conv2-2、conv3-1,達到了97.98%,可以發現conv2-2 與conv3-1 對該數據集的準確率影響較高。對于NWPU-RESISC 數據集準確率影響最高的組合是conv2-1、conv2-2、conv3-2,達到了93.32%,top3 中有兩個較高準確率的組合都包含了conv1-2 與conv3-1。對于AID 數據集準確率影響最高的組合是conv2-1、conv2-2、conv3-1,達到了94.05%,對于WHU-RS19 數據集準確率影響最高的組合是conv1-1、conv2-2、conv3-1,達到了98.34%。
圖14 展示了卷積特征的不同組合的分類結果,組合序號1 表示conv1-1、conv1-2 和conv2-1 的組合;組合序號2 表示conv1-1、conv1-2 和conv2-2 的組合2;依此類推,組合序號20表示conv2-2、conv3-1 和conv3-2 的組合。從圖14 中可以看到不同組合對不同數據集的準確率影響變化情況。根據實驗結果提出的模型采用了對四個數據集都有較高的準確率提升的conv1-2,conv2-2,conv3-1的組合作為外觀卷積特征。

圖14 卷積特征的不同組合的分類結果Fig.14 Classification results of different combinations of convolution features
在四個數據集上的結果表明,本文方法分類準確率在UCMerced 與WHU-RS19 數據集上與最先進的ARCNet-VGGNet16 相當,而在NWPU-RESISC 與AID 數據集上則高于其他方法。為進一步分析本文方法的性能,在NWPU-RESISC數據集上對組合方式進行了消融實驗。在消融實驗中,隨機選擇每個遙感場景類別中20%的圖像進行訓練。
1)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個全局特征(Globle Feature,CF)層合并,特征編碼模塊采用算術和聚合。
2)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個FC 層合并,特征編碼模塊采用算術最大值聚合。
3)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個FC層合并,特征編碼模塊采用算術乘聚合。
4)只通過淺層特征編碼提取淺層外觀卷積特征,并將該特征與第二個FC層合并,特征編碼模塊采用主動旋轉聚合。
5)只采用密集連接機制提取高級語義卷積特征作為補償信息,并將該特征與第二個FC合并。
6)只采用特征編碼與密集連接機制分別提取淺層特征與頂層特征,兩類特征聚合后直接作為分類的特征。
7)只采用特征編碼與密集連接機制分別提取淺層特征與頂層特征,并通過門控機制將兩個卷積特征進行互補,進行合并后得到的特征直接作為分類特征。
8)只采用特征編碼與密集連接機制分別提取淺層特征與頂層特征,并通過門控機制將兩個卷積特征進行互補,進行合并后得到的特征與全局特征合并,再通過softmax進行分類。
9)利用圖像金字塔和分支網絡提取多尺度特征,采用特征編碼與密集連接機制分別提取淺層特征與頂層特征,并通過門控機制將兩個卷積特征進行互補,進行合并后得到的特征與全局特征合并,再通過softmax進行分類。
實驗結果如表3 所示。本文的FAC-CNN 在NWPURESISC 上的準確率達到了94.96%。在采用的聚合方法中,采用主動旋轉聚合的方法準確率比采用算術和聚合的方法高0.86 個百分點,比算數最大值聚合方法高1.63 個百分點,比算數乘聚合的方法高2.24 個百分點,驗證了提出的主動旋轉聚合的有效性。從表3 可以看出,密集連接相較于只用淺層卷積編碼要高是由于淺層卷積特征作為輔助信息會對分類結果有提升精度的作用,若淺層卷積特征直接作為分類特征,則精度會比高層語義卷積特征低。門控函數的引入有效地促進了淺層外觀卷積特征與頂層高級語義卷積特征的互補,使精度有一定的提升,而結合多尺度特征后使模型的準確度達到了94.96%。

表3 在NWPU-RESISC數據集上的消融實驗結果Tab.3 Ablation experiment results on NWPU-RESISC dataset
在4 個公共遙感場景數據集上,將FAC-CNN 的性能與一些最新方法進行了比較,并在USGS 大幅遙感影像上可視化展示了模型的分類結果。各數據集驗證集驗證過程中的準確率變化曲線如圖15所示。

圖15 各數據集的準確率變化曲線Fig.15 Accuracy change curve for each dataset
如表4 所示:在80%的訓練比率下,本文的FAC-CNN 分類準確率比AlexNet高4.09個百分點,比VGG-16和ResNet分別高3.88 個百分點和2.9 個百分點,與已在UC Merced 數據集上對超參數進行了優化的基于VGGNet 的注意循環卷積網絡(Attention Recurrent Convolutional Network,ARCNet-VGGNet)方法相當;在50%的訓練比率下,優于ARCNet-VGGNet與GBNet約1.56個百分點與1.32個百分點。

表4 不同方法在UC Mereced數據集上的分類準確率 單位:%Tab.4 Classification accuracies of different methods on UC Mereced dataset unit:%
NWPU-RESISC 數據集是一個新的遙感場景分類公開基準。此數據集包含45類場景,場景非常的復雜。如表5所示:在20%的訓練比率下本文的FAC-CNN 分類準確率比VGG-16和ResNet 高4.31 個百分點和3.70 個百分點;比ARCNet-VGGNet16 和GBNet 高2.05 個百分點和2.69 個百分點;在10%的訓練比率下,分別比ARCNet-VGGNet16 和GBNet 高2.43個百分點和2.71個百分點。

表5 不同方法在NWPU-RESISC數據集上的分類準確率 單位:%Tab.5 Classification accuracies of different methods on NWPU-RESISC dataset unit:%
如表6 所示:在AID 數據集50%的訓練比率下本文的FAC-CNN分類準確率與最新遙感場景分類方法之一ARCNet-VGGNet16 相比高出3.24 個百分點,與GBNet 方法相比高出0.86 個百分點;在20%訓練比率下則分別高于這兩個方法4.14個百分點和0.69個百分點。

表6 不同方法在AID數據集上的分類準確率 單位:%Tab.6 Classification accuracies of different methods on AID unit:%
如表7 所示,在WHU-RS19 數據集60%的訓練比率下本文的FAC-CNN 分類準確率VGG-16 和RestNet 相比分別高出3.10 個百分點和2.66 個百分點,但卻略低于ARCNet-VGGNet16與GBNet。

表7 不同方法在WHU-RS19數據集上的分類準確率 單位:%Tab.7 Classification accuracies of different methods on WHU-RS19 dataset unit:%
各數據集的混淆矩陣結果因版面限制,僅展示FAC-CNN在AID 數據集50%訓練比率下的混淆矩陣。FAC-CNN 在UC Merced 數據集80%訓練比率下的混淆矩陣平均準確率為99.09%。FAC-CNN 在NWPU-RESISC 數據集20%訓練比率下的混淆矩陣平均準確率為94.96%。FAC-CNN 在AID 數據集50%訓練比率下的混淆矩陣如圖16 所示,平均準確率為96.34%。FAC-CNN 在WHU-RS19 數據集60%訓練比率下的混淆矩陣平均準確率為99.15%。

圖16 FAC-CNN在AID數據集上的訓練比率為50%下的混淆矩陣Fig.16 Confusion matrix of FAC-CNN on AID dataset at training ratio of 50%
對于遙感圖像數據集類間主要依靠形狀、紋理和顏色來區分的圖像,淺層的外觀卷積特征所包含的形狀以及紋理信息往往能輔助模型區分這些類別。如圖17(a)所示從左到右分別為NWPU-RESISC 數據集中的圓形農田、矩形農田和梯田三個類別,整體顏色基本都以綠色為主,而其主要區別就在于形狀紋理的不同。從NWPU 數據集的混淆矩陣可以得出,這三個類別的分類準確率分別達到1.0、0.99和0.99,三個類別的平均識別準確率與復現的ARCNet-VGGNet16 以及GBNet三個類別識別準確率平均值相比分別高出了0.04個百分點和0.03 個百分點,相較于原始VGG-16 模型提高了0.06個百分點。如圖17(b)所示為AID數據集的沙漠與裸地類別,其中前兩張圖為沙漠而后兩張圖為裸地,沙漠類別呈現出規則的紋理形狀,而裸地呈現出不規則的紋理形狀,這也是區分這兩類的重要特征之一。從文獻[18-19]的實驗結果中看出沙漠類別較多地被預測錯誤為裸地,錯誤識別比率達到0.05。而從圖16 的混淆矩陣可以看出,本文在淺層卷積特征的輔助下沙漠并沒有被錯誤地預測為裸地,錯誤識別比率為0。
如圖17(c)所示從左到右分別為AID數據集中的學校、旅游勝地和公園三個類別。在文獻[18-19]與本文的實驗結果混淆矩陣可以發現,學校被較多地錯誤預測為旅游勝地類別,旅游勝地被較多地預測錯誤為公園類別。在這類無法通過形狀以及紋理等淺層特征去有效區分的類別上,本文在沒有采用數據增強,而是通過主動旋轉融合以及多尺度特征提取來提升模型的泛化能力的情況下,識別準確率與ARCNet-VGGNet16和GBNet效果相當。
對于如圖1 所示類別的顏色和形狀紋理本身以及如圖2所示的因為拍攝角度、方向或高度不同導致類內產生較大差異的遙感影像,FAC-CNN、ARCNet-VGGNet16 和GBNet 在紋理差異較大的UC Merced 數據集的農田類別中,都達到了1.0的準確率,在尺度差異較大的存儲罐中,在尺度特征的輔助下FAC-CNN分類準確率達到0.97,相較于ARCNet高了0.02,但略低于GBNet。
USGS大幅遙感影像實驗中,居住區、農場、森林和停車場的四個場景類別分別包含143、133、100 和139 個小圖像。從每個場景類別中隨機選擇總共50 張圖像作為訓練樣本,其余圖像用于測試。本文將USGS 分割為150×150 像素的簡單場景圖像,同時為了能較好保留在大影像在采樣期間丟失的空間信息,將兩個相鄰分割圖像之間的重疊設置為25 個像素。將分割好的影像分別輸入到訓練好的4 分類模型中,USGS 最終的分類結果如圖18 所示。為了定量評估分類的結果,將分類結果與USGS 標簽樣本的像素數量進行了對比,四個場景的帶標簽樣本像素數量如表8 所示,按最終分類正確的像素數計算得到平均分類準確率為96.28%,主要錯誤來源于道路部分不屬于任何一類的影像。

表8 各場景類別中的帶標記像素量Tab.8 Number of labeled samples in each scene category

圖18 USGS分類結果Fig.18 USGS classification result
實驗結果表明,本文提出的主動旋轉融合以及多尺度特征可以有效解決遙感影像數據集的圖像在形狀、紋理和顏色上存在較大差別,以及因拍攝高度和角度不同存在的尺度差異導致遙感場景分類精度不高的問題。在數據量較少的數據集情況下,這類特征引入分類網絡中使模型的分類準確率與最新的方法之一ARCNet-VGGNet16 以及GBNet 結果相當。在USGS 大幅遙感影像場景分類任務下,本文方法也取得較好的結果。
本文提出了一種端到端的基于雙向門控尺度特征融合的分類模型FAC-CNN,該網絡在VGG-16 卷積神經網絡的基礎上,通過利用圖像金字塔將輸入圖像變換為不同尺度的圖像并輸入分支網絡中提取尺度特征,并利用主動旋轉聚合得到的尺度特征饋入網絡中。同時,得到的多尺度特征也將作為外觀卷積特征的一部分作用在淺層外觀卷積特征的提取過程中并利用雙向門控來提升淺層外觀卷積特征與高級語義特征的互補性,最終聚合這兩類特征后利用softmax 分類器完成分類任務。在5 個公開數據集的實驗結果表明,對多尺度特征的提取以及結合主動旋轉聚合,可以較好地解決遙感影像數據集的圖像在形狀、紋理和顏色上存在較大差別,以及因拍攝高度和角度不同存在的尺度差異導致遙感場景分類精度不高的問題,使模型分類準確率得到進一步提高。