劉燕芝,陳立福,崔先亮,袁志輝,邢學敏
(長沙理工大學 a.電氣與信息工程學院; b.交通運輸工程學院,長沙 410114)
衛星與飛機對地觀測技術的飛速發展,使得遙感數據的獲取變得越來越便捷。由于遙感影像具有豐富的空間結構特征,并且這些特征可以體現圖像的場景語義信息,因此如何充分利用包含豐富信息的數據成為遙感圖像場景分類問題中的研究熱點和難點。多年來,國內外學者已提出多種場景分類方法,根據特征提取的層次大致可以分為兩類,一類是提取圖像低層次特征的Gist方法[1],另一類是基于中層語義特征建模的視覺詞袋(Bag-of-Visual-Word,BoVW)模型[2]。上述方法的中、低層特征需要人工選取且不能很好地利用遙感圖像的場景信息,例如支持向量機(Support Vector Machine,SVM)[3]缺乏對圖像中層語義的表述,難以跨越低層到高層語義的鴻溝[4],而改進的同心圓多尺度結構視覺詞袋(CCM-BOVW)[5]模型不適用于復雜場景,因而其特征表達能力和分類精度較差,不能很好地實現場景分類。
近年來,深度學習[6-7]方法發展迅猛,尤其是卷積神經網絡(Convolutional Neural Network,CNN)[8],其憑借強大的學習能力被成功應用于各個領域,有研究者將其應用于遙感影像場景分類,同樣取得了很好的分類效果。文獻[9]提出一種學科交叉的思想,將神經計算和認知計算相結合,但其復雜度太高,文獻[4]提出多尺度深度卷積神經網絡(Multi-Scale Deep Convolutional Neural Network,MS-DCNN)場景分類法,該方法需要大量數據集,否則無法充分訓練網絡,文獻[10]通過聯合顯著性采樣和卷積神經網絡進行場景分類,但其無法區分具有細微差異的類別。
本文提出一種基于空間特征重標定網絡的遙感圖像場景分類方法。通過多尺度全向高斯導數濾波器提取圖像頻譜上不同方向的空間結構特征,從多個觀測尺度上體現圖像的場景信息,使用可分離卷積[11]增加網絡的寬度,以保證網絡的深度和參數量,引入附加動量法的特征重標定網絡,對圖像的多尺度特征進行權重篩選,激勵能充分體現樣本信息的有效特征并抑制影響分類效果的冗余特征,從而提升網絡的分類精度與泛化能力。
遙感圖像所呈現出的視覺特性是由視覺場景中所有同質局部碎片子塊的隨機分布特性所決定的[12],而遙感圖像的全局視覺空間結構在統計上服從Weibull分布[13],因此,通過建立視覺圖像全局空間結構的Weibull模型可以有效表征圖像的視覺特性。視覺圖像在任意像素點的局部空間結構可以利用圖像函數I(x,y)在該點的泰勒展開式[14]獲得,I(x,y)的近似泰勒展開式如下:
(1)
式(1)表明,視覺圖像的觀測值是在一定空間觀測尺度上通過累積圖像的空間結構信息而獲得的,證明了圖像中最重要的視覺特性由圖像的空間結構決定,而微分項Ixmyn代表圖像的空間結構特征,其可以通過構建高斯導數濾波器[15]進行計算,如式(2)所示。
Ixmyn(x,y)=I(x,y)Gk,σ(x,y,σ)
(2)

(3)

(4)
式(4)表明,最優高斯導數濾波基的數目M與Gk,σ(γ,ψ)的傅里葉級數中非零諧波的個數相等,即M等于an(γ)中不等于0的個數。因此,通過求解極坐標系下Gk,σ的傅里葉變換可以得到ki(θ),如式(5)所示。
(5)

圖1 特定尺度參數下的高斯導數濾波結果
Fig.1 Gaussian derivative filtering results under scale-specific parameters
CNN屬于人工神經網絡中基于監督學習的層級網絡,其基本結構如圖2所示。CNN通過權值參數的共享來減少權重數量[16],并將遙感圖像的局部像素范圍作為網絡的底層輸入,每層通過一個參數可變的濾波器(卷積核)獲取觀測數據最顯著的特征,前一層學習到的特征信息通過層級結構傳輸到級數更高的層。本文CNN主要包括卷積層、激活層和池化層。

圖2 卷積神經網絡結構
1)卷積層
卷積層是CNN的核心,該層的功能是對前一層的輸入進行特征提取。假設輸入圖像為二維矩陣X,大小為m×n,卷積核的數量為K且大小為k×k,則進行卷積運算之后得到的輸出矩陣Y,其大小為((m-k)/s+1)×((n-k)/s+1),s表示卷積核的步長,Y的計算公式如下:
(6)
其中,xi表示前一層的輸入,wij為權重,bi表示偏置,卷積核的數量K為經過卷積層處理之后產生的特征圖數量。
2)激活層
由于線性模型的表達能力不夠,因此需要使用激活函數以引入非線性因素,激活之后的特征圖為F,計算公式如下:
(7)
其中,τ為激活函數。常用的激活函數有Sigmoid、Tanh、ReLU等,由于ReLU能使部分神經元的輸出為0,可增強網絡的稀疏表達能力,防止網絡出現過擬合,同時可解決因網絡層數增加而造成的梯度消散問題,加快隨機梯度下降的收斂速度,因此本文使用ReLU作為激活函數。
3)池化層
當輸入層的圖像尺寸較大時,在經過卷積層運算之后產生的特征圖尺寸基本與輸入圖像一致。為了解決數據冗余的問題,本文使用池化層對特征圖進行下采樣,以降低數據維度,提高網絡的運算速度。
CNN已廣泛應用于遙感圖像解譯領域,增加網絡的深度可以提升CNN對數據的表征能力。然而,網絡深度的增加意味著參數量增大,擴大后的網絡易出現過擬合現象。針對該問題,本文在參數較多的高層卷積中采用可分離卷積模塊(Inception_v2)[17]替代高層卷積層,在保證網絡深度的同時,減少網絡參數量,可分離卷積模塊的結構如圖3所示。

圖3 Inception_v2卷積模塊結構
Inception_v1網絡將1×1、3×3、5×5的卷積核與2×2的池化層堆疊在一起,一方面可增加網絡的寬度,另一方面改善了網絡對不同尺度特征圖的適應性。5×5卷積核的計算量太大,造成特征圖較厚,為了避免這一現象,在3×3、5×5的卷積核之前以及2×2的池化層之后,分別加上1×1的卷積核,從而降低特征圖厚度。此外,Inception_v2利用2個3×3的卷積核替代Inception_v1模塊中的5×5卷積核,可以減少參數量,提高計算效率。針對大小為256像素×256像素的實驗數據樣本,小尺度的卷積核設計非常必要。
CNN的識別機制類似于人腦,人腦在完成識別任務的過程中,大腦皮層對不同目標的興奮程度存在差異[18]。受此啟發,計算機視覺的注意力機制在學習特征的同時,也要考慮特征對于整個識別任務的影響。注意力機制的思想在文本解譯和語音識別方面已有廣泛應用,在圖像識別上的應用也逐漸增多,例如,文獻[19]基于注意力機制建立Squeeze and Excitation Block(SE Block)。本文將基本CNN結構與可分離卷積進行嵌套,并引入附加動量法的SE Block(NSE Block),構建特征重標定網絡,其基本結構如圖4所示。

圖4 特征重標定網絡結構
由圖4可知,在NSE Block的左分支中輸入X,經過Inception_v2卷積層后產生大小為H×W、通道數為C的特征圖。利用全局均值池化(Global Average Pooling,GAP)對C個大小為1×1的特征圖進行池化,計算過程如式(8)所示。

(8)

通過2層全連接層(Fully Connected,FC)形成一個瓶頸結構,從而對各個通道之間的相關性進行建模。第2層FC輸出一個維度為C的權重向量,利用Sigmoid對權重向量進行歸一化處理,如式(9)所示。
(9)
其中,σ表示兩層FC組成的瓶頸結構,sig表示將向量歸一化至0~1。
由于左分支只考慮當前特征圖通道之間的關系,而每一層特征圖之間存在空間聯系,因此本文引入附加動量的概念,將右分支3×3卷積核處理后的特征通道之間的權重關系添加到當前層的特征通道權重中,得到新的權重向量,如式(10)所示。
(10)

(11)
經過SE Block的權重篩選,高級特征圖通過低級特征圖的加權實現特征重標定功能。利用多尺度全向高斯導數濾波提取的空間結構統計特征和特征重標定網絡可以自動對不同尺度的特征進行篩選,而加權方式能激勵充分體現樣本信息的有效特征,并抑制影響分類效果的冗余特征,實現多尺度特征重標定。
本文空間統計特征重標定網絡的基本流程如圖5所示,大致可以分為以下4個步驟:
1)空間結構統計特征提取。通過多尺度全向高斯導數濾波提取原圖像12個方向的紋理特征。
2)特征重標定網絡構建。將NSE Block與基本卷積神經網絡以及Inception_v2卷積相結合,形成特征重標定網絡。
3)多尺度特征篩選。將多尺度特征與特征重標定網絡進行數據連接,完成特征重標定。
4)網絡訓練分類。設置網絡初始參數,包括學習率、batch_size和權重,然后進行網絡訓練并得到分類結果。

圖5 本文算法流程
為了驗證算法的有效性,本文分別采用美國加州的高分辨率衛星遙感圖像數據集UCM_LandUse和陜西渭南地區的機載高分辨率SAR圖像進行場景分類實驗。
針對UCM_LandUse數據集,構建一個包含5個Conv2D卷積層、3個Inception_v2卷積層、5個池化層、2個NSE Block、3個FC層和1個Softmax層的卷積神經網絡。將經過多尺度特征提取之后的數據直接作為網絡的輸入,其輸出結果為歸一化向量,維數與分類的類別數一致,經過Softmax層之后輸出最終的分類結果,具體的網絡配置如表1所示。

表1 分類網絡結構的配置
UCM_LandUse數據集是美國加州土地的高分辨率衛星遙感圖像數據集,其中包括飛機、河流、森林、住宅區等21個類別,圖片尺寸為256像素×256像素,每類圖片為100張。在本文實驗中,每類隨機選取80張圖片作為訓練樣本,20張作為測試樣本,21類目標的分類結果如圖6所示。

圖6 21類衛星遙感圖像場景分類混淆矩陣
Fig.6 Confusion matrix of scene classification of 21 kinds of satellite remote sensing images
由圖6的分類混淆矩陣可以看出,21類目標的分類正確率均保持在90%以上,其中5類目標的分類正確率達到100%。為進一步驗證本文方法的有效性,在UCM_LandUse數據集上對多種方法進行比較,結果如表2所示。其中,Conv2D代表普通的卷積神經網絡結構,MOGDF為多尺度全向高斯導數濾波器,In_v2(Inception_v2)為可分離卷積,NSE Block為引入附加動量法的SE Block,運算時間是指計算1個epoch的時間。
表2 5種方法的分類正確率與運算時間對比
Table 2 Comparison of classification accuracy rates and operation time of 5 methods

分類方法分類正確率/%運算時間/sConv2D87.4041MOGDF+Conv2D89.5250In_v2+SE Block+Conv2D90.9920In_v2+NSE Block+Conv2D92.1421In_v2+NSE Block+MOGDF+Conv2D94.7625
由表2可知,在分類正確率方面,直接使用原圖和普通卷積神經網絡(Conv2D)進行訓練,分類正確率為87.40%。利用多尺度全向高斯導數濾波器對原圖進行空間統計特征提取之后,其分類正確率在Conv2D的基礎上提高2.12%,Conv2D與SE Block結合之后的分類正確率為90.99%,提高3.54%,將SE Block替換為NSE Block之后,分類正確率達到92.14%,說明附加動量系數之后的SE Block能充分利用當前層與后層之間的空間關系,使得到的權重系數更準確。將MOGDF與NSE Block結合后的分類正確率最高,達到94.76%。
在運算時間方面,MOGDF+Conv2D的輸入數據由256×256×3的3通道矩陣變為256×256×12的12通道矩陣,因此,每個epoch的運算時間增加9 s,在引入Inception_v2后,每個epoch的運算時間縮短了近一半。
為了研究NSE Block的動量系數α對分類正確率的影響,本文分別采用In_v2+NSE Block+Conv2D和In_v2+NSE Block+MOGDF+Conv2D進行實驗,結果如圖7所示??梢钥闯?當α=0.8或0.9時,2種方法都能取得較好的分類結果,這是因為NSE Block的主分支為當前特征圖的權重向量,而次分支為高層特征圖的權重向量,次分支將卷積層之間的空間關系引入網絡中,對當前特征圖的權重向量進行了微調,因此分類效果較好。然而,次分支的比重不宜過大,即當α的取值較小時,不能取得理想的分類效果。

圖7 動量系數對分類正確率的影響
Fig.7 Influence of the momentum coefficient on the classification accuracy rate
將本文方法與傳統分類方法以及其他采用卷積神經網絡的分類方法進行對比,結果如表3所示。由表3可知,本文方法能夠有效增強卷積神經網絡的學習效果。同時,基于卷積神經網絡的分類算法(如MNCC、MS-DCNN、PCA-CNN和本文算法)的分類效果要優于基于學習中、低層特征的分類算法(如SVM和CCM-BOVW),進一步證明了卷積神經網絡的優越性。
表3 本文算法與其他5種算法的分類結果對比
Table 3 Comparison of classification results of the proposed algorithm and other 5 algorithms

分類算法分類正確率/%網絡層數運算時間/sSVM[3]78.57——CCM-BOVW[5]86.64——MNCC[9]88.261020MS-DCNN[4]91.34818PCA-CNN[10]92.86923本文算法94.761325
SAR圖像分類實驗采用陜西渭南地區的機載高分辨率SAR圖像進行場景分類,通過Matlab工具從尺寸為16 800像素×18 280像素的SAR圖像中,截取出4類場景(農田、城鎮、高架橋和道路)的SAR圖像,每類包含250張大小為500像素×500像素的圖像,4類SAR場景圖像示例如圖8所示。在每類樣本中,選取80%的圖片作為訓練樣本,20%的圖片作為測試樣本。

圖8 4類SAR場景圖像示例
SAR圖像與衛星遙感圖像在尺寸和質量上均存在差異[20-21]。由于高分辨率機載SAR圖像的噪聲較多,因此需在訓練之前對圖片進行濾波,本文采用BM3D[22]的濾波方法減少SAR圖像的噪聲。因為SAR圖像的類別較少,所以在21類高分辨率衛星數據的分類框架上相應地減少每一層的特征圖數量并調節學習率,得到的分類結果如表4所示。
表4 4類SAR目標場景的分類正確率對比
Table 4 Comparison of classification accuracy of 4 types of SAR target scenes

類別正確率/%農田94.5道路95.0城鎮98.5高架橋93.5總體分類正確率95.4
將本文算法與MNCC、MS-DCNN、PCA-CNN 3種分類方法進行對比,結果如表5所示。從UCM_LandUse和4類SAR數據的場景分類結果可知,本文構建的分類網絡在不同的數據集上只需調整基本的網絡參數,就能取得理想的分類效果,證明本文算法具有良好的泛化能力。

表5 SAR數據的分類結果對比
本文提出一種基于空間特征重標定網絡的分類算法。利用多尺度全向高斯導數濾波器提取多尺度特征,通過可分離卷積層減少網絡參數,應用附加動量法的特征重標定網絡進行權重篩選,以學習特征通道之間的相關性,從而充分激勵能體現樣本信息的有效特征,抑制影響分類效果的冗余特征。在UCM_LandUse與SAR數據集上的實驗結果表明,與MNCC、MS-DCNN、PCA-CNN等方法相比,本文方法在分類精度和泛化能力上有明顯優勢。下一步將針對遙感場景分類構建深度神經網絡模型,以提取空間特征,并充分利用多標簽分類場景信息,提高分類正確率。