王協(xié),章孝燦,蘇程
(浙江大學(xué)地球科學(xué)學(xué)院空間信息技術(shù)研究所,浙江 杭州 310027)
土地利用是指人類對(duì)土地自然屬性的利用方式,自1995 年“土地利用/土地覆蓋變化科學(xué)研究計(jì)劃”擬定以來,土地利用信息的提取逐漸成為全球研究的熱點(diǎn)[1]。進(jìn)入21 世紀(jì),我國(guó)社會(huì)經(jīng)濟(jì)快速發(fā)展,土地資源利用問題逐漸凸顯,隨之而來的還有大量的環(huán)境污染和生態(tài)破壞等問題[2],因此開展土地利用資源調(diào)查與研究有重大的現(xiàn)實(shí)意義。
隨著航空航天和傳感器技術(shù)的快速發(fā)展,遙感圖像的空間分辨率已經(jīng)從米級(jí)向亞米級(jí)甚至更高水平突破[3],高分辨率遙感圖像擁有更加豐富和細(xì)致的空間信息、幾何結(jié)構(gòu)和紋理信息[4],從中解譯獲得的地物信息精度更高,能夠?qū)崿F(xiàn)規(guī)劃級(jí)的土地利用分類。當(dāng)前應(yīng)用較多的面向?qū)ο蟮倪b感圖像分類方法[5],將影像按照區(qū)域異質(zhì)性原則分割成互不相交的各個(gè)對(duì)象,進(jìn)而分析和提取每個(gè)對(duì)象的光譜、紋理、形狀等特征信息。此方法的局限在于所利用的空間結(jié)構(gòu)特征以對(duì)象自身為主,不同對(duì)象之間或者更大尺度區(qū)域范圍的空間特征利用程度較低,而且這些特征需要人工設(shè)計(jì),特征的選擇仍需憑借專家的知識(shí)和經(jīng)驗(yàn),對(duì)地物復(fù)雜的分布現(xiàn)狀[6]表達(dá)尚不夠充分。
2006 年,HINTON 等[7-8]首次提出深度學(xué)習(xí)的概念,此后,深度學(xué)習(xí)技術(shù)迅速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural network,DCNN)作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其核心是通過多層非線性網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),將原始數(shù)據(jù)轉(zhuǎn)換為更高層次、更抽象的表達(dá)[9],強(qiáng)大的特征提取能力使DCNN 在圖像分類、目標(biāo)識(shí)別[10]和語義分割[11]等領(lǐng)域取得了十分顯著的成效。相比于傳統(tǒng)的遙感圖像分類方法,DCNN 利用其強(qiáng)大的擬合及學(xué)習(xí)能力具有自動(dòng)提取特征[12-13],突破了人工設(shè)計(jì)特征的局限性。2016 年,SHERRAH[14]將全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)用于遙感圖像分類,通過對(duì)預(yù)訓(xùn)練中的16 層視覺幾何組(visual geometry group,VGG)網(wǎng) 絡(luò)[15]進(jìn)行微 調(diào)(finetuning),并用條件隨機(jī)場(chǎng)(conditional random field,CRF)對(duì)邊緣部分進(jìn)行平滑分類,在國(guó)際攝影測(cè)量與遙感學(xué)會(huì)(ISPRS)的高分辨率數(shù)據(jù)集上取得了較好的分類效果。VOLPI 等[16]提出了一種全圖塊標(biāo)記(full patch labeling,F(xiàn)PL)CNN,用反卷積層直接對(duì)分類概率圖進(jìn)行逐層采樣,并將其與基于圖塊(patch-based)的分類方法進(jìn)行了對(duì)比,結(jié)果表明,端到端的分類方法明顯優(yōu)于前者。
本文融合多尺度學(xué)習(xí)理念和深度學(xué)習(xí)特征提取的優(yōu)勢(shì),提出一種基于多尺度學(xué)習(xí)與DCNN 的多尺度神經(jīng)網(wǎng)絡(luò)(multi-scale neural network,MSNet)模型,該模型通過并行輸入不同尺度的圖像和引入膨脹卷積,增加網(wǎng)絡(luò)的多尺度特性,設(shè)計(jì)一種端到端的分類網(wǎng)絡(luò)。以浙江省0.5 m 分辨率的光學(xué)航空遙感圖像為例,構(gòu)建數(shù)據(jù)集開展實(shí)驗(yàn),并將其與傳統(tǒng)FCN 方法和基于支持向量機(jī)(support vector machine,SVM)的面向?qū)ο蠓椒ㄟM(jìn)行對(duì)比。
在高分辨率遙感圖像中,相對(duì)于地物,土地利用類型是更抽象的高層語義類別,相當(dāng)于具有特定含義或按照不同規(guī)則組合的地物。具體來說,各土地利用類型均由大量復(fù)雜的地物組成,如建筑區(qū)不僅包括建筑物,還包括建筑區(qū)內(nèi)的部分道路、綠化植被、小型水體和陰影等;耕地不僅包括農(nóng)作物,還包括作物間的裸土、田埂小道、水體和陰影等;林地包括樹冠、裸土、裸露巖石、水體和陰影等,如圖1 所示。在中、低分辨率遙感圖像中,各土地利用類型中不同地物的光譜往往混合在一起,無具體邊緣,區(qū)分困難,而在高分辨率遙感圖像中,地物清晰可見,整個(gè)場(chǎng)景的復(fù)雜性大大增強(qiáng)。同時(shí),由于不同土地利用類型之間存在共同或相似的地物,僅根據(jù)局部(例如經(jīng)過分割后的對(duì)象)的光譜、紋理等底層特征無法準(zhǔn)確進(jìn)行土地利用分類。

圖1 不同土地利用類型的復(fù)雜組成Fig.1 Complex components of different land use types
高分辨率遙感圖像的復(fù)雜性導(dǎo)致土地利用分類需要多重尺度的特征信息。一方面,同種土地利用類型中不同地物的大小和形狀差別較大,需要不同尺度范圍的特征信息;另一方面,土地利用類型是不同地物的復(fù)雜組合,這種空間分布的抽象特征超過了地物本身的尺度局限,需要在更大的尺度范圍內(nèi)獲取。為了跨越這種復(fù)雜場(chǎng)景分類中的“語義鴻溝”,處理方法從基于底層的特征分類方法,如紋理、形狀、尺度等不變特征變換(scale-invariant feature transform,SIFT)演變到中層語義的視覺詞袋(bag of visual word,BoVW)[17]等方法,而新的趨勢(shì)是基于DCNN的特征學(xué)習(xí)方法。
DCNN 并不局限于某個(gè)地物或?qū)ο螅悄軌蜃詣?dòng)提取一定區(qū)域范圍內(nèi)的特征,同時(shí)其特征層的數(shù)量可達(dá)數(shù)千個(gè),突破了人工設(shè)計(jì)特征數(shù)量和形式上的局限。將DCNN 引入土地利用分類中,能夠有效解決空間特征利用不足的問題,但特征提取尺度仍然相對(duì)固定。在DCNN 中,用感受野表示網(wǎng)絡(luò)內(nèi)部不同神經(jīng)元對(duì)原圖像的感受范圍,即網(wǎng)絡(luò)中各層輸出的特征圖(feature map)中的像素點(diǎn)在原始圖像中的映射區(qū)域,感受野的大小決定了提取特征的區(qū)域尺度[18]。為了更有效地將高分辨率遙感圖像應(yīng)用于土地利用分類任務(wù),本文將多尺度學(xué)習(xí)與DCNN相結(jié)合,增加網(wǎng)絡(luò)感受野的多尺度特性,獲取更多尺度的特征信息,以實(shí)現(xiàn)更好的分類效果。
基于多尺度學(xué)習(xí)和DCNN,構(gòu)建了MSNet 模型。其總體結(jié)構(gòu)如圖2 所示。該模型包含3 條并行輸入流,每條并行輸入流包括由100 個(gè)卷積層組成的編碼網(wǎng)絡(luò),以及由4 個(gè)膨脹卷積層和1 個(gè)上采樣層組成的分類預(yù)測(cè)網(wǎng)絡(luò),圖2 中標(biāo)示的輸入、輸出數(shù)據(jù)和各特征圖的參數(shù)均為數(shù)據(jù)大小×維度。輸入端同時(shí)輸入3 個(gè)不同縮放尺度的圖像數(shù)據(jù),實(shí)現(xiàn)輸入圖像的多尺度學(xué)習(xí);編碼網(wǎng)絡(luò)基于深度殘差網(wǎng)絡(luò)(deep residual network,ResNet)進(jìn)行設(shè)計(jì),通過膨脹卷積進(jìn)行改進(jìn)以減少下采樣次數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)圖像的抽象特征提取;分類預(yù)測(cè)網(wǎng)絡(luò),利用膨脹卷積實(shí)現(xiàn)對(duì)特征圖像的多尺度學(xué)習(xí),并利用卷積化和上采樣得到最終的分類結(jié)果。

圖2 MSNet 模型總體結(jié)構(gòu)Fig.2 Structure of MSNet model
2.1.1 卷積化
卷積化(convolutionalization)的概念來自于全卷積網(wǎng)絡(luò),即將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中最后數(shù)個(gè)全連接層全部轉(zhuǎn)換為卷積核為1×1 的卷積層[19]。傳統(tǒng)CNN 在卷積層之后接到1 至數(shù)個(gè)全連接層,將卷積層產(chǎn)生的特征圖映射到一維特征向量上,輸入至分類器,這種方式能夠?qū)崿F(xiàn)圖像級(jí)分類,即得到該圖像歸屬于各類別的概率。為實(shí)現(xiàn)像素級(jí)分類,通常使用基于圖塊的分類方法,即使用該像素周圍的一個(gè)圖像塊作為CNN 的輸入,用于訓(xùn)練和預(yù)測(cè),但這種方法存儲(chǔ)開銷較大、計(jì)算效率較低,并且圖像塊的大小限制了分類效果。通過卷積化的方式對(duì)傳統(tǒng)CNN 進(jìn)行改進(jìn),使其接受任意尺寸的輸入圖像并直接得到逐像素分類結(jié)果。
2.1.2 膨脹卷積
膨脹卷積(dilated convolution),可改進(jìn)普通卷積核的卷積步長(zhǎng),擴(kuò)大一次卷積操作中的感受野。膨脹卷積的結(jié)構(gòu)如圖3 所示。圖3 中,(a)的膨脹系數(shù)為1,與普通卷積操作相同;(b)的膨脹系數(shù)為2,卷積核為7×7,除黃點(diǎn)位置的9 個(gè)權(quán)值不為零外,其余全部為零,相當(dāng)于卷積核膨脹并出現(xiàn)“空洞”,也可看作3×3 的卷積核與7×7 的圖像區(qū)域進(jìn)行卷積,但只有黃點(diǎn)位置的9 個(gè)像素與卷積核發(fā)生作用,因此感受野擴(kuò)大到了7×7;(c)的膨脹系數(shù)為4,卷積核為15×15,由于只有黃點(diǎn)位置的9 個(gè)權(quán)值不為零,所以感受野擴(kuò)大到了15×15。

圖3 不同膨脹系數(shù)的膨脹卷積Fig.3 Dilated convolution with different dilation factors
在傳統(tǒng)CNN 中,通過池化等下采樣操作幫助網(wǎng)絡(luò)獲取圖像的抽象特征,但在下采樣的同時(shí)損失了大量信息,例如VGGNet 最后一層池化后的輸出尺寸縮小為原圖的1/32,這將導(dǎo)致分類結(jié)果過于抽象,而邊緣部分較為粗糙。減少池化層可以降低下采樣的倍數(shù)和信息損失,使分類結(jié)果更加精細(xì),但會(huì)減小感受野,使網(wǎng)絡(luò)提取特征的區(qū)域受影響。膨脹卷積可以緩解此類問題,在保持較大感受野的同時(shí)減少下采樣次數(shù)。
2.1.3 殘差網(wǎng)絡(luò)
2015年,HE等[20]提出了ResNet,通過引入深度殘差學(xué)習(xí)框架解決退化問題,開創(chuàng)性地將深度神經(jīng)網(wǎng)絡(luò)的層數(shù)提高了數(shù)倍,使訓(xùn)練數(shù)百層甚至數(shù)千層的神經(jīng)網(wǎng)絡(luò)成為可能,并且網(wǎng)絡(luò)性能相當(dāng)優(yōu)異。筆者參考?xì)埐罹W(wǎng)絡(luò)設(shè)計(jì)了網(wǎng)絡(luò)編碼器,以實(shí)現(xiàn)圖像特征的提取。
殘差學(xué)習(xí)指網(wǎng)絡(luò)的每一層不直接擬合函數(shù),而是嘗試擬合函數(shù)的殘差。假設(shè)H(x)表示最優(yōu)解函數(shù)映射,網(wǎng)絡(luò)的非線性層嘗試擬合另一個(gè)殘差映射F(x)=H(x)-x,此映射更容易被優(yōu)化。在具體的網(wǎng)絡(luò)結(jié)構(gòu)中,使用殘差塊實(shí)現(xiàn)殘差學(xué)習(xí),其定義為

其中,x和y分別表示殘差塊的輸入和輸出向量,函數(shù)F(x,{Wi})表示被訓(xùn)練的殘差映射。以2 層結(jié)構(gòu)為例,F(xiàn)=W2σ(W1x),其中,σ表示稀疏激活函數(shù)(ReLU)層。在網(wǎng)絡(luò)中,加法由一個(gè)快捷連接(shortcut connection)實(shí)現(xiàn),此操作不會(huì)增加額外的參數(shù)和計(jì)算量,但可將優(yōu)化目標(biāo)函數(shù)變?yōu)闅埐睿岣呔W(wǎng)絡(luò)的學(xué)習(xí)速度。
本文應(yīng)用的殘差塊結(jié)構(gòu)如圖4 所示。以256 維的特征層輸入為例,第1 層卷積核為1×1、維度為64,此卷積層輸出的特征層被降至64 維,使后續(xù)3×3 卷積核具有較小的輸入、輸出尺寸瓶頸,經(jīng)批標(biāo)準(zhǔn)化(batch normalization,BN)層后輸入至ReLU 層;第2 層卷積核為3×3,維度為64,同樣經(jīng)過BN 層和ReLU 層;第3 層卷積核為1×1,維度為256,此卷積層的輸出恢復(fù)至256 維,并與原始輸入進(jìn)行快捷連接,再將相加后的特征層送入BN 層和ReLU 層,完成一個(gè)殘差塊。用改進(jìn)的殘差塊堆疊替換傳統(tǒng)網(wǎng)絡(luò)中的卷積層,可有效提升網(wǎng)絡(luò)的訓(xùn)練效率。

圖4 殘差塊結(jié)構(gòu)Fig.4 Structure of residual block
在本文使用的每個(gè)卷積層和ReLU 層之間添加批標(biāo)準(zhǔn)化層,其作用是使每一層的輸入分布規(guī)范化并始終落在非線性激活函數(shù)較敏感的區(qū)域,避免網(wǎng)絡(luò)層過深帶來偏移累加和梯度消失問題[21]。對(duì)于包 含m個(gè)值的 小批量數(shù)據(jù)(mini-batch):B={x1…m},批標(biāo)準(zhǔn)化的算法流程為,先計(jì)算minibatch 的均值μB和均方差,再進(jìn)行歸一化處理:

然后進(jìn)行縮放和平移,并輸出:

其中,γ和β為自適應(yīng)參數(shù),通常設(shè)定初始值γ≈1,β≈0,在反向傳播過程中與其他參數(shù)共同參與訓(xùn)練。
2.1.4 MSNet 模型的實(shí)現(xiàn)
如圖2 所示,首先對(duì)輸入部分采取尺度變換,對(duì)原圖像(本文使用的實(shí)驗(yàn)圖像尺寸為310×310)進(jìn)行0.5 和0.75 倍縮放,分別輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后融合這些不同尺度的特征圖,得到每個(gè)類別對(duì)應(yīng)的歸屬概率的分類結(jié)果。此操作是將不同尺度的圖像分成3 個(gè)輸入流進(jìn)行并行傳播,每個(gè)輸入流的網(wǎng)絡(luò)結(jié)構(gòu)相同,且同時(shí)進(jìn)行反向傳播訓(xùn)練,共同訓(xùn)練網(wǎng)絡(luò)權(quán)值。考慮計(jì)算存儲(chǔ)開銷和縮放比例不宜過小,本文選取的輸入流為3 個(gè),以確保在盡可能多地獲取多尺度特征的同時(shí)控制計(jì)算量。
基于殘差網(wǎng)絡(luò)對(duì)編碼網(wǎng)絡(luò)進(jìn)行改進(jìn),共有100個(gè)卷積層。以輸入310×310 圖像為例,Conv1 模塊為卷積核為7×7 的卷積層,輸出數(shù)據(jù)大小為155×155,維度為64;Conv2_x 模塊由1 個(gè)3×3 的池化層和3 個(gè)同樣的殘差塊堆疊組成,輸出數(shù)據(jù)大小為78×78,維度為256;Conv3_x、Conv4_x 和Conv5_x模塊分別由4,23,3 個(gè)同樣的殘差塊堆疊組成,其中卷積層的維度分別為上一個(gè)模塊的2 倍,編碼網(wǎng)絡(luò)參數(shù)如表1 所示。
將Conv3_x 模塊中的第1 個(gè)卷積層步長(zhǎng)設(shè)置為2,實(shí)現(xiàn)下采樣操作,在Conv4_x 和Conv5_x 模塊中,取消第1 個(gè)卷積層的下采樣,替換為中間3×3 的卷積層(膨脹卷積),輸出數(shù)據(jù)大小均為39×39,最后一層特征圖的維度為2 048,網(wǎng)絡(luò)的下采樣率為8 倍。
分類預(yù)測(cè)部分基于膨脹卷積設(shè)計(jì),如圖2 所示,將最后一層卷積層得到的特征圖像分別輸入至膨脹系數(shù)為6,12,18,24 的膨脹卷積中,然后對(duì)4 個(gè)輸出數(shù)據(jù)進(jìn)行相加融合,得到數(shù)據(jù)大小為39×39、維度為6 的熱度圖(heat map),最后3 條輸入流經(jīng)過最大值融合和雙線性插值上采樣得到最終的分類結(jié)果。經(jīng)膨脹卷積后的熱度圖大小與普通卷積的相同,需要訓(xùn)練的卷積核參數(shù)雖無增加,但不同的膨脹系數(shù)可得到不同的感受野,以抵消Conv4_x和Conv5_x 模塊下采樣層帶來的影響。這種網(wǎng)絡(luò)結(jié)構(gòu)只需增加少量參數(shù)和資源,便可一次獲取4 個(gè)不同大小的感受野。
MSNet 模型的訓(xùn)練方式與傳統(tǒng)CNN 的類似,采用遷移學(xué)習(xí)[22]的方式,將在ImageNet 圖像數(shù)據(jù)集上訓(xùn)練得到的ResNet 預(yù)訓(xùn)練模型(pre-trained model)作為編碼網(wǎng)絡(luò)的初始權(quán)值,訓(xùn)練數(shù)據(jù)集通過MSNet 網(wǎng)絡(luò)進(jìn)行前向傳播,將得到的輸出值與期望輸出值代入損失函數(shù),得到誤差值,通過反向傳播(back propagation,BP)逐層計(jì)算誤差梯度,用獲得的各節(jié)點(diǎn)權(quán)值和偏置修正量更新網(wǎng)絡(luò)。在反向傳播訓(xùn)練中,以交叉熵(cross entropy)作為損失函數(shù),并通過加入L2 正則化項(xiàng)對(duì)損失函數(shù)進(jìn)行約束,在權(quán)值更新方法中,使用動(dòng)量更新算法(momentum)。本實(shí)驗(yàn)根據(jù)驗(yàn)證集誤差調(diào)整參數(shù),得到最優(yōu)參數(shù)設(shè)置。最終的參數(shù)設(shè)置為動(dòng)量因子0.9,學(xué)習(xí)率2.5e-4,對(duì)網(wǎng)絡(luò)所有層施加5e-4的權(quán)值衰減。通過水平和豎直翻轉(zhuǎn)、隨機(jī)剪裁、隨機(jī)縮放等數(shù)據(jù)增強(qiáng)方法處理模型的樣本輸入數(shù)據(jù),以緩解網(wǎng)絡(luò)的過擬合現(xiàn)象。

表1 輸入圖像尺寸為310×310圖像時(shí)編碼網(wǎng)絡(luò)參數(shù)Table 1 Parameters of encoding network when inputs 310×310 image
2.2.1 L2 正則化
L2 正則化(L2 regularization)是一種較為常用的正則化方法。對(duì)網(wǎng)絡(luò)中的每個(gè)權(quán)重w,在其目標(biāo)函數(shù)中加入一個(gè)λw22 的懲罰項(xiàng),其 中λ是 正則化參數(shù),從而可以有效控制卷積神經(jīng)網(wǎng)絡(luò)的容量,防止過擬合。經(jīng)求導(dǎo),在所有的權(quán)值w的梯度下降結(jié)果中都增加了(1-λ)系數(shù),即權(quán)值衰減了。同時(shí)L2正則化對(duì)于大數(shù)值的權(quán)值向量懲罰更為嚴(yán)厲,由于輸入值和權(quán)重之間是相乘的,因此網(wǎng)絡(luò)對(duì)于輸入特征的使用更加分散和平均,從而避免因某些輸入特征影響過大出現(xiàn)過擬合現(xiàn)象。
2.2.2 動(dòng)量更新算法
采用批量梯度下降(batch gradient descent,BGD)法更新人工神經(jīng)網(wǎng)絡(luò)的權(quán)值,即沿著梯度下降最快的方向進(jìn)行更新,此方法很容易陷入鞍點(diǎn)和局部最優(yōu)點(diǎn),無法進(jìn)一步更新。而隨機(jī)梯度下降(stochastic gradient descent,SGD)法,每次都從訓(xùn)練集中隨機(jī)選擇一個(gè)樣本進(jìn)行學(xué)習(xí),學(xué)習(xí)速度很快,但每次更新的方向不一定正確,使得迭代次數(shù)增多。小批量梯度下降法綜合了BGD 法和SGD 法的優(yōu)點(diǎn),在學(xué)習(xí)速度與迭代次數(shù)之間取得平衡,每次更新時(shí),隨機(jī)選擇訓(xùn)練集中m個(gè)樣本進(jìn)行學(xué)習(xí),將學(xué)習(xí)到的梯度加權(quán)平均后求和,作為此次的下降梯度。
在小批量梯度下降法框架下,采用動(dòng)量(momentum)更新算法,優(yōu)化梯度下降方向。為此,引入動(dòng)量因子ν和動(dòng)量系數(shù)β:

其中,α為學(xué)習(xí)率。如果上一次的動(dòng)量因子ν與此次更新的負(fù)梯度方向相同,當(dāng)前的動(dòng)量因子ν就會(huì)增大,梯度下降的幅度也會(huì)增加,如果兩者方向相反,動(dòng)量因子ν就會(huì)減小,從而實(shí)現(xiàn)在更新過程中抑制震蕩、加速收斂的目的,還可在網(wǎng)絡(luò)訓(xùn)練后期擺脫局部限制。
采用土地利用分類的常用數(shù)據(jù)源——浙江省0.5 m 分辨率的光學(xué)航空遙感圖像,包括紅、綠、藍(lán)3個(gè)波段。選取其中一幅具有代表性的航空遙感圖像進(jìn)行實(shí)驗(yàn),如圖5 所示,該圖像圖幅編號(hào)為H50G042095,尺寸為12 086×9 299,分割成1 170幅尺寸為310×310 的圖像,人工標(biāo)注后組成實(shí)驗(yàn)數(shù)據(jù)集,并隨機(jī)選取其中990 幅作為訓(xùn)練數(shù)據(jù),另外180 幅作為測(cè)試數(shù)據(jù)。為體現(xiàn)測(cè)試結(jié)果的整體性,180 幅測(cè)試數(shù)據(jù)分別來自20 個(gè)區(qū)域圖塊,每個(gè)圖塊由9 幅930×930 的圖像組成。土地利用類型分為林地、草地、耕地、建筑區(qū)、水體和未利用地6 類。
訓(xùn)練中將批處理尺寸(batch-size)設(shè)置為3,最大訓(xùn)練步數(shù)設(shè)置為20 000,共訓(xùn)練了約51 個(gè)周期(epoch),訓(xùn)練用時(shí)15 h 23 min,約在第13 000 步時(shí)網(wǎng)絡(luò)的損失函數(shù)達(dá)到穩(wěn)定收斂。

圖5 研究區(qū)航空遙感圖像Fig.5 Remote sensing image of study area
選取深度學(xué)習(xí)中傳統(tǒng)FCN 方法和高分辨率遙感圖像應(yīng)用較多的基于SVM 的面向?qū)ο蠓椒ㄟ@2種較具代表性的圖像分類方法進(jìn)行對(duì)比。其中,MSNet 方法和傳統(tǒng)FCN 方法使用Python 語言和基于谷歌開發(fā)的TensorFlow 框架進(jìn)行搭建和訓(xùn)練;基于SVM 的面向?qū)ο蠓椒ㄓ靡卓礶Cognition 軟件實(shí)現(xiàn),在多尺度對(duì)象分割階段,通過多次實(shí)驗(yàn)對(duì)比,目視判斷分割效果,選擇分割參數(shù),最終選定尺度參數(shù)為50,形狀因子為0.3,緊致度因子為0.5。生成分割對(duì)象后,初步選擇包括光譜、紋理和幾何特征在內(nèi)的60 個(gè)特征,然后采用分離閾值法對(duì)60 維的特征空間進(jìn)行分析,剔除重復(fù)和無關(guān)特征后選取14 個(gè)特征作為分類依據(jù),包括各波段光譜均值和亮度值、對(duì)象的密度指數(shù)、對(duì)象的長(zhǎng)寬比、各波段的灰度共生矩陣(gray-level co-occurrence matrix,GLCM)均值和歸一化灰度均值。采用SVM 分類器分類,選擇徑向基函數(shù)作為核函數(shù)。
選取其中3 組測(cè)試圖像,對(duì)比3 種方法的土地利用分類結(jié)果,結(jié)果如圖6 所示。總體來說,MSNet 方法的分類結(jié)果與人工標(biāo)注最相近,破碎圖斑較少,提取的地物對(duì)象連續(xù)性、整體性較強(qiáng)。例如,在第Ⅰ組中,只有小塊林地邊緣出現(xiàn)錯(cuò)分,小部分建筑區(qū)與耕地出現(xiàn)誤分類,在第Ⅱ組中,只有水渠部分不夠連續(xù),在第Ⅲ組中,只有夾雜在林地中的一片耕地沒有被識(shí)別。基于SVM 的面向?qū)ο蠓椒ǖ姆诸惤Y(jié)果中,地物邊緣提取精度較高,但不同區(qū)域的相似地物混淆較多。例如,在第Ⅰ組中,建筑區(qū)的綠植被錯(cuò)分為林地,在第Ⅱ組中,城鎮(zhèn)建筑區(qū)的部分裸地被錯(cuò)分為耕地,在第Ⅲ組中,林地和耕地混合區(qū)域出現(xiàn)誤分類。而傳統(tǒng)FCN 方法和MSNet 方法,對(duì)這些區(qū)域的分類表現(xiàn)較好,表明獲取更大范圍的空間特征有助于對(duì)復(fù)雜組合區(qū)域的分類決策。同時(shí),與MSNet方法相比,傳統(tǒng)FCN 方法對(duì)地物邊緣的分類相對(duì)較差,例如,在第Ⅰ組中,道路邊緣保持較差,在第Ⅱ組中,建筑區(qū)與耕地邊緣誤分類情況較多等,表明MSNet 方法對(duì)不同尺度特征的充分利用進(jìn)一步提升了分類精度。

圖6 3 種分類方法結(jié)果對(duì)比Fig.6 Comparison among three kinds of classification methods
MSNet 方法的分類結(jié)果中較少出現(xiàn)破碎的圖斑,但圖像邊界會(huì)出現(xiàn)誤分類情況,這是因?yàn)镈CNN 在圖像邊界處只能通過增加補(bǔ)零的方法進(jìn)行卷積,降低了分類精度。同時(shí),由于網(wǎng)絡(luò)通過上采樣實(shí)現(xiàn)分類預(yù)測(cè),邊緣信息不可避免地被平滑,地物邊緣不像基于SVM 的面向?qū)ο蠓椒ㄤJ利。
本文隨機(jī)選取了部分測(cè)試圖像進(jìn)行精度評(píng)價(jià),3種方法的混淆矩陣分別如表2~表4 所示。由混淆矩陣計(jì)算得到,基于SVM 的面向?qū)ο蠓椒ǖ目傮w精度為79.40%,Kappa 系數(shù)為0.713;傳統(tǒng)FCN 方法的總體精度為86.53%,Kappa 系數(shù)為0.809;MSNet方法的總體精度為91.97%,Kappa 系數(shù)為0.886,MSNet 方法的總體精度較前兩種分類方法分別提高了12.37%和5.44%,Kappa 系數(shù)較前兩種方法分別提高了0.173 和0.077。總體來說,3 種方法中,本文提出的MSNet 方法分類效果最好,且網(wǎng)絡(luò)提取多尺度特征的能力較強(qiáng)。

表2 使用MSNet 方法分類的混淆矩陣Table 2 Confusion matrix of classification by MSNet

表3 使用基于SVM 的面向?qū)ο蠓椒ǚ诸惖幕煜仃嘥able 3 Confusion matrix of classification by object-oriented method with SVM

表4 使用傳統(tǒng)FCN 方法分類的混淆矩陣Table 4 Confusion matrix of classification by traditional FCN
分析了高分辨率遙感圖像土地利用信息的特點(diǎn),闡述了進(jìn)行土地利用分類面臨的空間特征利用不足問題。針對(duì)此問題,結(jié)合多尺度學(xué)習(xí)理念,通過增加DCNN 感受野的多尺度特性,設(shè)計(jì)了MSNet模型,實(shí)現(xiàn)了輸入圖像和特征圖像層面的多尺度學(xué)習(xí),提升了網(wǎng)絡(luò)的分類性能。以浙江省0.5 m 分辨率的光學(xué)航空遙感圖像為數(shù)據(jù)源,對(duì)本文提出的MSNet 方法的分類效果進(jìn)行了驗(yàn)證,得到的總體精度為91.97%,Kappa 系數(shù)為0.886,相比傳統(tǒng)FCN 方法和基于SVM 的面向?qū)ο蠓椒ǎ傮w精度分別提高了12.37% 和5.44%,Kappa 系數(shù)分別提高了0.173 和0.077。實(shí)驗(yàn)結(jié)果表明,MSNet 方法分類效果更好,信息提取精度較高。
深度學(xué)習(xí)在遙感圖像分類應(yīng)用中潛力巨大,但仍面臨訓(xùn)練樣本數(shù)據(jù)量不足導(dǎo)致過擬合、下采樣導(dǎo)致信息損失等問題。針對(duì)MSNet 方法分類結(jié)果中邊緣過于平滑的問題,可采用后處理的方法對(duì)分類結(jié)果進(jìn)行增強(qiáng),如利用全連接的條件隨機(jī)場(chǎng)或高斯條件隨機(jī)場(chǎng)等方法改善分類邊緣,提高分類精度。