羅 暢, 王 潔, 王世強(qiáng), 史 通, 任衛(wèi)華
(空軍工程大學(xué)防空反導(dǎo)學(xué)院, 陜西 西安 710051)
近年來(lái),從圖像分割等底層任務(wù)到圖像分類(lèi)等綜合任務(wù),遙感圖像處理領(lǐng)域取得了快速的發(fā)展[1-7]。然而,從遙感圖像中的像素點(diǎn)到具體目標(biāo),再到整個(gè)遙感場(chǎng)景,隨著任務(wù)抽象程度的提升,遙感圖像處理的難度越來(lái)越大。根據(jù)語(yǔ)義特征對(duì)高分辨率遙感場(chǎng)景進(jìn)行分類(lèi)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。因?yàn)楦叻直媛蔬b感場(chǎng)景的類(lèi)內(nèi)變化較大,而類(lèi)間變化有時(shí)卻很小。不同的物體會(huì)以不同的尺度和方向出現(xiàn)在同一類(lèi)場(chǎng)景中,而同樣的物體也可能出現(xiàn)在不同的場(chǎng)景里[5-9]。
深度學(xué)習(xí)理論通過(guò)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)高度抽象的特征表達(dá)。作為目前較為成功的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)被廣泛用于圖像的識(shí)別和檢測(cè)任務(wù),并在公開(kāi)數(shù)據(jù)集上取得了迄今最好的識(shí)別和檢測(cè)效果[10-13]。理論上,DCNN能夠通過(guò)提取高分辨率遙感圖像的高層次特征,表征出遙感場(chǎng)景間的細(xì)微差別。然而,目前遙感領(lǐng)域并不具備足夠的帶標(biāo)簽的高分辨率遙感圖像用于訓(xùn)練DCNN中巨量的結(jié)構(gòu)參數(shù)。當(dāng)采用現(xiàn)有的遙感數(shù)據(jù)集訓(xùn)練DCNN時(shí),會(huì)出現(xiàn)嚴(yán)重的過(guò)擬合[14]。
ImageNet數(shù)據(jù)集是目前最龐大的圖像數(shù)據(jù)集之一,包含數(shù)百萬(wàn)張超過(guò)一千類(lèi)的日常可見(jiàn)光圖像[15]。該數(shù)據(jù)集上訓(xùn)練得到的DCNN模型在各種計(jì)算機(jī)視覺(jué)任務(wù)中均取得了驚人的成績(jī)。最近的研究成果表明,經(jīng)ImageNet預(yù)訓(xùn)練得到的DCNN能夠成功遷移至其他計(jì)算機(jī)視覺(jué)任務(wù)[16-18]。隨著CaffeNet等一系列成功DCNN模型的快速發(fā)展[12],將在ImageNet上訓(xùn)練得到的DCNN模型遷移至高分辨率遙感場(chǎng)景的分類(lèi)任務(wù)也成為深度學(xué)習(xí)理論應(yīng)用于遙感領(lǐng)域的重要發(fā)展方向。在將預(yù)訓(xùn)練后的DCNN模型遷移至遙感場(chǎng)景分類(lèi)任務(wù)時(shí),文獻(xiàn)[19]評(píng)估了DCNN模型的泛化能力。為進(jìn)一步提升分類(lèi)效果,文獻(xiàn)[14]在將DCNN遷移至遙感場(chǎng)景分類(lèi)時(shí),使用遙感數(shù)據(jù)集對(duì)DCNN的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行了微調(diào)。文獻(xiàn)[20]則在將DCNN遷移至高分辨率遙感場(chǎng)景分類(lèi)時(shí),同時(shí)提取DCNN不同特征層中的有效特征用于分類(lèi)任務(wù),并取得了突出的分類(lèi)精度。
經(jīng)ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的DCNN模型能夠成功遷移至高分辨率遙感場(chǎng)景分類(lèi)任務(wù)的原因在于,高分辨率遙感圖像和日常可見(jiàn)光圖像的基本視覺(jué)模塊(例如:邊、角)是相同的,DCNN在遷移過(guò)程中體現(xiàn)出一定的泛化能力。因此,本文設(shè)計(jì)了一種基于線性主成分分析網(wǎng)絡(luò)(linear principle component analysis network, LPCANet)的網(wǎng)絡(luò)結(jié)構(gòu)形式,整合了高分辨率遙感圖像的空間信息,增強(qiáng)了DCNN在遷移過(guò)程中的泛化能力,以進(jìn)一步提升高分辨率遙感場(chǎng)景的分類(lèi)精度。
典型的DCNN是由多個(gè)級(jí)聯(lián)的不同類(lèi)型層級(jí)結(jié)構(gòu)組成。卷積層通過(guò)一系列卷積核對(duì)輸入特征圖進(jìn)行卷積操作產(chǎn)生新的特征圖。更深層的卷積結(jié)構(gòu)能夠通過(guò)整合淺層特征而獲得更加抽象的特征表達(dá)。卷積操作之后常常運(yùn)用非線性激活函數(shù)增強(qiáng)特征的泛化性能,常用的非線性激活函數(shù)包括sigmoid函數(shù)、ReLU函數(shù)等。隨后,池化層在特征圖的局部區(qū)域執(zhí)行下采樣操作以降低特征維度,同時(shí)使得特征具有局部平移和旋轉(zhuǎn)的不變性。最后,數(shù)個(gè)全連接層被置于多個(gè)級(jí)聯(lián)的卷積層和池化層之后。最后一個(gè)全連接層常常是Softmax分類(lèi)器,用于獲取分類(lèi)后每個(gè)類(lèi)別的權(quán)重。DCNN中的結(jié)構(gòu)參數(shù)主要采用誤差反向傳播的思想,通過(guò)隨機(jī)梯度下降算法訓(xùn)練得到。經(jīng)大量有效樣本訓(xùn)練的DCNN能夠通過(guò)前向傳播,將輸入的圖像轉(zhuǎn)化為高層次抽象特征。
基于典型的DCNN結(jié)構(gòu),AlexNet采用隨機(jī)選取神經(jīng)元的方法進(jìn)一步減輕網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象[10]。另一方面,CaffeNet則是將非線性激活函數(shù)置于池化層之后,在計(jì)算機(jī)視覺(jué)任務(wù)中也取得了理想的效果[12]。從以上經(jīng)典的DCNN模型出發(fā),近年來(lái),DCNN的發(fā)展主要在于以下兩個(gè)方面:
(1) 更深的網(wǎng)絡(luò)結(jié)構(gòu)。VGG-VD網(wǎng)絡(luò)采用更深的網(wǎng)絡(luò)結(jié)構(gòu)獲得了2014年ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(2014 imageNet large scale visual recognition challenge, ILSVRC-2014)的第2名[13]。其16層網(wǎng)絡(luò)VGG-VD16和19層網(wǎng)絡(luò)VGG-VD19的成功應(yīng)用表明更深的網(wǎng)絡(luò)結(jié)構(gòu)能夠在分類(lèi)和識(shí)別等任務(wù)中提升準(zhǔn)確率。另外,MSRA-Net進(jìn)一步將VGG-VD網(wǎng)絡(luò)中的5×5卷積核替換為兩個(gè)串聯(lián)的3×3卷積核,在構(gòu)建更深網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)降低了計(jì)算復(fù)雜度并在機(jī)器視覺(jué)任務(wù)中取得了更好的效果[21]。
(2) 更優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)單元。網(wǎng)中網(wǎng)(network in network, NIN)將典型DCNN中的卷積層替換為多層感知器,同時(shí)使用全局平均值池化替代全連接層[22]。受NIN模型的啟發(fā),GoogLeNet進(jìn)一步使用Inception模塊,在每一層網(wǎng)絡(luò)結(jié)構(gòu)中使用不同尺度的卷積核,獲得了ILSVRC-2014的最好成績(jī)[23]。此外,Inception V3網(wǎng)絡(luò)再次優(yōu)化了GoogLeNet中的inception模塊,其用兩個(gè)串聯(lián)的3×3卷積核替換5×5卷積核,同時(shí)1×n和n×1卷積核被添加到Inception模塊中以增加網(wǎng)絡(luò)的深度[24]。Inception模塊在Inception V3網(wǎng)絡(luò)中的演變過(guò)程如圖1所示,其中n×n表示n×n的卷積操作。

圖1 Inception模塊在Inception V3網(wǎng)絡(luò)結(jié)構(gòu)中的演變Fig.1 Changes of Inception module in the architecture of Inception V3
結(jié)合以上兩個(gè)方面,深度殘差網(wǎng)絡(luò)(deep residuals network,ResNet)采用級(jí)聯(lián)的殘差函數(shù)作為其基本網(wǎng)絡(luò)結(jié)構(gòu)單元,贏得了ILSVRC-2015的冠軍[25]。不同于傳統(tǒng)的卷積單元,ResNet中的殘差單元整合了輸入信息,使得ResNet中的結(jié)構(gòu)參數(shù)更易于優(yōu)化,并可通過(guò)加深網(wǎng)絡(luò)深度在各類(lèi)機(jī)器視覺(jué)任務(wù)中取得更好的效果。基于ResNet,恒等映射殘差網(wǎng)絡(luò)進(jìn)一步對(duì)殘差學(xué)習(xí)框架進(jìn)行了優(yōu)化,并在分類(lèi)、識(shí)別等任務(wù)中證實(shí)了其優(yōu)越性[26]。
DCNN結(jié)構(gòu)的演化進(jìn)程可由圖2表示。然而,當(dāng)將以上在機(jī)器視覺(jué)領(lǐng)域取得巨大成功的DCNN直接應(yīng)用于遙感場(chǎng)景分類(lèi)時(shí),取得的效果并不理想。事實(shí)上,因?yàn)樯钪心軌蜉p易獲取大量帶標(biāo)簽的日常可見(jiàn)光圖像,幾乎所有的DCNN均是基于日常可見(jiàn)光圖像數(shù)據(jù)集(例如ImageNet)訓(xùn)練得到的。在遙感領(lǐng)域,經(jīng)有限的遙感圖像訓(xùn)練得到的DCNN泛化能力較弱,其結(jié)構(gòu)參數(shù)極易產(chǎn)生過(guò)擬合現(xiàn)象。

圖2 DCNNs結(jié)構(gòu)演化圖Fig.2 Evolution of the structure of DCNNs
目前,針對(duì)遙感場(chǎng)景分類(lèi)任務(wù),能夠充分利用DCNN性能的有效方案,即將其在ImageNet上預(yù)訓(xùn)練得到的高度抽象特征遷移至遙感場(chǎng)景圖像[14, 19-20]。此遷移過(guò)程的重要原則是:用于預(yù)訓(xùn)練DCNN的源數(shù)據(jù)集(ImageNet數(shù)據(jù)集)與相應(yīng)的目標(biāo)數(shù)據(jù)集(高分辨率遙感數(shù)據(jù)集)之間的差異足夠小。通過(guò)設(shè)計(jì)LPCANet整合高分辨率遙感圖像的空間信息減小兩者之間的差異,增強(qiáng)預(yù)訓(xùn)練DCNN針對(duì)遙感場(chǎng)景分類(lèi)的泛化能力。
基于主成分分析網(wǎng)絡(luò)(principal component analysis network,PCANet)[27],LPCANet保留了PCANet中的線性操作,并對(duì)其中的非線性結(jié)構(gòu)單元進(jìn)行了改進(jìn)。不同于PCANet中使用散列法對(duì)卷積特征圖進(jìn)行二進(jìn)制變換,LPCANet中直接對(duì)卷積特征圖進(jìn)行了加權(quán)操作。另外,LPCANet中使用線性的平均值池化替換了PCANet中非線性的柱狀圖池化。以上由非線性運(yùn)算到線性運(yùn)算的改變,使得LPCANet在濾除高分遙感圖像中的噪聲信息的同時(shí)不改變其基礎(chǔ)結(jié)構(gòu),不影響其原有的特征分布形式。LPCANet通過(guò)整合高分辨率遙感圖像的空間信息,提取圖像中的主要特征。提取到的主要特征進(jìn)一步輸入經(jīng)預(yù)訓(xùn)練的DCNN用于獲取遙感場(chǎng)景的全局特征,并用于遙感場(chǎng)景的分類(lèi)任務(wù)。典型的兩層LPCANet如圖3所示。

圖3 兩層LPCANet結(jié)構(gòu)示意圖Fig.3 Structure of two-stage LPCANet

I=[I1I2…IN]∈Rm×Nn×3
(1)

(2)

s.t. (Uj)TUj=IL,j=1,2,3
(3)
式中,IL為L(zhǎng)×L的單位矩陣。
;j=1,2,3
(4)

此時(shí),從遙感圖像中提取到的PCA核包含了遙感場(chǎng)景的主要空間變化。
將各個(gè)光譜通道中提取到的L個(gè)PCA核分別與遙感圖像進(jìn)行卷積操作,獲取的卷積特征圖為

l=1,2,…,L;j=1,2,3
(5)
式中,符號(hào)*表示二維卷積操作;上標(biāo)1表示第1層卷積特征圖。

(6)
在獲取關(guān)于遙感圖像的卷積特征圖后,需要根據(jù)卷積特征圖所包含特征的重要程度對(duì)其進(jìn)行加權(quán)整合。另外,池化操作被用于進(jìn)一步增強(qiáng)遙感場(chǎng)景特征的不變性。
卷積特征圖的加權(quán)過(guò)程為
(7)


ri,x′,y′=meansi∈Ri,x′,y′si
(8)
式中,si表示池化域Ri,x′,y′內(nèi)的加權(quán)特征;ri,x′,y′表示計(jì)算得到的位置(x′,y′)處的池化特征。由池化域Ri={Ri,1,1,…,Ri,x′,y′,…,Ri,m′,n′}計(jì)算得到的池化特征ri={ri,1,1,…,ri,x,y,…,ri,m′,n′}具有一定程度的平移和旋轉(zhuǎn)不變性。
對(duì)于特定的遙感數(shù)據(jù)集及其相關(guān)任務(wù),如果更深的LPCANet結(jié)構(gòu)能夠取得更好的效果,則可重復(fù)以上過(guò)程構(gòu)造多層的LPCANet。如圖3所示,兩層的LPCANet包含了2個(gè)卷積層(C1和C2),2個(gè)加權(quán)層(W1和W2)和1個(gè)池化層。最后一層的輸出作為預(yù)訓(xùn)練DCNN的輸入,用于獲取高度抽象的全局語(yǔ)義特征。
第1層卷積層C1中,由遙感圖像集合I提取到的L1個(gè)PCA核與輸入的遙感圖像集進(jìn)行卷積操作后獲取卷積特征圖集合I1。在第1層加權(quán)層W1中,卷積特征圖集合I1經(jīng)加權(quán)操作轉(zhuǎn)換為加權(quán)特征圖集合T1,同時(shí)特征圖的數(shù)量得以減少。第2層卷積層C2中,L2個(gè)PCA核由加權(quán)特征圖集合T1提取得到,C2中的卷積操作進(jìn)一步產(chǎn)生卷積特征圖I2。在第2層加權(quán)層W2中,由加權(quán)操作進(jìn)一步獲取加權(quán)特征圖T2。最后對(duì)T2進(jìn)行平均值池化獲取池化特征圖r。
更多的層級(jí)結(jié)構(gòu)可表示為C1-W1-C2-W2-C3…,或由特征圖的形式表示為I-I1-T1-I2-T2-…-r。LPCANet中的所有操作過(guò)程均是線性的,因此在整合遙感圖像空間信息的同時(shí),LPCANet并沒(méi)有改變?cè)紙D像的基礎(chǔ)結(jié)構(gòu)。
高分辨率遙感圖像與日常可見(jiàn)光圖像在空間信息上存在一定程度的差異。這兩類(lèi)圖像中的機(jī)場(chǎng)如圖4所示。

圖4 兩類(lèi)圖像中的機(jī)場(chǎng)Fig.4 Airport in two kinds of images
由圖4可知,這兩張圖像從語(yǔ)義上均稱(chēng)為機(jī)場(chǎng),并都包含飛機(jī)、跑道和草坪等組成單元。然而,這些組成單元在空間尺度和方向上均存在較大差異。另外,相比于日常可見(jiàn)光圖像,高分辨率遙感圖像中存在更多的干擾信息,使得遙感場(chǎng)景分類(lèi)任務(wù)變得更加困難。LPCANet通過(guò)PCA核與遙感圖像的卷積運(yùn)算盡可能地濾除與遙感場(chǎng)景語(yǔ)義特征無(wú)關(guān)的干擾信息。同時(shí),其線性結(jié)構(gòu)保留了遙感圖像中與遙感場(chǎng)景語(yǔ)義特征相關(guān)的特征分布形式。因此,將在日常可見(jiàn)光數(shù)據(jù)集ImageNet上預(yù)訓(xùn)練得到的DCNN遷移至遙感場(chǎng)景分類(lèi)任務(wù)時(shí),需要通過(guò)LPCANet減小兩類(lèi)數(shù)據(jù)集之間的差異,增強(qiáng)預(yù)訓(xùn)練DCNN針對(duì)遙感場(chǎng)景的泛化能力。本文設(shè)計(jì)的網(wǎng)絡(luò)框架如圖5所示。由圖5可知,在進(jìn)行高分辨率遙感場(chǎng)景分類(lèi)時(shí),LPCANet被分別用于處理高分辨率遙感圖像3個(gè)光譜通道中的“灰度”圖像。LPCANet在保留遙感場(chǎng)景主要空間結(jié)構(gòu)的同時(shí)過(guò)濾掉與場(chǎng)景語(yǔ)義特征無(wú)關(guān)的細(xì)節(jié)和噪聲。隨后,LPCANet輸出的關(guān)于所有光譜通道的特征圖像被進(jìn)一步整合,并作為預(yù)訓(xùn)練DCNN的輸入。經(jīng)日常可見(jiàn)光圖像集ImageNet預(yù)訓(xùn)練后的DCNN被看做固定的特征提取器,用于進(jìn)一步獲取遙感場(chǎng)景的全局特征。最后,通過(guò)線性支持向量機(jī)(support vector machine,SVM)分類(lèi)器完成對(duì)遙感場(chǎng)景的分類(lèi)。

圖5 整體網(wǎng)絡(luò)框架Fig.5 Framework of the whole network
采用以下兩類(lèi)公開(kāi)高分辨率遙感場(chǎng)景數(shù)據(jù)集進(jìn)行試驗(yàn),用以驗(yàn)證本文方法的有效性和可靠性。
(1) UC Merced數(shù)據(jù)集。該數(shù)據(jù)集源自美國(guó)地質(zhì)勘探局國(guó)家城市地圖圖像,共包含21類(lèi)帶標(biāo)簽的高分辨率遙感場(chǎng)景。每個(gè)類(lèi)別包含100張256×256像素的圖像,圖像分辨率在0.3 m左右。其部分類(lèi)別場(chǎng)景的示例如圖6所示。

圖6 UC Merced數(shù)據(jù)集的部分場(chǎng)景示例Fig.6 Some example scenes of UC Merced dataset
(2) WHU-RS數(shù)據(jù)集。該數(shù)據(jù)集源自武漢大學(xué)通過(guò)Google Earth截取的高分辨率衛(wèi)星遙感圖像,共包含19類(lèi)帶標(biāo)簽的高分辨率遙感場(chǎng)景。每個(gè)類(lèi)別包含約50張600×600像素的圖像。其部分類(lèi)別場(chǎng)景的示例如圖7所示。

圖7 WHU-RS數(shù)據(jù)集的部分場(chǎng)景示例Fig.7 Some example scenes of WHU-RS dataset
試驗(yàn)中,以上數(shù)據(jù)集被均分為5個(gè)子部分進(jìn)行交叉檢驗(yàn)。對(duì)于UC Merced數(shù)據(jù)集,每一個(gè)子部分包含420張高分辨率遙感場(chǎng)景圖像。對(duì)于WHU-RS數(shù)據(jù)集,每一個(gè)子部分則包含190張圖像。基于5個(gè)子部分的交叉檢驗(yàn),試驗(yàn)的主要評(píng)價(jià)指標(biāo)為遙感場(chǎng)景分類(lèi)的平均準(zhǔn)確率和分類(lèi)準(zhǔn)確率的標(biāo)準(zhǔn)差。
試驗(yàn)使用第1節(jié)介紹的5種經(jīng)ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的DCNN,即AlexNet[10]、CaffeNet[12]、VGG-VD16[13]、GoogLeNet[23]和ResNet[25],驗(yàn)證該方法在高分辨率遙感場(chǎng)景分類(lèi)任務(wù)中對(duì)于增強(qiáng)預(yù)訓(xùn)練DCNN泛化能力的效果。除了使用全局特征訓(xùn)練分類(lèi)器以外,其余試驗(yàn)過(guò)程均是在非監(jiān)督條件下進(jìn)行的。
試驗(yàn)中采用單層的LPCANet,其中PCA核的尺寸為k1=k2=8,PCA核的數(shù)量設(shè)定為L(zhǎng)=8。池化層中,池化域?yàn)?×8的無(wú)重疊區(qū)域,且采用平均值池化方法。考慮到不同的預(yù)訓(xùn)練DCNN對(duì)輸入圖像尺寸具有不同的要求。針對(duì)AlexNet和CaffeNet,需要將LPCANet得到池化特征圖r縮放到227×227大小。針對(duì)VGG-VD16、GoogLeNet和ResNet,需要將池化特征圖r縮放到224×224大小。在不做說(shuō)明的情況下,試驗(yàn)中的分類(lèi)器使用線性SVM分類(lèi)器。在兩個(gè)高分辨遙感場(chǎng)景數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示。表1中,Ac和SD分別表示遙感場(chǎng)景的平均分類(lèi)準(zhǔn)確率及分類(lèi)準(zhǔn)確率的標(biāo)準(zhǔn)差。在off-the-shelf情況下,預(yù)訓(xùn)練DCNN被直接用作特征提取器,其提取到的全局特征輸入線性SVM分類(lèi)器實(shí)現(xiàn)對(duì)遙感場(chǎng)景的分類(lèi)。事實(shí)上,off-the-shelf的試驗(yàn)框架對(duì)于高分辨率遙感場(chǎng)景的分類(lèi)任務(wù)已幾乎取得了迄今為止最好的分類(lèi)效果[20]。對(duì)比使用遙感數(shù)據(jù)集訓(xùn)練全新DCNN的方案,直接將預(yù)訓(xùn)練后的DCNN遷移至遙感場(chǎng)景分類(lèi)任務(wù)顯示出了明顯的優(yōu)勢(shì)[14]。因?yàn)槊鎸?duì)DCNN中的巨量參數(shù),有限的遙感數(shù)據(jù)會(huì)造成嚴(yán)重的過(guò)擬合現(xiàn)象,不能充分利用DCNN的深度結(jié)構(gòu)。進(jìn)一步地,遙感場(chǎng)景分類(lèi)的平均準(zhǔn)確率如圖8所示。

表1 5種預(yù)訓(xùn)練DCNN在兩類(lèi)遙感數(shù)據(jù)集上的遙感場(chǎng)景分類(lèi)結(jié)果

圖8 遙感場(chǎng)景分類(lèi)的平均準(zhǔn)確率Fig.8 Mean accuracy rate of remote scene classification
由表1和圖8可知,在off-the-shelf情況下不論使用的預(yù)訓(xùn)練DCNN為AlexNet、CaffeNet、VGG-VD16或GoogLeNet,其分類(lèi)效果差別不大。與直觀認(rèn)為的更深的DCNN結(jié)構(gòu)或更復(fù)雜的DCNN單元帶來(lái)更好的分類(lèi)效果不同,GoogLeNet取得的效果并不明顯優(yōu)于AlexNet和CaffeNet,VGG-VD16甚至比AlexNet取得的分類(lèi)效果更差。因此,直接將預(yù)訓(xùn)練DCNN遷移至遙感場(chǎng)景分類(lèi)存在明顯的瓶頸。其原因在于,用于預(yù)訓(xùn)練DCNN的源數(shù)據(jù)集(ImageNet數(shù)據(jù)集)和目標(biāo)數(shù)據(jù)集(UC Merced數(shù)據(jù)集或WHU-RS數(shù)據(jù)集)存在空間信息上的差異,在將預(yù)訓(xùn)練DCNN遷移至遙感場(chǎng)景分類(lèi)任務(wù)時(shí),其缺乏足夠的泛化能力。另外,近兩年取得巨大成功的DCNN結(jié)構(gòu)ResNet在試驗(yàn)中并沒(méi)有取得理想的效果,不論其網(wǎng)絡(luò)深度為50層、101層或是最深的152層。因?yàn)镽esNet中的殘差單元將輸入與輸出直接關(guān)聯(lián),在減少了網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的同時(shí),弱化了參數(shù)間的獨(dú)立性,使得其泛化能力較差,不利于將其遷移至其他任務(wù)。
網(wǎng)絡(luò)框架中,在將預(yù)訓(xùn)練DCNN遷移至遙感場(chǎng)景分類(lèi)之前,使用LPCANet對(duì)高分辨率遙感圖像進(jìn)行處理,減小了遷移過(guò)程中目標(biāo)數(shù)據(jù)集與源數(shù)據(jù)集之間的差異,增強(qiáng)了預(yù)訓(xùn)練DCNN在遷移過(guò)程中的泛化能力。如表1和圖8所示,本文提出的方法在遙感場(chǎng)景分類(lèi)任務(wù)中突破了off-the-shelf情況下存在的瓶頸,取得了更好的分類(lèi)準(zhǔn)確率。另外,相比于off-the-shelf的情況,該方法對(duì)于遙感場(chǎng)景分類(lèi)準(zhǔn)確率的提升程度隨著預(yù)訓(xùn)練DCNN深度和復(fù)雜度的增加而增加。這進(jìn)一步證實(shí)了該網(wǎng)絡(luò)結(jié)構(gòu)能夠增強(qiáng)預(yù)訓(xùn)練DCNN針對(duì)遙感場(chǎng)景分類(lèi)的泛化能力,能更好地發(fā)揮DCNN深度結(jié)構(gòu)的優(yōu)勢(shì)。另一方面,更小的分類(lèi)準(zhǔn)確率標(biāo)準(zhǔn)差也說(shuō)明,相比off-the-shelf的情況,該方法在進(jìn)行遙感場(chǎng)景分類(lèi)時(shí)具有更強(qiáng)的穩(wěn)定性。以預(yù)訓(xùn)練CaffeNet為例,針對(duì)off-the-shelf及該方法,高分辨率遙感場(chǎng)景在深度網(wǎng)絡(luò)結(jié)構(gòu)中的詳細(xì)變化過(guò)程如圖9所示。由圖9可知,采用文獻(xiàn)[28]提出的方法進(jìn)行遙感場(chǎng)景特征的重構(gòu)顯化。CaffeNet中的卷積層保留了遙感場(chǎng)景的基本結(jié)構(gòu)。隨著卷積層的加深,遙感場(chǎng)景的空間結(jié)構(gòu)變得更加模糊。另外,全連接層對(duì)遙感場(chǎng)景的空間信息進(jìn)行了重構(gòu),并獲取到更抽象的特征表達(dá)。從全連接層中,仍然可以看到機(jī)場(chǎng)跑道的邊、角等信息,但其空間布局與原始遙感場(chǎng)景有很大的差異。對(duì)比圖9(a)和圖9(b)中全連接層的重構(gòu)圖像,圖9(b)的全連接層中包含更多不同方位和尺度的關(guān)于機(jī)場(chǎng)組成部分的特征。此外,相比于圖9(a),圖9(b)全連接層中的特征更加清晰,判別性更好。試驗(yàn)結(jié)果進(jìn)一步說(shuō)明了本文方法能夠獲取到關(guān)于遙感場(chǎng)景更好的全局特征,證實(shí)了該方法對(duì)于增強(qiáng)預(yù)訓(xùn)練DCNN泛化性能,提升其在遙感場(chǎng)景分類(lèi)效果方面的作用。
為了更直觀地對(duì)比off-the-shelf以及本文方法情況下通過(guò)預(yù)訓(xùn)練CaffeNet提取到的遙感場(chǎng)景的全局特征分布,試驗(yàn)中使用t-SNE算法[29-30]分別將兩種情況下從UC Merced數(shù)據(jù)集中提取到的高維全局特征降維至二維平面。在使用t-SNE算法時(shí),算法復(fù)雜度設(shè)置為30,訓(xùn)練迭代次數(shù)設(shè)置為1 000次。兩種情況下t-SNE算法在UC Merced數(shù)據(jù)集上的試驗(yàn)結(jié)果如圖10所示。

圖10 UC Merced數(shù)據(jù)集中遙感場(chǎng)景的全局特征分布Fig.10 Separability of global features generated from remote scenes on UC Merced dataset
其中,UC Merced數(shù)據(jù)集中的21類(lèi)遙感場(chǎng)景用21種不同的顏色表示。如圖10所示,兩種情況下,由預(yù)訓(xùn)練CaffeNet提取到的遙感場(chǎng)景的全局特征經(jīng)t-SNE算法降維至二維平面后,同類(lèi)遙感場(chǎng)景自發(fā)地聚集在一起。然而,相比于off-the-shelf的情況,本文方法提取到的不同類(lèi)遙感場(chǎng)景的全局特征具有更好的可分離性。
為進(jìn)一步驗(yàn)證本文所設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)中LPCANet的有效性,如圖11所示,PCA算法被直接用于預(yù)處理遙感場(chǎng)景數(shù)據(jù)集中的每張遙感圖像,并將預(yù)處理后的遙感圖像輸入DCNN用于遙感場(chǎng)景分類(lèi)。

圖11 PCA算法單獨(dú)預(yù)處理每張遙感圖像Fig.11 Pre-processing every single remote sensing image by PCA algorithm
表2顯示了各方案在UC Merced數(shù)據(jù)集上的試驗(yàn)結(jié)果。試驗(yàn)結(jié)果表明,相比于該方法以及off-the-shelf方案,將PCA算法直接用于預(yù)處理遙感圖像并不能提升預(yù)訓(xùn)練DCNN的泛化能力并取得滿意的遙感場(chǎng)景分類(lèi)效果。不同于LPCANet通過(guò)提取PCA核并與遙感圖像進(jìn)行卷積的處理方式,直接使用PCA算法單獨(dú)處理每張遙感圖像會(huì)丟失遙感場(chǎng)景具有判別性的空間信息,影響預(yù)訓(xùn)練DCNN對(duì)遙感場(chǎng)景的分類(lèi)效果。
對(duì)于高分辨率遙感場(chǎng)景分類(lèi),近年來(lái)已有很多方法取得了令人滿意的分類(lèi)效果。與本文所使用的試驗(yàn)數(shù)據(jù)集相同,大多數(shù)方法均是基于UC Merced數(shù)據(jù)集進(jìn)行測(cè)試的。因此,表3比較了本文方法與其他方法在UC Merced數(shù)據(jù)集上取得的遙感場(chǎng)景分類(lèi)準(zhǔn)確率。如表3所示,該方法相比于近年來(lái)提出的大多數(shù)方法在分類(lèi)準(zhǔn)確率上至少提升了近1%。需要指出的是,本文方法僅僅是在非監(jiān)督條件下提供了將預(yù)訓(xùn)練DCNN遷移至高分辨率遙感場(chǎng)景分類(lèi)任務(wù)的基礎(chǔ)框架,并沒(méi)有使用遙感數(shù)據(jù)集訓(xùn)練DCNN中的結(jié)構(gòu)參數(shù)。因此本文方法在分類(lèi)準(zhǔn)確率上并不優(yōu)于文獻(xiàn)[14]提出的GoogLeNet+Fine-tune方案。然而,對(duì)DCNN參數(shù)微調(diào)(Fine-tune)的效果依賴(lài)于遙感數(shù)據(jù)集的規(guī)模,而且相比于該方法也更加費(fèi)時(shí)。此外,在具有足夠多的高分辨率遙感圖像且遙感場(chǎng)景分類(lèi)時(shí)間允許的前提下,可以在本文提出的網(wǎng)絡(luò)框架基礎(chǔ)上進(jìn)一步使用遙感數(shù)據(jù)集微調(diào)DCNN的結(jié)構(gòu)參數(shù)并取得更好的分類(lèi)效果。

表2 3種方案對(duì)UC Merced數(shù)據(jù)集的分類(lèi)準(zhǔn)確率

表3 現(xiàn)有方法對(duì)UC Merced數(shù)據(jù)集的分類(lèi)準(zhǔn)確率
針對(duì)DCNN遷移至高分辨率遙感場(chǎng)景分類(lèi)的問(wèn)題,設(shè)計(jì)了一種通用的網(wǎng)絡(luò)框架用于增強(qiáng)DCNN在遷移過(guò)程中的泛化能力,以取得更好的遙感場(chǎng)景分類(lèi)效果。為減小用于訓(xùn)練DCNN的日常可見(jiàn)光數(shù)據(jù)和用于分類(lèi)任務(wù)的高分辨率遙感數(shù)據(jù)之間的空間差異,LPCANet被用于整合高分辨率遙感場(chǎng)景中的空間信息,并濾除與遙感場(chǎng)景語(yǔ)義特征不相關(guān)的噪聲。在UC Merced數(shù)據(jù)集和WHU-RS數(shù)據(jù)集上的試驗(yàn)結(jié)果表明,相比于直接將各類(lèi)DCNN遷移至高分辨率遙感場(chǎng)景分類(lèi)時(shí)取得的最好分類(lèi)效果,本文方法對(duì)兩類(lèi)數(shù)據(jù)集的分類(lèi)準(zhǔn)確率分別提升了1.37%和1.46%,并達(dá)到95.95%和96.22%。此外,隨著DCNN結(jié)構(gòu)的不斷演化,該方法能夠?yàn)橐院蟾黝?lèi)新的DCNN遷移至遙感任務(wù)提供良好的研究基礎(chǔ)。
[1] WANG J, QIN Q, LI Z, et al. Deep hierarchical representation and segmentation of high resolution remote sensing images[C]∥Proc.of the IEEE International Geoscience and Remote Sensing Symposium, 2015: 4320-4323.
[2] NIJIM M, CHENNUBOYINA R D, AL AQQAD W. A supervised learning data mining approach for object recognition and classification in high resolution satellite data[J]. World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering, 2015, 9(12): 2319-2323.
[3] VAKALOPOULOU M, KARANTZALOS K, KOMODAKIS N, et al. Building detection in very high resolution multispectral data with deep learning features[C]∥Proc.of the IEEE International Geoscience and Remote Sensing Symposium, 2015: 1873-1876.
[4] ZHOU W, SHAO Z, DIAO C, et al. High-resolution remote-sensing imagery retrieval using sparse features by auto-encoder[J]. Remote Sensing Letters, 2015, 6(10): 775-783.
[5] CHERIYADAT A M. Unsupervised feature learning for aerial scene classification[J]. IEEE Trans.on Geoscience and Remote Sensing, 2014, 52(1): 439-451.
[6] XU Y, HUANG B. Spatial and temporal classification of synthetic satellite imagery: land cover mapping and accuracy validation[J]. Geo-spatial Information Science, 2014, 17(1): 1-7.
[7] YANG W, YIN X, XIA G S. Learning high-level features for satellite image classification with limited labeled samples[J]. IEEE Trans.on Geoscience and Remote Sensing,2015,53(8):4472-4482.
[8] SHAO W, YANG W, XIA G S. Extreme value theory-based calibration for the fusion of multiple features in high-resolution satellite scene classification[J]. International Journal of Remote Sensing, 2013, 34(23): 8588-8602.
[9] ROMERO A, GATTA C, CAMPS-VALLS G. Unsupervised deep feature extraction for remote sensing image classification[J]. IEEE Trans.on Geoscience and Remote Sensing, 2016, 54(3): 1349-1362.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]∥Proc.of the Advances in Neural Information Processing Systems, 2012: 1097-1105.
[11] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013.
[12] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]∥Proc.of the 22nd ACM International Conference on Multimedia, 2014: 675-678.
[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014.
[14] CASTELLUCCIO M, POGGI G, SANSONE C, et al. Land use classification in remote sensing images by convolutional neural networks[J]. Acta Ecologica Sinica, 2015, 28(2): 627-635.
[15] DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database[C]∥Proc.of the IEEE Computer Vision and Pattern Recognition, 2009: 248-255.
[16] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[J]. 2014: 512-519.
[17] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[18] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[19] PENATTI O A B, NOGUEIRA K, DOS SANTOS J A. Do deep features generalize from everyday objects to remote sensing and aerial scenes domains[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2015: 44-51.
[20] HU F, XIA G S, HU J, et al. Transferring deep convolutional neural networks for the scene classification of high-resolution remote sensing imagery[J]. Remote Sensing, 2015, 7(11): 14680-14707.
[21] HE K, SUN J. Convolutional neural networks at constrained time cost[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5353-5360.
[22] LIN M, CHEN Q, YAN S. Network in network[J]. Computer Science, 2013.
[23] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[24] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[J]. ArXiv Preprint ArXiv, 2015:2818-2826.
[25] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]∥Proc.of the IEEE Computer Vision and Pattern Recognition, 2016: 770-778.
[26] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[J]. 2016.
[27] CHAN T H, JIA K, GAO S, et al. PCANet: a simple deep learning baseline for image classification[J]. IEEE Trans.on Image Processing, 2015, 24(12): 5017-5032.
[28] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5188-5196.
[29] MAATEN L V D, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2017, 9(2605): 2579-2605.
[30] LAURENS V D M. Accelerating t-SNE using tree-based algorithms [J].Journal of Machine Learning Research,2014,15(1): 3221-3245.
[31] YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C]∥Proc.of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, 2010: 270-279.
[32] YANG Y, NEWSAM S. Spatial pyramid co-occurrence for image classification[C]∥Proc.of the IEEE International Conference on Computer Vision, 2011: 1465-1472.
[33] JIANG Y, YUAN J, YU G. Randomized spatial partition for scene recognition[C]∥Proc.of the European Conference on Computer Vision, 2012: 730-743.
[34] XIAO Y, WU J, YUAN J. mCENTRIST: a multi-channel feature generation mechanism for scene categorization[J]. IEEE Trans.on Image Processing, 2014, 23(2): 823-836.
[35] AVRAMOVIC A, RISOJEVIC V. Block-based semantic classification of high-resolution multispectral aerial images[J]. Signal, Image and Video Processing, 2016, 10(1): 75-84.
[36] CHENG G, HAN J, ZHOU P, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. Isprs Journal of Photogrammetry and Remote Sensing, 2014, 98(1): 119-132.
[37] KOBAYASHI T. Dirichlet-based histogram feature transform for image classification[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3278-3285.
[38] NEGREL R, PICARD D, GOSSELIN P H. Evaluation of second-order visual features for land-use classification[C]∥Proc.of the IEEE 12th International Workshop on Content-Based Multimedia Indexing, 2014: 1-5.
[39] REN J, JIANG X, YUAN J. Learning LBP structure by maximizing the conditional mutual information[J].Pattern Recognition, 2015, 48(10): 3180-3190.
[40] CHEN S, TIAN Y L. Pyramid of spatial relatons for scene-level land use classification[J]. IEEE Trans.on Geoscience and Remote Sensing, 2015, 53(4): 1947-1957.
[41] HU F, XIA G S, WANG Z, et al. Unsupervised feature learning via spectral clustering of multidimensional patches for remotely sensed scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 8(5):2015-2030.
[42] CHENG G, HAN J, GUO L, et al. Effective and efficient midlevel visual elements-oriented land-use classification using VHR remote sensing images[J]. IEEE Trans.on Geoscience and Remote Sensing, 2015, 53(8): 4238-4249.
[43] CHENG G, HAN J, GUO L, et al. Learning coarse-to-fine sparselets for efficient object detection and scene classification[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1173-1181.
[44] HU F, XIA G S, HU J, et al. Fast binary coding for the scene classification of high-resolution remote sensing imagery[J].Remote Sensing, 2016, 8(7): 555.
[45] ZHONG Y, FEI F, ZHANG L. Large patch convolutional neural networks for the scene classification of high spatial resolution imagery[J]. Journal of Applied Remote Sensing, 2016, 10(2): 025006.
[46] QI K L, LIU W X, YANG C, et al. High resolution satellite image classification using multi-task joint sparse and low-rank representation[J]. Preprints (www.preprints.org), 7 November 2016, doi:10.20944/preprints201611.0036.v1.
[47] ZHAO B, ZHONG Y, ZHANG L. A spectral-structural bag-of-features scene classifier for very high spatial resolution remote sensing imagery[J]. Isprs Journal of Photogrammetry and Remote Sensing, 2016, 116: 73-85.
[48] YU H, YANG W, XIA G S, et al. A color-texture-structure descriptor for high-resolution satellite image classification[J]. Remote Sensing, 2016, 8(3): 259.
[49] LIU Y, ZHONG Y, FEI F, et al. Scene semantic classification based on random-scale stretched convolutional neural network for high-spatial resolution remote sensing imagery[C]∥Proc.of the IEEE International Geoscience and Remote Sensing Symposium, 2016: 763-766.