何婧媛,謝生龍,田原,田琴琴
(延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,陜西延安 716000)
遙感圖像場(chǎng)景分類通常是根據(jù)特征進(jìn)行分類,圖像特征的提取很大程度上決定了場(chǎng)景分類的準(zhǔn)確度。目前,圖像特征表示方法主要有基于人工提取特征、基于無(wú)監(jiān)督特征學(xué)習(xí)和基于深度特征學(xué)習(xí)三種。遙感圖像空間分辨率的提高使得遙感圖像分類經(jīng)歷了三個(gè)階段:像素級(jí)、目標(biāo)級(jí)和場(chǎng)景級(jí)。近年來(lái)對(duì)圖像場(chǎng)景分類的研究越來(lái)越多,場(chǎng)景分類面臨的主要挑戰(zhàn)[1]是圖像類別和帶標(biāo)記的數(shù)據(jù)樣本數(shù)量少、類內(nèi)多樣性大、類間相似性高、場(chǎng)景尺度變化大、具有判別力的特征提取困難等。
目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于遙感圖像場(chǎng)景分類任務(wù),與傳統(tǒng)方法相比,CNN 具有端到端的特點(diǎn),同時(shí)能夠提取手工制作特征方法無(wú)法學(xué)習(xí)到的高級(jí)視覺(jué)特征。通過(guò)大量實(shí)驗(yàn)驗(yàn)證了利用現(xiàn)有的CNN 網(wǎng)絡(luò)進(jìn)行特征提取在小規(guī)模數(shù)據(jù)集上是簡(jiǎn)單和有效的,但訓(xùn)練樣本的數(shù)量若不足以從頭訓(xùn)練一個(gè)新的CNN 時(shí),可以選擇在已經(jīng)訓(xùn)練好的CNN 上對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào)。基于CNN 的遙感圖像場(chǎng)景分類主要有使用現(xiàn)成的CNNs 作為特征提取器、在目標(biāo)數(shù)據(jù)集上對(duì)已經(jīng)訓(xùn)練好的CNNs 進(jìn)行微調(diào)和對(duì)輕量級(jí)CNNs 模型進(jìn)行優(yōu)化這三種策略[2-5]。
在場(chǎng)景分類任務(wù)中,針對(duì)基于CNN 的方法需要將大量帶標(biāo)記的遙感圖像作為訓(xùn)練數(shù)據(jù)集,無(wú)監(jiān)督學(xué)習(xí)方法GANs 引入了遙感圖像場(chǎng)景分類。基于GAN 的方法通過(guò)對(duì)抗性訓(xùn)練能夠模擬真實(shí)場(chǎng)景中的樣本分布并生成新樣本,它主要用于沒(méi)有標(biāo)記數(shù)據(jù)的場(chǎng)景分類。GAN 是一種深度學(xué)習(xí)模型,通過(guò)博弈的對(duì)抗性訓(xùn)練,GAN 可以模擬真實(shí)樣本的分布并生成新的樣本。基于GAN 的方法已經(jīng)成功地應(yīng)用于遙感圖像數(shù)據(jù)集中沒(méi)有人工標(biāo)注標(biāo)簽的遙感圖像場(chǎng)景分類。表1 列出了一些基于GAN 的遙感圖像場(chǎng)景分類。

表1 基于GAN的遙感圖像場(chǎng)景分類總結(jié)
GAN 通過(guò)增強(qiáng)鑒別器的表示能力,獲得了較好的場(chǎng)景分類性能。基于GAN 的方法通常使用GAN來(lái)生成樣本,或者對(duì)抗性地通過(guò)訓(xùn)練網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。基于GAN 的場(chǎng)景分類方法比基于CNN 的場(chǎng)景分類方法少很多,但由于GAN 具有強(qiáng)大的自監(jiān)督特征學(xué)習(xí)能力,因此,其是場(chǎng)景分類一個(gè)較好的發(fā)展與研究方向。
通過(guò)提取圖像特征對(duì)圖像進(jìn)行分類,需要大量帶標(biāo)簽的圖像作為樣本數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)模型,然而實(shí)際情況并不能達(dá)到預(yù)期目標(biāo),在模型訓(xùn)練過(guò)程中經(jīng)常會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。這就促使了將一些訓(xùn)練好的深度網(wǎng)絡(luò)模型遷移到遙感圖像場(chǎng)景分類中。將在具有足夠數(shù)據(jù)的數(shù)據(jù)集上訓(xùn)練好的網(wǎng)絡(luò)模型應(yīng)用到需要遙感圖像場(chǎng)景分類,且可以將其使用在訓(xùn)練好的網(wǎng)絡(luò)模型上的結(jié)構(gòu)和參數(shù)等信息中,然后在新的數(shù)據(jù)集上對(duì)其進(jìn)行重新訓(xùn)練。采用遷移學(xué)習(xí)進(jìn)行圖像分類,大部分情況下是通過(guò)對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行微調(diào)來(lái)達(dá)到目的,具體如何對(duì)模型進(jìn)行訓(xùn)練與使用,取決于數(shù)據(jù)集的大小以及源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的數(shù)據(jù)相似程度。
文獻(xiàn)[14]采用數(shù)據(jù)增廣和遷移學(xué)習(xí)兩種技術(shù)在UC-Merced 數(shù)據(jù)集上驗(yàn)證了五種現(xiàn)有網(wǎng)絡(luò)性能,并得到了較高的分類精度。在文獻(xiàn)[15]中提出了一種基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)高分辨率遙感影像識(shí)別方法,用來(lái)解決小樣本集合的遙感影像場(chǎng)景分類問(wèn)題,該方法在UC-Merced 數(shù)據(jù)集上的準(zhǔn)確率達(dá)到97.92%。針對(duì)相同和不同高光譜多場(chǎng)景圖像的網(wǎng)絡(luò)遷移問(wèn)題,吳斯凡在基于多尺度多場(chǎng)景遷移學(xué)的高光譜圖像分類算法研究中采用基于模型的遷移學(xué)習(xí)和基于特征-模型的遷移學(xué)習(xí)方法,解決了高光譜圖像標(biāo)記缺乏的問(wèn)題,同時(shí)提高了分類性能。從大量基于遷移學(xué)習(xí)的遙感圖像分類文獻(xiàn)中可以看出,對(duì)于小樣本或零樣本的圖像分類問(wèn)題,采用遷移學(xué)習(xí)方法能夠較有效地解決圖像標(biāo)記缺乏帶來(lái)的分類準(zhǔn)確率不高、分類性能較低等問(wèn)題,為跨域圖像場(chǎng)景分類帶來(lái)了新的研究方向。
通過(guò)對(duì)深度學(xué)習(xí)場(chǎng)景分類現(xiàn)狀的研究,針對(duì)場(chǎng)景分類中存在的多尺度特征提取困難以及特征表征能力弱的問(wèn)題,在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出適應(yīng)場(chǎng)景分類的網(wǎng)絡(luò)模型。
構(gòu)建遙感圖像樣本數(shù)據(jù)集為D=[D1,D2,…,DN],樣本標(biāo)簽為L(zhǎng)=[L1,L2,…,LN],其中N表示有N類遙感圖像,Di(i=1,2,…,N)表示第i類遙感圖像的數(shù)據(jù)集合,Li(i=1,2,…,N)表示第i類遙感圖像的標(biāo)簽集合。樣本數(shù)據(jù)集是由訓(xùn)練集Tra和測(cè)試集Tes構(gòu)成。對(duì)于數(shù)據(jù)集中的每類遙感圖像,假設(shè)其樣本總數(shù)為n,訓(xùn)練集從樣本總數(shù)中隨機(jī)抽取m張圖像進(jìn)行構(gòu)建,測(cè)試集由剩余n-m張圖像進(jìn)行構(gòu)建,即Tra=[Tra1,Tra2,…,TraN],Tes=[Tes1,Tes2,…,TesN],其中,Trai(i=1,2,…,N)代表的含義是第i類遙感圖像的訓(xùn)練集,總共包含了m張訓(xùn)練圖像,Tesi(i=1,2,…,N)代表的含義是第i類遙感圖像的測(cè)試集,由n-m張測(cè)試圖像構(gòu)成。
文中構(gòu)建了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)和多尺度特征融合(MFF-CNN)的網(wǎng)絡(luò)模型,如圖1 所示。

圖1 MFF-CNN模型
MFF-CNN 網(wǎng)絡(luò)采用特征融合模塊將高層網(wǎng)絡(luò)Level 6、Level 5 分別與低層網(wǎng)絡(luò)Level 1、Level 2 通過(guò)跳躍連接方式進(jìn)行融合。融合模塊1 對(duì)Level 1 與Level 6 進(jìn)行融合,融合模塊2 對(duì)Level 2 與Level 5 進(jìn)行融合,以此實(shí)現(xiàn)高層語(yǔ)義信息與低層特征信息的融合,然后將特征融合模塊與全連接層fc7 同時(shí)輸入到多核支持向量機(jī)(MKSVM)進(jìn)行分類,實(shí)現(xiàn)來(lái)自不同卷積層、不同尺度、不同特征的多元信息分類,最后得到分類結(jié)果。
1)前向計(jì)算MFF-CNN 網(wǎng)絡(luò)每個(gè)神經(jīng)元的輸出值[16]。
第k層卷積層的第j個(gè)特征圖的計(jì)算公式如下:

第k層池化層的第j個(gè)特征圖的計(jì)算公式如下:

第k層為全連接層時(shí),第j個(gè)特征圖的計(jì)算公式如下:

其中,yk-1表示第k-1 層所有特征圖加權(quán)之后的結(jié)果。
2)反向計(jì)算MFF 網(wǎng)絡(luò)整體損失函數(shù)[17]。
對(duì)于圖像訓(xùn)練集中帶標(biāo)簽樣本Imi的標(biāo)簽函數(shù)由如下公式確定:

若判定標(biāo)簽樣本Imi為第c類的概率是(c=1,2,…,N),則將其誤差定義為Eri,公式如下:

根據(jù)所有訓(xùn)練樣本的誤差來(lái)計(jì)算損失函數(shù)Los,計(jì)算公式如下:

3)采用梯度下降法更新網(wǎng)絡(luò)參數(shù),同時(shí)對(duì)損失函數(shù)進(jìn)行最小化。
4)根據(jù)公式(3)計(jì)算得到fc7 層輸出結(jié)果fe_fc7,其包含了fc7 層的所有特征圖。
在高層特征自適應(yīng)融合的基礎(chǔ)上設(shè)計(jì)一種多核支持向量機(jī)(MKSVM)分類器[16]:

式中,f(xj)代表第j張圖像的預(yù)測(cè)標(biāo)簽值,αi是優(yōu)化參數(shù),li是訓(xùn)練樣本標(biāo)簽,Num為訓(xùn)練樣本數(shù),ωn代表各子核權(quán)重,Kern(xi,xj)表示第n個(gè)核函數(shù),b是最優(yōu)偏置。式(8)中xi表示第 張圖像在全連接層fc7 的特征向量,xj和xq分別表示第j張和第q張圖像在融合模塊1 和融合模塊2 的特征向量,η表示帶寬參數(shù)。分類器訓(xùn)練好后,將MFF-CNN 網(wǎng)絡(luò)中采用融合模塊融合后的圖像特征和全連接層的輸出作為輸入數(shù)據(jù),共同輸入MKSVM 分類器,然后采用MKSVM 分類器對(duì)圖像進(jìn)行分類。將測(cè)試集中所有圖像采用分類器分類后得到的預(yù)測(cè)值與其原始標(biāo)簽值相比,能夠得到圖像分類準(zhǔn)確率。
數(shù)據(jù)集對(duì)圖像分類的評(píng)價(jià)有著重要的作用,近年來(lái)高分辨率衛(wèi)星圖像的獲取也更加容易,為了提高分類準(zhǔn)確率和精確率,一些公開(kāi)的分辨率高的基準(zhǔn)數(shù)據(jù)集相繼產(chǎn)生。目前運(yùn)用最廣泛的遙感圖像場(chǎng)景數(shù)據(jù)集[1]是發(fā)布于2010 年的UC-Merced 以及發(fā)布于2017 年的AID 和NWPU-RESISC45 這3 個(gè)公開(kāi)基準(zhǔn)數(shù)據(jù)集,其中AID 和NWPU-RESISC45是最新的兩個(gè)大型場(chǎng)景分類基準(zhǔn)數(shù)據(jù)集,這3 個(gè)數(shù)據(jù)集及其特征如表2所示。

表2 3個(gè)公開(kāi)可用的遙感圖像場(chǎng)景分類數(shù)據(jù)集
文中采用的數(shù)據(jù)集是UC-Merced、AID和NWPURESISC45 三個(gè)用于遙感圖像場(chǎng)景分類數(shù)據(jù)集,數(shù)據(jù)集中圖像的角度、方向、光照等各不相同,增加了分類難度。在實(shí)驗(yàn)中訓(xùn)練樣本和測(cè)試樣本均是隨機(jī)選擇的,三個(gè)數(shù)據(jù)集中每類圖像的訓(xùn)練樣本和測(cè)試樣本比例分別為8∶2、5∶5 和2∶8。
為了驗(yàn)證該文提出的MFF-CNN 方法在遙感圖像場(chǎng)景分類中的性能,將文獻(xiàn)中的一些基于深度學(xué)習(xí)的場(chǎng)景分類方法與MFF-CNN 方法在3 個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集UC-Merced、AID 和NWPU-RESISC45 上的總體精度(OA)進(jìn)行對(duì)比,分類精度對(duì)比結(jié)果如表3所示。
對(duì)表3 進(jìn)行分析看出UC-Merced 數(shù)據(jù)集上的分類準(zhǔn)確率可以達(dá)到98%以上,該文為98.84%。AID數(shù)據(jù)集上的分類準(zhǔn)確率可以達(dá)到96%以上,該文為96.95%。NWPU-RESISC45 數(shù)據(jù)集上一些基于CNN的先進(jìn)方法可以達(dá)到91%以上的分類準(zhǔn)確率,該文為91.58%。從實(shí)驗(yàn)結(jié)果對(duì)比分析中發(fā)現(xiàn),UC-Merced數(shù)據(jù)集上的分類性能已經(jīng)接近飽和,今后的研究重點(diǎn)應(yīng)主要針對(duì)AID 和NWPU-RESISC45 數(shù)據(jù)集,且NWPU-RESISC45 數(shù)據(jù)集與UC-Merced 數(shù)據(jù)集和AID 數(shù)據(jù)集相比分類準(zhǔn)確率有更大的提升空間。

表3 場(chǎng)景分類方法分類準(zhǔn)確率對(duì)比結(jié)果
該文方法輸入圖像更加豐富,特征表示能力更強(qiáng),實(shí)現(xiàn)了高層特征和底層特征間的融合,同時(shí)具有更好的泛化能力。實(shí)驗(yàn)結(jié)果也充分展示了該文方法具有較高的整體分類準(zhǔn)確率,是一種有效的遙感圖像分類算法。深度學(xué)習(xí)方法的分類性能不斷提高,但基于深度學(xué)習(xí)的方法對(duì)訓(xùn)練數(shù)據(jù)有較高的依賴性,需要大量帶標(biāo)記的樣本用于訓(xùn)練或調(diào)優(yōu),耗費(fèi)的精力和財(cái)力巨大,因此對(duì)遙感圖像場(chǎng)景分類研究應(yīng)趨向于無(wú)監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí),進(jìn)一步提高現(xiàn)實(shí)場(chǎng)景的魯棒性、泛化能力以及分類性能。