范 鑫,胡昌苗,霍連志
(1.中國科學院空天信息創新研究院,北京 100094;2.中國科學院大學 電子電氣與通信工程學院,北京 100049)
隨著衛星傳感器的迅速發展,獲取大量不同空間分辨率的遙感影像已經非常容易,不同分辨率的遙感影像可以廣泛服務于數字國土、智慧城市、環境監測和城市規劃等應用場景[1]。與低分辨率遙感影像相比,高分辨率遙感影像具有更豐富的細節信息,可以清晰地表達地物的結構和空間分布特征,蘊含著明確的場景語義信息[2]。然而,在高分辨率遙感影像中,地物種類復雜繁多,同一地物的不同空間分布也會使其場景類別發生變化,因而難以根據底層特征獲取高層語義信息,其結果是出現了語義鴻溝[3]。
為了跨越語義鴻溝,遙感影像場景分類已經成為遙感領域近年來的研究熱點,也是該領域最有挑戰性的課題之一[4]。遙感影像場景分類可以分為基于底層特征、基于中層特征和基于深度學習特征的3類方法。早期關于遙感影像場景分類的研究主要基于底層特征提取影像的顏色、紋理、結構等特征,直接描述場景,并借助傳統分類器對場景影像進行分類[5]。基于中層特征的場景分類代表方法主要有概率潛在語義分析(PLSA)[6]、潛在Dirichlet分配(LDA)[7]和視覺詞袋模型(BoVW)[8]。
近年來深度學習在遙感的諸多領域都取得了不少成就[9],基于深度學習的遙感影像場景分類研究也越來越受到相關學者的廣泛關注。基于深度學習的遙感影像場景分類方法主要可分為從頭開始訓練[10]、遷移學習參數微調[11]和遷移學習特征提取[12]3類。Zhu等[13]提出了一種高分辨率遙感影像場景分類的深度局部全局特征融合框架,將深度學習特征、局部特征和全局特征進行了融合。針對遙感影像處理中小樣本訓練地物識別與分類。譚琨等[14]進行了結合深度學習和半監督學習在遙感影像分類中的研究進展綜述。為了克服缺乏大量有標簽遙感影像數據集的問題,喬婷婷等[15]通過卷積神經網絡(CNN)模型結合數據增廣和遷移學習進行遙感影像場景分類,獲得了較大的精度提升。許夙暉等[16]利用多尺度特征與深度網絡對遙感影像進行場景分類,結合低頻和高頻子帶對不同場景類別的識別優勢,取得了較好的分類結果。
本研究擬結合不同分辨率遙感影像和多源地理數據,探索其在城市級研究區域場景理解中的應用。首先,通過超分辨率重建,在提升低分辨率遙感影像分辨率的同時融入高分辨率遙感影像的豐富細節信息;其次,在SIRI-WHU公開場景分類數據集上驗證本文所提出框架的有效性后,進一步耦合多源地理數據進行了武漢市場景分類實驗。
本研究選取武漢市為研究區。武漢市是湖北省的省會城市,同時也是華中地區的一大中心城市。
本文所使用的研究數據包含遙感影像和多源地理數據。其中,遙感影像又分為超分辨率重建數據集、規則影像和不規則影像場景數據集、夜間燈光影像數據。規則影像是指固定大小尺寸(如256 pixel×256 pixel)的影像塊,適合輸入到深度學習模型;而不規則影像是指大小形狀不一的影像塊。多源地理數據包含采集的武漢市研究區內的OSM,POI,RTUD。
1.2.1 超分辨率重建數據集
多分辨率遙感影像重建數據集通過收集同一區域不同分辨率的Google Earth大幅遙感影像裁剪獲得。該數據集包含16 000幅5個不同分辨率(包含2,4,8,16和32 m)下的遙感影像。重建模型數據集如圖1所示。

圖1 重建模型數據集Fig.1 Reconstruction model dataset
1.2.2 規則影像場景數據集
本研究使用的規則遙感影像場景數據集包括SIRI-WHU公開場景數據集和自制的武漢市多分辨率規則遙感影像場景數據集。
SIRI-WHU場景數據集由武漢大學遙感智能數據提取與分析組(RSIDEA)設計制作,包含12個場景類別(草場、池塘、港口、工業區、公園、河流、居民區、立交橋、農田、商業區、水體和裸地)。其中每類包含200幅場景影像,空間分辨率為2 m,大小為200 pixel×200 pixel。數據集中各場景類別的代表性影像如圖2所示。

圖2 SIRI-WHU場景數據集Fig.2 SIRI-WHU scene dataset
自制武漢市多分辨率規則遙感影像場景數據集通過對武漢市Google Earth大幅遙感影像進行裁剪與標注獲得,包含多種空間分辨率。以2 m分辨率為例,其影像大小為256 pixel×256 pixel。數據集包含7個類別(居民用地、農業用地、綠地、水體、工業和物流倉儲用地、教育科研用地以及其他空地),每類200幅影像。MR-WUHAN規則影像場景數據集如圖3所示。

圖3 MR-WUHAN規則影像場景數據集Fig.3 MR-WUHAN regular image scene dataset
1.2.3 不規則影像場景數據集
不規則遙感影像場景數據集通過使用OSM路網裁剪武漢市的Google Earth大幅影像,對獲得的不規則場景地塊進行專家人工標注獲得。標注后的結果如圖4所示。

圖4 武漢市不規則遙感影像標注結果Fig.4 Wuhan irregular remote sensing scene image annotation results
該數據集也包含多種不同分辨率的版本,數據集中同樣包含7個場景類別。由于地塊不規則,故數據集中影像的像素大小不一,同時每類影像數目為100~200幅不等。MR-WUHAN不規則影像場景數據集如圖5所示。

圖5 MR-WUHAN不規則影像場景數據集Fig.5 MR-WUHAN irregular image scene dataset
1.2.4 夜間燈光數據
夜間燈光數據來源于珞珈一號衛星夜間燈光影像,該影像能夠較好地表達城市內部結構的細節,可以反映城市不同職能區域的發展情況,是重要的社會經濟屬性指標。
武漢市夜間燈光數據如圖6所示。

圖6 武漢市夜間燈光數據Fig.6 Wuhan nighttime light data
1.3.1 OSM路網及POI興趣點數據
研究區的路網數據是本研究重要的地理數據之一,來源于Open Street Map(OSM),屬性字段包括道路等級等信息。興趣點數據來自高德地圖,本研究獲取了武漢市范圍內的POI數據,包含名稱、類型和位置等7種屬性,共計886 415條。OSM和POI數據可視化如圖7所示。

圖7 武漢市OSM及POI數據Fig.7 Wuhan OSM and POI data
1.3.2 實時人口時序RTUD數據
人口時序數據是按時間順序記錄人群在空間上分布情況的數據序列,可以直觀有效地反映空間區域的相關性,具有時間上的動態性和空間上的全覆蓋性。本研究使用來自騰訊人口時序數據庫的RTUD數據輔助城市場景分類。武漢市人口時序數據如圖8所示。

(a) 休息日10時
本研究的結構主要分為3部分。首先,基于多分辨率遙感影像訓練超分辨率重建模型,以融合不同分辨率的遙感影像特征。然后,在場景數據集上應用重建模型進行影像重建,再使用CNN進行場景分類,以驗證所提方法的有效性。最后,基于不規則遙感影像數據融合多源地理數據進行場景分類,提升所提框架的實際應用價值。耦合多源地理數據的多分辨率遙感影像場景分類方法研究框架如圖9所示。

圖9 研究方法框架Fig.9 Research method framework
在遙感影像數據上應用超分辨率重建模型主要有兩方面的原因:一方面,當某一地區的高分辨率遙感影像不可獲取時,可以使用低分辨率的遙感影像通過重建在一定程度上提高影像的分辨率和特征表達能力;另一方面,重建不僅可以提升影像的分辨率,還可以融入不同分辨率遙感影像的特征。原始影像和重建后的影像示例如圖10所示。

圖10 原始影像和重建后的影像示例Fig.10 Examples of original image and reconstructed image
2.1.1 SRGAN模型
近年來,超分辨率生成對抗網絡(SRGAN)在圖像超分辨率領域吸引了不少學者的關注,并帶領該領域進入了一個全新的高度。將生成對抗網絡(GAN)應用于圖像超分辨率(SR),通過在自然圖像上進行4倍下采樣后進行重建,獲得了相當逼真的重建結果。為了提高生成器網絡的性能以獲得更高質量的輸出,SRGAN模型提出了一種新的感知損失函數,包括內容損失和對抗損失。通過VGG網絡提取,并對內容損失和對抗損失進行加權求和,即:

2.1.2 遙感影像重建模型訓練
本研究使用不同分辨率的遙感影像訓練多個SRGAN模型,不僅訓練單一的低分辨率到高分辨率的重建模型,同時考慮加入多種分辨率的遙感影像進行訓練,可以融入不同分辨率遙感影像金字塔各個層級的特征,提升重建后影像的特征表達能力。具體的模型設置如表1所示。

表1 不同分辨率遙感影像SRGAN重建模型
基于SRGAN模型的不同分辨率遙感影像重建流程如圖11所示。

圖11 SRGAN重建流程Fig.11 SRGAN reconstruction flow chart
2.2.1 場景數據集重建
針對規則遙感影像場景數據集,利用已經在不同分辨率遙感影像重建數據集上預訓練后的SRGAN模型進行遷移測試。根據特定的場景數據集,選擇適宜的重建模型進行影像重建,獲得原始數據集對應的重建數據集。進一步,可以將原始數據集與重建數據集合并,獲得增廣后的場景數據集。場景數據集的重建流程如圖12所示。

圖12 場景數據集重建流程Fig.12 Scene dataset reconstruction flow chart
2.2.2 多CNN模型場景分類
CNN模型應用于遙感影像場景分類的研究主要針對幾個流行的場景數據集進行,并且許多研究工作都采用了微調的方法。首先,在自然圖像數據集,如ImageNet上進行模型預訓練;然后,遷移至場景數據集,以提升模型的特征提取能力,并大幅縮短訓練的時間和資源開銷。本文也采用微調的方法,使用預訓練的CNN模型進行場景分類。另外,不僅使用單一CNN模型進行場景分類,而且使用了AlexNet[17],SqueezeNet[18],DenseNet161[19]和VGG19[20]共4個代表性的CNN模型分別對原始影像數據集、重建影像數據集和增廣后的數據集進行場景分類,從模型和數據2個層面對所提方法進行實驗與分析。整體流程如圖13所示。

圖13 多CNN場景分類流程Fig.13 Multi-CNN scene classification flow chart
針對不規則影像,使用了不同分辨率的遙感影像。通過預訓練的VGG19網絡進行影像特征提取,輸出全連接層的高維特征向量。多分辨率的不規則遙感影像示例如圖14所示。

圖14 多分辨率不規則遙感影像Fig.14 Multi-resolution irregular remote sensing image
針對多源地理數據,以OSM路網分割的地塊為場景單元,對原始數據進行預處理,提取相應特征。針對POI數據,進行重分類,統計各場景單元指定類別POI占總POI數目的比例。針對RTUD數據和夜間燈光數據,通過分區統計每個地塊柵格值的平均值,并對所得特征進行最大最小歸一化。
以武漢市中心城區為研究區,通過OSM路網分割遙感影像獲得不規則場景地塊。使用VGG19網絡提取全連接層特征后再通過場景地塊的ID連接其所對應的POI、RTUD和夜間燈光等多源地理數據特征。最后將融合后的特征輸入SVM分類器進行場景分類,將分類結果整合即可獲得完整的城市土地利用功能分區。耦合多源地理數據的不規則影像場景分類方法流程如圖15所示。

圖15 耦合多源地理數據場景分類流程Fig.15 Flow chart of scene classification coupled with multi-source geographic data
本節為研究的實驗部分,主要分為3部分內容。第1部分為多分辨率遙感影像重建,根據不同分辨率的遙感影像訓練相應的重建模型并進行簡單的重建測試以驗證所訓練模型的效果。第2部分實驗首先根據第1部分獲得的重建模型對原始場景數據進行重建,隨后使用多個CNN模型分別對原始場景數據和重建后的場景數據以及融合2種數據進行增廣后的數據集進行場景分類,通過對比,驗證本研究所提框架的有效性。第3部分內容以武漢市為研究區,耦合多源地理數據通過SVM分類器進行不規則影像場景分類。
共訓練了6個不同分辨率的遙感影像重建模型,所有模型的重建置信倍數均設置為4。模型訓練完成后,使用不同分辨率的遙感影像進行重建測試,部分模型的重建結果如圖16所示。

(a) Model-2
遙感影像場景分類研究一般基于公開的數據集進行,如AID、NWPU等數據集。首先,針對SIRI-WHU場景數據集,用SRGAN重建模型進行重建;然后,進行CNN場景分類,即SRGAN-CNN框架;最后,在自制的規則MR-WUHAN影像場景數據集上應用本文所提出的框架。
3.2.1 SIRI-WHU數據集場景分類
(1) SIRI-WHU數據集重建
針對SIRI-WHU數據集,其影像空間分辨率為2 m,因此本研究選擇重建模型中的Model-4進行影像重建。數據集中部分類別的代表性影像重建結果和原始影像對比如圖17所示。

(a) 池塘
(2) CNN場景分類
針對SIRI-WHU數據集的場景分類,采用50%的場景影像訓練,剩余50%的場景影像用于測試。實驗采用4個CNN模型分別對原始影像、重建后的高分辨率影像、融合原始影像和重建影像進行數據增廣的數據集進行場景分類測試。網絡的主要超參數:學習率設置為10-5,規范化參數設置為5×10-6,小批量數據大小設置為8。分類結果如表2所示。

表2 SIRI-WHU數據集場景分類結果
DenseNet161模型在原始SIRI-WHU數據集、增廣后數據集上場景分類結果混淆矩陣分別如圖18和圖19所示。
圖18和圖19所示的混淆矩陣表明,通過重建增廣原始數據集后,場景分類精度有了較大提升。特別是在SIRI-WHU數據集中的商業區、居民區和水體3個場景類別,DenseNet161模型達到了100%的識別準確度,進一步驗證了本文所提框架的有效性。

圖18 DenseNet161原始SIRI-WHU數據集場景 分類結果混淆矩陣Fig.18 Confusion matrix of scene classification result of DenseNet161 in original SIRI-WHU dataset

圖19 DenseNet161增廣SIRI-WHU數據集場景 分類結果混淆矩陣Fig.19 Confusion matrix of scene classification result of DenseNet161 in augmented SIRI-WHU dataset
3.2.2 MR-WUHAN數據集場景分類
(1) MR-WUHAN數據集重建
針對自制的MR-WUHAN規則影像場景數據集,選擇2,8 m分辨率的數據進行實驗。通過Model-3對8 m分辨率影像進行重建,獲得重建后的2 m分辨率影像。原始影像和重建影像對比如圖20所示。
(2) CNN場景分類
使用多CNN模型分別對原始的8 m分辨率影像和2 m分辨率影像、重建獲得的2 m分辨率影像、融合原始2 m分辨率和重建2 m分辨率進行數據增廣后的數據集進行場景分類。實驗采用80%數據訓練,20%數據測試,結果如表3所示。

(a) 工業和物流倉儲用地

表3 規則MR-WUHAN數據集場景分類結果
DenseNet161模型在原始MR-WUHAN數據集、增廣后數據集上場景分類結果混淆矩陣分別如圖21和圖22所示。

圖21 DenseNet161在原始MR-WUHAN數據集場景 分類結果混淆矩陣Fig.21 Confusion matrix of scene classification result of DenseNet161 in original MR-WUHAN dataset

圖22 DenseNet161在增廣MR-WUHAN數據集場景 分類結果混淆矩陣Fig.22 Confusion matrix of scene classification result of DenseNet161 in augmented MR-WUHAN dataset
如圖21和圖22所示的混淆矩陣表明,自制的MR-WUHAN規則影像場景數據集重建增廣后,場景分類模型對各場景類的正確識別能力顯著增強。例如,在原始數據集上,場景分類模型對教育用地的識別精度只有85%,其余15%被誤分為了居住用地。而增廣后的數據集,對教育用地的分類正確率提高了5%。此外,在增廣數據集上場景分類模型對農業用地的識別達到了100%的準確率,對綠地和水體的分類準確率也有了大幅提升。
基于道路網絡分割的遙感影像進行場景分類,具有更強的實用性價值。道路網絡所形成的地塊單元是進行城市土地利用現狀分析與規劃的更加自然的邊界,便于與多源地理數據相結合。實驗首先使用預訓練的VGG19網絡提取不規則MR-WUHAN數據集中多分辨率遙感影像的特征,再耦合多源地理數據屬性特征,最后通過SVM分類器進行場景分類。通過對比使用影像特征、多源地理數據特征、耦合影像特征和多源地理數據特征進行特征融合的分類結果,驗證本研究所提方法的有效性。
在不規則MR-WUHAN數據集場景分類中,通過SVM分類器,2 m影像的精度為75%,8 m影像的精度為52.5%,多源地理數據的精度為46.25%,特征融合的精度為81.25%。
從實驗結果可以看出,僅使用影像特征和僅使用多源地理數據特征的模型精度均低于融合影像特征和多源地理數據特征的方法,證明了多源地理數據特征可以很好地彌補社會經濟屬性等影像不能反映但卻對場景類別影響很大的特征,因此通過特征融合可以獲得更高的精度。進一步,通過應用特征融合的方法在武漢市中心城區進行驗證測試,獲得城市土地利用的地塊分類結果,如圖23所示。

圖23 武漢市不規則影像場景分類結果Fig.23 The map of Wuhan irregular image scene classification result
不同分辨率的遙感影像對同一區域的場景信息特征表達能力有著顯著的差別。低分辨率的影像側重于凸顯場景的全局整體特征,而高分辨率的影像則包含更多的局部細節信息。通過融合不同分辨率遙感影像的不同層級特征有利于提高場景的特征表達能力。此外,由于僅根據遙感影像數據的場景理解結果可能不足以投入實際應用,通過耦合多源地理數據,可以補充提取的特征,為土地利用解釋提供更多的附加信息。本文進行了耦合多源地理數據的多分辨率遙感影像場景分類方法探究,主要包括以下內容:
① 提出了耦合多源地理數據的多分辨率遙感影像場景分類框架,并對框架中的每一部分內容進行了詳細介紹。主要包括SRGAN影像重建、CNN場景分類和耦合多源地理數據的場景分類3部分。
② 為了驗證本文提出框架的有效性,以武漢市為研究區,獲取其遙感影像數據和多源地理數據進行實驗分析。首先,基于不同分辨率的遙感影像重建數據集訓練遙感影像超分辨率重建模型;然后,針對SIRI-WHU場景數據集和自制的多分辨率武漢市場景數據集進行影像重建和CNN場景分類;最后,在自制的武漢市OSM路網分割的不規則影像場景數據集上進行耦合多源地理數據的場景分類,獲得城市土地利用功能分區。
高分辨率遙感影像的場景分類是一項非常有挑戰性的研究工作,本文進行的研究從數據和方法層面還存在一些局限性。
由于深度學習需要固定輸入場景影像的大小,因此難以應用在不規則影像上。在提取特征時,只能通過采樣的方法改變原始輸入場景影像的大小,不可避免地帶來一些特征信息的丟失。目前,基于不規則影像的深度學習研究工作還很少,這是一個很有價值的研究點,后續可以進行相關的探索研究。