尼加提·卡斯木 師慶東 劉素紅 比拉力·依明 李 浩
(1.新疆大學干旱生態環境研究所, 烏魯木齊 830046; 2.新疆大學綠洲生態教育部重點實驗室, 烏魯木齊 830046; 3.新疆大學資源與環境科學學院, 烏魯木齊 830046; 4.北京師范大學環境遙感與數字城市北京市重點實驗室, 北京 100875)
植物群落是土地基本屬性的綜合指標:特定的氣候、土壤和地形條件發育了不同的植物群落,植物群落則綜合反映了土地的基本屬性[1]。因此,植物群落的整體狀況綜合體現了國家的生態本底,是生態恢復和生態建設以及制定土地利用政策的重要依據。充分認識植物群落的重要性和它的價值是開發、利用和保護生物資源的前提,也是生態學、環境科學和地理學等相關學科發展的需要[2]。
植物群落分布區域的獲取手段主要包括地面實際測量和遙感技術。其中利用遙感技術獲取植物群落的方法通常是基于光譜特征,主要利用紅光波段(吸收特征)和近紅外波段(反射特征)及中紅外波段(水吸收特征)等。肖海燕等[3]在光譜特征分析和地面調查的基礎上,采用決策樹和高光譜分析組合,進行了紅樹林群落信息提取研究。杜欣等[4]在植物群落野外調查的基礎上,利用高分辨率Pléiades影像,結合光譜、地形及紋理信息,通過投影尋蹤學習網絡的方法,實現了植物分類。而高空間分辨率遙感影像的地物幾何結構和紋理信息明顯,便于認知地物目標的屬性特征,在提取地面信息、植被信息等方面,具有較強的識別能力,可提供更多有效的空間數據信息,實現高空間分辨率遙感影像植物群落的識別研究[5]。
隨著無人機技術的發展,其在植被覆蓋度研究中也得到了充分應用。但在無人機遙感數據中,包括了大量的RGB三通道圖像,受限于光譜信息不夠充足,使得利用該類數據進行圖像分類的精度提升困難[6]。特別是植物群落在可見光波長范圍內的光譜特征較為相似,加大了不同植物群落目標區域的提取難度,采用傳統的、基于像素的、只利用光譜信息的遙感圖像處理方法很難有效提取不同植物群落目標區域[7]。卷積神經網絡(CNN)是一種具有深度學習能力的人工神經網絡系統[8]。與傳統的圖像分類方式不同,卷積神經網絡不需要針對特定的任務對圖像提取具體的手工特征,而是模擬人類的視覺系統對原始圖像進行層次化的抽象處理來產生分類結果。該方法采用局部感受野、權值共享和空間采樣技術,使得網絡訓練參數相比于神經網絡大大減少,具有適用性強、特征提取與分類同時進行、泛化能力強、全局優化訓練參數少等優點[9]。
由于無人機影像數據往往具有較高的空間分辨率,從計算機視覺角度出發,利用圖像理解與識別方法,對目標區域進行提取,將其從背景中分離出來,是另一種行之有效的方法。目標的特征是區分目標與背景的重要依據[10]。目標特征來源于圖像信息,包括光譜信息、形狀信息、紋理信息和上下文信息等。因此,根據圖像信息結合目標本身特點選擇合理的提取方法是目標提取的關鍵所在[11]。
研究區檉柳目標區域具有成片分布特點,胡楊具有一定的高度且存在陰影部分,枯枝光譜與沙漠光譜在可見光波長范圍內具有較高的相似性,是典型的面狀地物目標提取易混淆問題。針對研究區不同地物類內特征復雜、類間邊界模糊的特點,以連續分布區域為研究對象,本文提出一種利用卷積神經網絡(CNN)自動獲取圖像塊狀特征來提取不同植物群落分布區域的方法。
研究區位于世界第二大沙漠塔克拉瑪干大沙漠腹地的達理雅博依鄉,是一塊被中外考古探險家稱為“世外桃源”的綠洲,因其與世隔絕、交通不便而保留了綠洲原始狀態[12]。達理雅博依是克里雅河下游流域的統稱,漢語譯作“大河沿”,該地區縱伸塔克拉瑪干大沙漠腹地250 km,南北長365 km,東西寬96 km,總面積2 326.98 km2,地理位置為38°16′~38°37′N,81°05′~81°46′E,海拔為1 100~1 300 m,氣候十分干燥,風沙頻繁,年降水量14 mm,蒸發量約1 600 mm[13]。常見的植被為胡楊(PopuluseuphraticaOliv.)、檉柳(TamarixchinensisLour.)、蘆葦(Phragmitescommunis)等,主要靠地表水及地下水生存。研究區地理位置及無人機航拍區域見圖1。

圖1 研究區地理位置及UAV航拍區域Fig.1 Study area location and UAV aerial photography area
實驗所用數據為無人機影像數據,無人機類型為SV360型固定翼無人機,搭載Sony A7R型相機,拍攝時間為2018年8月24日,地點為達理雅博依綠洲內部,研究區內植被類型為林地,地勢較為平坦,研究區UAV影像分辨率0.05 m,飛行高度100 m。無人機參數與相機參數如表1所示。

圖2 VGGNet網絡結構示意圖Fig.2 VGGNet network structure diagram
卷積神經網絡基本結構可分為4部分:輸入層、卷積層、全連接層和輸出層。其中卷積層包括卷積層和池化層(下采樣層)兩部分[14]。對于小樣本數據,相比較于初始化訓練網絡,以預訓練網絡為基礎進行參數訓練與網絡優化,在效率與效果方面都會有很大改善。VGGNet網絡是在AlexNet網絡的基礎上發展而來的,其主要貢獻在于使用非常小的3×3卷積核進行網絡設計(圖2),并且將網絡深度增加到16~19層[15]。

表1 無人機及相機參數Tab.1 Detailed parameters of UAV and camera
VGGNet模型不僅在大規模數據集上的分類效果較好,其在其他數據集上的推廣能力也出色。ResNet50是在ImgeNet數據集上取到較好分類效果的CNN網絡,采用預訓練網絡作為本文的方法模型。ResNet50是在現有訓練深度網絡基礎上,提出的一種減輕網絡訓練負擔的殘差學習框架,其更容易被優化,并且可以在深度增加的情況下讓精度也增加[16]。ResNet50中包含了49個卷積層和1個全連接層(圖3)[17]。
本文通過對無人機影像的規則切分獲取小圖像塊并構建實驗數據集,分別為訓練/驗證樣本集和測試數據集,包括胡楊、檉柳、沙漠、陰影、枯枝等目標樣本(圖4);利用基于CNN的VGGNet模型與ResNet模型對訓練/驗證樣本集中的小圖像塊的圖像特征進行抽象與學習,以自動獲取圖像塊深層特征,并得到優化后的網絡模型;本研究的深度卷積網絡選用ResNet50和VGG19兩種深度算法,總體分類流程如圖5所示。之后對測試數據集進行分類,得到目標提取結果,并利用抽樣法進行精度驗證。

圖3 ResNet50網絡模型的整體結構Fig.3 Overall structure of ResNet50 network model

圖4 研究區無人機影像及景觀圖Fig.4 UAV image and field photos in study area

圖5 深度卷積網絡自動分類流程圖Fig.5 Flow chart of automatic classification of deep convolution network
1.4.1數據集構建
對影像進行規則切分獲取小圖像塊的方法有別于面向對象的分割方法。由于地物類內特征復雜、類間邊界模糊,若以自然地物邊界進行分割需要較大的計算量,分割效果也受到一定限制。考慮到目標成片分布的面狀特征,根據影像空間分辨率與地物目標大小,選擇合適尺度對影像進行規則切分,以反映連續分布區域的小圖像塊為研究對象。將切分得到的小圖像塊作為實驗數據集,以待學習與提取圖像深層特征。從中隨機選擇一定數量的數據作為訓練/驗證樣本集,剩余數據作為測試數據集。通過對小圖像塊特征的提取來進行識別,以識別得到的圖像塊組合達到對目標區域的提取。
1.4.2分類精度驗證
在得到提取結果后,采用抽樣法進行精度驗證。為保證抽樣點在圖像上均勻分布,利用系統抽樣法進行樣本抽樣,即確定抽樣間隔后,在第一間隔內隨機選擇一個樣本,再依次加上抽樣間隔后得到后續樣本。通過人工解譯目視判讀、判斷抽樣樣本的類別正確性,得到提取結果精度。
結合無人機影像的分辨率及不同地物目標區域特點,為了保證規則小圖像塊的均一性并提高方法效率,對影像的切分尺度固定在10像素,即切分獲得的小圖像塊尺寸為10像素×10像素,實際地面尺寸為50 cm×50 cm。通過塊提取軟件(Extract-Interface V1.0)按固定尺度規則切分,每幅影像均可獲得10 000幅小圖像塊數據。本研究主要目標類為胡楊、檉柳、陰影、枯枝、沙漠,結合地物不同紋理特征與結構,本文提供了UAV影像數據集各地物類別示例(表2)。
利用不同訓練樣本數量的4種方案,結合基于CNN的VGGNet與ResNet模型將研究區典型植物群落及其他地物進行自動分類。圖6和圖7分別展示了2種深度算法(ResNet50和VGG19)以不同方案對無人機影像上典型植物及其他地物區域的提取結果。從提取結果看,不同數量的訓練樣本在提取效果上具有一定的差異,隨訓練樣本增多模型對數據的泛化能力有明顯增強。選取不同的訓練樣本作為VGGNet和ResNet模型的數據集,深度學習過程對地物的識別差異較大。對分類結果以目視判讀分析發現,訓練樣本為50個時,胡楊、檉柳和沙漠的識別程度比較好,而對陰影區域的分類偏多,識別程度較低(圖6a、7a)。選取200個訓練樣本作為模型的數據集,深度學習的過程中對地物的識別精度明顯提高(圖6d、7d)。由此可得,隨著訓練數據集的增多,枯枝目標區域明顯降低,能更好地識別目標區域。通過2種模型的比較,基于CNN的ResNet50模型充分發揮了其性能,能更好地克服地物類別復雜性,該模型具有較好的植物群落提取效果。
根據本研究設定的不同訓練樣本數量(50、100、150、200),基于CNN的2種模型(ResNet50和VGG19)隨著訓練樣本數量的變化,提取的地物面積也會不同(圖8)。訓練樣本數量從50變到200時,沙漠面積總體為上升趨勢,ResNet50模型提取結果在44.71%~59.01%范圍內,VGG19模型提取結果在47.89%~52.57%范圍內。枯枝、陰影面積總體呈下降趨勢,ResNet50模型提取結果分別在12.43%~26.63%、12.41%~19.15%之間,VGG19模型提取結果分別在10.86%~19.98%、14.41%~19.35%之間。結合建模精度分析發現,隨著訓練樣本的增多,深度學習方法對地物的自動分類精度不斷提升,能夠準確地提取地物面積。
通過深度學習得到自動分類結果后,利用系統抽樣法對分類結果進行精度驗證。利用隨機切割軟件(Extract-Interface V1.0)對分類后圖像進行均勻采樣,共抽樣400×9個塊圖(圖9)。選擇樣本后通過人工解譯目視判斷確定其分類的正確性,最終統計得到分類結果精度。
從精度驗證結果可以看出,基于CNN的自動提取圖像特征的方法在細致分類方面具有一定的潛能,特別是在測試階段,可以反映出CNN方法對數據具有較強的泛化能力。結合不同訓練樣本數量分析發現,基于CNN的VGGNet模型精度隨著訓練樣本數量增多而不斷提升,ResNet50模型與VGG19模型的建模精度從86.00%、83.33%分別提升到92.56%、90.29%,ResNet50模型分類精度為83.53%~91.83%,而VGG19模型分類精度為80.97%~89.56%,如表3所示。從而得知,模型的分類精度與適當的訓練樣本數量之間具有一定依賴性。
表2無人機影像數據集各地物類別示例
Tab.2UAVimagedatasetexamplesofvariousgroundobjects


圖6 基于不同訓練樣本數的ResNet50模型自動分類結果Fig.6 Automatic classification results of ResNet50 model based on different training samples

圖7 基于不同訓練樣本數的VGG19模型自動分類結果Fig.7 Automatic classification results of VGG19 model based on different training samples

圖8 不同訓練樣本數提取的地物面積Fig.8 Ground object area obtained from different training samples
對分類結果分析發現,訓練樣本數量不低于200時,基于CNN的ResNet50模型表現出最佳的分類結果,對研究區不同地物的訓練樣本選取200個,則可達到研究區不同地物的高精度分類結果。

圖9 自動分類結果精度驗證Fig.9 Automatic classification accuracy verification

模型訓練集數量建模精度/%驗證集準確量分類精度/%ResNet505086.0010085.6015087.4320092.56400×9308585.69300783.53309585.97330691.83VGG195083.3310082.8015088.2020090.29400×9295181.97291580.97316787.97322489.56
本研究以沙漠腹地綠洲植物群落為研究對象,利用深度卷積網絡方法對不同植物群落進行高精度分類。為提高不同植物群落提取面積及分類精度,通過改變訓練樣本的數量逐漸完善基于CNN的VGGNet和ResNet模型的穩健性,為后期沙漠腹地綠洲植物群落區域尺度高精度分類及快速提取選取了有效的模型。同時為了體現深度卷積網絡方法在植物分類中的應用,將本研究分類結果與傳統的6種監督分類方法進行了對比,監督分類精度及結果如圖10所示。結合監督分類方法精度及提取面積分析發現,監督分類最高精度可以達到84.3%,Kappa系數達到0.78;與深度學習方法相比,支持向量機模型對胡楊的提取面積相對較少,而對檉柳提取面積偏多,導致不同植物群落的邊界較模糊。不同的監督分類方法提取的不同地物結果具有一定的差異,其中支持向量機分類結果更接近于深度學習分類結果(圖11)。

圖10 傳統的方法提取地物面積及精度統計Fig.10 Ground object area and overall accuracy obtained based on traditional methods

圖11 基于傳統方法提取不同地物結果Fig.11 Results of extracting plant communities areas based on traditional mathods
基于CNN分類方法存在監督學習問題,需要大量的標記數據作為訓練樣本參與模型訓練與特征學習。而遙感影像分類處理過程中,由于數據采集的有限性和人工標記的“高成本”,使得有標簽的訓練樣本數量較為有限,是一個典型的小樣本學習問題[18]。對于深度較深的CNN網絡模型在海量數據集(ImageNet)上有優異的表現。但在針對特定類型遙感數據進行處理時,由于有限的樣本不能很好地刻畫數據的總體分布特征,導致訓練所得到的網絡模型分類性能會受到不同程度的影響,降低其泛化能力[19-20]。本文采用預訓練模型(ResNet和VGGNet),設置不同數量的訓練數據集,通過比較基于不同數量的訓練樣本對模型的泛化能力,使得網絡模型參數的訓練更合理,解決了由于訓練樣本數量少導致模型訓練不充分的問題。本文考慮了因圖像切分尺度導致地物類別混淆的問題,不同切分尺度下的目標區域提取精度和面積有一定的差異,隨著切分尺度增大,規則小圖像塊地物類別混淆過多,分類精度降低,提取目標區域面積過大;然而切分尺度過小,實驗效率較低,人工解譯目視判讀不易識別各規則小圖像塊類別。因此,選擇規則小圖像塊的切分尺度為10像素較為合理可行。
(1)影像規則切分尺度需考慮影像分辨率與待提取目標地物大小,本文為保證規則小圖像塊均一性和方法效率,選擇切分尺度為10像素。
(2)基于CNN的ResNet50模型表現了最佳性能,訓練/驗證數據集建模精度最高,達92.56%,測試數據集分類精度最高,達91.83%,分類結果較好,為利用無人機數據進行區域內植物群落目標區域提取提供了一種有效的方法,為植被覆蓋度估算方法研究、水土保持和土壤理化性質研究以及森林火災和生態環境研究提供了有力支持。
(3)通過對比傳統的人工選取圖像特征的方法和基于CNN自動提取圖像特征的方法,可以看出CNN方法在提取結果的精度和對數據的泛化能力方面均有較大的優勢,同時在地物復雜性問題上,CNN方法仍表現出較好的提取結果。