林 娜,王 偉*,王 斌
(1.重慶交通大學 土木工程學院,重慶 400074;2.重慶市地理信息和遙感應用中心,重慶 401147)
臍橙因其可食性高、易貯藏和市場廣闊等特點,在我國江西、福建、重慶等紅壤丘陵區被廣泛種植。重慶奉節是我國重要的臍橙生產區,2009年被授予 “中國橙都”稱號,臍橙果業發達,品種豐富。20世紀以來,地方政府整合資源大力發展臍橙產業,極大地促進了地方經濟增長。但是,大規模種植臍橙果園,對于地區生物多樣性和地表土壤的能量平衡都會產生一定影響。傳統果園種植模式的粗放性,不僅會造成土壤污染、土壤結構破損,而且會引發較嚴重的水土流失現象,對地區生態環境構成重大威脅[1-3]。傳統方法采取走訪調查的方式獲取果園種植信息,需耗費大量的人力物力,且易受主觀因素的影響;而遙感技術具有重返快、覆蓋廣和成本低等特點[4],可實時準確地獲取臍橙果園的空間分布信息,能為當地的農業政策制定提供支持。
目前,SVM、神經網絡和隨機森林等機器學習分類算法已在遙感信息提取方面得到了廣泛應用[5-7],其中,隨機森林算法具有人工干預少、運算速度快、魯棒性強等優點[8]。顧海燕[9]等利用WorldView-2高分辨率衛星遙感影像構建了基于隨機森林算法的分類模型,從而提取了地表覆蓋信息,并與SVM方法進行了對比,結果表明該方法具有更快的運算速度和更高的分類精度;呂杰[10]等將SVM、最小距離法、隨機森林算法3種分類模型應用于GF-1號衛星遙感數據的森林樹種分類研究中,結果表明隨機森林算法具有較高的適用性;馬玥[11]等基于隨機森林分類模型對齊齊哈爾地區的Landsat8 OLI數據進行了土地利用信息分類研究,分類精度較SVM、MLC方法有較大的提 高;任傳帥[12]等利用GF-2號高分辨率影像和隨機森林算法成功提取了海南北部的香蕉林信息;宋榮杰[13]等結合小波紋理分析和隨機森林算法較好地提取了獼猴桃果園信息;王娜[14]等基于隨機森林算法和單變量特征選擇方法,利用多源信息綜合的分類方案,有效提取了實驗區的主要農作物;GAO T[15]等基于隨機森林算法,采用多時相光譜信息、多尺度紋理信息和地形因子對河北塞罕壩林區的樹種進行了分類研究;WANG B[16]等基于多時相Landsat8 OLI影像和隨機森林算法提取了茶園信息,利用光譜信息、紋理信息、植被指數特征構建了多層次的特征集,結果表明采用特征優選法構建的多季節優選特征集具有最高的提取精度。
由上述研究可以看出,隨機森林算法具有提取精度高、魯棒性強等優點,但目前該算法在臍橙果園種植信息提取方面的研究仍相對較少。本文充分利用隨機森林算法的優勢,選取重慶奉節地區質量較好的Landsat8 OLI影像數據,綜合光譜特征、植被指數特征、紋理特征和地形因子構建初始特征集和優選特征集,探索能有效識別臍橙果園的分類特征與模型,以期為基于遙感技術快速、準確獲取臍橙果園種植信息提供依據。
奉節縣位于重慶市東部、三峽庫區腹心地區(圖1),地理坐標為109e1′17″~109e45′58″E、30e29′19″~31e22′33″N。全縣總面積為4 087 km2,地勢南北高、中部低,海拔為135~2 123 m;屬中亞熱帶濕潤季風氣候,年平均氣溫為18℃,年降水量為769 mm,年平均無霜期為364 d,年平均濕度為67%,具有開展臍橙種植的優越地貌與氣候條件。

圖1 研究區遙感影像圖
本文選取Landsat8 OLI多光譜影像作為主要數據源。Landsat8為美國航天局陸地衛星計劃的第八顆衛星,攜有OLI陸地成像儀和TIRS熱紅外傳感器,其中OLI陸地成像儀包括9個光譜波段,空間分辨率為 30 m。本文中的Landsat8 OLI產品數據下載于地理空間數據云,數據時相為2017-02-05、2017-11-04和2017-12-22;其他數據包括30 m分辨率DEM數據、同年土地利用數據、GF-1號衛星影像數據和2017年實地調查數據。 本文主要利用EnMAP-BOX和ENVI軟件對數據進行預處理。首先根據矢量數據對初始影像進行裁剪;再利用ENVI 5.3中的輻射校正模塊對影像進行輻射校正,校正時需注意OLI陸地成像儀對應的增益和偏移參數;最后進行快速大氣校正。
本文以隨機森林算法為分類模型,基于光譜特征、紋理特征、植被指數特征、地形因子及其組合,對奉節縣臍橙果園種植的空間分布信息進行提取。總體技術流程如圖2所示。

圖2 總體技術流程圖
1.2.1 果園特征提取
1)紋理特征。影像判讀場景下,紋理特征可反映影像的均勻、細致、粗糙等情況。遙感影像可生成許多紋理指標,本文采用灰度共生矩陣計算相關紋理特征。其數學模型為:

式中,Z為該集合中元素的數目;f(x1,y1)=h表示影像(x1,y1)處像元的灰度值為h;d為兩個像元之間的距離,取值范圍為{1,2,3,4};θ為兩個像元之間的方向角,取值范圍為{0e 45e 90e 135e}。
本文選取均值、方差、協同性、對比度、相異性、熵、二階矩和相關性8個紋理特征對影像進行定量分析。由式(1)可知,各紋理統計量均為關于方向的函數,為消除角度帶來的影響,本文采用先疊加4個方向的統計量再求平均值的方法。由于多波段紋理分析會產生一定的信息交叉問題,因此本文在對原始影像進行主成分分析后選取第一主成分波段來獲取上述 8個紋理特征[17-18]。
2)植被指數特征。植被指數是從多光譜數據中提取的、能有效度量地表植被狀況的數值,與植被覆蓋度、生物量均有較好的相關性[19]。本文采用歸一化植被指數(NDVI)、土壤調節植被指數(SAVI)、增強型植被指數(EVI)和比值植被指數(RVI)進行分析研究。

式中,NIR為近紅外波段反射值;R為紅光波段反射值。

式中,L為樹冠調整系數,本文設置L=0.5,該值能最大限度地減少土壤亮度的影響,且無需對不同土壤類型進行重新設置。

式中,B為藍光波段反射值;E為增強因子;M1、M2分別為氣溶膠阻抗系數。L、M1、M2和E的經驗值分別為1、6、7.5和2.5。

3)地形因子。地形作為重要的環境因子,控制著水、光、土壤養分等資源的再分配,進而影響植被的分布。本文利用ArcGIS 10.4軟件從研究區的DEM數據中提取坡度和坡向信息,將高程、坡度、坡向因子引入到研究區臍橙果園信息的提取研究中。
所有特征提取參數如表1所示。

表1 特征參數統計
1.2.2 隨機森林算法
隨機森林算法最早由Breiman L[20]提出,是一種基于分類與回歸決策樹(CART)的新型機器學習算法,可分析多達幾千個輸入特征的重要性,是目前應用最廣泛的機器學習算法之一[21-22]。其主要思想是集成眾多決策樹的結果對分類任務進行統籌分析,具體實現過程為:
1)構建訓練樣本集。采用隨機且有放回的方式從原始樣本集中抽取部分樣本構成訓練樣本集(Bootstrap法),重復N次即可得到N個訓練樣本集。
2)建立N棵CART決策樹。以訓練樣本集中的樣本為基礎,首先從全部的輸入特征M中隨機選取m個特征(節點隨機分裂法),然后根據方差不純度指標對m個特征進行建樹。其計算公式為:

式中,wi為第i類的屬性;wj為節點N處屬wj樣本數占總樣本數的頻度;i為方差不純度。
預設一個方差不純度下降值的閾值,若分支后方差不純度的下降值小于該閾值,則停止分支。至此,N棵決策樹構建完成。
3)統籌決策樹結果。將構建好的所有決策樹組成隨機森林,利用隨機森林分類器進行分類,最終通過投票的方式來確定分類結果。
在本文中,隨機森林算法不僅能對Landsat8 OLI影像進行分類,而且能對輸入特征進行重要性排序。在Bootstrap抽樣過程中,原始數據中約有1/3未被抽取到,這部分數據稱為袋外數據(OOB)。通過OOB數據產生的OOB誤差可計算得到各輸入特征的重要性,從而進行特征選擇[23]。特征重要性評估模型的表達式為:

式中,FE為特征重要性;M為特征總數;N為分類決 策樹總數;為對特征MA加入噪聲前第t棵分類決策樹的OOB誤差值;為對特征MA加入噪聲后 第t棵分類決策樹的OOB誤差值。若給特征MA加入噪聲后,OOB誤差顯著提高導致精度損失量較大,則說明該輸入特征的重要性程度較高。
隨機森林算法中的兩個主要參數為分類決策樹數量N和建樹中隨機選取的特征數m。對于m值,本文選取總特征數的算術平方根作為實驗值;對于N值, 其值越高其分類準確率不僅達不到最高,而且運算時間和內存成本也會較高,本文經多次試驗發現,N值設置為1 000時,各方案的OOB誤差趨于穩定。
1.2.3 精度評價
混淆矩陣也稱誤差矩陣,主要用于比較分類結果與實際類別值,并把分類精度顯示在矩陣里。本文采用選取隨機參考點的方法,將研究區分類結果與同期GF-2號 衛星數據進行對照,并獲取了研究區分類結果的混淆矩陣;再通過混淆矩陣計算得到總體精度、Kappa系數、錯分誤差和漏分誤差,進而對各方案進行評價。
為了取得最佳的提取效果,本文設計了5組實驗方案進行研究,如表2所示。設置這些實驗方案主要是考慮到以下兩點:①研究各特征對臍橙果園空間分布信息提取的重要性程度;②尋找提高臍橙果園空間分布信息提取精度的最佳方法。

表2 實驗方案信息表
本文利用隨機森林算法計算方案D中63個特征變量的重要性得分,各特征得分如圖3所示,特征前的數字02、11、12分別表示2月、11月、12月的時相;B1~B6分別表示Landsat8 OLI影像的藍光、綠光、紅光、近紅外、短波紅外第一波段、短波紅外第二波段;PC1、PC2分別表示影像的第一主成分和第二主成分波段。

圖3 各特征重要性
由圖3可知,不同特征的重要性差異較大,最高的11-B1特征重要性高達13.94,最低的12-VAR特征重要性低至0.39。本文選擇重要性排在前1/4的特征構成方案E優選特征集[16]。方案E的13個特征變量如表3所示,其中光譜特征包括11月藍光波段、11月綠光波段、11月紅光波段、12月藍光波段、12月第二 主成分波段和12月短波紅外第二波段,植被指數特征包括11月NDVI、11月RVI、12月NDVI、12月RVI、12月EVI和12月SAVI,地形因子為DEM因子,說明光譜特征和植被指數特征的作用較顯著,紋理特征和地形因子貢獻不大。將特征類型按季節來統計發現,秋季有5個,冬季有7個,春季沒有,說明秋、冬季時相對于臍橙果園信息提取較適合。

表3 優選特征分布表
2.3.1 臍橙提取結果
所有實驗方案的提取結果如圖4所示。由于本文主要的提取對象為臍橙,且為更好地展示臍橙種植在江河流域的特點,因此圖中只顯示臍橙和水體對象,參與分類的耕地、建筑用地、林地和裸地統一歸為其他地物。通過目視解譯方法對比GF-1號衛星影像發現,方案A和方案C 中不同類別地物之間存在較多錯分的情況,如影像右下的流域區域,林地區域被分成了臍橙。從目視解譯對比效果來看,基于光譜特征和植被指數特征綜合的方案B以及基于優選特征組合的方案E的提取效果最佳,且后者的提取結果優于其他實驗方案。

圖4 各方案的臍橙提取結果圖
2.3.2 精度評價分析
為定量評價各方案臍橙果園空間分布信息的提取精度,本文利用驗證數據計算混淆矩陣,選取總體精度、Kappa系數、錯分誤差和漏分誤差作為評價指標,對比分析各方案的提取結果,評價方案的優劣。具體結果如表4所示,可以看出,僅包含多時相光譜特征的方案A的總體精度為85.27%,Kappa系數為0.83;加入植被指數特征的方案B的總體精度和Kappa系數均略有提升,分別為86.71%和0.84;但反觀加入紋理特征的方案C,其總體精度和Kappa系數則有小幅下降,分別為83.04%和0.81,表明植被指數特征的加入將提高臍橙信息提取的精度,但紋理特征不一定能提高分類精度,反而會損失一些分類精度;涵蓋所有特征的方案D的總體精度和Kappa系數均大幅提高,但低于方案E;隨機森林特征優選后的方案E的總體精度和Kappa系數達到最高,分別為90.71%和0.89。

表4 不同實驗方案的精度對比
另外,對于錯分誤差,除紋理特征外,各類特征的加入均有效改善了提取精度,表明植被指數特征和地形因子有效減少了臍橙錯分的概率。在漏分誤差方面,紋理特征同樣對臍橙提取精度的改善不明顯,漏分現象較方案A未有效減輕。由錯分和漏分誤差可知,優選特征組合具有顯著的提升效果。
綜上所述,光譜特征中單獨引入植被指數特征時,總體精度改善最顯著,而單獨引入紋理特征時總體精度略有下降,說明植被指數特征在提取中具有顯著作用;優選特征組合在精度上的改善最顯著,其提取精度高于其他兩兩類型特征組合的原因在于,它是各類型特征優選子集的組合,具備多源信息的優勢,同時其提取精度亦高于所有特征綜合的方案,主要原因為后者特征數量多、數據間相關性強,而優選特征組合只保留了貢獻大的特征,降低了數據維度,減少了數據間的相關性。
針對目前臍橙果園遙感提取中存在的提取精度低的問題,本文綜合多時相光譜信息、植被指數特征、紋理特征和地形因子,利用隨機森林算法有效實現了臍橙果園信息的提取,克服了經濟作物遙感提取特征較為單一的不足。利用隨機森林重要性排序算法獲取了輸入特征的重要性,有效構建了優選特征組合,不僅有效降低了數據維度,還改善了提取精度。由此可見,隨機森林算法在保證精度的同時還能提高運算效率,是一種可行且高效的遙感提取算法。本文也為后續的經濟作物擴張以及生態環境評價系列研究提供了有效的數據參考。本文的不足之處是實驗中隨機森林算法的決策樹棵數、特征變量數和優選特征數均采用經驗值,后續研究可結合遺傳算法等參數尋優算法來選取最優參數,以期進一步提高提取效率;實驗中只應用了上述3類特征,后續研究將添加地理統計紋理或小波紋理等特征,以繼續尋找有助于臍橙果園信息提取的特征以及特征組合。