王雪梅,楊雪峰,趙楓,安柏聳,黃曉宇
1. 新疆師范大學地理科學與旅游學院,新疆 烏魯木齊 830054;2. 新疆干旱區湖泊環境與資源實驗室,新疆 烏魯木齊 830054
植被地上生物量(aboveground biomass,AGB)是陸地生態系統生產力的重要體現,對陸地生態系統的構成和功能具有重要作用(陶冶等,2013)。研究植被地上生物量的傳統方法主要有直接收獲法、平均生物量法以及生物量經驗模型等基于樣地的清查方法。直接收獲法操作簡單,精度較高,但工作量較大,耗時費力,且會對樣地內的植被及其生境造成一定程度的破壞,故常用于小區域尺度的草地和農作物生物量的精準估算(Byrne et al.,2011;黨曉宏等,2017)。平均生物量法則以區域內典型樣地的單位面積平均生物量為基礎,結合區域面積對植被生物量進行估算,常用于植被分布較為均一的草地、人工林地、灌草植被以及枯落物生物量的測定(方精云,2000;姚雪玲等,2019;童新風等,2018)。在生物量經驗模型中,異速生長模型應用最為廣泛,可通過測定標準株的胸徑、樹高、冠幅等各生態因子估算其地上生物量,并根據不同植被根莖比推算其地下生物量(楊憲龍等,2016;Khan et al.,2022)。在生物量經驗模型的基礎上,生物量過程模型逐漸發展起來。作為可解釋植物生態過程的機理模型,生物量過程模型通過復雜的數學模型對植物的光合作用、呼吸作用和蒸散發等關鍵生理過程中的物質能量流動進行模擬,常用于大尺度植被生物量的估算(薛海連等,2021)。
隨著對地觀測技術與研究手段的不斷發展,基于多源數據借助機器學習算法和機理過程模型估算植被地上生物量已成為植被碳儲量研究的發展趨勢(Sun et al.,2020;Cohen et al.,2021)。與傳統的統計回歸方法相比,支持向量機(Support Vector Machine,SVM)、反向傳播神經網絡(Back Propagation Neural Network,BPNN)、極端梯度提升(eXtreme Gradient Boosting,XGBoost)以及隨機森林(Random Forest,RF)等機器學習算法在處理大尺度、多源遙感數據方面具有顯著優勢,已逐漸用于森林、草地和農作物生物量的估算(Nesha et al.,2020;Morais et al.,2021;Wang et al.,2022)。丁家祺等(2021)通過從 Landsat-8、ALOS PALSAR-2 和Sentinel-1 數據中提取光譜信息,結合地形因子構建了多元線性回歸(Multiple linear regression,MLR)、RF 和SVM 模型,對湖南西北部森林地上生物量進行估測,研究發現RF 模型相較于MLR 與SVM 模型具有更好的估測能力。Huang et al.(2016)利用光學圖像和合成孔徑雷達圖像對杭州西溪濕地公園的地上生物量進行估測,通過比較曲線估計、MLR 和BPNN 模型的精度指標,發現BPNN 模型的精度最高。邢曉語等(2021)利用高分一號衛星影像和野外調查數據對內蒙古錫林郭勒盟草原地上生物量進行遙感估算,進一步證實RF 算法能夠較好地解決生物量建模中的多元共線性問題,比MLR 和SVM 模型具有更好的適用性。張亦然等(2021)通過采集牧草冠層光譜反射率構建植被指數,利用MLR 和RF 以及XGBoost算法構建草甸地上生物量估算模型,研究發現RF與XGBoost 算法在估算草地生物量方面具有較好的效果。綜上分析發現,以往的研究多側重于單一植被類型的地上生物量估算,而對復雜地表多種植被地上生物量的反演相對較少。目前在干旱區綠洲地上生物量的估算主要集中在荒漠植被,且多以統計模型為主(張華等,2020;Zhou et al.,2023)。同時,已有研究還發現,合適的變量組合以及機器學習算法對準確估測復雜地表的植被地上生物量具有重要作用( Wongchai et al. , 2022 ;Tappayuthpijarn et al.,2022)。基于此,以新疆渭干河-庫車河三角洲綠洲2019 年7 月不同植被類型地上生物量野外調查數據與同時期Landsat 8 OLI遙感影像為數據源,通過多種變量組合與機器學習算法構建干旱區綠洲地上生物量最佳估測模型,對植被地上生物量的空間分布格局進行定量反演,以期為綠洲生態系統生產力評價與碳儲量的準確估算提供依據。
渭干河-庫車河三角洲綠洲位于新疆維吾爾自治區南部,塔里木盆地北緣,中天山南麓,為典型的沖洪積扇形平原綠洲。氣候特點為夏季干熱、冬季干冷,降水稀少、蒸發強烈,多年平均氣溫為11.6 ℃,多年平均降水量為52 mm,多年平均蒸發量在2 000 mm 以上,為典型溫帶大陸性干旱氣候。該綠洲的主要農作物為棉花(Gossypium spp.)和玉米(Zea mays),經濟作物有紅棗(Ziziphus zizyphus)、核桃(Juglans regiaL.)等;荒漠植被主要包括胡楊(Populus euphratica) 、 檉柳(Tamarix ramosissima)、鹽節木(Herculaneum strobilaceum)和鹽穗木(Halostachys caspica),以及蘆葦(Phragmites australis)、駱駝刺(Alhagi sparsifdia)和白刺(Nitraria tangutorumBobr)等(張殿岱等,2021)。該綠洲土壤類型較為多樣,其中潮土、灌淤土和棕漠土分布十分廣泛,而沼澤土和鹽土也有一定的空間分布。
2019 年7 月13-24 日在渭干河-庫車河三角洲綠洲開展了為期12 d 的地上生物量調查工作,共調查50 m×50 m 大小的樣地94 個,其中農田植被樣地63 個,荒漠植被樣地31 個,調查樣地分布如圖1 所示。在調查樣地內設置樣方進行植被調查,農田植被樣方大小為50 m×50 m;在荒漠植被樣地內,調查50 m×50 m 喬灌草樣方1 個,10 m×10 m 灌草樣方3 個以及1 m×1 m 的草本樣方5 個。主要調查植被物種的類型、頻數、植被蓋度、高度、冠幅等生長參數;同時,選擇不同物種的標準株測量其株高、長短軸冠幅和基徑,以及進行標準直立枝或整株的采樣。在生物量測定過程中,將采集的標準枝/株樣本的各器官進行現場分離,用電子天平稱其質量后分別裝入寫好標簽的牛皮紙袋中,為確保測定結果的準確性,天平秤的精確度為0.1 g。在室內80 ℃恒溫干燥箱內經24 h 烘干處理后測定其干物質的質量。喬灌木地上生物量通過所采的標準枝生物量采用間接估算法進行整株生物量估算;矮小的草本和農作物可采用直接收獲法獲取整個標準株的生物量。依據樣方內各物種的頻數、植被蓋度等生長參數以及標準株的生物量推算出各樣地的植被地上生物量。在取樣的同時還需進行立地條件調查,記錄地表環境信息和每個樣地中心點經緯度并進行景觀拍照。

圖1 研究區調查樣地分布示意圖Figure 1 Distribution map of survey sample plots in the study area
選擇與野外調查同時期的2019 年7 月26 日Landsat 8 OLI 遙感影像進行輻射定標和大氣校正。首先打開原始影像頭文件,采用輻射定標工具選擇多光譜數據,設置輸出格式為BIL,數據類型為Float,轉換系數為0.1,即可輸出輻射定標文件。打開大氣校正工具導入輻射定標數據,選擇傳感器類型并輸入研究區平均高程,然后確定大氣模型為中緯度夏季(MLS),氣溶膠模型選擇鄉村(Rural),設置多光譜參數為660:2 100 nm,完成影像校正后進行裁剪等預處理。為保證實地調查數據與遙感影像空間上完全匹配,需要將遙感影像重采樣為50m的空間分辨率。通過提取Landsat 8 OLI 影像的海岸波段(b1)、藍光波段(b2)、綠光波段(b3)、紅光波段(b4)、近紅外波段(b5),以及短波紅外1 波段(b6)和短波紅外2 波段(b7)的反射率,并計算各波段反射率的倒數。同時選取與地上生物量密切相關的7 個植被指數,分別是歸一化差值植被指數(Normalized Difference Vegetation Index,NDVI)、差值植被指數(Difference Vegetation Index,DVI)、比值植被指數(Ratio Vegetation Index,RVI)、增強型植被指數(Enhanced Vegetation Index,EVI)、大氣阻抗植被指數(Atmospherically Resistant Vegetation Index,ARVI),以及土壤調整植被指數(Soil Adjusted Vegetation Index,SAVI)和修正土壤調整植被指數(Modified Soil-Adjusted Vegetation Index,MSAVI)。各植被指數的計算公式如下(Kaufman et al.,1992;Qi et al.,1994;Gitelson et al.,1996):
式中:
INDVI——歸一化差值植被指數;
IDVI——差值植被指數;
IRVI——比值植被指數;
IEVI——增強型植被指數;
IARVI——大氣阻抗植被指數;
ISAVI——土壤調整植被指數;
IMSAVI——修正土壤調整植被指數;
b2——藍光波段的反射率;
b4——紅光波段的反射率;
b5——近紅外波段的反射率;
L——土壤調節系數,研究中取值為0.5。
研究中選擇SVM、BPNN、XGBoost 和RF 這4 種機器學習算法進行植被地上生物量估測模型的構建。模型的參數設置以及擬合過程可通過R 語言編程實現,使用R Studio 中的R 包e1071、nnet、xgboost 和randomForest 算法完成模型的訓練和驗證。SVM 是一種基于統計學習理論的機器學習算法,包含線性、非線性和徑向基函數等不同類型的核函數,可用于分類和回歸問題。通過核函數,支持向量機可以轉化為非線性模型。本研究以徑向基函數為核函數,通過反復訓練和調試Cost、Epsilon和Gamma 這3 個參數最終確定最優結果。
BPNN 是一個多層漸進式神經網絡,由輸入、隱藏和輸出3 層構成。輸入層主要負責向量的輸入,經由神經元傳輸到隱藏層,確定合適的隱藏層及其神經元的數量,最后通過神經元傳輸到輸出層與真實值進行比較。通過不斷調整神經元之間的權值進行反復學習,直到滿足輸出條件。該算法具有很強的非線性處理能力以及自適應學習能力,抗噪聲能力強,能快速建立輸入與輸出之間的映射關系,可用于模擬人腦學習,建立多元非線性關系。本研究中BPNN 算法模型的隱含層設定為15,迭代次數為1 500,權重衰減分別為3 和5,通過反復訓練該模型以獲得最佳效果。
XGBoost 是一種集成學習算法,屬于梯度提升樹算法類別,其基本思想是讓新的基模型去擬合前一模型的偏差,從而不斷降低加法模型的偏差(Si et al.,2020;Ching et al.,2022)。通過調整XGBoost訓練集的步長(learning_rate)、最小損失函數下降值(gamma)和樹的最大深度(max_depth)等關鍵參數,以達到優化模型的目的。
RF 作為集成學習思想下的產物,使用Bootstrap重采樣技術從原始訓練集中隨機采樣m個樣本,共進行n次采樣,生成n個訓練集,形成可用于構建目標變量和建模因子之間關系的隨機森林。該算法具有極高的準確率、很好的抗噪聲能力,以及不容易過擬合、訓練速度快等優點,是目前應用最為廣泛的機器學習算法之一。研究中通過指定CART 決策樹的數目n進行反復訓練,從而尋找估測模型的最優參數mtry。
機器學習模型的估測精度和預測能力可通過決定系數(R2)、平均絕對誤差(σMAE)、均方根誤差(σRMSE)和相對分析誤差(σRPD)反映(Ghosh et al.,2020)。其中R2越大,表明模型的擬合程度越高;σMAE和σRMSE值越小,則顯示該模型估測效果越好,精度越高;σRPD代表了模型的估測能力和穩定性,當1.4≤σRPD<1.8 時表明該模型估測能力一般;1.8≤σRPD<2 表示模型的估測能力較好;σRPD≥2則說明該模型的估測能力極好,穩定性高。各評價指標的計算公式如下:
式中:
yi——調查樣地生物量的實測值(g·m?2);
——生物量估測模型的估測值(g·m?2);
——調查樣地生物量的平均值(g·m?2);
σSD——為調查樣地生物量的標準差;
n——調查樣地的數量。
通過對各調查樣地植被地上生物量進行統計整理和數據運算,結合影像數據提取的各建模變量,采用R 語言的4 種機器學習算法構建研究區植被地上生物量的估測模型;通過分析不同建模方法下研究區植被地上生物量的估測精度,最終確定出地上生物量的最佳估測模型,并采用ArcGIS 10.2軟件繪制研究區植被地上生物量的空間反演圖。
通過對研究區各樣地植被地上生物量進行基本統計分析(表1),發現研究區94 個調查樣地的地上生物量(AGB)在7.4-1 448.5 g·m?2范圍內變化,平均水平為387.9 g·m?2,標準差為319.4 g·m?2,變異系數為82.3%,地上生物量整體水平偏低,具有中等程度的空間異質性。將調查的94 個樣本數據隨機分成64 個訓練樣本和30 個驗證樣本,分別用于模型的訓練和驗證。統計訓練樣本和驗證樣本的地上生物量發現,兩種樣本集的平均水平均較低,分別為402.9 g·m?2和355.8 g·m?2;變異系數分別為81.7%和84.5%,呈中等強度的空間變異。

表1 各樣地地上生物量的基本統計特征Table 1 Basic statistical characteristics of aboveground biomass in various sites
根據各調查樣地中心點的地理坐標,在遙感影像上提取出各坐標點的波段反射率值以及波段運算得到的光譜指數,分別與調查樣地實測生物量進行相關分析(見圖2)。通過相關顯著性檢驗(P<0.001),初步篩選出與研究區植被地上生物量存在極顯著相關的7 個植被指數和13 個光譜波段共20 個光譜因子,作為本研究中植被地上生物量估測模型的建模變量。其中與地上生物量相關最為密切的植被指數為比值植被指數(RVI),相關系數為0.77(P<0.001);在各波段反射率中,與地上生物量相關最密切的是紅光波段的倒數(1/b4),相關系數達到0.81(P<0.001)。將7 個植被指數與13 個波段作為全變量(Total Variable,TV),7 個植被指數為指數變量(Index Variable,IV),13 個光譜波段為波段變量(Band Variable,BV),同時對全變量采用隨機蛙跳算法篩選出5 個植被指數(DVI、EVI、ARVI、SAVI 和MSAVI)與5 個光譜波段(1/b2、1/b3、1/b4、1/b5和1/b6)作為優選變量(Preferred Variable,PV),分別以這4 種變量組合作為建模變量進行生物量估算模型的構建,從而篩選最佳估測模型對研究區的地上生物量進行空間反演。

圖2 建模變量與地上生物量的相關系數矩陣Figure 2 Correlation coefficient matrix between modeling variables and aboveground biomass
基于SVM、BPNN、XGBoost 和RF 這4 種機器學習算法,以全變量(TV)、指數變量(IV)、波段變量(BV)和優選變量(PV)這4 種變量組合作為建模變量,各調查樣地的地上生物量為因變量,構建渭干河-庫車河三角洲綠洲地上生物量的估測模型,具體估算精度如表2 所示。在SVM 模型中,4 種變量組合構建的反演模型估測效果均較好,模型的訓練集和驗證集R2均大于0.6,σRPD值在1.6 以上,反演模型具有較好的估測能力。進一步分析比較發現,全變量(TV)和波段變量(BV)構建的SVM 模型估測效果優于指數變量(IV)和優選變量(PV)。其中,BV-SVM 模型的估測能力最佳,驗證集的σRPD達到1.70,σMAE和σRMSE分別為88.1 g·m?2和149.1 g·m?2,估測精度較其他3 種變量組合更高。相較于SVM 模型,BPNN 模型具有更好的訓練結果,訓練集的σRPD均在2.0 以上,但模型整體驗證效果較差,穩定性低。在4 種組合變量構建的BPNN 模型中,由優選變量構建的PV-BPNN 模型相較于其他3 種組合變量具有較高的估測能力,驗證集R2為0.617,σMAE和σRMSE分別為98.3 g·m?2和155.4 g·m?2,σRPD為1.63。在XGBoost 模型中,4 種變量組合構建的反演模型均具有較好的估測能力,其中BV 和PV 組合模型的估測效果明顯優于全變量(TV)和指數變量(IV)模型,且以優選變量構建的PV-XGBoost 模型的驗證效果最佳,R2為0.719,σMAE和σRMSE分別為100.0 g·m?2和133.0 g·m?2,σRPD達到1.91。RF 模型作為一種先進的機器學習算法,與其他3 種模型相比,估測能力有了明顯的提高,4 種變量組合模型的訓練集和驗證集的σRPD均在1.8 以上,模型的估測能力較高,穩定性強。進一步比較不同變量組合估測結果認為,BV 和PV 組合構建的RF 模型的估測能力明顯優于TV 和IV 組合;與PV-RF 模型相比,BV-RF 模型的訓練集和驗證集的σRMSE降低了2.3 g·m?2和1.3 g·m?2,σRPD分別由3.07、1.90 提高至3.14 和1.92,模型的估測精度更高,預測能力和穩定性更強。

表2 不同反演模型的估算精度Table 2 Estimation accuracy of different inversion models
綜合分析4 種變量組合的建模效果認為,在BPNN 和XGBoost 模型中,通過隨機蛙跳篩選變量可以有效提高建模精度。估測精度最高的是PV 組合,其次是BV 和TV 組合,而IV 組合的估測精度最低。而在SVM 和RF 模型中,BV 組合構建的模型精度略高于其他3 種組合。進一步比較4 種機器學習算法構建的地上生物量估測模型發現,RF 算法明顯優于SVM、BPNN 和XGBoost;相較于BPNN算法模型,SVM 和XGBoost 算法構建的模型估測能力更為穩定。綜合分析認為,由波段變量構建的隨機森林模型BV-RF 具有最佳的估測精度和穩定性,其驗證集R2為0.742,σMAE和σRMSE分別為79.2 g·m?2和132.1 g·m?2,σRPD為1.92。為了進一步比較不同機器學習算法估算結果的準確性,分別對4種機器學習模型的最佳估測結果繪制散點圖(圖3),分析發現4 種算法模型的估測結果與實測值均表現出較為一致的擬合性,大多數散點在1:1 線附近集中分布;其中BV-RF 模型的估測值與實測值更為接近,估測結果能更準確反映研究區植被生長的實際狀況,可作為研究區植被地上生物量的最佳估測模型。

圖3 4 種機器學習算法構建的最優估測模型散點圖Figure 3 Scatter diagram of optimal estimation models constructed by four machine learning algorithms
以最佳估測模型BV-RF 模型的訓練結果為基礎,采用R 語言對研究區植被地上生物量進行定量反演。利用歸一化差值水體指數(Normalized Difference Vegetation Index,NDWI)提取水體并結合反演結果繪制研究區植被地上生物量空間分布圖。由地上生物量空間反演圖可以看出(見圖4),渭干河-庫車河三角洲綠洲的地上生物量(AGB)呈現出明顯的空間分異特征,AGB 整體呈扇形分布,綠洲內部的地上生物量明顯高于綠洲外圍。以農田為主的綠洲區域約占研究區總面積的44.45%,AGB 在300 g·m?2以上。其中位于塔里木河中游和渭干河下游的南部綠洲和東南區域,由于地勢較低,水資源豐富,植被生長狀況良好,地上生物量相對較高,AGB 在650-1 500 g·m?2之間變化,地表植被以高產農田和荒漠胡楊林為主;綠洲-荒漠過渡帶的地上生物量普遍較低,AGB 主要分布在100-300 g·m?2范圍之間,地表以荒漠鹽堿草地為主,約占研究區面積的23.29%;而在荒漠區,由于水資源缺乏植被覆蓋極為稀疏,且地表主要為沙地和光板鹽堿地,AGB 在100 g·m?2以下,可占區域總面積的32.26%。從空間分布格局來看,研究區植被地上生物量整體呈現出綠洲區高,荒漠區低,空間分異十分明顯,由綠洲內部向荒漠腹地逐漸遞減的變化特征。

圖4 研究區植被地上生物量反演圖Figure 4 Inversion map of vegetation aboveground biomass in the study area
隨著機器學習算法和光譜技術的深入發展,植被地上生物量估算方法也在不斷改進中,RF、XGBoost 等非參數機器學習算法已成為目前植被地上生物量常用的估算方法。與傳統的統計學習模型相比,機器學習模型具有更高的估測精度和更強的穩定性,針對非線性統計關系具有較好的估測效果(Tappayuthpijarn et al.,2022)。在機器學習算法中,SVM 可處理小樣本機器學習問題,并利用核函數應對非線性問題,在選擇正確的核函數時需要相當的技巧,而在面對較大數據集時,SVM 算法學習效率很低。XGBoost 算法可實現并行處理,訓練速度快,能防止模型過擬合,但該算法只適合處理結構化數據,不適合處理超高維特征數據。BPNN 雖具有較強的非線性映射能力和高度自學習自適應能力,但收斂速度慢,局部極小化問題突出。RF 算法可高度并行化訓練數據,能夠處理高維度數據,訓練速度快,泛化能力強,估測精度高且穩定性強(Nesha et al.,2020;Morais et al.,2021)。相較于BPNN算法模型,SVM、XGBoost 與RF 算法構建的模型在本次驗證過程中具有更高的預測精度和穩定性。與其他機器學習算法和傳統模型相比,RF 算法在地上生物量估算方面具有明顯優勢(Wang et al.,2022)。本研究結果進一步證實,RF 算法構建的模型,其估算精度和預測能力要明顯優于SVM、BPNN 和XGBoost 算法模型。在機器學習過程中,如果樣本容量不足,將會導致模型學習效果不佳。研究結果顯示,4 種機器學習算法構建的模型相對分析誤差均在1.4 以上,說明實驗所用的樣本數量可達到機器學習算法模型的學習要求,其中RF 模型的預測能力較好,穩定性最強。
相關研究表明,植被地上生物量與氣溫、降水、地形,以及土壤質地與養分條件有密切關系,其中降水、地形以及土壤養分是影響地上生物量的重要因素,直接決定了植被的碳固持能力(李妙宇等,2021;Yuan et al.,2019)。在今后的地上生物量估算研究中,除了深入挖掘遙感影像的光譜特征和紋理信息外,還需輔助地表環境要素,通過變量篩選結合多種機器學習算法,不斷提高反演模型的估測精度和適用范圍(Sun et al.,2020)。同時,雷達影像、高光譜衛星數據以及無人機影像等具有高空譜特征的遙感數據,在未來的植被地上生物量反演研究中將會展現出明顯優勢(Li et al.,2021;Sharma et al.,2022;Wang et al.,2022)。
以Landsat 8 OLI 多光譜遙感影像和地面實測樣方為主要數據源,采用不同變量組合和多種機器學習算法對新疆渭干河-庫車河三角洲綠洲地上生物量進行遙感估算。研究發現波段變量(BV)和隨機蛙跳算法優選變量(PV)構建的地上生物量反演模型,其估測精度和穩定性明顯優于全變量(TV)和指數變量(IV)模型。通過對4 種機器學習算法模型進行比較,認為RF 算法模型較XGBoost、SVM和BPNN 模型具有更高的估測精度和更強的穩定性。由波段變量結合隨機森林算法構建的BV-RF模型的估測精度最高,預測能力最強。研究區植被地上生物量的空間反演結果表明,地上生物量存在明顯的空間分異特征,主要表現為綠洲內部的地上生物量較高,而綠洲外緣生物量低,呈梯度分布的空間格局。