杜 妍
(韶關市防洪管理中心,廣東 韶關 512026)
土壤侵蝕是自然和人類活動對土地資源的破壞過程,導致了生態環境退化和農業生產受損等問題。持續性水土保持作為一項重要生態治理工程,對維系土地生態健康、水資源涵養、植被多樣性有著不可忽視的作用[1-3]。在土壤侵蝕防治實踐中,需要提取一系列生態因子,而降雨侵蝕力因子是其中關鍵參數之一,其表征了降雨能量對地表土體產生的擊濺、剝離、運移能力。傳統研究中對區域尺度降雨侵蝕力因子提取依賴于稀疏雨量站資料,并結合空間統計方法進行分析處理,其顯著缺點是無法準確刻畫降雨侵蝕力柵格面,尤其在站點稀疏地區的估算精度存在較大不確定性[4-5]。近年來隨著衛星遙感和機器學習技術發展,通過衛星降水產品和非線性擬合方法,提出了一些快速準確提取降雨侵蝕力因子的方法,例如陳君等[3]利用GBDT和GPM數據生成了華南地區降雨侵蝕力產品,梁宇靖等[2]利用GLAS數據得到了中國降雨侵蝕力信息。基于前人研究基礎上,基于GPM衛星降水數據和XGBoost算法,探索了一種新的提取降雨侵蝕力因子的方法,并利用地面雨量站數據驗證了該方法的有效性。
廣東地處我國大陸南端,南海北岸、珠江流域中下游,總面積17.8萬km2,海岸線長3368km。區域屬嶺南丘陵、珠江三角洲平原和沿海平原地形,總體地貌崎嶇破碎海拔為0~1902m。受西太平洋季風、印度洋季風、赤道低壓和副熱帶高壓影響,區域形成南亞熱帶濕潤季風氣候,具有全年溫和、降水充沛特點,年平均氣溫18~24℃、降水量在1500~2000mm、無霜期約270~320d、積溫5800~7500℃、日照時數1500~2100h。其中降雨量集中于4—9月,其他月份降水較少,常有臺風、暴雨、干旱、洪水、雷電和霜凍等氣象災害影響。由于季風性降水集中性強、強度大,在降水月易形成強烈降雨侵蝕破壞力,對地表產生劇烈沖刷、剝離,因此該地水土流失現象極為普遍。如圖1所示。
選擇準確而具有代表性的氣象環境數據是提取大尺度降雨侵蝕力分布信息的重要基礎。文中使用的數據主要有:①地面雨量站數據,從氣象數據共享服務網(https://urs.earthdata.nasa.gov/)收集到研究區2020年85個氣象站點日降水資料;②GPM衛星降水數據,從google earth engine開源平臺獲取“NASA/GPM_L3/IMERG_V06”產品,生成研究區GPM降水數據;Aster DEM數據,從地理空間數據云下載研究區DEM產品,用以提取高程、柵格點的經度、緯度等信息。
研究表明,水土流失領域著名專家Xie等[6]提出的降雨侵蝕力模型在我國具有良好應用性,故而利用該模型計算站點尺度降雨侵蝕力,公式如下:
(1)
式中,Rday、Pd—日降雨侵蝕力、日侵蝕性降雨量;α—物候參數,規定5—9月該參數取值為0.3937,10—4月取0.3101。
XGBoost(extreme gradient boosting)是一種集成學習算法,其在梯度提升基礎上,通過迭代地添加弱學習器來提高模型性能[7-8]。即每次迭代中,XGBoost在上一次迭代的結果基礎上擬合一個新的決策樹,并通過梯度提升對之前預測結果的殘差進行擬合,如圖2所示。通過這種方式,XGBoost能夠逐步提升模型的泛化能力,因此具有高效性、精度高、靈活性特點,可以適應不同應用場景。該算法具體數學過程原理,詳見Chen等[7]人的研究。

圖2 XGBoost算法結構圖
借鑒陳君[3]和梁宇靖[2]等人相關經驗,使用XGBoost算法提取廣東省降雨侵蝕力因子簡要流程如下:
(1)利用公式(1)計算并合成全部85站點2020年降雨侵蝕力。
(2)對原GPM衛星數據、DEM影像等進行重投影、去噪、重采樣、空間統計等預處理,生成1km空間分辨率的環境變量柵格數據集;然后利用全部站點點位提取柵格變量集里各變量數值信息,進而構建樣本集;隨機選擇其中70%的樣本為建模集(n=59)、30%為驗證集(n=25)。
(3)利用訓練集結合Python3.9程序設計XGBoost回歸算法,因變量為站點測量侵蝕力,自變量為GPM降水量、海拔、經度和緯度。為確保模型穩健性,利用Grid方法對XGBoost算法進行優化。
(4)基于訓練好的XGBoost模型對柵格變量集進行空間預測,生成廣東省1km空間分辨率的降雨侵蝕力因子柵格面。
(5)利用未參與模型訓練的氣象站點空間點位進行獨立驗證,即XGBoost算法預測得到的侵蝕力柵格面對應位置處侵蝕力值y′為參考值,以地面觀測站計算的侵蝕力y為真值,計算決定系數(R2)、平均絕對誤差(MAE)和均方根誤差(RMSE),對區域降雨侵蝕力提取精度進行量化評估。
廣東省2020年降水量最低值為1458.26mm,出現在德清站,最高值為增城站的2411.42mm,最大、最小相差953.16mm;進一步統計表明全部站點降水量平均值為1893.45mm,在全國屬豐水區,其空間離差系數為16.52%,表明全境降水量存在明顯不均性。見表1。另利用Xie模型得到的區域侵蝕力值介于5080.23~17958.04[MJ·mm/(hm2·h·a)]之間,全省平均值為9574.49[MJ·mm/(hm2·h·a)],其侵蝕強度局全國較高水平。經單樣本Kolmogorov-Smirnov檢驗發現,上述序列變量漸進顯著性sig值均<0.05,說明其不符合正態分布假設,在后續分析中須進行對數變換處理進而減少數據噪聲[9]。

表1 廣東省85個氣象站點降水量和降雨侵蝕力統計特征
利用GIS空間可視化功能得到研究區2020年降雨量分布柵格面圖3。研究區原GPM降水量數據的粗集產品揭示了降水量分布格局,可見該年度降水量中心位于珠三角及江門南部沿海地區,GPM數值可達2500mm;降水量低值出現在粵東和粵西丘陵地區,像素值在1700mm以下;總體呈現自珠三角核心區向周邊減少的分布特征。

圖3 廣東省GPM降水量空間分布圖
GPM降水量產品作為研究區降雨侵蝕力因子提取的重要協變量之一,GPM降水數值大小及其分布特征對區域尺度侵蝕力特征有一定影響。經相關性分析發現圖4,二者擬合關系形式為y=7.4689x-4737.6,其R2=0.48,P<0.01,說明衛星降水產品與近地表降雨侵蝕力之間存在密切關系,因此可作為區域降雨侵蝕力空間提取的有效協變量之一。

圖4 廣東省GPM降水量與站點降雨侵蝕力之間相關性散點圖
圖5a直觀呈現了廣東省2020年降雨侵蝕力空間細致分布。與圖5b對比可知,區域降雨侵蝕力與降水量具有高度一致性,這是由于前者是后者的函數。區域降雨侵蝕力分布范圍介于5584~15318[MJ·mm/(hm2·h·a)]之間,空間平均值為10864[MJ·mm/(hm2·h·a)],離差系數為36.79%,意味著該省域降雨侵蝕力空間分異性顯著。其中降雨侵蝕高值區聚集于珠三角中北部邊緣、陽江和江門南部一帶,局部可達12000[MJ·mm/(hm2·h·a)]以上;結合相關觀測資料可知,2020年濕潤季風在該局地停留時間長、降雨強度大,由于這些地區處于城建核心區和城鄉結合帶,強烈降雨侵蝕可能誘發崩崗、滑坡、泥石流等災害。侵蝕力低值區出現在粵東、粵西和粵北邊緣地區,在10000[MJ·mm/(hm2·h·a)]以下,主要由于這些地區當前降水量較小而強度低;然而這些地區長期處于低影響開發、良好植被覆蓋狀態,因此該地產生的侵蝕風險可忽略不計。

圖5 廣東省降雨侵蝕力和降水量空間分布圖
研究區25個獨立驗證樣本點的XGBoost模型預測降雨侵蝕力與地面站點侵蝕力之間擬合散點圖,如圖6所示。分析發現二者散點分布于1∶1直線兩側,其擬合關系形式為y=0.6304x+3894.4,經檢驗得到其P值<0.01,表明二者關系具有統計顯著水平。利用公式(5-7)計算得到其R2為0.36,表明侵蝕力真值與預測值具有良好一致性;且MAE和RMSE依次為1451.6、2880.9[MJ·mm/(hm2·h·a)],意味著該降雨侵蝕力柵格面具有較低不確定性,因此圖4所示柵格面可用作區域水土流失評價或侵蝕模數計算的替代品。需指出的是,盡管該提前精度在可接受范圍內,但由于區域內侵蝕范圍大,到其RMSE也較大,因此該侵蝕力柵格面仍有改進潛力。

圖6 廣東省降雨侵蝕力提取精度散點圖
(1)GPM降水與降雨侵蝕力之間存在密切線性關系,可成為空間尺度降雨侵蝕力研究新的有效數據源。
(2)XGBoost模型基于其非線性擬合優勢,生成了精度可靠的侵蝕力柵格面,并具有精細水平表現力。
(3)該改進的方案可為廣東省水土流失評價、生態建模等貢獻新思路。本研究仍存在不足,例如GPM數據本身仍為粗糙產品(空間分辨率為10km),利用簡單重采樣方法將其轉換為1km分辨率可能產生尺度轉換誤差。因此,后續研究應先將GPM數據進行降尺度處理,明確其尺度轉換誤差后用以輔助生成精細的降雨侵蝕力分布式信息。