張永奎
(河北省唐山水文勘測研究中心,河北 唐山 063000)
精細化降水柵格面對季風區(qū)水資源管理、生態(tài)功能區(qū)劃、農業(yè)生產布局具至關重要。隨著遙感技術發(fā)展,星載遙感降水數據可提供全球范圍內氣候環(huán)境觀測的關鍵信息,并成為全球變化、地球系統(tǒng)科學、水文水資源等領域中不可或缺的數據源之一[1-3]。但由于星基系統(tǒng)模式固有原因,遙感降水產品在局部小尺度上依然暴露出分辨率過大、信息不準確的缺陷,因此有必要結合地面觀測基準值對其時空分辨率進行融合校準[4-5]。近年來,隨機森林(RF)方法作為一種強大的機器學習算法在水文氣象科學中得到了廣泛的應用,其能夠通過對大量數據的關聯(lián)分析,準確地預測各個地區(qū)的降水量。在唐山市這個重要的工業(yè)城市,降水量的稀缺性和空間分布的不均勻性給當地農業(yè)和水資源管理帶來一定挑戰(zhàn)[6-9]。因此,本研究旨在利用RF 算法結合GPM 遙感數據對唐山市的降水量進行空間制圖,并對制圖精度進行驗證。
唐山地處燕山山脈向渤海過渡帶、華北平原東段,覆蓋陸域13472 km2,延伸海岸線230 km。是我國重要的工業(yè)城市,水資源比較豐富,歷史上主要是防御水災,開發(fā)利用很少。地勢自北部山地向南部前海傾向,海拔在0~842 m 之間,地形差異明顯。唐山良好的地理條件和自然環(huán)境,為多種野生動物繁衍、棲息創(chuàng)造了條件。受信風帶與副極地低壓、歐亞大陸高壓、西北太平洋海域位置影響,形成半濕潤季風氣候,多年平均氣溫12.5℃、降水量600 mm、無霜期185 d、日照時數2800 h,水熱資源集中于6 月~9 月。水文呈放射狀,流失平緩、比降較低,平均徑流量14.6 億m3。
(1)GPM 衛(wèi)星遙感降水數據
GPM 衛(wèi)星星座降水測量系統(tǒng)集成星載雷達、微波輻射計、紅外掃描技術確準探測降水量[10]。本文選用的是GPM_V6_IMERG 產品,其記錄了月降水量,空間分辨率為0.1°×0.1°。通過美國航空航天局(NASA)官方網站(https://pmm.nasa.gov/data-access)申請下載研究區(qū)逐月GPM 產品,經過ArcGIS 經投影轉換、數據累加后得到2020 年降水數據。
(2)地面氣象站點數據
以研究區(qū)12 個無缺測的地面氣象站點觀測資料為基準值,該數據從中國氣象科學數據中心(ttp://data.cma.cn)申請獲取。
(3)地形數據
地形數據來自以STRM DEM 產品,其空間分辨率為30m,可準確步驟地形垂直精度。以研究區(qū)DEM 柵格圖為基礎,基于ArcGIS 平臺的Surface 工具進一步提取坡度、坡向等因子。
(4)經緯度數據
經緯度描述了海陸位置特征,可直觀解釋降水地帶性分布。以研究區(qū)30 m 空間分辨率的DEM 資料為集成,實驗raster to point 工具生成每一DEM 格點矢量點位;然后利用屬性表計算器工具計算格點經緯度、經緯度乘積;最后即上述計算值為輸入,運用point to raster工具得到研究區(qū)經度、緯度、經緯度乘積的柵格文件。
Random forest(RF)是Breiman 等研發(fā)的一項經典非線性擬合技術,其基礎理論是分類回歸樹(Tree),在解決數值擬合(Regression)、概率計算、函數逼近、類別甄辯方面得到廣泛應用[6]。其主要步驟為:從原始樣本中隨機抽取n 個樣本訓練集以構建n 棵回歸樹(ntree),每次未被抽到的樣本組成了袋外數據(OOB),作為RF 經度驗證集;(2)抽取m個解釋變量(mtry)建立Tree 模型,依據OOB 最小原則確定mtry 值;(3)集成全部的Tree 進而構建森林,RF 的最終預測結果h(x)是K 個預測集合在獨立向量θk的的非加權平均(Averaging)值(見圖1)。

圖1 隨機森林算法結構圖
本研究以地面觀測基準值為目標變量(y),以GPM、海拔(DEM)、坡度(Slo)、坡向(Asp)、經度(Lon)、緯度(Lat)和經緯度乘積(LL)作為解釋變量,則模型模糊形式如下:
以所有CART 預測值的平均值作為最終結果。本文R 語言caret 包和randomForest 包構建RF 模型。
RF 是一種基于數據學習的集成方法對數據結構具有一定敏感性。為避免模型過擬合,應用十折交叉驗證方法評估模型精度。以交叉驗證重復10 次產生的決定系數(R2)、均方根誤差(RMSE)和平均絕對誤差(MAE)作為模型性能度量指標。
式中:yp、yo為預測值與實測值;、為預測樣本與實測樣本的平均值;、分別為預測樣本、實測樣本的方差;R2為實測值與預測值之間皮爾遜相關系數的平方。
LCCC 為預測樣本和實測樣本相關系數的一致性,R2越接近于0、RMSE 越接近于0,表明模型精度越高。
使用有限樣本進行機器學習建模時,樣本數據結構對模型性能具有敏感影響。表1 為30 m 分辨率水平上,將氣象站點空間位置與環(huán)境變量集進行空間匹配進而提取得到的12個樣本統(tǒng)計特征。可見,除海拔變量的離差系數介于0~1之間,屬于中度程度異質性外,其他變量均屬弱變異。站點降水量介于553 mm~669 mm 之間,平均值為632 mm。利用Pearson相關分析發(fā)現,經度、緯度、經緯度乘積、海拔、坡度、坡向與站點降水量之間的相關系數依次為0.67、-0.75、-0.54、-0.58、-0.51、0.26,在0.05 或0.01 水平上呈相關性,表明這些變量對解釋區(qū)域降水空間分布具有合理性。另外從相關性程度來看,該地降水量以南北地帶性特征為主,該特性弱化了地形效應。

表1 環(huán)境變量統(tǒng)計特征
圖2 顯示了研究區(qū)2020 年GPM 原始像素特征,該地共存在142 個降水像素,每一格點之間數值差異顯著,反映了降水量地帶性漸變。其最大最小值依次為711 mm、527 mm,空間平均值為642 mm,離差系數達32%。顯然,該原始GPM像素較之于地面站點的密度更大且分布均勻,但其機械性、鋸齒狀分布特征不符合自然規(guī)律。

圖2 研究區(qū)原始GPM 衛(wèi)星降水分布
利用ArcGIS 軟件的地統(tǒng)計分析工具對研究區(qū)全部GPM格點降水量進行空間擬合,得到降水量分布模型結構,其結果見圖3。依圖可知,圖中橫坐標半方差值表示空間具有對插值精度的數學期望,當空間距離為0 時,半方差值為0.2;半方差值隨著空間距離增加呈先迅速升高后趨于穩(wěn)定特征,當距離達到452 km 時,半方差穩(wěn)定值為1.45,計算得到塊金比為16%,表明區(qū)域降水量呈現強烈空間自相關。最終顯示徐州市降水量分布符合高斯Gau 模型,具有結構為γ(h)=0.2+1.45×Gau(452),且降水量呈強烈空間自相關分布,表明可采用隨機森林非線性方法進行空間插值研究。

圖3 研究區(qū)GPM 降水量空間分布模型擬合特征
本文先實驗R 語言caret 包和randomForest 包構建基于樣本集的RF 模型,經多次試錯后確定最優(yōu)參數配置為:ntree=800、mtry=3;然后將環(huán)境變量重采樣至30 m 空間分辨率,進而利用predict 函數對柵格協(xié)變量進行預測,最終制取研究區(qū)降水量分布圖,其結果見圖4。可知,圖中降水量值域在527 mm~722 mm 之間,統(tǒng)計得到像素平均值為642 mm,離差系數為24%,這與圖2 中原始GPM 數值特征一致。從空間格局來看,降水量呈現自南向北、自東向西減少的格局;其中東部地區(qū)降水量最大,局部在680 mm 以上,呈帶狀延伸;中部地區(qū)降水量次之,介于560 mm~680 mm 之間;西北部最少,僅在550 mm 以下。這種地帶性差異主要受到海陸位置、地形相互作用。該制圖結果顯示的降水量數值與分布特征較原GPM 數據一致,但其空間表現力更準確,細致刻畫了降水量隨地形、空間位置漸變規(guī)律RF 通過非線性擬合模擬降水量分布與地形、海陸位置變化規(guī)律,進而通過精細的環(huán)境變量反演出降水細節(jié)分布。

圖4 基于RF 算法研究區(qū)降水量制圖結果
為客觀評估區(qū)域降水量分布空間制圖精度,以站點數據為基準值提取相對空間位置處RF 模型預測值,通過計算二者之間相對誤差,得到模型驗證精度R2為0.62,MAE 和RMSE 僅為55.81、65.88 mm。由圖5 可知,觀測值與制圖結果之間具有良好一致性,其平均偏離度不足樣本數據最大的1/10,因此該驗證精度良好、制圖結果可靠[10]。

圖5 研究區(qū)降水量制圖精度散點圖
精細化降水柵格面對季風區(qū)水資源管理、生態(tài)功能區(qū)劃、農業(yè)生產布局具至關重要。本文利用多源異構的地面與衛(wèi)星遙感資料,通過非線性的隨機森林模型定量制取了衡水市降水量空間分布特征。本研究結論如下:①地形、經緯度信息與降水量之間呈現顯著線性關系,其對解釋衡水地區(qū)降水量細節(jié)分布具有一定價值;②GPM 遙感降水數據呈現強烈空間自相關性,其在該地氣象學應用中具有可替代性;③隨機森林方法擬合了降水量與地形、經緯度之間非線性關系,進而推斷降水量分布細節(jié)信息,制圖得到的降水分布格局與原GPM 總體特征一致,但更具真實性;④隨機森林方法計算結果精確度較高,結果直觀,具有一定推廣價值。但在應用中應結合具體情況進行綜合確定,經過多次驗證確保應用效果。