999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GPR、CatBoost、XGBoost三種模型預測江西地區水面蒸發量

2021-01-29 09:06:28陳志月吳立峰劉小強伍周睿董建華
水資源與水工程學報 2020年6期
關鍵詞:模型

陳志月,吳立峰,劉小強,伍周睿,董建華

(1.南昌工程學院 鄱陽湖流域水工程安全與資源高效利用國家地方聯合工程實驗室,江西 南昌 330099;2.河海大學 水文水資源學院,江蘇 南京 210098;3.西北農林科技大學 旱區農業水土工程教育部 重點實驗室,陜西 楊凌 712100;4.昆明理工大學 農業與食品學院,云南 昆明 650500)

1 研究背景

水面蒸發量的確定在水資源計算中具有不可替代的作用,流域水資源評價、水庫水量計算和農田灌溉制度制定等都必須參考水面蒸發量。在我國,通常采用E601蒸發皿(直徑60 cm)和 E20 蒸發皿(直徑20 cm)直接測量水面蒸發量。20世紀以來人類活動導致全球變暖,氣候變化受到越來越多的關注,許多學者指出蒸發皿蒸發量的觀測值并沒有隨著大氣溫度的升高而增加,反而呈現下降的趨勢[1-3],并把這種現象稱為“蒸發悖論”[4]。研究證明“蒸發悖論”的原因在于只是簡單地建立氣溫與水面蒸發量的聯系,而實際上風速、相對濕度、太陽輻射、水汽壓、日照時數等氣象因子均為影響水面蒸發量的主要因素[5-7]。為了全面認識氣象因子與水面蒸發量的相關關系,并確定在一定氣候條件下影響水面蒸發量的主導因子,有些學者利用機器學習模型預測流域水面蒸發量,通過不斷地優化輸入參數來提高模型預測精度。

近年來,隨著人工智能算法的快速發展,越來越多的機器學習模型被提出并應用于估算蒸散發,如人工神經網絡[8]、支持向量機[9]、多層感知器[10]、廣義回歸神經網絡[11]、自適應神經模糊推理系統[12]和極限學習機[13]等,這些機器學習模型在處理自變量與因變量之間的非線性關系方面具有強大的功能。劉彩紅等[14]評價了BP神經網絡在新疆平原地區預測水面蒸發量的表現,認為該模型的預測精度較高,比其他常用方法構建簡單且誤差較小,且所需的材料易于獲得。丁薇[15]研究了PCA-RBF神經網絡模型在太原地區預測水面蒸發量的適用性,結果表明CA-RBF神經網絡模型的表現較好,預測精度達到了83%的合格率。有學者比較了6種基于軟計算方法的模型(多層感知器(MLP)、廣義回歸神經網絡(GRNN)、模糊遺傳(FG)、最小二乘支持向量機(LSSVM)、多元自適應回歸樣條(MARS)、自適應神經模糊推理系統(ANFIS-GP))和兩種回歸模型(多元線性回歸(MLR)和Stephens and Stewart模型(SS))預測水面月蒸發量的表現,得出不同的氣候條件下模型的精度也不相同,大多數氣象站點的蒸發量模擬結果顯示MLP模型的性能優于其他模型,預測結果準確性排名為MLP>GRNN>LSSVM>FG>ANFIS-GP>MARS>MLR[16]。

江西地區處于長江中下游,包含鄱陽湖流域,近年來旱澇災害頻發,屬于水資源矛盾比較突出的地區。閔騫等[3]對鄱陽湖流域近50年水面蒸發量的變化特征及其原因進行了分析,得出該流域存在“蒸發悖論”的現象,且認為水面蒸發量的變化是由于大范圍氣候變化脅迫的結果。由于水面蒸發量預測模型具有很強的地區適應性,且目前關于江西地區的水面蒸發量預測模型的研究還缺乏報道[17],因此,為了進一步分析溫度、風速、相對濕度、太陽輻射、水汽壓等氣象因子對鄱陽湖流域水面蒸發量變化的綜合影響,以及資料缺乏時水面蒸發量的插補和模擬,本研究擬使用3種在蒸發量模擬中較少使用的機器學習方法(GPR、XGBoost和CatBoost),建立該地區的水面蒸發量模擬模型,找出該氣候條件下影響水面蒸發量的主導氣象因子,并確定最適宜的氣象因子組合。

本次研究內容包括:(1)評估GPR、XGBoost和CatBoost這3種機器學習模型在江西地區預測水面蒸發量的適應性;(2)通過比較不同輸入參數的模型模擬效果,明確在江西地區氣候條件下影響水面蒸發量的主導氣象因子;(3)將3種機器學習模型GPR、XGBoost和CatBoost與3種經驗模型Griffiths[18]、Stephens and Stewart(SS)[19]和Priestley-Taylor(PT)[20]相比較,以便選出氣象資料不足時最適宜的水面蒸發量估算模型,為水面蒸發量的高精度模擬提供一定的參考。

2 數據來源與研究方法

2.1 研究區域概況

江西省位于我國東南部,東、西、南三面環山,北部為鄱陽湖沖擊平原區,這種地形特點使得該地區地勢南高北低,且有利于河流匯集。江西省內共有大小河流2 400多條,河網密集,五大河系(贛江、撫河、信江、饒河和修河)以鄱陽湖為匯聚中心組成了一個完整的水系。受到東亞季風的顯著影響,該地區屬于亞熱帶濕潤氣候,水資源豐富,雨量充沛,多年平均降水量為1 341~1 943 mm,多年平均氣溫為16.3~19.5 ℃。

2.2 數據來源

本次研究選用了江西地區16個氣象站點(修水站、宜春站、吉安站、遂川站、贛縣站、鄱陽站、景德鎮站、南昌站、樟樹站、貴溪站、玉山站、上饒站、南城站、廣昌站、全南站和尋烏站)在2001-2015年期間的逐日氣象資料,包括最高/低氣溫(Tmax/Tmin)、全球太陽輻射(Rs)、地外太陽輻射(Ra)、相對濕度(HR)、風速(Sw)和E601蒸發皿實測的水面蒸發量,數據來源于中國氣象科學數據共享服務網(http://data.cma.cn/)地面觀測數據中的逐日氣象資料,若某日的1個氣象數據丟失或錯誤時,該日的所有氣象數據均被剔除。在篩選后的長系列連續氣象資料中,選取2001-2010年的數據用于模型的率定,2010-2015年的數據用于模型的驗證。表1為2001-2015年江西地區16個氣象站的氣象數據日平均值。

表1 2001-2015年江西地區16個氣象站的氣象數據日平均值

2.3 經驗模型

Griffiths、Stephens and Stewart (SS)和Priestley-Taylor (PT) 3種經驗模型是目前廣泛使用的蒸散發估算模型[21-23],其輸入參數組合及模型方程見表2。由表2可以看出,3種經驗模型對應不同的輸入組合時,模型基于的方程式也各不相同,其中,a、b、c均為擬合系數;Ta為平均氣溫;Rn為凈輻射;γ為濕度常數;Δ為蒸汽氣壓曲線比降。

表2 3種經驗模型的輸入參數組合及模型方程

2.4 機器學習模型

(1)GPR模型。高斯過程回歸(GPR)模型是利用高斯過程先驗對數據進行回歸分析的非參數模型。模型建立如下:

y=f(x)+ε

(1)

因此得到了關于觀測值y的先驗分布:

(2)

同時也得到了觀測值和預測值的聯合先驗分布如下:

(3)

式中:K(X,X)為n階正定協方差矩陣;K(X,X*)為測試點與訓練集輸入之間的n×1階協方差矩陣;K(X*,X*)為測試點自身的協方差;In為n維單位矩陣。

算出預測值的后驗算分布為:

(4)

(5)

cov(f*)=K(x*,x*)-K(x*-X)[K(X,X)+

(6)

(2)CatBoost模型。CatBoost是Gradient Boosting(梯度提升)+Categorical Features(類別型特征),能夠很好地處理分類特征問題并能有效地減少過度擬合問題,它根據公式(7)將分類特征值轉化為數值結果。

(7)

式中:P為先驗項;b為先驗項的權重。

(3)XGBoost模型。極限梯度增強(XGBoost)模型是一種新的梯度增強學習機的實現方法,其學習過程解釋如下:

(8)

fk∈F

(9)

XGBoost算法迭代過程中步驟t的預測如下:

(10)

因此,得到XGBoost算法的目標優化函數,如公式(11)所示:

ft(xi))+Ω(ft)+constant

(11)

式中:l為損失函數;n為觀測的數目;Ω為正則項。

2.5 輸入參數

本次研究以江西地區16個氣象站點2011-2015年逐日最高氣溫、最低氣溫、相對濕度、風速、全球太陽輻射和地外太陽輻射作為輸入參數,建立了10種不同輸入參數組合的GPR模型、CatBoost模型和XGBoost模型,如表3所示。

表3 3種學習機模型的10種不同輸入參數組合

2.6 統計指標

通過決定系數(R2)、均方根誤差(RMSE)、平均偏差(MBE)和平均絕對誤差(MAE)4種統計指標來評估模型預測水面蒸發量的性能。

(12)

(13)

(14)

(15)

3 結果與分析

3.1 3種經驗模型預測水面蒸發量的精度評估

江西地區主要以山地丘陵為主,贛州是這種地貌特征的典型城市,而且是江西省面積最大、人口最多的設區市。本文以贛縣為例,3種經驗模型在贛縣氣象站模擬江西地區水面蒸發量的精度指標統計結果如表4所示。通過比較表4中各統計指標的值可以看出,PT模型總體上優于另外兩種經驗模型。雖然在率定期PT模型的R2比SS模型的略小,但PT模型的RMSE、MBE絕對值和MAE均比SS模型的小,總體上穩定性更高。從表4中還可看出,除了Griffith模型在驗證期存在稍微低估現象(MBE≤0),其他兩種經驗模型均高估了江西地區的水面蒸發量,即MBE均大于0,但PT模型的高估程度比SS模型低一些。

表4 3種經驗模型預測水面蒸發量的精度指標統計結果(贛縣站)

圖1為3種經驗模型水面蒸發量在贛縣站的預測值與實測值之間的散點分布圖,由圖1可看出,PT模型散點的分布更趨于1∶1的關系,表明其模擬效果更好。

圖1 3種經驗模型預測水面蒸發量在率定期和驗證期預測值與實測值的散點圖(贛縣站)

本文還評估了3種經驗模型在江西地區16個氣象測站水面蒸發量的整體預測表現,結果見表5。由表5可得出,驗證期PT模型的RMSE、MBE和MAE均小于SS模型的值,但R2值較SS 模型的明顯要小,說明該模型預測精度不佳。因此在贛縣站表現較好的PT模型在江西地區的16個測站上體現出不適性,難以推廣至整個江西地區。

表5 3種經驗模型預測水面蒸發量的精度指標統計結果(16個測站的平均值)

3.2 3種機器學習模型預測水面蒸發量的精度評估

為了篩選出最適宜于江西地區的水面蒸發量預測模型,選用3種學習機模型,即GPR、CatBoost和XGBoost。模型預測水面蒸發量的精度很大程度上取決于模型性質和輸入參數。

以贛縣站的氣象資料作為輸入參數,GPR、CatBoost和XGBoost 3種學習機模型預測水面蒸發量的精度指標統計結果見表6。比較表6中3種學習機模型不同輸入組合的各統計指標均值可知,XGBoost模型的R2最大,RMSE、MBE的絕對值和MAE最小,其預測精度優于GPR模型和CatBoost模型。另外,表6中3種學習機模型的MAE均接近于0,說明存在輕微的過擬合或欠擬合。當輸入組合中有4個參數時(Tmax、Tmin、Rs或Ra、Sw或HR),率定期估算精度最高的為XGBoost模型(均值:R2=0.833,RMSE=0.705 mm/d,MBE=0,MAE=0.548 mm/d);而驗證期估算精度最高的為GPR模型(均值:R2=0.715,RMSE=0.938 mm/d,MBE=0.042 mm/d,MAE=0.7 mm/d)。當輸入組合中有3個參數時(Tmax、Tmin、Rs或Ra),率定期和驗證期估算精度最高的均為XGBoost模型(均值:率定期,R2=0.833,RMSE=0.714 mm/d,MBE=0,MAE=0.554 mm/d;驗證期,R2=0.692,RMSE=0.977 mm/d,MBE=0.05 mm/d,MAE=0.731 mm/d)。表明XGBoost模型水面蒸發量估測值的偏離程度均小于其他兩種模型。

表6 10種不同輸入參數組合條件下3種學習機模型預測水面蒸發量的精度指標統計結果(贛縣站)

當氣象數據資料極其缺乏,只有大氣溫度、全球太陽輻射、相對濕度或風速時,以單一氣象因子作為輸入參數,對3種模型預測結果的均值進行對比,從而評價3種模型的精度。結果顯示,XGBoost模型的精度仍然最高(率定期均值:R2=0.529,RMSE=1.158 mm/d,MBE=0,MAE=0.920 mm/d;驗證期均值:R2=0.505,RMSE=1.212 mm/d,MBE=-0.006 mm/d,MAE=0.956 mm/d)。可見XGBoost模型在氣象資料不足時預測水面蒸發量具有明顯的優越性。當氣象資料充分時,CatBoost 10模型最優,其R2、RMSE、MBE、MAE值分別為0.729、0.924 mm/d、0.109 mm/d、0.678 mm/d。

上述3種學習機模型模擬結果均顯示,當輸入參數為完整的氣象數據時,模型的模擬精度最高。如果在Tmax、Tmin、Ra的輸入組合中增加1個參數(Sw或HR),或者在Tmax、Tmin、Rs的輸入組合中增加1個參數(Sw或HR),3種學習機模型的預測精度均會提高。已有研究表明[22],輸入參數增加,則模型的預測精度也隨之提高,本次研究結果也與之相符。當輸入組合中有3個參數時,3種學習機模型的模擬結果均顯示輸入參數為Tmax、Tmin、Rs的模型優于輸入參數為Tmax、Tmin、Ra的模型,說明全球太陽輻射參數對模型預測精度的影響要大于地外太陽輻射參數的影響。此外,輸入組合中只有大氣溫度(Tmax、Tmin)作為參數的模型精度高于只有全球太陽輻射或相對濕度作為參數的模型精度,其中相對濕度作為唯一輸入參數的模型精度最低。因此,10種不同輸入參數組合的學習機模型模擬結果均顯示,影響江西地區水面蒸發量的關鍵氣象因子為Tmax、Tmin、Rs。

圖2為3種學習機模型在贛縣站模擬江西地區水面蒸發量的預測值與實測值之間的散點圖,不同顏色的點表示不同輸入組合的學習機模型。

圖2 10種不同輸入參數組合條件下3種學習機模型在率定期和驗證期的預測值與實測值散點圖(贛縣站)

從圖2中可以明顯看出,無論是率定期還是驗證期,GPR 10、CatBoost 10或XGBoost 10模型的散點圖最接近1∶1的關系,表明其擬合程度最高。

為了驗證上述結果的準確性,對3種學習機模型在江西地區16個氣象站模擬水面蒸發量的統計結果進行分析(見表7),結果與贛縣氣象測站的分析結果大體一致。比較表7中10種不同輸入參數模型的精度統計指標均值可知,XGBoost模型的表現最佳,與GPR和CatBoost模型相比,其R2最大,RMSE、MBE絕對值和MAE最小,因此預測水面蒸發量的精度最高。當氣象資料不充分只有3個參數時(Tmax、Tmin、Rs或Ra),甚至只有大氣溫度、全球太陽輻射、相對濕度或風速單個氣象資料時,結果仍然顯示XGBoost模型在率定期和驗證期均優于其他兩種學習機模型。但是,當輸入組合中有4個參數時,驗證期CatBoost 10模型的模擬效果最優,其R2、RMSE、MBE、MAE值分別為0.744、0.842 mm/d、0.006 mm/d、0.633 mm/d,這表明當氣象資料充分時,CatBoost 10模型為江西地區水面蒸發量的最佳預測模型。

表7 10種不同輸入參數組合條件下3種學習機模型預測水面蒸發量的精度指標統計結果(16個測站的平均值)

3.3 相同輸入參數組合的經驗模型與學習機模型預測精度評估

本文還對相同輸入參數組合的學習機模型和經驗模型預測江西地區水面蒸發量的性能進行了比較。同樣以贛縣站氣象資料為例,結果見表8。由表8可看出,當Tmax、Tmin、Ra、Sw作為輸入參數時,GPR 6、CatBoost 6和XGBoost 6在率定期和驗證期優于Griffith模型,其中XGBoost 6模型的表現最佳;當Tmax、Tmin、Rs作為輸入參數時,GPR 8、CatBoost 8和XGBoost 8模型在率定期和驗證期優于SS和PT模型,同樣以XGBoost 8模型表現最佳。雖然XGBoost模型表現出輕微過擬合(MAE>0),但其R2最大且RMSE、MAE最小,因此,在相同輸入參數的情況下,優先選用學習機模型作為江西地區水面蒸發量的估算方法。

為了驗證學習機模型的穩定性,表9對相同輸入組合的學習機模型與經驗模型預測水面蒸發量的16個氣象站統計結果平均值進行評估,得出的結果與表8的分析結果一致,即在輸入參數為Tmax、Tmin、Ra、Sw或Tmax、Tmin、Rs的條件下,學習機模型優于經驗模型,其中XGBoost模型的預測精度最高,但其MBE>0,表現出過擬合的現象。

表8 相同輸入參數組合的學習機模型和經驗模型的預測精度指標統計結果(贛縣站)

表9 相同輸入參數組合的學習機模型和經驗模型的預測精度指標統計結果(16個測站的平均值)

4 討 論

本文提出的Griffiths、PT和SS 3種經驗模型精度較低,穩定性不佳。在輸入相同參數的條件下,即輸入參數為Tmax、Tmin、Ra、Sw或Tmax、Tmin、Rs,3種經驗模型的性能均低于相應的學習機模型。由于水面蒸發量受到多種氣象條件的影響,而經驗模型只是單純依靠數據的擬合而得到的,缺乏機理性,因此難以反映水面蒸發量的動態變化。

本項研究表明GPR、XGBoost和CatBoost模型在江西地區的適應性各不相同。氣象資料充足時,驗證期CatBoost 10模型在該區域表現最佳;而氣象資料不足時,XGBoost模型通常表現較好。造成這種現象的原因是:CatBoost模型使用了貪婪算法,當輸入數據不足以解釋全部蒸發量變化原因時,模型會有一定程度的過度解釋,即過擬合問題;當氣象因子充足時,XGBoost模型相對CatBoost模型更保守的擬合策略造成了輕微的欠擬合問題,因此其精度不如CatBoost模型。而GPR模型對數據的分布要求更高,當數據分布不符合高斯分布時,模型的精度會受到影響。因此,不推薦GPR模型作為該地區的預測模型。

在實際情況中,應根據所得氣象資料情況來選用適宜的模型預測江西地區水面蒸發量,這對于偏遠山區和蒸發皿觀測數據缺失的地區具有一定的實用意義。本文還分析了10種不同輸入參數組合的學習機模型模擬效果,得出影響江西地區水面蒸發量的關鍵氣象因子為Tmax、Tmin、Rs,即溫度和地表總輻射。比較長江流域其他地區的相關研究可以看出,水面蒸發量的影響因素各有不同,如洞庭湖流域的關鍵氣象因子是溫度和日照時間[23];四川盆地的主要氣象因子依次為日照時數、風速、水汽壓和氣溫[7]。顯然,太陽輻射是地球能量的來源,其直接影響著溫度的變化,間接影響著風速、相對濕度等因子的變化,在江西地區,以太陽輻射的間接作用即改變地表溫度來影響蒸發為主要特征,而其他地區以直接影響為主要特征。

5 結 論

本文研究評價了3種學習機模型(GPR、XGBoost和CatBoost模型)和3種經驗模型(Griffiths、PT和SS模型)對江西地區水面蒸發量的模擬效果,得出結論如下:

(1)氣象資料充分時,驗證期CatBoost 10模型表現最佳,即輸入組合為Tmax、Tmin、Rs、Sw時,該模型的R2、RMSE、MBE、MAE值分別為0.744、0.842 mm/d、0.006 mm/d、0.633 mm/d,為江西地區適宜的水面蒸發量預測模型。

(2)輸入參數同為Tmax、Tmin、Ra、Sw或Tmax、Tmin、Rs時,3種學習機模型均優于相應的經驗模型,其中XGBoost模型的預測精度最高。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 九月婷婷亚洲综合在线| 久久精品这里只有国产中文精品| 亚洲第一在线播放| 亚洲一区精品视频在线| 日韩成人高清无码| 亚洲婷婷在线视频| 国产精品19p| 粗大猛烈进出高潮视频无码| 自拍中文字幕| 中文字幕亚洲另类天堂| 久久精品这里只有精99品| 日韩在线欧美在线| 国产精品美人久久久久久AV| 日本人又色又爽的视频| 77777亚洲午夜久久多人| 小说区 亚洲 自拍 另类| 成人日韩视频| 九九这里只有精品视频| 精品91视频| 精品亚洲国产成人AV| 自偷自拍三级全三级视频 | 91九色视频网| 亚洲人成色在线观看| 亚洲一区二区三区国产精品 | 毛片久久网站小视频| 综合亚洲网| 久久综合色天堂av| 99在线观看精品视频| 久久国产高清视频| 在线无码私拍| 精品国产黑色丝袜高跟鞋| 99久久精彩视频| 国产精品19p| 亚洲日韩日本中文在线| 亚洲av无码片一区二区三区| 国产黄视频网站| 呦系列视频一区二区三区| 久久国产香蕉| 午夜视频在线观看免费网站| A级毛片无码久久精品免费| 国产精品专区第1页| 国产精品美乳| 97se综合| 国产成人精品视频一区二区电影| 日本人又色又爽的视频| 大学生久久香蕉国产线观看| 久久中文电影| 久久黄色免费电影| 日韩av无码DVD| 五月天福利视频| 91精品情国产情侣高潮对白蜜| 久久久久亚洲AV成人网站软件| 亚洲综合国产一区二区三区| 日韩免费毛片视频| 久久国产乱子伦视频无卡顿| 中文字幕无码av专区久久| 国产精品无码制服丝袜| 9966国产精品视频| 国产精品第一区在线观看| 亚洲美女一区| 99视频精品在线观看| 成人亚洲国产| aa级毛片毛片免费观看久| 任我操在线视频| 国产在线无码av完整版在线观看| 国产毛片网站| 国产a v无码专区亚洲av| 久久久久亚洲av成人网人人软件| 免费欧美一级| 亚洲色婷婷一区二区| 九九九久久国产精品| 午夜精品福利影院| 99这里只有精品6| 国产后式a一视频| 国产视频入口| 手机在线看片不卡中文字幕| 极品尤物av美乳在线观看| 人人91人人澡人人妻人人爽| 国产高潮流白浆视频| 亚洲第一页在线观看| 亚洲乱码视频| 试看120秒男女啪啪免费|