999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類梯度提升算法(CatBoost)與蝙蝠算法(Bat)耦合建模預(yù)測(cè)中國(guó)西北部地區(qū)水面蒸發(fā)量

2021-02-25 08:36:28董力銘曾文治雷國(guó)慶
節(jié)水灌溉 2021年2期
關(guān)鍵詞:能力模型

董力銘,曾文治,雷國(guó)慶

(武漢大學(xué)水資源與水電工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢430072)

0 引 言

蒸發(fā)是氣象科學(xué)、水資源評(píng)價(jià)和水循環(huán)的重要內(nèi)容[1,2]。精準(zhǔn)的預(yù)測(cè)水面蒸發(fā)對(duì)于干旱、半干旱地區(qū)的水資源合理規(guī)劃、農(nóng)業(yè)節(jié)水灌溉及水資源評(píng)價(jià)具有重要意義和價(jià)值[3,4]。預(yù)測(cè)水面蒸發(fā)量的方法大致分為2 類:實(shí)地測(cè)量法及模型估計(jì)法。其中,實(shí)地測(cè)量法如蒸發(fā)皿測(cè)量法,雖然可以得到較為精確的結(jié)果,但十分容易受到田間狀況、人工成本、極端天氣情況等因素的限制,制約了其應(yīng)用的范圍[5,6]。同時(shí),由于蒸發(fā)過(guò)程具有高度非線性、復(fù)雜性和不穩(wěn)定性等特點(diǎn),較難建立包含所有相關(guān)因素的,具有較強(qiáng)普適性的經(jīng)驗(yàn)數(shù)學(xué)模型[7?9]。

近年來(lái),隨著機(jī)器學(xué)習(xí)及啟發(fā)式搜索算法的快速發(fā)展及其在解決非線性復(fù)雜問(wèn)題上的巨大優(yōu)勢(shì),已有許多學(xué)者將機(jī)器學(xué)習(xí)如人工神經(jīng)網(wǎng)絡(luò)(ANN)[10,11]、多元自適應(yīng)回歸曲線(MARS)[6,12]、 隨 機(jī) 森 林(RF)[13]、 分 類 梯 度 提 升(CatBoost)[14]等算法應(yīng)用于蒸散發(fā)、水面蒸發(fā)等方面的模擬并得到較為準(zhǔn)確的水面蒸發(fā)預(yù)測(cè)精度。其中,CatBoost模型以其強(qiáng)大的特征分類能力及高準(zhǔn)確度,受到學(xué)者們的廣泛關(guān)注。Huang[14]將CatBoost模型與SVM模型和RF模型在估算中國(guó)濕潤(rùn)地區(qū)ET0時(shí)進(jìn)行了對(duì)比,發(fā)現(xiàn)CatBoost模型不僅在精度和穩(wěn)定性方面具有顯著優(yōu)勢(shì),在計(jì)算時(shí)間和內(nèi)存使用方面也同樣更為優(yōu)越。然而CatBoost模型需要設(shè)置的參數(shù)較多,增加了陷入局部最優(yōu)解的可能性。為此,利用具有強(qiáng)大搜索功能的蝙蝠算法進(jìn)行耦合,提升CatBoost模型處理參數(shù)的能力,進(jìn)而增強(qiáng)模型預(yù)測(cè)準(zhǔn)確度及魯棒性是一種可行且有效的辦法[15]。

本文針對(duì)我國(guó)西北部干旱地區(qū)的水面蒸發(fā)量預(yù)測(cè),建立耦合蝙蝠算法的改進(jìn)CatBoost模型(Bat?CB),測(cè)試其預(yù)測(cè)能力,并與原CatBoost模型及較為常用的隨機(jī)森林模型(RF)進(jìn)行對(duì)比,進(jìn)而提出適用于干旱、半干旱地區(qū)的水面蒸發(fā)模型。

1 材料與方法

1.1 隨機(jī)森林法(RF)

隨機(jī)森林法是基于分類和回歸樹(shù),利用自動(dòng)聚集(bootstrapping)及“bagging”方法等集成策略來(lái)處理高維回歸問(wèn)題的算法[16]。隨機(jī)森林通過(guò)bootstrap 重抽樣方法從原始數(shù)據(jù)集中隨機(jī)抽取子訓(xùn)練集,并在采集后將其放回,直到達(dá)到指定的節(jié)點(diǎn)數(shù)。沒(méi)有被采集的數(shù)據(jù)稱為“箱外數(shù)據(jù)”,用來(lái)計(jì)算泛化無(wú)偏誤差并提高精度。最后,通過(guò)對(duì)決策樹(shù)投票或取平均值的方式做綜合評(píng)價(jià),生成最終結(jié)果[17]。目前,隨機(jī)森林算法已廣泛應(yīng)用于模型預(yù)測(cè)的領(lǐng)域,本文也因此選擇隨機(jī)森林作為對(duì)比的對(duì)象,探究水面蒸發(fā)模型的預(yù)測(cè)能力。

1.2 分類梯度提升算法(CatBoost)

CatBoost 是一種基于梯度增強(qiáng)決策樹(shù)(gradient boosting decision tree,GBDT)算法的新型機(jī)器學(xué)習(xí)算法。相對(duì)于其他的早期GBDT 算法如XGBoost 和LightGBM,CatBoost 在很多方面都有較大提升,特別是在處理大量數(shù)據(jù)和特征的時(shí)候。CatBoost 功能的增強(qiáng)主要體現(xiàn)在3個(gè)方面。首先,CatBoost 采用“有序原則”的方式避免了GBDT算法的迭代過(guò)程中固有存在的條件位移問(wèn)題,并使其可以利用整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和學(xué)習(xí)。其次,CatBoost 將傳統(tǒng)的梯度增強(qiáng)算法轉(zhuǎn)化為有序增強(qiáng)(Ordered Boosting)算法,解決了迭代過(guò)程中梯度偏移這一不可避免的問(wèn)題,提高了泛化能力,降低了模型過(guò)擬合的可能,增強(qiáng)了模型的魯棒性[18]。最后,CatBoost 通過(guò)貪婪策略(Greedy Strategy)構(gòu)造分類特征的組合,并將這些組合作為附加特征,這有助于模型更容易地捕獲高階依賴關(guān)系,進(jìn)一步提高預(yù)測(cè)精度。此外,CatBoost 選擇健忘決策樹(shù)(Oblivious Decision Trees)作為基礎(chǔ)預(yù)測(cè)期,降低了過(guò)擬合的可能并加快了模型的執(zhí)行速度。

1.3 耦合蝙蝠算法的CatBoost模型(Bat-CB)

蝙蝠算法是由Yang[19]提出,仿生蝙蝠覓食行為,利用每只微型蝙蝠發(fā)出高頻脈沖來(lái)搜索目標(biāo),并分析其獨(dú)特的回聲信息特征來(lái)定位目標(biāo)的元啟發(fā)式算法。在數(shù)學(xué)上,它的實(shí)現(xiàn)方法如下面步驟所示。

第1步:創(chuàng)建蝙蝠數(shù)量,賦予每只蝙蝠初始速度vi、頻率fi和位置xi。

第2步:在每一次迭代過(guò)程中,在t時(shí)刻將3個(gè)特征按下面公式更新:

式中:β∈(0,1)為正態(tài)分布的一個(gè)隨機(jī)向量;和為蝙蝠在時(shí)刻t更新的位置和速度;x*是當(dāng)前最佳位置(解決方案)。

第3步:生成一個(gè)隨機(jī)數(shù)rand用以判斷當(dāng)前位置是否需要改進(jìn),若rand>At,則蝙蝠通過(guò)rand步長(zhǎng)來(lái)更新自己的最佳位置:

式中:rand∈[?1,1];At為t時(shí)刻所有蝙蝠的平均響度。

第4步:生成另一個(gè)隨機(jī)數(shù),如果rand

式中:α和c均為常量,0<α<1且c>0。

第2步至第4步的迭代過(guò)程將一直持續(xù)到達(dá)到最大迭代次數(shù)或要求的精度為止。最后,對(duì)所有蝙蝠的適應(yīng)度進(jìn)行排序,得到最佳位置(最優(yōu)解)

在本文中,使用蝙蝠算法優(yōu)化了CatBoost模型的3個(gè)最為關(guān)鍵的參數(shù),分別為決策樹(shù)的數(shù)量(nrounds)、學(xué)習(xí)速率(eta)和樹(shù)的最大深度(depth)。理論上可以強(qiáng)化梯度增強(qiáng)功能,顯著提高預(yù)測(cè)能力。

1.3 試驗(yàn)區(qū)概況

試驗(yàn)區(qū)為中國(guó)的西北部干旱及半干旱地區(qū)的45個(gè)氣象站所形成的區(qū)域,約占中國(guó)總面積的1/6(見(jiàn)圖1)。該地區(qū)屬于典型的溫帶大陸性氣候,酷熱、干燥、日照充足、降水稀少,并且蒸發(fā)量隨季節(jié)變化較大,夏季的蒸發(fā)量是春季和冬季的10~30倍。水面蒸發(fā)實(shí)測(cè)值作為校核模型預(yù)測(cè)能力的基準(zhǔn),由西北45個(gè)氣象站以蒸發(fā)皿測(cè)量得到。而數(shù)據(jù)集則由西北45個(gè)氣象站2006?2017年間包括最低氣溫、最高氣溫、相對(duì)濕度、風(fēng)速及太陽(yáng)輻射5個(gè)因素的逐日長(zhǎng)系列數(shù)據(jù)構(gòu)成。另外,由于研究區(qū)內(nèi)可直接測(cè)量輻射參數(shù)的氣象站有限,太陽(yáng)輻射的數(shù)據(jù)不足,因此,根據(jù)Fan[20]采用經(jīng)驗(yàn)Angstrom?Prescott模型(A?P模型),利用日照天數(shù)(R0)和日照時(shí)間(N,h)來(lái)計(jì)算全球太陽(yáng)輻射這一參數(shù)。此外,數(shù)據(jù)分為2 組,一組(2006?2013)用于開(kāi)發(fā)和訓(xùn)練3個(gè)模型,另一組(2014?2017)用于模型測(cè)試。氣象數(shù)據(jù)見(jiàn)表1。

圖1 45個(gè)研究站點(diǎn)分布圖

1.4 統(tǒng)計(jì)指標(biāo)

本文采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、納什系數(shù)(NSE)和平均絕對(duì)誤差百分比(MAPE)評(píng)價(jià)模型的訓(xùn)練與測(cè)試精度。4種統(tǒng)計(jì)學(xué)評(píng)價(jià)指標(biāo)的具體計(jì)算方法如下:

式中:YEST,i和YOBS,i分別表示水面蒸發(fā)的預(yù)測(cè)值和觀測(cè)值;YOBS,i,MEAN表示水面蒸發(fā)觀測(cè)值的平均值。

2 結(jié)果與分析

為檢驗(yàn)上述3種模型對(duì)于試驗(yàn)區(qū)域水面蒸發(fā)的預(yù)測(cè)能力,本文采用4個(gè)常用的統(tǒng)計(jì)指標(biāo),分別為均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、納什系數(shù)(NSE)及平均絕對(duì)百分比誤差(MAPE)。模型在訓(xùn)練階段及測(cè)試階段的統(tǒng)計(jì)指標(biāo)見(jiàn)表2。

在模型的訓(xùn)練階段,3種模型在不同的各項(xiàng)統(tǒng)計(jì)指標(biāo)中表現(xiàn)出結(jié)果的高度一致性。RF模型(RMSE: 0.127~0.528 mm/d;MAE: 0.077~0.353 mm/d;NSE: 0.981~0.995;MAPE:0.042~0.081)的各項(xiàng)指標(biāo)均優(yōu)于CB模型及Bat?CB模型。而B(niǎo)at?CB(RMSE:0.288~1.125 mm/d;MAE:0.166~0.846 mm/d;NSE: 0.908~0.952;MAPE: 0.115~0.167)模型略優(yōu)于CB 模 型(RMSE: 0.300~1.322 mm/d;MAE: 0.180~0.851 mm/d;NSE: 0.894?0.950;MAPE: 0.131~0.181)。但在模型的測(cè)試階段,RF模型的預(yù)測(cè)能力顯著弱于Bat?CB模型及CB模型,這說(shuō)明RF模型在3個(gè)模型中存在著最嚴(yán)重的過(guò)擬合問(wèn)題,這與Zhang[21]在探究CatBoost、RF 和GRNN 3種模型在ET0預(yù)測(cè)上的研究結(jié)果一致。而B(niǎo)at?CB模型在測(cè)試階段依舊強(qiáng)于CB模型,并且在最大值(Max)及標(biāo)準(zhǔn)差(SD)這2個(gè)指標(biāo)上提升最為明顯。這說(shuō)明改進(jìn)的Bat?CB模型在總體上降低了CB模型存在的過(guò)擬合問(wèn)題的影響,并提升了模型的整體性能和預(yù)測(cè)能力。胡夢(mèng)月等[22]利用改進(jìn)的蝙蝠算法優(yōu)化KELM模型的2個(gè)參數(shù),證明了利用蝙蝠算法的搜索功能可有效提升KELM模型預(yù)測(cè)能力。綜上所述,改進(jìn)的Bat?CB模型的預(yù)測(cè)能力優(yōu)于CB模型及RF模型。

此外,由于難以將45個(gè)站點(diǎn)中每一個(gè)站點(diǎn)的模擬情況全部展示出來(lái),故本文隨機(jī)從45個(gè)站點(diǎn)中隨機(jī)選取6個(gè)分散的站點(diǎn)進(jìn)行散點(diǎn)圖的繪制,進(jìn)一步檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力,結(jié)果見(jiàn)圖2。

圖2表明,當(dāng)蒸發(fā)量較小時(shí)3個(gè)模型均有較好的預(yù)測(cè)結(jié)果。但當(dāng)蒸發(fā)量大于4 mm/d時(shí),RF模型的預(yù)測(cè)值與實(shí)測(cè)值的偏離明顯變大,逐漸偏離1∶1 線。考慮到試驗(yàn)區(qū)域每年大部分時(shí)間蒸發(fā)量較大,RF模型在干旱、半干旱地區(qū)的實(shí)用性和準(zhǔn)確度總體上明顯弱于Bat?CB模型及CB模型。而相對(duì)于CB模型,改進(jìn)的Bat?CB模型在全部6個(gè)點(diǎn)的精度更高,尤其是在51567 站點(diǎn)及51704 站點(diǎn)上。因此,在蒸發(fā)量較大的情況下,Bat?CB模型相對(duì)于RF模型和CB模型具有更高的準(zhǔn)確度和穩(wěn)定性。

在評(píng)估模型整體預(yù)測(cè)能力時(shí),使用預(yù)測(cè)值與實(shí)測(cè)值之間絕對(duì)誤差的頻率分布圖是一種常用且有說(shuō)服力的方法之一。本文繪制了以上6個(gè)站點(diǎn)的絕對(duì)誤差分布直方圖,見(jiàn)圖3。

在以上6個(gè)站點(diǎn)中,3種不同的模型在預(yù)測(cè)水面蒸發(fā)量時(shí),都有大約50%的站點(diǎn)的絕對(duì)誤差低于0.4 mm/d,并且絕對(duì)誤差從0 到2 mm/d 增加過(guò)程中對(duì)應(yīng)站點(diǎn)的所占比例逐漸降低。在3個(gè)模型中,Bat?CB模型在全部站點(diǎn)的絕對(duì)誤差值中,都有著最高比例小于0.4 mm/d 的分布及最低比例大于2 mm/d的分布。但RF模型在大多數(shù)站點(diǎn)中的表現(xiàn)劣于Bat?CB模型及CB模型。同時(shí),從總體上看,改進(jìn)的Bat?CB模型相對(duì)于CB模型,各個(gè)站點(diǎn)的預(yù)測(cè)能力均有所提升,在蒸發(fā)量較大的情況下,提升更為明顯。因此,Bat?CB模型的整體性能和預(yù)測(cè)能力強(qiáng)于CB模型和RF模型。

最后,針對(duì)我國(guó)西北部干旱、半干旱地區(qū)較大蒸發(fā)量的氣候狀況,本文分析了水面蒸發(fā)的季節(jié)性變化對(duì)于模型預(yù)測(cè)能力及穩(wěn)定性的影響。3種模型預(yù)測(cè)指標(biāo)的月平均值見(jiàn)表3。

目前,大多數(shù)機(jī)器學(xué)習(xí)模型在預(yù)測(cè)非平衡或有極大數(shù)值的數(shù)據(jù)集時(shí)經(jīng)常表現(xiàn)出脆弱性和不穩(wěn)定性[23]。由表3可知,在11月至3月,試驗(yàn)區(qū)域的蒸發(fā)量較小,3種模型的性能相差不大,但在每年的4月至10月,Bat?CB模型相對(duì)于CB模型及RF模型的優(yōu)勢(shì)逐漸顯露出來(lái)。RF模型在處理不平衡數(shù)據(jù)集時(shí)適應(yīng)性較差的特點(diǎn),在蒸發(fā)量季節(jié)性變化的預(yù)測(cè)之中體現(xiàn)得較為明顯。而從平均絕對(duì)百分比誤差(MAPE)指標(biāo)上來(lái)看,Bat?CB模型在不同月份間沒(méi)有明顯差異,體現(xiàn)出較強(qiáng)的均衡性及穩(wěn)定性。

表1 本文所選45個(gè)氣象站點(diǎn)的地理及氣象信息Tab.1 Geographical and meteorological information of the 45 stations selected for this study

表2 3種模型在中國(guó)西北部水面蒸發(fā)預(yù)測(cè)中的統(tǒng)計(jì)指標(biāo)表現(xiàn)Tab.2 Statistical indicators of three machine learning models for predicting the pan evaporation in northwest China

圖2 隨機(jī)6個(gè)站點(diǎn)中水面蒸發(fā)量的實(shí)測(cè)值(OBS)及3個(gè)模型的預(yù)測(cè)值(FOR)繪制的散點(diǎn)圖

因此,綜合上述全部方面,Bat?CB模型整體上表現(xiàn)顯著優(yōu)于CB模型及RF模型,并且在有較大變化的數(shù)據(jù)集中學(xué)習(xí)和訓(xùn)練的過(guò)程中更為精確和穩(wěn)定,適用于類似于干旱、半干旱地區(qū)水面蒸發(fā)量等有較大變化或季節(jié)性改變的預(yù)測(cè)領(lǐng)域。

3 結(jié) 論

本研究建立了一種新型的耦合了蝙蝠算法的CatBoost機(jī)器學(xué)習(xí)模型(Bat?CB),并評(píng)價(jià)了該模型在西北干旱、半干旱地區(qū)水面蒸發(fā)量預(yù)測(cè)中的應(yīng)用。結(jié)果表明,Bat?CB模型在干旱和半干旱地區(qū)具有較好的準(zhǔn)確性和穩(wěn)定性,總體上明顯優(yōu)于CatBoost模型和RF模型。CatBoost模型與RF模型相比具有非常小的優(yōu)勢(shì),并且RF模型對(duì)干旱地區(qū)的水面蒸發(fā)等不穩(wěn)定變化的數(shù)據(jù)集的處理能力較差。與原CatBoost模型相比,耦合蝙蝠算法顯著提升了模擬精度。在季節(jié)性分析中,Bat?CB模型在不同月份中具有較好的均衡性,在4月至10月期間較RF模型和CatBoost模型表現(xiàn)出更強(qiáng)的準(zhǔn)確度和穩(wěn)定性。然而,本研究沒(méi)有考慮氣象輸入和更多氣候類型的參數(shù)組合,此外在極端氣候條件以及氣象資料缺失條件下的模型應(yīng)用扔有待于進(jìn)一步研究。

圖3 3種模型絕對(duì)誤差頻率分布直方圖

表3 測(cè)試階段3個(gè)模型統(tǒng)計(jì)指標(biāo)的月平均值匯總Tab.3 Monthly average values of statistical indicators generated from the three machine learning models during the testing period

猜你喜歡
能力模型
一半模型
消防安全四個(gè)能力
幽默是一種能力
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
大興學(xué)習(xí)之風(fēng) 提升履職能力
你的換位思考能力如何
努力拓展無(wú)人機(jī)飛行能力
3D打印中的模型分割與打包
抄能力
主站蜘蛛池模板: 国产女人在线观看| 92午夜福利影院一区二区三区| 精品三级在线| 亚洲欧美日韩综合二区三区| 老色鬼久久亚洲AV综合| 国产真实乱子伦视频播放| AV不卡在线永久免费观看| 国产精品对白刺激| 亚洲精品动漫| 亚洲人成人无码www| 在线视频精品一区| jizz国产视频| 亚洲欧美精品日韩欧美| 永久免费精品视频| 亚洲一级毛片| 国产爽歪歪免费视频在线观看| 77777亚洲午夜久久多人| 国产一区二区三区免费观看| 色婷婷在线影院| 色国产视频| 丰满人妻中出白浆| 国产精品白浆在线播放| 国产91线观看| 最新日本中文字幕| 久久不卡国产精品无码| 亚洲一区二区黄色| 国产黑丝一区| 伊人久久大香线蕉综合影视| 亚州AV秘 一区二区三区| 91福利国产成人精品导航| 国产网站免费观看| 亚洲国产精品久久久久秋霞影院 | 精品国产福利在线| 日韩天堂在线观看| 熟女成人国产精品视频| 欧美日韩在线国产| 国产九九精品视频| 欧洲成人免费视频| 九色最新网址| 亚洲丝袜中文字幕| 欧美激情综合| 热久久这里是精品6免费观看| 国产色婷婷视频在线观看| 五月婷婷中文字幕| 在线毛片免费| 国产精品视频第一专区| 成人精品在线观看| AV无码无在线观看免费| 精品欧美视频| 99尹人香蕉国产免费天天拍| 久久96热在精品国产高清| 国产91视频免费观看| 日韩第九页| 久操线在视频在线观看| aa级毛片毛片免费观看久| 91青青草视频在线观看的| 999福利激情视频| 国产精品漂亮美女在线观看| 成人另类稀缺在线观看| 亚洲精品午夜无码电影网| 久久国产成人精品国产成人亚洲| 国产在线拍偷自揄拍精品 | h视频在线播放| 波多野结衣久久高清免费| 久久精品91麻豆| 99久视频| 欧美在线中文字幕| 午夜毛片免费观看视频 | 亚洲三级网站| 午夜成人在线视频| 97超碰精品成人国产| 日本道综合一本久久久88| 成人av专区精品无码国产| 67194在线午夜亚洲| 国产在线高清一级毛片| 欧美精品成人一区二区在线观看| 综合五月天网| 青青久视频| 香蕉视频在线观看www| 亚洲国产成人超福利久久精品| a级毛片毛片免费观看久潮| 国产精品无码翘臀在线看纯欲|