







關鍵詞:洪水預測;LightGBM 模型;CEEMDAN 算法;CEEMDAN-LightGBM 模型;LSTM 模型;利津水文站;花園口水文站
中圖分類號:P333;TP183;TV882.1 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.09.014
引用格式:王軍,張宇航,崔云燁,等.基于CEEMDAN-LightGBM 模型的洪水預測研究[J].人民黃河,2024,46(9):99-105.
0引言
洪水是一種自然災害,會造成嚴重的經濟損失和人員傷亡[1] 。洪水風險管理是預防洪水和減小洪水不利影響的一項關鍵任務,其措施包括結構性和非結構性兩種。開發洪水早期預警系統[2] 和實時預測河流水位是主要的非結構性措施,可以在應對洪水發生時輔助實施有效的應急策略。現有的水文預測模型可分為概念模型、物理模型和“黑箱”模型。概念模型和物理模型可通過一維或二維偏微分方程來描述水文現象,采用這2 種模型預測降水過程、徑流過程、河流演變時,需要大量的地形、土地利用等信息,而收集這類信息需要大量的人力和物力,資源消耗過大,同時物理模型因其計算時間較長而難以被廣泛使用。“黑箱”
模型又被稱為“數據驅動”模型[3] 或機器學習(ML)模型,其訓練速度快,預測結果較為準確,因此在水文領域越來越受歡迎。
在河流洪水預測中,模型輸入通常包括給定站點的降水量、溫度、風速、水位等[4-5] ,模型輸出通常是水位或流量[6-8] ,以上變量中水位實際上更容易獲取,更適合于洪水預警[9] 。傳統的ML 模型訓練數據通常呈現表格形式,當數據量太過龐大時,會出現計算資源消耗過大、數據清洗和標注困難以及數據集不平衡等問題,從而影響模型訓練效果。為了解決這一問題,本文以黃河利津水文站2022 年3 月19 日至2023 年3 月8日的水文數據為模型輸入, 將CEEMDAN 算法與LightGBM(Light Gradient Boosting Machine) 模型相結合,對洪水數據進行多尺度分解和特征提取,構建CEEMDAN-LightGBM 模型,并將其與LSTM、LightGBM模型進行對比,以驗證該模型的預測效果。此外,采用CEEMDAN-LightGBM 模型預測利津、花園口這2 個氣候環境不同的水文站的水位和流量,比較預測結果,驗證該模型的適應性和穩定性,以期為洪水預測提供新的理論依據和實踐指導。
1模型構建
為了清晰展示CEEMDAN-LightGBM 模型的優勢,將其與LightGBM 模型和具有代表性的LSTM 模型進行對比,以下是各模型的簡要介紹。
1.4 CEEMDAN-LightGBM 模型
CEEMDAN 算法在時間序列分解方面具有優勢,而LightGBM 模型在回歸分析中表現出色,將這2 種方法結合起來,得到一種新模型CEEMDAN-LightGBM。該模型運行包括3 個階段:分解、個體預測和集成。在第1 階段,采用CEEMDAN 模型將水文站的水位觀測數據分解為k 個組件,也就是k 個IMF,這些組件分別顯示出原始序列的高頻特性或者低頻特性。在第2 階段,對于每個組件,使用LightGBM 分別構建1 個預測模型,并對每個組件進行預測,得到單獨的預測結果。在第3 階段,將所有組件的預測結果集成為最終結果。在眾多組件預測結果集成方法中,選用加法進行集成。CEEMDAN-LightGBM 模型的預測流程見圖2。
從圖2 中可以看出,基于“分解與集成” 框架的CEEMDAN-LightGBM 模型建模策略為典型的“分而治之”策略。該模型具有以下3 個優點:1)將基于原始序列預測水位的任務分為幾個子任務,從更簡單的組件進行預測。2)原始序列是非線性和非平穩的,而CEEMDAN-LightGBM 模型對每個分解組件都有相對簡單的預測形式。3)使用簡單的加法將子任務的結果集成為最終結果。
2數據來源及預處理
2.1數據來源
黃河水情呈現明顯的季節性變化,極易受氣候影響,流量波動大。為了保證實驗的真實性與可靠性,選取黃河利津水文站2022 年3 月18 日至2023 年3 月8日每日12 時的水文觀測數據作為原始數據。為了保證所用數據的真實性、可訪問性和透明性,主要使用公開數據源[17] ,其中水位和流量數據源自全國水雨情信息網站,溫度、濕度、風力和降水量源自中國氣象局網站。
2.2數據預處理
1)歸一化處理。歸一化常被稱為標準化,為消除各變量之間量綱不同的影響,同時加快模型訓練速度,往往需要對數據進行標準化處理[18] 。根據本文數據特征,采用最大最小標準化進行處理,使模型的輸入數據為[0,1],公式為
2)樣本劃分。為了評估模型性能并驗證其預測效果,選取樣本數據中75%數據作為訓練集用于模型訓練,其余25%為預測集用于驗證模型的預測效果。
3模型訓練與預測結果分析
3.1LSTM 模型
LSTM 模型包含1 個LSTM 層和1 個全連接層(Dense),LSTM 層有50 個單元,使用adam 優化器訓練模型,學習率為0.001,迭代次數為100。完成上述訓練后,輸入數據得出LSTM 模型的水位預測結果,見圖3。
3.2LightGBM 模型
LightGBM 模型通過迭代訓練多棵決策樹來提高預測準確性。模型學習率為0.01,葉節點數(num_leaves)為31,特征抽樣率為0.9,每次迭代時用的數據比例(bagging_fraction)為0.8,迭代次數為5后停止訓練,如果在連續5 次迭代過程中驗證集的均方根誤差沒有減小,則停止訓練,避免過擬合。LightGBM 模型的水位預測結果見圖4。
3.3CEEMDAN-LightGBM 模型
CEEMDAN- LightGBM 結合CEEMDAN 算法和LightGBM 模型預測水位。CEEMDAN 算法的主要參數如下:max_imf(最大本征模態函數數量)為2,控制白噪聲強度為0.2,使用SIFT(單步插值優化的快速正則化)次數為10。LightGBM 主要參數如下:提升類型(boosting_type)為gbdt,使用梯度提升決策樹;目標函數為regression,表示執行回歸任務;每棵樹貢獻的學習率為0.01;每棵決策樹的葉節點數為31;每次迭代過程中隨機選擇的特征比例(feature_fraction)為0.9;每次迭代過程中隨機選擇的數據比例為0.8;每5 次迭代進行一次bagging。
通過預測水位和流量變化趨勢,能夠及時預警和應對潛在的洪水事件,最大限度地減少損失,因此采用CEEMDAN-LightGBM 模型分別預測水文站的水位和流量。此外,為評估CEEMDAN-LightGBM 模型預測不同氣候環境水文站水位和流量的適應性與穩定性,選取花園口水文站水文數據,比較模型的預測結果,見圖5~圖8。
4結論
本文提出了一種CEEMDAN-LightGBM 模型,預測給定水文站水位。將2022 年3 月19 日至2023 年3月8 日利津水文站的水文數據作為模型輸入,以LSTM、LightGBM 為對照模型,與CEEMDAN-LightGBM模型的預測水位進行對比。另基于與利津水文站氣候差別較大的花園口水文站水文數據,研究CEEMDANLightGBM模型的適用性。研究結果顯示, 相比于LSTM、LightGBM 模型,CEEMDAN-LightGBM 模型在洪水預測方面表現得更加優秀,其預測值更接近觀測值,預測精度更高。這表明在時間序列預測中,CEEM?DAN-LightGBM 模型的兼容性更強,能加快數據處理速度、提高精確度,從而提升洪水預報的效率。
黃河水情極為復雜,尤其在極端氣候事件頻發的情況下,水文數據常常出現突變。黃河及其支流水位呈非線性變化,這些變化往往受到多種氣象因素(如強降水、強風等)的影響。現有的預測模型在捕捉水文數據突變及其后續影響上存在挑戰,尤其是在極端氣候事件頻發時。當前采用的CEEMDAN-LightGBM模型面對突變數據的預測能力存在一定不足,需要進一步改進和優化。未來的改進方向包括但不限于增強模型對突變數據的適應能力,可能需要引入更靈活的模型結構或者加強數據預處理能力,以進一步提高模型的穩健性和準確性。此外,對于極端氣候事件的響應機制也需要加強,以更有效地預測和應對黃河水情的突發變化。