基于決策樹模型的黃河水沙變化預測

2024-12-27 00:00:00崔春林李博皮濱濱唐玉銘李華平

中國新技術新產品 2024年18期

摘要：本文基于小浪底水庫下游黃河某水文站2016—2021年的水流量與含沙量的實際監測數據，分別建立隨機森林（Random Forest）、決策樹（Decision Tree）和極端梯度提升（XGBoost）3種機器學習回歸模型預測水流量和含沙量的走勢，并對比3種模型的擬合效果。結果表明，與隨機森林和極端梯度提升算法相比，決策樹算法對水沙變化的預測效果更好，其能夠有效擬合水沙變化的走勢，對未來黃河流域的水沙治理有一定參考價值。

關鍵詞：應用統計數學；小浪底水庫；水沙變化；決策樹模型；機器學習回歸預測

中圖分類號：O 213" " 文獻標志碼：A

黃河是中國最大的泥沙河流，其水沙混懸的特性使其容易形成堆積和淤積，增加洪水暴發的風險[1]，通過研究黃河水沙的季節性和周期性變化規律，預測未來水沙的變化情況，可以幫助優化水資源的分配和利用，從而減少河道的淤積，提高河道的輸水能力，降低洪水災害發生的概率[2]。

隨著水利信息化不斷發展，大數據技術在黃河調水調沙工程中的應用會越來越廣泛，但目前將大數據建模技術應用于黃河的水流量和含沙量預測的研究較少。因此，本文主要基于大數據領域的機器學習模型對2016—2021年的黃河水沙變化的數據進行建模計算，解決水沙變化的長期預測難，預測精度不高的問題。

1 研究區域與方法

1.1 研究區域

黃河小浪底水利樞紐工程是黃河干流上的一項重要綜合性水利工程，位于河南和山西交界處，庫區長度為130km，總面積為278km2。它是黃河中游最后一段峽谷出口，并且是黃河干流三門峽以下唯一具有較大庫容的控制性工程。

1.2 研究方法

1.2.1 三次樣條插值法

三次樣條插值法是一種常用的數值插值技術，它的目標是通過一個分段的三次多項式函數來逼近數據點，以便在每個數據點處都能得到平滑的插值結果。分段就是把區間[a，b]分成n個區間 [（a，x1），（x1，x0），...，（xn-1，b）]共有n+1個點。每個小區間的曲線是一個三次方程Si（x）=ai+bix+cix2+dix3，三次樣條方程滿足以下條件[3]。1）在每個分段小區間[xn-1，xn]上， S（x）=Si（x）" 都是一個三次方程。2）滿足插值條件，即S（xi）=yi，（i=0，1，...，n）。3）曲線光滑，即S（x）、S'（x）、S\"（x）連續。

1.2.2 決策樹算法

決策樹算法是一種有監督的機器學習方法，適用于回歸和分類任務。該算法通過樹狀結構將數據集分成具有相似特征的不同子集。每個內部節點代表一個屬性/特征，每個分支代表該特征的一個可能取值，而每個葉子節點對應一個類別標簽或是用于預測的數值。算法通過數據的屬性特征進行遞歸劃分，直至滿足某個條件停止分裂。這種分裂方法構成了樹狀結構（如圖1所示），使模型易于理解、解釋和可視[4]。

這里僅簡單介紹一下所用到的決策樹模型CART算法。CART（Classification And Regression Tree）算法是一種既可用于分類又可用于回歸的決策樹算法。在分類樹中，決策樹的輸出是樣本的類別；而在回歸樹中，決策樹的輸出是一個實數值。這種靈活性使CART算法可以同時應用于分類和回歸任務。而本文使用的是CART算法的回歸樹部分，其算法流程如圖2所示[5]。

算法流程如下。1）選擇最優切分特征j和切分點s，如公式（1）所示。遍歷所有特征的所有可能取值，找到最優的劃分特征和劃分點。2）用選定的特征j和切分點s對（j，s）劃分區域并決定相應的輸出值，如公式（2）所示。公式（1）按照切分點將數據分成2個節點，公式（2）求每個節點的均方誤差之和。3）繼續對2個子區域調用步驟1、2，直至滿足停止條件。4）將輸入空間劃分為M個區域（R1，R2，...，Rm）特征j和切分點s生成決策樹，如公式（3）所示。分到相同節點的均值作為預測值，后面的指示函數為劃分的區域。

（1）

式中：yi為數據集中第i 個樣本的響應變量；c1 和c2分別為R1（j，s）和R2（j，s）的樣本輸出均值。

（2）

式中：x（j）為在數據集中第j 個特征值；cm為區域Rm中所有樣本的目標變量y的均值；Nm 為區域Rm內的樣本數量；m可以是1或2，對應左右2個子集[6]。

（3）

1.3 隨機森林算法

隨機森林是一種有監督機器學習方法，其以決策樹為基學習器，并通過集成方式構建。它引入了隨機性來提高模型的抗過擬合和抗噪能力。隨機森林從樣本選取和特征選擇2個角度來體現其隨機性[7]。

1.3.1 隨機選取樣本

在隨機森林中，每棵決策樹的訓練樣本集都是通過Bootstrap策略從原始數據集中有放回地抽取和重組形成的，形成了與原始數據集等大的子集合。這意味同一個子集中的樣本可以重復出現，不同子集中的樣本也可以重復出現。

1.3.2 隨機選取特征

與單個決策樹在分割過程中考慮所有特征并選擇最優特征來進行分割不同，隨機森林通過在基學習器中隨機考察一部分特征變量，并在這些特征中選擇最優特征來進行分割。特征變量的隨機性使隨機森林模型的泛化能力和學習能力比單個決策樹高。

1.3.3 隨機森林的算法步驟

步驟1：從原始樣本集中使用Bootstraping方法有放回地抽取n個訓練樣本，進行k輪抽取，得到k個訓練集（k個訓練集之間相互獨立）。

步驟2：針對每一個訓練集，構建一個決策樹模型，共得到k個模型。

步驟3：針對分類問題，將上述k個模型采用投票的方式得到最終的分類結果；針對回歸問題，計算這些模型的均值作為最后的結果。

1.4 極端梯度提升算法

極端梯度提升算法（XGBoost）是一種基于梯度提升樹的機器學習算法，被廣泛應用于分類和回歸問題。它通過迭代訓練多個弱學習器，并將它們組合成一個強大的模型[7]。XGBoost的目標函數如公式（4）所示。

（4）

式中：yi為樣本真實值；為樣本預測值；" l（yi，）為反應yi與兩者的損失函數；n為樣本數；Ω（fj）為正則項，用于控制模型的復雜度，避免過擬合；fj為第 j個數的模型；m為分類回歸的個數。

通過在正則化函數中添加懲罰項來控制模型訓練中的過擬合問題，正則項定義如公式（5）所示。

（5）

式中：T為葉子節點總數；wj為葉子j的權重；γ和λ為模型懲罰系數。

1.5 模型的評價指標

本文根據均方誤差（MSE）、均方根誤差（RMSE）、平均絕對誤差（MAE）、平均絕對百分比誤差（MAPE）以及可決系數R2來綜合評價模型的優良性[8]。

均方誤差（MSE）、均方根誤差（RMESE）、平均絕對誤差（MAE）、平均絕對百分比誤差（MAPE）均是用于評估預測值和真實值的差異程度的一種常見的指標，這些指標值越小，代表模型的預測效果越好?？蓻Q系數是用于度量因變量的變異中可由自變量解釋部分所占的比例，以此來判斷模型的解釋能力，其值越接近1表示模型的擬合效果越好。

2 實證分析

2.1 數據預處理

小浪底水庫某水文站的2016—2021年的分小時的水流量和含沙量數據一共16735條，含沙量的監測主要在每天的8：00進行，針對2016—2021年每天8：00缺失的含沙量監測數據，運用三次樣條插值法進行填充，其擬合圖如圖3所示。

三次樣條插值的擬合圖表明，該插值方法對含沙量的填充效果很好，插補數據分布在原始數據的曲線上。

2.2 機器學習模型擬合水沙走勢

為了擬合該水文站的水沙走勢，本文將歷史數據分成2個部分，80%的數據作為訓練集訓練模型，20%的數據作為驗證集驗證模型的效果，隨后應用模型預測2022—2023年的水流量和含沙量的值。

針對水流量，主要監測時刻在每日的0點、4點、8點、12點、16點、20點，因此選取每日的這6個時刻的水流量數據進行建模和預測。3個機器學習模型在訓練集和驗證集上的評價指標具體見表1。

通過分析上述評價指標表，對比隨機森林模型和XGBoost模型，決策樹模型的擬合效果最好，其對水流量的擬合度在訓練集和驗證集上均達到了99%。繪制2022—2023年的預測值走勢圖，如圖4所示，折線是2016—2021年每日的水流量的真實數據，虛線是決策樹模型計算的2022—2023年的水流量的預測數據?？梢钥吹侥Ｐ湍芎芎玫夭蹲剿髁康闹芷谛宰兓幝?，并對未來長達2a的變化規律有很好的預測效果。

針對含沙量，選取其每天8：00的數據進行建模和預測。3個機器學習模型在訓練集和驗證集上的評價指標具體見表2。

通過分析上述評價指標，對比隨機森林模型和XGBoost模型，決策樹對含沙量的擬合效果最好，其訓練集上的擬合優度R2為88%，驗證集的擬合優度R2達到了80%，雖然XGBoost模型在訓練集上的擬合優度高達100%，但其在測試集上的擬合優度僅為70%，模型的泛化性較差，因此最終選擇決策樹模型來預測未來2a的含沙量走勢。繪制2022—2023年的含沙量的預測值走勢圖，如圖5所示，藍色折線是2016—2021年每日的含沙量數據，虛線是決策樹模型計算的2022—2023年的含沙量的預測數據?？梢钥吹侥Ｐ湍芎芎玫夭蹲降胶沉康闹芷谛宰兓幝?，并對未來長達2a的變化規律有不錯的預測效果。

3 結語

為了更準確地預測未來2a黃河中游水沙通量的變化趨勢，本文首先分析了2016—2021年水沙通量的周期性和季節性變化規律，隨后建立3種經典的機器學習模型進行對比分析，結果表明決策樹模型對水流量的擬合度為99%，對含沙量的擬合度為80%，且該模型能夠有效預測未來2a的水沙變化的趨勢，解決了預測周期長會導致預測精度不高的難題。

參考文獻

[1]胡春宏.黃河水沙變化與治理方略研究[J].水力發電學報，2016，35（10）：1-11.

[2]陳俊卿，范勇勇，吳文娟，等.2016—2017年調水調沙中斷后黃河口演變特征[J].人民黃河，2019，41（8）：6-9，116.

[3]于洋，袁健華，錢江，等.新邊界條件下的三次樣條插值函數[J].軟件，2016，37（2）：25-28.

[4]王明紅.基于對數加法模型看產險公司保費收入的季節性效應及未來保費預測——以2008-2018年時間序列數據為例的實證分析[J].保險職業學院學報，2019，33（4）：61-64.

[5]楊學兵，張俊.決策樹算法及其核心技術[J].計算機技術與發展，2007（1）：43-45.

[6]杜小芳，陳毅紅，王登輝，等.大數據平臺上的并行CART決策樹算法[J].西華師范大學學報（自然科學版），2021，42（2）：196-201.

[7]吳新，鄧曉青.黃河干流缺水決策樹模型研究[J].人民黃河，2007，（6）：25-27，80.

[8]周志華.機器學習：第1版.[M].北京：清華大學出版社，2016.

[9]司守奎，孫璽菁.數學建模算法與應用[M]北京：國防工業出版社，2011.

作者簡介：崔春林（1994—），女，重慶，講師，碩士學位，重慶城市管理職業學院，主要研究方向為應用統計、機器學習。

中國新技術新產品2024年18期

中國新技術新產品的其它文章: ±800kV特高壓輸電線路的防雷研究; 人工智能在新能源燃氣管道泄露檢測中的運用研究; 煙囪定向爆破的動力學分析; 基于多傳感器網絡的煤礦氣體自動檢測研究; AIGC時代下物流客服產業優化與探索; 雙碳背景下東北三省綠色物流績效分析