宋尚波
(淄博市水文中心,山東 淄博 255000)
徑流量是水文學和水資源管理中的一個關鍵指標,準確預測徑流量對防洪、供水和水電等具有重要意義[1-3]。徑流過程是一個復雜的水文過程,受多種因素的影響產生高度非線性和非穩定性,這使得徑流量預測成為一個富有挑戰性的任務。近年來,各種人工智能算法應用于水文學領域,取得較好的成果。作為一種預測技術的隨機森林回歸(RFR)由于在處理圖像、語音和文本數據方面表現出色的預測能力而引起了研究者的廣泛關注。本文基于RFR提出了一種改進的徑流量預測模型[4-5]。該模型首先使用變方差最小分解(Variational Mode Decomposition,VMD)對輸入的歷史徑流序列進行分解,以獲得更清晰和穩定的信號模態。然后,這些分解后得到的模態再輸入到RFR算法進行學習和訓練,以建立各模態之間的關系[6-7]。最后,利用RFR網絡預測未來的徑流量并將各模態的預測值進行合成。VMD的特點之一是高度自適應性。可適應不同類型的信號及其時頻特性,無論是非平穩信號、非線性信號還是多組分信號,VMD都能準確地將其分解成若干個自然模態,提取出各個模態的特征信息。此外,VMD還具有很強的魯棒性和穩定性,對于噪聲和冗余信息有很好的抑制效果,能夠更準確地還原信號的本質。當前,VMD被廣泛應用于音頻信號分解、圖像壓縮、語音識別等任務中,能夠準確地提取出信號中的關鍵信息。其次,在天文學、地震學和生物醫學等領域,VMD也發揮著重要作用,可以從復雜的觀測數據中提取出特定的模態,幫助更好地理解序列數據背后的物理機制[7-9]。此外,VMD還在通信系統中有著廣泛應用,如通信信號的解調和干擾抑制等方面。在徑流量時間序列預測中的應用潛力尚未得到探究。
淄博地處魯中山地向黃泛平原過渡區,總面積5965km2,土地利用率達89.96%。屬齊河-廣饒斷裂帶,地勢自南部魯西臺背斜隆起區向北部濟陽坳陷區傾斜,高程介于0~1108m之間,形成山地、丘陵、平原分異地貌,分別占區域總面積的42.0%、29.9%、28.1%。受海陸位置與西北太平洋季風影響,形成半濕潤半干旱的大溫帶季風氣候,多年年平均氣溫12.5~14.2℃,降水量640.5mm,日照時數2209.3~2523.0h,無霜期190~210d。市內均為雨源型河流,主要河流為沂河、汶河、小清河等,平均河流密度達0.295km/km2,另有湖區面積13926.8hm2。淄博市多年地表水資源補給總量為14.11億m3,人均水資源占有量稀缺。
本研究中徑流量數據來自新疆昌吉水文水資源勘測局,其涵蓋了區域3個水文站1987—2020年逐月徑流量資料,共408個月序列。
VMD(Variational Mode Decomposition)是一種基于變分原理的時頻域信號分解算法,能夠將非平穩信號分解為一系列模態函數(intrinsic mode portion,IMF)和殘差余項,從而揭示不同頻率的信號成分。區別于EMD方法,其利用迭代搜索確定分量中心頻率和帶寬進而將每一IMF調解為平滑基帶,即使對噪聲序列也具有較好魯棒性,對非正態分布序列不敏感。VMD算法的目標是尋找一組滿足變分原理的模態函數,使得每個模態函數在頻率和幅值上都具有較好的局部調整能力。在這個過程中,VMD將信號分解為多個窄帶調制分量,這些分量是由頻率和幅值不斷調整而成的。
其數學原理過程如下:
(1)首先,將待分解徑流序列信號表示為時間域的函數形式,記uk(t),該信號具有有限的帶寬,其中心頻率e-jωkt對模態函數變換為:
(1)
(2)定義一組輔助目標函數,使得每個目標函數對應一個帶通濾波器,用于從信號中提取特定頻率范圍內的成分。

(2)
(3)構建一個約束優化問題,其中目標函數的集合表示滿足約束的模態函數集合,約束條件是每個模態函數的頻率和帶寬應盡可能調整得最合理,此外應用變分原理,對約束優化問題進行數學推導和求解。通過求解歐拉-拉格朗日方程,找到最優解,即最佳的模態函數集合。

(3)
(4)設置最大的迭代次數N,且存在正數n滿足n≤N、ε>0,迭代過程滿足下式:

(4)
據此可將將原徑流量信u(t)分解成若干個IMP,且每一IMP對應一個頻率范圍的成分[4-5]。
隨機森林回歸算法(Random Forest Regression,RFR)是一種從決策樹演化而來的集成學習算法,廣泛應用于數據分析、預測和模式識別等領域,能夠解決回歸問題并有效地處理高維數據。RFR由多個決策樹組成,每一決策樹均基于不同數據子集構建;在訓練過程通過抽樣方法選擇部分樣本再隨機選擇部分特征,生成多個決策樹。RFR的輸出結果為每個決策樹的預測結果會被集成平均值[6-7]。
使用決定系數(R2)、均方根誤差(RMSE)、平均絕對誤差(MAE)評估VMD-RFR模型在徑流預測中的應用性。具體定義如下:
(5)
(6)

淄博市1987—2020年逐月徑流量時間序列波動如圖1所示。線性擬合表明,其總體變化特征曲線為:

圖1 淄博市月徑流量序列變化特征
y=0.0013x+3.381
R2=0.0017
(7)
但并未通過0.05水平檢驗假設,因此其線性特征不顯著,可能存在非穩態非線性復雜特征。最大值出現在第164月,達20.24億m3,最小值為第142月的0.24億m3,不同月份之間徑流量變異性較大。另外可直觀看出不同月份之間徑流量豐枯交替變化,豐水月多為5—9月,其他為枯水月,這與區域年內降水量分布特征極為一致。
使用VMD算法在搜尋最優分解IMP數量后和適宜帶寬約束后,得到淄博市近34年來逐月徑流量序列IMP結果,如圖2所示。可知,VMD將長度為408個徑流序列分解得到了11個IMP和1個殘差余項,各IMP信號呈現一定起伏變化,隨著IMP數量增多其時變性增強、承載的信量增加。將上述全部IMP經過周期圖法得到其方差貢獻值。計算結果顯示,①模態1解釋了32.52%的徑流變化信息;②模態2解釋了23.34%的徑流變異性;③其他IMP3~11承載的信息量依次為15.48%、11.98%、7.34%、3.13%、2.93%、1.73%、0.86%、0.51%、0.11%。需指出的是,模態IMP1~4承載了徑流序列波動頻率、振幅的83.33%的信息量,對捕捉徑流變化最為重要。該模態分解結果能夠提取出徑流變化更多的內在規律。

圖2 淄博市月徑流序列VMD分解結果
將VMD分解后得到的1987—2010年(共24年,即第1—288月)的徑流序列的模態分量數據為自變量,相應時期的徑流量為因變量,構建RFR模型,預測2010—2020年(共10年,即289—408月)的逐月徑流量序列。RFR模型是典型非參數回歸模型,為確保模型性能,實驗grid搜索法對超參數尋優,最終配置結果見表1。

表1 RFR模型中超參數配置
經上述模型配置后,對預見期(即289—408月)的逐月徑流序列進行回歸預測,輸出結果如圖3所示。可見,徑流量預測值與實際值之間具有良好吻合度(圖3a),并顯示出豐枯相位交替變化,二者之間相對誤差介于0.06%~40.51%之間,統計得到決定系數R2=0.87,MAE和RMSE依次為0.17、0.22億m3。表明RFR算法基于VMD分解特征,較好逼近實際徑流量變化序列,具有一定溯源性。

圖3 徑流量預測結果
本文以淄博地區月徑流量為研究對象,通過對歷史數據的分解,采用VMD-RFR模型進行預測,驗證VMD-RFR模型的有效性和準確性。結果表明,采用VMD-RFR模型的月徑流量預測值與實際值之間具有良好吻合度,可準確模擬非線性非穩態月徑流量變化。VMD方法更好地捕捉到徑流量的變化趨勢,增加模型物理解釋機制;RFR作為VMD的擬合器提供了精確的預測結果。在同類問題的研究中,VMD-RFR模型也是一種有效的預測模型,可應用于其他地區月徑流量預測。由于預測驗證時段較短,變量數量較少,應結合其他輸入變量進一步探索VMD-RFR模型的適用性,不同時間尺度(如日、年)的徑流數據用于模型驗證,進一步提高模型的實用性與可依賴性。