史劍偉 江時俊 劉啟興
(1.安慶市重點水利工程建設管理處 安慶 246000 2.黃河水利科學研究院 鄭州 450000)
由于黃河特殊的自然、氣象等條件使得黃河的河性變得十分復雜,黃河也變得難以治理。黃河流域的降雨、徑流變化等過程是一個十分復雜的動力學系統,難以用定量的方法來清晰地描繪出來。一般所用到的大氣運動方程、水土流失方程、河流動力學方程和泥沙輸移運動方程等一系列方程用在黃河上都存在很多的問題。同時,黃河也比較缺乏完整的氣象、地形、水沙等實測資料,因此,利用目前已經擁有的比較少的實測資料來解決黃河復雜的問題,是迫切且關鍵的。
基于人工智能和大數據驅動的新一代水文模型已經成功運用到許多地區的洪水分析中,并都取得了較好的計算結果。針對降雨徑流過程的高隨機性和非靜態特性,人們開發了大量的模型來研究這一復雜的現象。近年來,人工神經網絡(ANN)等機器學習技術已被水文工作者廣泛應用于降雨徑流模擬和其他水文領域。然而,像LSTM網絡這樣的深度學習方法在水文序列、時間序列預測方面的研究還很少。胡彩虹等通過對汾河(黃河的第二大支流)流域的14個降雨監測水文站和1個流域水文站點監測的1971—2013年發生的洪水事件進行分析,采用ANN和LSTM網絡模型,對其降雨徑流過程進行了模擬。模型的數據來自同一時期的98個降雨徑流事件,以86個降雨徑流事件為訓練集,其余的12個降雨徑流事件為測試集。結果表明,采用的兩個網絡模型都適用于模擬降雨徑流過程,且都優于基于概念和物理的模型。
本次研究以黃河流域的伊洛河流域為研究區域,進行基于XGBoost算法設計和構建的智能預測模型的研究分析,以流域2003年的洪水過程作為驗證數據,并且與傳統的水文模型HBV 進行效果比較分析。
伊洛河流域位于黃河流域的中部。伊洛河由伊河、洛河兩條河流構成,兩條河流流向近乎平行。其中伊河發源于河南省奕川縣,洛河發源于陜西省洛南縣,二者在堰師市棗莊交匯。
沁河是黃河三花間的第二大支流,它發源于山西省長治市沁源縣太岳山南麓的二郎神溝,流經山西、河南兩省的16個縣市,最后在武陟縣南賈村匯入到黃河之中。
目前,集成學習是機器學習中最熱門的研究領域之一,它的基本思路是結合很多個弱學習器,從而構成一個強大的能夠準確預測的模型。集成學習并不僅僅是簡單的多個分類器的疊加,而是通過訓練這個聚合的模型,實現弱學習器的最優組合,它比使用單個模型預測出來的結果要精確的多。
極端梯度提升樹(XGBoost)是一個集成學習算法,它是大規模并行集成決策樹的工具,是目前最快最好的集成決策樹算法,它是由多個相關聯的決策樹聯合決策,即下一棵決策樹輸入樣本會與前面決策樹的訓練和預測結果相關。模型訓練開始時決策樹個數是0,隨著訓練迭代加入決策樹,即加入決策函數。作為集成學習方法的一種,XGBoost預測模型可以表示為:

目標函數可以表示為:

為了客觀地反映徑流預測智能模型在黃河流域徑流過程預測中的準確度,通過水文模型中常用的納什效率系數(Nash-Sutcliffe efficiency coefficient,簡稱NSE)以及水量誤差(Relative Error,簡稱RE)來評判算法性能的優劣。

式中:Qobs是指觀測值;Qsim是指模擬值;i表示第t時刻的某個值;表示觀測值的總平均值。
NSE 取值范圍為負無窮至1。NSE越接近1,表示模型擬合結果越好,模型的可信度越高;NSE越接近0,表示模擬得出的結果越接近觀測值的平均值,即總體結果比較可信,但是模擬過程出現的誤差比較大;NSE 遠遠小于0,則模型是完全不可信的。RE表示誤差與觀測值的相對大小。
選取徑流過程較豐富的2003年的伊洛河、沁河洪水過程作為測試集,其余的數據作為訓練集。
XGBoost模型在第52次訓練迭代后趨于穩定,損失函數值在0.09~0.10之間。將訓練得到的模型應用到測試集,在2003年,伊洛河黑石關站最大流量發生在9月3日,流量為2030m3/s。8~11月期間,流量還出現多次超過1000m3/s的情況,包括10月5日和9月2日,流量分別為1330m3/s和1730 m3/s,峰值預測對比結果見表1。
XGBoost模型訓練結果在第43次訓練迭代后趨于穩定,損失函數值在0.95~0.96之間。將訓練得到的模型應用到測試集,在2003年,沁河武陟站的最大流量出現在10月12日,為839m3/s。除此之外,8—11月還出現多次較大的洪峰流量,包括8月28日出現的504 m3/s和10月15日出現的451m3/s。峰值預測結果見表2。

表2 沁河武陟站峰值模擬結果對比表
從伊洛河和沁河2003年洪水過程模擬結果可以看出,在非汛期時,基于集成學習的極端梯度提升樹(XGBoost)模型和傳統水文模型HBV模型都可以比較好地模擬徑流,特別是基流過程。兩個流域徑流預報結果基本反映洪水漲落過程,洪水的場次以及峰形符合較好,但傳統的水文模型HBV模型對兩個流域“尖瘦型”洪水的預報能力明顯不足。從NSE值、RE值及峰值相對誤差等結果綜合比較可以看出,基于XGBoost 建立的智能模型相比于傳統的水文模型HBV模型,可以更穩定、更準確地模擬洪水過程。
本文對黃河徑流智能預測模型的原理、使用方法進行了詳細闡明。其中基于集成學習的極端梯度提升樹(XGBoost)智能模型十分適合預測黃河徑流的變化,將基于XGBoost模型設計和構建的智能預測模型應用于黃河伊洛河、沁河流域進行預報,并對預報結果進行了分析研究。
兩個流域徑流預測結果都基本反映了洪水漲落過程,洪水時間及峰形符合較好,但沁河流域徑流預測結果稍優于面積較大的伊洛河流域。基于XGBoost模型的智能預測模型對兩個流域洪水過程模擬相比傳統水文模型HBV模型更加穩定和準確。
黃河徑流智能預測的內容十分復雜,如何利用具有捕捉要素時序特征的長短時記憶網絡(LSTM)算法開展黃河徑流預測有待進一步的深入研究。
洪水預報需要大量要素數據支撐,主要包括:水文數據、氣象數據、衛星遙感數據、社會經濟數據以及水利模型模擬演算數據等。數據具有多模態、多要素耦合、非線性、多時空尺度、高度復雜的特點,目前基于人工智能算法黃河徑流預測模型的輸入仍以氣象強制條件為主,結合地形、土地利用等多類型多模態數據的人工智能算法的改進是未來研究方向之一■