常新雨,周建中,方 威,王彧蓉,黃靖瑋
(華中科技大學土木與水利工程學院,湖北 武漢 430074)
中長期徑流預報是根據前期水文氣象資料,利用成因分析或數理統計分析等方法,對未來較長時間的水文要素進行科學預測[1],其遇見期一般超過3天或者1年以內。流域中長期徑流預報對水庫群聯合優化調度、水資源優化配置、跨流域調水等方面具有重要的指導性作用[2]。但是,受制于氣候變化、河道演進和人類活動等眾多因素的影響。流域中長期徑流預報面臨著許多挑戰;因此,如何提高預報的精度和穩定性一直是研究的熱點。國內外研究學者對于流域中長期徑流預報做了大量的研究工作,提出了許多徑流預報新的方法和理論,對提高流域預報精度起到了一定的積極作用。目前,中長期徑流預報常用的方法有季節自回歸法、神經網絡算法、支持向量機算法等[3-4]。朱雙等[5]利用了基于灰色關聯分析的模糊支持向量機方法對金沙江上游石鼓站月徑流進行預測,取得了較高的預測精度。王佳等[6]建立了基于經驗模態分解和人工神經網絡預測模型,發現該模型連續滾動預報徑流針對汛期預報的效果較好;而同期預報更有利于枯水期的預報。
預報因子篩選也是影響中長期徑流預報的關鍵因素之一,對于提高預報精度具有十分重要的意義。國內外眾多學者在篩選預報因子時,常將歷史徑流、降雨數據、氣象因子等這些與流域徑流密切相關的因素考慮在內。預報因子的篩選處理方法有互信息、灰色關聯分析、主成分分析等。麥紫君等[7]通過偏互信息方法遴選與逐月徑流具有顯著相關性的氣候因子,并采用多元回歸方法建模進行中長期徑流預報。農振學等[8]通過構建基于相關系數、逐步回歸、主成分分析3種因子篩選方法,將降雨、徑流等常規因子和130項大氣環流指數等相關因子作為預報因子,構建基于BP神經網絡的中長期徑流預報模型。
堵河流域位于鄂西北漢江右岸,地跨陜西、湖北兩省,流域內堵河為漢江第一大支流。堵河干流全長約330 km,流域面積約12 430 km2,平均坡降0.481%,流域平均海拔為467 m。流域全境皆山,西源大巴山逶迤東向,南源神農架聳立插天,普陀、武當環抱東北,地勢高亢。其流域內的黃龍灘水庫控制流域面積為11 140 km2,其正常高水位為247.00 m,庫容為7.99億m3。流域內主要河流及水庫分布見圖1。

圖1 研究區域及站點示意
堵河系山溪性河流,徑流主要來自降雨。據黃龍灘水文站1950年~1973年實測徑流資料統計,多年平均流量191 m3/s,年徑流總量60.2億m3。徑流年內分配不均,每年4月~10月為汛期,年最大洪水在汛期各月均可出現,尤以7月、9月兩月出現機會為最多,汛期徑流量占年徑流量占年徑流總量的83%左右。實測年內最大流量為10 600 m3/s,出現于1937年9月26日。調查最大流量12 300 m3/s,出現于1867年。一次洪水多由一次暴雨所形成,洪水過程多呈單峰,歷時一般為3~5 d,復式洪水歷時達5~7 d。
根據黃龍灘水庫2012年~2018年和潘口水庫2010年~2012年的徑流和降水數據,采用灰色關聯分析法篩選預報因子,建立深度神經網絡(DNN)、Elman神經網絡和支持向量機(SVM)徑流3種預測模型。
灰色關聯分析是對一個系統發展變化態勢的定量描述和比較的方法。其基本思想是通過確定參考數據列和若干個比較數據列間的幾何形狀相似程度來判斷其聯系是否緊密,反映變量間的關聯程度[9]。在進行灰色關聯分析計算時,首先需要確定參考數列X0和比較數列X1,X2,…,Xn。即[10]

(1)
其次計算關聯系數ξ(k),分別計算每個比較序列與參考序列對應元素的關聯系數
k=1,2,…,m
(2)
式中,ρ為分辨系數,通常ρ取0.5。若ρ越小,關聯系數間差異越大,區分能力越強。
最后計算得到關聯度r,以反映參考數列與各比較數列的關聯關系,計算公式為
(3)
深度神經網絡(Deep Neural Networks,DNN)是在經典的三層神經網絡基礎上,通過加深網絡結構,構建具有多隱含層的機器學習模型和海量的訓練數據。相比于其他的神經網絡結構,DNN可以發揮其自身多層隱含層結構的優勢(見圖2),具有優秀的非線性處理能力,在處理數據集合較多,特征較為復雜的數學及物理問題面前具有較好的處理效果[11]。

圖2 DNN神經網絡結構
由圖2可知,深度神經網絡結構可分為3類。即,第一層為輸入層,中間為隱含層,最后一層為輸出層。層與層之間采用全連接,不同神經元之間采用權重進行前向傳播,從輸入層開始,一層層地向后計算,一直運算到輸出層,得到輸出結果。
Elman神經網絡模型的基本思想與BP算法一樣,不同之處是Elman神經網絡結構除了輸入層,隱藏層和輸出層外,還多了一個關聯層[12]。關聯層的每個神經元都與一個隱藏層神經元連接,其主要作用是保留對應的隱藏層神經元前一時刻的信號,并在當前時刻將其傳入隱藏層,完成狀態反饋過程,提高模型的學習效率和模擬準確度。Elman神經網絡的結構如圖3所示。

圖3 Elman神經網絡結構
支持向量機(Support Vector Machine,SVM)是結合統計學的VC維理論和結構風險最小化的機器學習方法(Cortes C & Vapnik 1995),最早用于解決模式識別問題[13]。它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,可以分析數據,識別模式,用于分類和回歸分析。這也使得其在中長期徑流預報中占有重要地位,且發展前景廣闊,其計算公式如下[14]

(4)
最終回歸函數為
(5)

影響模型預報效果的一個重要因素是預報因子,研究工作所選用的三個預報模型均需要提供相應的預報因子作為模型輸入。在對預報因子進行選擇時,首先需要對預報對象的物理成因進行分析,鎖定與之有緊密聯系的對象作為候選因子;其次灰色關聯分析法進行分析,挑選最終的預報因子。
在篩選黃龍灘水庫中長期徑流預報因子時,首先需要將歷史徑流和歷史降雨作為主要的因子來考慮,由于潘口水庫位于黃龍灘水庫上游,其水庫出流對于下游水庫的入流影響較大,因此在進行因子分析時也需將潘口出庫作為篩選因子之一。選取黃龍灘水庫2012年~2019年的12個歷史平均流量(T-1Q~T-12Q)、3個歷史同期流量(YEAR-1Q~YEAR-3Q)、12個歷史面降雨量(T-1Q~T-12Q)、3個歷史同期面降雨量(YEAR-1P~YEAR-3P)、1個潘口水庫同期出庫流量(T-PQ)和3個潘口水庫歷史平均流量(T-1PQ~T-3PQ)作為預報因子,以當前黃龍灘平均流量作為參考序列(T-Q),通過灰色關聯分析法計算其關聯度,得到的旬、月尺度下關聯度較高的7個預報因子(見表1)。
由表1可知,與黃龍灘入庫徑流關聯度最高的預報因子為潘口同時期出庫流量。由此可知,上游水庫出庫流量與下游水庫入庫流量密切相關,將上游水庫出庫流量作為主要的預報因子考慮在內顯得十分重要。

表1 預報因子篩選結果
在進行中長期徑流預報過程時,首先需要率定出預報模型的最優參數,才能為實時預報提供實際參考價值,率定參數時訓練期與檢驗期徑流數據比一般符合3∶1左右的原則,因此本文將2013年~2016年徑流數據作為訓練期,2017年~2018年徑流數據作為檢驗期。
3.2.1 旬流量預測模擬結果對比分析
在進行旬流量預測時,深度神經網絡輸入層節點為7個,隱藏層節點為13個,輸出層節點為1個,截止誤差為0.000 01,訓練次數為10 000。Elman神經網絡網絡輸入層節點為7個,兩層隱藏層節點數均為13個,輸出層節點為1個,截止誤差為0.001,最大學習率為0.3,截止誤差為0.001,訓練次數為10 000。支持向量機截止誤差為0.000 01,訓練次數為10 000。
黃龍灘水庫所屬堵河流域屬于溫帶季風氣候,旬尺度平均流量受到氣候、季風、水庫調蓄等多方面影響,實際進行預測時很難提高預報精度。通過對以上3種模型進行參數率定,得到旬尺度下黃龍灘水庫入庫流量模擬結果。下表給出了旬尺度下深度神經網絡、Elman神經網絡、支持向量機3種預報模型最優參數下的訓練期與檢驗期的確定性系數、洪峰合格率、均方差和平均相對誤差(見表2)。

表2 旬尺度下黃龍灘水庫徑流預報結果
基于率定得到的3種模型最優參數,計算得到訓練期和檢驗期的黃龍灘入庫徑流預測值,圖4~6給出了3種不同模型參數下,黃龍灘水庫入庫2013年~2018年訓練期與檢驗期的實測值與模擬值擬合曲線。
由圖4~6可以看出,3種預測模型模擬效果較好,訓練期與檢驗期實測值與模擬值誤差較小,預報精度較高。但是在檢驗期內,支持向量機相比于深度神經網絡與Elman神經網絡,對洪峰具有較好的擬合效果,其洪峰合格率明顯優于另外2種預測模型。

圖4 旬尺度下深度神經網絡模型預測模擬效果

圖5 旬尺度下Elman神經網絡預測模擬效果

圖6 旬尺度下支持向量機預測模擬效果
3.2.2 月流量預測模擬結果對比分析
在進行月流量預測時,深度神經網絡輸入層節點為7個,隱藏層節點為13個,輸出層節點為1個,截止誤差為0.000 01,訓練次數為10 000。Elman神經網絡網絡輸入層節點為7個,兩層隱藏層節點數均為13個,輸出層節點為1個,截止誤差為0.001,最大學習率為0.2,截止誤差為0.001,訓練次數為10 000。支持向量機截止誤差為0.000 01,訓練次數為10 000。
由于黃龍灘水庫歷史入流數據序列較短,直接導致月平均流量數據序列較少,因此流量的預測效果并不理想。表3給出了月尺度下黃龍灘水庫DNN深度神經網絡、Elman神經網絡、SVM支持向量機3種預報模型最優參數下的訓練期與檢驗期的確定性系數、洪峰合格率、均方差和平均相對誤差。

表3 月尺度下黃龍灘水庫徑流預報結果
基于率定得到的3種模型最優參數,計算得到訓練期和檢驗期的黃龍灘入庫徑流預測值,圖7~9給出了3種不同模型參數下,黃龍灘水庫入庫2013年~2018年訓練期與檢驗期的實測值與模擬值擬合曲線。

圖7 月尺度下深度神經網絡預測模擬效果

圖8 月尺度下Elman神經網絡預測模擬效果

圖9 月尺度下SVM支持向量機預測模擬效果
由圖7~9可以看出,月尺度下3種預測模型模擬效果均較好,實測值與模擬值誤差較小,預報精度較高。檢驗期內支持向量機在洪峰擬合程度上要優于深度神經網絡與Elman神經網絡,且具有更高的預測精度。
在對黃龍灘水庫進行旬、月尺度徑流預測時,本文采用灰色關聯分析法篩選預報因子,最終篩選出7個與徑流關聯度較高的因子作為最終的預報因子;建立了基于數據驅動的深度神經網絡、Elman神經網絡以及支持向量機3種徑流預報模型,分別基于旬、月尺度下水庫歷史徑流數據進行預測,得到了其不同預報模型下的確定性系數、洪峰合格率、均方差和平均相對誤差參數。現對以上3種模型進行對比分析得到:
(1)預報因子的篩選對于中長期徑流預報精度具有較大的影響,由于梯級水庫上游調蓄直接影響下游水庫入庫徑流,因此本文在采用灰色關聯分析法篩選預報因子時,將潘口水庫出庫流量考慮在內,最終得到了與黃龍灘水庫入庫徑流關聯度較高的七個預報因子。
(2)本文建立的3種中長期徑流預測模型均能較好地預測旬月尺度下黃龍灘水庫的入庫徑流,訓練期和檢驗期內預測值與實測值之間的誤差較小,各個模型的確定性系數均達到了0.9以上,洪峰合格率在0.8左右,具有較好的預測效果。
(3)對比3種中長期徑流預測模型,無論是旬尺度下還是月尺度下各個模型的擬合效果均較好。其中,深度神經網絡與Elman神經網絡在洪峰預測上誤差較大,支持向量機實測值與模擬值誤差較小,且具有較高的模擬精度。