朱躍龍,趙 群,余宇峰,萬定生
(河海大學計算機與信息學院,江蘇 南京 211100)
近年來,全球氣候變暖,極端降水事件頻發導致了各種洪澇災害,給人類帶來巨大的經濟社會損失。僅2020年全國共出現45次強降水過程,面降水量622 mm,較常年同期偏多13%,引發珠江、長江、黑龍江3個流域極端嚴重的流域性洪澇災害[1]。為了減輕洪水災害帶來的不利影響,及時準確的水文預報顯得尤為重要。水文預報是根據前期的水文氣象資料,對未來一定時期的水文資料進行預報,對防洪救災的決策、水資源的合理利用等具有重要意義[2]。
隨著大數據時代的到來,基于數據驅動的水文預報模型在水文事件預報中越來越受到重視[3-4]。數據驅動的水文預報模型從歷史水文資料出發,挖掘規律進行預測,為相關水利人員提供了一個新的預測方案。但現有基于數據驅動的水文模型大多側重于從歷史數據中學習時間特征,很少兼顧到數據的空間特征[5]。水文數據往往包含豐富的時空特征信息,而該特征信息可以為水文時空序列相似性,水文時空數據建模分析等作出貢獻[6],本文提出一種基于時空特征挖掘的流量過程智能模擬方法GS-Hydro,構建水文結構關系圖,利用圖卷積網絡挖掘空間特征的同時利用門控循環單元捕捉時間特征,以此提高預測精度。
數據驅動模型是從數據著手,通過對時間序列數據的分析,從大量的數據中發現和揭示數據的發展變化規律,以此估測和控制未來可能出現的狀況。基于數據驅動的洪水預報模型從歷史水文資料出發,挖掘規律進行預測,相較于其他水文模型具有普適性。
Hwang等[7]提出一種基于最小二乘支持向量機(LS-SVM)的非線性水文時間序列預測方法,具有較好的預測精度和預測性能。Xing等[8]提出一種新的啟發式優化算法BA算法,用于優化SVM參數和預測2015年月平均流量,其預測精度比交叉驗證的支持向量機更高。Atiquzzaman等[9-10]針對傳統基于梯度的慢學習算法在訓練和迭代確定網絡參數時的不確定性問題,提出一種基于極限學習機(ELM)的水文時間序列快速預測方法。根據洪水形成的基本原理,Chen等[11]提出一種基于數據驅動和機器學習的卷積回歸水文預報模型,該模型能夠反映小時降雨量對未來流量變化的影響,并通過疊加這些影響預測流量變化。
除了時序特征,自然界大部分的數據還具有空間結構聯系。相比于單一的時序預測,基于時空特征結合的預測考慮了數據之間的空間特性,能夠挖掘出更多的信息規律,提高預測精度,而空間特征與時間特征的結合預報也被廣泛地運用到了各大領域[12-13]。
Ding等[14]利用長短期記憶模型,提出洪水預報模型(STA-LSTM模型),動態提取關鍵特征向量,實現中小河流洪水預報。除此之外,空間特征也可用于水文學的許多方面,如水文相似性分析[15]、流域場景模式庫構建[16]、用水效率分析[17]等。
目前基于數據驅動的水文預報模型大多考慮時序特征,很少考慮河流之間的地理聯系和空間特征。單一測站的水文數據具有時間連續性、周期性,而將多測站的水文數據放在一起,不難看出它們之間的空間聯系。本文提出一種基于地理關系的時空智能流量過程模擬模型,通過地理關系建立測站之間的結構聯系,輔助預測目標測站的流量值。
現實世界中存在大量的圖結構或網絡結構數據,傳統的卷積神經網絡(convolutional neural networks,CNN)難以處理。為了解決這一問題,一種處理圖結構網絡的半監督分類方法——圖卷積神經網絡(graph convolutional networks,GCN)[18]被提出,并被廣泛應用于社會網絡、信息網絡等領域的特征學習。與CNN不同,GCN對圖像進行像素卷積,并可以挖掘網絡結構。目前,GCN主要對社會網絡、信息網絡等非結構化數據提取特征進行學習,然而很少有人在水文時間序列數據中使用。
本文構造了一種新的水文站點地理位置關系圖,利用GCN挖掘空間特征,再利用門控循環單元(GRU)[19]挖掘時間特征,進一步進行水文預報,方法結構如圖1所示,圖中Xt為t時刻的輸入樣本,Ht為模型輸出。

圖1 GS-Hydro模型結構Fig.1 Structure of GS-Hydro model
輸入層,以河流流量信息和當前時段面平均雨量信息為自變量,實現數據規范化、訓練集劃分、驗證集劃分、測試集劃分等。隱藏層,在空間方面利用圖卷積神經網絡捕捉河流復雜的網絡特征;在時間方面利用門控循環單元將前一時刻的信息傳遞到下一時刻,其中的更新門和復位門可以更好、更快地確定信息,為模型留下更多有價值的信息。輸出層,對數據進行反規范化處理,并對輸出結果進行預測。
2.1.1 水文測站關系結構圖的建立
結構圖的生成是訓練圖卷積網絡模型的第一步,也是重要的一步。如果結構圖不能很好地反映節點之間的關系,模型可能無法有效地挖掘信息。定義水文測站關系結構圖如下:
G=(V,E)
(1)
式中:G——水文測站地理位置關系圖;V——節點,指各個水文測站;E——連接點邊的集合,指各個水文測站間的地理關系。

河道距離是目標流域到它的上游流域之間的河流長度,根據DEM估算。當每個網格中的水以最陡的坡度流向其相鄰網格時,可以找到水從任何點到海洋或者從研究區域流出的流動路徑。如果上游的水流經過下游的水流,則河道距離是它們之間的流路長度。如果它們沒有河道聯系,則河道距離為零。
鄰接矩陣是存放節點間關系(邊或弧)數據的數組,定義如下:
(2)
式中:ai,j——鄰接矩陣中第i行、第j列的元素;α、β、δ——矩陣中元素的系數。
對模型進行訓練擬合出適合的α、β和δ,然后求出水文測站地理位置關系圖的邊,以此構造水文測站地理位置關系結構圖。值得注意的是,當地理距離較大且沒有河道距離時,2個水文測站的流量變化幾乎沒有關聯,本文對水平距離100 km以內的站點計算節點間的關系。
2.1.2 圖卷積操作
本文使用圖卷積網絡對各測站進行空間特征挖掘,如圖2所示。

圖2 空間特征提取Fig.2 Spatial feature extraction
圖卷積網絡定義如下:
X(l+1)=f(X(l),A)
(3)
式中:l——層數;X(l)——l層節點的特征;A——鄰接矩陣。
首先輸入特征矩陣和鄰接矩陣,然后對節點進行特征變換,用度矩陣對鄰接矩陣進行歸一化。加入自循環后,考慮每個節點與相鄰節點之間的關系,具體模型如下:
(4)

進行空間特征提取后可以對時間特征進行處理,本文使用門控循環單元(GRU)進行時間特征的提取。GRU可以改進長短時記憶網絡[21](LSTM)的門設計,克服梯度消失問題。同時,它具有更快的收斂速度,改善了LSTM訓練耗時的問題。
設定模型損失函數為均方誤差函數e,計算公式如下。
(5)
式中:yt——t時刻的預測值;Yt——t時刻的真實值;n——模型輸入的樣本數目。
模型具體計算過程如下。
a.空間特征提取(以兩層卷積為例):
(6)
b.更新門構建:zt=σz(Wz[ht-1,f(Xt,A)])
(7)
c.重置門構建:rt=σr(Wr[ht-1,f(Xt,A)])
(8)

(9)

(10)

通過全連接層得到最終輸出:yt=O(Wcht+b),其中O(·)為線性函數;Wc為權重;b為偏置。
試驗選取江西省鄱陽湖流域外洲站作為模型流量過程測試站點,如圖3所示。試驗選取外洲站1998—2010年夏季小時時段洪水流量21 060條數據以及降雨資料作為數據,對區域內雨量站的降雨量進行算術平均從而獲得面降雨量,選取前6 h內的小時時段降雨作為降雨信息對流量預測提供輔助,區域內選取的雨量站如圖4所示。由于部分降雨不完全,采用水文中常用的線性插值方法對缺失的雨量進行補充。試驗以各個水文站為節點,站點之間的地理關系為鄰接矩陣,各站點的歷史小時流量數據和小時降雨數據為特征矩陣。試驗使用60%的數據集作為訓練數據集,20%作為驗證數據集,20%作為測試數據集。

圖3 江西省試驗模擬測試站點Fig.3 Experimental simulation test stations in Jiangxi Province

圖4 外洲站周圍雨量站示意圖Fig.4 Schematic diagram of rainfall stations around Waizhou Station
評價指標采用均方根誤差和確定性系數。采用支持向量機模型(SVM)[22]、長短時記憶網絡(LSTM)、門控循環單元(GRU)和提出的GS-Hydro模型進行訓練。訓練參數根據試驗調試,最優超參配置如下:SVM的懲罰系數為0.3,核函數為徑向基核函數,區間為0.05。LSTM的隱節點數為100,學習因子的區間為0.005,批處理大小為128,迭代次數為40。GUR中隱藏節點數為50,學習速率為0.005,批處理大小為32,迭代次數為50。GS-Hydro模型中的隱藏節點數為32,學習速率為0.005,批處理大小為64,迭代次數為100。
外洲站SVM、LSTM、GRU和GS-Hydro的模型流量3 h預見期預測模擬計算結果如圖5所示,不同模型在模擬預測中的評價指標見表1。

圖5 江西省外洲站3 h預見期下各模型流量預測結果Fig.5 Runoff prediction results of Waizhou Station in 3-hour forecast period with different models

表1 各模型預測結果評價指標對比Table 1 Comparison of prediction results of different models
從圖5中可以看出,SVM的預測結果比較抖動,得到的預測曲線不如LSTM、GRU和GS-Hydro穩定。LSTM和GRU的預測結果相似,GS-Hydro比GRU好,比LSTM更穩定。
從表1可以看出,1h流量預測相對最準確,預見期越長,精度越低。GS-Hydro是所有不同預測期的最佳模型,LSTM和GRU的性能略好于GRU,支持向量機表現最差。GS-Hydro的確定性系數最高,LSTM與GRU的差異不顯著,SVM稍差。因此,GS-Hydro模型在整體預測結果中是最好的,是因為GCN捕捉了流量的空間特征,在預測過程中加入了空間內多個相關站的雨量,避免了梯度消失和均值漂移的問題。
本文提出了一種新的流量過程智能模擬方法GS-Hydro,該方法將圖卷積網絡(GCN)與門控循環單元(GRU)相結合,先建立基于河道關系的水文站點地理位置關系圖用以進行特征挖掘,再將GCN用于獲取樣本的空間特征,GRU用于捕捉樣本的時間特征。試驗表明GS-Hydro模型的性能優于其他神經網絡模型。