李余隆 張蘭 李立



摘 要:流域水質數據存在時間和空間上的雙重依賴性,針對現有水質預測模型大多建立在時間維度上,不能有效利用水質空間相關性問題,提出了基于圖卷積神經網絡GCN 和長短時記憶網絡LSTM 的水質預測模型。首先建立流域監測點間的拓撲結構,并將監測點沿河道的距離作為權重表征監測點間連接的強弱;然后采用圖卷積神經網絡GCN 捕獲每個輸入時刻監測點間的空間關系,再通過LSTM 捕獲其時間上水質變化特征;最后通過多層感知器MLP 得到水質預測結果。將錢塘江南源作為研究對象,對流域內15 個監測點的pH 值、溶解氧DO、高錳酸鹽指數CODMn進行預測,結果表明:相較于LSTM,GCN-LSTM 模型水質預測結果平均百分比誤差MAPE 分別下降15.29%、11.77%、9.8%;監測點間的連接具有差異性,通過距離來表示監測點間連接強弱可以使水質預測結果更為精確。
關鍵詞:水質預測;圖卷積神經網絡;長短時記憶網絡;時空預測模型;錢塘江南源
中圖分類號:P338 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2023.12.015
引用格式:李余隆,張蘭,李立.基于GCN-LSTM 的錢塘江南源水質預測研究[J].人民黃河,2023,45(12):83-87,95.
錢塘江位于浙江省西部,受亞熱帶季風氣候影響,流域內降水豐富、氣象災害種類繁多,加上工廠排污、畜禽養殖場糞便排放等人為因素影響,流域水量年際變化幅度較大,水環境污染嚴重[1] 。水體污染會對當地居民生產生活造成一定影響,甚至制約社會經濟發展。水質評價及預測可以清晰地反映水體污染現狀及水質未來變化趨勢,據此可及時調整水資源保護措施,將水體污染由事后治理轉變為事前預防,降低水污染治理成本[2] 。
常用的水質預測模型分為機理模型和神經網絡模型兩種,其中:機理模型包括SWAT 模型、HSPF 模型等[3-6] ,通常需要大量實測數據支撐,且計算過程復雜、模擬精度較低[7] ;神經網絡模型擁有很強的非線性表達能力,常用的時間序列預測模型包括循環神經網絡RNN[8] 、長短時記憶網絡LSTM[9] 等,這些序列模型能夠提取水體水質時間序列特征并對其進行預測[10-15] 。流域水質預測時,某點的水質變化不僅與其歷史變化規律有關,而且與其上游水質變化有關,而這種空間維度上的傳播影響在單一時間序列模型中無法表現,應合理利用流域各監測點間的空間關系輔助模型進行水質預測。常見的空間信息提取模型有卷積神經網絡CNN,但其只適合在歐氏空間內進行特征提取,對于交通網、水網等復雜的非歐空間,若強行將非歐空間轉化為歐氏空間,則會丟失空間上各監測點間的連接信息,無法反映各監測點間的空間位置關系及連接的強弱。圖卷積神經網絡GCN 是一種可以提取非歐空間特征的網絡結構,通過圖中心節點與其周圍節點之間的拓撲結構,對圖的拓撲結構和節點屬性進行編碼,進而學習得到各節點的空間依賴關系。有關學者[16-18] 將圖卷積神經網絡GCN 應用于交通網路段速度預測等表明,其具有高可靠性。水網相對于交通網更為復雜,監測點之間有明顯的上下游關系,在構建拓撲結構時要考慮監測點間的地理位置信息、流域地理地貌特征等[19-20] 。