張 沖,王千鳳,齊新虎,王思宇,陳 末
(1.黑龍江大學水利電力學院,黑龍江哈爾濱150080;2.黑龍江大學寒區地下水研究所,黑龍江哈爾濱150080)
準確的徑流預測對合理利用水資源、提升防洪減災能力以及充分發揮水利工程的綜合效益具有重要意義[1]。受全球氣候變暖的影響,極端降水導致的洪水和干旱等自然災害頻發[2],嚴重威脅著農業生產、人民生命和財產安全。因此,精準刻畫徑流過程和預測未來徑流變化對防災抗災具有重大的現實意義。然而,徑流的形成受到降雨、蒸發、氣溫等因素影響,各因素之間呈現極復雜的非線性關系,且在時空間分布上也具有一定的不規律性,造成了徑流預測的不確定性和不穩定性。
目前,徑流預測方法主要為基于物理機制的預測模型和基于統計關系的預測模型[3]。基于物理機制的預測模型需要分析徑流的成因,而且模型的結構較為復雜、需要輸入大量的水文實測數據、并且模型中參數率定難度較大,預測結果也會隨著參數而異,不確定性極高。在實際的水文過程中,有些地方的實測資料由于自然條件惡劣而無法獲取,數據量稀少等原因也極大地限制了物理預測模型的使用和預測。基于統計關系的預測模型可以利用各個水文氣象要素之間的統計關系,輸入歷史的水文氣象數據就可以對未來的氣象要素進行預測,且輸入的要素比物理水文模型少得多[4]。目前應用較多的統計預測模型主要有機器學習、時間序列和多元線性回歸模型等。機器學習模型例如隨機森林[5](RF)、支持向量機[6](SVM)等,一般為黑箱或灰箱模型,過擬合現象嚴重,而且無法給出明確的解析表達式;時間序列統計模型例如自回歸滑動平均模型[7](ARMA)只能反映變量間的線性關系,但不能準確地反映變量間的非線性關系,預測結果在非線性方面精度不高;多元線性回歸模型基于預測相關變量和預測變量之間的線性關系來構建模型,對變量間的復雜非線性關系分析不準確。綜上所述,目前的模型雖然能做一些相關預測,但都存在一定的缺陷,不能滿足徑流預報的精度和要求。
因此,相比之下機器學習更具優勢,只要加以適當的優化處理就可以達到較好的預測效果。LSTM神經網絡屬于機器學習的一種,在預測方面得到了廣泛應用[8],目前絕大多數應用LSTM神經網絡預測的方式是采用一些數據分解方法對訓練數據進行預處理或者采用優化算法對LSTM中的參數進行優化,從而完成較高精度預測。例如宋煒垚[9]使用EEMD方法將徑流數據分解為幾個相對獨立的固有模態函數(IMF)子序列,并對每個子序列分別進行建模,再將得到的子序列輸入LSTM神經網絡完成了對渭河干流的預測。王立輝等[10]基于灰狼優化算法構建不同的預測模型,較好地完成了丹江口水庫月入庫徑流的預測,納什系數達到了0.969。劉偉琪等[11]提出了一種由北方蒼鷹算法優化的高斯過程回歸(GPR)模型,以此模型完成了對大壩變形的預測并與多種算法預測結果比較,其中NGO算法的優化效果最佳。Dehghani等[12]提出了NGO算法,并與PSO、GA、GSA、TLBO、GWO、WOA、MPA、TSA等8種算法進行優化性能比較,NGO算法相較于8種競爭算法具有明顯的優越性。
鑒于NGO算法強大的優化能力,本文構建了EEMD-NGO-LSTM神經網絡耦合模型,通過模仿北方蒼鷹的捕獵行為,在搜索空間中尋找LSTM神經網絡的最優參數,再對集成經驗模態分解后的各個固態模函數進行訓練,提高算法全局最優解的搜索能力,進一步提高了徑流預測的精度,并用此模型對未來氣候變化情景下2030年的年徑流進行了預測。
東遼河流域位于東經123°39′~125°32′、北緯42°37′~44°09′之間,流域氣候主要為半濕潤中溫帶大陸性季風氣候,多年平均氣溫為5.2 ℃。區域降雨年內分配極不均勻,東部多于西部,多年平均降雨量為661.6 mm。蒸發量為1 020 mm,大體上下游蒸發多于上游。東遼河是遼河東側的一大支流,發源于東遼縣小蔥頂子山,流經雙遼、遼源、梨樹、公主嶺等地,境內河長280 km,總河長為448 km,集水面積為9 884 km2。東遼河上游方向有一座大型水庫二龍山水庫,于1943年建立,總庫容為17.6億m3。在東遼河下游設有王奔水文站,位于東經123°43′北緯43°25′,是東遼河中下游總控制站,集水面積10 418 km2,其中二龍山水庫至王奔水文站區間面積為6 489 km2。上游189 km由二龍山水庫控制,庫區洪水主要由下游降水組成,漲落緩慢,流量較大時水位流量關系呈繩套曲線,含沙量較大,洪峰沙峰相應。王奔水文站的位置見圖1。

圖1 研究區概況
本文所使用的數據來自國家氣象科學數據中心(東遼氣象局)和王奔水文站,如表1所示。數據主要包括月尺度的徑流、降水、蒸發水文氣象資料,選取了2012年~2021年共10 a的數據。在數據收集期間研究區域未曾興建過大型水利工程,下墊面保存較好,流域內的產匯流過程受人類活動影響較小,資料較為可靠,可以真實的反映自然狀態下王奔水文站控制流域的徑流特征。

表1 2012年~2021年氣象和水文數據獲取
經驗模態分解(EMD)的原理是將輸入原始信號進行重復篩選、分解,形成一定時間尺度下的IMF分量,再通過 Hilbert變換,將IMF分量的瞬時頻率轉化為具有物理意義的分量,最終得到非線性、非穩定的原始信號的局部時頻特征分布信息[13]。但分解得到的IMF序列可能會出現模態混疊現象,所以在EMD方法的基礎上,采用EEMD方法將符合正態分布的白噪聲逐步加到原始信號的分析中[14],利用白噪聲改變噪聲頻率,經過平均計算后,噪聲就會相互抵消得到集成平均結果。隨著集成平均數的增加,集成平均數和原始信號之間的差異也會減少,得到的結果就越好,在一定程度上克服了IMF序列的模態混疊現象。
該方法實現的具體過程如下:
(1)在原始信號x(t)中添加白噪聲w(t),把添加的白噪聲次數記為N次。
xi(t)=x(t)+wi(t),i=1,2,…,N
(1)
(2)將處理后的原始信號采用EMD方法分解得到m個IMF分量和一個趨勢項ri(t)。
(2)
(3)重復添加白噪聲,將每次得到的IMF分量進行集成平均處理,作為最終的分解結果。
(3)
式中,xi(t)為處理第i次的原始信號,wi(t)為符合高斯正態分布的白噪聲信號,N為添加的白噪聲個數,Cij(t)為添加的第j個白噪聲后的第i個IMF分量。
北方蒼鷹屬于中大型猛禽,眼神犀利,速度極快往往使獵物猝不及防。北方蒼鷹算法是Mohammad Dehghani等于2021年提出的,是一種基于群的算法,模擬了北方蒼鷹在捕捉獵物中的行為,包括搜素辨識、抓捕、追逐與獵物逃亡再追逐等。
2.2.1 初始階段
模擬的第一步將一只蒼鷹看作矢量,那么一群蒼鷹就構成了算法的種群矩陣。在初始階段,每個蒼鷹都是隨機分布在種群矩陣中。
(4)
式中,X為北方蒼鷹種群的矩陣;Xi為第i只蒼鷹的初始位置;xi,j為第i只蒼鷹在第j維度的位置;M和N分別為蒼鷹總數和空間的維度。
目標函數向量為
(5)
式中,F(X)為目標函數的列向量;Fi為第i個目標位置所對應的目標函數值。隨著迭代次數的增加,目標函數將會優中選優,直到找到最優解。
2.2.2 搜索識別
根據蒼鷹視野良好的特點,算法可以從全領域內選取一個目標進行捕捉,識別的公式為
(6)
(7)
(8)

2.2.3 逃脫抓捕
蒼鷹的速度極快,可以迅速將逃脫的獵物追回。在算法中具體表示公式為
(9)
(10)
(11)

長短時記憶網絡是一種應用廣泛的循環神經網絡(RNN)的變體,不同于RNN的是它具有類似“門”的結構,LSTM擁有三個門,分別為遺忘門、輸入門、輸出門,還有一個特殊的記憶細胞。輸入門用來控制新信息的量加入到記憶細胞當中,遺忘門決定在時間序列上的信息是否會被遺忘,輸出門控制時間序列上信息的輸出。通過“門”和“記憶細胞”對數據的準確處理,克服了RNN本身帶有的權重影響過大、梯度消失和爆炸的缺點,使神經網絡可以更精確、更快速地收斂,能夠有效提高預測精度。其基本結構如圖2所示。

圖2 長短期記憶神經網絡神經元結構示意
在計算過程中采用的公式為
ft=σ(WfXt+Ufht-1+bf)
(12)
it=σ(WiXt+Uiht-1+bi)
(13)
(14)
(15)
ot=σ(WoXt+Uoht-1+bo)
(16)
ht=tanh(Ct)?ot
(17)

EEMD-NGO-LSTM耦合模型的預測徑流步驟如下:
(1)對徑流數據運用EEMD方法進行分解,得到若干個IMF分量和1個趨勢項,并對分解后的結果進行預測。
(2)對蒼鷹種群大小、優化參數、適應度函數、迭代次數進行設定,并生成蒼鷹個體初始位置。
(3)通過得到的適應度函數計算蒼鷹個體的適應度值。
(4)生成蒼鷹群矩陣和目標函數向量。
(5)通過公式(6)到公式(11)控制蒼鷹移動,進行參數尋優。
(6)開始迭代直到滿足最大迭代次數或精度,則將迭代次數帶入適應度函數計算適應度值。
(7)得到最佳適應度時蒼鷹的坐標,作為LSTM神經網絡進行預測時的輸入參數,從而對各個分量進行預測。
(8)將各個分量預測的結果進行匯總整合,得到最終的預測結果。
(9)再將調試好的模型中加入CMIP6氣候模式下2030年的降水、氣溫數據,分別對數據進行處理,得到3種氣候情景下的2030年徑流變化。
對120條月徑流數據運用EEMD方法進行分解,分解完畢的徑流數據分為5個IMF分量和1個趨勢項,分解結果如圖3所示。通過經驗模態分解,減小了原始數據中的噪聲干擾,信號波動趨勢趨于穩定,IMF分量逐漸趨于平滑,使預測結果更加準確。將經過EEMD分解后所形成的5個IMF分量的前84項作為訓練集,后36項作為測試集,采用NGO-LSTM 模型對測試集分量進行預測。通過預測模型對前84項進行訓練,將調優完畢的模型用于后36項的測試,最后對預測結果與實測數據進行比對,EEMD-NGO-LSTM耦合模型的預測結果如圖4所示。

圖3 徑流數據EEMD分解結果

圖4 EEMD-NGO-LSTM耦合模型預測結果
為了評估模型預測效果,本文以納什系數(NSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和決定系數(R2)作為評價指標。EEMD-NGO-LSTM模型在訓練期和驗證期間的總體性能統計結果如表2所示。

表2 EEMD-NGO-LSTM模型在訓練期和驗證期間的總體性能統計結果
由表2可知,在訓練期和驗證期模型的NSE、R2均接近于1,RMSE、MAE、MAPE均較低,說明模型的模擬效果好、質量高、具有較強的可信度,可以用來進行預測。
為了驗證 EEMD-NGO-LSTM 預測模型的精度,本文還采用WOA-LSTM模型和GWO-LSTM模型來模擬王奔水文站的月徑流量,結果如圖5、6所示。

圖5 WOA-LSTM模型預測結果

圖6 GWO-LSTM模型預測結果
根據以上3種方法預測的結果來看,EEMD-NGO-LSTM耦合模型的模擬情況最佳,且在極值的預測方面也優于其他2種模型;GWO算法預測的效果大部分較好,但有些時間段沒有擬合成功,說明灰狼算法在參數優化方面稍遜于EEMD-NGO算法,存在一定的過擬合問題;WOA算法擬合效果較差只能反映一定時間范圍內徑流的變化趨勢,無法對極值進行準確預測。對3種模型的預測精度評價見表3。

表3 3種模型預測精度評價
由表3可知,EEMD-NGO-LSTM耦合模型的納什系數(NSE)和決定系數(R2)最接近于1,均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分誤差(MAPE)均小于其他兩種模型,可見EEMD-NGO-LSTM耦合模型總體模擬效果好,精度較高,整體性能最佳。
王奔水文站的徑流量主要受降水和氣溫影響,隨著全球氣候變暖加劇,當今氣候模型模擬的結果表明,地球表面平均溫度每升高1 ℃,大氣水汽將增加7%,降水約增加5%。根據CMIP6氣候模式下的2030年氣溫降水數據,本文設置了3種氣候預測情景。
3.3.1 假設氣溫升高1 ℃,降水不變
在此種條件下,2030年王奔水文站的徑流量比2012年~2021年的平均徑流量增加6.61%(見圖7a),1月~4月徑流量減少,這可能由于溫度升高,地表開始解凍,在下滲和蒸發雙重作用下徑流減小;5月~8月徑流的增加情況顯著,這可能由于氣溫的升高導致河流中的浮冰融化,水汽運移速度加快;9月~10月徑流量呈下降趨勢,這可能由于氣溫升高,蒸發加劇導致的。11月~12月份隨著氣溫降低,河流結冰使徑流量減少。

圖7 2030年不同氣候情景下王奔水文站月平均徑流量的變化
3.3.2 假設降水升高5%,氣溫不變
在此種條件下,2030年王奔水文站的徑流量比2012年~2021年的平均徑流量增加6.95%(見圖7b)。1~3月徑流量增加可能原因是由于氣溫升高加速冰雪消融,使融化的水匯入地表河網使徑流增加。4月徑流量減小可能原因是氣溫下降河水結冰,5月~8月是雨季同時伴隨氣溫升高會使土壤表層和深層冰雪進一步融化導致徑流增加。9~12月氣溫下降,降雪量增加冰雪融水逐漸減少,蒸發量和下滲量也相應減少導致徑流量減少。
3.3.3 假設氣溫升高1 ℃,降水升高5%
在此種條件下,2030年王奔水文站的徑流量比2012年~2021年的平均徑流量增加22.16%(見圖7c),3月~7月徑流量有逐漸增加的態勢,直到8月份增加到最大值,其余月份忽高忽低。
4.1.1 算法迭代速度分析
為了進一步探究徑流預測的潛在影響因素,考察算法參數優化速度。將迭代次數設置為120次,種群大小設置為300。不同算法的優化收斂結果如圖8所示。WOA和GWO算法的收斂速度低于EEMD-NGO算法。NGO算法在迭代到第17次時率先到最優狀態,適應度為0.6。3種模型的具體速度表現見表4,這表明EEMD-NGO的遍歷全局以及搜尋目標的能力是優于其他兩種算法的。采用此算法加強了LSTM神經網絡對徑流的預測效果,提高了模型的精度。

表4 3種模型迭代表現

圖8 三種優化算法的收斂曲線
4.1.2 模型機理分析
由于本模型是數據驅動的模型,只能反映徑流變化的大致規律,做到近似代替,無法從徑流形成的機理上說明徑流變化的情況。且因算法本身的特點,也無法準確地把徑流的變化過程提煉出來,就會造成一定的預測偏差,這些問題可以通過完善算法或者輸入大量的數據得到改善。
徑流的形成主要由降水和氣溫的變化決定[15],但氣溫同時又影響降雨和蒸發[16]。氣溫的降低導致空氣中的水汽冷凝,達到成水的溫度時開始降雨,溫度升高又會導致水面蒸發進而影響徑流。劉美玲等[17]通過氣象因子間的灰色關聯分析,得出在齊齊哈爾地區的蒸發與氣溫和降水的相關性最為密切,與平均風速關聯度最低。趙美亮等[18]采用趨勢分析和數理統計方法得出大通河的徑流量與降水和平均氣溫呈正相關。綜上所述,在預測模型中添加降水、氣溫要素可以更加細致的模擬徑流過程,達到提高預測精度的目的。
本文基于北方蒼鷹優化算法NGO、灰狼算法GWO、集成經驗模態分解算法EEMD分別與LSTM神經網絡結合,重點介紹了EEMD-NGO-LSTM神經網絡耦合模型,從多角度分析了EEMD-NGO優化算法的特點,并基于此耦合預測模型預測了2030年的月徑流變化。得到的結論如下:
(1)EEMD-NGO-LSTM耦合預測模型相較于WOA-LSTM和GWO-LSTM模型的優勢為,在輸入等量的數據前提下,參數優化最佳、預測的結果更精確、計算耗時最短,是一種可以應用于徑流預測的新預測模型。
(2)東遼河流域徑流量變化在過去的10 a中呈現一定的不規律性,總體來說是增加的。在現狀情景下隨著氣溫的升高徑流量還會呈一定的上升趨勢。
(3)根據2030年的徑流預測結果,降水的增加會對月徑流有較大的影響,但兩者之間相差不多,在兩者同時改變時徑流量增幅約為單一變量的3倍,可見徑流量受二者同時變化的影響最大。