馮仲愷 付新月 紀國良 劉亞新 牛文靜 黃海燕 楊濤



摘要:徑流具有非線性和隨機性特征,單一點預測模型難以精確刻畫和描述徑流演化過程。為此,提出了一種可有效量化徑流波動范圍的智能區間預測方法。首先采用自適應噪聲完備集合經驗模態分解將非線性徑流序列劃分為若干子序列,并采用樣本熵方法重構得到修正序列;其次以孿生支持向量機為基礎,分別對復雜度較高的子序列構建區間預測模型、復雜度較低的子序列建立點預測模型,同時采用鯨魚優化方法尋求滿意的模型參數組合;最后將各子模型的預測結果疊加得到最終的預測區間。結果表明:所提方法具有良好的穩健性和可靠性,在點預測、區間預測等不同場景、不同預見期的性能指標均優于對比模型;如預見期為3 d時,對于黃河流域唐乃亥水文站,所得預測區間具有較高的可靠度與清晰度,其預測區間覆蓋率PICP值為 98.30%,預測區間平均寬度PINAW值為0.079 2,可靠度、清晰度分別平均提高了9.47%和32.66%。研究成果可為智能化徑流預測提供行之有效的方法。
關鍵詞:徑流預測; 孿生支持向量機; 自適應噪聲完備集合經驗模態分解; 鯨魚優化方法; 黃河流域
中圖法分類號: TV124
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.04.014
0引 言
受人類活動與氣候變化影響,徑流序列呈現非線性、非平穩等復雜特征,加之極端水文氣象災害頻繁發生并持續加劇,導致單一模型難以精確刻畫和表征徑流演化過程,而且基于點預測模型獲得的確定值并不能反映徑流的可能波動范圍[1]。徑流區間預測模型可以給出徑流值的置信區間,并且定量化描述徑流序列的不確定性,因此,近年來得到國內外學者廣泛關注。傳統的區間預測模型大致分為3種類型:第一類方法核密度估計方法(Kernel Density Estimation,KDE)需要先進行點預測,而后根據點預測的誤差累積獲得概率分布函數,得到給定置信水平下的區間預測信息,該方法既可得到預測區間,也可實現概率預測[2-3]。第二類方法需要事先確定分位點、構建分位數回歸模型,同時需要較復雜的數學計算[4-6]。第三類方法則是通過上下邊界估值理論(Lower Upper Bound Estimation,LUBE)[7]構建雙輸出神經網絡,直接得到預測區間的上下界,該方法以預測區間評價指標作為目標函數進行迭代優化、率定參數,從而得到具有較高可靠度與清晰度的預測區間[8]。此外,也可通過聚類、模糊信息粒化等方法對原始序列進行預處理得到上、下邊界,從而建立預測模型得到預測區間[9-10]。然而,這些方法需要先對預測數據進行較復雜的處理,而且經粒化后的序列與原始序列存在一定的誤差。
作為經典的人工智能方法,孿生支持向量回歸機(Twin Support Vector Regression,TSVR)[11]利用兩個非平行超平面求得上、下邊界函數,在點預測中的性能表現優于傳統方法,但難以適用于區間預測。研究表明,耦合智能優化方法可有效提高模型參數辨識精度[12-15],分解方法可充分提取徑流序列中的模態信息[16-19],從而有效提高模型泛化性能和預測精度。自適應噪聲完備集合經驗模態分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)可有效降低分解序列的非平穩性與非線性,常被用于時間序列特征分解[20-22];鯨魚優化算法(Whale Optimization Algorithm,WOA)是元啟發式算法,具有操作簡單、尋優能力強等優勢,已被廣泛應用于復雜約束優化問題[23-25]。
基于此,本文提出了一種用于徑流區間預測的混合孿生支持向量機方法(Hybrid Twin Support Vector Regression,HTSVR)。首先通過CEEMDAN方法將原始徑流序列分解為多個子序列,將復雜度相似的子序列疊加得到修正序列;其次基于偏自相關和樣本熵方法,選擇最大滯時作為輸入因子,進而以改進TSVR模型為基礎,對復雜度較高、較低的子序列分別建立區間預測模型、點預測模型,同時采用WOA方法優選模型參數;最后,將點預測值與區間預測值相加可得到最終的預測區間。應用表明:CEEMDAN方法可顯著降低徑流序列的非平穩性;WOA方法可有效提高模型參數辨識精度、避免陷入局部最優;本文所提方法可有效提高徑流預測區間的可靠度與清晰度,定量化描述徑流序列的不確定性。
1研究方法
1.1自適應噪聲完備集合經驗模態分解
CEEMDAN的分解過程具有完備性,且幾乎沒有重構誤差,有效克服了傳統方法存在的模態混疊、噪聲殘留等問題。假定原始信號為f(x),經驗模態分解(Empirical Mode Decomposition,EMD)與CEEMDAN得到的第k階模態分量分別記為Ek與IMFk,Bn(x)為第n次加入且服從標準正態分布的白噪聲序列,具體步驟如下[26]。
1.2鯨魚優化方法
WOA通過隨機搜索模仿鯨群的捕食習性,并利用螺旋式方程模擬鯨群的獵物攻擊模式。鯨群在特定條件下會以螺旋運動游向獵物,執行泡泡網攻擊機制,亦有可能偏離獵物并隨機選擇獵物。假定X(t)表示迭代次數為t時當前鯨群個體的空間位置,D表示X(t)與鯨群最優位置Xbest之間的距離。引入一個[0,1]之間的隨機數p,當p≥0.5時,鯨群將以螺旋運動游向獵物,執行泡泡網攻擊機制,則其位置更新模型如下所示[23]:
1.3孿生支持向量回歸機
不同于傳統的支持向量機(Support Vector Regression,SVR),TSVR將較為復雜的二次規劃問題轉換成了兩個相對簡單的二次規劃問題,有效提高了模型的訓練速度與泛化能力。設定訓練樣本的輸入數據記為Al×n,輸出數據記為Yl×1,構造的2個二次規劃問題如下[11]:
1.4混合孿生支持向量機區間預測方法
為提高徑流預測精度,本文提出了耦合CEEMDAN、WOA和TSVR方法性能優勢的混合孿生支持向量機(Hybrid Twin Support Vector Regression,HTSVR):首先采用CEEMDAN將原始徑流序列分解為若干子序列,并根據樣本熵(Sample Entropy,SE)評估子序列復雜度,對樣本熵值相近的子序列進行合并,重構得到修正序列xIMF1~xIMFn;其次利用偏自相關分析法選擇最大滯時作為模型輸入因子,而后對復雜度較高(即樣本熵值較大)的子序列建立區間預測模型(Prediction Interval Models,PI Models),其余子序列建立點預測模型(Prediction Point Models,PP Models);最后,將各子模型的預測結果合并得到徑流預測區間[LB,UB]。具體計算流程如圖1所示。
2評價指標
2.1點預測
對點預測模型,本文選取的評價指標[26]包括:均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、相關系數(Correlation Coefficient,R)、確定性系數(Deterministic Coefficient,DC)。RMSE與MAE可以評估模型的預測誤差,R與DC用來描述預測值與觀測值的擬合程度。
2.2區間預測
對于區間預測模型,常從覆蓋率、寬窄度兩個方面來衡量預測質量,高質量的區間預測一般具備較高的覆蓋率、較小的區間寬度[27]。預測區間覆蓋率(Prediction Interval Coverage Probability,PICP)可體現預測區間的可靠度:若預測值yi落在預測區間時,則ci=1;否則,ci=0。平均覆蓋誤差指標(Average Coverage Error,ACE)表示實際計算所得與預設的區間置信度(Prediction Interval Nominal Confidence,PINC)之間的偏差。
3案例分析
3.1數據預處理
以黃河流域兩個水文站(龍羊峽(LYX),2008年1月1日至2014年12月31日;唐乃亥(TNH),2004年5月1日至2011年4月30日)的日徑流為研究數據,將數據劃分成訓練集、驗證集與測試集3部分,對應的比例為5∶2∶3。樣本熵雖受數據維數、容限取值等因素影響,但具有良好的一致性,其變化趨勢不受參數取值的影響[29]。圖2為CEEMDAN方法所得LYX水文站徑流子序列的樣本熵值,可看出,IMF2與IMF3、IMF8與IMF9的樣本熵值相近,表明具有相似的復雜度,可將相似子序列合并,重構得到修正序列xIMF1~xIMF10。進一步對修正序列開展偏自相關分析,確定LYX與TNH水文站的輸入滯時因子均為6;并對前4個復雜度較高的子序列xIMF1~xIMF4進行區間預測、后6個復雜度較低的子序列xIMF5~xIMF10進行點預測,最終將點預測、區間預測結果疊加得到最終的預測區間。
3.2模型性能分析
3.2.1點預測模型
構建人工神經網絡(Artificial Neural Network,ANN)、最小二乘支持向量機(Least Squares Support Vector Regression,LSSVR)、極限學習機(Extreme Learning Machine,ELM)、TSVR等點預測模型作為對比模型;同時引入灰狼優化算法(Grey Wolf Optimizer,GWO)來率定參數,并建立耦合WOA的混合模型WOA-TSVR以及HTSVR預測模型,以驗證優化方法和分解方法的可行性與有效性。從表1可知,相比對比模型,WOA-TSVR模型對2個水文站徑流均表現出相對較好的預測性能。以TNH水文站為例,除MAE高于GWO-TSVR外,其余指標均表現突出。各模型預測過程、誤差圖如圖3~5所示。可以看出,各模型在2個水文站的點預測誤差有明顯區別,而HTSVR在不同場景下均有良好的預測效果。CEEMDAN分解方法將非平穩性、非線性的徑流序列轉換成若干相對平穩的子序列,對各子序列分別進行預測后疊加求和得到最后的預測結果,可使得模型的預測誤差顯著減小,預測精度顯著提高。由此可知,HTSVR點預測模型可以得到更精確的預測結果,可靠性較強。
3.2.2區間預測模型
為檢驗HTSVR的區間預測性能,本節仍將2個水文站徑流序列作為研究對象,利用不同原理構建5個對比區間預測模型。① 基于LUBE方法的LSSVR和ELM區間預測模型。分別以CWC為目標函數,利用GWO尋找最優比例參數,并對數據進行擾動得到預測區間。② 利用非參數KDE方法建立GWO-TSVR、WOA-TSVR區間預測模型(分別記為GWO-TSVR-K、WOA-TSVR-K)。首先利用GWO-TSVR模型進行點預測,然后通過分析誤差序列來獲得預測區間。③ 基于TSVR模型的區間預測方法(記為WOA-TSVR-P)。根據TSVR模型的上下邊界函數來構建區間范圍,并利用WOA優化參數。
表2給出了預見期為1 d時的區間預測結果。可以看出:各模型ACE值均為正值,表明預測區間的覆蓋度均超過預設的置信水平90%。圖6~7給出了流量峰值附近的區間預測結果。對比GWO-TSVR-K、WOA-TSVR-K區間預測模型,以LYX水文站為例,其預測區間的CWC指標值分別為1.149 5和1.148 9,說明KDE方法易受點預測結果影響。相較于對比模型,WOA-TSVR-P模型的區間寬度更窄、PICP值最小,表明模型區間清晰度較高,但犧牲了區間可靠度;HTSVR進一步耦合了CEEMDAN方法,有效彌補了該缺陷,增強了預測區間的可靠度與準確度,使得流量峰值落入預測區間并降低了區間寬度。例如,所提模型的ACE值最大,PINAW值最小,其中LYX水文站分別為9.35%和0.073 8,TNH水文站分別為6.48%和0.047 2。由此可知,HTSVR可以有效均衡在區間覆蓋率與區間寬窄度,保障徑流區間預測精度。
為進一步驗證所提模型的魯棒性,本文開展了多步預測實驗。如表3~4所列,對比模型的多步預測PICP值可能會低于置信水平,使得ACE為負值。例如,對LYX水文站徑流開展預見期3 d的區間預測時,GWO-LSSVR、GWO-ELM和GWO-TSVR-K模型的PICP指標均低于置信水平90%;對TNH水文站進行預見期2~3 d的區間預測時,GWO-LSSVR和GWO-ELM模型的ACE指標也都是負值,表明預測區間低于置信水平,可靠度較差。由圖8可知,隨著預見期的增加,對比模型CWC值逐漸增大,表明區間預測性能均有所下降;而HTSVR的ACE值總是能保持正值且CWC值小于對比模型,表明所提方法預測區間的覆蓋度高于置信水平,具有較強的穩健性與可靠性。
3.3結果討論
本文將TSVR方法拓展至區間預測,并耦合WOA和CEEMDAN方法,構建了一種可進行點預測和區間預測的混合模型,并應用于兩個水文站的日徑流序列。從點預測實驗結果來看,WOA-TSVR模型的預測準確度要略高于其他對比模型;CEEMDAN分解方法可顯著提高模型的預測精度,降低預測誤差,增加預測值與實測值的擬合度。例如,LYX水文站,RMSE、MAE值平均減小58.96%和51.17%,R、DC值平均增加 0.80%和1.65%。
從區間預測實驗結果來看,預見期為1 d時,各模型的預測區間均能保障可信度滿足置信水平。如WOA-TSVR-P模型較對比模型具有較小的CWC值,但可靠度較低,僅略高于置信水平;通過耦合CEEMDAN分解方法,所提方法有效彌補了此缺陷,具有較高的PICP值,如TNH水文站的PICP值平均增加了3.25%,PINAW值平均減小42.14%。從各水文站多步預測實驗結果可知,所提模型HTSVR的ACE值均為正且CWC值較小,具有較強的可靠性和穩定性。隨著預見期的增加,由于預測誤差的累積,模型的預測性能均有所下降,CWC指標值逐漸增大。如TNH水文站,GWO-LSSVR和GWO-ELM在預見期為2~3 d時,ACE<0,說明預測區間的可靠度較差。GWO-LSSVR模型的CWC值從1.189 0增大至1.292 3,GWO-ELM模型的CWC值從1.228 6增大至1.304 0。
4結 語
本文提出了基于孿生支持向量機的徑流智能區間預測方法。首先利用樣本熵和自適應噪聲完備集合經驗模態得到重構子序列,而后以改進的孿生支持向量機和鯨魚優化方法為基礎,根據修正后子序列的復雜程度分別建立區間預測模型與點預測模型,將子模型預測結果疊加得到最終的預測結果。同時采用不同的對比模型和評價指標來驗證所提模型的可靠性與清晰度。應用結果表明:所提模型無需假設誤差分布即可提供高質量的點預測和區間預測結果,可有效減少徑流預測的不確定性,能夠為徑流預測提供更加全面的信息。
參考文獻:
[1]YE L,ZHOU J,GUPTA H V,et al.Efficient estimation of flood forecast prediction intervals via single- and multi-objective versions of the LUBE method[J].Hydrological Processes,2016,30(15):2703-2716.
[2]徐冬梅,王亞琴,王文川.基于VMD-GRU與非參數核密度估計的月徑流區間預測方法及應用[J].水電能源科學,2022,40(6):1-5.
[3]熊鳴.基于BP神經網絡與非參數核密度估計的短期風電功率概率區間預測[J].北京信息科技大學學報(自然科學版),2020,35(4):51-56.
[4]楊錫運,邢國通,馬雪,等.一種核極限學習機分位數回歸模型及風電功率區間預測[J].太陽能學報,2020,41(11):300-306.
[5]賈德香,呂干云,林芬,等.基于SAPSO-BP和分位數回歸的光伏功率區間預測[J].電力系統保護與控制,2021,49(10):20-26.
[6]戴領,駱光磊,周建中.基于分位數回歸森林的水庫調度滾動模擬方法研究[J].人民長江,2023,54(7):218-224.
[7]KHOSRAVI A,NAHAVANDI S,CREIGHTON D,et al.Lower upper bound estimation method for construction of neural network-based prediction intervals[J].IEEE Transactions on Neural Networks,2011,22(3):337-346.
[8]VAHID N,MINA S F,MOHAMMAD T A,et al.Data pre-processing effect on ANN-based prediction intervals construction of the evaporation process at different climate regions in Iran[J].Journal of Hydrology,2020,588:125078.
[9]章超波,劉永政,李宏波,等.基于加權殘差聚類的建筑負荷預測區間估計[J].浙江大學學報(工學版),2022,56(5):930-937.
[10]張娜,王守相,葛磊蛟,等.一種光伏短期出力區間預測方法[J].太陽能學報,2020,41(8):173-179.
[11]PENG X.TSVR:an efficient twin support vector machine for regression[J].Neural Networks,2010,23(3):365-372.
[12]方威,周建中,周超,等.基于G-LSTM模型的短期徑流預報:以長江上游寸灘斷面-三峽入庫斷面為例[J].人民長江,2021,52(2):66-71.
[13]張鈺彬,練繼建,王孝群,等.基于PSO -水量平衡- BP耦合模型的短期水位預測[J].人民長江,2023,54(3):90-95.
[14]張勇,李旋,尹燕良,等.基于螢火蟲算法優化BP神經網絡的爆破振速預測[J].人民長江,2023,54(5):231-236.
[15]洪敏,艾萍,岳兆新.基于FPA-ELM模型的中長期徑流預測:以雅礱江流域為例[J].人民長江,2022,53(6):119-125.
[16]包苑村,解建倉,羅軍剛.基于VMD-CNN-LSTM模型的渭河流域月徑流預測[J].西安理工大學學報,2021,37(1):1-8.
[17]王佳,王旭,王浩,等.基于EEMD與ANN混合方法的水庫月徑流預測[J].人民黃河,2019,41(5):43-46.
[18]范琳琳,李亞龍,喬偉,等.基于EMD及BPNN的云南省昭通市徑流量預測[J].人民長江,2020,51(9):79-83,211.
[19]張曉煊,宋松柏,張炳林.基于變分模態分解的分頻徑流預測模型[J].水資源與水工程學報,2023,34(1):84-90.
[20]付智勇,陳文強,唐偉雄.基于CEEMD-RF模型的渣土邊坡地下水埋深預測[J].人民長江,2020,51(1):141-148.
[21]張金萍,許敏,張鑫,等.基于CEEMDAN-ARMA模型的年徑流量預測研究[J].人民黃河,2021,43(1):35-39.
[22]胡斯曼.基于CEEMDAN-LSTM模型的中長期徑流預報研究及系統集成[D].武漢:華中科技大學,2020.
[23]王璞,姬聯濤,陳龍翔,等.基于WOA-VMD-TCN的水電機組振動趨勢預測[J].水電能源科學,2023,41(6):175-179.
[24]曹夢茜,鄭東健.基于FCM-WOA-LSTM的大壩變形預測模型及其應用[J].水電能源科學,2023,41(5):71-75.
[25]周有榮,王凱.改進鯨魚算法優化混合核支持向量機在徑流預測中的應用[J].中國農村水利水電,2020(7):50-53.
[26]王文川,杜玉瑾,和吉,等.基于CEEMDAN-VMD-BP模型的月徑流量預測研究[J].華北水利水電大學學報(自然科學版),2023,44(1):32-40,48.
[27]TANG G,WU Y,LI C,et al.A novel wind speed interval prediction based on error prediction method[J].IEEE Transactions on Industrial Informatics,2020,16(11):6806-6815.
[28]HAO Q,SRINIVASAN D,KHOSRAVI A.Construction of neural network-based prediction intervals using particle swarm optimization[C]∥The 2012 International Joint Conference on Neural Networks (IJCNN),Brisbane,2012.
[29]孫娜,周建中.基于正則極限學習機的非平穩徑流組合預測[J].水力發電學報,2018,37(8):20-28.
(編輯:謝玲嫻)