譚政宇,周 曼,胡 挺,張 松,郭 率
(中國長江三峽集團有限公司流域樞紐運行管理中心,湖北宜昌443100)
水電入庫徑流預測是水庫日常運行管理中的重要基礎(chǔ)性工作,精準的入庫徑流預測結(jié)果對于水電站發(fā)電調(diào)度安排、防洪度汛方案編制、船舶通航管理等方面具有重大意義。為此,較多學者圍繞水電入庫徑流預測開展了大量的研究工作。然而,由于徑流涉及流域下墊面、地形地貌、人類活動等諸多影響因素,徑流過程的高度非線性和其混沌行為特征較為明顯[1],由此也引發(fā)了徑流難以精準預測的難題[2]。
按照研究方法的不同,徑流預測可分為基于物理成因和基于數(shù)據(jù)驅(qū)動兩大類型[3]。前者是利用GIS和遙感數(shù)據(jù)來構(gòu)建水文模型實現(xiàn)模擬預測,該方法對于數(shù)據(jù)資料和水文系統(tǒng)規(guī)律的準確性要求很高,且模型參數(shù)具有較大的不確定性[4];后者則是以站點實測數(shù)據(jù)為模型輸入,利用各種先進算法預測水電入庫徑流[5]。由于不需要考慮復雜的物理成因,基于數(shù)據(jù)驅(qū)動的預測模型具有較強的普適性,在時間序列預測分析上逐漸表現(xiàn)出其獨特的優(yōu)勢[6],早期研究多以單一的預測模型或回歸算法為主[3],隨著研究的深入,不少學者驗證了結(jié)合其他學科理論或融合多種模型的組合預測方式可顯著提高徑流預測精度[7],同時發(fā)現(xiàn)模型算法參數(shù)優(yōu)化是提升模型預測性能的有效手段[8]。由于徑流序列的水文特性,徑流數(shù)據(jù)非平穩(wěn)性也引發(fā)了一些學者的關(guān)注,通過引入變分模態(tài)分解[9]、奇異譜分析[10]、小波分解[11]作為原始數(shù)據(jù)預處理方法,以優(yōu)化處理后的數(shù)據(jù)為模型輸入,對比分析表明模型預測精度得到提升。通過上述研究發(fā)現(xiàn),數(shù)據(jù)輸入質(zhì)量與模型算法是影響徑流預測精度的重要因素,對于大型電站而言,入庫徑流預測精度的高低直接影響到其調(diào)度運行安排;然而,受到流域特性的諸多影響,長江干流徑流序列呈現(xiàn)復雜混沌系統(tǒng)特征[1],若直接將原始徑流序列直接作為數(shù)據(jù)輸入可能限制模型預測性能的發(fā)揮。
為此,本研究引入在能源、系統(tǒng)等領(lǐng)域應用較多的相空間[12]和支撐向量回歸模型方法[13]。其中,相空間重構(gòu)(PSR)作為一種混沌時間序列分析的常用方法,具有技術(shù)成熟、算法參數(shù)少、實現(xiàn)簡單的優(yōu)點[12];而支撐向量機(Support Vector Machine, SVM)是由Vanpik提出的一種典型機器學習算法[14]。兩種算法相結(jié)合后(PSR-SVR)嘗試開展如下研究工作:①結(jié)合相空間理論,利用互信息和虛假鄰近點理論重構(gòu)水電入庫徑流向量以消除序列混沌特性的影響;②利用網(wǎng)格搜索和交叉驗證方法對支撐向量機回歸模型進行參數(shù)率定,以提高預測模型的泛化能力;③與單一支撐向量回歸、單一嶺回歸、單一K近鄰回歸模型以及相空間重構(gòu)-K近鄰耦合模型(PSR-KNN)、相空間重構(gòu)-嶺回歸耦合模型(PSR-RR)進行了對比,驗證分析了PSR-SVR模型的可靠性。研究以三峽水庫實際入庫徑流序列為研究對象,將所提方法與單一回歸方法、組合方法等進行比較,以期獲得一種能夠用于實踐的徑流預測方法。
本文利用PSR對原始徑流數(shù)據(jù)進行優(yōu)化預處理,使得升維重構(gòu)后的數(shù)據(jù)樣本能更好的還原水文徑流序列的運動演變規(guī)律,以獲得更高質(zhì)量的預測模型數(shù)據(jù)樣本,從而提升模型預測性能。在PSR中,延遲時間τ和嵌入維數(shù)d是兩個關(guān)鍵參數(shù),分別采用互信息和虛假鄰近點理論[15]作為PSR關(guān)鍵參數(shù)優(yōu)選方法,具體步驟如下:
(1)對于實測水電入庫徑流序列R={ri:i=1,2,…,N},信息熵為
(1)
式中,P(ri)為事件ri發(fā)生的概率;N為徑流數(shù)據(jù)個數(shù)。
(2)給定徑流序列延遲時間參數(shù)τ,構(gòu)造延遲時間序列S={ri+τ:i=1,2,…,N-τ},并根據(jù)以下兩式分別計算序列S的信息熵及序列R和序列S的聯(lián)合信息熵。即

(2)
(3)
式中,H(S)為延遲時間序列S的信息熵;P(rj+τ)為事件rj+τ發(fā)生的概率;H(R,S)為序列R和S的聯(lián)合信息熵;P(Ri,Sj)為事件Ri和Sj的聯(lián)合分布概率。
(3)互信息理論[15]研究表明序列R和序列S的交互信息可用式4表示,且是關(guān)于τ的函數(shù)I(τ)。通過調(diào)整自變量τ,當I(τ)取得第1個極小值時表示R和S為最大可能不相關(guān),此時τ即為PSR最優(yōu)參數(shù)。則
I(R,S)=H(R)+H(S)-H(R,S)
(4)
式中,I(R,S)為序列R和S的交互信息;其他參數(shù)含義同上。
(4)基于最優(yōu)延遲時間τ,給定嵌入維數(shù)d,根據(jù)式5重構(gòu)相空間
(5)
式中,Ti=(T1,…,Tm)為相空間中的一個矢量點;m=N-(d-1)τ為重構(gòu)相空間中矢量點數(shù)量。
(5)對于重構(gòu)相空間T中的各個矢量點,通過遍歷分別找到其對應最鄰近點,矢量點之間距離計算
(6)
式中,Ti和Tj為相空間中的兩個不同矢量點;Rd為兩矢量點之間的歐幾里德距離。

(7)
(8)
(7)利用優(yōu)選得到的延遲時間τ和嵌入維數(shù)d,按照式(5)重構(gòu)相空間即可得到SVR預測模型的輸入矩陣O,并按照式(10)進行標準化處理。即
O=[r1+(d-1)τ,r2+(d-1)τ,…,rm+(d-1)τ]
(9)
T′i=(Ti-s)/σ
(10)
式中,s和σ分別為序列平均值和標準差。
支撐向量回歸算法(Support Vector Regression, SVR)的核心思想是通過核函數(shù)將數(shù)據(jù)映射到高維特征空間中,從而實現(xiàn)線性回歸,其基本原理詳見文獻[14]。根據(jù)已有研究表明,影響支撐向量回歸模型預測能力的主要參數(shù)有正則化常數(shù)C、不敏感損失系數(shù)ε、核系數(shù)γ和核函數(shù)類型[17],四類超參數(shù)含義及對回歸效果的影響參見文獻[18]。
交叉驗證是機器學習中評價模型泛化能力的常用方法[19]。其核心思想是通過將訓練集進一步拆分為K組不相交子集,共訓練K次,每次訓練中取其中K-1份數(shù)據(jù)進行訓練,預留一份數(shù)據(jù)進行驗證,訓練完成后返回模型預測效果最好的參數(shù)組合。網(wǎng)格搜索(Grid Search)[20]作為一種結(jié)合窮舉搜索機制和交叉驗證方式的調(diào)參算法,具有適用性強、效率高的優(yōu)勢,故本文中模型參數(shù)率定均選用該方法。
基于上述處理,利用PSR-SVR的入庫徑流預測方法具體流程見圖1。

圖1 基于PSR-SVR的預測流程
本文以三峽水庫為例,選取2020年日內(nèi)時間尺度全年入庫徑流歷史數(shù)據(jù)共1 616個進行仿真分析。原始入庫徑流數(shù)據(jù)樣本序列如圖2所示。

圖2 原始入庫徑流數(shù)據(jù)樣本
基于互信息和虛假鄰近點理論,得到互信息-延遲時間及虛假鄰近點比例-嵌入維數(shù)變化情況(見圖3)。由圖3可知,互信息出現(xiàn)第一個極小值時延遲時間為55,當嵌入維數(shù)為4時,虛假鄰近點比例低于5%,故序列延遲時間和嵌入維數(shù)取為55和4。按照式(5)對原始入庫徑流序列進行相空間重構(gòu),得到重構(gòu)樣本為1 441個,隨后按照75%和25%的比例分割訓練集和測試集,得到訓練集樣本1 078個,測試集樣本363個。

圖3 相空間重構(gòu)關(guān)鍵參數(shù)選取
參考文獻[16]并結(jié)合模型可接受的計算難度,設(shè)定SVR參數(shù)搜索范圍(見表1)。

表1 參數(shù)率定情況
網(wǎng)格搜索優(yōu)化得到SVR最優(yōu)參數(shù)組合為:正則化常數(shù)9 000、允許誤差2×10-4、核系數(shù)0.3、高斯核。從網(wǎng)格搜索結(jié)果來看,正則化常數(shù)優(yōu)選取值越大,不敏感損失系數(shù)越小,模型泛化能力越強。這是因為不敏感損失系數(shù)表征SVR模型對于預測值與真實值之間的允許偏差,正則化常數(shù)表示對于預測值落在允許誤差以外的懲罰程度,允許偏差越小,懲罰程度越大,模型預測效果越好。將測試集輸入至最優(yōu)參數(shù)組合下的SVR模型,得到預測結(jié)果如圖4所示。

圖4 SVR預測與實際值對比
由圖4可知,SVR預測數(shù)據(jù)除個別值與測試數(shù)據(jù)有一定偏差外,整體基本處于重合狀態(tài)。從預測絕對相對誤差分布來看,預測百分誤差在1%~5%之間的數(shù)據(jù)共有332個,累計百分占比為91.56%;預測百分誤差在10%以內(nèi)的數(shù)據(jù)共有350個,累計百分占比96%。根據(jù)水文預報誤差標準規(guī)范,徑流預報誤差在20%以內(nèi)的視為合格預報,利用PSR-SVR模型的入庫徑流預報合格率為99.2%。預測值與真實值平均絕對百分誤差為2.19%,平均絕對誤差為519,說明模型預測效果較好。
為充分驗證本文構(gòu)建的PSR-SVR回歸模型在水電入庫徑流預測應用中的優(yōu)越性和可靠性,本文選取K近鄰回歸(k-Nearest Neighbor,KNN)、嶺回歸(Ridge Regression,RR)和SVR為單一對比模型,選取PSR-KNN、PSR-RR為組合對比模型,分別對同一組三峽實際入庫徑流進行預測,選取平均絕對誤差(MAE)、平均百分誤差(MAPE)和均方根誤差(RMSE)和相關(guān)系數(shù)R2等指標評價分析模型預測效果。表2為各模型在同一組入庫徑流上的預測誤差統(tǒng)計。由表2可知,在同一組預測數(shù)據(jù)樣本上,本文所提模型預測誤差評價指標MAE、RMSE、MAPE均小于對比單一預測模型和組合預測模型,并且預測值與實際值之間的相關(guān)系數(shù)達到了0.966 8,說明本文所提模型具有較高可靠性。

表2 各模型預測效果
圖5和圖6為所建模型PSR-SVR與單一徑流預測模型和組合預測模型的對比情況。圖5為本研究模型PSR-SVR與單一預測模型的預測效果對比。結(jié)合圖5和表2可以看出,經(jīng)過數(shù)據(jù)優(yōu)化處理的PSR-SVR模型相比于單一SVR、單一RR、單一KNN預測模型表現(xiàn)出明顯的優(yōu)越性,單一模型MAE、RMSE預測誤差指標多在2 300以上,MAPE指標超過20%,且預測值與實際值之間的相關(guān)系數(shù)R2為0.791 2~0.887 8。而本文所提模型相應預測誤差指標較小,且相關(guān)系數(shù)為0.966 8;從而說明PSR技術(shù)能充分挖掘原始徑流系列的有效信息,改善模型輸入數(shù)據(jù)質(zhì)量,提升模型預測精度。

圖6 組合模型對比
本文所提模型PSR-SVR與其他組合預測模型的預測效果對比情況見圖6。對比單一預測模型和相應組合預測模型可以發(fā)現(xiàn),入庫徑流時間序列經(jīng)過相空間重構(gòu)技術(shù)處理后,3種組合模型的預測精度均處于較高水平,且較對應單一模型預測精度得到明顯提升,以相關(guān)系數(shù)R2為評價模型預測精度標準,PSR-SVR、PSR-KNN、PSR-RR相比單一SVR、KNN、RR預測精度提升了8.9%、15.7%、22.2%。這說明相空間重構(gòu)技術(shù)能有效還原水文系列原始演變規(guī)律,在充分掌握系列變化趨勢的情況下,回歸模型能發(fā)揮出更好的預測性能。本文所提模型相比組合模型PSR-RR、PSR-KNN的預測精度提升了4.1%、7.2%。
由圖6和表2可知,在采用不同回歸算法的情景下,本文所建模型仍顯示出一定優(yōu)勢。因為KNN算法的原理是利用最相近的樣本標簽來對輸入數(shù)據(jù)進行預測,如此便導致在樣本平衡性較差時,對于稀有類別數(shù)據(jù)預測效果較差;嶺回歸通過損失部分信息而獲得更為顯著的回歸系數(shù),但以損失精度為代價可能導致模型欠擬合;而對于SVR模型來說,經(jīng)過網(wǎng)格搜索所得到的正則化常數(shù)較大,允許偏差較小,因此訓練所得到的模型對于誤差容忍度小,預測精度較高。
本文研究結(jié)果表明,PSR-SVR是一種能直接應用于水電日內(nèi)入庫徑流預測的有效方法。在未來水電入庫徑流預測工作應用中,可根據(jù)預測時刻前已有入庫徑流數(shù)據(jù)實現(xiàn)相空間重構(gòu),也有望結(jié)合新的實測數(shù)據(jù)實現(xiàn)自動實時滾動更新重構(gòu)關(guān)鍵參數(shù),以最新重構(gòu)向量作為模型數(shù)據(jù)輸入來獲得更為精準的入庫徑流預測。由此可見,本文所提方法可為電站日常調(diào)度運行工作提供更為智能科學可靠的技術(shù)支撐。
本研究還可以在一些細節(jié)方面得到進一步的改進。如,模型所采用的支撐向量回歸算法適用于解決小樣本、非線性問題,隨著實測數(shù)據(jù)的積累,大規(guī)模數(shù)據(jù)樣本下模型預測性能可能受限。另外,當前模型數(shù)據(jù)預優(yōu)化僅采用了單一的PSR技術(shù)來還原水文系列在高維空間演變規(guī)律;但對數(shù)據(jù)非平穩(wěn)性的處理還有所欠缺。針對上述不足,未來研究可考慮選取更加適用于大規(guī)模樣本訓練的隨機森林回歸、長短期記憶網(wǎng)絡(luò)等作為預測模型算法,進一步提高方法的普適性;同時,可考慮在本文基礎(chǔ)上融合經(jīng)驗模態(tài)分解等信號數(shù)據(jù)處理技術(shù),最大程度地從有限數(shù)據(jù)中挖掘更多有效信息,進一步提升模型預測精度。
(1)本文構(gòu)建了一種利用相空間重構(gòu)和支撐向量機回歸算法組合預測水電入庫徑流短期預報的方法,研究表明這種方法較好考慮了入庫徑流的混沌特性。
(2)通過調(diào)整影響SVR模型預測性能的相關(guān)參數(shù)值,最優(yōu)參數(shù)下的組合模型在徑流的預測上R2能夠達到0.966 8。
(3)通過以三峽實測入庫徑流數(shù)據(jù)為實例對模型的適用性和可靠性進行了驗證。結(jié)果表明,相空間重構(gòu)是提升模型預測性能的有效技術(shù)手段,本文所建模型較單一回歸模型和其他組合回歸模型準確度更高。