劉曉鋒 李太斌 范偉寧 李棟梁 曹哲銘
(1.中國華能集團有限公司 北京市 100031 2.華能四川水電有限公司 四川省成都市 610041)
(3.華能信息技術有限公司 山東省青島市 266000 4.太極計算機股份有限公司 北京市 100102)
隨著電力系統的增長和可再生能源的普及,系統的復雜性和不確定性水平顯著提高。過去的大多數研究都集中在開發精確的水力發電點預測方法,包括最早的也是最為簡單的回歸分析,以及后來隨著計算機技術發展,逐漸提出了時間序列法、頻譜分析法以及近年的神經網絡方法都被應用于水流量和發電量的預測中。但是由于天氣系統的混沌性和水流量的極大波動性,水電預測中的誤差是不可避免的,而且往往是非常嚴重的。
因此本文為了量化誤差和提高預測的可靠性,通過收集三個發電站水牛家、自一里、木座的相關數據,在對數據進行一定分析和預處理之后,采取了極限學習機和長短期記憶網絡兩種模型對其水流量和發電量進行了區間預測,并對預測誤差進行了一定的評估。
本文選取了水電站數據中的水牛家、自一里、木座三個水電站進行屬性分析,通過選取三個水電站2008年-2018年水流量和發電量的完整數據集來進行建模,其中2008年-2017年共4384 條數據為訓練集,2018年的數據為訓練集來對所建預測模型進行檢驗。通過建立時間序列預測模型,預測這三個水電站的發電量和來水量,對所收集數據進行描述性分析,結果如表1所示。
時間序列指的是按照時間順序的一組數列,時間序列分析(Time-Series Analysis)是指將原來的數據分解為四部分來看——趨勢、周期、時期和不穩定因素,然后綜合這些因素,提出預測。對收集到的水電站的時間序列數據進行處理以便后續的模型分析。在對數據的時間序列進行分析預測的時候,數據相對越平穩越好,剔除掉異常值就是減少特殊狀況對數據的影響,從而使得最終預測結果越準確。因此從數據的時間序列圖和箱型圖中觀察異常值,對異常值采取先剔除后填補的方式對其進行處理,減少異常值對模型預測的影響。
本文選取了極限學習機(Extreme learning machine,ELM)和長短期記憶網絡(Long and short-term memory network,LSTM)兩個模型對水電站的水流量和發電量進行區間預測。
極限學習機(Extreme Learning Machine,ELM)或“超限學習機”是一類基于前饋神經網絡(Feedforward Neural Network,FNN)構建的機器學習系統或方法,適用于監督學習和非監督學習問題。
LSTM(Long Short Term Memory Network)長短時記憶網絡,是一種特殊的循環神經網絡(Recurrent Neural Network,RNN),解決長序列訓練過程中的梯度消失和梯度爆炸問題,在時間序列預測問題上面有廣泛的應用。

表1:水電站數據描述性統計
任何數據的預測都不可以避免相關誤差,因此預測目標計算公式可以概括為:

其中ti為預測目標,xi是相關輸入變量,包括水電站歷史水流量和發電量的數據,ε(xi)則表示測量噪音,因為噪音的存在使得測量目標偏離其真實值而趨向于其測量值,而且我們假設ε(xi)服從高斯分布,其均值為0,方差為δ2ε。因此對于預測中的誤差就分為了兩個部分:


圖1:長短期記憶網絡模型下自一里水電站發電量預測
本模型種選取了預測區間覆蓋率(PICP)、預測區間歸一化平均寬度(PINAW)、預測區間歸一化均方根寬度(PINRW)以及基于覆蓋寬度的準則(CWC)四個指標對區間預測結果進行評估。其中,PICP 表示概率目標值被上下界覆蓋的概率。較大的PICP 意味著更多的目標位于構建的預測區間內,反之亦然。令N 表示樣本總數,則理想狀態當然是PICP 達到100%,這意味著所有值均被預測區間所覆蓋。但是在這其中容易忽視預測區間跨度的問題,如果預測區間跨度大,則很容易達到較高的PICP 值,因此較寬的預測區間對于決策毫無用處,預測區間的寬度決定了它們的信息性。因此還需要采用PINAW 指標將所有區間寬度歸一化。其公式為其中R 為預測目標的范圍(最大值減去最小值)。PINAW 的格式類似于用于點預報的平均絕對百分比誤差(MAPE)。它賦予每個預測區間寬度相等的權重。PINRW 則相當于點預測中的均方誤差(MSE),計算公式為但是不管是PICP 還是PINAW(或PINRW)都只單獨評估預測區間的一個方面,這可能會導致誤導性的結果。在實踐中,要求同時兼PICP 和PINAW 這兩個方面,對項目信息系統的整體質量進行綜合評價。因此在本文中還引入了CWC 這一參考指標,其中η 和μ 是兩個控制參數,μ 可根據其置信區間來設定,η 是放大PICP 和μ 之間差異的超參數。如果預分配的PICP 不滿足,則CWC 將對此項進行指數懲罰。而。在評估測試預測區間時,如果PICP 不小于指定的μ,則給出相等的PICP 測量值。否則,并且相應的結果將在CWC 數值上展現出來。
本文采取ELM 和LSTM 兩種模型對水電站的水流量和發電量的區間預測用上述四個指標進行評估。
對于所有的模型預測結果,PICP 均超過75%,這說明預測區間較高概率地覆蓋了目標值,且無論是PINAW 或是PINRW 都低于25%,因此預測區間寬度也是在合理范疇的。但是需注意的是,無論是采用極限學習機還是長短期記憶網絡模型,自一里水電站預測區間的PINAW 和PINRW 的值都是高于其它兩個水電站的。預測區間的寬度是與于數據集的不確定性水平有一定關聯,因此自一里水電站相較于另外兩個水電站其水流量和發電量具有更高的不確定性。而從CWC 指標來看,對于三個水電站的發電量預測區間的CWC 值均高于水流量區間預測的CWC 值,反映出水流量相較于發電量有更大的不確定性影響了對其區間的預測。但是從整體評價指標來看,所提出的預測區間對于水電站的水流量和發電量的預測還是可取的,對于水電站未來管理是有一定參考價值。
利用極限學習機和長短期記憶網絡對水電站的發電量和來水量進行預測最終形成的預測區間時間序列圖如圖1所示(僅選取自一里水電站X270 進行展示)。
由圖1 可以看出,大多數實際值位于預測區間之內,區間預測比點預測有更大的誤差包容性。
我國水電站數量眾多,因此為了保證水力發電的穩定運行,對于水電站的水流量和發電量進行預測至關重要。本文提出了基于極限學習機和長短期記憶網絡兩種模型對水電進行區間估計的方法,有效解決了點估計種存在的預測誤差較大的問題,從模型評估結過來看,兩種模型各有其優勢所在,這兩種算法對于日后水電站的穩定運營以及負荷預測有著廣泛的應用前景和指導意義。