崔昊楊,周坤,胡豐曄,張宇,夏晟
(上海電力大學, 上海 200090)
掌握電力設備狀態漸變規律,并從大數據的角度預估其后續趨勢,是泛在電力物聯網變電設備狀態智能感知建設的內在要求[1]。雖然規模劇增的電力設備和日益豐富的檢測手段,為設備狀態內在趨勢的挖掘和預測提供了豐富的數據基礎[1-2],但是傳統的數據挖據方式需要建立復雜的數學、物理模型,在設備結構復雜性和運行狀態不確定性高的背景下,海量數據分析面臨低效化、片面化等問題。此外,部分老舊設備由于缺乏精細化管理,數據缺失、不規范的狀況較多[3]。因此,全面且客觀的從海量、殘缺的歷史檢測數據中挖掘出有價值的狀態變化規律、預判狀態趨勢發展,是電力大數據發展的核心問題。
目前,統計分析模型和機器學習模型利用多源異構檢測數據從數據的角度揭示設備狀態的變化規律,并且結合氣象環境、運行環境等因素可對后續運行趨勢進行個性化預估,已被廣泛用于大數據背景下的設備狀態評估及預測[4-5]。然而,以ARIMA為代表的統計分析模型雖然具有不需人為干預、架構簡單、準確率高的優點[6],但是只能處理線性關系顯著、規律性和周期性較強的平穩數據。以LSTM為代表的機器學習模型雖然克服了傳統機器學習因梯度消失而不能長期預測和預測準確率低的問題[7],但對數據的時序性和完整性有著極高要求,運維人員的漏檢、不定期檢測使得檢測數據不能嚴格按照固定的間隔分布在時間序列上,這些斷層式的波動數據會損壞其“記憶細胞”,從而降低了泛化能力,導致內在規律預測的準確性難以保證。
針對目前電力大數據存在的問題以及上述兩種常用模型的優缺點,提出一種基于改進LSTM的電力設備狀態融合預測模型。該模型將數據映射到時間軸上進行平穩性分析和缺值檢測,采用ARIAM模型根據缺失前的歷史數據段進行缺值預測,并將預測得到的數值補充到原始數據中的對應空缺位置,從而得到平穩、完整的“新數據”;將“新數據”輸入到改進LSTM模型和ARIMA模型中進行長期趨勢和周期趨勢預測;根據改進LSTM學習的準確率和ARIAM擬合趨勢的吻合度分別對兩個模型的預測值進行權重分配,通過加權融合方法對預測數據進行修正,達到狀態趨勢融合預測的目的。實驗結果表明,提出的預測模型在負荷數據完整和缺失的情況下的預測準確率均高于ARIMA和LSTM單一模型。
電力設備的狀態檢測數據貫穿其建設、運行全壽命周期,然而,較早的設備狀態檢測數據只能靠人工記錄,數據隨機、漏檢等情況時常導致狀態數據的時序性、完整性較差,降低了狀態趨勢預測的準確度[8]。因此,重點研究了如何改善數據質量和提高預測準確率。實驗的數據來源于2018年國內某市區歷史負荷,采樣周期為1 h,具備電力大數據的數量龐大、數據高速和數據價值等特性[9-11],而且所采用數據通過計算機記錄的方式使得數據具有較高的完整性。這里需說明,數據缺失的預測實驗則通過人為方式隨機的剔除部分數據,以驗證文中模型相對于傳統預測模型在數據殘缺情況下的優越性。此外,本次用于訓練和驗證的負荷數據均為冬季的電負荷,不同月份的環境溫度、節假日等因素對負荷的影響可視為等同的(春節除外)。
LSTM模型與ARIMA模型在負荷數據完整情況下和負荷數據殘缺情況下的預測圖及局部放大圖如圖1所示,其中的樣本數據由訓練數據P和測試數據p組成。為了便于比較,采用均方根誤差(Root Mean Square Error , RMSE)作為預測準確性的評估依據,計算公式為:
(1)
式中p為測試數據真實值;p′a為預測值。從圖1(a)中可知,數據完整情況下的LSTM模型預測的RMSE為392,誤差率比RMSE為450的ARIMA模型低了13%。從圖1(b)可知,ARIAM模型在歷史數據殘缺情況下的預測RMSE為699,增幅達到了57%,設備狀態趨勢的真實性難以保證,而LSTM甚至無法完成訓練和預測功能。此外,從圖1(b)還可知,殘缺數據導致了ARIMA預測的趨勢呈現出無序的周期性波動,這是由于ARIMA模型將每個割裂的數據段視為一個或多個完整周期內的數據,喪失了周期性趨勢隨長期趨勢發展的變化規律。由此可見,完整、平穩的狀態數據是保證趨勢預測準確率的前提。

圖1 LSTM、ARIAM模型在數據完整和數據殘缺情況下的預測結果
針對數據殘缺對趨勢預測的影響,以及ARIAM模型和LSTM模型各自優勢,文中提出了基于改進LSTM的電力設備狀態融合預測模型。該模型主要包含基于ARIAM自適應分段預測的數據完整性提升、改進LSTM模型預測以及融合預測3個環節。
預測前先對數據序列{D(t)}的平穩性進行檢測,以數據缺失的位置作為分界點將數據分為s+1個數據段Ds,并記錄數據缺失位置s,s=1,2…。將數據段D1輸入到G(t)ARIMA模型中,用以預測第一個缺失數據d1。把得到的d1補全到D1和D2的缺失位置,得到的新數據段再次輸入到G(t)ARIMA模型中,用以預測第二個缺失數據d2,以此類推直到將數據補齊,得到“新數據”序列{D′(t)},即:
(2)
ds=GARIMA(D1+d1+…+Ds-1)
(3)
GARIMA(t)=θ0+φ1G(t-1)ARIMA+…+
φjG(t-j)ARIMA+εt-θ1εt-1-…-θjεt-j
(4)
式中φj(j=1, 2, …,s)和θj(j=1,2,…,s)為模型參數;εt為獨立正太分布的白噪聲。
LSTM模型不僅有傳統RNN不具備的輸入門it、輸出門ot和忘記門ft,還多了一條可長期記憶的信息流ct,在大數據預測的領域具有舉足輕重的地位[12]。當“新數據”{D′(t)}輸入到G(t)LSTM模型時,遺忘門會將其映射到[0,1]區間,然后與長期記憶的信息相乘對記憶中的數據進行篩選和更新,在經過輸入門得到記憶的更新數據,最后通過輸出門得到預測數值ht[13],即:
(5)
G(t)LSTM=it=σ·wi·[ht-1,{D′(t)}]+σ·bi
(6)

但是,ARIMA預測得到的“新數據”{D′(t)}存在著部分數據失真的問題。為此,文中通過對遺忘門ft加權的方式對LSTM模型進行改進。計算缺失數據ds附近的原始數據段D(s)與ARIMA擬合數據段yARIMA(s)的平均絕對誤差μs,以及原始數據段D(s+1) 與ARIMA預測得到的新數據段D′(s+1)的平均絕對誤差μs+1,如圖2所示。

圖2 改進遺忘門后的LSTM預測模型
在獲取上述平均絕對誤差的基礎上對遺忘門進行賦權,從邏輯上達到自適應去除誤差保留全程長期記憶趨勢的目的,此時的式(5)修改為:
(7)
(8)
為了增強文中模型的容錯能力,縮小預測值與真實值之間的置信區間,從而提高狀態預測的準確率,文中通過加權融合[14-15]的方法將ARIAM預測的周期趨勢和改進LSTM預測的長期趨勢進行融合,以此來降低預測誤差。首先,建立“新數據”序列{D′(t)}在G(t)ARIMA模型的學習絕對誤差函數矩陣E(t)和在G(t)改進LSTM模型中的擬合絕對誤差函數矩陣E′(t),即:
(9)
(10)

1=qk+q′k,k=1,2,…,T
(11)
(12)
(13)
(14)
(15)
將ARIMA和改進LSTM根據新序列{D′(t)}得到的預測數據p=[p1,p2,…,pm]、p’=[p′1,p′2,…,p′m]與周期內相對應的權重相乘[16],得到最后趨勢數據序列{y(t)}為:
{y(t)}=[y1,y2,…,ym]=p′×q′+p×q=[p1·q1+p′1·q′1,p2·q2+p′2·q′2,…,pT·qT+p′T·q′T,
pT+1·qT+1+p′T+1·q′T+1,…]
(16)
為了驗證文中模型在數據完整或數據殘缺的情況下均具有較高的準確率和可靠性,進行了以下實驗。實驗分析分為兩部分,第1部分為“數據質量對比”,選用絕對百分比誤差作為補齊后數據和完整數據之間的失真對比指標;第2部分為“預測準確性對比”,采用RMSE作為文中模型、LSTM、ARIMA的性能對比指標。
通過ARIAM對殘缺的負荷數據進行預測,逐步彌補缺失數據,采用絕對百分比誤差r(%)對修補數據的真實性進行評判:
(17)
式中PARIMA為ARIAM模型預測得到的用于填補缺失的數據,P為訓練數據真實值。補齊后的數據及其誤差如圖3所示,與真實值的絕對誤差均在15%以下,說明了ARIMA模型能較為準確地還原出數據規律,降低數據失真的可能性。并且補齊后的序列將數據之間的關系“串聯”起來,有效地避免了“斷層”數據對后續趨勢預測的影響。由于初期數據較少,導致了前5個補充值的預測誤差較大,但是隨著數據逐漸增多,數據周期趨勢和長期趨勢更加清晰,有效抑制了后續預測誤差。

圖3 “新數據”與原完整數據真實性對比
數據完整情況下ARIAM、LSTM和文中模型的預測結果和局部放大結果如圖4所示,文中模型的預測結果RMSE為295,準確率相比于ARIAM和LSTM分別提高了52%、25%。這說明文中根據改進LSTM學習情況和ARIAM擬合情況,對一個周期里不同時刻預測值分配權重的方法能達到“取長補短”的效果,降低了誤差較大數據的影響。

圖4 數據完整情況下文中模型、ARIAM和LSTM預測對比
從圖5和表1中可知,在數據殘缺的情況下,經過文中模型處理后的“新數據”的平穩性得到了顯著提升,并且數據的長期趨勢和周期趨勢會隨著“串聯”數據的增多而愈發顯著,此時的LSTM完成了訓練和預測任務預測的RMSE為862,而ARIMA預測的RMSE相比于數據缺失情況下降低了6%,為658。而文中模型利用“新數據”預測的RMSE為371,相對于同等情況下ARIAM預測和LSTM預測的準確率則分別高出了44%和57%,比數據缺失時的ARIAM預測提高了46%。以上對比數據說明,由于文中模型具備了ARIAM的周期預測趨勢和LSTM的長期預測趨勢,較好地呈現了周期趨勢圍繞長期趨勢變化的規律,并且改進遺忘門后的LSTM降低了“新數據”失真所帶來干擾。
另一方面,文中模型、ARIAM和LSTM利用“新數據”預測的準確率比數據完整情況下的準確率分別降低了26%、46%和120%,這是由于初期數據較少而導致ARIAM補缺時的誤差較大,這樣的誤差在傳統LSTM訓練過程中被逐次放大,并且隨著補缺數據的增多,誤差也會逐漸增大,進而降低了預測準確率。然而,文中模型對LSTM遺忘門進行的改進有效降低了數據失真所帶來的影響,抑制誤差的能力會隨著數據的增加而增強。因此,文中模型不僅通過改進LSTM遺忘門的方式有效縮小了預測值與真實值之間的置信區間,還采取融合預測的方法從全景的角度對數據進行分析,滿足大數據背景下的設備狀態全景掌控和狀態趨勢的精準預估。

圖5 “新數據”情況下文中模型、ARIAM和LSTM預測對比

表1 數據完整、殘缺和“新數據”情況下的文中模型、ARIAM和LSTM的RMSE對比
文中針對現有的電力大數據所存在完整性、規范性較差問題,以及傳統LSTM模型與ARIMA模型各自的特點,開展了如下研究:
(1)使用ARIMA預測模型根據歷史數據進行“查缺補漏”的方式解決了大數據的不規范、殘缺問題,得到了有利于趨勢預測的平穩、完整數據;
(2)對LSTM的遺忘門進行改進,有效地降低了誤差數據對記憶細胞的影響,較好地呈現了數據的長期趨勢;
(3)利用加權融合的方法對ARIMA和改進LSTM預測值進行修正,充分利用了全局趨勢和周期趨勢,能夠更為準確地預測數據變化趨勢。實驗結果表明,不論是數據完整還是數據殘缺的情況,文中模型相較于LSTM和ARIMA的預測精度都大幅提高。