李振海,李鈺炎,易志高,蘇盛
(1.大唐華銀(湖南)新能源有限公司,湖南 長沙 422000;2.智能電網運行與控制湖南省重點實驗室,湖南 長沙 410114; 3.長沙理工大學,湖南 長沙 410114)
近年來,隨著全球經濟的蓬勃發展和人民生活水平的提升,人們對電力生產的需求不斷增加。然而,傳統的電力生產方式主要依賴于提取的化石燃料,如煤炭、石油和天然氣等,帶來了全球變暖等環境問題。此外,因化石燃料的有限性和不可再生性,過度開采可能導致能源資源的枯竭。因此,尋找清潔替代品已成為當務之急。其中,風能作為一種重要而有價值的資源,具備可持續生產的潛力。與傳統發電方式相比,風力發電具有諸多優勢[1-2]。全球范圍內對風力發電的關注不斷增加,人們認識到其潛力和可持續性。為了更好地利用風能資源,不斷改進和創新風力發電技術變得至關重要。各國紛紛投入資金和資源,加強風力發電技術的研發和應用,以推動清潔能源的轉型和可持續發展。
風力發電是受風力影響較大的能源形式,而風具有強烈的隨機性、波動性和間歇性的特性,這給風力發電接入電網帶來了挑戰[3]。由于風力的不可控性,風力發電機組的輸出功率會不斷變化,這對電網的穩定性和平衡性造成了較大的沖擊[4]。準確的風電預測可以幫助電力公司和調度員預測未來的風力功率,從而優化電力系統的運行,確保電力供需平衡。準確的預測結果還有利于制定合理的發電計劃、電力輸送和儲存策略,提高電力系統的效率和穩定性[5-6]。
大部分風電功率預測是利用歷史輸出和數值天氣預報數據,運用學習方法進行可靠的短期和長期預測。近年來風電功率預測所屬的時間序列預測問題在方法上有了很大的進步,早期的研究集中在線性統計模型。其中,李麗等人[7]使用平均滑動方法對經小波變換分解出的低頻和高頻功率成分進行重構,LIU等人[8]采用差分整合移動平均自回歸模型對非線性數據進行平穩化。然而,這些方法在構造高度非線性數據的最佳結構參數方面存在一定困難。隨著特征變量的可用性增加,越來越多的人開始使用機器學習模型,如隨機森林[9]、支持向量機[10]和極端梯度增強[11],這些模型因在特征處理方面的有效性而受到歡迎。深度學習模型具有更強大的學習能力和表達能力,能夠學習到更復雜的模式和抽象概念。WANG等人[12]通過經驗模態分解將原始數據分解成不同頻率信號,并使用神經網絡對每個頻率特征進行綜合,得到最終的功率曲線。HARBOLA等人[13]則提出了兩個一維卷積神經網絡,用于預測時間風電數據集中的主導風速和風向。此外,HAN等人[14]在長短時記憶網絡(long short term memory,LSTM)的記憶單元中引入了一個參數,用于抑制長期記憶中的隨機成分,從而增強對風電實際模式的學習,并避免過度擬合。近年來,組合模型在風電功率預測中變得熱門,不同算法的特點被結合利用,提高了預測模型的魯棒性。張紅濤等人[15]采用模糊聚類分析篩選出與預測日相關性較大的歷史相似日,并建立樽海鞘群算法優化極限學習機的超短期風功率預測模型。劉大貴等人[16]利用熵值法對單一預測模型進行權重組合預測,再借鑒馬爾科夫鏈方法對熵值法組合預測結果進行修正,得出未來一年的可用電量預測值。
LSTM在處理時間序列預測問題上具有明顯的優勢,并且可以通過結合其他模型來改善預測效果。本論文旨在構建一種組合模型,結合LSTM和輕梯度增強機(light gradient boosting machine,LGBM)模型,用于對風電功率進行多步預測。同時,采用網格搜索法對各模型的參數進行優化,以最大程度地提升預測精度。
風電場數據集的詳細信息包括風電功率輸出的分布及一般數據特征,如風速、風向、氣溫、氣壓、濕度等數據,數據維度高,特征波動性強。循環神經網絡(recurrent neural networks,RNN)和LSTM已被廣泛應用于時間序列建模。可以借助LSTM算法的特征提取能力對輸入數據進行特征提取,然后將提取的特征輸入到LGBM以建立新的組合預測模型。
LSTM是RNN的變體,具有強大的記憶和建模能力,特別適用于處理長序列數據和捕捉序列中的長期依賴關系。能夠在時間序列數據中增量地處理給定的信息,同時根據過去的信息完善正在處理的內容[17-19],并在接收到新信息時不斷更新狀態,建立層內之間的權重聯系。
LSTM的基本單元是一個帶有門控機制的循環單元,由一個細胞狀態(cell state)和三個門組成:遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。這些門的目的是控制信息的流動和更新,從而有效地處理序列數據。圖1為基本的長短時記憶網絡結構。具體功能如下:
ft=σ(Wf(ht-1,xt)+bf)
(1)
遺忘門決定了在當前時間步是否忘記之前的細胞狀態中的信息,根據當前時間步的輸入和前一個時間步的隱藏狀態來生成一個介于0和1之間的遺忘向量,用于對細胞狀態進行元素級別的遺忘操作。
it=σ(Wi(ht-1,xt)+bi)
(2)
(3)
輸入門決定了當前時間步的輸入中哪些信息將被添加到細胞狀態中,由當前時間步的輸入和前一個時間步的隱藏狀態共同決定。輸入門生成一個介于0和1之間的輸入向量,用于對當前時間步的輸入進行元素級別的篩選和更新[20]。

圖1 LSTM網絡結構
(4)
ot=σ(Wo(ht-1,xt)+bo)
(5)
ht=ottanhCt
(6)
輸出門決定了在當前時間步將細胞狀態中的哪些信息輸出到隱藏狀態中。輸出門由當前時間步的輸入和前一個時間步的隱藏狀態共同決定。輸出門生成一個介于0和1之間的輸出向量,用于對細胞狀態進行元素級別的篩選和輸出。
LGBM是一種高效的梯度提升決策樹框架,專注于處理大規模數據和高維特征,以提供快速的訓練和高質量的預測。LGBM采用基于梯度的學習算法,通過迭代地訓練多個決策樹模型來不斷提升預測的準確性。相較于傳統的梯度提升決策樹算法,LGBM引入互斥特征捆綁和直方圖算法,以加快訓練速度和降低內存消耗。LGBM還具有良好的可擴展性和并行化能力,能夠利用多核處理器和分布式計算資源進行高效訓練和預測。此外,LGBM提供了豐富的參數調整選項,使用戶可以根據不同的數據集和問題進行靈活配置,以獲得最佳的預測性能。
互斥特征捆綁用于處理高維稀疏特征[21]。在傳統的梯度提升決策樹算法中,每個特征都被視為一個獨立的特征列,會占用大量的內存和計算資源。而互斥特征捆綁將相關性較高的特征進行捆綁,形成一個新的特征列,從而減少特征的數量,提高計算效率。這種捆綁技術基于特征之間的互斥性,即同一樣本中只能選擇一個特征進行使用。通過互斥特征捆綁,LGBM能夠更有效地處理高維稀疏特征,提升模型訓練和預測的速度。
直方圖算法是LGBM用于構建決策樹的一種優化技術。傳統的梯度提升決策樹算法通常需要對特征進行排序,以便在每個節點上選擇最佳的切分點[22]。這個排序操作在高維數據上的計算成本很高,而直方圖算法將特征進行離散化處理,并構建直方圖來近似表示特征的分布情況,具體功能如圖2所示。通過對直方圖進行更新和搜索,LGBM可以快速選擇最佳的切分點,從而減少排序操作的開銷[23-24],大大加快了模型的訓練速度。

圖2 直方圖累計算法的過程
在風電功率預測任務中,除了風電功率,數據集中還包含了其他相關參量。不同的特征對于預測模型的影響程度可能不同,因此需要對特征進行篩選,保留那些與預測目標密切相關的特征,同時剔除與目標關聯性較低的特征,以提高預測模型的準確度。本文利用Pearson相關系數來評估特征與風電功率之間的關聯程度。具體計算公式為:
(7)
式中:Cov為協方差;σ為標準差。數據間的相關程度由K的絕對值反映,絕對值越大表示數據X與Y間的相關程度越高[25-26]。
根據表1中的結果,風速、風向和氣溫與風電功率之間存在較強的相關性,而其他特征的相關性較小,因此選擇將風速、風向和氣溫作為氣象數據的重要特征。

表1 特征變量皮爾遜相關系數表
標準化可以消除不同特征之間的量綱差異,使得數據在同一尺度上進行比較和分析。標準化可以使得數據的分布更接近于標準正態分布,有利于一些機器學習算法的收斂速度和穩定性,尤其是對于使用基于梯度的優化算法(如梯度下降)的模型。具體如下:
(8)
式中:Xi為標準化處理后的數據;X為原始數據;μ、D分別對應原始數據集上的均值和方差。
通過堆疊多個LSTM可以提取時間序列數據中的多層次抽象特征。每個LSTM層的輸出可以作為下一層的輸入,從而逐漸提取出更高級別的特征表示。最后一層LSTM的輸出可以被用作時間序列數據的最終特征表示。具體功能如圖3所示。每一個LSTM輸入形式為樣本、時間步長、特征,按時間依次記錄每個時間點上的信息,實現時間維度上的特征提取,并只將最后一個時間點上的隱藏信息ht輸出給下一層網絡,完成風電功率預測任務。

圖3 LSTM工作原理
將從LSTM中提取的特征輸入另一個機器學習模型中的方法,例如隨機森林和LGBM,以利用這些模型的優點并提高預測性能。特別地,選擇以LGBM作為代表性的機器學習模型,并使用原始輸入特征及從LSTM中提取的特征來訓練LGBM模型。整體模型架構如圖4所示。首先從輸入數據中提取特征信息,這些特征由LSTM模型自動學習并捕捉到時序上的模式和關聯。然后將這些平坦的特征輸出傳遞給LGBM模型。通過使用LGBM模型替代全連接層,可以避免因數據數量或質量的限制而陷入局部最優解。這種特征提取的方法為LGBM模型提供了更強的表達能力,從而提高了預測性能。

圖4 LSTM-LGBM整體結構
為了驗證論文所提模型在風電功率預測上的科學性和可靠性,選取某風電場2020年10月1日至2021年2月15日共32 000多條風電負荷產出作為原始數據進行實驗,數據集包括對應時間風電功率和天氣特征,如溫度、氣壓、濕度、風速等,采樣間隔為1 h。訓練集和測試集數據比例為4∶1,并且按照時序劃分。
預測模型的準確度和性能主要通過評估預測值與真實值之間的誤差來衡量。常用的評估指標包括均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和R平方(R-squared,R2)。RMSE用于度量預測值與真實值之間的偏差,其值越大表示預測誤差越大;MAE表示預測值誤差的平均絕對值;MAPE表示平均預測誤差與真實值之間的百分比差異;R2用于衡量因變量方差的百分比可以由模型解釋的程度。這些指標的計算公式如下所示:
(9)
(10)
(11)
(12)

此外,模型的收斂速度也被視為一個重要的評價依據。快速的收斂速度意味著模型在相對較少的訓練迭代次數內能夠達到較好的擬合效果。這對實際應用中的大規模數據集和實時預測任務非常重要,因為快速收斂的模型能夠更快地完成訓練,從而減少計算資源和時間的消耗。
3.3.1模型超參數設置
在風電數據集中,采用皮爾遜相關系數提取風速、風向和氣溫作為風電多步功率預測的主要特征。首先,將數據集輸入到LSTM網絡中提取時序特征,然后將這些特征傳遞給LGBM模型進行預測。此外,為了進行全面的性能比較,研究選取3種基礎模型,分別是LSTM、LGBM和額外樹回歸(extra trees,ET)。為了降低機器學習模型訓練過程中的隨機性影響,實驗中采用隨機種子和隨機狀態值。針對所有預測模型進行廣泛的超參數調優,而對于其他基礎模型,采用網格搜索的方法來確定最佳的參數組合。通過這樣的精細調整,優化模型的性能和預測準確度。最終,每個模型使用的超參數集合在表2和表3中展示,而超參數調優實驗的搜索結果見表4。這些實驗和調優過程,旨在提高預測模型的性能和準確度。

表2 神經網絡模型參數尋優

表3 LGBM參數尋優

表4 實驗所采用模型超參數設置
3.3.2預測方法
風電功率數據存在時間上的關聯性,可通過已有的時間序列數據訓練模型進而對下一時刻的風電功率進行多步預測,多步預測可以采用滑動窗口記錄時間信息,具體如圖5所示。使用滑動窗口進行時間序列預測是通過將時間序列數據分割為固定大小的窗口,提取特征、處理數據非平穩性、建立序列模型,并實現對未來時間步的預測能力,從而使模型能夠更準確地預測時間序列數據的趨勢和變化。在預測過程中,首先利用歷史數據對當前時刻進行預測,通過采用固定窗口長度為L的特征量作為模型輸入,得到當前時刻的功率預測值,然后將該預測值作為下一時刻功率預測的輸入。這種方法可以更準確地捕捉時間序列數據的趨勢和變化,實現多步預測的功能。

圖5 滑動窗原理
3.3.3模型組合
對于預測目標,選擇篩選后的特征作為模型輸入數量(為k),即輸入矩陣為x=(x1,…,xk);使用n種模型進行預測,對應輸出矩陣為y=(y1,…,yn),關聯系數矩陣為w=(w1,…,wn);關聯系數w的值介于[0,1],則對應組合模型的預測輸出矩陣為每組模型的預測值和對應的關聯系數相乘,具體為:
(13)
以相關誤差達到最小值為目標函數,確定最佳關聯系數矩陣,尋優公式表示為:
(14)

為驗證論文中提出的風電功率短期預測模型(LSTM-LGBM)的有效性,將LSTM-LGBM模型與其他單一模型(LSTM、LGBM、ET)進行比較,并在相同的風電功率數據上進行訓練和預測分析。各模型參數設置為網格搜索法中定義的最優參數,固定時間窗口步長為8,規定訓練集上的均方根誤差小于0.015時模型達到收斂狀態。表5列出了各模型的誤差評價指標及模型收斂所需的迭代次數,圖6展示了相應的功率預測對比曲線。

表5 不同模型評價指標及迭代次數

圖6 不同模型預測曲線對比
由表5可知,LGBM模型達到收斂狀態所需的迭代次數最少。得益于直方圖的分箱方法、互斥特征捆綁技術和梯度提升的機制,對比同為基于決策樹的ET算法,LGBM模型的收斂速度更快、預測性能更好。LSTM模型在處理序列模型時,由于遞歸的性質,需要更多的計算資源和時間。但是捕捉時序特征的能力較強,將第二個隱藏層上最后一個時間步上的64個隱藏狀態作為LGBM模型的輸入特征,體現出LSTM對時序特征的敏感性和LGBM對高維數據的擬合能力。與單獨使用LGBM模型相比,組合模型顯著降低了RMSE指標,降幅達到了22.43%。與單獨使用LSTM模型相比,組合模型在RMSE、MAE、MAPE和R2數值上的提升分別為33.07%、42.08%、30.9%和3.1%,同時在一定程度上獲得更高的訓練效率。圖6直觀地表現了各模型對功率的擬合能力,本文模型的預測值與真實值基本吻合。LSTM模型可以為LGBM提供更有信息量的特征表示,從而讓LGBM能夠更準確地進行預測。這種組合模型在預測功率數值和趨勢方面都表現得更加準確。考慮到風機功率受環境影響較大,表現出波動性和隨機性的特點。為了評估模型在不同的風電功率變化場景下的預測效果,選擇兩個不同場景的風電功率預測結果進行展示,分別如圖7和圖8所示。

圖8 風機功率波動區段圖
在風電功率趨于平穩的區段,LGBM模型相比LSTM和ET模型展現出更好的預測能力。LGBM模型能夠準確捕捉到風電出力的趨勢,并且具有較小的波動性。同時,結合LSTM和LGBM的組合模型在此基礎上實現了更為精確的預測曲線,說明本文模型對于穩定狀態下的風電功率具有較好的預測能力,能夠提供可靠的趨勢預測信息。在風電功率波動較大的區段,4個模型都能夠預測出一定規律的波動。然而ET模型和LSTM模型在波動規律上與真實值存在較大的偏差,并且存在一定的滯后性。相比之下,LGBM模型在這個場景中表現良好,預測曲線的趨勢與真實值基本一致,但仍然存在一定的偏置。值得注意的是,通過LSTM模型提取特征后的LGBM模型展現出更好的預測性能,無論是在趨勢還是數值上都與真實值基本吻合。
風機出力受到風速、風向、氣象條件等多種因素的影響,與特征之間高度的非線性關系加大了風電功率短期預測的難度。提取特征的意義在于從原始的風機出力數據中提取出具有代表性和有意義的特征,用于建立預測模型和進行分析。為進一步提升風電功率的預測精度,提出一種LSTM-LGBM的風電功率短期預測方法,利用LSTM網絡對時間的敏感性提取出原始數據中的時序特征,通過LGBM模型迭代訓練多個決策樹來進行集成學習,并設置了不同的超參數,以選擇最優的預測效果。驗證結果表明該方法具有較好的預測性能和有效性。具體結論如下:
1)通過與其他單一預測模型進行比較,本文提出的組合模型展現了更小的預測誤差,具有更高的預測精度和預測性能。
2)通過將LSTM和LGBM結合在一起,模型能夠充分利用LSTM提取的時序特征和LGBM模型的強大擬合能力。LSTM提供了對過去觀測值的建模,捕捉了風電功率的長期趨勢和周期性,而LGBM通過對LSTM提取的隱藏狀態的建模,進一步改善了預測性能,提高了對未來風電功率的準確預測能力。
3)LSTM-LGBM模型在不同的風電功率變化趨勢上都具有良好的擬合能力,對數據的解釋能力較強,并且這種集成學習方式能夠提高模型的魯棒性和泛化能力,使得模型能夠更好地適應不同的風電功率預測任務。
模擬出力風機功率預測任務中,還有一些待完善的方面,可以考慮引入天氣數據、季節性特征、時間相關特征等,以更好地捕捉風機功率與環境因素之間的關系。可以嘗試使用可解釋性強的模型或方法,如SHAP值、特征重要性分析等,來解釋模型預測結果,并對預測結果進行可解釋性的評估和解釋。