郭紅偉
(云南電網有限責任公司西雙版納供電局)
隨著“雙碳”目標的提出,國家正加快構建綠色能源體系,減少對傳統能源的消耗,發展新型的以新能源為主體的電力系統,提升國家能源安全水平[1]。截至2020年底,我國光伏、風機規模快速增長,達到5.3×108kW,約占總裝機容量的24%;到2030年容量規模預計將超過煤電;2060年前,容量規模有望超過總容量的50%,發展潛力巨大[2]。
受氣象因素影響,光伏發電常伴有隨機性、波動性的特點,因此為電力系統的調度工作帶來困難[3]。為減小光伏并網對大電網穩定運行造成的影響,提升電網調度的集中管控水平,需對光伏電站的輸出功率進行精準預測。
常見的光伏電站功率預測方法大致分為兩類。一類采用時間序列預測模型,通過對功率的時序性與自相關性進行分析,利用歷史負荷數據進行預測,該方法較為簡單,但預測精度也較低;另一類采用機器學習預測模型,利用神經網絡優秀的非線性映射能力,經過多次迭代訓練,實現將提取的特征量與預測功率的有效擬合,效果更為準確、便捷[4]。文獻[4]建立了一種PCA-LSTM預測模型,通過主成分分析法去除氣象數據中的噪聲,再利用LSTM網絡對電力負荷進行預測,相較于ANN網絡預測精度有所提升,但主成分分析法為線性變換降維,存在一定局限性。文獻[5]采用了EMD-LSTM預測模型,EMD將原始序列分成多個模態,結合泛化能力強的LSTM,預測精度有所提高,但會出現模態混疊現象。文獻[6]采用了BP神經網絡模型,利用粒子群算法優化初值和閾值,但局部預測波動較大,穩定性不夠。文獻[7]引入大氣中的霧霾因素,利用灰色關聯分析,獲得關聯度和權值,并排序選出相似日,然而這種模型僅在霧霾影響時間較長時預測更準確。文獻[8]和文獻[9]均采用支持向量機的預測算法,這種方法的優點是可以獲得全局最優解,但在處理大樣本數據時,計算效率降低。文獻[10]提出一種新的能源時間序列多元預測技術,依賴二維卷積層獲得豐富的嵌入表示,提供不同物理時間序列之間的依賴關系,但其局部的預測卻因光照強度增加而精度有所下降,存在一定的缺點。文獻[11]提出一種基于CNN-LSTM的長短期時間模塊和注意力機制的混合預測模型,可以同時捕捉短期和長期時間序列的變化,但是若輸入長度超過記憶長度范圍時,預測誤差比較明顯。
本文提出了一種CCNN的預測模型,利用因果卷積網絡對時序信息優秀的預測能力實現對光伏發電功率的預測。為避免氣象噪聲影響預測精度,引入LSTM網絡輸入門去除噪聲,并將新的特征數據有選擇地更新到模型狀態中。通過仿真實驗分析,驗證了該方法的有效性。
在光伏系統中,光伏發電輸出功率受多種因素影響,文獻[12]給出了輸出功率公式:
式中η為光電轉換效率;S為光伏陣列面積;I為輻射強度;t0為大氣溫度。
在同一光伏電站,將η與S視為常數,由此影響輸出功率的主要因素為光照輻射強度和溫度。同時,大氣顆粒濃度、顆粒質量、降雨和風速等氣象要素也會對輸出功率造成影響。這些特征數據隨著時間不斷變化,后值與前值存在依賴,具有一定時序性與自相關性。
LSTM網絡屬于循環神經網絡的一種[13],它通過記憶單元存儲長時間序列信息,學習長期依賴關系。LSTM網絡結構如圖1所示,含三個門結構:遺忘門、輸入門和輸出門。
遺忘門通過σ激活函數確定信息被丟棄的比例,從而決定從上一節點中遺忘哪些信息。輸入門為LSTM的記憶階段,它將新信息有選擇地更新到細胞狀態中。其中包括兩個重要函數,σ函數和tanh函數。首先,當前輸入xt和上一狀態傳遞的ht-1組成拼接向量,由拼接向量乘以權重矩陣后,σ函數將其轉換成0到1之間的數值,來作為一種門控狀態。h函數將其轉換成-1到1之間的值,作為輸入數據。然后將遺忘門和輸入門的結果相加,即為下一狀態記憶細胞Ct的狀態。具體計算見式(2) ~(4)。輸出門決定哪些信息作為當前狀態的輸出值,計算公式見式(5)和式(6)。
式中:xt為當前輸入向量,ht-1為前一時刻輸出向量,ht為當前時刻輸出向量;ft表示遺忘門,it表示輸入門,Ot表示輸出門;Ct-1為前一時刻單元狀態,Ct為當前時刻單元狀態,為當前輸入單元狀態;W表示權重矩陣,b表示偏置向量。
本文提出一種CCNN預測模型,模型包括輸入層、卷積層和輸出層,因果卷積網絡結構如圖2所示。

圖2 因果卷積神經網絡結構
因果卷積網絡的結構比較簡單,它能很好的解決序列問題[14],可以根據x1……xt和y1……yt-1來預測yt,使yt接近于實際值。對于光伏發電功率,可以認為當前的發電功率與當前氣象數據存在因果關系,通過訓練挖掘,構建出一個氣象數據和發電功率的條件概率模型。
為了提高模型預測的準確性,在每一層卷積計算中,加入LSTM網絡,計算方式如圖3所示。

圖3 因果卷積計算過程
首先,對獲取的數據集作歸一化處理,見式(7),防止激活函數出現飽和現象[15],然后將歷史數據樣本輸入到預測模型中。設當前輸入為X =[xi,xi+1],先經過LSTM的輸入門對大量樣本數據進行篩選,利用σ函數和tanh函數賦予重要信息權重,同時對輸入參數進行過濾,去除一些干擾噪聲。再經過1×1卷積核,加深網絡,添加非線性,學習更復雜的功能。然后通過relu函數加快計算速度,見式(8),獲得下一卷積層的輸入值Yi。具體計算見式(9)。
式中:x′為歸一化后數據,x為原始數據,xmax原始數據集最大值,xmin為原始數據集最小值。Wg,f、Wm,n和Ws表示權重,*表示卷積運算,·表示乘法運算。
通過對模型的不斷訓練,使模型各參數達到最優。最后輸入測試集,獲得預測結果。整個算法流程如圖4所示。

圖4 訓練流程圖
為了評估模型預測的精確度,本文選取了均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)和絕對百分比誤差(APE)。
式中,yi為實際值,為預測值,n為樣本個數。
本文選擇kaggle上巴西某光伏電廠2019年10月到2020年3月的氣象數據和電氣數據,總計105436個樣本。數據每日采樣時間為00:00—23:59,采樣間隔為1min。氣象數據包括太陽輻射、顆粒質量和顆粒濃度(含1μm、2.5μm、4μm和10μm)、平均顆粒濃度、環境溫度、風向、風速以及降雨。其中部分樣本存在數據丟失情況,為保證數據連續性,若丟失數據前后時刻數據皆存在,選取前后時刻數據均值作為該時刻數據;否則選取近一周該時刻數據均值作為本時刻數據。
為提高預報精度,同時盡量減少輸入層節點數,選擇待預報時刻的氣象數據和預報時刻前一日與前兩日的氣象數據與發電功率作為輸入。具體節點變量見表1。

表1 輸入層與輸出層節點變量
本文對數據集完成數據清理后,按8:2的比例分為訓練集和測試集,使用均方根誤差作為損失函數,并采用Adam梯度下降算法以提高收斂速度。為充分驗證所提模型的準確性,選擇ANN模型、CNN模型、LSTM模型進行對照實驗,預測誤差結果對比見表2。

表2 各模型預測誤差對比
由表2可知,CCNN模型的RMSE和MAPE指標均小于對照模型組,相較于ANN、CNN和LSTM 模型,均方根誤差分別降低了7.5%、9.2%、0.7%;平均絕對百分比誤差分別降低了15.5%、12.5%、10.8%,預測效果較好。
為進一步分析各模型預測精度,選取測試集中30個樣本點進行觀察,結果詳見表3,表格左側為樣本真實值,右側為四種模型的預測值與APE值。不同模型預測結果對比情況如圖5所示,由圖可知,光伏功率變化具有明顯時序性,CCNN和LSTM模型均能較好反映這種時序性。相對而言,ANN和CNN模型波動明顯,表現較差。但是在一些細節方面,可以看出CCNN較LSTM模型處理更細膩,預測更精確且穩定。如圖6所示,為不同模型APE指標對比圖,由圖可知,CCNN模型APE指標的主要波動范圍在0.5~5,而LSTM模型APE指標的主要波動范圍在1.1~12。其中在樣本點25和樣本點30處,LSTM的APE值為31.602、20.453,而CCNN對應的APE值為6.751、0.755,主要原因是這兩點均存在較大的天氣變化,二者相比,顯然LSTM模型預測誤差更大。同時也可發現CCNN模型預測精確度具有一定規律,對于光伏功率的峰谷值預測精度優于功率上升或下降階段的預測精度,這可能是由于功率在上升或下降階段氣象因素變化更加復雜導致,需進一步研究明確。

表3 樣本點結果對比

圖5 不同模型預測結果對比圖

圖6 不同模型APE指標對比圖
結合光伏發電數據的時序特性,本文提出了一種基于CCNN的光伏功率預測模型。采用LSTM輸入門網絡去除特征數據中的噪聲,篩選重要數據賦予相應的權重,并利用因果卷積網絡對時間序列問題有良好的數據挖掘能力,提高了模型的預測精度。
通過與本文所提的3種預測模型進行對比,試驗結果表明,CCNN的RMSE和MAPE值偏低,具有很好的魯棒性和泛化能力。
本文算例分析中未對具體的天氣變化與預測功率之間的影響作詳細的分析,在峰谷值預測精度優于功率上升或下降階段的預測精度。針對這些不足,接下來的工作應細化研究預測精度的波動原因,優化改進預測模型,以期進一步提高模型整體精度。