方鵬,高亞棟,潘國兵,馬登昌,孫鴻飛
(1.浙江華云電力工程設計咨詢有限公司,浙江杭州 310023;2.浙江工業大學機械學院機電所,浙江杭州 310023)
隨著近年來太陽能、風能、生物質能等新能源發電技術的飛速發展,準確預測光伏電站各個時期的發電量變得非常重要。成功預測光伏電站發電量有助于分布式光伏電站的優化經濟運行和電網的安全可靠運行。目前我國分布式光伏電站建設存在缺乏系統全面的前期規劃,項目運營成本超過預期等問題。因此,建立可靠的模型預測分布式光伏電站的發電量,越來越成為可再生能源發電領域的研究熱點之一[1]。
現有的光伏發電輸出預測方法從預測的時間尺度來看,超短期和短期預測模型有助于電力系統調配與運營[2]。而中長期發電預測則采用統計學分析方法,通過對目標電站所在區域的中長期氣象數據、輻照度等監測數據擬合分析,并結合分布式光伏電站自身系統效率變化,預測以后一個月或甚至更久的電力輸出,可以應用于光伏電站的選址及效益評估等方面[3]。
目前,國內暫時沒有中長期時間尺度的研究,國外有少數學者在此方面研究,但相關文獻較少。Kanna[4]建立了一種基于自適應小波神經網絡的長期光伏發電預測模型。Yu[5]采用局部高斯過程回歸高斯混合用于長期光伏發電預測的Copula函數。李芬[6]基于歷史光伏發電時間序列數據和GA-BPNN算法聯合建模實現光伏短期出力預測。譚建斌[7]基于思維進化算法和BP神經網絡算法,建立了光伏發電功率的短期預測模型。模型以溫度、輻照度、風速和歷史出力序列為輸入因子,根據季節劃分為4個預測單元,對其分別進行訓練和輸出預測。通過仿真驗證了算法的有效性和準確性。Garcia-Martos[8]提出了基于動態因素的光伏發電中期預測模型。不同于超短期、短期預測模型,中長期預測模型需要考慮光伏電站長時間周期工作下的損耗因素,即系統效率(PR),但目前大多數有關系統效率的研究都是基于復雜的物理模型,基于數據驅動的系統效率模型尚未建立。
現有的光伏發電預測相關的工作主要集中在短期和超短期。出于電網運營商和規劃者的需要,中長期發電預測已開始受到越來越多的關注[9]。而中長期的光伏發電預測需要提供更多的氣象和運營數據。鑒于現有光伏發電預測方法存在的問題,本文提出一種基于FCM-RF(Fuzzyc-meansalgorithm-Random forest)和LSTM(Long Short-Term Memory)神經網絡的分布式光伏電站發電量預測方法。針對特性劃分和特征提取中出現的問題,采用FCM聚類將分布式光伏電站數據聚類,然后按聚類結果在不同類數據上構建CART樹,并對各類CART樹剪枝處理,提取主要影響分布式光伏電站發電的特征,實現特征降維,提高模型運算速度。最后,經過基于剪枝后的CART樹模型預測分布式光伏發電驗證,所提出的方法在預測精度和降低模型的訓練時長方面均優于其他方法。針對分布式光伏電站的發電量受輻照度的影響較大的問題,現對輻照度進行預測,但是進行長期預測存在“長時間周期依賴”問題,所以引入LSTM神經網絡的設計,解決了這一問題。在分布式光伏電站中長期發電量預測任務中,使用間接預測方法,通過歷史氣象數據預測未來中長期時間尺度的輻照度,結合分布式光伏電站系統效率值(PR),最終預測系統發電量。
基于FCM-RF的預測模型首先要計算聚類中心,使用FCM算法對數據進行處理,具體步驟:指定聚類類別數C,2≤C≤n,n為數據個數,m為一個加權指數,本節設迭代停止閾值等于ε,初始化聚類中心為Vb,設置迭代計數器b=0。然后求解劃分矩陣U;再更新聚類中心V(b+1);如果||Vb-V(b+1)||<ε,則終止迭代,否則b=b+1,返回繼續求解劃分矩陣U。
然后須要構建CART決策樹,并進行剪枝處理。首先在訓練集所在的特征空間中構建二叉決策樹,通過遞歸的形式把每個特征空間劃分為兩個子特征空間并決定每個子特征空間上的輸出值。
最后構建隨機森林模型,其算法步驟如下。

②在節點分裂的過程中,從已知樣本數據的M維特征中隨機地抽取m個特征作為該葉節點分裂所用的特征集合,根據樣本量的大小設定m的值,一般情況下,如果不對決策樹算法進行其他改進,在整個隨機森林形成過程中m值永遠保持不變。
③對每個CART決策樹進行剪枝處理,使其達到最大程度的葉節點數。

在給定自變量X=x的情況下,通過對因變量Yi(i=1,2,…,n)預測值進行加權平均,最終得到單棵決策樹的預測值。


分布式光伏電站的發電量受輻照度的影響較大,在分布式光伏電站中長期發電量預測任務中,通常使用間接預測方法,通過歷史氣象數據預測未來中長期時間尺度的輻照度,結合分布式光伏電站系統效率值(PR),最終預測系統發電量。
長時間記憶神經網絡通常被稱為“LSTM”,它是一種特殊的遞歸神經網絡RNNs(Recurrent Neural Networks),能夠勝任像“長時間周期依賴”這類問題的預測任務[10]。LSTM神經網絡具有長期記憶功能,能夠深入挖掘有限數據樣本的長期依賴關系和趨勢。它還可以解決遞歸神經網絡(RNNs)在訓練過程中,梯度消失導致對距離的感知能力喪失的問題[11]。相較于標準RNNs神經網絡只擁有一個神經網絡層,LSTM網絡擁有4層,并以一種非常特殊的方式相互作用。
中長期輻照度預測模型基于LSTM神經網絡建立,該模型在RNNs神經網絡中增加了4個門層,即遺忘門層、輸入門層、更新門層和輸出門層,以解決在中長期輻照度預測中長時間尺度、數據樣本有限的問題,并有選擇地記住反饋的校正參數,模型的最優誤差參數通過梯度下降法求解。遺忘門層用于計算需要遺忘的信息,在中長期輻照度預測任務中,當前輻照度預測需要借助同一時間序列上前一時間周期的節點數據。該門層可以讀取上一層的輸出ht-1和當前輸入的xt,然后輸出一個0~1的值ft,該值是通過sigmoid函數處理得到,并將其分配給當前的單元狀態Ct-1。ft為1表示“保留所有”狀態,0表示“全部遺忘”狀態。

式中:方括號內表示將兩個向量聯系在一起,Wf為遺忘門層的權重矩陣,σ為sigmoid函數;bf為遺忘門層的偏置項。
輸入門層由兩部分組成。第一部分用來決定到sigmoid函數的輸入值;第二部分創建一個新的候選向量添加到單元狀態Ct的tanh函數的輸入值,即:

式中:it為到sigmoid函數的輸入值;Wi,Wc分別為第一部分和第二部分的權重矩陣;bi為第一部分決定到sigmoid函數的輸入門層的偏置項;bc為第二部分創建一個新的候選向量的輸入門層的偏置項;C?t為添加到單元狀態Ct的候選向量。
更新門層用于更新舊的單元狀態,當前時刻的單元狀態值等于遺忘門的輸出值的乘積與輸入門層的前一時間狀態值和兩部分輸出值的乘積之和,即:

式中:Ot為由sigmoid函數輸出的參數信息;Wo為輸出門層的權重矩陣;bo為輸出門層的偏置項;ht為當前單元輸出結果。
分布式光伏電站中長期發電量預測模型采用間接預測法,基于分布式光伏PR預測模型與中長期輻照度預測模型的結果,其表達式為

式中:Ep為系統發電量,kW·h;HA為太陽能總輻照量,W/m2(由中長期輻照度預測模型得出);PAZ為裝機容量,kW;E s為標準條件下的輻照度,常數=1 000 W/m2;PR為系統綜合效率損耗系數,由分布式光伏電站PR預測模型得出。
在分布式光伏電站發電預測任務中,電氣參數特征多為靜態特征,即其特征值取若干個離散數值或文本種類。本文選用的電氣設備特征為廠家提供的設備參數表中影響該設備電氣特性的參數集數據,主要包括光伏組件參數、逆變器參數、匯流箱參數、變壓器參數、交直流電纜損耗參數。
PR預測實驗數據來源于澳大利亞中部的愛麗絲·斯普林斯區域內分布式光伏電站數據。為了驗證基于FCM-RF的分布式光伏電站PR預測方法,收集了來源于澳大利亞中部的愛麗絲·斯普林斯區域內76個分布式光伏電站數據,其中分布式光伏電站監測數據包括:組件溫度、PR、功率、發電量等,記錄的時間間隔分為5,15 min和1 h 3種;氣象數據取自當地氣象站2015-2018年的觀測數據,時間尺度為每月,氣象因子包括:輻照度、風速、風向、環境溫度、濕度、組件溫度、氣壓;電氣參數取自58個分布式光伏電站各個設備的技術參數表,包括光伏組件、逆變器、變壓器、匯流箱、交直流線纜型號。
在中長期輻照度預測實驗中,輻照度數據和相關氣象數據包括2010-2017年整個領域的實測輻照度值和當地氣象實測數據,采樣頻率為15 min。通過計算將數據轉換為月平均輻照度數據和月平均氣象數據。在分布式光伏電站中長期發電量預測任務中,通過歷史氣象數據預測未來中長期時間尺度的輻照度,結合分布式光伏電站系統效率值(PR),最終預測系統發電量。
PR預測實驗數據中包含76個分布式光伏電站,為了衡量模型的效果,選取其中4個電站數據用于測試,其電站序號分別為19,35,57和63。訓練集數據的時間序列為2015-2017年,采樣周期為每月,基于RF預測電站在2018年每月的PR值預測結果絕對誤差百分比(The Mean Absolute Percentage Error,MAPE)與均方根誤差(The Root Mean Squared Error,RMSE)如表1所示。

表1 基于RF預測結果誤差表Table 1 Based on RF prediction result error table
為提高預測精度并降低模型的訓練時長,在傳統RF進行剪枝之前引入FCM算法,根據訓練數據差異性將訓練數據分為若干個相似類。基于FCM-RF的PR預測MAPE與均方根誤差RMSE如表2所示。

表2 基于FCM-RF預測結果誤差表Table 2 Based on FCM-RF prediction result error table
由表2可以看出,PR預測值與實際值的誤差值在2.3%上下浮動,在訓練時間上有很大程度的減少。可見,相較于RF算法,FCM-RF算法在具有在多種數據結構差異的情況下準確預測的優點,適應能力強且計算速度快。
中長期輻照度預測實驗中,采用2010-2017年整個領域的實測輻照度值和當地氣象實測數據,采樣頻率為15 min,通過計算將數據轉換為月平均輻照度數據和月平均氣象數據,分別以輻照度、晴空指數、日照時間以及云量比作模型的輸入。
圖1為LSTM神經網絡模型與其他模型對2018年澳大利亞中部的愛麗絲·斯普林斯區域的太陽輻照度預測效果與實際對比圖,其中預測值經過log反變換為真實輻照度值域范圍。

圖1 LSTM神經網絡與各模型預測結果對比圖Fig.1 Comparison diagram of prediction results between LSTM neural network and each
表3為LSTM神經網絡模型與各模型的預測誤差對照表。

表3 等溫吸附曲線擬合參數Table 3 Fitting parameters of isothermal adsorption curve
從最終的預測結果中可以發現,在中長期輻照度預測任務中,LSTM神經網絡不論在訓練集上的擬合效果,還是在最終的預測結果中都呈現較好的效果。對于預測誤差,由于最終的輻照度值在實際的值域范圍,數量級較大,適合MAPE作為誤差衡量標準,對于中長期預測任務,預測結果的MAPE在5%以內都是可接受的范圍。因此,在訓練樣本數據有限,預測目標在時間序列上有規律的變化趨勢,且具備“長時間周期依賴”條件的中長期輻照度預測任務中,使用LSTM神經網絡具有較好的預測效果。
結合分布式光伏電站PR預測模型在預測了19,35,57和63號分布式光伏電站每月PR值后,繼續對各電站2018年發電量預測,如圖2所示。

圖2 電站2018年發電量預測結果Fig.2 Power generation forecast for power station in 2018
圖中,19號電站的MAPE為3.85%,35號電站的MAPE為3.41%,57號電站的MAPE為4.01%,63號電站的MAPE為3.14%。將19,35,57和63號電站月預測發電量累加,與實際2018年總發電量對比,4個電站的年MAPE分別為0.88%,1.12%,1.03%和1.23%。由此可見基于FCM-RF的分布式光伏電站PR預測模型與基于LSTM的中長期輻照度預測模型組合而成的分布式光伏電站中長期發電量模型的每月預測值與實際值的MAPE在3.5%上下波動,各電站年預測值在1.1%上下波動,預測效果較好。
分布式光伏電站中長期發電量預測的時間尺度較大,天氣預報精度較低,歷史發電數據樣本有限,中長期發電預測與短期發電預測存在較大差異,因此短期發電預測技術不能直接復制。出于電網運營商和規劃者的需要,中長期發電預測已開始受到越來越多的關注。本文為了解決中長期預測問題,采用數據預處理技術為模型提供高質量的輸入數據,并對傳統RF算法改進,建立了基于FCM-RF的分布式光伏電站PR預測模型;接著研究了中長期輻照度預測方法,通過與基準模型比較,提出了基于LSTM網絡的中長期輻照度預測模型;最后利用間接預測法建立分布式光伏電站中長期發電量預測模型。
通過實例驗證,在實際的預測結果,基于FCM-RF的分布式光伏電站PR預測模型相比傳統RF算法,MAPE穩定在2.2%,RMSE穩定在2,具有較好的預測效果。LSTM神經網絡相比其他模型,MAPE減少到4%,R-square提高到0.93,具有較強的預測效果。預測了2018年實際電站的月發電量以及年發電量,與實際電站的真實發電量對比,月發電量預測MAPE在3.5%附近波動,年預測MAPE為1.1%附近波動,預測效果較好。