楊 茂,王凱旋
(現代電力系統仿真控制與綠色電能新技術教育部重點實驗室 東北電力大學,吉林 吉林 132012)
近年來,傳統能源急劇消耗,由此帶來的環境問題越來越凸顯。同時,人們對電力的需求也日益增長。在此背景下,光伏發電逐漸向結構化、規模化發展。然而,大面積光伏場站的接入將影響電力系統的安全穩定運行,因此,準確預測光伏出力變得尤為重要[1],[2]。環境的局地效應和表層大氣運動的隨機性給光伏出力的預測帶來了不可忽視的干擾,同時,光伏出力的周期性和自相關性為光伏出力的預測帶來了得天獨厚的優勢,即相似日/相似片段的選取(光伏出力匹配研究)[3]。
光伏出力的預測方法包括以BP神經網絡、支持向量機、相關向量機為代表的靜態機器學習算法和以生成式對抗網絡、長短期記憶網絡(Long Short-term Memory,LSTM)為代表的動態機器學習算法等[4]~[8]。光伏出力匹配研究是提高預測精度的有效手段。目前,光伏出力匹配常用的方法包括K均值聚類、K近鄰算法、集對分析以及光伏出力特性建模等[9]~[12]。文獻[13]對光伏出力進行不同時間尺度的聚類建模,提取了光伏出力小時級和分鐘級波動特征,明確建立了不同天氣類型的聚類中心,并通過短期光伏出力預測驗證了建模的有效性。文獻[14]篩選出與對光伏出力相關性較高的氣象因素,然后,通過K臨近算法對相似樣本進行選取,最后,通過神經網絡實現了對光伏出力的概率預測。光伏出力匹配工作主要是從歷史實測數據和數值天氣預報(Numerical Weather Prediction,NWP)信息中篩選出與光伏出力相關性較強的變量,并通過匹配算法進行匹配。由于不同天氣類型、相同天氣類型下的氣象變量均有可能不同,因此,若采用固有強相關變量進行光伏出力匹配會導致匹配結果不理想。
本文提出一種基于最大相關最小冗余原則(Minimal Redundancy Maximal Relevance,MRMR)的光伏出力匹配研究方法。該方法先采用皮爾遜相 關 系 數(Pearson Correlation Coefficient,PCC)對數據庫進行相關性分析,篩選出固有氣象變量;再根據互信息理論對初步篩選后的數據樣本和預測日NWP信息按短波輻射進行特征抽取,選取當日氣象變量,進一步提高匹配效果;然后,將提取出來的待匹配日特征通過馬氏距離進行光伏出力匹配;最后,基于MRMR的光伏出力匹配結果,通過長短期記憶網絡對新疆某實際光伏場站進行短期預測,預測結果驗證了本文方法的有效性。
受多種氣象因素和組件狀態的影響,光伏出力具有不穩定性,難以控制。因此,在進行光伏出力匹配前,須要對影響光伏出力的氣象變量進行分析。光伏場站配備的傳感器可以接收多類數據,結合NWP信息,可為數據分析處理提供極大的便利。本文以新疆某實際光伏場站為研究對象,進行相關性分析及特征提取。
本文選取的歷史實測數據和NWP信息共計26類數據,數據長度為2017年2月5日-2018年4月30日,采樣時間間隔為5 min。其中,歷史實測數據通過所屬光伏電站數據采集系統獲得,歷史實測數據的種類包括總輻射(V1)、散射輻射(V2)、直 接 輻 射(V3)、背 板 溫 度(V4)、溫 度(V5)、濕 度(V6)、風 速(V7)、壓 強(V8)、風 向(V9)、光 伏出力(V10);NWP信息來自于當地氣象局數值天氣預報信息系統,NWP數據種類包括10 m風速(W1)、30 m風 速(W2)、50 m風 速(W3)、70 m風速(W4)、10 m風 向(W5)、30 m風 向(W6)、50 m風 向(W7)、70 m風 向(W8)、溫 度(W9)、2 m相 對濕 度(W10)、2 m濕 度(W11)、長 波 輻 射(W12)、短波 輻 射(W13)、云 量(W14)、氣 壓(W15)、降 水 量(W16)。
根據上述數據庫可以看出,26類數據不能全部作為光伏出力匹配的標準,因此,須要對這些數據進行初步相關性分析。本文采用PCC方法對原始數據進行特征抽取,PCC方法的理論公式為

式中:r為相關系數;Y為分析光伏出力與歷史實測信息時的光伏出力以及分析NWP信息之間關系時的短波輻射;X為分析光伏出力與歷史實測信息時的歷史實測氣象信息以及分析NWP信息之間關系時的其他氣象信息;N為樣本數目。
通過PCC方法對數據特征初步抽取的結果如表1,2所示,其中r為相關系數。

表1 基于歷史實測信息的抽取結果Table 1 Extraction results based on measured historical information
當相關系數的絕對值小于0.2時,認為NWP信息與光伏出力、短波輻射不相關。依據PCC方法可初步篩選出相關氣象信息,包括歷史實測信息(V1~V7,V10)8種,NWP信 息(W2,W3,W9~W13)7種,從而將原始氣象數據由26維縮至15維。
通過上文的初步篩選,實現了對原始數據的縮減,但從預測日光伏出力匹配角度來看,數據樣本質量仍須進一步改善。
在概率論和信息論中,2個隨機變量的互信息(Mutual Information,MI)或 轉 移 信 息 為 變 量 間相互依賴性的量度[15]。不同于相關系數,互信息能夠衡量2個隨機變量之間的相關性,即一個隨機變量中包含著關于另一個隨機變量的信息量。利用互信息有兩個目的,一為對PCC方法篩選后的數據通過減少耦合和冗余的數據空間來提高光伏出力匹配的速度和效率;二為利用MRMR原則進一步去除噪聲,提高匹配精度。
對于所要篩選的影響變量X和待匹配量Y之 間 的 互 信 息I(X,Y)的 計 算 式 為

式 中:PXY(x,y)為X與Y的 聯 合 概 率 分 布 函 數;PX(x)為X的邊緣概率分布函數;PY(y)為Y的邊緣概率分布函數;a為對數基底,取2。
能夠最大程度反映光伏出力信息的氣象特征被稱為最大相關,不同氣象特征之間的最大耦合為 最 小 冗 余[16],[17]。
通過PCC方法篩選后的數據樣本,基于互信息理論和MRMR原則,將數據樣本分為3類進行特征抽取。數據樣本種類分別為待匹配日NWP數據樣本集、歷史NWP數據樣本集和歷史實測數據樣本集。其中,待匹配日NWP數據樣本集根據待匹配日NWP互信息值的大小選定。歷史NWP數據樣本集則須要通過MRMR原則進一步篩選。由表1,2可知,經過PCC方法篩選后發現,W2(30 m風 速)和W3(50 m風 速)存 在 耦 合;W10(2 m相對濕度)和W11(2 m濕度)存在耦合。而歷史實測數據樣本集有兩個作用,一為光伏出力的預測應用,可以依據歷史實測數據樣本集選取輸入變量,提高LSTM的訓練速度和效率;二為利用該樣本集可以進行光伏出力匹配研究。但該樣本集中的V3(直接輻射)、V6(背板溫度)和V10(光伏出力)不能作為匹配的標準,因為待匹配日僅有NWP信息。
表3為基于不同樣本集,對4種不同天氣類型的互信息特征抽取結果。

表3 對4種不同天氣類型的互信息特征抽取結果Table 3 Mutual information feature extraction results from different sample sets
由表3可知,待匹配日NWP樣本集特征與歷史實測數據樣本集相同,但不同天氣類型下的主要氣象變量不同。影響光伏出力匹配的氣象特征 的 共 性 結 果 為(V1~W13)和(V2~W12),個 性 表現為不同天氣類型、相同天氣類型下,溫度、濕度、風速上的差異。由表3還可以看出,即使在不同天氣類型條件下,氣象特征的個性結果表現為溫度>濕度>風速這一固定排序,此結果與表1,2中基于PCC方法抽取結果相互驗證。因此,根據歷史實測變量與光伏出力進行相關性分析,選取相關性較高的變量作為光伏出力匹配的標準時,忽略了風速、濕度等變量在光伏出力匹配中的貢獻。
通過上述分析可知,對于歷史NWP數據樣本集中的耦合特征,W3(50 m風速)優于W2(30 m風 速),W11(2 m濕 度)優 于W10(2 m相 對 濕度)。本文對新疆某實際光伏場站2018年5月份的4種天氣類型(晴天、多云、雨天和晴轉多云)進行光伏出力匹配研究。從工程實際角度出發,由于光伏出力待匹配日僅有NWP信息,而NWP信息中的短波輻射的重要程度等同于實測信息中的總輻射,因此,對短波輻射的研究是必要的。通過對新疆1 a的短波輻射通量進行研究可知,年短波輻射通量在時間上的分布為單峰曲線,近似于正態分布,具體如圖1所示。

圖1 年短波輻射通量分布Fig.1 Distribution of annual shortwave radiation flux
由圖1可知,年短波輻射通量最高時節為5-7月。因此,5月的光伏出力匹配到8-12月的概率很小,可以進一步縮小匹配空間。
本文對5月份的2個晴天、2個多云、1個雨天和1個晴轉多云天進行光伏出力匹配研究。光伏場站裝機容量為30 MW,采樣時間間隔為15 min,根據不同天氣類型氣象變量的互信息值大小,采用馬氏距離進行光伏出力匹配,對于n個p維 樣 本 集X=(x1,x2,…,xn),xi,xj∈Rp,每2個 樣 本之間距離的計算式為

為比較本文方法的優越性,現將MRMR法與PCC方法的計算結果進行對比。不同天氣條件下,光伏出力的匹配結果如圖2所示。

圖2 不同天氣類型下,光伏出力的匹配結果Fig.2 Matching results of PV output under different weather types
由圖2可知,晴天天氣的光伏出力表現為一條光滑的單峰曲線,從匹配結果來看,雖然兩種方法均可匹配到晴天日,但本文提出的匹配方法效果更佳。多云天氣的光伏出力波動特性與局部區域的云層運動有關,依據歷史實測信息篩選出的固有氣象變量(對應的NWP信息分別為短波輻射、長波輻射和溫度)的光伏出力匹配效果僅能追蹤到部分波動區段,結合表3和圖2(b)可以看 出,該 天 氣 類 型 下 的W3(風 速)、W11(濕 度)的互信息值均大于W9(溫度),其中,W3的互信息值最大。圖2(c)左側為雨天的光伏出力匹配結果,該天氣條件下的光伏出力值很小,波動情況是由短時的云層運動導致的。另外,根據表2中雨天氣象特征的互信息值可以看出,風速互信息值為0.6,與長波輻射相近。但歷史實測數據樣本集中,該日的風速互信息值僅為0.1,進而容易忽略風速這一變量對光伏出力匹配的貢獻,因此,MRMR的匹配效果明顯優于歷史匹配方法。圖2(c)右側為晴轉多云的光伏出力匹配結果,該天氣類型的光伏出力的最大值出現在實驗前期,同樣,因為忽略當日氣象變量的影響,造成當日光伏出力的歷史匹配結果與晴天一致,而MRMR的光伏出力匹配結果符合該天氣類型特征。

表2 基于NWP信息的抽取結果Table 2 Extraction results based on NWP information
根據國家電網公司2014年5月1日發布的《光伏發電功率預測系統功能規范》中的均方根誤差(Root Mean Square Error,RMSE)、平 均 絕 對 誤差(Mean Absolute Error,MAE)和 合 格 率(Quality Rate,QR),這些指標同樣可以用來量化歷史天氣匹配結果的準確率,RMSE,MAE,QR的計算式分別為

表4為4種天氣類型(共6 d)條件下,不同方法的光伏出力匹配結果。

表4 不同方法的光伏出力匹配結果Table 4 Comparison of matching results of different methods
由表4可知,除了2018年5月7日,晴天條件下,2種方法的光伏出力匹配結果相近外,其余天氣類型均為本文提出方法的匹配效果優于歷史匹配方法。
光伏出力的準確預測有利于電網可靠性的評估和調度部門備用計劃的設定等[18]。然而,由前文可知,對于僅有NWP信息的待預測日,通過PCC方法處理后的可用信息分別為短波輻射、長波輻射、溫度、濕度和風速5種,利用這5種信息進行預測很難取得較好的預測結果。但通過光伏出力匹配可以得到待匹配日的實測氣象信息,對待匹配日的實測氣象信息進行氣象變量與光伏出力之間的相關性分析,篩選出輸入變量,有利于提升光伏出力的預測精度。本文匹配方法在光伏出力短期預測的應用流程如下。
①通過互信息理論和MRMR原則篩選出待預測日的氣象變量,根據篩選出的氣象變量的互信息值的大小選取輸入變量進行匹配。
②對①得到的待匹配日的實測氣象信息,進行氣象變量與光伏出力之間的相關性分析,篩選出變量作為LSTM的輸入變量。
③設置LSTM模型的參數為7-17-1,激活函數為sigmoid函數,最佳迭代次數為100,通過模擬得到最優預測結果。
基于前文分析,得到4種天氣類型的光伏出力預測結果如圖3所示。


圖3 光伏出力預測結果Fig.3 PV output prediction results
根據評價指標RMSE,MAE和QR,得到光伏出力的預測誤差評價結果如表5所示。

表5 光伏出力預測誤差評價結果Table 5 PV output prediction error evaluation results
由表可知,4種天氣類型的光伏出力預測結果的均方根誤差和平均相對誤差分別為5.56%和5.81%,合格率為99.65%,滿足光伏出力短期預測的指標要求(均方根誤差小于20%、合格率大于80%)。
本文針對氣象變量篩選結果不同導致光伏出力匹配結果不確定的問題,提出了一種基于最大相關最小冗余原則的光伏出力匹配方法,通過算例分析得到以下結論。
①根據待匹配日NWP氣象數據的互信息特征,提取與待匹配日實測氣象數據的后驗知識,可得影響光伏出力匹配的共性結果為短波輻射-總輻射、長波輻射-散射輻射;個性結果表現在溫度、濕度、風速上的差異。
②根據歷史實測氣象數據樣本集的互信息計算發現,即使不同天氣類型,篩選后的氣象特征個性結果一般表現為溫度>濕度>風速這一固定排序,其中,風速在光伏出力匹配時的貢獻易被忽略。