張凌浩,張明,嵇文路,方磊,秦羽飛,葛磊蛟
(1.國網江蘇省電力有限公司南京供電公司,南京市 210019;2.智能電網教育部重點實驗室(天津大學),天津市 300072)
光伏發電是近年來發展最為迅速的可再生能源技術。隨著政府對光伏行業的大力扶持,截至2019年9月底,光伏發電裝機容量達到1.90億kW,其中分布式光伏發電占比達到了30%以上,用戶數量超過數十萬。海量分布式光伏電站具有應用場景復雜多樣、氣象條件各異、接入點網架結構不一等特點,其運維信息獲取、決策模型定制、結果評價等方面面臨諸多困難。尤其是分布式光伏電站運維需要監測的數據點多,僅依靠增加傳感器數量和提高采集頻次等方法將造成數據采集、傳輸、存儲的成本過高問題。充分考慮分布式光伏電站運維的經濟性,低成本、高效率的分布式光伏電站運維數據虛擬采集方案值得深入研究[1-2]。
光伏電站運維數據虛擬采集是指利用類比方式,結合區域范圍內已安裝采集終端的光伏電站數據,將未安裝采集裝置的光伏電站數據進行補充完善,達到數據虛擬采集的目標。目前,國內外對于光伏電站數據虛擬采集的研究相對較少,但在光伏發電功率預測與數據修復的相關方法方面,國內外學者們進行了一些研究,可為分布式光伏電站運維數據虛擬采集提供借鑒。在光伏功率預測方面,預測的過程可以分為直接預測與間接預測[3-5]。直接預測是將光伏發電功率的歷史數據作為預測模型的輸入量來進行預測,如文獻[6]將光伏功率數據作為神經網絡的輸入量直接進行預測。間接預測法是先對環境因素如溫度與輻照度等進行預測,然后將其作為輸入量利用特定的算法進行光伏功率的預測,如文獻[7]先預測溫度及輻射強度,然后利用光伏發電模型預測輸出功率。直接預測不用預置大量的環境監測設備,因此成本相對較低,但其需要大量的數據支持,文獻[8]提出了將相似日算法與小波神經網絡相結合的預測方法,引入相似日,大大減少了需要的歷史數據量,只需將相似日數據作為訓練小波神經網絡的訓練樣本,而且在精度上也有明顯的提高。在光伏數據修復方面,文獻[9]提出一種考慮天氣和空間相關性的光伏電站輸出功率數據修復方法,將自身相似數據與空間相關電站的數據結合,對已有方法進行有效補充,擴展光伏電站輸出功率數據修復的應用場景。
借鑒以上經驗,本文提出一種基于灰色關聯理論和BP神經網絡的分布式光伏數據虛擬采集方法。首先,依靠區域范圍內已經安裝數據采集裝置的分布式光伏電站獲知數據,選取影響光伏輸出功率的主要氣象因素——輻照度,將其作為特征向量利用灰色關聯理論進行相似日的選取,并考慮歷史數據對光伏發電影響具有“近大遠小”的特點[10],選取90天的數據作為原始數據訓練集。然后,將相似日的歷史數據和實時的區域范圍內輻照度數據作為BP神經網絡的輸入,實現區域范圍內分布式光伏電站運維數據的虛擬采集。最后,以實際光伏電站為例, 驗證本文所提模型的有效性。
分布式光伏發電功率受到氣候、地域等多因素影響,但是一個特定地域內光伏發電的歷史數據具有一定相似性,即相似日。本文擬采用灰色關聯理論選取相似日,可大大減少模型需要的歷史數據量。
灰色關聯度分析法是灰色系統分析方法的一種,是根據因素之間發展趨勢的相似或相異程度,亦即“灰色關聯度”,作為衡量因素間關聯程度的一種方法。灰色關聯度分析法選取相似日的步驟詳述于下[11-14]。
1)構造氣象特征向量。
一般而言,光伏發電的主要決定因素為光照輻射度。輻射度越強,則輸出功率越大。圖1為已安裝數據采集裝置的分布式光伏電站任意A、B兩天內輻照強度與光伏出力的特征曲線,輸出功率的曲線特征與太陽輻照的曲線特征極為相似,二者具有較高的關聯度。參考文獻[15]并結合實際現有的數據,本文擬將輻照度作為相似日選取的特征向量。

圖1 輻照度與輸出功率曲線圖Fig.1 Curves of irradiance and PV output power
考慮歷史數據對光伏發電影響具有“近大遠小”的特點,在這里選取90天的數據作為訓練集,采用每個歷史日輻照度的平均值與各時刻的輻照度構造特征向量:
X=[F1,F2,…,Fn,Fav]
(1)
式中:Fi(i=1,2,…,n)為第i個時刻的輻照度;Fav為輻照度的平均值。
2)計算關聯度。
將輻照度數據與光伏功率數據進行如下歸一化處理:
(2)
式中:x、xmin、xmax分別為原始數據、原始數據中的最小值、原始數據中的最大值;x′為歸一化后的數據。
歸一化后的待采集日與歷史日的特征向量分別為:
x0=[x0(1),x0(2),…,x0(n)]
(3)
xi=[xi(1),xi(2),…,xi(n)]
(4)
式中:x0為待采集日的特征向量;xi為歷史日中第i日的特征向量;xi(j)(j=1,2,…,n)為歷史日中第i日第j個時刻的特征值。
分別計算x0與xi在第j個分量的關聯系數:
(5)
式中:Δ=|x0(j)-xi(j)|;ξi(j) 為關聯系數;r為分辨系數,一般取0.5。
由于關聯系數很多,信息過于分散,不便于比較,為綜合各個分量的關聯系數,一般采用求平均值來處理,x0和xi的相似度定義為:
(6)
本文擬選取關聯度大于0.9的所有樣本組成相似日樣本作為虛擬采集的訓練樣本。
BP神經網絡是目前發展較為成熟的一種深度學習算法,不僅具有很好的學習能力,而且可較好地解決非線性問題。于是,考慮分布式光伏發電運維數據的非線性特點,本文選取BP神經網絡作為虛擬采集模型的基本算法。
BP神經網絡是目前研究最多、應用最廣的一種人工智能多層前饋網絡,理論上具有模擬任何復雜非線性映射的能力。BP神經網絡的計算主要由正向傳播過程和誤差的反向傳播過程組成 ,它由輸入層、隱含層和輸出層構成[16-17]。BP神經網絡的學習訓練過程主要分為2個階段:
1)從輸入層開始,按照當前網絡結構和各神經元的權值、閾值,經隱含層向后計算神經元的輸出,在輸出層得到總的神經網絡輸出;
2)根據神經網絡的預設性能指標,從輸出層向前計算各權值和閾值對性能指標的誤差梯度,并進行修正[18]。
具體過程如圖2所示:

圖2 BP神經網絡結構Fig.2 Structure of BP neural network
圖2中,xi為輸入量,隱含層神經元可表示為:
(7)
式中:wji為第i個輸入層神經元與隱含層神經元的連接權值;θj為隱含層中第j個閾值。
激勵函數選取sigmoid函數:
(8)
圖2中,輸出層神經元可表示為:
(9)
式中:wkj為輸出層第k個神經元與隱含層第j個神經元的連接權值;θk為輸出層第k個閾值。
誤差用最小二乘法定義為:
(10)
式中:y為期望輸出值;1/2為最小二乘法的固有系數。
本文采用江蘇某區域內已安裝數據采集裝置的一個分布式光伏電站的輻照數據與功率數據作為樣本數據,在原始的光伏功率與輻照歷史數據中,每日數據有效采集的起始時間并不都是完全統一的,而且數據采集時間點較為密集,導致模型的輸入變量不一致且較為復雜,增加了模型的開銷。為了實現數據的統一性,將數據采集的時間窗口定為05:00—19:00,數據采集時間間隔為1 h。
本文建立的基于灰色關聯理論和BP神經網絡的分布式光伏電站運維數據虛擬采集模型如圖3所示。

圖3 虛擬采集模型示意圖Fig.3 Schematic diagram of virtual acquisition model
在以上所構建模型中,需要確定神經網絡各層神經元的數目,下面詳細闡述。
2.3.1輸入、輸出層節點的選取
神經網絡輸入變量選取相似日的輻照度與待采集日的輻照度,每個樣本(相似日)有14個時間點,因此輸入層節點數為14,可表示為D(t)=(d1,d2,…,d14),t代表第t個相似日。輸出為待采集日各時間段的輸出功率Y=(e1,e2,…,e14),同樣的,輸出節點數也為14。
2.3.2隱含層節點的選取
BP 神經網絡中隱含層數目選擇是影響模型有效性較為重要的因素。隱含層單元的數目與輸入/輸出單元的數目有直接的關系,若數目太少,網絡所獲取的信息太少,達不到預期的效果;若數目太多,會增加網絡的復雜程度,導致模型效率較低,且誤差不一定最佳。目前隱含層單元數選取的方法主要分為以下幾種:
(11)
式中:m為隱含層節點數;n為輸入層節點數;l為輸出層節點數;α為1~10之間的常數。
本文隱含層節點數選取借鑒式(11)以及相關文獻,將隱含層節點的范圍確定在15~29之間,并進行多次嘗試,最終確定為23。
獲知待虛擬采集日單位容量的運維數據后,網格化區域內的分布式光伏電站運維數據將按照比例進行計算,如式(12)所示。
(12)
式中:Pi為電站i的待采集數據;Pn為第n個電站的裝機容量;PD為配備采集裝置電站D的裝機容量;pf為根據D站虛擬采集得到的光伏電站運維數據。
選取江蘇某區域內已安裝數據采集裝置的一個分布式光伏電站作為實測對象,選取分布式光伏電站運維數據中的發電功率為例,每日的功率實測值經過規整后為1 h采集一次,時間區間為05:00—19:00。為了增加該模型應用場景的多樣性,分別在2018年1—3月,6—8月,10—12月每3個月份中隨機選取一天作為待采集數據日,利用第2節的灰色關聯模型分析近90天的數據選取相似日,灰色關聯分析結果如圖4—6所示。

圖4 1—3月份相似日分析結果示意圖Fig.4 Schematic diagram of the analysis results of similar days in January, February and March

圖5 6—8月份相似日分析結果示意圖Fig.5 Schematic diagram of the analysis results of similar days in June, July and August

圖6 10—12月份相似日分析結果示意圖Fig.6 Schematic diagram of the analysis results of similar days in October, November and December
選取相似度大于0.9的樣本數據作為相似日數據,該電站3個時期的待采集日與相似日的輻照度特征曲線如圖7—9所示。

圖7 1—3月份相似日輻照度曲線Fig.7 Irradiance curves of similar days in January, February and march

圖8 6—8月份相似日輻照度曲線Fig.8 Irradiance curves of similar days in June, July and August

圖9 10—12月份相似日輻照度曲線Fig.9 Irradiance curves of similar days in October, November and December
從圖7—9中可看出,不同月份待采集日的輻照度與該方法選取的相似日的輻照度特征曲線都較為相似,具有較高的相關性,驗證了本文建立的相似日選取模型的有效性。
進一步,利用已選取的相似日歷史數據對BP神經網絡模型進行訓練,訓練結果如圖10所示。


圖10 BP神經網絡訓練結果Fig.10 Training results of BP neural network
圖10中:Date為訓練結果的回歸系數,Fit為訓練結果的回歸線;Y-T為基準線。Date越貼近Fit線效果越好,可以看出訓練樣本的R值較好,大多貼近中線,驗證集與測試集有所偏差,但訓練結果的總體值接近1,總體模型訓練效果較好。
訓練好網絡之后,將上述選取的3個不同時期的待采集數據日的輻照度數據作為輸入進行輸出功率數據的擬合,得到的虛擬采集結果與實際值如圖11—13所示。

圖11 1—3月份光伏數據虛擬采集結果Fig.11 Results of virtual collection of photovoltaic data in January, February and March

圖12 6—8月份光伏數據虛擬采集結果Fig.12 Results of virtual collection of photovoltaic data in June, July and August
由圖11—13可知,該虛擬采集模型得到的光伏輸出功率數據與真實值較為接近,現采用均方根誤差(ERMS)指標對虛擬采集得到的結果進行評估[19]:

圖13 10—12月份光伏數據虛擬采集結果Fig.13 Virtual collection results of photovoltaic data in October, November and December
(13)

虛擬采集與實際數據的誤差分析結果如表1所示。

表1 誤差指標分析Table 1 Error index analysis kW
由表1可知,該方法在不同時期虛擬采集得到的數據與實際數據的均方根誤差值分別為0.207、0.392、0.378 kW,參考光伏功率預測的相關資料得知該誤差相對較小,能夠滿足同一區域內不同時期光伏電站數據虛擬采集的需求。因此該模型具有較高的采集精度,驗證了該模型的有效性與該方法的可行性。
假設同一地區有4個分布式光伏電站A、B、C、D,裝機容量分別為10、250、20、100 kW,其中D光伏電站配備了光伏數據采集裝置,則A、B、C這3座分布式電站的數據虛擬采集結果如圖14所示。

圖14 各電站虛擬采集結果Fig.14 Virtual acquisition of different PV stations
在區域范圍內通過結合各個分布式光伏電站的實際裝機容量,按比例進行光伏運維數據的虛擬采集,從而達到在安裝少量的數據采集裝置條件下對全區域內分布式光伏電站運維數據進行采集的目的,相比傳統僅僅靠加裝數據采集裝置的方法,該方案在保證較高準確性的前提下大大節省了數據采集的成本。
本文提出了一種基于灰色關聯理論和BP神經網絡的分布式光伏數據虛擬采集方法,引入相似日,避免了歷史數據選取的盲目性,從而提高了虛擬采集的精度。利用江蘇某區域內已安裝數據采集裝置的一個分布式光伏電站的實測數據驗證了該方法的有效性,對實際工程具有一定的參考價值。后續的工作可結合網格化區域內分布式光伏電站數據采集裝置布點優化問題的研究,進一步實現全省域范圍內分布式光伏運維數據的 “實時+虛擬”高精度采集,大大節省數據采集的成本。