馬天東,耿天翔,鐘海亮,李 峰
(1.國網寧夏電力有限公司,寧夏 銀川 750001;2.國網寧夏有限公司電力科學研究院,寧夏 銀川 750001)
風電場站出力的隨機性與間歇性對電力系統的影響逐漸明顯,如何精準預測風速和風電功率,及時診斷風電機組的故障狀態成為風力發電領域的熱點問題[3-5]。風電場站運行大數據是風電場站風速、功率預測、狀態監測等工作的基礎,但由于存在監控系統故障、棄風限電等原因,會造成風電場站采集的數據質量差,對于異常數據占比較高的數據集,直接分析其規律和特征變量之間的關聯性極為不便,容易得出錯誤結論,影響相關調度指令的正確發布。因此,識別出風電場站運行大數據中的異常值,形成可靠的數據集,是一項十分重要的工作。
針對于風電機組的異常數據識別問題,國內外很多研究團隊都開展了相關的工作,目前主要的異常數據識別算法可分為3 類。一是基于統計量的識別算法,這類算法的特點在于使用了大數據中的特征統計量,如標準差、方差和四分位數等。文獻[6]提出了一種通過分段求取組內最優方差,從而識別異常數據的算法,但對于組內方差變化均勻的數據集,該算法適用性不強。文獻[7]提出了一種基于風速-葉尖速比散點的四分位異常識別算法,該算法可準確識別風電機組運行過程中的異常數據,但隨著數據量的增多,存在大量正常數據被誤識別的風險。
二是基于無監督學習的識別算法,文獻[8-9]提出了基于聚類算法的異常數據識別模型,但并未給出判斷識別算法優劣性的度量標準和準則。
三是其他類型的異常識別算法,如文獻[10-11]提出了基于Copula 理論的置信風功率曲線建模方法,然后利用概率功率曲線識別異常數據點。文獻[12]利用圖像識別技術識別異常數據點。風電場站的運行大數據相較于風電機組的運行大數據數量更為龐大、異常種類更多,而針對于風電場站的異常數據識別問題,目前的研究工作較少。
本文針對風電場站歷史運行大數據,提出了一種考慮條件概率分布特征的風電場站異常數據識別算法。首先,依據風電場站監控系統的采集數據,分析了風電場站大數據的特征,其次,對傳統的Copula 算法模型進行了分析和優化,提出了考慮條件概率分布特征的異常數據識別算法模型,最后,對風電場站的監測數據進行處理,并對比了傳統的Copula 算法模型和本文提出的考慮條件概率分布的算法模型,結果表明,本文提出的算法能較為準確地識別出各類異常數據,相關評價指標優于傳統的Copula模型,具有良好的通用性。
風力發電的原理是將風的動能轉化為電能,對于一個風電機組,其實發功率由當前風速決定,理想情況下,風速-功率關系可表示為:

式中:P為風電機組的輸出功率;CP為風能利用率;ρ為空氣密度;A為風機葉片掃過的有效面積;V為當前時刻的風速;νin,νout,νn分別為風機的切入風速、切出風速和額定風速。
風電場站監控系統實測的風速-功率數據并不嚴格滿足式(1)的三次函數關系,本文以寧夏賀蘭山第三風電場的實測風速-功率為例,分析風電場運行大數據的特征。寧夏賀蘭山第三風電場的監控系統每隔15 min采集一次風速與場站實際功率情況,一年可采集30000余條數據,圖1為寧夏賀蘭山第三風電場的實測風速-功率數據與理想風功率曲線的對比圖,從圖中可以看出,在理想的風功率曲線上,一個風速嚴格對應當前的實發功率,風電場站實測數據與理想風功率曲線具有類似的形狀,但數據數量大,且數據分散性、隨機性強,在同一風速下,不同時間的功率不相同,對應的功率區間寬,因此,有必要研究在確定的風速條件下功率的概率分布情況,進而考慮不同風速下功率的條件概率分布特征,進行異常功率點的識別。

圖1 寧夏賀蘭山第三風電場的實測風速-功率數據與理想風功率曲線的對比圖
考慮到風電場站數據的分散性和隨機性,可利用概率功率曲線識別異常數據,所謂概率功率曲線,是指在給定置信水平下,某一風速條件對應的功率區間上下邊界形成的曲線,認為概率功率曲線以內的數據點為正常點,概率功率曲線以外的數據點為異常點,然后再根據異常點的特征對其進一步識別。
將傳統的Copula理論[13]應用于風電場站異常數據識別,可將風速與功率看成兩個具有一定相關性的隨機變量,設V、P分別表示風速和功率的隨機變量,FV(ν)、FP(p)分別為風速和功率的邊緣概率分布函數,根據Sklar定理,存在二元函數C(FV(ν),FP(p)),使得:

式中:F(V,P)(ν,p)為風速和功率的二維聯合分布函數;C 即為一個Copula 函數。常用的Copula 函數有3 種類型,分別為Gumbel Copula、Clayton Copula和Frank Copula,本文采用Gumbel Copula 函數擬合風速和功率的二維聯合分布,計算公式如下:

式中:θ為Gumbel Copula函數的參數,可通過極大似然估計求得。
當風速V=ν時,功率P的條件概率分布可表示為:

取置信度為α,置信區間的不對稱系數為k,則置信區間的上下置信概率邊界可表示為:

由式(4)的逆函數可求得,當風速V=ν時,在置信水平α下的功率邊界為:

根據上述方法可求得在置信水平α下的概率功率曲線,利用概率功率曲線可對風電場站的實測風速-功率數據進行識別,認為概率功率曲線以內的數據點為正常點,概率功率曲線以外的數據點為異常點。圖2為Copula算法流程框圖,圖3為利用Copula算法對寧夏賀蘭山第三風電場的實測風速-功率數據識別效果圖,從圖中可以看出識別效果欠佳,只能識別出少量的上側離群點和底部堆積點,而且誤識別情況嚴重。主要原因在于,相比于風電機組的實測數據,風電場站的數據量更多,相應的異常數據比例也更高,在利用Copula函數擬合風速-功率的二維聯合分布時,異常數據的分布情況對整體數據的影響明顯,因此在求解指定風速條件下的功率分布情況和功率置信區間的邊界時存在較大的誤差,造成識別效果較差。

圖2 Copula算法流程框圖

圖3 Copula算法識別效果圖
考慮到Copula 算法對異常數據的識別效果差,且由于風電場站數據量多,導致在建模求解風速、功率的邊緣概率分布時算法運行時間長,運行效率低,本文在此基礎上優化了Copula模型,并提出了考慮條件概率分布特征的異常數據識別算法。相比于傳統的Copula模型,本文提出的異常數據識別模型做了兩點改進。
在建模求解指定風速條件下的功率分布情況時,先將風電場站的數據按風速劃分為數個子集,在每個子集上對功率數據進行升序排列,然后利用核密度估計的方法求解功率的概率分布情況。當子集劃分數量足夠多時,每個子集上的風速區間范圍足夠小,此時該風速區間上的功率分布可準確反映功率在風速條件下的分布情況,且由于每個子集上數據量小,在利用核密度估計計算概率分布時算法運行時間短,算法效率得到提升。圖4為分別利用Copula算法和優化之后的算法得到的分別在風速v= 5、8、15 m/s 時的功率分布情況,圖中功率數據已在各個風速條件下經過歸一化處理。在低風速段,功率數據主要集中在低功率區間,而隨著風速的增加,功率數據逐漸向中高功率區間聚集,從圖中可以看出,由Copula算法得到的概率分布不能準確地反映功率分布情況,這是Copula算法對異常數據識別效果較差的根本原因。

圖4 三個風速區間上的功率概率分布對比
在得到每個子集上的功率分布和置信功率邊界后,首先對邊界點進行修正,主要采用函數值遞增方法和導數值遞增方法,理想的風功率曲線是風速的三次函數,因此要求概率功率曲線能準確反映這種特征,對于功率上邊界集合{P(i)u}和功率下邊界集合{P(i)d},利用式(7)剔除異常邊界點:

式中:N為子集劃分個數,即集合{P(i)}中元素個數;上標j等于u或d,分別為功率上邊界集合和功率下邊界集合。最后,利用三次樣條插值的方法形成概率功率曲線,利用曲線識別異常數據。圖5 為考慮條件概率分布特征的異常數據識別算法流程框圖。

圖5 考慮條件概率分布特征的異常數據識別算法流程框圖
根據本文提出的考慮條件概率分布特征的異常數據識別算法,提出相應的異常識別判據,建立風電場站大數據異常識別模型,將風電場站的數據劃分為4種類型。
第一類,這類數據位于上下概率功率曲線的邊界之內,顯著的特征為數據量大,數據密集,且繪制的散點圖能較好地反映出理想的風功率曲線,認為這類數據為正常數據。
第二類,這類數據位于上下概率功率曲線的邊界之外,但與概率功率曲線之間的距離不超過ε,顯著特征是數據量較少,但分布規律大致滿足理想的風功率曲線,認為這類數據為概率異常點。
第三類,這類數據位于上概率功率曲線的邊界之外,且數據量少,距離概率功率曲線遠,為顯著的離群點,認為這類數據為第一類異常點,主要由傳感器故障、數據監測系統故障等原因導致。
第四類,這類數據位于下概率功率曲線的邊界之外,距離概率功率曲線遠,部分數據點呈現比較密集的橫向分布特征,認為這類數據為第二類異常點,主要由停機、限風限功率等原因引起。
表1中列舉了具體的異常類型和異常識別判據,圖6 為應用本文提出的異常識別算法對寧夏賀蘭山第三風電場的數據識別效果圖。

圖6 本文提出的異常識別算法識別效果圖

表1 數據異常類型和異常識別判據
表中ε表示給定的概率功率曲線容許的誤差范圍。
為了驗證本文提出異常識別算法的有效性,本文以寧夏黃麻山第一風電場2020年的實測數據和人工合成的風電場站數據集為研究對象,分別應用Copula 算法和本文提出的算法對其進行識別,對比分析兩種算法的識別效果和相關評價指標。
老的讓開道,催促著,獎勵著,讓他們走去。路上有深淵,便用那個死填平了,讓他們走去。 [2](第1卷,P354-355)
寧夏黃麻山第一風電場共有96臺并網風機,場站額定容量為98 MW,其數據監控系統每15 min采集一次場站運行數據,經過預處理之后,數據集中包含2萬余條風速-功率數據。為了對比異常識別算法的有效性,選取數據保留率η,某一風速段內功率方差減少量ΔM作為評價指標,來衡量兩種算法的優劣性,計算公式如下:

式中:Nre為經過異常識別模型識別后保留的正常數據點數量;N為經過預處理后的數據集中數據點數量;MSE為經過預處理后的數據集在某一風速段內功率的方差;MSEre表示正常數據點在某一風速段內功率的方差,這里選取9 m/s<ν<10 m/s 風速段。
最終識別效果如圖7、表2所示,從識別結果可以看出,不管是數據保留率η,風速方差減少量ΔM,還是對異常數據的識別效果,本文提出的異常識別算法均優于Copula算法,而且識別為正常的數據在某一風速段內功率的方差小,數據更加集中,說明這部分數據作為正常點保留是合理的。

圖7 本文算法識別效果圖

表2 兩種算法識別效果對比
利用本文提出的異常識別算法對寧夏黃麻山第一風電場的實測數據進行識別之后,剔除異常數據,保留正常數據,在此基礎上人工添加異常數據,形成新的數據集。同樣選取數據保留率η,功率方差減少量ΔM作為評價指標,考慮到人工合成數據集是有標簽的,再引入識別率γ和誤識別率μ作為評價指標,計算公式為:

式中:Nab為人工添加的異常數據中被是識別為異常點的數量;Nabsum為人工添加的異常數據數量;Nf1為人工添加的異常數據中被識別為正常數據點的數量;Nf2為正常數據中被識別為異常數據點的數量。
圖8為本文算法最終識別效果和數據真實的異常情況對比圖,表3 列舉了相關評價指標,從識別結果可以看出,對于人工合成的數據集,本文提出的異常識別算法依然具有適用性,相比于Copula算法,本文算法的識別率更高,誤識別率更低,識別效果更好。

圖8 本文算法識別效果和數據真實的異常情況對比圖

表3 兩種算法識別效果對比
Copula 算法在異常識別效果和運行效率方面表現較差,本文提出的算法優化了條件概率分布的求解,并對概率功率曲線進行了修正,對異常數據可達到理想的識別效果,并且提高了異常數據識別算法的運行效率。
以場站實測數據和人工合成數據為研究對象,對Copula 算法和本文提出的算法進行了對比分析,結果表明,本文提出的異常識別算法在數據保留率、方差減少量、識別率和誤識別率等方面均優于Cop‐ula算法,對異常數據的識別更加準確。