基于多模型并行集成框架的風(fēng)電功率異常數(shù)據(jù)識(shí)別

2023-11-25 08:09:18陳江雨李培強(qiáng)鐘吳君

電力系統(tǒng)及其自動(dòng)化學(xué)報(bào) 2023年11期

陳江雨，李培強(qiáng)，鐘吳君

（湖南大學(xué)電氣與信息工程學(xué)院，長沙 410082）

隨著全球不可再生資源減少導(dǎo)致的能源供應(yīng)短缺，大力發(fā)展可再生能源逐漸成為各國優(yōu)化能源結(jié)構(gòu)、解決能源危機(jī)的重要手段。風(fēng)能作為一種清潔、易獲取的可再生能源，已逐漸成為繼火電、水電之后的第三大能源。但由于風(fēng)能具有間歇性與隨機(jī)性，風(fēng)電并網(wǎng)后給電網(wǎng)運(yùn)行安全、電網(wǎng)調(diào)度和電能質(zhì)量等方面都帶來了極大的挑戰(zhàn)[1]。風(fēng)電機(jī)組運(yùn)行歷史數(shù)據(jù)具有很高的研究價(jià)值，特別是風(fēng)速數(shù)據(jù)和風(fēng)功率數(shù)據(jù)，對這些數(shù)據(jù)進(jìn)行挖掘分析，不僅可以評估風(fēng)電場及風(fēng)電機(jī)組的性能和運(yùn)行狀況，還在風(fēng)電功率預(yù)測上發(fā)揮不可或缺的作用，直接影響預(yù)測結(jié)果精準(zhǔn)度[2-3]。然而在實(shí)際運(yùn)行過程中，由于環(huán)境和機(jī)組運(yùn)行故障等因素，風(fēng)電機(jī)組會(huì)產(chǎn)生大量異常運(yùn)行數(shù)據(jù)，為提高數(shù)據(jù)質(zhì)量，需要對風(fēng)電功率歷史數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行識(shí)別。

目前，許多學(xué)者已經(jīng)在異常數(shù)據(jù)處理方面開展了大量研究并取得了諸多成果，而機(jī)器學(xué)習(xí)的發(fā)展為識(shí)別異常數(shù)據(jù)提供了便利的手段。文獻(xiàn)[4]通過比較含噪聲的基于密度的聚類方法DBSCAN（densitybased spatial clustering of applications with noise）、局部異常因子LOF（local outlier factor）、Thompson-tau四分位法和孤立森林IF（isolation forest）4種常用異常數(shù)據(jù)識(shí)別方法，得出了IF方法通用性最強(qiáng)且LOF方法對稀疏異常數(shù)據(jù)效果好的結(jié)論；文獻(xiàn)[5]提出了基于分功率區(qū)間的自適應(yīng)DBSCAN 異常數(shù)據(jù)識(shí)別算法，但該方法需要針對不同機(jī)組運(yùn)行情況劃分功率區(qū)間，普適性較差；文獻(xiàn)[6]提出了一種基于變點(diǎn)分組-四分位的組合風(fēng)電異常數(shù)據(jù)識(shí)別方法，但清洗后的功率曲線呈階梯狀；文獻(xiàn)[7]提出了一種孤立森林與均值漂移算法組合的風(fēng)電異常數(shù)據(jù)清理算法，但出現(xiàn)了過度刪除的情況；文獻(xiàn)[8]提出基于灰色關(guān)聯(lián)度和K-means 聚類的異常數(shù)據(jù)識(shí)別方法，但需要針對不同場景進(jìn)行調(diào)參。

對比單一識(shí)別方法，順序集成類方法可以相互彌補(bǔ)單一方法在異常數(shù)據(jù)處理上的不足，但是順序集成類方法還需要探究方法之間的使用順序，并且可能會(huì)出現(xiàn)過度刪除的情況，故而有部分學(xué)者將并行集成類學(xué)習(xí)方法用于異常數(shù)據(jù)檢測。文獻(xiàn)[9]最早提出了并行集成類異常檢測框架feature bagging，通過從原始數(shù)據(jù)集抽取特征子集訓(xùn)練多個(gè)基學(xué)習(xí)模型（即基本異常數(shù)據(jù)檢測模型），最終采用一定策略組合所有基學(xué)習(xí)模型的輸出結(jié)果。然而這類并行集成框架缺乏對全部基學(xué)習(xí)模型輸出結(jié)果的選擇性組合，從而使表現(xiàn)優(yōu)秀的基學(xué)習(xí)模型難以發(fā)揮優(yōu)勢。同時(shí)，該類并行集成框架是基于全局角度出發(fā)，難以關(guān)注到局部異常。針對這類問題，文獻(xiàn)[10]提出了基于局部動(dòng)態(tài)選擇組合的并行集成異常檢測算法LSCP（locally selective combination in parallel outlier ensemble），通過設(shè)置不同參數(shù)的LOF 基學(xué)習(xí)模型，采用生成局部偽標(biāo)簽的方式對每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行異常識(shí)別，達(dá)到了更優(yōu)的效果。

綜上所述，本文提出一種基于多模型并行集成框架的風(fēng)電功率數(shù)據(jù)異常識(shí)別方法。鑒于LSCP框架中采用的基學(xué)習(xí)模型為超參不同的LOF方法，且單一LOF 方法對分布密度較高的異常數(shù)據(jù)識(shí)別效果較差，因此本文在LSCP 框架中加入異構(gòu)基學(xué)習(xí)模型——基于最近鄰隔離INNE[11]（isolation using nearest neighbor ensemble）和不同超參的LOF 算法進(jìn)行集成，通過異構(gòu)基學(xué)習(xí)模型對具有不同分布特征的風(fēng)電功率異常數(shù)據(jù)進(jìn)行有選擇識(shí)別，提升模型的整體性能。通過在不同風(fēng)電場實(shí)際運(yùn)行數(shù)據(jù)集上進(jìn)行驗(yàn)證，獲得的實(shí)驗(yàn)結(jié)果表明，與單一方法和順序集成類方法相比，本文方法在風(fēng)電功率異常數(shù)據(jù)識(shí)別任務(wù)取得了更好的效果。

1 風(fēng)電場數(shù)據(jù)分析

1.1 風(fēng)速-風(fēng)功率曲線

風(fēng)力發(fā)電是指風(fēng)電機(jī)組利用風(fēng)機(jī)葉片使風(fēng)的動(dòng)能轉(zhuǎn)化為機(jī)械能，再通過發(fā)電機(jī)轉(zhuǎn)化為電能的過程。在實(shí)際運(yùn)行情況中，風(fēng)電機(jī)組的輸出功率遵循以下規(guī)律：當(dāng)風(fēng)速不超過切入風(fēng)速時(shí)，機(jī)組不進(jìn)行發(fā)電；當(dāng)風(fēng)速介于切入風(fēng)速與額定風(fēng)速之間時(shí)，風(fēng)機(jī)開始發(fā)電，輸出功率與風(fēng)速的立方成正比；當(dāng)風(fēng)速超過額定風(fēng)速但未達(dá)到切出風(fēng)速時(shí)，輸出功率保持額定輸出功率Pn不變；當(dāng)風(fēng)速超過切出風(fēng)速時(shí)，機(jī)組通過控制系統(tǒng)實(shí)施停機(jī)，輸出功率降為0。則風(fēng)機(jī)的實(shí)際功率[12-14]P0可表示為

式中：Cp為風(fēng)能利用系數(shù)，為吸收風(fēng)能與初始風(fēng)能之比；ρ為空氣密度；S為葉片接觸面積；v為風(fēng)速；vi、vn、vo分別為切入風(fēng)速、額定風(fēng)速和切出風(fēng)速。

為直觀看出風(fēng)電機(jī)組實(shí)際運(yùn)行時(shí)風(fēng)速與功率的分布情況，可以畫出風(fēng)電場的風(fēng)速-功率（v-P）散點(diǎn)圖。以本文使用的4個(gè)國內(nèi)外風(fēng)電場2021年的實(shí)際運(yùn)行數(shù)據(jù)集為例，其實(shí)測v-P曲線散點(diǎn)圖如圖1所示。從圖1中可以看出，實(shí)際運(yùn)行狀態(tài)下的風(fēng)速-風(fēng)功率數(shù)據(jù)呈非線性分布，且分布位置與分布密度各異，不同風(fēng)電場的運(yùn)行數(shù)據(jù)分布類型并不一致。由式（1）可以得知，風(fēng)電機(jī)組實(shí)際運(yùn)行時(shí)其風(fēng)速-風(fēng)功率的理想運(yùn)行曲線為“S”型，故可以認(rèn)為在v-P曲線散點(diǎn)圖中，數(shù)據(jù)分布密度高且分布位置類似理想曲線“S”的數(shù)據(jù)為風(fēng)電機(jī)組正常運(yùn)行數(shù)據(jù)。

圖1 風(fēng)速-功率散點(diǎn)圖Fig.1 Scatter plot of wind speed vs power

1.2 風(fēng)電功率異常數(shù)據(jù)成因及分布特征

每臺(tái)風(fēng)機(jī)在投入實(shí)際運(yùn)行前都需要在各種運(yùn)行工況下進(jìn)行測試，若在實(shí)際運(yùn)行過程中收集到的運(yùn)行數(shù)據(jù)與測試運(yùn)行數(shù)據(jù)偏離較大，這類運(yùn)行數(shù)據(jù)被稱為異常數(shù)據(jù)。基于統(tǒng)計(jì)學(xué)的3σ準(zhǔn)則[15]，假設(shè)風(fēng)電功率數(shù)據(jù)按照正態(tài)分布，σ表示數(shù)據(jù)的標(biāo)準(zhǔn)差，μ表示數(shù)據(jù)的均值，可以認(rèn)為分布在(-∞,μ-3σ)和(μ+3σ,+∞)兩區(qū)間內(nèi)的數(shù)據(jù)為異常數(shù)據(jù)。異常數(shù)據(jù)產(chǎn)生的原因主要來自兩方面：一是人為限電，如風(fēng)機(jī)停機(jī)檢修、按發(fā)電計(jì)劃降低或暫停風(fēng)機(jī)出力等；二是客觀影響，如遭遇極端天氣、風(fēng)機(jī)葉片損壞、電力通信故障等。

從數(shù)據(jù)分布位置及密度來看，異常數(shù)據(jù)類型主要可以分為堆積型和分散型兩類[16-18]，其產(chǎn)生原因也不盡相同。為此，依據(jù)數(shù)據(jù)分布形態(tài)及產(chǎn)生原因，將異常數(shù)據(jù)分為5類，并在圖1中圈注為（1）～（5）。

第（1）類，頂部堆積型異常數(shù)據(jù)。如圖1（b）所示，這類異常數(shù)據(jù)在v-P散點(diǎn)圖上表現(xiàn)成一條橫向的密集數(shù)據(jù)帶，其功率超出風(fēng)電場的總裝機(jī)容量，主要成因是風(fēng)電機(jī)組處于超發(fā)狀態(tài)。

第（2）類，上方堆積型異常數(shù)據(jù)。這類異常數(shù)據(jù)主要是由于風(fēng)電場的測量或者通信設(shè)備發(fā)生故障，在一段時(shí)間內(nèi)持續(xù)發(fā)送某一固定數(shù)值，其在v-P散點(diǎn)圖上通常有2 種形式的表現(xiàn)，若為豎線，說明故障發(fā)生在氣象測量或通訊儀器上，如圖1（a）所示；若為橫線，則故障發(fā)生在功率測量/通訊儀器。

第（3）類上，方分散型異常數(shù)據(jù)。這類異常數(shù)據(jù)的成因與上方堆積型相同，不同的是它出現(xiàn)時(shí)間較為隨機(jī)且在v-P散點(diǎn)圖上分布靠近整體曲線，這在圖1（a）、（d）中均有體現(xiàn)，識(shí)別難度較高。

第（4）類，下方堆積型異常數(shù)據(jù)。如圖1中4幅分圖所示，這類異常數(shù)據(jù)通常分布在v-P曲線的右側(cè)和底部，呈現(xiàn)為一條橫向或斜向的密集數(shù)據(jù)帶，主要由棄風(fēng)限電、計(jì)劃內(nèi)停機(jī)檢修、風(fēng)機(jī)停機(jī)啟動(dòng)等因素導(dǎo)致。同時(shí)，由于風(fēng)機(jī)內(nèi)部測控系統(tǒng)的自耗，會(huì)出現(xiàn)風(fēng)速為0 但輸出功率為負(fù)的情況，表現(xiàn)為聚集在v-P散點(diǎn)圖底部功率為0附近的數(shù)據(jù)帶。

第（5）類，下方分散型異常數(shù)據(jù)。這類數(shù)據(jù)在v-P散點(diǎn)圖上分布為密度較低的無規(guī)律點(diǎn)，在圖1所示的4 幅分圖中均有體現(xiàn)，主要由測量誤差、信號噪聲、極端天氣等因素影響，導(dǎo)致輸出功率產(chǎn)生隨機(jī)偏差。

2 基于風(fēng)功率異常數(shù)據(jù)特征的多模型并行集成框架

針對不同類型的風(fēng)電功率異常數(shù)據(jù)，單一識(shí)別方法很難做到全方位識(shí)別處理；同樣，順序集成方法可能存在過刪除的情況，因此，本文依據(jù)所劃分的5類風(fēng)電功率異常數(shù)據(jù)特征，提出一種基于多模型并行集成框架的風(fēng)電功率異常數(shù)據(jù)處理方法，并加入異構(gòu)基學(xué)習(xí)模型，實(shí)現(xiàn)對各類風(fēng)電功率異常數(shù)據(jù)的識(shí)別。

2.1 并行集成框架

并行集成類方法在異常數(shù)據(jù)處理領(lǐng)域上的應(yīng)用通常是采用無監(jiān)督框架，在一般情況下，風(fēng)功率數(shù)據(jù)本身不會(huì)提供自身“是否異常”的信息，故而將并行集成框架用于風(fēng)電功率異常數(shù)據(jù)的研究較少。此外，大部分無監(jiān)督并行集成框架在輸出識(shí)別結(jié)果時(shí)，通常采用平均法等策略結(jié)合全部基學(xué)習(xí)模型給出識(shí)別結(jié)果，這會(huì)導(dǎo)致表現(xiàn)優(yōu)異的基學(xué)習(xí)模型被表現(xiàn)差的基學(xué)習(xí)模型掩蓋。同時(shí)，這種策略通常是基于全局，無法針對局部異常數(shù)據(jù)因地制宜[19]。

LSCP 是一個(gè)可以對多個(gè)異常檢測模型進(jìn)行并行集成的無監(jiān)督框架算法，各個(gè)基本模型之間獨(dú)立運(yùn)行，互不干擾。LSCP 框架采用動(dòng)態(tài)分類選擇器DCS[20]（dynamic classifier selection）來選擇適合于每個(gè)風(fēng)功率數(shù)據(jù)樣本點(diǎn)的異常檢測模型，其原理是通過評估各模型在數(shù)據(jù)點(diǎn)局部鄰域內(nèi)的表現(xiàn)來判斷模型是否在該點(diǎn)表現(xiàn)良好。再通過基于K 最鄰近算法KNN（K-nearest neighbor）生產(chǎn)局部偽標(biāo)簽，篩選并組合基學(xué)習(xí)模型的辨識(shí)結(jié)果。

本文構(gòu)建的多模型并行框架如圖2 所示，具體流程如下。

圖2 多模型并行集成框架流程Fig.2 Flow chart of multi-model parallel integration framework

步驟1構(gòu)建模型池：分別訓(xùn)練基于INNE方法和基于LOF方法的超參不同的基本異常檢測模型，構(gòu)成基本異常檢測模型池。同時(shí)劃分風(fēng)功率數(shù)據(jù)集為訓(xùn)練集Xtrain和測試集Xtest，將訓(xùn)練集輸入到模型池中對所有模型進(jìn)行訓(xùn)練，完成各模型的初參數(shù)調(diào)試。

步驟2鄰域劃分：使用KNN 法劃分風(fēng)功率數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的局部最近鄰區(qū)域ψi，其中，為KNN法的滿足條件。

步驟3生成偽標(biāo)簽：對于數(shù)據(jù)點(diǎn)xi，將其ψi內(nèi)每一數(shù)據(jù)點(diǎn)放入基本異常檢測模型池進(jìn)行識(shí)別，獲取對應(yīng)局部異常得分橫向量，再合并形成局部異常得分矩陣O(ψi)。將所得矩陣O(ψi)中各橫向量進(jìn)行歸一化處理，再選取各橫向量中的最大值fmax()，組成對應(yīng)局部偽異常標(biāo)簽targetψi。

步驟4計(jì)算最終結(jié)果：計(jì)算局部異常得分矩陣O(ψi)與對應(yīng)局部偽異常標(biāo)簽targetψi的皮爾遜相關(guān)系數(shù)，選取相關(guān)系數(shù)大的基本異常檢測模型作為數(shù)據(jù)點(diǎn)xi的異常檢測模型，若選出模型個(gè)數(shù)為1，則其檢測結(jié)果就為xi的辨識(shí)結(jié)果；若模型個(gè)數(shù)大于1，則將各模型檢測結(jié)果的平均值作為xi的辨識(shí)結(jié)果。

2.2 基于堆積型風(fēng)功率異常數(shù)據(jù)的最近鄰隔離方法

基于最近鄰隔離方法是一種改進(jìn)孤立森林算法，結(jié)合了最近鄰距離比來計(jì)算數(shù)據(jù)的異常指標(biāo)。對于風(fēng)功率數(shù)據(jù)，IF方法可以有效處理堆積型異常數(shù)據(jù)，但是考慮到IF方法是通過不斷遞歸平行軸來細(xì)分?jǐn)?shù)據(jù)區(qū)間，而使平行于坐標(biāo)軸的堆積型異常數(shù)據(jù)無法被識(shí)別。而INNE方法針對這一點(diǎn)進(jìn)行了改進(jìn)，通過建立多組多維超球體進(jìn)行數(shù)據(jù)空間的切割來實(shí)現(xiàn)隔離機(jī)制，加強(qiáng)了對軸平行的異常數(shù)據(jù)的處理能力，可有效識(shí)別該類風(fēng)功率異常數(shù)據(jù)[11，21]。

INNE 方法分為訓(xùn)練階段和測試階段，兩階段使用的數(shù)據(jù)集可以無關(guān)也可相關(guān)，過程如下。

（1）訓(xùn)練階段：從風(fēng)功率訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇數(shù)據(jù)點(diǎn)構(gòu)成大小為N且無需替換的子數(shù)據(jù)集Xi。再對Xi中每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行最近鄰搜索，即在剩下N-1 個(gè)數(shù)據(jù)點(diǎn)中尋找離自身最近的點(diǎn)。然后以自身為球心，到所尋最近鄰點(diǎn)的距離為半徑畫出超球，一共畫出N個(gè)超球體。重復(fù)上述操作t次，得到t組超球體集合。

（2）測試階段：將風(fēng)功率測試數(shù)據(jù)集中某一數(shù)據(jù)點(diǎn)x放入某組超球體集合Bi(cj)(i∈[1,t],j∈[1,N])中，如果x不被Bi(cj)中任意一個(gè)超球體包含，則將該數(shù)據(jù)點(diǎn)的孤立評分記為1；若x被某個(gè)超球體Bi(c1) 包含，則再找到離Bi(c1) 最近的超球體Bi(c2)，分別記錄兩者的半徑τ1、τ2，則數(shù)據(jù)點(diǎn)x的孤立評分為1-τ2/τ1。將測試集中每一個(gè)數(shù)點(diǎn)分別放進(jìn)每組超球集合中計(jì)算其孤立評分，再計(jì)算其異常評分。孤立評分和異常評分分別表示為

式中：Bi(cj)為用數(shù)據(jù)集Xi構(gòu)建的超球體集合中的第j個(gè)超球體；Ii(x)為數(shù)據(jù)樣本x在子數(shù)據(jù)集Xi構(gòu)建的超球體集合中的孤立評分；Iˉ(x)為數(shù)據(jù)樣本x的異常評分。

2.3 基于分散型風(fēng)功率異常數(shù)據(jù)的局部異常因子方法

局部異常因子方法是一種基于密度的異常數(shù)據(jù)檢測方法[22]，其原理是計(jì)算風(fēng)功率數(shù)據(jù)集中某一數(shù)據(jù)點(diǎn)x周圍數(shù)據(jù)點(diǎn)所處位置的平均密度與該數(shù)據(jù)點(diǎn)所處位置的密度的比值，該比值定義為局部異常因子。比值越接近1或小于1，則x是正常數(shù)據(jù)的可能性越大；比值越大于1，則x越可能是異常數(shù)據(jù)。

對于風(fēng)功率數(shù)據(jù)點(diǎn)x來說，其處于不同數(shù)據(jù)集或同一數(shù)據(jù)集的不同位置，表現(xiàn)出的特征會(huì)不一致。LOF方法在判斷x是否異常時(shí)，是取決于x的k距離鄰域，這可以有效識(shí)別出風(fēng)電功率數(shù)據(jù)中的局部異常數(shù)據(jù)，避免識(shí)別方法僅基于全局異常的問題。同時(shí)，針對分散型異常數(shù)據(jù)，由于其分布密度與正常數(shù)據(jù)分布密度相差較大，也可以由LOF方法有效識(shí)別。

3 實(shí)測風(fēng)功率算例驗(yàn)證

為驗(yàn)證所提方法能對風(fēng)功率異常數(shù)據(jù)進(jìn)行有效識(shí)別，以第1.2 節(jié)提到的4 個(gè)風(fēng)電場的運(yùn)行數(shù)據(jù)為例，用本文所提方法進(jìn)行異常數(shù)據(jù)識(shí)別，并與單一最近鄰隔離方法、局部異常因子方法及最近鄰隔離-局部異常因子順序集成方法進(jìn)行對比，以此說明所提方法的識(shí)別效果及清洗效率。其中，風(fēng)機(jī)切入風(fēng)速取2 m/s，額定風(fēng)速取12 m/s，切出風(fēng)速取20 m/s。本文方法使用的并行框架中各基檢測模型的關(guān)鍵參數(shù)設(shè)置為：INNE 模型中超球體集合個(gè)數(shù)為8，訓(xùn)練集選取的子數(shù)據(jù)集大小為200；5個(gè)LOF模型的k距離鄰域選擇分別為15，20，25，30，35。4 個(gè)風(fēng)電場數(shù)據(jù)集情況如表1所示。

表1 風(fēng)電場數(shù)據(jù)集簡介Tab.1 Profile of wind farm data sets

3.1 本文方法識(shí)別結(jié)果

采用本文方法對第1.2 節(jié)所提4 個(gè)風(fēng)電場的實(shí)際運(yùn)行數(shù)據(jù)進(jìn)行異常數(shù)據(jù)識(shí)別，得到的結(jié)果如圖3所示，其中淺色為所識(shí)別的異常數(shù)據(jù)。可以看出，本文方法可以有效識(shí)別運(yùn)行數(shù)據(jù)中存在的各種異常數(shù)據(jù)類型。

圖3 異常數(shù)據(jù)識(shí)別結(jié)果Fig.3 Abnormal data identification results

相較于風(fēng)電場B、C、D 的實(shí)際運(yùn)行數(shù)據(jù)在v-P散點(diǎn)圖上呈現(xiàn)出的曲線均較為符合理想風(fēng)機(jī)運(yùn)行情況，風(fēng)電場A 的采樣頻率為10 min，且安裝的風(fēng)電機(jī)組型號較多，對比圖3的4幅分圖可以看出，其運(yùn)行數(shù)據(jù)組成的頻帶較寬，所包含的異常數(shù)據(jù)分布形式與其他3 個(gè)風(fēng)電場不完全一致。從圖3（a）展示的識(shí)別結(jié)果來看，風(fēng)電場A 包含的4 類異常數(shù)據(jù)均被有效識(shí)別，但當(dāng)輸出功率大于14 MW時(shí)的數(shù)據(jù)均被識(shí)別為異常數(shù)據(jù)，這是由于INNE 方法中采用了最近鄰距離比，且LOF 也是基于密度檢測方法，而風(fēng)電場A在實(shí)際運(yùn)行時(shí)基本沒有滿發(fā)時(shí)刻，故輸出功率大于14 MW 且小于額定功率的數(shù)據(jù)點(diǎn)數(shù)量較小，其分布密度雖然大于同功率區(qū)間范圍內(nèi)的異常數(shù)據(jù)分布密度，但是小于同風(fēng)速區(qū)間內(nèi)的正常數(shù)據(jù)分布密度。

對于風(fēng)電場B、C 和D，這3 個(gè)風(fēng)電場的異常數(shù)據(jù)類型一致，都具有大量類型5 的異常數(shù)據(jù)，但分布位置不同，其中：風(fēng)電場B 的異常數(shù)據(jù)大部分出現(xiàn)在曲線的下半部分，風(fēng)電場C和D則多集中與上中部。除此之外，風(fēng)電場C還具有許多平行于橫坐標(biāo)軸的異常數(shù)據(jù)，而風(fēng)電場B和D的這類異常數(shù)據(jù)僅分布在輸出功率為0或額定功率附近。對于這3個(gè)風(fēng)電場包含的各種異常數(shù)據(jù)，文本方法均有較為優(yōu)秀的表現(xiàn)。

綜上所述，4 個(gè)風(fēng)電場運(yùn)行數(shù)據(jù)中的幾類異常數(shù)據(jù)都能被有效識(shí)別。雖然風(fēng)電場A 與其他風(fēng)電場的運(yùn)行數(shù)據(jù)在風(fēng)速-功率散點(diǎn)圖上表現(xiàn)差異較大，但本文所提方法在各類異常數(shù)據(jù)識(shí)別上均取得了有效的成果，且算法最后識(shí)別所獲得的結(jié)果都較為符合理想風(fēng)速-風(fēng)功率曲線，這說明該方法具有一定的通用性。

3.2 與單一模型和順序集成模型對比

本節(jié)利用單一INNE 方法、LOF 方法和INNELOF 順序集成方法對4 個(gè)風(fēng)電場運(yùn)行數(shù)據(jù)進(jìn)行識(shí)別。其中，本文方法中所使用INNE 基本異常檢測模型的超參與單一INNE法和INNE-LOF法中一致，即超球體集合個(gè)數(shù)為8，訓(xùn)練集選取的子數(shù)據(jù)集大小為200；由于本文方法使用了不同超參的LOF基本異常檢測模型，故單一LOF 法和INNE-LOF 法的超參選擇使單一LOF 法表現(xiàn)最優(yōu)的超參，即k距離鄰域的k取25。圖4～圖6為3種方法的識(shí)別結(jié)果。

圖4 INNE 方法識(shí)別結(jié)果Fig.4 Identification results obtained using INNE method

由圖4可以看出，INNE方法能有效剔除多種類型異常數(shù)據(jù)，大部分平行于坐標(biāo)軸的異常數(shù)據(jù)也得到了有效處理，但緊靠v-P曲線的部分異常數(shù)據(jù)難以被識(shí)別。除此之外，圖4 的4 幅分圖中均有小部分堆積型異常數(shù)據(jù)被誤判為正常數(shù)據(jù)。

從圖5 來看，由于風(fēng)機(jī)實(shí)際運(yùn)行時(shí)存在棄風(fēng)限電等情況，故而在同一風(fēng)速區(qū)間或功率區(qū)間下，會(huì)出現(xiàn)異常數(shù)據(jù)分布密度等于甚至大于正常數(shù)據(jù)分布密度的情況，并且LOF方法的檢測原理是基于局部鄰域密度的大小，因此從圖5 所示4 個(gè)分圖中可以看出，部分分布密度較大的異常數(shù)據(jù)無法被識(shí)別。對比圖4 的4 幅分圖，LOF 方法無法識(shí)別橫向堆積型異常數(shù)據(jù)，而INNE 方法在處理這部分異常數(shù)據(jù)有很優(yōu)秀的表現(xiàn)。

圖5 LOF 方法識(shí)別結(jié)果Fig.5 Identification results obtained using LOF method

雖然INNE方法采用了基于最近鄰距離比來優(yōu)化局部識(shí)別能力，但其最終輸出結(jié)果還是基于全局最優(yōu)，仍存在部分局部異常數(shù)據(jù)無法被識(shí)別的情況。基于此，順序集成方法采用先INNE 后LOF 的順序，通過基于局部鄰域密度的LOF 方法彌補(bǔ)INNE 方法在局部異常識(shí)別的不足。從圖6 展示的結(jié)果可以看出，順序集成方法可以有效識(shí)別大部分異常數(shù)據(jù)，對比圖3所示結(jié)果，部分緊靠v-P曲線下方的堆積型異常數(shù)據(jù)識(shí)別效果較差。對于圖6（a），有部分堆積型異常數(shù)據(jù)沒有被識(shí)別；觀察圖6（c），其超過額定風(fēng)速但未超過切出風(fēng)速的滿發(fā)狀態(tài)下的數(shù)據(jù)，大部分被誤判為異常數(shù)據(jù)。

圖6 INNE-LOF 方法識(shí)別結(jié)果Fig.6 Identification results obtained using INNE-LOF method

綜上所述，本文方法結(jié)合了INNE 算法和LOF算法兩者之長，可以有效識(shí)別各類異常數(shù)據(jù)。對比單一INNE、LOF 方法和INNE-LOF 方法，本文方法的處理結(jié)果更為優(yōu)秀。對比INNE 方法，本文方法加強(qiáng)了其局部異常處理能力；對比LOF 方法，本文方法提高了對平行于坐標(biāo)軸的異常數(shù)據(jù)處理能力；對比順序集成方法，LSCP 框架在判別數(shù)據(jù)點(diǎn)是否異常時(shí)是根據(jù)數(shù)據(jù)點(diǎn)所處局部區(qū)域動(dòng)態(tài)選擇表現(xiàn)優(yōu)異的基學(xué)習(xí)模型，并且在給出最終結(jié)果時(shí)結(jié)合局部偽標(biāo)簽對多個(gè)基學(xué)習(xí)模型進(jìn)行二次篩選，因此，本文方法在堆積型異常上處理能力更優(yōu)。

4 風(fēng)功率數(shù)據(jù)清洗后數(shù)據(jù)誤差對比分析

由圖1 展示的數(shù)據(jù)分布情況可知，正常數(shù)據(jù)集中分布于v-P曲線，而大部分異常數(shù)據(jù)分布明顯遠(yuǎn)離v-P曲線。獲取每一個(gè)風(fēng)電場的標(biāo)準(zhǔn)風(fēng)速-風(fēng)功率曲線，比較剔除異常數(shù)據(jù)后剩余數(shù)據(jù)組成的數(shù)據(jù)集與標(biāo)準(zhǔn)v-P曲線的差距，可以判斷各個(gè)異常數(shù)據(jù)處理方法的識(shí)別效果與精準(zhǔn)度。

4.1 基于標(biāo)準(zhǔn)功率曲線的評價(jià)指標(biāo)

基于風(fēng)電場提供的標(biāo)準(zhǔn)功率曲線，以風(fēng)速作為基準(zhǔn)，按0.5 m/s 劃分風(fēng)速區(qū)間，在各個(gè)風(fēng)速區(qū)間內(nèi)計(jì)算數(shù)據(jù)樣本功率值與標(biāo)準(zhǔn)輸出功率值的絕對距離，再計(jì)算清洗之后整個(gè)數(shù)據(jù)集與標(biāo)準(zhǔn)曲線的誤差。區(qū)間內(nèi)誤差的計(jì)算公式為

式中：MAEi為第i個(gè)區(qū)間的數(shù)據(jù)與標(biāo)準(zhǔn)值的平均絕對誤差；RMSEi為第i個(gè)區(qū)間的均方根誤差；Ni為第i個(gè)區(qū)間的數(shù)據(jù)總量；Pi為第i個(gè)區(qū)間的基準(zhǔn)功率曲線的值；Pi,j為第i個(gè)區(qū)間的第j個(gè)數(shù)據(jù)。

此外，記錄各個(gè)方法在每個(gè)數(shù)據(jù)集的運(yùn)行時(shí)間，并計(jì)算的數(shù)據(jù)刪除率為

式中：D為數(shù)據(jù)刪除率；R0為原始數(shù)據(jù)；R1為剩余數(shù)據(jù)量。

4.2 識(shí)別誤差分析

將異常數(shù)據(jù)剔除后，按照式（4）、式（5）計(jì)算各個(gè)方法的識(shí)別結(jié)果與對應(yīng)樣本數(shù)據(jù)集標(biāo)準(zhǔn)功率曲線之間的離散程度，以此來分析對比4種方法識(shí)別異常數(shù)據(jù)的精確度。同時(shí)，獲取各方法進(jìn)行異常數(shù)據(jù)識(shí)別所需時(shí)間，并按式（6）計(jì)算各方法的數(shù)據(jù)剔除率，即被剔除的異常數(shù)據(jù)量與原數(shù)據(jù)量的比值，各項(xiàng)計(jì)算結(jié)果如表2所示。

表2 數(shù)據(jù)清洗結(jié)果與功率曲線誤差Tab.2 Data cleaning results and power curve errors

從4 種方法清洗異常數(shù)據(jù)所花時(shí)間來看，順序集成方法費(fèi)時(shí)最長，兩種單一方法耗時(shí)較短，本文方法耗時(shí)居中。結(jié)合表1中4個(gè)數(shù)據(jù)集的數(shù)據(jù)量可以看出，清洗時(shí)間隨風(fēng)功率數(shù)據(jù)集數(shù)據(jù)量的增大而增大。本文方法的清洗時(shí)長主要取決于基本異常檢測模型中耗時(shí)最長的檢測模型和后續(xù)利用偽標(biāo)簽對結(jié)果進(jìn)行二次篩選合并。順序集成方法耗時(shí)短于兩單一模型耗時(shí)直接相加，這是因?yàn)榍耙徊教幚砗箫L(fēng)功率數(shù)據(jù)集總數(shù)據(jù)量減小了。對于兩種單一模型，LOF 方法是基于局部鄰域密度，INNE 方法是基于集成的，后者的計(jì)算量更大，故INNE方法耗時(shí)大于LOF方法。

從表2 中可以看出，本文方法的異常數(shù)據(jù)刪除率為4種方法中最大，這是因?yàn)長SCP框架針對所集成的各個(gè)基本檢測模型結(jié)果做了再一次篩選。順序集成方法的數(shù)據(jù)刪除率均大于2 種單一類方法。值得注意的是，針對風(fēng)電場B，順序集成方法的數(shù)據(jù)刪除率大于本文方法，出現(xiàn)了過刪除的情況。此外，LOF方法在識(shí)別異常數(shù)據(jù)時(shí)更容易受到局部分布密度的影響，故該方法的刪除率會(huì)大于INNE方法。

對比MAE和RMSE可以看出，本文方法的識(shí)別效果更精準(zhǔn)，與標(biāo)準(zhǔn)功率曲線的誤差也更小；但是順序集成方法在風(fēng)電場B上的誤差小于文本方法，通過對比圖3（b）和圖6（b）以及數(shù)據(jù)刪除率可以看出，順序集成方法所識(shí)別出的正常數(shù)據(jù)曲線整體寬度較本文方法的更窄，所剔除的異常數(shù)據(jù)更多，故其與標(biāo)準(zhǔn)功率曲線的誤差也會(huì)更小。

4.3 異常數(shù)據(jù)識(shí)別在風(fēng)功率預(yù)測中的應(yīng)用

將風(fēng)電機(jī)組實(shí)測數(shù)據(jù)集中的異常數(shù)據(jù)剔除，有利于提高后續(xù)風(fēng)電機(jī)組出力預(yù)測的精度，是構(gòu)建可靠準(zhǔn)確風(fēng)電功率預(yù)測模型的重要基礎(chǔ)。使用原始風(fēng)功率數(shù)據(jù)集、本文方法清洗后的風(fēng)功率數(shù)據(jù)集和3種對比方法清洗后的風(fēng)功率數(shù)據(jù)集分別作為訓(xùn)練集對長短期記憶LSTM（long short-term memory）模型[23]進(jìn)行訓(xùn)練。每個(gè)訓(xùn)練集中的訓(xùn)練樣本數(shù)相同，預(yù)測模型參數(shù)及結(jié)構(gòu)一致，選取同一天運(yùn)行數(shù)據(jù)樣本作為測試集進(jìn)行仿真預(yù)測，選取平均絕對誤差和均方根誤差作為預(yù)測結(jié)果的評價(jià)指標(biāo)，計(jì)算預(yù)測結(jié)果與實(shí)際數(shù)據(jù)的誤差，所得結(jié)果如表3所示。

表3 風(fēng)功率預(yù)測指標(biāo)Tab.3 Indexes for wind power prediction

從表3 中可以看出，對比利用原始數(shù)據(jù)集進(jìn)行訓(xùn)練，剔除異常數(shù)據(jù)后，MAE 和RMSE 均有不同程度的減少，MAE平均減少了4.02%，RMSE平均減少了2.36%，預(yù)測模型的精度均得到了提升；使用經(jīng)本文方法處理后的數(shù)據(jù)集進(jìn)行風(fēng)功率預(yù)測，MAE 和RMSE兩項(xiàng)指標(biāo)減少得最多，分別為5.06%和3.46%，預(yù)測精度提高效果最明顯；順序集成方法的MAE和RMSE分別減少了4.68%和3.15%，對預(yù)測精度的提升效果略遜于本文方法；兩種單一模型的誤差減少最小，對預(yù)測精度的提升效果不如兩種集成方法；本文方法能有效清洗風(fēng)電功率異常數(shù)據(jù)，有效提升了預(yù)測模型的預(yù)測精度，也有利于提高風(fēng)電機(jī)組的利用率和電力系統(tǒng)經(jīng)濟(jì)調(diào)度的有效性。

綜合來看，本文方法為風(fēng)電功率異常數(shù)據(jù)處理提供了一種合理、高效的識(shí)別方法。通過LSCP 框架結(jié)合了兩種識(shí)別算法的優(yōu)點(diǎn)，能有效識(shí)別前文所提各類異常數(shù)據(jù)，在不同風(fēng)電場實(shí)際運(yùn)行數(shù)據(jù)集、不同異常數(shù)據(jù)分布狀態(tài)下均具有良好表現(xiàn)，其識(shí)別效果優(yōu)于順序集成方法，也避免了順序集成方法使用先后順序的問題，具有較強(qiáng)的實(shí)用性和通用性。

5 結(jié) 語

本文針對風(fēng)電機(jī)組運(yùn)行過程中產(chǎn)生異常數(shù)據(jù)的問題，通過對異常數(shù)據(jù)類型及產(chǎn)生原因進(jìn)行分析，提出了一種多模型集成并行框架的風(fēng)電功率異常數(shù)據(jù)識(shí)別方法。通過實(shí)例驗(yàn)證和對比分析表明，該方法結(jié)合了INNE 方法和LOF 方法的優(yōu)勢，對不同風(fēng)電場運(yùn)行場景、不同異常數(shù)據(jù)類型、不同異常數(shù)據(jù)分布狀態(tài)，尤其是橫向堆積型異常數(shù)據(jù)的識(shí)別效果顯著，能有效提升后續(xù)風(fēng)功率預(yù)測模型的精度，具有較強(qiáng)的通用性，適用于大多數(shù)異常數(shù)據(jù)處理場合。但本文方法在識(shí)別過程中還存在以下2個(gè)問題：一是數(shù)據(jù)刪除率相對較高，對風(fēng)電功率數(shù)據(jù)集完整性破壞較大；二是沒有考慮數(shù)據(jù)重構(gòu)問題。下一步工作將研究如何降低數(shù)據(jù)刪除率，以及如何對被識(shí)別的異常數(shù)據(jù)進(jìn)行合理重構(gòu)，并在數(shù)據(jù)重構(gòu)時(shí)考慮使用更多風(fēng)電機(jī)組其他數(shù)據(jù)信息。