陳江雨,李培強(qiáng),鐘吳君
(湖南大學(xué)電氣與信息工程學(xué)院,長沙 410082)
隨著全球不可再生資源減少導(dǎo)致的能源供應(yīng)短缺,大力發(fā)展可再生能源逐漸成為各國優(yōu)化能源結(jié)構(gòu)、解決能源危機(jī)的重要手段。風(fēng)能作為一種清潔、易獲取的可再生能源,已逐漸成為繼火電、水電之后的第三大能源。但由于風(fēng)能具有間歇性與隨機(jī)性,風(fēng)電并網(wǎng)后給電網(wǎng)運(yùn)行安全、電網(wǎng)調(diào)度和電能質(zhì)量等方面都帶來了極大的挑戰(zhàn)[1]。風(fēng)電機(jī)組運(yùn)行歷史數(shù)據(jù)具有很高的研究價(jià)值,特別是風(fēng)速數(shù)據(jù)和風(fēng)功率數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行挖掘分析,不僅可以評估風(fēng)電場及風(fēng)電機(jī)組的性能和運(yùn)行狀況,還在風(fēng)電功率預(yù)測上發(fā)揮不可或缺的作用,直接影響預(yù)測結(jié)果精準(zhǔn)度[2-3]。然而在實(shí)際運(yùn)行過程中,由于環(huán)境和機(jī)組運(yùn)行故障等因素,風(fēng)電機(jī)組會(huì)產(chǎn)生大量異常運(yùn)行數(shù)據(jù),為提高數(shù)據(jù)質(zhì)量,需要對風(fēng)電功率歷史數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行識(shí)別。
目前,許多學(xué)者已經(jīng)在異常數(shù)據(jù)處理方面開展了大量研究并取得了諸多成果,而機(jī)器學(xué)習(xí)的發(fā)展為識(shí)別異常數(shù)據(jù)提供了便利的手段。文獻(xiàn)[4]通過比較含噪聲的基于密度的聚類方法DBSCAN(densitybased spatial clustering of applications with noise)、局部異常因子LOF(local outlier factor)、Thompson-tau四分位法和孤立森林IF(isolation forest)4種常用異常數(shù)據(jù)識(shí)別方法,得出了IF方法通用性最強(qiáng)且LOF方法對稀疏異常數(shù)據(jù)效果好的結(jié)論;文獻(xiàn)[5]提出了基于分功率區(qū)間的自適應(yīng)DBSCAN 異常數(shù)據(jù)識(shí)別算法,但該方法需要針對不同機(jī)組運(yùn)行情況劃分功率區(qū)間,普適性較差;文獻(xiàn)[6]提出了一種基于變點(diǎn)分組-四分位的組合風(fēng)電異常數(shù)據(jù)識(shí)別方法,但清洗后的功率曲線呈階梯狀;文獻(xiàn)[7]提出了一種孤立森林與均值漂移算法組合的風(fēng)電異常數(shù)據(jù)清理算法,但出現(xiàn)了過度刪除的情況;文獻(xiàn)[8]提出基于灰色關(guān)聯(lián)度和K-means 聚類的異常數(shù)據(jù)識(shí)別方法,但需要針對不同場景進(jìn)行調(diào)參。
對比單一識(shí)別方法,順序集成類方法可以相互彌補(bǔ)單一方法在異常數(shù)據(jù)處理上的不足,但是順序集成類方法還需要探究方法之間的使用順序,并且可能會(huì)出現(xiàn)過度刪除的情況,故而有部分學(xué)者將并行集成類學(xué)習(xí)方法用于異常數(shù)據(jù)檢測。文獻(xiàn)[9]最早提出了并行集成類異常檢測框架feature bagging,通過從原始數(shù)據(jù)集抽取特征子集訓(xùn)練多個(gè)基學(xué)習(xí)模型(即基本異常數(shù)據(jù)檢測模型),最終采用一定策略組合所有基學(xué)習(xí)模型的輸出結(jié)果。然而這類并行集成框架缺乏對全部基學(xué)習(xí)模型輸出結(jié)果的選擇性組合,從而使表現(xiàn)優(yōu)秀的基學(xué)習(xí)模型難以發(fā)揮優(yōu)勢。同時(shí),該類并行集成框架是基于全局角度出發(fā),難以關(guān)注到局部異常。針對這類問題,文獻(xiàn)[10]提出了基于局部動(dòng)態(tài)選擇組合的并行集成異常檢測算法LSCP(locally selective combination in parallel outlier ensemble),通過設(shè)置不同參數(shù)的LOF 基學(xué)習(xí)模型,采用生成局部偽標(biāo)簽的方式對每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行異常識(shí)別,達(dá)到了更優(yōu)的效果。
綜上所述,本文提出一種基于多模型并行集成框架的風(fēng)電功率數(shù)據(jù)異常識(shí)別方法。鑒于LSCP框架中采用的基學(xué)習(xí)模型為超參不同的LOF方法,且單一LOF 方法對分布密度較高的異常數(shù)據(jù)識(shí)別效果較差,因此本文在LSCP 框架中加入異構(gòu)基學(xué)習(xí)模型——基于最近鄰隔離INNE[11](isolation using nearest neighbor ensemble)和不同超參的LOF 算法進(jìn)行集成,通過異構(gòu)基學(xué)習(xí)模型對具有不同分布特征的風(fēng)電功率異常數(shù)據(jù)進(jìn)行有選擇識(shí)別,提升模型的整體性能。通過在不同風(fēng)電場實(shí)際運(yùn)行數(shù)據(jù)集上進(jìn)行驗(yàn)證,獲得的實(shí)驗(yàn)結(jié)果表明,與單一方法和順序集成類方法相比,本文方法在風(fēng)電功率異常數(shù)據(jù)識(shí)別任務(wù)取得了更好的效果。
風(fēng)力發(fā)電是指風(fēng)電機(jī)組利用風(fēng)機(jī)葉片使風(fēng)的動(dòng)能轉(zhuǎn)化為機(jī)械能,再通過發(fā)電機(jī)轉(zhuǎn)化為電能的過程。在實(shí)際運(yùn)行情況中,風(fēng)電機(jī)組的輸出功率遵循以下規(guī)律:當(dāng)風(fēng)速不超過切入風(fēng)速時(shí),機(jī)組不進(jìn)行發(fā)電;當(dāng)風(fēng)速介于切入風(fēng)速與額定風(fēng)速之間時(shí),風(fēng)機(jī)開始發(fā)電,輸出功率與風(fēng)速的立方成正比;當(dāng)風(fēng)速超過額定風(fēng)速但未達(dá)到切出風(fēng)速時(shí),輸出功率保持額定輸出功率Pn不變;當(dāng)風(fēng)速超過切出風(fēng)速時(shí),機(jī)組通過控制系統(tǒng)實(shí)施停機(jī),輸出功率降為0。則風(fēng)機(jī)的實(shí)際功率[12-14]P0可表示為
式中:Cp為風(fēng)能利用系數(shù),為吸收風(fēng)能與初始風(fēng)能之比;ρ為空氣密度;S為葉片接觸面積;v為風(fēng)速;vi、vn、vo分別為切入風(fēng)速、額定風(fēng)速和切出風(fēng)速。
為直觀看出風(fēng)電機(jī)組實(shí)際運(yùn)行時(shí)風(fēng)速與功率的分布情況,可以畫出風(fēng)電場的風(fēng)速-功率(v-P)散點(diǎn)圖。以本文使用的4個(gè)國內(nèi)外風(fēng)電場2021年的實(shí)際運(yùn)行數(shù)據(jù)集為例,其實(shí)測v-P曲線散點(diǎn)圖如圖1所示。從圖1中可以看出,實(shí)際運(yùn)行狀態(tài)下的風(fēng)速-風(fēng)功率數(shù)據(jù)呈非線性分布,且分布位置與分布密度各異,不同風(fēng)電場的運(yùn)行數(shù)據(jù)分布類型并不一致。由式(1)可以得知,風(fēng)電機(jī)組實(shí)際運(yùn)行時(shí)其風(fēng)速-風(fēng)功率的理想運(yùn)行曲線為“S”型,故可以認(rèn)為在v-P曲線散點(diǎn)圖中,數(shù)據(jù)分布密度高且分布位置類似理想曲線“S”的數(shù)據(jù)為風(fēng)電機(jī)組正常運(yùn)行數(shù)據(jù)。


圖1 風(fēng)速-功率散點(diǎn)圖Fig.1 Scatter plot of wind speed vs power
每臺(tái)風(fēng)機(jī)在投入實(shí)際運(yùn)行前都需要在各種運(yùn)行工況下進(jìn)行測試,若在實(shí)際運(yùn)行過程中收集到的運(yùn)行數(shù)據(jù)與測試運(yùn)行數(shù)據(jù)偏離較大,這類運(yùn)行數(shù)據(jù)被稱為異常數(shù)據(jù)。基于統(tǒng)計(jì)學(xué)的3σ準(zhǔn)則[15],假設(shè)風(fēng)電功率數(shù)據(jù)按照正態(tài)分布,σ表示數(shù)據(jù)的標(biāo)準(zhǔn)差,μ表示數(shù)據(jù)的均值,可以認(rèn)為分布在(-∞,μ-3σ)和(μ+3σ,+∞)兩區(qū)間內(nèi)的數(shù)據(jù)為異常數(shù)據(jù)。異常數(shù)據(jù)產(chǎn)生的原因主要來自兩方面:一是人為限電,如風(fēng)機(jī)停機(jī)檢修、按發(fā)電計(jì)劃降低或暫停風(fēng)機(jī)出力等;二是客觀影響,如遭遇極端天氣、風(fēng)機(jī)葉片損壞、電力通信故障等。
從數(shù)據(jù)分布位置及密度來看,異常數(shù)據(jù)類型主要可以分為堆積型和分散型兩類[16-18],其產(chǎn)生原因也不盡相同。為此,依據(jù)數(shù)據(jù)分布形態(tài)及產(chǎn)生原因,將異常數(shù)據(jù)分為5類,并在圖1中圈注為(1)~(5)。
第(1)類,頂部堆積型異常數(shù)據(jù)。如圖1(b)所示,這類異常數(shù)據(jù)在v-P散點(diǎn)圖上表現(xiàn)成一條橫向的密集數(shù)據(jù)帶,其功率超出風(fēng)電場的總裝機(jī)容量,主要成因是風(fēng)電機(jī)組處于超發(fā)狀態(tài)。
第(2)類,上方堆積型異常數(shù)據(jù)。這類異常數(shù)據(jù)主要是由于風(fēng)電場的測量或者通信設(shè)備發(fā)生故障,在一段時(shí)間內(nèi)持續(xù)發(fā)送某一固定數(shù)值,其在v-P散點(diǎn)圖上通常有2 種形式的表現(xiàn),若為豎線,說明故障發(fā)生在氣象測量或通訊儀器上,如圖1(a)所示;若為橫線,則故障發(fā)生在功率測量/通訊儀器。
第(3)類上,方分散型異常數(shù)據(jù)。這類異常數(shù)據(jù)的成因與上方堆積型相同,不同的是它出現(xiàn)時(shí)間較為隨機(jī)且在v-P散點(diǎn)圖上分布靠近整體曲線,這在圖1(a)、(d)中均有體現(xiàn),識(shí)別難度較高。
第(4)類,下方堆積型異常數(shù)據(jù)。如圖1中4幅分圖所示,這類異常數(shù)據(jù)通常分布在v-P曲線的右側(cè)和底部,呈現(xiàn)為一條橫向或斜向的密集數(shù)據(jù)帶,主要由棄風(fēng)限電、計(jì)劃內(nèi)停機(jī)檢修、風(fēng)機(jī)停機(jī)啟動(dòng)等因素導(dǎo)致。同時(shí),由于風(fēng)機(jī)內(nèi)部測控系統(tǒng)的自耗,會(huì)出現(xiàn)風(fēng)速為0 但輸出功率為負(fù)的情況,表現(xiàn)為聚集在v-P散點(diǎn)圖底部功率為0附近的數(shù)據(jù)帶。
第(5)類,下方分散型異常數(shù)據(jù)。這類數(shù)據(jù)在v-P散點(diǎn)圖上分布為密度較低的無規(guī)律點(diǎn),在圖1所示的4 幅分圖中均有體現(xiàn),主要由測量誤差、信號噪聲、極端天氣等因素影響,導(dǎo)致輸出功率產(chǎn)生隨機(jī)偏差。
針對不同類型的風(fēng)電功率異常數(shù)據(jù),單一識(shí)別方法很難做到全方位識(shí)別處理;同樣,順序集成方法可能存在過刪除的情況,因此,本文依據(jù)所劃分的5類風(fēng)電功率異常數(shù)據(jù)特征,提出一種基于多模型并行集成框架的風(fēng)電功率異常數(shù)據(jù)處理方法,并加入異構(gòu)基學(xué)習(xí)模型,實(shí)現(xiàn)對各類風(fēng)電功率異常數(shù)據(jù)的識(shí)別。
并行集成類方法在異常數(shù)據(jù)處理領(lǐng)域上的應(yīng)用通常是采用無監(jiān)督框架,在一般情況下,風(fēng)功率數(shù)據(jù)本身不會(huì)提供自身“是否異常”的信息,故而將并行集成框架用于風(fēng)電功率異常數(shù)據(jù)的研究較少。此外,大部分無監(jiān)督并行集成框架在輸出識(shí)別結(jié)果時(shí),通常采用平均法等策略結(jié)合全部基學(xué)習(xí)模型給出識(shí)別結(jié)果,這會(huì)導(dǎo)致表現(xiàn)優(yōu)異的基學(xué)習(xí)模型被表現(xiàn)差的基學(xué)習(xí)模型掩蓋。同時(shí),這種策略通常是基于全局,無法針對局部異常數(shù)據(jù)因地制宜[19]。
LSCP 是一個(gè)可以對多個(gè)異常檢測模型進(jìn)行并行集成的無監(jiān)督框架算法,各個(gè)基本模型之間獨(dú)立運(yùn)行,互不干擾。LSCP 框架采用動(dòng)態(tài)分類選擇器DCS[20](dynamic classifier selection)來選擇適合于每個(gè)風(fēng)功率數(shù)據(jù)樣本點(diǎn)的異常檢測模型,其原理是通過評估各模型在數(shù)據(jù)點(diǎn)局部鄰域內(nèi)的表現(xiàn)來判斷模型是否在該點(diǎn)表現(xiàn)良好。再通過基于K 最鄰近算法KNN(K-nearest neighbor)生產(chǎn)局部偽標(biāo)簽,篩選并組合基學(xué)習(xí)模型的辨識(shí)結(jié)果。
本文構(gòu)建的多模型并行框架如圖2 所示,具體流程如下。

圖2 多模型并行集成框架流程Fig.2 Flow chart of multi-model parallel integration framework
步驟1構(gòu)建模型池:分別訓(xùn)練基于INNE方法和基于LOF方法的超參不同的基本異常檢測模型,構(gòu)成基本異常檢測模型池。同時(shí)劃分風(fēng)功率數(shù)據(jù)集為訓(xùn)練集Xtrain和測試集Xtest,將訓(xùn)練集輸入到模型池中對所有模型進(jìn)行訓(xùn)練,完成各模型的初參數(shù)調(diào)試。
步驟2鄰域劃分:使用KNN 法劃分風(fēng)功率數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的局部最近鄰區(qū)域ψi,其中,為KNN法的滿足條件。
步驟3生成偽標(biāo)簽:對于數(shù)據(jù)點(diǎn)xi,將其ψi內(nèi)每一數(shù)據(jù)點(diǎn)放入基本異常檢測模型池進(jìn)行識(shí)別,獲取對應(yīng)局部異常得分橫向量,再合并形成局部異常得分矩陣O(ψi)。將所得矩陣O(ψi)中各橫向量進(jìn)行歸一化處理,再選取各橫向量中的最大值fmax(),組成對應(yīng)局部偽異常標(biāo)簽targetψi。
步驟4計(jì)算最終結(jié)果:計(jì)算局部異常得分矩陣O(ψi)與對應(yīng)局部偽異常標(biāo)簽targetψi的皮爾遜相關(guān)系數(shù),選取相關(guān)系數(shù)大的基本異常檢測模型作為數(shù)據(jù)點(diǎn)xi的異常檢測模型,若選出模型個(gè)數(shù)為1,則其檢測結(jié)果就為xi的辨識(shí)結(jié)果;若模型個(gè)數(shù)大于1,則將各模型檢測結(jié)果的平均值作為xi的辨識(shí)結(jié)果。
基于最近鄰隔離方法是一種改進(jìn)孤立森林算法,結(jié)合了最近鄰距離比來計(jì)算數(shù)據(jù)的異常指標(biāo)。對于風(fēng)功率數(shù)據(jù),IF方法可以有效處理堆積型異常數(shù)據(jù),但是考慮到IF方法是通過不斷遞歸平行軸來細(xì)分?jǐn)?shù)據(jù)區(qū)間,而使平行于坐標(biāo)軸的堆積型異常數(shù)據(jù)無法被識(shí)別。而INNE方法針對這一點(diǎn)進(jìn)行了改進(jìn),通過建立多組多維超球體進(jìn)行數(shù)據(jù)空間的切割來實(shí)現(xiàn)隔離機(jī)制,加強(qiáng)了對軸平行的異常數(shù)據(jù)的處理能力,可有效識(shí)別該類風(fēng)功率異常數(shù)據(jù)[11,21]。
INNE 方法分為訓(xùn)練階段和測試階段,兩階段使用的數(shù)據(jù)集可以無關(guān)也可相關(guān),過程如下。
(1)訓(xùn)練階段:從風(fēng)功率訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇數(shù)據(jù)點(diǎn)構(gòu)成大小為N且無需替換的子數(shù)據(jù)集Xi。再對Xi中每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行最近鄰搜索,即在剩下N-1 個(gè)數(shù)據(jù)點(diǎn)中尋找離自身最近的點(diǎn)。然后以自身為球心,到所尋最近鄰點(diǎn)的距離為半徑畫出超球,一共畫出N個(gè)超球體。重復(fù)上述操作t次,得到t組超球體集合。
(2)測試階段:將風(fēng)功率測試數(shù)據(jù)集中某一數(shù)據(jù)點(diǎn)x放入某組超球體集合Bi(cj)(i∈[1,t],j∈[1,N])中,如果x不被Bi(cj)中任意一個(gè)超球體包含,則將該數(shù)據(jù)點(diǎn)的孤立評分記為1;若x被某個(gè)超球體Bi(c1) 包含,則再找到離Bi(c1) 最近的超球體Bi(c2),分別記錄兩者的半徑τ1、τ2,則數(shù)據(jù)點(diǎn)x的孤立評分為1-τ2/τ1。將測試集中每一個(gè)數(shù)點(diǎn)分別放進(jìn)每組超球集合中計(jì)算其孤立評分,再計(jì)算其異常評分。孤立評分和異常評分分別表示為
式中:Bi(cj)為用數(shù)據(jù)集Xi構(gòu)建的超球體集合中的第j個(gè)超球體;Ii(x)為數(shù)據(jù)樣本x在子數(shù)據(jù)集Xi構(gòu)建的超球體集合中的孤立評分;Iˉ(x)為數(shù)據(jù)樣本x的異常評分。
局部異常因子方法是一種基于密度的異常數(shù)據(jù)檢測方法[22],其原理是計(jì)算風(fēng)功率數(shù)據(jù)集中某一數(shù)據(jù)點(diǎn)x周圍數(shù)據(jù)點(diǎn)所處位置的平均密度與該數(shù)據(jù)點(diǎn)所處位置的密度的比值,該比值定義為局部異常因子。比值越接近1或小于1,則x是正常數(shù)據(jù)的可能性越大;比值越大于1,則x越可能是異常數(shù)據(jù)。
對于風(fēng)功率數(shù)據(jù)點(diǎn)x來說,其處于不同數(shù)據(jù)集或同一數(shù)據(jù)集的不同位置,表現(xiàn)出的特征會(huì)不一致。LOF方法在判斷x是否異常時(shí),是取決于x的k距離鄰域,這可以有效識(shí)別出風(fēng)電功率數(shù)據(jù)中的局部異常數(shù)據(jù),避免識(shí)別方法僅基于全局異常的問題。同時(shí),針對分散型異常數(shù)據(jù),由于其分布密度與正常數(shù)據(jù)分布密度相差較大,也可以由LOF方法有效識(shí)別。
為驗(yàn)證所提方法能對風(fēng)功率異常數(shù)據(jù)進(jìn)行有效識(shí)別,以第1.2 節(jié)提到的4 個(gè)風(fēng)電場的運(yùn)行數(shù)據(jù)為例,用本文所提方法進(jìn)行異常數(shù)據(jù)識(shí)別,并與單一最近鄰隔離方法、局部異常因子方法及最近鄰隔離-局部異常因子順序集成方法進(jìn)行對比,以此說明所提方法的識(shí)別效果及清洗效率。其中,風(fēng)機(jī)切入風(fēng)速取2 m/s,額定風(fēng)速取12 m/s,切出風(fēng)速取20 m/s。本文方法使用的并行框架中各基檢測模型的關(guān)鍵參數(shù)設(shè)置為:INNE 模型中超球體集合個(gè)數(shù)為8,訓(xùn)練集選取的子數(shù)據(jù)集大小為200;5個(gè)LOF模型的k距離鄰域選擇分別為15,20,25,30,35。4 個(gè)風(fēng)電場數(shù)據(jù)集情況如表1所示。

表1 風(fēng)電場數(shù)據(jù)集簡介Tab.1 Profile of wind farm data sets
采用本文方法對第1.2 節(jié)所提4 個(gè)風(fēng)電場的實(shí)際運(yùn)行數(shù)據(jù)進(jìn)行異常數(shù)據(jù)識(shí)別,得到的結(jié)果如圖3所示,其中淺色為所識(shí)別的異常數(shù)據(jù)。可以看出,本文方法可以有效識(shí)別運(yùn)行數(shù)據(jù)中存在的各種異常數(shù)據(jù)類型。

圖3 異常數(shù)據(jù)識(shí)別結(jié)果Fig.3 Abnormal data identification results
相較于風(fēng)電場B、C、D 的實(shí)際運(yùn)行數(shù)據(jù)在v-P散點(diǎn)圖上呈現(xiàn)出的曲線均較為符合理想風(fēng)機(jī)運(yùn)行情況,風(fēng)電場A 的采樣頻率為10 min,且安裝的風(fēng)電機(jī)組型號較多,對比圖3的4幅分圖可以看出,其運(yùn)行數(shù)據(jù)組成的頻帶較寬,所包含的異常數(shù)據(jù)分布形式與其他3 個(gè)風(fēng)電場不完全一致。從圖3(a)展示的識(shí)別結(jié)果來看,風(fēng)電場A 包含的4 類異常數(shù)據(jù)均被有效識(shí)別,但當(dāng)輸出功率大于14 MW時(shí)的數(shù)據(jù)均被識(shí)別為異常數(shù)據(jù),這是由于INNE 方法中采用了最近鄰距離比,且LOF 也是基于密度檢測方法,而風(fēng)電場A在實(shí)際運(yùn)行時(shí)基本沒有滿發(fā)時(shí)刻,故輸出功率大于14 MW 且小于額定功率的數(shù)據(jù)點(diǎn)數(shù)量較小,其分布密度雖然大于同功率區(qū)間范圍內(nèi)的異常數(shù)據(jù)分布密度,但是小于同風(fēng)速區(qū)間內(nèi)的正常數(shù)據(jù)分布密度。
對于風(fēng)電場B、C 和D,這3 個(gè)風(fēng)電場的異常數(shù)據(jù)類型一致,都具有大量類型5 的異常數(shù)據(jù),但分布位置不同,其中:風(fēng)電場B 的異常數(shù)據(jù)大部分出現(xiàn)在曲線的下半部分,風(fēng)電場C和D則多集中與上中部。除此之外,風(fēng)電場C還具有許多平行于橫坐標(biāo)軸的異常數(shù)據(jù),而風(fēng)電場B和D的這類異常數(shù)據(jù)僅分布在輸出功率為0或額定功率附近。對于這3個(gè)風(fēng)電場包含的各種異常數(shù)據(jù),文本方法均有較為優(yōu)秀的表現(xiàn)。
綜上所述,4 個(gè)風(fēng)電場運(yùn)行數(shù)據(jù)中的幾類異常數(shù)據(jù)都能被有效識(shí)別。雖然風(fēng)電場A 與其他風(fēng)電場的運(yùn)行數(shù)據(jù)在風(fēng)速-功率散點(diǎn)圖上表現(xiàn)差異較大,但本文所提方法在各類異常數(shù)據(jù)識(shí)別上均取得了有效的成果,且算法最后識(shí)別所獲得的結(jié)果都較為符合理想風(fēng)速-風(fēng)功率曲線,這說明該方法具有一定的通用性。
本節(jié)利用單一INNE 方法、LOF 方法和INNELOF 順序集成方法對4 個(gè)風(fēng)電場運(yùn)行數(shù)據(jù)進(jìn)行識(shí)別。其中,本文方法中所使用INNE 基本異常檢測模型的超參與單一INNE法和INNE-LOF法中一致,即超球體集合個(gè)數(shù)為8,訓(xùn)練集選取的子數(shù)據(jù)集大小為200;由于本文方法使用了不同超參的LOF基本異常檢測模型,故單一LOF 法和INNE-LOF 法的超參選擇使單一LOF 法表現(xiàn)最優(yōu)的超參,即k距離鄰域的k取25。圖4~圖6為3種方法的識(shí)別結(jié)果。


圖4 INNE 方法識(shí)別結(jié)果Fig.4 Identification results obtained using INNE method
由圖4可以看出,INNE方法能有效剔除多種類型異常數(shù)據(jù),大部分平行于坐標(biāo)軸的異常數(shù)據(jù)也得到了有效處理,但緊靠v-P曲線的部分異常數(shù)據(jù)難以被識(shí)別。除此之外,圖4 的4 幅分圖中均有小部分堆積型異常數(shù)據(jù)被誤判為正常數(shù)據(jù)。
從圖5 來看,由于風(fēng)機(jī)實(shí)際運(yùn)行時(shí)存在棄風(fēng)限電等情況,故而在同一風(fēng)速區(qū)間或功率區(qū)間下,會(huì)出現(xiàn)異常數(shù)據(jù)分布密度等于甚至大于正常數(shù)據(jù)分布密度的情況,并且LOF方法的檢測原理是基于局部鄰域密度的大小,因此從圖5 所示4 個(gè)分圖中可以看出,部分分布密度較大的異常數(shù)據(jù)無法被識(shí)別。對比圖4 的4 幅分圖,LOF 方法無法識(shí)別橫向堆積型異常數(shù)據(jù),而INNE 方法在處理這部分異常數(shù)據(jù)有很優(yōu)秀的表現(xiàn)。

圖5 LOF 方法識(shí)別結(jié)果Fig.5 Identification results obtained using LOF method
雖然INNE方法采用了基于最近鄰距離比來優(yōu)化局部識(shí)別能力,但其最終輸出結(jié)果還是基于全局最優(yōu),仍存在部分局部異常數(shù)據(jù)無法被識(shí)別的情況。基于此,順序集成方法采用先INNE 后LOF 的順序,通過基于局部鄰域密度的LOF 方法彌補(bǔ)INNE 方法在局部異常識(shí)別的不足。從圖6 展示的結(jié)果可以看出,順序集成方法可以有效識(shí)別大部分異常數(shù)據(jù),對比圖3所示結(jié)果,部分緊靠v-P曲線下方的堆積型異常數(shù)據(jù)識(shí)別效果較差。對于圖6(a),有部分堆積型異常數(shù)據(jù)沒有被識(shí)別;觀察圖6(c),其超過額定風(fēng)速但未超過切出風(fēng)速的滿發(fā)狀態(tài)下的數(shù)據(jù),大部分被誤判為異常數(shù)據(jù)。

圖6 INNE-LOF 方法識(shí)別結(jié)果Fig.6 Identification results obtained using INNE-LOF method
綜上所述,本文方法結(jié)合了INNE 算法和LOF算法兩者之長,可以有效識(shí)別各類異常數(shù)據(jù)。對比單一INNE、LOF 方法和INNE-LOF 方法,本文方法的處理結(jié)果更為優(yōu)秀。對比INNE 方法,本文方法加強(qiáng)了其局部異常處理能力;對比LOF 方法,本文方法提高了對平行于坐標(biāo)軸的異常數(shù)據(jù)處理能力;對比順序集成方法,LSCP 框架在判別數(shù)據(jù)點(diǎn)是否異常時(shí)是根據(jù)數(shù)據(jù)點(diǎn)所處局部區(qū)域動(dòng)態(tài)選擇表現(xiàn)優(yōu)異的基學(xué)習(xí)模型,并且在給出最終結(jié)果時(shí)結(jié)合局部偽標(biāo)簽對多個(gè)基學(xué)習(xí)模型進(jìn)行二次篩選,因此,本文方法在堆積型異常上處理能力更優(yōu)。
由圖1 展示的數(shù)據(jù)分布情況可知,正常數(shù)據(jù)集中分布于v-P曲線,而大部分異常數(shù)據(jù)分布明顯遠(yuǎn)離v-P曲線。獲取每一個(gè)風(fēng)電場的標(biāo)準(zhǔn)風(fēng)速-風(fēng)功率曲線,比較剔除異常數(shù)據(jù)后剩余數(shù)據(jù)組成的數(shù)據(jù)集與標(biāo)準(zhǔn)v-P曲線的差距,可以判斷各個(gè)異常數(shù)據(jù)處理方法的識(shí)別效果與精準(zhǔn)度。
基于風(fēng)電場提供的標(biāo)準(zhǔn)功率曲線,以風(fēng)速作為基準(zhǔn),按0.5 m/s 劃分風(fēng)速區(qū)間,在各個(gè)風(fēng)速區(qū)間內(nèi)計(jì)算數(shù)據(jù)樣本功率值與標(biāo)準(zhǔn)輸出功率值的絕對距離,再計(jì)算清洗之后整個(gè)數(shù)據(jù)集與標(biāo)準(zhǔn)曲線的誤差。區(qū)間內(nèi)誤差的計(jì)算公式為
式中:MAEi為第i個(gè)區(qū)間的數(shù)據(jù)與標(biāo)準(zhǔn)值的平均絕對誤差;RMSEi為第i個(gè)區(qū)間的均方根誤差;Ni為第i個(gè)區(qū)間的數(shù)據(jù)總量;Pi為第i個(gè)區(qū)間的基準(zhǔn)功率曲線的值;Pi,j為第i個(gè)區(qū)間的第j個(gè)數(shù)據(jù)。
此外,記錄各個(gè)方法在每個(gè)數(shù)據(jù)集的運(yùn)行時(shí)間,并計(jì)算的數(shù)據(jù)刪除率為
式中:D為數(shù)據(jù)刪除率;R0為原始數(shù)據(jù);R1為剩余數(shù)據(jù)量。
將異常數(shù)據(jù)剔除后,按照式(4)、式(5)計(jì)算各個(gè)方法的識(shí)別結(jié)果與對應(yīng)樣本數(shù)據(jù)集標(biāo)準(zhǔn)功率曲線之間的離散程度,以此來分析對比4種方法識(shí)別異常數(shù)據(jù)的精確度。同時(shí),獲取各方法進(jìn)行異常數(shù)據(jù)識(shí)別所需時(shí)間,并按式(6)計(jì)算各方法的數(shù)據(jù)剔除率,即被剔除的異常數(shù)據(jù)量與原數(shù)據(jù)量的比值,各項(xiàng)計(jì)算結(jié)果如表2所示。

表2 數(shù)據(jù)清洗結(jié)果與功率曲線誤差Tab.2 Data cleaning results and power curve errors
從4 種方法清洗異常數(shù)據(jù)所花時(shí)間來看,順序集成方法費(fèi)時(shí)最長,兩種單一方法耗時(shí)較短,本文方法耗時(shí)居中。結(jié)合表1中4個(gè)數(shù)據(jù)集的數(shù)據(jù)量可以看出,清洗時(shí)間隨風(fēng)功率數(shù)據(jù)集數(shù)據(jù)量的增大而增大。本文方法的清洗時(shí)長主要取決于基本異常檢測模型中耗時(shí)最長的檢測模型和后續(xù)利用偽標(biāo)簽對結(jié)果進(jìn)行二次篩選合并。順序集成方法耗時(shí)短于兩單一模型耗時(shí)直接相加,這是因?yàn)榍耙徊教幚砗箫L(fēng)功率數(shù)據(jù)集總數(shù)據(jù)量減小了。對于兩種單一模型,LOF 方法是基于局部鄰域密度,INNE 方法是基于集成的,后者的計(jì)算量更大,故INNE方法耗時(shí)大于LOF方法。
從表2 中可以看出,本文方法的異常數(shù)據(jù)刪除率為4種方法中最大,這是因?yàn)長SCP框架針對所集成的各個(gè)基本檢測模型結(jié)果做了再一次篩選。順序集成方法的數(shù)據(jù)刪除率均大于2 種單一類方法。值得注意的是,針對風(fēng)電場B,順序集成方法的數(shù)據(jù)刪除率大于本文方法,出現(xiàn)了過刪除的情況。此外,LOF方法在識(shí)別異常數(shù)據(jù)時(shí)更容易受到局部分布密度的影響,故該方法的刪除率會(huì)大于INNE方法。
對比MAE和RMSE可以看出,本文方法的識(shí)別效果更精準(zhǔn),與標(biāo)準(zhǔn)功率曲線的誤差也更小;但是順序集成方法在風(fēng)電場B上的誤差小于文本方法,通過對比圖3(b)和圖6(b)以及數(shù)據(jù)刪除率可以看出,順序集成方法所識(shí)別出的正常數(shù)據(jù)曲線整體寬度較本文方法的更窄,所剔除的異常數(shù)據(jù)更多,故其與標(biāo)準(zhǔn)功率曲線的誤差也會(huì)更小。
將風(fēng)電機(jī)組實(shí)測數(shù)據(jù)集中的異常數(shù)據(jù)剔除,有利于提高后續(xù)風(fēng)電機(jī)組出力預(yù)測的精度,是構(gòu)建可靠準(zhǔn)確風(fēng)電功率預(yù)測模型的重要基礎(chǔ)。使用原始風(fēng)功率數(shù)據(jù)集、本文方法清洗后的風(fēng)功率數(shù)據(jù)集和3種對比方法清洗后的風(fēng)功率數(shù)據(jù)集分別作為訓(xùn)練集對長短期記憶LSTM(long short-term memory)模型[23]進(jìn)行訓(xùn)練。每個(gè)訓(xùn)練集中的訓(xùn)練樣本數(shù)相同,預(yù)測模型參數(shù)及結(jié)構(gòu)一致,選取同一天運(yùn)行數(shù)據(jù)樣本作為測試集進(jìn)行仿真預(yù)測,選取平均絕對誤差和均方根誤差作為預(yù)測結(jié)果的評價(jià)指標(biāo),計(jì)算預(yù)測結(jié)果與實(shí)際數(shù)據(jù)的誤差,所得結(jié)果如表3所示。

表3 風(fēng)功率預(yù)測指標(biāo)Tab.3 Indexes for wind power prediction
從表3 中可以看出,對比利用原始數(shù)據(jù)集進(jìn)行訓(xùn)練,剔除異常數(shù)據(jù)后,MAE 和RMSE 均有不同程度的減少,MAE平均減少了4.02%,RMSE平均減少了2.36%,預(yù)測模型的精度均得到了提升;使用經(jīng)本文方法處理后的數(shù)據(jù)集進(jìn)行風(fēng)功率預(yù)測,MAE 和RMSE兩項(xiàng)指標(biāo)減少得最多,分別為5.06%和3.46%,預(yù)測精度提高效果最明顯;順序集成方法的MAE和RMSE分別減少了4.68%和3.15%,對預(yù)測精度的提升效果略遜于本文方法;兩種單一模型的誤差減少最小,對預(yù)測精度的提升效果不如兩種集成方法;本文方法能有效清洗風(fēng)電功率異常數(shù)據(jù),有效提升了預(yù)測模型的預(yù)測精度,也有利于提高風(fēng)電機(jī)組的利用率和電力系統(tǒng)經(jīng)濟(jì)調(diào)度的有效性。
綜合來看,本文方法為風(fēng)電功率異常數(shù)據(jù)處理提供了一種合理、高效的識(shí)別方法。通過LSCP 框架結(jié)合了兩種識(shí)別算法的優(yōu)點(diǎn),能有效識(shí)別前文所提各類異常數(shù)據(jù),在不同風(fēng)電場實(shí)際運(yùn)行數(shù)據(jù)集、不同異常數(shù)據(jù)分布狀態(tài)下均具有良好表現(xiàn),其識(shí)別效果優(yōu)于順序集成方法,也避免了順序集成方法使用先后順序的問題,具有較強(qiáng)的實(shí)用性和通用性。
本文針對風(fēng)電機(jī)組運(yùn)行過程中產(chǎn)生異常數(shù)據(jù)的問題,通過對異常數(shù)據(jù)類型及產(chǎn)生原因進(jìn)行分析,提出了一種多模型集成并行框架的風(fēng)電功率異常數(shù)據(jù)識(shí)別方法。通過實(shí)例驗(yàn)證和對比分析表明,該方法結(jié)合了INNE 方法和LOF 方法的優(yōu)勢,對不同風(fēng)電場運(yùn)行場景、不同異常數(shù)據(jù)類型、不同異常數(shù)據(jù)分布狀態(tài),尤其是橫向堆積型異常數(shù)據(jù)的識(shí)別效果顯著,能有效提升后續(xù)風(fēng)功率預(yù)測模型的精度,具有較強(qiáng)的通用性,適用于大多數(shù)異常數(shù)據(jù)處理場合。但本文方法在識(shí)別過程中還存在以下2個(gè)問題:一是數(shù)據(jù)刪除率相對較高,對風(fēng)電功率數(shù)據(jù)集完整性破壞較大;二是沒有考慮數(shù)據(jù)重構(gòu)問題。下一步工作將研究如何降低數(shù)據(jù)刪除率,以及如何對被識(shí)別的異常數(shù)據(jù)進(jìn)行合理重構(gòu),并在數(shù)據(jù)重構(gòu)時(shí)考慮使用更多風(fēng)電機(jī)組其他數(shù)據(jù)信息。