999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

風(fēng)電機組數(shù)據(jù)采集與監(jiān)控系統(tǒng)異常數(shù)據(jù)識別方法

2024-04-25 00:00:00李特王榮喜高建民
西安交通大學(xué)學(xué)報 2024年3期
關(guān)鍵詞:風(fēng)速

摘要:為了解決原始的風(fēng)電機組數(shù)據(jù)采集與監(jiān)控系統(tǒng)(SCADA)中包含大量異常記錄的數(shù)據(jù)、難以準(zhǔn)確反映機組運行狀態(tài)的問題,提出了一種帶噪聲基于密度的空間聚類(DBSCAN)模型的風(fēng)電機組SCADA異常數(shù)據(jù)識別方法。該方法從分析風(fēng)速-功率曲線的特點出發(fā),采用預(yù)測誤差和分類準(zhǔn)確度來選取關(guān)鍵聚類參數(shù)鄰域半徑和鄰域最小樣本點數(shù),避免了人工確定聚類參數(shù)的主觀性,且參數(shù)選擇過程可以完全自動化,實現(xiàn)了風(fēng)電機組SCADA異常數(shù)據(jù)的有效識別。通過某風(fēng)場中風(fēng)電機組的監(jiān)測數(shù)據(jù)進行實例驗證,結(jié)果表明:所提方法能夠在保證異常數(shù)據(jù)被剔除的前提下,保留盡可能多的正常數(shù)據(jù),異常識別效果好于現(xiàn)有的k-dist圖法和基于k-平均最近鄰算法的改進算法(KANN-DBSCAN)。該研究可為開展風(fēng)電機組狀態(tài)分析提供參考。

關(guān)鍵詞:風(fēng)電機組;異常數(shù)據(jù)識別;空間聚類;風(fēng)速-功率曲線

中圖分類號:TH17 文獻標(biāo)志碼:A

DOI:10.7652/xjtuxb202403010 文章編號:0253-987X(2024)03-0106-11

A Method for Abnormal Data Recognition of Wind Turbine Supervisory Control and Data Acquisition Systems

Abstract:To address the issue that wind turbines’ supervisory control and data acquisition (SCADA) system contains a significant amount of data about abnormal records, which affects the accurate representation of the turbines’ operational status, a method for identifying abnormal data based on density-based spatial clustering of applications with noise (DBSCAN) is proposed. Based on the characteristics of the wind speed-power scatter curve, this method involves the use of prediction errors and classification accuracy to select the key clustering parameters: neighborhood radius and minimum number of sample points in the neighborhood. It avoids the subjectivity of manually determining the clustering parameters, allowing for a fully automated parameter selection process. As a result, it achieves effective identification of abnormal data in a wind turbine’s SCADA system. The proposed method is validated using monitoring data from wind turbines in a specific wind farm. The results demonstrate that the method helps to retain as much normal data as possible while ensuring the removal of abnormal data. It also shows superior anomaly identification performance compared to k-distance graph and KANN-DBSCAN, an improved algorithm based on k-nearest neighbors. This study provides valuable insights for the status analysis of wind turbines.

Keywords:wind turbine; abnormal detection; spatial clustering; wind speed-power curve

由于全球氣候問題和能源需求的增長,全球在清潔能源領(lǐng)域的投資都在逐漸增加。風(fēng)力發(fā)電是當(dāng)前可再生能源領(lǐng)域技術(shù)最成熟、增長速度最快、商業(yè)化發(fā)展最好的發(fā)電方式之一,其大規(guī)模發(fā)展對能源結(jié)構(gòu)的調(diào)整、應(yīng)對能源需求增長和環(huán)境挑戰(zhàn)、實施可持續(xù)低碳能源戰(zhàn)略具有重要的意義。受風(fēng)力資源分布限制,風(fēng)電機組通常建在偏遠(yuǎn)山區(qū)或者海上[1],工作環(huán)境惡劣,長期面臨冰凍、臺風(fēng)、潮濕或鹽霧腐蝕等問題,機組發(fā)生故障的概率顯著增加,提高了機組的運維成本[2-3]。

實時監(jiān)測風(fēng)電機組的運行狀態(tài),可以在機組狀態(tài)發(fā)生異常時甚至在發(fā)生異常之前及時地采取針對性的措施,對降低機組的運維成本具有重要意義。數(shù)據(jù)采集與監(jiān)控系統(tǒng)(supervisory control and data acquisition,SCADA)記錄和存儲了大量風(fēng)電機組的監(jiān)測數(shù)據(jù),蘊含了豐富的狀態(tài)信息。因此,國內(nèi)外諸多的研究者都基于SCADA數(shù)據(jù)來對風(fēng)電機組的狀態(tài)監(jiān)測展開研究[4-7]。

由于傳感器故障、存儲出錯和通訊干擾等原因[8], SCADA記錄的數(shù)據(jù)中錯誤地記錄了一些監(jiān)測數(shù)據(jù),這些數(shù)據(jù)也被稱為異常數(shù)據(jù)。異常數(shù)據(jù)并非風(fēng)電機組運行時的真實記錄,因此,原始的SCADA數(shù)據(jù)難以準(zhǔn)確反映風(fēng)電機組的運行狀態(tài)。采取有效的措施來對風(fēng)電機組原始SCADA數(shù)據(jù)中的異常值進行識別并剔除,是后續(xù)進行狀態(tài)監(jiān)測或狀態(tài)分析等研究工作的基礎(chǔ)。

目前,風(fēng)電機組SCADA數(shù)據(jù)異常值識別的相關(guān)研究通常以風(fēng)速-功率曲線為依據(jù),大致可以分為基于統(tǒng)計量的方法、基于圖像處理的方法和基于聚類分析的方法[9]。常見的基于統(tǒng)計量的方法有3σ法[10]和四分位法[11],這些方法的基本思路為計算原始數(shù)據(jù)的相關(guān)統(tǒng)計量,然后將統(tǒng)計量范圍以外的數(shù)據(jù)視為異常數(shù)據(jù)。雖然基于統(tǒng)計量的方法操作簡單,但其有兩個明顯的缺陷,一方面,這類方法受原始數(shù)據(jù)質(zhì)量的影響很大,當(dāng)數(shù)據(jù)中異常值的比例較高時,這些方法的表現(xiàn)較差;另一方面,單一的統(tǒng)計量方法難以處理多種不同類型的異常值,通常需要與其他方法組合[12-14]才能達到較好的效果。基于圖像處理的方法[15-16]通常將風(fēng)速-功率曲線轉(zhuǎn)換為二值圖像,然后利用圖像分割等技術(shù)來進行異常值的識別,這類方法通常能夠有效識別出堆積型的異常數(shù)據(jù),但是識別速度很慢,并且難以實現(xiàn)[9]?;诰垲惙治龅姆椒▽惓WR別視為無監(jiān)督聚類問題,基于樣本之間的距離[17]或簇密度[18-20]來將正常數(shù)據(jù)和異常數(shù)據(jù)聚類為不同的類別。這類方法相較于基于圖像處理的方法更加簡單易行,對原始數(shù)據(jù)中異常數(shù)據(jù)的比例不敏感,受到了研究者的廣泛關(guān)注。

帶噪聲基于密度的空間聚類(density based spatial clustering of applications with noise,DBSCAN)[21]是一種經(jīng)典的基于密度的聚類方法,它并不需要事先確定聚類的簇數(shù),聚類速度快,能發(fā)現(xiàn)任意形狀的空間聚類并且可以有效處理噪聲點,對于將SCADA中正常數(shù)據(jù)與異常數(shù)據(jù)分離開的任務(wù)來說尤為適用。然而,鄰域半徑ε和鄰域內(nèi)最小樣本數(shù)np這兩個參數(shù)的選擇對DBSCAN的聚類結(jié)果影響非常大。經(jīng)典的DBSCAN模型通過k-dist圖法來確定參數(shù),基本過程為:首先計算數(shù)據(jù)集中每個對象與距該對象第k近的對象之間的距離,記作該對象的k-dist值,然后將所有對象的k-dist值按照升序或降序進行排列并繪制k-dist曲線,取k-dist曲線的第一個“拐點”對應(yīng)的距離作為ε,取k作為np。由于4-dist與其他的k-dist曲線沒有顯著差異,所以一般默認(rèn)k=4。顯然,k-dist圖法在確定參數(shù)時需要過多的人工干預(yù),而且k的選取具有較大的主觀性。

目前,許多研究者針對DBSCAN參數(shù)確定問題進行了研究,文獻[22]中提出的SA-DBSCAN使用逆高斯擬合4-dist的分布并求分布曲線的峰值點來確定ε,再通過不同np下噪聲點數(shù)與np的關(guān)系來近似求解得到最佳的np,但是可能出現(xiàn)無法求得最優(yōu)解的情況[23]。文獻[24]中提出的I-DBSCAN方法通過聚類數(shù)和噪聲點數(shù)的下降趨勢來確定ε的取值,在此基礎(chǔ)上計算每個點鄰域內(nèi)樣本點數(shù)的平均值作為np,但是確定ε的過程中依然需要人的干預(yù)。文獻[23]中提出的KANN-DBSCAN方法通過計算所有對象在不同k下的k-dist值,并對同一個k下所有結(jié)果進行求平均,得到ε列表,然后對每個ε按文獻[24]中的方法確認(rèn)np,生成np列表,依次取每一對參數(shù)組合進行DBSCAN聚類,當(dāng)聚類簇數(shù)趨于不變后再次變化時對應(yīng)的參數(shù)組合為最佳聚類參數(shù),但是其容易受噪聲數(shù)據(jù)的影響[25]。

綜上所述,現(xiàn)有的改進工作雖然在一定程度上解決了DBSCAN模型參數(shù)選擇的問題,但是仍存在如下局限:①大多數(shù)改進方法并不是真正做到了參數(shù)確定的自動化,過程中仍需人為參與來確定其中一個參數(shù)的值;②現(xiàn)有的方法都是針對通用數(shù)據(jù)提出參數(shù)選擇的判定方法,并沒有利用風(fēng)電機組風(fēng)速-功率曲線的分布特點。

為此,本文以DBSCAN作為基礎(chǔ)模型,通過分析風(fēng)電機組風(fēng)速-功率曲線的分布特點,設(shè)計了預(yù)測誤差和分類準(zhǔn)確度這兩個評價指標(biāo)來實現(xiàn)全自動化選取其鄰域半徑和最小鄰域樣本數(shù)這兩個聚類參數(shù),并以實際生產(chǎn)中的風(fēng)電機組SCADA數(shù)據(jù)為例驗證了本文方法的有效性。

1 風(fēng)電機組SCADA異常數(shù)據(jù)分類

1.1 理想功率特性曲線

功率特性曲線直觀地描述了風(fēng)速和發(fā)電功率之間的關(guān)系,是評價風(fēng)電機組發(fā)電性能的重要指標(biāo),也是風(fēng)電機組SCADA數(shù)據(jù)是否異常的重要依據(jù)。設(shè)vin為切入風(fēng)速,vr為額定風(fēng)速,vout為切出風(fēng)速,Pr為額定功率。風(fēng)電機組的理想功率特性曲線如圖1所示。理論上,當(dāng)風(fēng)速很低時,風(fēng)電機組處于停機狀態(tài);當(dāng)風(fēng)速達到切入風(fēng)速時,風(fēng)電機組開始輸出功率,且功率隨著風(fēng)速的增大而增大;當(dāng)風(fēng)速達到某一值時,機組的功率達到額定功率,此時的風(fēng)速即為額定風(fēng)速;當(dāng)風(fēng)速超過額定風(fēng)速之后,機組的輸出功率不會再繼續(xù)增大,而是被限制在額定功率;當(dāng)風(fēng)速過大至超過了風(fēng)電機組的切出風(fēng)速時,為了機組的安全,風(fēng)電機組將進入停機保護狀態(tài)。功率與風(fēng)速的關(guān)系呈“廠”字型。

1.2 實際功率-風(fēng)速曲線

在風(fēng)電機組實際工作過程中,正常的風(fēng)電機組的風(fēng)速-功率曲線應(yīng)該分布在理想功率曲線周圍。然而,由于傳感器故障和通訊干擾等原因,SCADA系統(tǒng)采集到的數(shù)據(jù)通常包含異常值,這導(dǎo)致實際的風(fēng)速-功率曲線與理想的功率特性曲線呈現(xiàn)出較大差異。以某風(fēng)場32號風(fēng)機為例,其在2021年1月1日—2021年12月31日一整年的風(fēng)速-功率曲線如圖2所示。

從圖2中可以看出,SCADA系統(tǒng)中記錄的正常數(shù)據(jù)會較為緊密地分布在功率特性曲線周圍,而異常數(shù)據(jù)看起來是由與“正?!睌?shù)據(jù)完全不同的機制產(chǎn)生的,與風(fēng)電機組正常的歷史數(shù)據(jù)分布特征明顯不符。根據(jù)風(fēng)速-功率曲線的特點,通常可以將風(fēng)電機組SCADA數(shù)據(jù)中的異常值分為3類,下面對每種異常值的分布特點和產(chǎn)生原因進行分析。

1.2.1 中部堆積型

第1類異常數(shù)據(jù)堆積在圖形中部,具體表現(xiàn)為SCADA系統(tǒng)記錄的實時風(fēng)速接近或大于風(fēng)電機組的額定風(fēng)速,但是輸出功率小于額定功率,并且輸出功率波動非常小,幾乎不隨著風(fēng)速的變化而變化。此類異常數(shù)據(jù)通常是由“棄風(fēng)限電”造成的,即由于該地區(qū)外部輸電能力限制和電網(wǎng)消納能力不足等原因,工作人員強制使風(fēng)機處于較低的功率輸出狀態(tài)。

1.2.2 底部堆積型

第2類異常數(shù)據(jù)堆積在圖形底部,具體表現(xiàn)為SCADA系統(tǒng)記錄的實時風(fēng)速大于風(fēng)電機組的切入風(fēng)速,但是沒有功率輸出。此類異常數(shù)據(jù)通常是由風(fēng)機操作人員為了檢修而強制使風(fēng)機進行停機而產(chǎn)生的。此外,傳感器故障和數(shù)據(jù)存儲出錯也可能導(dǎo)致這類異常數(shù)據(jù)的產(chǎn)生。

1.2.3 離散分布型

第3類異常數(shù)據(jù)離散、稀疏和孤立地分布在功率特性曲線兩側(cè),通常是由傳感器發(fā)生故障或者在信號傳輸和處理過程中受到噪聲干擾而產(chǎn)生的。

綜上所述,在SCADA系統(tǒng)中存在著多種“離群”的異常數(shù)據(jù),每種異常數(shù)據(jù)產(chǎn)生的原因和表現(xiàn)出的數(shù)據(jù)特點各不相同,這些含有大量異常值的SCADA數(shù)據(jù)對準(zhǔn)確反映和識別風(fēng)機狀態(tài)帶來了影響,針對異常值的數(shù)據(jù)特性采取適當(dāng)?shù)念A(yù)處理措施十分必要。

2 基于改進DBSCAN的風(fēng)電機組SCADA異常數(shù)據(jù)識別

2.1 DBSCAN模型

DBSCAN算法的基本概念如下。

(1)在數(shù)據(jù)集D中,給定一個對象p,以其為中心,ε為半徑的范圍內(nèi)的區(qū)域稱為對象p的ε鄰域;

(2)若一個對象p的ε-鄰域中至少包含np個樣本點,記作Nε(p)≥np,那么稱p為一個核心對象;

(3)在數(shù)據(jù)集D中,如果p是一個核心對象,且q為其ε-鄰域內(nèi)的樣本點,那么稱q是從p密度直達的;

(4)在數(shù)據(jù)集D中,如果q是從p密度直達的,而r是從q密度直達的,那么稱r是從p密度可達的;

(5)在數(shù)據(jù)集D中,如果q和r都是從p密度可達的,那么稱q和r是密度相連的。

假設(shè)鄰域半徑ε=r,鄰域最小樣本數(shù)np=3,如圖3所示。由前文所述可知,對象p2的ε-鄰域內(nèi)的樣本數(shù)大于3,因此該點為核心對象;p1在p2的鄰域內(nèi),因此p1從p2密度直達;同理,p5從p1密度直達,因此p5從p2密度可達;同理,p4從p2也密度可達,因此p4和p5是密度相連的。

DBSCAN聚類的基本思想是將所有互相密度相連的數(shù)據(jù)點歸為一類,其聚類過程如下。

(1)對于給定的數(shù)據(jù)集D,設(shè)定合適的鄰域半徑ε和鄰域最小樣本點數(shù)np;

(2)從數(shù)據(jù)集D中隨機選取一個樣本點,如果該樣本點為核心對象,則找到所有與該點密度相連的樣本點,否則暫時將其標(biāo)記為噪聲點,噪聲點在后續(xù)步驟中仍然可能被考慮到;

(3)重復(fù)步驟(2)直到找到一個核心對象,遍歷該核心對象ε-鄰域內(nèi)所有的核心對象,找到所有與這些核心對象密度相連的樣本點;

(4)在不屬于已確認(rèn)的任何一類數(shù)據(jù)的樣本點中,重復(fù)步驟(2)和(3),直到?jīng)]有新的核心對象為止;

(5)最終不屬于任何一類數(shù)據(jù)的樣本點被認(rèn)為是噪聲。

盡管DBSCAN可以不用事先確定聚類的簇數(shù),也可以找出任何形狀的簇群,但是其聚類結(jié)果對鄰域半徑ε和最小點數(shù)np這兩個參數(shù)很敏感。風(fēng)電機組SCADA異常數(shù)據(jù)識別任務(wù)屬于一個沒有標(biāo)簽的無監(jiān)督任務(wù),目前只能通過肉眼觀察來選擇聚類參數(shù),具有很強的主觀性,設(shè)計合適的指標(biāo)和方法來從備選參數(shù)中選出最佳參數(shù)十分必要。

2.2 DBSCAN最佳聚類參數(shù)確定方法

DBSCAN模型對SCADA數(shù)據(jù)聚類后,正常類別會較為緊密地聚集在理想功率曲線附近,散落在四周的其他類別和噪聲點被劃分為異常類別。為了評估SCADA異常數(shù)據(jù)識別的有效性,首先需要明確該任務(wù)的目標(biāo),即保證異常數(shù)據(jù)被剔除的前提下,保留盡可能多的正常數(shù)據(jù)。基于此,本文提出預(yù)測誤差和分類準(zhǔn)確度兩個指標(biāo)來進行最佳聚類參數(shù)的選取。

(1)預(yù)測誤差epn。

訓(xùn)練一個回歸模型,訓(xùn)練集和測試集均為DBSCAN聚類的正常類別的樣本點,輸入為樣本點的風(fēng)速,輸出為對應(yīng)的功率,epn為預(yù)測模型的預(yù)測誤差。風(fēng)電機組正常的運行監(jiān)測數(shù)據(jù)較為緊密地分布在理想功率曲線周圍,表明正常數(shù)據(jù)的風(fēng)速和功率之間存在特定的映射關(guān)系。正常類別中的數(shù)據(jù)越貼近理想功率特性曲線,那么正常類別中的確為正常數(shù)據(jù)的比例越高,正常類別中樣本的風(fēng)速-功率映射關(guān)系更為“相似”,回歸模型相同的情況下,預(yù)測誤差epn就會越小。

(2)分類準(zhǔn)確度ac。

訓(xùn)練一個分類模型,其中輸入為風(fēng)速和功率,輸出為數(shù)據(jù)的類別,訓(xùn)練時假設(shè)DBSCAN聚類后的類別(正常或異常)為該數(shù)據(jù)的“真實”標(biāo)簽,ac為分類模型的分類準(zhǔn)確度。當(dāng)聚類模型的聚類結(jié)果較為準(zhǔn)確時,說明數(shù)據(jù)的“真實”標(biāo)簽也較為準(zhǔn)確,分類模型相同的情況下,分類準(zhǔn)確度ac也會比較高。

從備選參數(shù)范圍中選取最合適聚類參數(shù)的過程如下:先將每個備選參數(shù)組合代入DBSCAN模型對原始數(shù)據(jù)進行聚類,計算出其兩個評價指標(biāo)值,然后按照epn遞增的順序?qū)Ω鲄?shù)組合進行排列,選取ac的第一個極大值點對應(yīng)的參數(shù)組合為最終的聚類參數(shù)。

2.3 基于改進DBSCAN的風(fēng)電機組SCADA異常數(shù)據(jù)識別流程

本文提出的風(fēng)電機組SCADA異常數(shù)據(jù)識別流程如圖4所示。

需要進行基于規(guī)則的初步篩選。從理論上來說,當(dāng)正常監(jiān)測數(shù)據(jù)占全部監(jiān)測數(shù)據(jù)的比例遠(yuǎn)大于異常數(shù)據(jù)所占比例時,基于DBSCAN聚類的異常識別方法能夠很容易地從數(shù)據(jù)中發(fā)現(xiàn)“正?!钡哪J?,從而剔除異常值。根據(jù)前文對異常數(shù)據(jù)出現(xiàn)原因的分析可知,風(fēng)電機組監(jiān)測數(shù)據(jù)中的各類異常數(shù)據(jù)占比并不低,特別是底部堆積型,其與正常數(shù)據(jù)區(qū)域相鄰,直接針對所有的監(jiān)測數(shù)據(jù)使用異常值檢測方法難以處理這類堆積型數(shù)據(jù)[6]。因此,篩選出明顯異常的數(shù)據(jù)從而減小這些數(shù)據(jù)對后續(xù)基于聚類的異常值識別準(zhǔn)確性的影響很有必要。本文基于以下規(guī)則刪除明顯異常的數(shù)據(jù):①風(fēng)速不大于0;②風(fēng)電機組的有功功率不大于0;③風(fēng)電機組的主軸轉(zhuǎn)速不大于0。

初步篩選之后,進行DBSCAN聚類。為了消除風(fēng)速和功率的不同量綱帶來的影響,先按照下式對數(shù)據(jù)進行z-Score正則化

式中:x表示需要被標(biāo)準(zhǔn)化的原始數(shù)據(jù);μ表示原始數(shù)據(jù)的平均值;σ表示原始數(shù)據(jù)的標(biāo)準(zhǔn)差;z表示標(biāo)準(zhǔn)化后的結(jié)果。

將備選參數(shù)組合分別代入DBSCAN模型,得到聚類后的結(jié)果,按照2.2節(jié)中介紹的方法選取最佳聚類參數(shù),從而得到最佳聚類結(jié)果。

3 實例驗證

3.1 效果驗證

本小節(jié)以前文所述某風(fēng)場32號風(fēng)電機組一年左右的監(jiān)測數(shù)據(jù)為例來驗證所提出的異常值識別方法的有效性,該監(jiān)測數(shù)據(jù)的采樣間隔為10min,共有51101個樣本點,包含環(huán)境、工況和狀態(tài)參數(shù),但在異常識別中只使用風(fēng)速和功率兩個變量。

首先,基于基本規(guī)則對原始數(shù)據(jù)進行初步篩選,經(jīng)過篩選后剩余37519個數(shù)據(jù)點,篩選結(jié)果如圖5所示。從圖5中可以看出,雖然絕大多數(shù)底部堆積型異常數(shù)據(jù)都被剔除,但是仍有部分底部堆積型異常值被保留,同時,中部堆積型和離散分布型兩類異常值完全沒有被識別出來。因此,需要對篩選出來的數(shù)據(jù)進行進一步的異常值識別。

在初步篩選的基礎(chǔ)上,對剩余的樣本使用改進的DBSCAN方法來進行分析。在本例中,鄰域半徑ε從{0.02,0.04,0.06,0.08,0.10}中選取,最小相鄰點數(shù)np從{4,6,8,10,12}中選取,構(gòu)成共25種參數(shù)組合。因為模型性能評估的結(jié)果是比較不同參數(shù)組合的聚類結(jié)果,而不是為了提高模型的性能,并且模型的輸入輸出都比較簡單,因此使用比較簡單的網(wǎng)絡(luò)結(jié)構(gòu)是合理的。本文中的分類模型和預(yù)測模型統(tǒng)一采用簡單的多層感知機(MLP)網(wǎng)絡(luò)結(jié)構(gòu)。

按照圖4中的流程,依次對25種聚類參數(shù)組合進行DBSCAN聚類,然后計算兩個評價指標(biāo)值。下面首先介紹本文中評價指標(biāo)的計算方法。

(1)預(yù)測誤差epn。

預(yù)測模型常用的評價指標(biāo)有均方誤差(mean squared error,MSE)、平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)等,在本文中,定義聚類數(shù)據(jù)預(yù)測誤差epn為回歸模型在測試集上的MSE,其計算公式如下

式中:si表示測試集中第i個樣本的風(fēng)速;f(si)表示根據(jù)第i個樣本的風(fēng)速預(yù)測得到的功率;pi表示測試集中第i個樣本的真實功率;nt表示測試集樣本數(shù)。

(2)分類準(zhǔn)確度ac。

對于二分類(正常、異常)任務(wù)來說,其結(jié)果根據(jù)分類結(jié)果和真實標(biāo)簽的關(guān)系可以分為4類,如表1所示,該表也被稱為混淆矩陣。

在本例的混淆矩陣中,TP表示標(biāo)簽為“異常”且分類模型也將其分類為“異?!钡臉颖緮?shù);FN表示標(biāo)簽為“異?!倍诸惸P蛯⑵浞诸悶椤罢!钡臉颖緮?shù);FP表示標(biāo)簽為“正常”而分類模型將其分類為“異?!钡臉颖緮?shù);TN表示標(biāo)簽為“正常”且分類模型也將其分類為“正常”的樣本數(shù)。

顯然,初步篩選后的風(fēng)電機組SCADA數(shù)據(jù)中正常數(shù)據(jù)的樣本數(shù)應(yīng)遠(yuǎn)遠(yuǎn)多于異常數(shù)據(jù)的樣本數(shù),即兩類數(shù)據(jù)存在嚴(yán)重的不平衡問題。F1被定義為精準(zhǔn)率和召回率的調(diào)和平均數(shù),被廣泛用于評估不平衡數(shù)據(jù)下分類模型的性能,其計算公式如下

F1=2TP/(2TP+FP+FN)(3)

本文中取F1指標(biāo)作為分類準(zhǔn)確度。F1的取值范圍為0到1,其越接近于1,說明分類模型的性能越好,也說明該參數(shù)組合下聚類得到的數(shù)據(jù)標(biāo)簽更準(zhǔn)確。

異常類別占比ra表示該聚類參數(shù)下,聚類后異常類別的數(shù)據(jù)占總數(shù)據(jù)的比例

式中:na表示某一組聚類參數(shù)下使用DBSCAN聚類方法識別出來的異常樣本數(shù);no表示初步篩選后的樣本總數(shù)。

不同參數(shù)組合的3個評價指標(biāo)計算結(jié)果如表2所示。

預(yù)測誤差epn從風(fēng)速-功率映射關(guān)系角度來比較不同的參數(shù)組合,該指標(biāo)最小時的參數(shù)組合為:鄰域半徑等于0.02且鄰域最小相鄰點數(shù)等于12,但是該參數(shù)組合下的異常類別占比ra遠(yuǎn)大于其他的參數(shù)組合,說明該聚類參數(shù)組合下的DBSCAN模型在劃分正常數(shù)據(jù)時更為“嚴(yán)格”,傾向于將更多的樣本點聚類到異常類別中,該參數(shù)組合下采用DBSCAN模型對32號風(fēng)電機組進行異常識別的結(jié)果如圖6所示。這個參數(shù)組合下的DBSCAN模型將很多實際上是正常的數(shù)據(jù)也劃分到了異常類別,盡管正常類別中正常數(shù)據(jù)的占比很高,但是浪費了大量的正常數(shù)據(jù),不利于后續(xù)狀態(tài)分析等相關(guān)研究。

從圖7中可以看出,隨著預(yù)測誤差開始增大,分類準(zhǔn)確度也開始上升,取分類準(zhǔn)確度第一個極大值點所對應(yīng)的參數(shù)組合(0.04,8)作為DBSCAN的最佳參數(shù)組合。使用該聚類參數(shù)組合對32號風(fēng)電機組進行異常識別的結(jié)果如圖8所示,從圖8中可以看出,正常類別數(shù)據(jù)與圖1所示的理想功率特性曲線趨勢非常相近,同時沒有如圖6中那樣浪費大量的正常數(shù)據(jù),說明異常數(shù)據(jù)識別的效果比較好。

為了說明方法具有一定的通用性,選取同一風(fēng)場29號風(fēng)機一年的SCADA監(jiān)測數(shù)據(jù)進行驗證,原始數(shù)據(jù)長度為51 101,采樣間隔為10min。實驗流程和相關(guān)設(shè)置與前文相同,基于本文提出的改進DBSCAN進行異常識別的結(jié)果如圖9所示。從圖9中可以看出,29號風(fēng)電機組的異常數(shù)據(jù)更加密集,也更貼近于正常數(shù)據(jù),本文提出的方法對于該機組的監(jiān)測數(shù)據(jù)仍有較好的異常識別效果。

3.2 對比驗證

為了進一步驗證所提方法的優(yōu)越性,基于32號風(fēng)電機組的監(jiān)測數(shù)據(jù),采用k-dist圖法[21]和KANN-DBSCAN法[23]來進行對比實驗。

3.2.1 k-dist圖法

為了保證對比的一致性,對于k-dist圖法,k也從{4,6,8,10,12}中選取,由初步篩選后的SCADA數(shù)據(jù)得到的k-dist圖如圖10所示。因為樣本量很大,為了清晰地表達k-dist曲線的變化趨勢,圖10中只顯示了降序排列后的前200個值。

從圖10中可以看出,k=4時的變化曲線基本可以反映出k為其他值時曲線的變化趨勢,這與文獻[21]中的結(jié)論相符。由于更大的k意味著聚類時需要更高的計算成本[21],因此,選擇k=4時曲線的第一個“拐點”對應(yīng)的k-dist值作為最優(yōu)的ε。根據(jù)k-dist圖,最終確定聚類參數(shù)為ε=0.27、np=4,以該聚類參數(shù)對32號電機組進行異常數(shù)據(jù)識別的結(jié)果如圖11所示。

由圖11可知,只有少部分異常數(shù)據(jù)被識別出來,大部分離散型異常數(shù)據(jù)和中部堆積型異常數(shù)據(jù)并沒有被識別出來,識別效果較差,說明基于k-dist圖的DBSCAN聚類參數(shù)選擇不適用于風(fēng)電機組SCADA異常數(shù)據(jù)識別任務(wù)。此外,基于k-dist圖的參數(shù)選擇過程中需要通過人的介入[25]來選擇“拐點”,這一方面引入了人的主觀性,當(dāng)k-dist曲線變化趨勢平緩時這種主觀性對參數(shù)的選取影響更大,另一方面導(dǎo)致該過程無法完全自動進行,而本文所提出的方法在這兩個方面都具有優(yōu)勢。

3.2.2 KANN-DBSCAN法

KANN-DBSCAN法的基本過程如下[23]。

步驟1 計算數(shù)據(jù)集D的距離分布矩陣

Dn×n={di,j|1≤i≤n, 1≤j≤n}(5)

式中:Dn×n為實對稱矩陣,n為數(shù)據(jù)集中樣本的個數(shù);di,j為第i個對象與第j個對象之間的距離;

步驟2 對距離分布矩陣Dn×n的每一行按升序排列,排列后第k列元素構(gòu)成所有對象的k-最近鄰距離向量Dk;

步驟4 對于每個k值,選取Dε中對應(yīng)的候選ε,按下式計算該ε下的np

式中:Pi為第i個對象在ε-鄰域中的鄰域樣本數(shù);n為數(shù)據(jù)集中的總樣本數(shù)。將這兩個參數(shù)代入DBSCAN模型對監(jiān)測數(shù)據(jù)進行聚類,得到該k值下的聚類簇數(shù)。當(dāng)連續(xù)3次的聚類簇數(shù)相同時,認(rèn)為聚類結(jié)果趨于穩(wěn)定,記錄該聚類簇數(shù)N為最優(yōu)簇數(shù);

步驟5 繼續(xù)執(zhí)行步驟4,當(dāng)聚類簇數(shù)第一次不再為N時,上一個k值對應(yīng)的ε和np為最佳聚類參數(shù)。

按照上述步驟對32號風(fēng)電機組的監(jiān)測數(shù)據(jù)進行分析,計算得到最優(yōu)簇數(shù)N為7,最佳的聚類參數(shù)為ε=0.0216,np=86,以該聚類參數(shù)對32號風(fēng)電機組進行異常數(shù)據(jù)識別的結(jié)果如圖12所示。

圖12中黑色被認(rèn)為是噪聲,其余顏色分別代表某個類別。顯然,KANN-DBSCAN方法選擇的參數(shù)在進行聚類時,更加關(guān)注正常數(shù)據(jù)中密度不同的區(qū)域,而將“外圍”的正常數(shù)據(jù)與異常數(shù)據(jù)一同劃分為了噪聲。因此,無論怎樣合并不同的類別和噪聲,都無法將離散分布型和中部堆積型數(shù)據(jù)分離出來,即無法實現(xiàn)有效的異常數(shù)據(jù)識別。

通過上述對比實驗可知,相比于k-dist圖法和KANN-DBSCAN法,通過本文提出的方法選擇出來的聚類參數(shù)在對原始數(shù)據(jù)進行DBSCAN聚類時,對異常數(shù)據(jù)的分離效果更好,且整個過程可以自動進行,說明了本文提出方法的優(yōu)越性。

3.3 算法復(fù)雜度分析

SCADA異常數(shù)據(jù)識別實際上只用到了風(fēng)速和功率這兩個變量的數(shù)據(jù),即需要聚類的數(shù)據(jù)為二維數(shù)據(jù)。設(shè)n為原始數(shù)據(jù)的樣本點數(shù),則DBSCAN模型對二維數(shù)據(jù)進行聚類時的基本時間復(fù)雜度為O(n2)。KANN-DBSCAN在DBSCAN算法的基礎(chǔ)上進行迭代運算,聚類次數(shù)由k決定,因此其時間復(fù)雜度為O(kn2),一般情況下kn。

本文提出的算法同樣需要多次進行DBSCAN模型聚類,聚類次數(shù)由備選參數(shù)組合的個數(shù)m決定,聚類過程的時間復(fù)雜度為O(mn2),通常mn;此外,每次聚類需要計算預(yù)測誤差和分類準(zhǔn)確度兩個評價指標(biāo),這部分的計算復(fù)雜度與模型的選擇相關(guān)。以本文使用的兩層MLP為例,其時間復(fù)雜度為O(nmh2oi),其中m為輸入維數(shù),h為每層神經(jīng)元數(shù),o為輸出維數(shù),i為每個變量的迭代次數(shù),在本文的實驗中mh2oi≈n,因此,計算評價指標(biāo)的時間復(fù)雜度約為O(n2)。

綜上所述,本文所提出方法時間復(fù)雜度約為O(n2),算法復(fù)雜度與KANN-DBSCAN模型相當(dāng),雖然相較于傳統(tǒng)的DBSCAN算法略高,但是仍然屬于同一數(shù)量級,且對風(fēng)電機組SCADA異常數(shù)據(jù)的識別效果更好。

4 結(jié) 論

本文提出的基于改進DBSCAN的風(fēng)電機組SCADA異常數(shù)據(jù)識別方法,結(jié)合風(fēng)電機組的風(fēng)速-功率數(shù)據(jù)分布特點,提出了兩個指標(biāo),以一種簡單而有效的方式來選擇合適的聚類參數(shù),能夠保證異常數(shù)據(jù)被剔除的前提下,保留盡可能多的正常數(shù)據(jù)。以某風(fēng)場32號和29號風(fēng)電機組作為研究實例進行異常數(shù)據(jù)識別,結(jié)果表明本文提出的方法能夠有效地將異常數(shù)據(jù)識別出來。此外,與廣泛使用的k-dist圖法以及改進的KANN-DBSCAN方法相比,本文提出的參數(shù)選擇方法受主觀性影響小,而且整個過程可以通過程序自動進行,但是算法的時間復(fù)雜度較高,如何提高算法的計算效率是后續(xù)研究的重點。

參考文獻:

[1]符楊, 許偉欣, 劉璐潔, 等. 考慮天氣因素的海上風(fēng)電機組預(yù)防性機會維護策略優(yōu)化方法 [J]. 中國電機工程學(xué)報, 2018, 38(20): 5947-5956.

FU Yang, XU Weixin, LIU Lujie, et al. Optimization of preventive opportunistic maintenance strategy for offshore wind turbine considering weather conditions [J]. Proceedings of the CSEE, 2018, 38(20): 5947-5956.

[2]胡姚剛. 大功率風(fēng)電機組關(guān)鍵部件健康狀態(tài)監(jiān)測與評估方法研究 [D]. 重慶: 重慶大學(xué), 2017.

[3]尹詩, 侯國蓮, 于曉東, 等. 基于SCADA數(shù)據(jù)的風(fēng)電機組齒輪箱狀態(tài)監(jiān)測方法 [J]. 太陽能學(xué)報, 2021, 42(1): 324-332.

YIN Shi, HOU Guolian, YU Xiaodong, et al. Condition monitoring method of wind turbine gear box based on SCADA data [J]. Acta Energiae Solaris Sinica, 2021, 42(1): 324-332.

[4]DAO P B. Condition monitoring and fault diagnosis of wind turbines based on structural break detection in SCADA data [J]. Renewable Energy, 2022, 185: 641-654.

[5]RAHIMILARKI R, GAO Zhiwei, JIN Nanlin, et al. Convolutional neural network fault classification based on time-series analysis for benchmark wind turbine machine [J]. Renewable Energy, 2022, 185: 916-931.

[6]江國乾, 周俊超, 武鑫, 等. 基于空洞因果卷積網(wǎng)絡(luò)的風(fēng)電機組異常檢測 [J]. 太陽能學(xué)報, 2023, 44(5): 368-375.

JIANG Guoqian, ZHOU Junchao, WU Xin, et al. Wind turbine anomaly detection based on dilated causal convolution network [J]. Acta Energiae Solaris Sinica, 2023, 44(5): 368-375.

[7]郭怡, 王榮喜, 高建民. 融合分形特征的風(fēng)機運行狀態(tài)辨識方法 [J]. 計算機集成制造系統(tǒng), 2022, 28(7): 2139-2148.

GUO Yi, WANG Rongxi, GAO Jianmin. Operation state recognition method based on fractal features of wind turbines [J]. Computer Integrated Manufacturing Systems, 2022, 28(7): 2139-2148.

[8]MORRISON R, LIU Xiaolei, LIN Zi. Anomaly detection in wind turbine SCADA data for power curve cleaning [J]. Renewable Energy, 2022, 184: 473-486.

[9]吳永斌, 張建忠, 袁正舾, 等. 風(fēng)電場風(fēng)功率異常數(shù)據(jù)識別與清洗研究綜述 [J]. 電網(wǎng)技術(shù), 2023, 47(6): 2367-2380.

WU Yongbin, ZHANG Jianzhong, YUAN Zhengxi, et al. Review on identification and cleaning of abnormal wind power data for wind farms [J]. Power System Technology, 2023, 47(6): 2367-2380.

[10]WANG Yue, INFIELD D G, STEPHEN B, et al. Copula-based model for wind turbine power curve outlier rejection [J]. Wind Energy, 2014, 17(11): 1677-1688.

[11]HAN Shuang, QIAO Yanhui, YAN Ping, et al. Wind turbine power curve modeling based on interval extreme probability density for the integration of renewable energies and electric vehicles [J]. Renewable Energy, 2020, 157: 190-203.

[12]沈小軍, 付雪姣, 周沖成, 等. 風(fēng)電機組風(fēng)速-功率異常運行數(shù)據(jù)特征及清洗方法 [J]. 電工技術(shù)學(xué)報, 2018, 33(14): 3353-3361.

SHEN Xiaojun, FU Xuejiao, ZHOU Chongcheng, et al. Characteristics of outliers in wind speed-power operation data of wind turbines and its cleaning method [J]. Transactions of China Electrotechnical Society, 2018, 33(14): 3353-3361.

[13]SHEN Xiaojun, FU Xuejiao, ZHOU Chongcheng. A combined algorithm for cleaning abnormal data of wind turbine power curve based on change point grouping algorithm and quartile algorithm [J]. IEEE Transactions on Sustainable Energy, 2019, 10(1): 46-54.

[14]梅勇, 李霄, 胡在春, 等. 基于風(fēng)電機組控制原理的風(fēng)功率數(shù)據(jù)識別與清洗方法 [J]. 動力工程學(xué)報, 2021, 41(4): 316-322.

MEI Yong, LI Xiao, HU Zaichun, et al. Identification and cleaning of wind power data methods based on control principle of wind turbine generator system [J]. Journal of Chinese Society of Power Engineering,2021, 41(4): 316-322.

[15]LONG Huan, SANG Linwei, WU Zaijun, et al. Image-based abnormal data detection and cleaning algorithm via wind power curve [J]. IEEE Transactions on Sustainable Energy, 2020, 11(2): 938-946.

[16]WANG Zhongju, WANG Long, HUANG Chao. A fast abnormal data cleaning algorithm for performance evaluation of wind turbine [J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-12.

[17]XU Qianyao, HE Dawei, ZHANG Ning, et al. A Short-term wind power forecasting approach with adjustment of numerical weather prediction input by data mining [J]. IEEE Transactions on Sustainable Energy, 2015, 6(4): 1283-1291.

[18]ZHAO Yongning, YE Lin, WANG Weisheng, et al. Data-driven correction approach to refine power curve of wind farm under wind curtailment [J]. IEEE Transactions on Sustainable Energy, 2018, 9(1): 95-105.

[19]王一妹, 劉輝, 宋鵬, 等. 基于多階段遞進識別的風(fēng)電機組異常運行數(shù)據(jù)清洗方法 [J]. 可再生能源, 2020, 38(11): 1470-1476.

WANG Yimei, LIU Hui, SONG Peng, et al. An approach for the cleaning of abnormal wind turbine operation data based on multi-phase progressive recognition [J]. Renewable Energy Resources, 2020, 38(11): 1470-1476.

[20]雷萌, 郭鵬, 劉博嵩. 基于自適應(yīng)DBSCAN算法的風(fēng)電機組異常數(shù)據(jù)識別研究 [J]. 動力工程學(xué)報, 2021, 41(10): 859-865.

LEI Meng, GUO Peng, LIU Bosong. Study on abnormal data recognition of wind turbines based on adaptive DBSCAN algorithm [J]. Journal of Chinese Society of Power Engineering, 2021, 41(10): 859-865.

[21]ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. Palo Alto, CA, USA: AAAI Press, 1996: 226-231.

[22]夏魯寧, 荊繼武. SA-DBSCAN: 一種自適應(yīng)基于密度聚類算法 [J]. 中國科學(xué)院研究生院學(xué)報, 2009, 26(4): 530-538.

XIA Luning, JING Jiwu. SA-DBSCAN: a self-adaptive density-based clustering algorithm [J]. Journal of the Graduate School of the Chinese Academy of Sciences, 2009, 26(4): 530-538.

[23]李文杰, 閆世強, 蔣瑩, 等. 自適應(yīng)確定DBSCAN算法參數(shù)的算法研究 [J]. 計算機工程與應(yīng)用, 2019, 55(5): 1-7.

LI Wenjie, YAN Shiqiang, JIANG Ying, et al. Research on method of self-adaptive determination of DBSCAN algorithm parameters [J]. Computer Engineering and Applications, 2019, 55(5): 1-7.

[24]周紅芳, 王鵬. DBSCAN算法中參數(shù)自適應(yīng)確定方法的研究 [J]. 西安理工大學(xué)學(xué)報, 2012, 28(3): 289-292.

ZHOU Hongfang, WANG Peng. Research on adaptive parameters determination in DBSCAN algorithm [J]. Journal of Xi’an University of Technology, 2012, 28(3): 289-292.

[25]萬佳, 胡大裟, 蔣玉明. 多密度自適應(yīng)確定DBSCAN算法參數(shù)的算法研究 [J]. 計算機工程與應(yīng)用, 2022, [LL]58(2): 78-85.

WAN Jia, HU Dasha, JIANG Yuming. Research on method of multi-density self-adaptive determination of DBSCAN algorithm parameters [J]. Computer Engineering and Applications, 2022, 58(2): 78-85.

猜你喜歡
風(fēng)速
邯鄲市近46年風(fēng)向風(fēng)速特征分析
基于Kmeans-VMD-LSTM的短期風(fēng)速預(yù)測
基于最優(yōu)TS評分和頻率匹配的江蘇近海風(fēng)速訂正
海洋通報(2020年5期)2021-01-14 09:26:54
基于時間相關(guān)性的風(fēng)速威布爾分布優(yōu)化方法
陜西黃土高原地區(qū)日極大風(fēng)速的統(tǒng)計推算方法
陜西氣象(2020年2期)2020-06-08 00:54:38
基于GARCH的短時風(fēng)速預(yù)測方法
快速評估風(fēng)電場50年一遇最大風(fēng)速的算法
風(fēng)能(2016年11期)2016-03-04 05:24:00
考慮風(fēng)切和塔影效應(yīng)的風(fēng)力機風(fēng)速模型
電測與儀表(2015年8期)2015-04-09 11:50:06
GE在中國發(fā)布2.3-116低風(fēng)速智能風(fēng)機
考慮風(fēng)速分布與日非平穩(wěn)性的風(fēng)速數(shù)據(jù)預(yù)處理方法研究
主站蜘蛛池模板: 99热精品久久| 国产国产人成免费视频77777| 国产超碰一区二区三区| 国产在线小视频| 欧美三级日韩三级| 真人高潮娇喘嗯啊在线观看 | 午夜老司机永久免费看片| 亚洲区一区| 欧美a级完整在线观看| 亚洲视频二| 国产黑丝一区| 日韩高清无码免费| 亚洲欧洲国产成人综合不卡| 国产www网站| 亚洲成人黄色在线观看| 久久一级电影| 91黄色在线观看| av免费在线观看美女叉开腿| 色天天综合久久久久综合片| 国模极品一区二区三区| 五月婷婷激情四射| 精品视频一区二区观看| 欧美a在线| 亚洲综合专区| v天堂中文在线| 国产精品永久在线| 国产精品hd在线播放| 尤物视频一区| 国内自拍久第一页| 999精品视频在线| 久久精品中文字幕免费| 国产欧美综合在线观看第七页| 欧美国产日韩一区二区三区精品影视| 五月激激激综合网色播免费| 国产制服丝袜无码视频| 色天天综合| 91福利一区二区三区| 国产精品亚洲专区一区| 欧美激情福利| 国产免费福利网站| 欧美国产在线精品17p| 精品黑人一区二区三区| www亚洲精品| 成人福利在线观看| 国产成人夜色91| 好久久免费视频高清| 国产精品永久免费嫩草研究院| 日本精品视频一区二区| 在线观看精品自拍视频| 日本影院一区| 国产毛片网站| 久久精品国产精品青草app| 亚洲福利一区二区三区| 亚洲国产成人无码AV在线影院L| 另类专区亚洲| 日韩美一区二区| 激情亚洲天堂| 亚洲天堂区| 亚洲国产亚洲综合在线尤物| 99re精彩视频| jijzzizz老师出水喷水喷出| 亚洲一区黄色| 97视频在线精品国自产拍| 亚洲综合二区| 久久国产精品电影| 国产精品露脸视频| 亚洲成人黄色网址| 99热最新在线| 91视频区| 91精品伊人久久大香线蕉| 狠狠色综合久久狠狠色综合| 久久91精品牛牛| 亚洲欧美日本国产专区一区| 国产成人一级| AV不卡国产在线观看| 高h视频在线| 啦啦啦网站在线观看a毛片 | 国产视频欧美| 国产一级在线观看www色| 国产不卡网| 亚洲不卡影院| 日本免费a视频|