999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進孤立森林算法的風電機組異常數據清洗

2024-05-10 03:35:46魏泰賀少雄胡子武曹立新
科學技術與工程 2024年9期
關鍵詞:風速

魏泰, 賀少雄,2*, 胡子武,2, 曹立新

(1.甘肅省特種設備檢驗檢測研究院, 蘭州 730050; 2.蘭州理工大學機電工程學院, 蘭州 730050)

綠水青山就是金山銀山,近年來國家愈發重視對環境的保護,低碳少污染成了各大企業在進行有效生產的同時又一指向性目標。隨著“碳達峰、碳中和”目標以及新型電力系統建設目標的提出和實施,以風力發電為代表的清潔能源發電必將在未來迎來更大的發展[1],同時,風力發電技術也在不斷發展,單機容量逐步增大,其安全性和可靠性越來越明顯[2]。截至2022 年年底,中國風電并網裝機容量累計達到3.96 億kW,其中陸上風電累計裝機3.6 億kW、海上風電累計裝機3 051 萬kW。隨著風電裝機容量的大量增加,規范、科學的實施風電機組速率調節[3]、風電機組性能評估和狀態預警[4]、風電機組控制[5]以及風電功率預測[6]等工作顯得尤為重要,而這些工作的展開與風電機組的歷史運行數據有著密切的關系。由于風電出力主要受氣候和環境因素的影響,隨機變化的風速、風向導致風電場輸出功率具有顯著的隨機性和波動性特征[7]。這些特點導致歷史數據中總是存在異常數據,這些異常數據的存在會影響工程師對風電機組運行狀態的判斷和干擾工程師對風電機組運行策略的制定[8],故開展風電場風功率異常數據識別與清洗技術的相關研究至關重要。

國內外學者針對風電機組風速、功率異常數據的識別與剔除展開了大量研究并取得了諸多優秀成果,目前較為成熟的方法有三類,分別是基于數理統計的異常數據去除方法、基于數據挖掘的異常數據識別方法以及基于異常數據特征分布位置的異常數據清洗方法。郭慧軍等[9]提出了基于變點-Copula理論的組合模型,識別不同類型的風電機組異常數據,結果表明剔除效果明顯,提高了準確性且完整地保留了正常運行數據,但僅考慮了特定風速區間內的數據清洗,未對整個分速區間內的數據進行驗證。梅勇等[10]提出了一種基于風電機組控制原理的風功率數據識別與清洗方法,結合四分位法清洗葉尖速比和風功率散點。劉偉民[11]提出了基于遺傳算法和最小二乘法結合的Logistic模型參數估計方法,實現了模型參數的高效精確估計,然后引入多項評價指標,選擇出最優功率曲線模型,但是對于堆積型密集異常數據則無法識別。馬然等[12]針對置信邊界外的堆積點和離群點,結合其時序特征與密度分布建立Copula數據清洗模型,依次進行在線清洗,但其對大量異常值識別效果不佳。封焯文等[13]系統對比研究了4種風速功率異常數據清洗方法,得出了孤立森林算法較其他3種方法更為優良的結論,但是對于孤立森林算法易誤刪兩端正常數據、局部清洗效果不佳,并且無法清洗棄風異常數據的缺點并沒有給出解決方案。

為了解決傳統孤立森林算法在風電機組異常數據清洗過程中異常數據評分與正常數據評分界線難以確定、局部清洗效果不佳以及無法識別堆積帶型異常數據的問題,現結合四分位法[14]確定孤立森林數據評分的異常界線、最小二乘法曲線擬合[15]去誤差的方法對風速、功率異常數據進行清洗,改進的孤立森林算法有望克服傳統孤立森林算法在清洗風速、功率異常數據過程中的缺點,實現更好的清洗效果。

1 實測風速功率數據的特征

1.1 實測風速功率數據與標準功率曲線的區別

地理位置的差異會導致大氣條件的不同,比如山地、丘陵、平原等具有不同的海拔高度、溫度、濕度、空氣密度、風速、風向以及湍流強度[16],這其中任意一個因素的不同都將導致輸出功率的不同,若將具有參考意義的出廠標準功率曲線完全用于指導實際風場的風機運行工作,必定不能使風場效益最大化,而且還會因為錯誤的信息引發一系列不可挽回的損失。圖1為江蘇響水風電場實測風速功率散點圖與標準功率曲線,其中額定功率為1 800 kW、切入風速為3 m/s、額定風速為9.5 m/s、切出風速為20 m/s。

圖1 實測風速功率散點圖與標準功率曲線Fig.1 Measured wind speed power scatter diagram and standard power curve

由圖1可以得知,風電機組標準功率曲線的切入風速、額定功率、切出風速等參數與實際運行情況并不相符,證明了由標準功率曲線指導風電機組的運行工作并不可靠,因此,根據風電機組實際運行數據來構建風速功率曲線具有非常重要的意義。

1.2 實測風速功率的異常數據分布特征

風能在轉換為電能的過程中,由于氣候條件的多變性以及隨機性,風速與功率之間的對應關系并非一一映射,而是依據風速與功率的服從關系以及周邊的大氣環境。風速與功率的實際對應關系為:給定某個風速值v,其功率值P分布在一個具有上下限的較寬區域內。風速與功率的服從關系為

(1)

式(1)中:P為輸出功率;ρ0為參考空氣密度;A為風輪掃掠面積;v為風速。

在風電機組實際運行過程中,會出現極端惡劣天氣、風電機組和設備故障、檢修、外界干擾、人為限電、啟動停機等現象,導致不可避免地產生了異常數據。圖2為實測風速功率散點圖中的異常數據。

圖2 實測風速功率散點圖中的異常數據Fig.2 Abnormal data in measured wind speed power scatter plot

根據這些異常數據在風速功率散點圖的分布位置可將其分為四類:第一類異常是有風但是功率為0,表現在數據主帶底部的橫向堆積數據,其產生的原因有限電停機、故障停機、傳感器故障、啟動及停機等;第二類異常是在數據主帶中部,表現為橫向的密集數據帶,其主要原因為棄風限電、采集設備故障等;第三類異常是在數據主帶內部的無規律離散點,其產生原因為極端天氣、設備故障、外界噪聲干擾、傳感器故障等;第四類異常是表現在數據主帶外部的無規律離散點,其產生原因為極端大氣環境、傳感器故障、外界干擾等。

2 改進孤立森林算法對異常數據的清洗原理

2.1 采用傳統孤立森林算法對異常數據的檢測原理

異常數據是指設備在運行規律之外產生的不合理的數據,通常來講異常運行的原因包括人為與自然隨機異常兩種,但異常數據具有不同于正常數據的特征且其數量較少。根據異常數據的這種特性,構建一個名為隔離樹或孤立樹(iTree)的二叉樹結構,將每個數據與其他數據隔離開來,則異常數據相對正常數據更容易將其隔離到樹的根部。定義單個孤立樹的不可分的節點為外部節點,可繼續二叉樹劃分的節點為內部節點;定義單個數據x的路徑長度h(x)為從孤立樹的根節點遍歷到外部節點的邊的數目,則路徑長度相對較短的數據為異常數據。

孤立森林進行異常數據檢測的過程分為訓練階段和評估階段。

2.1.1 訓練階段具體過程

步驟1從訓練樣本中隨機選擇一定數量的數據,此數據的維度也是隨機選擇,然后將其放入孤立樹的根節點。

步驟2隨機選擇數據的屬性及其數值,并且隨機設定在數據數值范圍內的一個值,將小于此值的數據放入樹的左部,將大于此值的數據放入樹的右部。

步驟3重復執行步驟2,直到每一個數據都被隔離或者達到了樹的限制高度,其中樹的高度為log2φ,φ為樣本數目,根據原文驗證,φ一般取256。

步驟4樹的數目根據原文實驗驗證一般設為100 棵。

2.1.2 評估階段過程

樣本集中的每個測試數據,都會根據評分規則得到一個異常評分D。定義每個測試數據的期望路徑長度E[h(x)]為這個數據點在孤立森林的每一棵孤立樹中遍歷后得到的路徑長度的期望值,定義c(n)為h(x)在n個樣本條件下的平均值,則

(2)

式(2)中:H(i)為調和函數。

H(i)可表示為

H(i)=ln(i)+0.577 215 664 9

(3)

則單個測試數據x的異常評分D為

(4)

2.2 四分位法確定孤立森林異常數據的評分界線

孤立森林算法去除異常數據的方法是根據每個數據的評分值來判定其是否為異常點,即評分值非常接近1 時,那么此數據一定是異常數據,當評分值小于0.5 時,那么此數據可視為正常數據,但是對于某些特定的數據,其異常比例并不確定,并未有明確的界線來界定評分值為0.5~1的數據具體位于哪一個分數線外時其為異常數據。傳統孤立森林算法模型在構建好的同時可針對不同的數據自動識別異常數據,但是,這只是針對異常較為明顯的數據,當數據分布特征較為復雜時,傳統的孤立森林算法對異常數據的識別能力將下降,故對于復雜數據,應引用理論知識對數據中異常數據的評分值進行界定。

四分位數是指將一組按升序排序的數據進行四等份劃分的處于3個分割位置的數的稱謂,下四分位數、中四分位數以及上四分位數分別用Q1、Q2和Q3表示。四分位法是一種通過四分位數對數據進行分組并利用統計學知識對數據特征進行分析的方法。四分位法對數據集的劃分方式使得其對一維數據的異常檢測具有高效性,而對于維度高于1的數據集,四分位法則是對同一屬性數據的具體數值進行排序且忽略屬性之間的相互影響會使其求解值不精確。孤立森林算法對數據的評分范圍為S∈(0,1),大量正常數據的評分分布在評分值小于0.5 的區間以及0.5 的左右區間,而少量異常數據的評分分布在評分值大于0.5 的區間,圖3為研究數據中(0,19) m/s風速區間中每個風速功率數據點對應的孤立森林算法評分的風速-評分散點圖。

圖3 風速評分散點圖Fig.3 Wind speed evaluation scatter point diagram

通過四分位法對數據集的評分進行異常部分識別可以將困難較大的二維風速-功率異常數據識別問題轉化為對一維評分的異常識別問題,由此得到正常數據評分與異常數據評分的分界線。

設一維數組T=[t1,t2,…,tn]為上述孤立森林算法計算的數據評分值,n是數組的樣本容量,各評分值按升序排列,對T進行四分位劃分可知,Q1、Q2和Q3分別對應數據的第25%、50%、75%數據。中位數Q2計算公式為

(5)

下四分位數Q1、上分位數Q3與中分位數Q2計算方法不同,其計算方法根據數據樣本容量n的奇偶性具體方法如下。

(1)n為偶數

當n為偶數時,Q1和Q3的計算建立在中位數Q2劃分的數組基礎上,分別表示為將數組T均分的兩個子數組與T1=[t1,t2,…,tn/2]與T2=[tn/2+1,tn/2+2,…,tn]的中位數。

(2)n為奇數

當n為奇數,且n=4m+3時,Q1和Q3的計算公式為

(6)

式(6)中:m=0,1,2,…。

當n為奇數,且n=4m+1時,Q1和Q3的計算公式為

(7)

通過四分位法對數組進行4等份劃分后,其4等份數據呈現不同的數據特征且無法對異常數據進行有效識別,因此引入四分位距IQR來確定異常值范圍。四分位距IQR與上分位數與下分位數相關,計算公式為

IQR=Q3-Q1

(8)

已知四分位距,通過計算可得為[Fd,Fu],則不在此范圍內的數據被判別為異常數據,計算公式為

(9)

2.3 通過劃分風速區間減少邊緣異常數據的原理

傳統孤立森林算法根據異常數據的多少和不同特性來對異常數據進行識別,這其中的少是指異常數據的數量相對于整體數據的數量為少數,不同的異常數據占比會使得算法得到不同的異常識別模型精度,只有當異常較為明顯時其異常識別結果才不會存在誤識,故而對于分布特征較為復雜的數據,通過數據的數量分布特征對數據集進行劃分進而在不同區域進行孤立森林異常識別能夠得到更精確的異常識別結果。

根據傳統孤立森林算法異常檢測的原理,對于數據來源為某個特定風場的呈“廠”字形分布的風速功率數據集,其所在的固定風場位置會使得一年中風速值大多位于某個固定范圍內,若對整體數據集構建評分模型則必將使得在整體數據分布中,距中心密集處較遠的部分邊緣數據的正常性與異常性在客觀上具有不精確性。通過課題來源方提供的信息和對數據集進行統計得知,此風場整年風速平均值為5.82 m/s,且以風速為6 m/s為界,大于6 m/s的數據大約只占整體數據集的1/4。由圖3 可知,在風速達到實際額定風速(約9 m/s)后,數據集評分的趨勢發生了改變且其總體評分值也與切入風速到額定風速區域大不相同,這也表明了不同的數據分布特征會對傳統孤立森林算法構建的評分模型產生影響。

為了減少這種由于數據數量分布特征帶來的對傳統孤立森林算法在異常檢測過程中的不利影響,可依據數據分布特征及不同區間數據量的多少對數據集進行分割進而在不同數據區域使用孤立森林算法的方法來解決這個問題。并且對于傳統孤立森林算法易去除區間端點處正常數據的問題,可通過使當前區間的端點部分位于下個區間的可正常識別處,同時對于數據交叉區間,分別計算交叉數據在兩個區間中的占比并取相對占比較大的區間的異常識別結果作為交叉區間的異常識別結果的方法來解決。鑒于數據在風速小于6 m/s的區間內其分布較為均勻且具有相似性,因此以6 m/s風速點為分割線,設置交叉區間為1 m/s,對[0,7] m/s和[6,19] m/s兩個風速區間內的數據進行異常檢測,并將其異常檢測結果進行綜合,得到的異常識別結果如圖4所示。

圖4 不同風速區間異常識別效果圖Fig.4 Effect drawing of abnormal identification of the different wind speed rang

圖4為[0,7] m/s和[6,20] m/s風速區間以及整個風速區間內基于四分位法確定異常數據邊界的孤立森林算法異常數據識別效果圖。其中對于[0,7] m/s風速區間,由于區間右端處的數據量較整個區間的數據量來說其占比為少數,因此右端處的數據會有較多數據被識別為異常數據,整個區間的異常數量為2 107,異常占比為5.2%;對于[6,20] m/s風速區間,由于區間左端處的數據量較整個區間的數據量來說其占比為多數,因此左端處只會有極少數數據被識別為異常數據,整個區間的異常數量為384,異常占比為4.5%;對于整個風速區間,其異常識別的結果是以上兩個區間異常識別的綜合,由于重復數據在大于6 m/s的區間內為“多數”數據,根據孤立森林算法“少而不同”的異常識別原理將[6,20] m/s風速區間在[6,7] m/s區間的異常識別結果作為[6,7] m/s區間的異常識別結果,應用劃分風速區間并在不同區間使用基于四分位法確定異常數據邊界的孤立森林算法可以去除曲線外部及曲線內部的大部分離散型異常數據,但是此方法對于第三類棄風異常數據以及數據主帶附近的少量第二類離散型異常數據則無法識別,故需要進行二次剔除。

2.4 采用最小二乘法曲線擬合清洗異常數據的原理

最小二乘法曲線擬合的含義是指通過已知數據集尋求出一條距給定各點的距離平方和最小且可以反映出數據集總體分布趨勢的曲線,這種方法采用全局逼近的方式且曲線并非一定要經過所有的數據點。風速功率二維數據集在笛卡爾坐標系中呈“廠”字形分布,異常數據分布形式表現為雜亂無章型和堆積型,通過孤立森林算法去除大量異常數據后留下的高質量數據可以提高曲線擬合的精度。將最小二乘法所擬合的能夠代表大多數正常數據走向的曲線具有的擬合值減去對應每個實測數據具有的實測值得到功率數據的殘差序列,可以得知,殘差序列呈正態分布且異常數據對應的殘差的數量是少量的,使用3Sigma法則對殘差序列進行粗大誤差剔除在理論上具有可行性。選用應用最為廣泛的多項式擬合且由于所涉及的功率曲線較為簡單,實驗表明,基函數選擇六次多項式即可達到目的,設所擬合的六次多項式為

(10)

對于一組給定樣本容量為n的數據(xi,yi),其到六次多項式的距離的平方和S表示為

(11)

很顯然,S為aj(j=0,1,…,6)的多元函數,若要使得S最小,可使S對aj求偏導數并令偏導數等于0,此條件下得出的aj即為此次所求六次多項式的系數,具體過程如下。

(12)

令導數等于0,并將其表達為矩陣形式為

(13)

求解方程即可得

(14)

使用所述方法即可二次對剩余風速功率數據集進行異常剔除,其結果如圖5所示,可以看出使用此方法對異常數據進行剔除具有良好的效果。

圖5 曲線擬合去除異常效果圖Fig.5 Abnormal removal effect diagram of curve fitting

3 實例分析與對比

3.1 數據來源介紹

為了說明所述數據清洗方法的有效性及合理性,選取根據國際電工委員會(IEC)標準測試方法測試的國投東海風電場1號風電機組、2號風電機組一年10 min的平均風速功率數據與蒙東協和風電場3號風電機組一年20 min的平均風速功率數據進行實例分析,數據分別如圖6所示。由于所研究的數據其所在風電場并無人為限電現象,為了說明本文方法對各類異常數據的去除效果,因此人為地對1號風電機組添加棄風異常數據。

圖6 3臺風電機組數據Fig.6 Data of 3 wind turbines

3.2 清洗效果的對比說明

應用所述的改進孤立森林算法與傳統孤立森林算法分別對1號、2號、3號風電機組的實測功率數據進行清洗,如圖7~圖9所示。可以看出,相對于傳統孤立森林算法,改進孤立森林算法的清洗效果更優。實驗所用的3組數據具有不同的數據分布特征,其異常數據種類不同,應用改進孤立森林算法對于3組數據的各類異常數據均有較好的剔除效果,說明改進孤立森林算法具有較強的通用性。實驗的去除結果在一定程度上具有相似性,可以正確界定異常數據與正常數據之間的邊界,可以通過依據不同風速區間數據量以及數據分布特征劃分區間的方法正確改變邊緣數據的異常性,可以去除底部數量相對較多的堆積異常數據和數據主帶邊緣的毛數據以及棄風異常數據。此外,改進的孤立森林算法還可以減少孤立森林算法對額定風速區域數量相對較少正常數據的誤刪率。

圖7 兩種算法對1號風電機組異常數據的清洗Fig.7 Two algorithm for cleaning abnormal data of No.1 wind turbine

圖9 兩種算法對3號風電機組異常數據的清洗Fig.9 Two algorithm for cleaning abnormal data of No.3 wind turbine

表1為兩種算法對異常數據清洗結果的量化對比,可以看出,應用改進的孤立森林算法能夠識別并剔除更多的異常數據,其中對于1號風電機組,能夠提高異常剔除精度2.62%;對于2號風電機組,能夠提高異常剔除精度2.85%;對于3號風電機組,能夠提高異常剔除精度3.91%。

3.3 清洗效果的量化評價

風電機組的正常數據集中分布在標準功率曲線的周圍,而異常數據相對分布在標準功率曲線的較遠處,因此計算出兩種清洗方法清洗后的數據相對于標準功率曲線的離散程度,即可量化對比兩種異常數據清洗方法的清洗效果。離散程度可用均方根誤差與平均絕對誤差表。

均方根誤差公式為

(15)

平均絕對誤差公式為

(16)

式中:N為數組樣本容量;Pi為風速點的實測功率值;P為風速點在標準功率曲線上的對應值。

根據式(15)和式(16),求解3臺風電機組的原始數據去除0 kW數據后的數據、應用傳統孤立森林算法對去0 kW數據進行異常識別后的正常數據、應用改進孤立森林算法對去0 kW數據進行異常識別后的正常數據與標準功率曲線的均方根誤差和平均絕對誤差,如表2 所示,可以看出應用改進的孤立森林算法進行異常剔除后的數據與標準功率曲線的離散程度最小,說明該文方法對孤立森林算法的優化應用是有意義的,可以進行推廣使用。

表2 均方根誤差和平均絕對誤差Table 2 Root mean square error and mean absolute error

4 結論

提出的基于改進孤立森林算法的異常數據清洗方法是一種聯合方法,通過四分位法確定孤立森林算法中的異常數據和3Sigma法確定小概率異常數據來對風電機組中風速功率異常數據進行清洗,得出的主要結論如下。

(1)四分位法能夠更好界定孤立森林算法中正常數據評分與異常數據評分的分界線。

(2)通過劃分風速區間改變區間數據量可改變邊緣數據的評分值,進而改變邊緣數據的異常性。

(3)最小二乘法曲線擬合結合3Sigma法則的方法能夠剔除傳統孤立森林算法無法剔除的棄風異常數據以及數據主帶邊緣的毛數據。

綜上所述,改進孤立森林算法能夠對不同特征和不同類型的異常數據進行清洗,提高了孤立森林算法的異常識別能力,相對于傳統孤立森林算法,該方法使主帶數據邊緣的毛數據和離散數據得到有效剔除,最后通過結合最小二乘法清除密度較高的棄風數據,清洗效果更好、通用性更強,具有市場推廣的價值。

猜你喜歡
風速
邯鄲市近46年風向風速特征分析
基于Kmeans-VMD-LSTM的短期風速預測
基于最優TS評分和頻率匹配的江蘇近海風速訂正
海洋通報(2020年5期)2021-01-14 09:26:54
基于時間相關性的風速威布爾分布優化方法
陜西黃土高原地區日極大風速的統計推算方法
陜西氣象(2020年2期)2020-06-08 00:54:38
基于GARCH的短時風速預測方法
快速評估風電場50年一遇最大風速的算法
風能(2016年11期)2016-03-04 05:24:00
考慮風切和塔影效應的風力機風速模型
電測與儀表(2015年8期)2015-04-09 11:50:06
GE在中國發布2.3-116低風速智能風機
考慮風速分布與日非平穩性的風速數據預處理方法研究
主站蜘蛛池模板: 全部无卡免费的毛片在线看| 真实国产乱子伦高清| 全部免费特黄特色大片视频| 国产啪在线| 婷婷五月在线视频| 国产精品自拍合集| 91精品福利自产拍在线观看| 久久毛片网| 精品福利视频网| 人妻精品全国免费视频| 国产成人a在线观看视频| 国产极品美女在线播放| 丰满人妻中出白浆| 国产一级α片| 日韩视频福利| 91精品网站| 国产真实二区一区在线亚洲| 网友自拍视频精品区| 一级毛片免费不卡在线视频| 精品欧美视频| 日韩欧美中文在线| 亚洲香蕉伊综合在人在线| 青青草原国产av福利网站| 国产中文一区二区苍井空| 91口爆吞精国产对白第三集 | 亚洲最大福利网站| 日韩高清欧美| 国产精品久久久精品三级| 国产成人91精品免费网址在线 | 新SSS无码手机在线观看| 亚洲免费福利视频| 国产麻豆精品在线观看| 四虎精品国产永久在线观看| 玩两个丰满老熟女久久网| 少妇露出福利视频| 亚洲日韩精品欧美中文字幕| 久久久精品无码一二三区| 国产日韩av在线播放| 久草视频精品| 久久免费精品琪琪| 97成人在线观看| 55夜色66夜色国产精品视频| 亚洲国产黄色| 久久国产精品波多野结衣| 日韩在线影院| 真人高潮娇喘嗯啊在线观看| 91无码人妻精品一区二区蜜桃| 午夜毛片福利| 爆乳熟妇一区二区三区| 婷婷激情亚洲| 欧美成人影院亚洲综合图| 国产AV无码专区亚洲A∨毛片| 亚洲欧美色中文字幕| 在线观看亚洲精品福利片| 特级aaaaaaaaa毛片免费视频| 1级黄色毛片| 亚洲欧美日本国产专区一区| 四虎免费视频网站| 国产网站免费看| 亚洲最大福利视频网| 99久久精品免费观看国产| 亚洲va在线观看| 2020国产精品视频| 国产91久久久久久| 欧美日韩一区二区三区四区在线观看| 在线视频精品一区| 青青青国产精品国产精品美女| 一级毛片在线播放| 色网站免费在线观看| 亚洲无线国产观看| 欧美亚洲一区二区三区在线| 99在线视频精品| 欧美人人干| 91国内在线视频| 青青热久免费精品视频6| 亚洲无码91视频| 国产流白浆视频| 丁香亚洲综合五月天婷婷| 人与鲁专区| 秋霞午夜国产精品成人片| 在线观看热码亚洲av每日更新| 色悠久久久|