999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙層特征選擇和CatBoost-Bagging集成的短期風電功率預測

2022-08-16 02:28:30康文豪徐天奇王陽光鄧小亮
關鍵詞:特征方法模型

康文豪,徐天奇,王陽光,鄧小亮,李 琰

(1.云南民族大學 云南省高校電力信息物理融合系統重點實驗室,昆明 650504;2.國網湖南省電力有限公司,長沙 410004)

0 引言

風電的不確定性和波動性對于電力系統穩定性是一項巨大挑戰[1]。而風電功率預測是解決該挑戰的重要手段之一。因此,實現風電功率預測極為重要。

風電場數據的特征選擇方法影響其預測精度。研究人員常采用主成分分析(principal component analysis,PCA)[2]、皮爾遜(Pearson)相關系數[3]等單一特征選擇方法。單一特征選擇方法只能從單一視角進行特征選擇,容易遺漏重要特征,導致模型復雜度偏高或者偏低,最終影響模型的預測精度。目前,單一的短期風功率預測方法的研究已經比較成熟[4]。文獻[5]建立了徑向基神經網絡的超短期風電功率預測方法,算例驗證了該方法預測精度較高,具有較強的實用性。文獻[6]建立了基于改進的集成經驗穩態分解與基于遺傳算法優化的極限學習機組合模型的短期風電功率預測方法,并驗證了該模型的有效性。組合預測雖然明顯優于單項模型,但大多數研究集中在優化算法方面[7-8]。與此同時,采用模型融合的方法可弱化單個模型的偏差影響,提高組合模型的泛化能力[9]。文獻[10]對極限學習機和長短期記憶網絡這2種模型的預測結果,采用加權方法進行處理,以預測風電功率,算例證明該方法可改善預測結果。文獻[11]建立了基于BP(back propagation)神經網絡和卷積神經網絡(convolutional neural networks,CNN)融合的超短期母線負荷的預測模型,該方法融合了2種模型的優點,能夠有效地提高負荷預測的精度。

為解決上述痛點,提出了基于雙層特征選擇和裝袋算法(bootstrap aggregating,Bagging)集成分類梯度提升算法(categorical boosting,CatBoost)的短期風電功率預測方法,采用基于模擬退火(simulated annealing,SA)特征選擇的第一層特征選擇和基于特征相關性的第二層特征選擇綜合確定有效特征集,并利用Bagging融合多組CatBoost算法建立短期風電功率預測組合模型,通過重采樣方法來降低預測功率和實際功率之間的方差,以增強模型泛化能力和預測準確度。同時應用算例檢驗了方法的有效性,具有一定的研究意義。

1 雙層特征選擇方法

1.1 基于SA特征選擇的第一層特征選擇

SA是一種經典的隨機優化方法[12]。將SA算法應用于特征選擇。選擇CatBoost算法作為衡量特征子集表現的模型,同時選擇均方誤差(mean-square error,MSE)作為損失函數。該算法在求解最優解的過程中,引入了隨機因素,以一定的概率用轉移后的較差解替代當前解,從而跳出局部極值[13]。轉移概率基于Metropolis準則,其公式如式(1)所示:

(1)

式中:MSEnew和MSEold分別為新特征子集計算出的損失和當前最優損失;Ti為當前溫度。

具體步驟描述如下:

1)初始化SA算法參數。

2)從風電特征數據中隨機生成初始特征子集。

3)在該特征子集上訓練CatBoost模型,并計算群體中各個體的對應損失MSEnew。

4)當該損失MSEnew大于當前最優損失MSEold時,進行步驟5);否則接受當前特征子集,更新當前最優損失,降低當前溫度Ti+1=Ti×α。其中:α為溫度衰減系數。

5)當n大于轉移概率Ti時,拒絕當前特征子集;否則,接受當前特征子集并更新當前最優損失。

6)當當前溫度大于溫度閾值時,重復步驟2)—5),否則輸出當前最優損失,算法結束。

基于SA的特征選擇流程如圖1所示。

圖1 基于SA的特征選擇流程框圖

1.2 基于特征相關性的第二層特征選擇

上述第一層特征選擇未返回各特征的特征重要性具體數值,僅能返回各特征是否成為第一層最優特征子集特征的二進制編碼。因此,采用特征與風電功率之間的相關性對第一層最優特征子集特征進行第二層特征選擇。

1.2.1距離相關系數

距離相關系數(distance correlation coefficient)很大程度上克服了傳統Pearson相關系數只能用于衡量數據的線性關系的缺點,其可以用來計算數據的非線性相關性,而且它沒有模型假設和參數設置,使該方法的普適性得到了顯著提高[14]。計算公式具體如下:

(2)

其中:dCov(X,Y)為特征矩陣X與風電功率序列Y的距離協方差;dVar(X)和dVar(Y)為X與Y的距離方差。

1.2.2最大信息系數

互信息(mutual information,MI)是指一個隨機變量中包含的關于另一個隨機變量的信息量[15]。它用于衡量兩個變量之間的關聯程度,常用于特征選擇[16]。X與Y的MI定義為:

(3)

式中:p(x,y)為聯合概率密度函數;p(x)與p(y)為邊緣密度函數。

MI算法在進行特征選擇時會出現處理連續變量數據能力較差的問題。基于此,Reshef 等[17]在MI基礎上提出最大信息系數(maximun information coefficient,MIC)。最大信息系數不僅克服了MI的上述缺點,而且具有更高的準確度。給定i、j,對X與Y構成的二維散點圖進行i列j行網格化,并依據式(4)求出此網格下的最大信息系數值。計算公式如下:

(4)

式中:B為網格劃分的上限值,通常情況下B=n0.6。MIC的取值范圍為[0,1],該系數越大表示變量間相關性越強,反之,則相關性越弱。

2 CatBoost-Bagging模型分析

2.1 CatBoost

CatBoost算法是在梯度提升決策樹(gradient boosting decision tree,GBDT)算法下的一種改進算法,其有效克服了GBDT算法過擬合的問題。

CatBoost算法以對稱決策樹作為基學習器。這種樹是平衡的,不太容易過擬合。對稱決策樹在每一層都具有相同的分枝準則,每個葉節點的索引可以編碼為一個長度與樹深度相等的二進制向量。這樣對稱決策樹就不必像普通決策樹那樣遍歷所有節點。因此可以大大提高模型預測速度。

2.2 Bagging算法

Bagging算法是一種提高基學習器的并行集成學習方法。其主要思想為通過自助采樣法(bootstrap sampling)隨機產生多個訓練子集,然后基于每個訓練子集建立多個相互獨立的基學習器,最后將這些基學習器進行集成,得到最終預測模型。

為了進一步提高風電功率預測精度,以CatBoost算法為基礎,采用Bagging 集成方法建立短期風電功率預測模型。綜上,CatBoost-Bagging算法流程如圖2所示。

圖2 CatBoost-Bagging算法流程框圖

具體步驟如下:

1)對特征矩陣X與風電功率序列Y構建樣本集D={X(i),Y(i)},i=1,2,…,n。

2)從樣本集D中有放回隨機采樣T次得到樣本子集D*={D1,D2,…,DT},根據子樣本集D*訓練得到子學習器H*={H1,H2,…,HT}。

3)將T個子學習器H*建模后產生的T個預測結果取平均,得出其最終預測結果。

3 雙層特征選擇和CatBoost-Bagging預測模型

為了充分挖掘風電場原始特征,篩選出對風電功率預測強影響度的特征,本節應用兩層特征選擇方法,第一層特征選擇中使用SA特征選擇基于CatBoost模型表現進行特征尋優,形成第一層最優特征集,而在其基礎上,第二層特征選擇通過距離相關系數和最大信息系數分析該子集里與風電功率強相關的特征,從而形成最終特征集;為了提高預測模型精度,以CatBoost算法為基學習器,引入Bagging集成學習算法,使CatBoost的性能得到最大化的發揮。最終,建立基于雙層特征選擇和CatBoost-Bagging的短期風電功率組合預測模型。預測模型流程如圖3所示。

圖3 雙層特征選擇和CatBoost-Bagging預測模型流程框圖

具體步驟如下:

1)對原始風電特征進行第一層特征選擇。采用SA為CatBoost算法隨機搜索特征子集,并用均方誤差作為損失函數,最終確定第一層特征集。

2)在第一層特征子集基礎上,將距離相關系數和最大信息系數2種特征選擇方法用于分析各特征對風電功率預測的相關度,得到最終特征集。

3)建立CatBoost-Bagging預測模型并對特征集進行訓練和預測,得到某時刻的最終風電功率預測值。

4 算例分析

采用的數據來自新疆某風電場的實測數據,采樣時間為2017年7月4日至2017年8月10日。采樣時間間隔為15 min,共3 648個數據點,訓練集使用前3 552個數據點,測試集為后96個數據點。

采用均方根誤差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)及擬合優度系數R2來評價模型誤差[18],定義如下:

(5)

(6)

(7)

4.1 雙層特征選擇分析

所用數據原始特征編號如表1所示。

表1 新疆某風電場實測數據原始特征

對上述14個原始特征進行第一層特征選擇,采用SA算法確定第一層最佳特征集,從而去除冗余特征。SA算法的實驗參數為:初始溫度為0.2,最低溫度為0.005,溫度衰減系數α=0.9。第一層最佳特征集如表2所示。

表2 第一層最佳特征集

由表2可知,第一層最佳特征集僅在原始特征的基礎上去除了編號8和10的冗余特征,且其沒有返回各特征的貢獻度。這表明僅是第一層的基于SA算法的特征選擇是存在局限性的,需要進行第二層特征選擇,從而實現第一層和第二層特征選擇方法之間的互補。

在第二層特征選擇計算距離相關系數和最大信息系數過程中,將風電特征矩陣和風電功率矩陣代入式(2)—(4)即可計算出兩個矩陣的距離相關系數和最大信息系數。該結果如圖4和圖5所示。其中距離相關系數的閥值取0.8,而最大信息系數取0.7。

圖4 距離相關系數結果

圖5 最大信息系數結果

從圖4和圖5可知,在距離相關系數和最大信息系數中,編號1~5特征的相關系數最大,說明風向和風速這兩個特征與風電功率的關聯度最強,而溫度、氣壓和濕度影響程度有限。因此,通過對距離相關系數和最大信息系數分別得到的特征結果取交集得到最終特征集,即選取編號1~5的特征:10 m處風速、30 m處風速、50 m處風速、70 m處風速和0 m處風向作為風電功率預測的最優特征集。同時,2種方法篩選的結果一致,即從不同角度驗證了最終特征集的合理性和有效性。

4.2 CatBoost模型功率預測的橫向對比實驗

為了對比CatBoost模型的預測精度,本節將使用極端隨機樹(extremely randomized trees,ET)、支持向量回歸(support vector regression,SVR)和GBDT算法做提前一天風電功率預測的橫向對比實驗。得到各模型功率預測結果和誤差評價指標值,如圖6和表3所示。

圖6 橫向對比模型功率預測結果

從表3中可知,各模型取得較好的預測精度,說明特征選擇達到了選擇出有效特征,提高預測精度的目的。CatBoost算法預測誤差RMSE和MAE最小,分別為1.838 1和1.346 2。從擬合效果來看,CatBoost模型的擬合程度最高。這驗證了對Bagging模型的基學習器設為CatBoost模型的合理性和有效性。

表3 橫向對比模型的誤差評價指標值

4.3 基于CatBoost-Bagging模型的短期風電功率預測實驗

為進一步驗證所提模型的有效性,搭建了CatBoost-Bagging模型、ET-Bagging模型、SVR-Bagging模型和GBDT-Bagging模型進行對比,分別對它們做提前一天預測。不同模型的功率預測結果和誤差評價指標如圖7和表4所示。

圖7 不同模型的功率預測結果

表4 不同模型的誤差評價指標值

由表4可知,相較于單一預測模型,經過Bagging集成學習的預測模型預測精度都有明顯提升。這表明通過對單一預測模型進行Bagging集成學習,可以有效提升模型預測性能和泛化能力。而在Bagging集成學習模型中,CatBoost-Bagging模型不僅預測誤差最低而且擬合效果也最貼合實際功率曲線。在運行時間方面,可以看出,其他Bagging融合模型的運行時間在12~16 s,而CatBoost-Bagging模型運行時間低于10 s。顯然所提方法的運算時間低于其他Bagging融合模型,證明了CatBoost-Bagging模型具有更低的算法復雜度和更高的運算效率。

4.4 基于特征集有效性分析

為驗證所選特征集的有效性,本節將采用CatBoost-Bagging 模型對原始特征集、第一層特征集和兩個對比特征集作對比實驗。不同特征集功率預測結果和誤差評價指標值如圖8和表5所示,各特征集特征編號如表6所示。

圖8 不同特征集的功率預測結果

表5 不同模型的誤差評價指標值

表6 不同特征集特征編號

由表5和表6可知,對比特征集一比本文特征集多了相關系數比較高的編號7和9這2個特征,但是誤差指標RMSE和MAE分別升高了10.58%和24.76%,而擬合程度則下降了3.80%。這表明這2個特征為冗余特征。而對比特征集二只有編號4和5特征,預測值擬合程度卻已經達到0.813 3,這說明編號4和5特征為主要特征。但是,該特征集預測精度仍然不如本文特征集,表明編號1~3對風電功率預測具有很大貢獻度,屬于有效特征。盡管第一層特征集比原始特征集預測效果好一些,但是兩者都比對比特征集一結果差,即編號6~13特征皆為冗余特征。這表明僅僅第一層特征選擇是不能達到充分挖掘特征的目的,需要與第二層特征選擇進行配合。綜上,在各特征集中本文特征集預測精度最高。這驗證了該特征集挖掘到有效特征的目的,同時通過雙層特征選擇方法利用兩者之間互補性去挖掘原始特征數據,從而綜合確定最終特征集,這使得本文特征選擇方法更具適用性。

5 結論

1)針對風電場數據有效特征不明顯的特點,采用雙層特征選擇方法,利用方法之間的互補性充分挖掘數據的特征,確定出對風電功率強關聯度的輸入特征集,提高了預測精度。

2)相比于ET、SVR和GBDT 3種模型,CatBoost模型具有更高的預測精度和穩定性。

3)針對當前單一模型短期風電功率預測精度有限的問題,將Bagging算法對CatBoost模型集成來提高模型表現,并通過實例仿真驗證了CatBoost-Bagging集成模型擁有更好的預測效果。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 热re99久久精品国99热| 国产欧美高清| 蜜芽一区二区国产精品| 丁香五月亚洲综合在线 | 亚洲天堂在线免费| 欧美亚洲第一页| 亚洲欧洲日韩国产综合在线二区| 亚洲欧美国产高清va在线播放| 国产不卡在线看| 国产三级成人| 国产欧美精品一区二区| 婷婷亚洲视频| 午夜精品久久久久久久无码软件| 91久久偷偷做嫩草影院精品| 久久国产免费观看| 精品综合久久久久久97超人| 色综合婷婷| 亚洲久悠悠色悠在线播放| 五月丁香伊人啪啪手机免费观看| 成人福利在线视频| 最新无码专区超级碰碰碰| 99视频只有精品| 久久综合丝袜长腿丝袜| 国产不卡一级毛片视频| 东京热av无码电影一区二区| 亚洲日产2021三区在线| 97青青青国产在线播放| 青青国产成人免费精品视频| 欧美国产日韩在线播放| 中文字幕无码电影| 国产成人无码综合亚洲日韩不卡| 97一区二区在线播放| 国产不卡在线看| 亚卅精品无码久久毛片乌克兰| 91娇喘视频| 青青草一区| 亚洲午夜片| 婷婷色中文网| 久久夜夜视频| 精品久久香蕉国产线看观看gif| 成年A级毛片| 久久婷婷五月综合97色| 国产成人av一区二区三区| 国产大全韩国亚洲一区二区三区| 国产99在线观看| 一本二本三本不卡无码| 国产福利小视频高清在线观看| 91精品国产一区| 国产性生大片免费观看性欧美| 久久精品丝袜| 亚洲精品高清视频| 亚洲欧美色中文字幕| 久久这里只有精品23| 午夜福利视频一区| 第九色区aⅴ天堂久久香| 18禁影院亚洲专区| 精品国产中文一级毛片在线看| 亚洲中字无码AV电影在线观看| 欧美一级色视频| 日本在线免费网站| 成人亚洲国产| av一区二区三区在线观看| 午夜国产理论| 一级片免费网站| 欧美日韩动态图| 国产精品冒白浆免费视频| 精品综合久久久久久97超人| 日韩无码视频网站| AV老司机AV天堂| 污网站免费在线观看| 成人免费黄色小视频| 免费人欧美成又黄又爽的视频| 亚洲色图欧美| 国产黄色视频综合| 国产乱人免费视频| 国产精品永久久久久| 99热这里只有免费国产精品 | 日本精品αv中文字幕| 欧美日韩第二页| 9啪在线视频| 免费又爽又刺激高潮网址 | 国产成人91精品免费网址在线|