999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT 算法的電力工程數(shù)據信息分析及預測方法研究

2023-12-18 05:54:02翁海兵
電子設計工程 2023年24期
關鍵詞:電力工程特征模型

翁海兵,楊 陽,黃 穎

(國網浙江省電力有限公司麗水供電公司,浙江麗水 323000)

隨著大數(shù)據分析技術的進步以及電力工程數(shù)據的爆炸式增長,對數(shù)據信息分析與處理的要求也越發(fā)嚴苛[1-3]。為提高電力工程數(shù)據分析與預測的精度,國內外學者做了大量的研究工作。早在上世紀90 年代,F(xiàn)reund 便提出以單層決策樹(Decision Tree)為基礎學習器的自適應提升(Adaptive Boosting,AdaBoost)算法,其可提升數(shù)據訓練的精度。但該算法僅適用于二分類問題,在此基礎上,F(xiàn)riedman 于21 世紀初提出了適用范圍更廣的梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法[4-8]。該算法以數(shù)據初值為回歸樹,通過在葉子處得到數(shù)據的預測值,其既可用于分類問題,又適用于回歸問題。隨著集成學習應用領域的愈加廣闊,國內學者的研究成果亦層出不窮,且被廣泛應用于各種數(shù)據預測問題。文獻[9]通過將GBDT 與隨機森林(Random Forest,RF)算法的優(yōu)勢相結合,預測了一氧化碳含量并取得了較優(yōu)的效果。而文獻[10]在GBDT 算法內融入了多維度特征處理方式,其加入多維數(shù)據特征后,大幅提高了模型的預測效率。目前針對電力工程數(shù)據信息預測的問題,大多數(shù)學者集中于機器學習(Machine Learning,ML)或深度學習(Deep Learning,DL)算法的領域,因此在處理效率與預測精度上仍存在局限性[11-14]。綜上所述,文中基于GBDT 算法開展了電力工程數(shù)據的分析及預測方法研究。

1 GBDT算法及其改進

1.1 算法原理

GBDT 是機器學習算法中的一種,其為迭代式的決策樹算法[15-16],適用于處理混合數(shù)據。該算法的核心是巧妙應用損失函數(shù)(Loss Function)的負梯度值,通過不斷降低殘差的數(shù)值來增加數(shù)據的真實率,且下一次的決策樹均需通過前一次的殘差擬合而成。假設樣本i的第m次迭代梯度值為:

式中,ηm是第m次迭代的加權系數(shù),f(xi)為數(shù)據變量,L為損失函數(shù),yi表示輸入數(shù)據值為xi時的對應值。因此通過得到相應葉子節(jié)點的區(qū)域值,便可獲得節(jié)點的最佳輸出值為:

由此得到決策樹的擬合函數(shù)為:

式中,J為變量個數(shù),I為函數(shù)因子。

GBDT 算法在回歸時所采用的是平方差損失函數(shù),而在分類時則選擇了對數(shù)函數(shù),其算法步驟如下:

步驟1:初始化m、j的值,并將二者的值均賦值為1;

步驟2:計算樣本i第m次迭代時損失函數(shù)的負梯度值;

步驟3:選取特征值,確定最優(yōu)切分變量與切分點,進而構建回歸函數(shù)以啟動迭代循環(huán)操作,迭代循環(huán)結束時進行步驟4;否則,繼續(xù)進行步驟3;

步驟4:計算第m次迭代時的最優(yōu)輸出值;

步驟5:更新擬合函數(shù),若m達到設定閾值,則迭代結束,輸出最終結果;否則,轉至步驟2。

無約束優(yōu)化問題通常會轉化為最小化目標函數(shù)L(θ)的求解,其核心是求得θ的取值并選取初值,然后沿著梯度下降的方向不斷迭代以求出近似值。其迭代公式可表示為:

式中,θ為變量,Δθ為變量增加量。將L(θt)在θt-1處展開,可得到:

上述方法從本質上看是一個一階方程,其核心是求解其一階導數(shù),但相對誤差較大。而當采用二階函數(shù)時,可具有更高的精度及更快的收斂速度,則二階優(yōu)化函數(shù)為:

對上式求導,且令其值為零,即可得到L(θt)的極小值。從幾何的角度來看,則是將二次曲面擬合至當前位置,以獲得最優(yōu)的下降路徑,即牛頓法(Newton’s method)。

1.2 正則化改進

模型復雜度與訓練飽和度呈正相關,而誤差則隨著模型復雜度的增加而逐漸增大。所以當樣本數(shù)量過少或訓練次數(shù)過多時,就會出現(xiàn)過擬合的現(xiàn)象,如圖1 所示。

圖1 過擬合誤差示意圖

從原理上講,應該盡可能地選擇可以解釋已知數(shù)據的簡單模型。但為了保證數(shù)據的真實性,有時則需要采取更為復雜的模型來擬合復雜數(shù)據。因此,該文對模型加以改進:首先在傳統(tǒng)GBDT 算法中引入正則化,然后在模型訓練的過程中指定回歸樹,不斷擬合殘差,最后在損失函數(shù)中增加正則項。其理論表達式可表征為:

式中,Ω(fk)為懲罰函數(shù),引入的正則項在每個回歸樹函數(shù)中增加懲罰項。而懲罰項的復雜度與葉子數(shù)N、葉節(jié)點分數(shù)w有關,且懲罰函數(shù)可表示為:

式中,γ是葉子數(shù)的加權系數(shù)。

通過在葉子節(jié)點處增加剪枝(Pruning algorithm)操作,經過多次迭代后,模型相鄰兩次迭代的預測值之和則可表示為:

此時,目標函數(shù)可表征為預測值與懲罰函數(shù)的相加,即:

2 電力工程數(shù)據分析與預測

2.1 數(shù)據處理

提前對電力工程數(shù)據加以處理,是進行分析與預測的前提。在現(xiàn)場采集到的數(shù)據中經常會出現(xiàn)一些特征缺失、存在噪聲等信息的數(shù)據,其會造成數(shù)據處理過程中信息丟失的情況。刪除法與填補法是解決數(shù)據缺失的常用手段,但是將數(shù)據刪除會影響其真實性,因此該處理過程中采用了雙向綜合填補法。該方法類似于單值差補法,即通過計算期望進行填補。對于給定的數(shù)據集T,且有:

式中,xi∈Rm,yi∈{0,1},則得到原始數(shù)據矩陣:

其中,m為樣本總數(shù),n為特征總數(shù)。首先,令i=1,提取相同樣本并構造數(shù)據矩陣;然后,提取樣本數(shù)據中第j列數(shù)據可得:

計算xij的值為:

綜上可得,新的數(shù)據矩陣為:

基于數(shù)據特征能確定各個參數(shù)值,并以此進行數(shù)據融合進而感知所有工程數(shù)據,最后輸出分類回歸值。所采用的數(shù)據融合框架如圖2 所示。

圖2 數(shù)據感知融合框架

2.2 特征提取

特征提取是降低數(shù)據維度的一種方法,其能夠得到原始數(shù)據的一個子集,并對電力工程數(shù)據進行感知與識別,從而建立數(shù)據感知模型。對數(shù)據特征進行綜合分析,是實現(xiàn)數(shù)據分析與預測的關鍵步驟。數(shù)據特征融合流程如圖3 所示。

圖3 數(shù)據特征融合流程

通過將數(shù)據映射到新的特征空間,再采用主成分分析法(Principal Component Analysis,PCA)對電力工程數(shù)據特征加以提取,具體流程如下:

1)收集電力工程數(shù)據集,建立數(shù)據矩陣X={xij}m×n,并對所有數(shù)據進行歸一化處理;

2)建立目標損失函數(shù):

3)最小化損失函數(shù),計算協(xié)方差矩陣,依據拉格朗日乘子法(Lagrange Multiplier),建立拉格朗日函數(shù),可表征為:

4)篩選特征向量的主成分,計算貢獻率P以獲得特性向量主成分,進而重新建立特征矩陣。

對電力工程數(shù)據完成特征提取之后,可建立多參量遞歸圖并進行卷積操作,然后再進行最大池化與全拼接操作,并最終輸出特征。所建立的卷積神經網絡結構流程如圖4 所示。

圖4 數(shù)據卷積神經網絡建立流程

2.3 數(shù)據訓練

在完成數(shù)據處理與特征提取之后,還需要對電力工程數(shù)據進行訓練。具體的訓練流程為:首先將所有數(shù)據轉化為時序參量,從而得到各個數(shù)據的回歸量;然后,采用GBDT 算法對數(shù)據進行訓練感知,再對數(shù)據加以分類,以獲得數(shù)據分類結果,并最終建立網絡融合模型。在分類流程中,通常以損失量最小來作為迭代結束的依據。且當誤差滿足預期值時,即停止迭代。預期目標值可表示為:

式中,L(θ)為預期目標函數(shù),采集到的電力工程數(shù)據用θ=[θ1,θ2,???,θm]表示,該值為神經網絡模型輸入集合。

數(shù)據誤差可轉化為均方誤差函數(shù),具體可表示為:

式中,f(θi)表示當輸入預測變量值時所對應的函數(shù)值。

3 算例分析

該文選取了三個真實電力工程的數(shù)據集用于測試算法,這些數(shù)據集來源于某市2021年的配電工程數(shù)據庫。實驗目的在于對比傳統(tǒng)機器學習算法與本文所提GBDT 算法的預測精度,從而驗證算法的優(yōu)越性。實驗所采用的三個電力工程數(shù)據集參數(shù)如表1所示。

表1 數(shù)據集屬性

將每個數(shù)據集隨機分成兩個部分,其中80%的數(shù)據作為訓練樣本,剩余的部分則作為預測樣本。算法的基本數(shù)據設置如下:根深度為6,最小樣本數(shù)為500個,而最大迭代次數(shù)則為500 次。通過比較算法的運行時間與平均絕對百分比誤差(MAPE),進而評價算法的效率。采用兩種算法進行測試,其結果如表2所示。

表2 兩種算法數(shù)據集測試結果對比

從表中可看出,在不同的數(shù)據集背景下,當采用GBDT 算法對電力工程數(shù)據進行分析與預測時,其預測精度較高、運行時間也更短。

進一步對電力工程造價數(shù)據進行分析及預測,通過對比輸入與輸出值,構建工程造價數(shù)據的原始模型。對隨機抽取的六組預測樣本數(shù)據進行分析與預測,得到的預測結果與誤差如表3 所示。

表3 電力工程造價數(shù)據預測及其誤差

依據工程造價行業(yè)標準,當誤差在5%以內可以作為有用數(shù)據。而由表3 可知,數(shù)據預測結果均在預期誤差范圍之內,故可視為有效數(shù)據。

4 結束語

針對電力工程數(shù)據分析與預測精度偏低的問題,該文提出了基于GBDT 算法的電力工程數(shù)據信息分析及預測方法,該算法既適用于分類問題也適用于回歸問題。在真實電力工程數(shù)據集上進行的數(shù)據算例分析結果顯示,所提算法的預測精度更高,運行時間也更短,具有良好的工程應用前景。

猜你喜歡
電力工程特征模型
一半模型
試論電力工程管理模式的創(chuàng)新與應用
消費電子(2022年7期)2022-10-31 06:18:16
BIM系統(tǒng)在電力工程中的應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
電力工程中電氣自動化技術的應用
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
淺析電力工程管理模式的創(chuàng)新與應用
主站蜘蛛池模板: 久99久热只有精品国产15| 亚洲天堂视频在线播放| 色AV色 综合网站| 毛片基地视频| 国产极品美女在线| 亚洲AV成人一区二区三区AV| 久久亚洲高清国产| a欧美在线| 亚洲无码精品在线播放| 激情乱人伦| 国产精品九九视频| 久久亚洲高清国产| 国产一线在线| 欧洲极品无码一区二区三区| 无码一区二区三区视频在线播放| 欧洲欧美人成免费全部视频| 亚洲性色永久网址| 乱人伦99久久| 影音先锋亚洲无码| 久久久亚洲色| 日本午夜影院| 狂欢视频在线观看不卡| 国产在线观看精品| Jizz国产色系免费| 亚洲a免费| 国产va免费精品观看| 91福利免费| 欧美国产精品不卡在线观看| 久久国产精品波多野结衣| 在线观看视频99| 婷婷色在线视频| 免费在线国产一区二区三区精品| 无码啪啪精品天堂浪潮av| av在线手机播放| 日韩av无码DVD| 91网站国产| 亚洲精品无码高潮喷水A| 91色爱欧美精品www| 第九色区aⅴ天堂久久香| 午夜免费小视频| 999精品色在线观看| 麻豆AV网站免费进入| 一级高清毛片免费a级高清毛片| 成人福利在线观看| 中文字幕亚洲乱码熟女1区2区| 国产日韩欧美精品区性色| 国产不卡在线看| 亚洲欧美日韩成人高清在线一区| 97久久超碰极品视觉盛宴| 国产高清在线观看91精品| 蜜臀AVWWW国产天堂| 国产乱人伦精品一区二区| www.亚洲一区| 自慰网址在线观看| 国产精品区视频中文字幕 | 日韩天堂视频| 亚洲AⅤ综合在线欧美一区| 国产精品久久国产精麻豆99网站| 一级毛片免费观看久| av无码一区二区三区在线| 日本精品中文字幕在线不卡 | 91av成人日本不卡三区| 亚洲高清日韩heyzo| 国产精品55夜色66夜色| 国产女同自拍视频| 国产乱人免费视频| 色婷婷在线播放| 国产超碰一区二区三区| 欧美不卡视频在线观看| 国产欧美中文字幕| 日韩在线观看网站| 亚洲人人视频| 亚洲天堂视频在线观看免费| 亚洲中文无码h在线观看| 日韩a在线观看免费观看| 国产最爽的乱婬视频国语对白| 欧美在线精品一区二区三区| 久久精品最新免费国产成人| 91口爆吞精国产对白第三集| 伊人AV天堂| 美女视频黄频a免费高清不卡| 九色在线观看视频|