基于GBDT 算法的電力工程數(shù)據信息分析及預測方法研究

2023-12-18 05:54:02翁海兵

電子設計工程 2023年24期

翁海兵，楊陽，黃穎

（國網浙江省電力有限公司麗水供電公司，浙江麗水 323000）

隨著大數(shù)據分析技術的進步以及電力工程數(shù)據的爆炸式增長，對數(shù)據信息分析與處理的要求也越發(fā)嚴苛[1-3]。為提高電力工程數(shù)據分析與預測的精度，國內外學者做了大量的研究工作。早在上世紀90 年代，F(xiàn)reund 便提出以單層決策樹(Decision Tree)為基礎學習器的自適應提升(Adaptive Boosting,AdaBoost)算法，其可提升數(shù)據訓練的精度。但該算法僅適用于二分類問題，在此基礎上，F(xiàn)riedman 于21 世紀初提出了適用范圍更廣的梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法[4-8]。該算法以數(shù)據初值為回歸樹，通過在葉子處得到數(shù)據的預測值，其既可用于分類問題，又適用于回歸問題。隨著集成學習應用領域的愈加廣闊，國內學者的研究成果亦層出不窮，且被廣泛應用于各種數(shù)據預測問題。文獻[9]通過將GBDT 與隨機森林(Random Forest,RF)算法的優(yōu)勢相結合，預測了一氧化碳含量并取得了較優(yōu)的效果。而文獻[10]在GBDT 算法內融入了多維度特征處理方式，其加入多維數(shù)據特征后，大幅提高了模型的預測效率。目前針對電力工程數(shù)據信息預測的問題，大多數(shù)學者集中于機器學習(Machine Learning,ML)或深度學習(Deep Learning,DL)算法的領域，因此在處理效率與預測精度上仍存在局限性[11-14]。綜上所述，文中基于GBDT 算法開展了電力工程數(shù)據的分析及預測方法研究。

1 GBDT算法及其改進

1.1 算法原理

GBDT 是機器學習算法中的一種，其為迭代式的決策樹算法[15-16]，適用于處理混合數(shù)據。該算法的核心是巧妙應用損失函數(shù)（Loss Function）的負梯度值，通過不斷降低殘差的數(shù)值來增加數(shù)據的真實率，且下一次的決策樹均需通過前一次的殘差擬合而成。假設樣本i的第m次迭代梯度值為：

式中，ηm是第m次迭代的加權系數(shù)，f(xi)為數(shù)據變量，L為損失函數(shù)，yi表示輸入數(shù)據值為xi時的對應值。因此通過得到相應葉子節(jié)點的區(qū)域值，便可獲得節(jié)點的最佳輸出值為：

由此得到決策樹的擬合函數(shù)為：

式中，J為變量個數(shù)，I為函數(shù)因子。

GBDT 算法在回歸時所采用的是平方差損失函數(shù)，而在分類時則選擇了對數(shù)函數(shù)，其算法步驟如下：

步驟1：初始化m、j的值，并將二者的值均賦值為1；

步驟2：計算樣本i第m次迭代時損失函數(shù)的負梯度值；

步驟3：選取特征值，確定最優(yōu)切分變量與切分點，進而構建回歸函數(shù)以啟動迭代循環(huán)操作，迭代循環(huán)結束時進行步驟4；否則，繼續(xù)進行步驟3；

步驟4：計算第m次迭代時的最優(yōu)輸出值；

步驟5：更新擬合函數(shù)，若m達到設定閾值，則迭代結束，輸出最終結果；否則，轉至步驟2。

無約束優(yōu)化問題通常會轉化為最小化目標函數(shù)L(θ)的求解，其核心是求得θ的取值并選取初值，然后沿著梯度下降的方向不斷迭代以求出近似值。其迭代公式可表示為：

式中，θ為變量，Δθ為變量增加量。將L(θt)在θt-1處展開，可得到：

上述方法從本質上看是一個一階方程，其核心是求解其一階導數(shù)，但相對誤差較大。而當采用二階函數(shù)時，可具有更高的精度及更快的收斂速度，則二階優(yōu)化函數(shù)為：

對上式求導，且令其值為零，即可得到L(θt)的極小值。從幾何的角度來看，則是將二次曲面擬合至當前位置，以獲得最優(yōu)的下降路徑，即牛頓法(Newton’s method)。

1.2 正則化改進

模型復雜度與訓練飽和度呈正相關，而誤差則隨著模型復雜度的增加而逐漸增大。所以當樣本數(shù)量過少或訓練次數(shù)過多時，就會出現(xiàn)過擬合的現(xiàn)象，如圖1 所示。

圖1 過擬合誤差示意圖

從原理上講，應該盡可能地選擇可以解釋已知數(shù)據的簡單模型。但為了保證數(shù)據的真實性，有時則需要采取更為復雜的模型來擬合復雜數(shù)據。因此，該文對模型加以改進：首先在傳統(tǒng)GBDT 算法中引入正則化，然后在模型訓練的過程中指定回歸樹，不斷擬合殘差，最后在損失函數(shù)中增加正則項。其理論表達式可表征為：

式中，Ω(fk)為懲罰函數(shù)，引入的正則項在每個回歸樹函數(shù)中增加懲罰項。而懲罰項的復雜度與葉子數(shù)N、葉節(jié)點分數(shù)w有關，且懲罰函數(shù)可表示為：

式中，γ是葉子數(shù)的加權系數(shù)。

通過在葉子節(jié)點處增加剪枝(Pruning algorithm)操作，經過多次迭代后，模型相鄰兩次迭代的預測值之和則可表示為：

此時，目標函數(shù)可表征為預測值與懲罰函數(shù)的相加，即：

2 電力工程數(shù)據分析與預測

2.1 數(shù)據處理

提前對電力工程數(shù)據加以處理，是進行分析與預測的前提。在現(xiàn)場采集到的數(shù)據中經常會出現(xiàn)一些特征缺失、存在噪聲等信息的數(shù)據，其會造成數(shù)據處理過程中信息丟失的情況。刪除法與填補法是解決數(shù)據缺失的常用手段，但是將數(shù)據刪除會影響其真實性，因此該處理過程中采用了雙向綜合填補法。該方法類似于單值差補法，即通過計算期望進行填補。對于給定的數(shù)據集T，且有：

式中，xi∈Rm，yi∈{0,1}，則得到原始數(shù)據矩陣：

其中，m為樣本總數(shù)，n為特征總數(shù)。首先，令i=1，提取相同樣本并構造數(shù)據矩陣；然后，提取樣本數(shù)據中第j列數(shù)據可得：

計算xij的值為：

綜上可得，新的數(shù)據矩陣為：

基于數(shù)據特征能確定各個參數(shù)值，并以此進行數(shù)據融合進而感知所有工程數(shù)據，最后輸出分類回歸值。所采用的數(shù)據融合框架如圖2 所示。

圖2 數(shù)據感知融合框架

2.2 特征提取

特征提取是降低數(shù)據維度的一種方法，其能夠得到原始數(shù)據的一個子集，并對電力工程數(shù)據進行感知與識別，從而建立數(shù)據感知模型。對數(shù)據特征進行綜合分析，是實現(xiàn)數(shù)據分析與預測的關鍵步驟。數(shù)據特征融合流程如圖3 所示。

圖3 數(shù)據特征融合流程

通過將數(shù)據映射到新的特征空間，再采用主成分分析法(Principal Component Analysis,PCA)對電力工程數(shù)據特征加以提取，具體流程如下：

1）收集電力工程數(shù)據集，建立數(shù)據矩陣X={xij}m×n，并對所有數(shù)據進行歸一化處理；

2）建立目標損失函數(shù)：

3）最小化損失函數(shù)，計算協(xié)方差矩陣，依據拉格朗日乘子法(Lagrange Multiplier)，建立拉格朗日函數(shù)，可表征為：

4）篩選特征向量的主成分，計算貢獻率P以獲得特性向量主成分，進而重新建立特征矩陣。

對電力工程數(shù)據完成特征提取之后，可建立多參量遞歸圖并進行卷積操作，然后再進行最大池化與全拼接操作，并最終輸出特征。所建立的卷積神經網絡結構流程如圖4 所示。

圖4 數(shù)據卷積神經網絡建立流程

2.3 數(shù)據訓練

在完成數(shù)據處理與特征提取之后，還需要對電力工程數(shù)據進行訓練。具體的訓練流程為：首先將所有數(shù)據轉化為時序參量，從而得到各個數(shù)據的回歸量；然后，采用GBDT 算法對數(shù)據進行訓練感知，再對數(shù)據加以分類，以獲得數(shù)據分類結果，并最終建立網絡融合模型。在分類流程中，通常以損失量最小來作為迭代結束的依據。且當誤差滿足預期值時，即停止迭代。預期目標值可表示為：

式中，L(θ)為預期目標函數(shù)，采集到的電力工程數(shù)據用θ=[θ1,θ2,???,θm]表示，該值為神經網絡模型輸入集合。

數(shù)據誤差可轉化為均方誤差函數(shù)，具體可表示為：

式中，f(θi)表示當輸入預測變量值時所對應的函數(shù)值。

3 算例分析

該文選取了三個真實電力工程的數(shù)據集用于測試算法，這些數(shù)據集來源于某市2021年的配電工程數(shù)據庫。實驗目的在于對比傳統(tǒng)機器學習算法與本文所提GBDT 算法的預測精度，從而驗證算法的優(yōu)越性。實驗所采用的三個電力工程數(shù)據集參數(shù)如表1所示。

表1 數(shù)據集屬性

將每個數(shù)據集隨機分成兩個部分，其中80%的數(shù)據作為訓練樣本，剩余的部分則作為預測樣本。算法的基本數(shù)據設置如下：根深度為6，最小樣本數(shù)為500個，而最大迭代次數(shù)則為500 次。通過比較算法的運行時間與平均絕對百分比誤差（MAPE），進而評價算法的效率。采用兩種算法進行測試，其結果如表2所示。

表2 兩種算法數(shù)據集測試結果對比

從表中可看出，在不同的數(shù)據集背景下，當采用GBDT 算法對電力工程數(shù)據進行分析與預測時，其預測精度較高、運行時間也更短。

進一步對電力工程造價數(shù)據進行分析及預測，通過對比輸入與輸出值，構建工程造價數(shù)據的原始模型。對隨機抽取的六組預測樣本數(shù)據進行分析與預測，得到的預測結果與誤差如表3 所示。

表3 電力工程造價數(shù)據預測及其誤差

依據工程造價行業(yè)標準，當誤差在5%以內可以作為有用數(shù)據。而由表3 可知，數(shù)據預測結果均在預期誤差范圍之內，故可視為有效數(shù)據。

4 結束語

針對電力工程數(shù)據分析與預測精度偏低的問題，該文提出了基于GBDT 算法的電力工程數(shù)據信息分析及預測方法，該算法既適用于分類問題也適用于回歸問題。在真實電力工程數(shù)據集上進行的數(shù)據算例分析結果顯示，所提算法的預測精度更高，運行時間也更短，具有良好的工程應用前景。