翁海兵,楊 陽,黃 穎
(國網浙江省電力有限公司麗水供電公司,浙江麗水 323000)
隨著大數(shù)據分析技術的進步以及電力工程數(shù)據的爆炸式增長,對數(shù)據信息分析與處理的要求也越發(fā)嚴苛[1-3]。為提高電力工程數(shù)據分析與預測的精度,國內外學者做了大量的研究工作。早在上世紀90 年代,F(xiàn)reund 便提出以單層決策樹(Decision Tree)為基礎學習器的自適應提升(Adaptive Boosting,AdaBoost)算法,其可提升數(shù)據訓練的精度。但該算法僅適用于二分類問題,在此基礎上,F(xiàn)riedman 于21 世紀初提出了適用范圍更廣的梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法[4-8]。該算法以數(shù)據初值為回歸樹,通過在葉子處得到數(shù)據的預測值,其既可用于分類問題,又適用于回歸問題。隨著集成學習應用領域的愈加廣闊,國內學者的研究成果亦層出不窮,且被廣泛應用于各種數(shù)據預測問題。文獻[9]通過將GBDT 與隨機森林(Random Forest,RF)算法的優(yōu)勢相結合,預測了一氧化碳含量并取得了較優(yōu)的效果。而文獻[10]在GBDT 算法內融入了多維度特征處理方式,其加入多維數(shù)據特征后,大幅提高了模型的預測效率。目前針對電力工程數(shù)據信息預測的問題,大多數(shù)學者集中于機器學習(Machine Learning,ML)或深度學習(Deep Learning,DL)算法的領域,因此在處理效率與預測精度上仍存在局限性[11-14]。綜上所述,文中基于GBDT 算法開展了電力工程數(shù)據的分析及預測方法研究。
GBDT 是機器學習算法中的一種,其為迭代式的決策樹算法[15-16],適用于處理混合數(shù)據。該算法的核心是巧妙應用損失函數(shù)(Loss Function)的負梯度值,通過不斷降低殘差的數(shù)值來增加數(shù)據的真實率,且下一次的決策樹均需通過前一次的殘差擬合而成。假設樣本i的第m次迭代梯度值為:
式中,ηm是第m次迭代的加權系數(shù),f(xi)為數(shù)據變量,L為損失函數(shù),yi表示輸入數(shù)據值為xi時的對應值。因此通過得到相應葉子節(jié)點的區(qū)域值,便可獲得節(jié)點的最佳輸出值為:
由此得到決策樹的擬合函數(shù)為:
式中,J為變量個數(shù),I為函數(shù)因子。
GBDT 算法在回歸時所采用的是平方差損失函數(shù),而在分類時則選擇了對數(shù)函數(shù),其算法步驟如下:
步驟1:初始化m、j的值,并將二者的值均賦值為1;
步驟2:計算樣本i第m次迭代時損失函數(shù)的負梯度值;
步驟3:選取特征值,確定最優(yōu)切分變量與切分點,進而構建回歸函數(shù)以啟動迭代循環(huán)操作,迭代循環(huán)結束時進行步驟4;否則,繼續(xù)進行步驟3;
步驟4:計算第m次迭代時的最優(yōu)輸出值;
步驟5:更新擬合函數(shù),若m達到設定閾值,則迭代結束,輸出最終結果;否則,轉至步驟2。
無約束優(yōu)化問題通常會轉化為最小化目標函數(shù)L(θ)的求解,其核心是求得θ的取值并選取初值,然后沿著梯度下降的方向不斷迭代以求出近似值。其迭代公式可表示為:
式中,θ為變量,Δθ為變量增加量。將L(θt)在θt-1處展開,可得到:
上述方法從本質上看是一個一階方程,其核心是求解其一階導數(shù),但相對誤差較大。而當采用二階函數(shù)時,可具有更高的精度及更快的收斂速度,則二階優(yōu)化函數(shù)為:
對上式求導,且令其值為零,即可得到L(θt)的極小值。從幾何的角度來看,則是將二次曲面擬合至當前位置,以獲得最優(yōu)的下降路徑,即牛頓法(Newton’s method)。
模型復雜度與訓練飽和度呈正相關,而誤差則隨著模型復雜度的增加而逐漸增大。所以當樣本數(shù)量過少或訓練次數(shù)過多時,就會出現(xiàn)過擬合的現(xiàn)象,如圖1 所示。

圖1 過擬合誤差示意圖
從原理上講,應該盡可能地選擇可以解釋已知數(shù)據的簡單模型。但為了保證數(shù)據的真實性,有時則需要采取更為復雜的模型來擬合復雜數(shù)據。因此,該文對模型加以改進:首先在傳統(tǒng)GBDT 算法中引入正則化,然后在模型訓練的過程中指定回歸樹,不斷擬合殘差,最后在損失函數(shù)中增加正則項。其理論表達式可表征為:
式中,Ω(fk)為懲罰函數(shù),引入的正則項在每個回歸樹函數(shù)中增加懲罰項。而懲罰項的復雜度與葉子數(shù)N、葉節(jié)點分數(shù)w有關,且懲罰函數(shù)可表示為:
式中,γ是葉子數(shù)的加權系數(shù)。
通過在葉子節(jié)點處增加剪枝(Pruning algorithm)操作,經過多次迭代后,模型相鄰兩次迭代的預測值之和則可表示為:
此時,目標函數(shù)可表征為預測值與懲罰函數(shù)的相加,即:
提前對電力工程數(shù)據加以處理,是進行分析與預測的前提。在現(xiàn)場采集到的數(shù)據中經常會出現(xiàn)一些特征缺失、存在噪聲等信息的數(shù)據,其會造成數(shù)據處理過程中信息丟失的情況。刪除法與填補法是解決數(shù)據缺失的常用手段,但是將數(shù)據刪除會影響其真實性,因此該處理過程中采用了雙向綜合填補法。該方法類似于單值差補法,即通過計算期望進行填補。對于給定的數(shù)據集T,且有:
式中,xi∈Rm,yi∈{0,1},則得到原始數(shù)據矩陣:
其中,m為樣本總數(shù),n為特征總數(shù)。首先,令i=1,提取相同樣本并構造數(shù)據矩陣;然后,提取樣本數(shù)據中第j列數(shù)據可得:
計算xij的值為:
綜上可得,新的數(shù)據矩陣為:
基于數(shù)據特征能確定各個參數(shù)值,并以此進行數(shù)據融合進而感知所有工程數(shù)據,最后輸出分類回歸值。所采用的數(shù)據融合框架如圖2 所示。

圖2 數(shù)據感知融合框架
特征提取是降低數(shù)據維度的一種方法,其能夠得到原始數(shù)據的一個子集,并對電力工程數(shù)據進行感知與識別,從而建立數(shù)據感知模型。對數(shù)據特征進行綜合分析,是實現(xiàn)數(shù)據分析與預測的關鍵步驟。數(shù)據特征融合流程如圖3 所示。

圖3 數(shù)據特征融合流程
通過將數(shù)據映射到新的特征空間,再采用主成分分析法(Principal Component Analysis,PCA)對電力工程數(shù)據特征加以提取,具體流程如下:
1)收集電力工程數(shù)據集,建立數(shù)據矩陣X={xij}m×n,并對所有數(shù)據進行歸一化處理;
2)建立目標損失函數(shù):
3)最小化損失函數(shù),計算協(xié)方差矩陣,依據拉格朗日乘子法(Lagrange Multiplier),建立拉格朗日函數(shù),可表征為:
4)篩選特征向量的主成分,計算貢獻率P以獲得特性向量主成分,進而重新建立特征矩陣。
對電力工程數(shù)據完成特征提取之后,可建立多參量遞歸圖并進行卷積操作,然后再進行最大池化與全拼接操作,并最終輸出特征。所建立的卷積神經網絡結構流程如圖4 所示。

圖4 數(shù)據卷積神經網絡建立流程
在完成數(shù)據處理與特征提取之后,還需要對電力工程數(shù)據進行訓練。具體的訓練流程為:首先將所有數(shù)據轉化為時序參量,從而得到各個數(shù)據的回歸量;然后,采用GBDT 算法對數(shù)據進行訓練感知,再對數(shù)據加以分類,以獲得數(shù)據分類結果,并最終建立網絡融合模型。在分類流程中,通常以損失量最小來作為迭代結束的依據。且當誤差滿足預期值時,即停止迭代。預期目標值可表示為:
式中,L(θ)為預期目標函數(shù),采集到的電力工程數(shù)據用θ=[θ1,θ2,???,θm]表示,該值為神經網絡模型輸入集合。
數(shù)據誤差可轉化為均方誤差函數(shù),具體可表示為:
式中,f(θi)表示當輸入預測變量值時所對應的函數(shù)值。
該文選取了三個真實電力工程的數(shù)據集用于測試算法,這些數(shù)據集來源于某市2021年的配電工程數(shù)據庫。實驗目的在于對比傳統(tǒng)機器學習算法與本文所提GBDT 算法的預測精度,從而驗證算法的優(yōu)越性。實驗所采用的三個電力工程數(shù)據集參數(shù)如表1所示。

表1 數(shù)據集屬性
將每個數(shù)據集隨機分成兩個部分,其中80%的數(shù)據作為訓練樣本,剩余的部分則作為預測樣本。算法的基本數(shù)據設置如下:根深度為6,最小樣本數(shù)為500個,而最大迭代次數(shù)則為500 次。通過比較算法的運行時間與平均絕對百分比誤差(MAPE),進而評價算法的效率。采用兩種算法進行測試,其結果如表2所示。

表2 兩種算法數(shù)據集測試結果對比
從表中可看出,在不同的數(shù)據集背景下,當采用GBDT 算法對電力工程數(shù)據進行分析與預測時,其預測精度較高、運行時間也更短。
進一步對電力工程造價數(shù)據進行分析及預測,通過對比輸入與輸出值,構建工程造價數(shù)據的原始模型。對隨機抽取的六組預測樣本數(shù)據進行分析與預測,得到的預測結果與誤差如表3 所示。

表3 電力工程造價數(shù)據預測及其誤差
依據工程造價行業(yè)標準,當誤差在5%以內可以作為有用數(shù)據。而由表3 可知,數(shù)據預測結果均在預期誤差范圍之內,故可視為有效數(shù)據。
針對電力工程數(shù)據分析與預測精度偏低的問題,該文提出了基于GBDT 算法的電力工程數(shù)據信息分析及預測方法,該算法既適用于分類問題也適用于回歸問題。在真實電力工程數(shù)據集上進行的數(shù)據算例分析結果顯示,所提算法的預測精度更高,運行時間也更短,具有良好的工程應用前景。