周云浩,楊寶杰,劉丹,李海峰,楊鵬飛
(國網北京市電力公司電力建設工程咨詢分公司,北京 100021)
隨著智能電網的快速發展,電力工程建設逐步變得復雜且龐大,這也對工程數據的分析及應用提出了更高的要求[1-2]。現階段,傳統數據分析模型已在電力設備故障檢測、用能管理等方面得到了廣泛應用[3-5]。但工程建設過程中所涉及到的項目眾多,使得相關數據規模陡增,導致傳統模型已無法滿足實際工程的需求。此外,近年來計算機與人工智能技術的快速興起,也為電力工程數據的分析及研究提供了新思路[6-7]。
基于上述分析,該文在隨機森林(Random Forest,RF)算法的基礎上進行了電力工程數據預測分析方法的建模與仿真。同時設計了數據分析系統,并利用灰狼優化(Grey Wolf Optimizer,GWO)算法對RF 中的樹和葉節點數量進行尋優。最終通過改進后的RF 算法完成數據的預測分析,從而為電力工程的安全管控提供理論支撐。
電力工程主要可分為發電、輸電、變電與配電四個項目,其所產生的數據量龐大且結構復雜[8-9]。為了更好地發揮數據價值,該文設計了一個電力工程數據分析系統,其整體架構如圖1 所示。
所設計系統共包含四層結構,分別為:
1)數據采集層
通過各傳感器、監測裝置等采集系統內的所有工程數據,并支持信息訪問、通信等業務。
2)數據存儲層
將獲取的工程數據進行集中處理,再存儲于分布式數據庫內[10]。
3)數據分析層
利用聚類分析(Cluster Analysis)、深度學習(Deep Learning,DL)與數據挖掘(Data Mining,DM)等技術對預處理后的電力工程數據實現建模分析,進而深入挖掘海量數據所存在的內在聯系。
4)數據應用層
將數據分析的結果用于滿足各種業務功能的應用需求,如工程成本分析、安全預警、數據預測及工程進度管理等。
電力工程數據的覆蓋面廣且類型多樣,深入挖掘其潛在價值能夠為工程監管、系統安全運行提供重要支撐。針對此,文中提出了一種可靠的數據預測算法。由于RF 算法的隨機性恰好與多變的電力數據相匹配,故可利用GWO 算法來優化RF 模型,進而完成高質量預測。
RF 算法[11-13]由多個個體決策樹(Decision Tree)構成,并利用投票機制進行決策分類及回歸預測。其中每棵決策樹[14]的分割節點數目均是根據樣本特征數隨機確定的,這種隨機性也使得集合決策樹可具備更優的預測性能。一個包含K棵決策樹的RF 算法模型如圖2 所示。

圖2 RF算法決策樹的構建過程
首先對原始樣本集進行Bootstrap 抽樣以獲得K個樣本,并將其建模成決策樹,即弱分類器;接著每個弱分類器均會產生相應的決策結果,再選擇相應的變量建模成決策樹,以此獲得具有K棵決策樹的隨機森林;最后利用投票機制尋得最高分的樹,且將其作為最終結果輸出。因此,RF算法模型RF可表示為:
式中,Si是第i個樣本集;Ck是第k棵決策樹;η(Ck,Si)是Ck對Si的決策值;是投票機制的函數式。
采用RF 算法對電力工程數據進行預測時,隨機森林樹與葉節點的數量對預測結果的影響較大。其中樹數量過大將造成過擬合,過小則會導致預測模型不穩定。而葉節點則是從所有特征集中隨機選擇的特征數,并作為分割變量的個數。為了提高RF 算法的預測性能,利用GWO[15-16]進行尋優,以獲得最佳的樹和葉節點數量。
GWO 通過模仿灰狼種群在自然界的領導層級與群體狩獵方式,以達到接近目標的目的。按適應度值可將個體劃分為四個層級:α、β、δ、τ。其中,α為最優解,β、δ分別是第二、第三最優解,候選解則為τ。GWO 算法的數學表達式為:
式中,D為灰狼個體與獵物間的距離;t為當前迭代次數;Lp(t)為獵物的位置;L(t)為灰狼個體位置;收斂因子φ1=2?r2,φ2=2γ?r1-γ,其中r1、r2是[0,1]范圍內的隨機量,γ為控制參數。
灰狼種群有能力識別獵物的位置并對其進行包圍,因此在搜索空間中,可通過計算α、β、δ的位置來更新τ的位置,則τ狼更新后的最終位置L(t+1) 為:
式中,Lα、Lβ、Lδ分別為α、β、δ的位置;而Dα、Dβ、Dδ則分別是α、β、δ與當前灰狼個體的距離。
將利用GWO 算法優化后的RF 模型用于電力工程數據的預測,其流程如圖3 所示。

圖3 電力工程數據的預測分析流程
基于改進RF 算法的電力工程數據預測分析步驟如下:
1)對電力工程數據進行預處理,以消除數據量綱對數據分析結果的影響,并對其進行歸一化處理;然后,再將數據集按照5∶1 的比例劃分為訓練集和測試集。
2)將訓練集數據輸入至改進RF 算法中,并利用GWO 優化其相關參數。同時通過平均絕對誤差值來判定是否完成迭代,進而輸出最優樹數量與葉節點,且實現對改進RF 模型的優化。
3)將測試集輸入訓練完成的改進RF 模型中,以得到最終的電力工程數據預測結果[17-18]。
實驗使用Matlab 2018a 仿真平臺對所提模型進行驗證,并選擇某市供電公司2021 年電力工程的造價數據作為實驗樣本集。同時將模型參數設置為:GWO 算法中灰狼數為30,待優化變量數為2,迭代次數的最大值則為100。
此外,預測模型的評價指標選擇平均絕對百分比誤差EMAPE、均方根誤差ERMSE,兩者計算如下:
式中,yn和分別為第n個樣本的真實值與預測值。
將50 組電力工程造價數據輸入改進RF 算法的預測模型中進行分析,部分結果如表1 所示。

表1 數據分析預測結果
從表中可看出,所提模型利用GWO 優化后的RF 算法來進行數據預測。其預測結果誤差率為0.17%~10.69%,最大誤差絕對值不超過11%。由此表明,該模型取得的預測效果較為理想。
為論證所提模型的預測性能,將其與文獻[3]、文獻[5]、文獻[7]中的模型進行對比。四種模型對2021年內5-9 月的工程造價數據預測結果,如圖4 所示。

圖4 不同模型的數據預測結果
由圖可知,相較于其他模型,該文模型的大部分預測值與真實值更為接近。且由于改進的RF 算法可根據不同的系統狀態調整其相關參數,故在不同月份的預測波動較小。
進一步根據海量樣本數據的預測結果,得到四種模型的預測評價指標值,具體如表2 所示。

表2 不同模型的評價指標值
由表2 可看出,所提模型的EMAPE僅為4.15%,而ERMSE則為34.19 萬元,遠低于其他模型的ERMSE值。原因在于該模型采用GWO 算法來優化RF 預測模型,其經過電力工程數據分析系統的綜合處理,可使預測性能得到大幅提升。文獻[7]利用RF 算法進行預測,由于缺乏對算法本身的優化,故其EMAPE增加了1.92%。而文獻[5]基于貝葉斯網絡(Bayesian Network)、文獻[3]則采用多變量灰色模型(Multi Variable Grey Model)進行數據預測,所得結果均不理想。這是由于二者均未結合海量電力數據的特性對預測模型進行相應改進,從而導致預測偏差較大。
電力系統具有多變量、非線性及非平衡性的特征,故難以通過傳統經驗方法進行預測分析管控。為此,文中基于隨機森林算法構建了一種電力工程數據預測分析模型,并在Matlab 平臺上進行了仿真實驗。其中,系統的數據分析層利用經GWO 算法改進的RF 模型來分析采集層所獲取的數據,進而實現數據的準確預測。實驗結果表明,該文模型的預測效果理想,且其EMAPE和ERMSE分別為4.15%、34.19 萬元。在接下來的研究中,將采集更多的電力工程數據,例如項目進度數據等用于所提模型性能的驗證。