沈華強,楊 玲,李 皓,丁云峰,范殷偉
(1.國網浙江省電力有限公司,浙江杭州 310007;2.國網浙江省電力有限公司湖州供電公司,浙江湖州 313000)
隨著我國邁入“十四五”規劃的新篇章,對電力工業的發展提出了更高的要求,電網項目的投資力度也在不斷加大。輸變電工程作為國家電網電力輸送的核心工程,其建設水平在一定程度上決定了電網的供電可靠性。由于輸變電工程項目的建設規模較為龐大,在項目的推進過程中需要考慮多種因素的影響。目前,在對輸變電工程的數據進行分析估算時,通常是在采集較多近似工程樣本的基礎上以傳統的人工分析總結為主,結合特定的計算公式進行預測與評估。該分析結果較為依賴人工的經驗,這導致在項目開展時受多種因素影響使得項目數據的預測和評估與實際結果存在較大偏差,從而造成項目管理和建設的難度顯著上升[1-2]。而隨著智能計算的不斷進步,時序預測法[3]、灰色模型[4]以及回歸分析[5]等方法逐步被應用于輸變電工程數據的預測與評估之中。當前,開展科學的輸變電工程數據預測與評估方法研究,實現對工程項目合理的精益化管理,已成為了現階段電力領域的熱點研究方向[6]。
輸變電工程通常涵蓋輸電線路工程和變電工程。在實際的項目進行過程中,項目各方一般僅會對工程數據做簡單記錄,并未深入地對數據進行核驗與校正等工作。在進入到最終的數據處理環節前,通常并未采取嚴格的數據預處理措施。研究表明,輸變電工程項目的數據樣本在經過一定的預處理環節后,真正適用于輸變電工程項目數據分析與預測的數據樣本,大約為原有樣本容量的50%。而在實際的輸變電工程項目開展過程中,由于項目自身受多種因素的影響,造成了輸變電工程項目的數據特征維度較多,故整體的數據復雜度顯著提升,且呈現出較為明顯的小樣本條件下的高維度特征。
然而,典型的小樣本數據在特征維度較高的情況下,時常會存在某一維度的絕對樣本容量較少的問題,而在實際的數據分析與預測時則通常存在明顯的“過擬合”問題。此時,高維特征數據會導致分析模型運算效率的顯著下降,進而影響輸變電工程數據分析與預測的準確度。因此要實現對輸變電工程數據的精確預測與評估,需要對輸變電工程的樣本數據進行特征提取,從而消除高維特征所造成的不利影響。
為了降低輸變電工程項目中小樣本數據的高維特征導致的不利影響,文中引入隨機比特森林(Random Bits Forest,RBF)算法用于提取數據特征,其具體的運算步驟如下:
1)輸變電工程數據特征識別
該文基于k-means 聚類算法實現輸變電工程數據的聚類提取并得到C個特征集。其中,特征F1與F2兩者的相關距離計算公式如下所示:
其中,Vi表示的是特征簇所映射的特征向量,的計算與式(2)同理。
2)輸變電工程數據特征權重計算
利用重采樣方法獲取N個訓練樣本集合及OBB測試集,通過采用隨機性的特征交換從而得到交換后的訓練集。采用RBF 算法對交換前后的訓練集分別進行準確率學習,獲取相應的OBB 準確率λi與,然后計算特征權重fw:
其中,表示的是RBF 運算時訓練集與交換后的隨機特征訓練集的OBB 準確率的偏差。將λi與分別定義為交換前后訓練集的準確率,εF表示特征偏差的平均值,n表示所獲取的特征數量,S2表示特征偏差的方差。則特征得分可定義為:
3)刪除冗余特征構成相應的特征集合
由所獲取的特征總數設置對應數量的特征類別,刪除特定閾值P、Q以及多余的特征數。當輸變電工程數據聚類識別結束后,若特征類別高于閾值P,則去除G值最低的特征類別中的d/100 特征,去除的特征總數由特征類別數量決定。若特征類別數量低于閾值P且G值最低特征類別的特征總數高于閾值Q時,則去除G值最低特征類別中的d/100 特征;若特征類別數量低于閾值P且G值最低特征類別的特征總數低于閾值Q時,則不采取特征刪除操作,直接得到相應的樣本特征子集。隨后判斷終止條件是否符合,若是則得到最終的特征子集;反之則繼續迭代。
利用RBF 提取輸變電工程數據樣本特征能有效完成對高維數據的降維,并充分擴大樣本容量從而防止高維小樣本數據在進行分析時過擬合現象的發生。其有效提升了輸變電工程數據預處理環節的效率,確保了后續數據分析與預測的準確性。
支持向量機(Support Vector Machine,SVM)的實質是一種自監督學習的機器學習算法,對于具有高維特征的小樣本數據處理具有顯著優勢。因此,該文利用SVM 作為輸變電工程數據分析與預測的底層模型。SVM 的核心原理是利用具有非線性特性的映射函數ψ對樣本實施映射,使樣本得以被映射到高維的特征空間Ω中并完成相應的線性回歸,其可以被等效為在原始空間內完成非線性回歸[7-8]。
將數據樣本定義為(xq,yq),其中q=1,2,···,r,xq∈Rm,yq∈R,r表示的是樣本的總數量。SVM 的估計函數可被定義為:
其中,α表示高維特征空間Ω中的加權矢量,B∈R為函數對應的偏置,ρ為密度函數。SVM 的優化目標定義為:
其中,e表示損失函數,與βq表示松弛因子,CP表示懲罰因子,其通常被應用于均衡函數的平滑性與誤差超額之和。
根據上述條件,將拉格朗日算子ζ和ζ*引入到目標函數中,從而得到SVM 回歸的對偶目標:
由于徑向基核函數所映射的特征空間維數是無窮的,因此固定數量樣本在此空間中一定具有線性可分的特性,這也使得徑向基核函數的應用最為廣泛。所以,該文采用的徑向基核函數定義為:
其中,μ為核函數參數。
SVM 參數的設定結果對于回歸函數具有較大的影響作用。其中,懲罰因子CP的取值會影響到SVM的復雜度與訓練時的誤差,其取值過小或過大均會導致欠擬合及過擬合現象,進而使得模型的泛化性能下降。損失函數e則會對支持向量的總數造成影響,過小的取值會使運算精度提升但同時也會導致支持向量總數增加;反之,過大的取值則會降低運算精度并減少支持向量的總數。核函數參數μ的取值會對樣本的分布范圍造成一定的影響[9-10],懲罰因子與核函數參數的取值對于SVM 模型的預測準確性和泛化性能有著直接影響。因此,該文引入差分進化算法實現對以上SVM 參數的尋優,最終的優化目標函數預設為交叉驗證條件下的均方差:
2.2.1 差分進化算法原理
差分進化(Differential Evolution,DE)算法的本質是利用種群內部差異完成隨機搜索的智能優化算法。其基本原理是從現有種群內部獲取搜索步長與方向,并在種群內部完成交叉及變異以獲取新個體,從而在新舊個體之間完成篩選并留存更優的個體至下一代。整體的流程包括:初始化種群、變異操作、交叉操作以及篩選操作等[11-12]。
1)初始化種群
在對種群執行初始化操作前,首先要設定參數上下限,進而隨機生成特定約束下的初始化種群,由此可得:
其中,a=1,2,…,Na,b=1,2,…,Nb。Na表示種群的初始個數,Nb表示種群內部的維度。χa,b(0)表示第0 代種群內部的第a個獨立個體,b表示種群內部的第a個獨立個體的第b維。各自代表第b維的上限與下限,rand(0,1)是0~1 范圍內的隨機數。
2)變異操作
DE 算法利用差分法執行對個體的變異操作,通過從種群內部篩選獲得四個互不相同的獨立個體得到對應的差分向量,進而完成逐代最優個體的變異。由此可以在確保種群具有多樣性的前提下有效提升收斂速率,其具體計算公式如下:
其中,υi(g+1)表示完成變異操作后所獲得的個體;χbest(g) 表示第g代的最優個體;R1、R2、R3,R4 ∈[1,2,…,Na]表示互不相同的隨機值;? 表示尺度因子,通常可對差分量進行尺度變換。
3)交叉操作
交叉操作的實質是為了隨機地篩選以得到個體,其具體公式為:
其中,Pc表示交叉操作發生的概率。
4)篩選操作
DE 算法執行篩選操作主要是基于貪婪思想,即將更優的個體當作新個體,其公式為:
其中,f表示的是優化目標的函數約束,Ua,b(g+1)表示通過變異操作與交叉操作獲取的新個體。
2.2.2 優化流程
DE 算法可通過尋優使得SVM 具有最優的預測性能[13-14],其詳細步驟為:
1)在設定目標函數的基礎上,初始化種群參數,并設置待優化參數的取值范圍,從而生成相應的隨機組合(Cp,η);
2)將現有的隨機組合(Cp,η)定義為SVM 初始參數,并將SVM 應用于訓練樣本數據,得到初始預測結果并代入實際值進行檢驗;
3)計算目標函數結果并判定是否達到預設閾值或最大迭代次數,若是,則轉到步驟8),否則繼續計算;
4)從當前代數的種群中篩選出四個互不相同的獨立個體并執行變異操作,生成新一代變異的獨立個體;
5)對新一代的獨立個體執行交叉操作,生成新一代的實驗個體;
6)根據貪婪思想對實驗個體執行篩選,選出新一代個體;
7)在新一代種群中計算生成新的參數組合(Cp,η),然后轉到步驟2);
8)得到最優的參數組合,獲取最優的DE-SVM模型來對數據進行分析預測。
該文在設計輸變電工程數據預測與評估模型時,首先需要獲取輸變電工程數據,目前的數據主要為投資數據,然后選擇合適的數據劃分訓練集與測試集。隨后通過對數據的特征提取獲取所需的數據特征,再將該特征輸入到SVM 模型中進行預訓練。根據上文的優化流程,利用DE 算法優化獲取最優的SVM 模型,并將訓練好的模型對測試集數據進行分析預測。其具體流程如圖1 所示。
為了驗證所提出的輸變電工程預測與評估模型的準確性,保證模型的工程實用價值,該文選取浙江省2012-2020 年實際已完工的輸變電工程項目中,桿塔更換工程與桿塔基礎設施建設工程造價的100組數據作為樣本。在Matlab 2018b 的計算環境下,用前80 組數據作為訓練集,后20 組數據作為測試集。用訓練好的模型對測試集的樣本數據進行預測,通過分析預測結果及實際工程造價的平均偏差并與BP 神經網絡和未優化的SVM 進行對比,從而檢驗模型的預測評估效果[15-16]。
用訓練集訓練該文所提出的預測與評估模型[17-18],然后將測試集數據輸入到訓練好的模型中,所得到的結果與其他算法的結果對比如表1所示。

表1 桿塔更換工程造價數據預測與評估數據
當采用該文提出的DE-SVM 模型對桿塔更換工程的造價數據進行預測時,多數樣本的預測位于5%以內,少部分誤差在5%以上,但均未超過6%,平均誤差為2.8%。而采用BP 神經網絡進行數據的預測時,多數樣本的誤差均已超過5%,其平均誤差為5.9%。未進行優化的SVM 的預測誤差雖低于BP 神經網絡,但普遍顯著高于DE-SVM 模型,其平均誤差為4.2%。
由于桿塔基礎設施建設工程的特征較多,因此最終結果主要用于與實際值進行評估對比,與其他算法的對比情況,如表2 所示。

表2 桿塔設施建設工程造價數據預測與評估數據
由表2 可知,當采用該文提出的DE-SVM 模型對桿塔基礎設施建設工程的造價數據進行評估時,誤差同樣也未超過6%。
由以上分析結果可以看出,該文提出預測與評估模型的計算結果基本位于合理范圍,能夠為輸變電工程的數據分析提供較為準確的參考,且具有較高的工程實際應用的價值。
該文針對現有的輸變電工程數據分析的難點,針對性地設計了一種輸變電工程數據預測與評估模型。該模型通過提取輸變電工程數據的特征進而降低數據維度,然后利用差分進化算法實現SVM 模型的參數尋優,進一步提升模型的預測與評估精度。最終使得模型能夠對輸變電工程數據進行準確的預測與評估。