黃龍山
(福建榕能電業集團有限公司,福建 福州 350108)
隨著我國城網建設不斷發展,集中招標采購規模不斷擴大,預測電力物資采購價格是電力企業提高采購管理水平和提高概預算編制準確率的必要條件[1]。因此,如何建立電力物資采購價格預測的模型,為電力工程建設規劃提供比較合理的價格預測區間,是當前電力公司亟待解決的問題。
業內專家與學者們對商品購買價格評估方面,目前采用的方法大多是通過對歷史數據進行預測,張昊等[2]利用隨機森林和XGBoost模型判斷各特征數據對模型的貢獻程度。葉倩怡[3]以零售業銷售數據作為數據挖掘對象,對比XGBoost、隨機森林和Time Series Linear模型在銷售額預測上的效果,得到XGBoost模型比其他模型預測效果更好。陳宇韶等[4]利用XGBoost模型預測股價走勢。靳占新等[5]則使用構建線性回歸法與隨機時間序列兩個的模型預測物品價格。
該文用統計方法對已有的歷史物資價格信息進行收集,分析影響物資定價的主要原因,并利用支持向量機與神經網絡算法模型對預測電力物資定價進行對比,結果表明支持向量機的算法模型預測的結果更具有準確性。
電力建設的成本大部分取決于電力物資價格的高低,而電力物資的價格由多種因素綜合決定。因此,為預測電力物資價格,需要對電力物資價格的影響因素進行分析。
通過收集榕能集團2020年1月—2022年6月電力物資采購信息,選取電力物資采購價格的核心影響因素。歷史采購數據的質量直接影響電力物資價格預測的精度,數據的完整性和準確性是影響數據質量的關鍵因素。因此,為得到可信度較高的電力物資價格的影響因素,需要對數據進行預處理。因此,需要清理缺失值和噪聲數據,再標準化表示數據。
從電力物資采購數據表中可知,采購的物資種類共計35種,對每件產品的數據進行標準化處理后,利用MATLAB編程求解多元線性回歸的系數。自變量依次為采購方式,購買時間,型號,截面,阻燃特性,鎧裝形式,中標數量,芯數。以電力電纜為例,得到自變量影響系數,見表1。由表1可知,采購方式對產品單價的影響程度較大,其中采購方式為邀請競爭性談判的價格最低,其次是詢價采購,單一來源采購的價格最高。但低壓電力電纜與時間呈正相關,采購時間越晚,價格越高。數據分析的結果也表明,界面尺寸越大,芯數越多,產品單價越高。該部分通過建立相關模型得出采購的價格與采購方式密切相關的結果,較多產品都反映采購方式為邀請競爭性談判的價格最低,其次是詢價采購,單一來源采購的價格最高。因此當企業在購入產品時,應注意選取采購方式,在考慮其他方面成本的前提下多選取邀請競爭性談判作為采購方式。同理可以分析其他電力物資價格的關鍵影響因素。

表1 電力電纜系數表
預測物資價格通常有兩種理論方法,經驗預測法和數學模型預測法?;陔娋W物資價格預測具有重要的實際工程應用價值,因此采用數學模型預測法進行預測,可以得到更嚴謹、科學的預測結果。該文采用支持向量機的數學模型進行預測分析。
支持向量機(SVM)是Vapnik等數學家在1963年提出的一種二分類型機器,基本思想是尋找一個超平面,使樣本可以分為兩類,并且使兩類間的間隔最大,間隔大使其與感知器不同,這種變化通過核函數實現,使其成為實質上的非線性分類器,可以處理高維數據問題,在樣本數據量較小的情況下,仍然可以完成分類,無須依賴整個數據,泛化能力強。SVM的學習方法是目前求解凸二次的最佳方法[6]。
為方便訓練數須將數據映射成數值,例如單一來源采購=1;詢價采購=2;邀請競爭性談判=3。數據歸一化處理,因為在數據集中不同變量的比例差別很大,不屬于一個數量級,所以,必須在構建回歸模式前,先對數據進行歸一化處理。由于該類數據各變量的差異較大,因此為減少誤差增強模型的擬合程度,對數據進行歸一化處理,以低壓開關柜為例,歸一化后數據見表2。

表2 低壓開關柜歸一化后數據
核函數類型及模型參數是影響SVR模型分析效果的關鍵因素,因此,在創建SVR模型前,需要尋找合理的核函數類型以及參數組合。該文利用 RBF 核函數并采用交叉驗證方法選擇最合適的懲罰因子參數c和RBF核函數中的方差,通過選出的最佳參數對SVR模型進行訓練。當SVR模型的分析效果相同,選擇懲罰參數因子時,采用的策略和前面SVM分類方法一致,取參數數值較小的c,這樣可以加快模型的計算速度,避免計算時間過長,提高模型效率,在SVR模型訓練過程中需要選取ε的值。
利用svmpredict函數,仿真測試SVR回歸模型,返回的一個參數中是對應的預測值,在第二個函數中描述測試集的均方誤差E和決定系數R2。為了保證通用性,也可以采用隨機方法建立練習集和測試集,隨機選取400、800和1200個試樣作為練習集,再隨機取試樣中的前十個試樣,作為測試集對模型的穩定性進行評價(如圖1所示)。預測誤差見表3。

圖1 樣本數量400

圖2 樣本數量800

圖3 樣本數量1200

表3 預測誤差
由表3可以看出,數據存在一定零散的情況,使用的訓練集數量越多,預測的結果越精確,但預測誤差仍然較大。根據分析發現,在低壓開關柜的數據中,有的型號數據數量大于1000份,然而有的型號只有30多份數據,為了顧及所有型號的的產品,因此這里考慮對每一份材料進行隨機抽取一定的數量來構成新的訓練集,既能不失一般性,又能考慮所有情況,通過不斷訓練找到一個合適的訓練集并儲存。在得到較優的訓練集后,在低壓開關柜數據中重新選擇10個數據,對其進行價格預測,如圖4和圖5所示。由圖可知,支持向量機對預測低壓開關柜的中標單價效果較好。

圖4 新訓練集下的預測一

圖5 新訓練集下的預測二
還原型神經網絡是通過有機地融合BP神經網絡和迭代還原方法而產生的神經網路模型,通過設置原始BP神經網路模型,采用歷史數據集對神經網絡進行訓練,再通過對比輸出數據和實際數值,反映二者的差值,為校準模型,通過對神經網絡中的權重和參數進行反復調整,并采用迭代法進行回歸驗證,以期提高神經網絡模型的準確性。為減少各維度數據間的數量級差異,需要對各種數據來源進行歸一化處理[7],可以避免誤差更大,提高模型預測的準確度。采用最小二乘法對數值進行歸一化處理,歸一化函數使用MATLAB自帶函數mapminmax處理數據。為了保證通用性,采用隨機的方式形成訓練集和試驗集,即隨機選擇400、800和1200個樣品作為訓練集,以隨機取得數據中的前十個樣品作為試驗集,對模型的性能進行評估,如圖6~圖8所示。預測誤差見表4。

圖6 樣本數量400

圖7 樣本數量800

圖8 樣本數量1200

表4 預測誤差
由表4可知,神經網絡會受數據零散的影響,降低其預測的精確度。當使用的訓練集數量為400時,預測的結果最精確,但是之間還存在較大預測誤差。
通過支持向量機不斷訓練,得到低壓開關柜較優的訓練集,將該訓練集導入神經網絡中進行訓練,并在低壓開關柜中重新選擇10個數據進行價格預測,如圖9和圖10所示??梢园l現神經網絡對低壓開關柜的中標單價的預測效果不理想。

圖9 新訓練集下的預測一

圖10 新訓練集下的預測二
對比基于神經網絡和支持向量機的預測,見表5和表6。從預測指標可以看出,支持向量機對低壓開關柜的數據類型預測效果最好,精度也最高。但是支持向量機的訓練時間相對較長,如果樣本多會呈現指數級增加。當對整個數據進行訓練或者少部分數據進行訓練時,得到大致的價格,神經網絡預測具有一定優勢。

表5 預測誤差對比情況(支持向量機法)

表6 預測誤差對比情況(神經網絡法法)
如果對精度要求高,低壓開關柜的數據類型適合采用支持向量機進行預測,如果只需要大致價格且想短時間得出結果,可以采用神經網絡進行預測。
電網物資價格直接影響電網工程的造價,編制正確的預估價格可以降低成本,并減少投資風險,因此對企業購買資料的標準化分析后,采用通過MATLAB程序計算多元線性回歸的系數評價方法確定電網物資采購價值的重要影響因素,并根據相關因素選擇基于向量機的神經網絡方法,對電網物資價值進行預測研究,通過對比證明基于向量機的模型估計準確性較好,并得到較為理想的結果??蔀轭A測今后電網企業的物資價格提供參考。