張 旺, 管維亞, 張建峰, 陳 紅, 盧文飛
(1. 國網江蘇電力設計咨詢有限公司, 江蘇 南京 210008;2. 國網江蘇省電力有限公司經濟技術研究院, 江蘇 南京 210008;3. 東南大學 土木工程學院, 江蘇 南京 211189)
基礎設施是夯實城市建設和發展的物質基礎之一,其投資是加速城市化發展進程和實現城市現代化的重要舉措。據世界銀行測算,基礎設施的存量每增長1%,GDP也會增長1%[1]。就中國而言,基礎設施投資對經濟增長總體上有顯著的正向影響,促進基礎設施投資也是中國促進經濟發展的經驗之一[2]。基礎設施兼具“溢出效應[3]”和“網絡效應[4]”等屬性,投資形成的效果呈現連鎖反應和投資乘數效應[5]。在中國經濟進入新常態、供給側改革加快的背景下,提高基礎設施投資效率,擴大有效投資,使投資更具有針對性,將基礎設施投資規劃策略由粗放型轉變為精準化,解決目前基礎設施投資中的投資不足、投資冗余等問題,實現資源的合理配置,是當下基礎設施投資亟待解決的關鍵問題之一。然而以往的研究主要聚焦于基礎設施投資對經濟增長[6]和區域發展[7]的影響、風險評價[8,9]等方面,鮮有關注基礎設施投資規劃、預測的研究?;A設施投資應當兼顧規模與質量,實現基礎設施項目精準、高效投資的前提就在于對項目的投資進行準確預測。
在基礎設施投資預測中常用的模型或方法有回歸分析、神經網絡模型、矩陣模型等[10]?;A設施投資中影響因素眾多,且各影響因素之間呈現非線性關系,傳統的統計模型方法如回歸分析在應用于非線性數據時難以克服自身的局限性[11],預測精度低。為了克服社會經濟系統中存在的非線性、高維、小樣本等問題,神經網絡模型得到了深度的應用和發展[12]。例如,唐麗春和許秀娟利用廣州市基礎設施基于改進的GA-PSO(Genetic Algorithm and Particle Swarm Optimization)算法對基礎設施投資進行了預測[10];Asadabadi等[13]提出了一種適用于大規模應用的遞歸噪聲遺傳算法,用以研究長期交通投資規劃的優化問題;Pan等[14]基于灰色神經網絡,構建了發電投資動態預測模型。神經網絡模型雖然預測效果較好,但是算法參數設置復雜、解釋性差,尤其在小樣本時易出現過學習、泛化能力差等問題。
XGBoost(Extreme gradient boosting)是一種基于Boosting的新型集成學習算法。與傳統的機器學習算法相比其具有運行速度快、泛化能力強、預測精度高、魯棒性好等優點[15],此外XGBoost算法的模型可解釋性較高,能用于小樣本的預測,目前已經在徑流預測[16]、信用卡交易預測[17]、電機電流預測[18]等領域得到了廣泛應用,但在基礎設施投資預測領域尚無深入應用。因此,本文采用XGBoost算法對基礎設施投資進行預測,以便為投資者提供準確的投資參考信息。同時,為了驗證算法的可靠性,本文采用交叉驗證的方式,對投資預測結果的可靠性進行評估,并通過交叉驗證確定模型最優參數。最后以變電站工程為例,基于國網某省公司的部分變電站實例數據,對本文的模型進行檢驗,說明XGBoost算法的有效性。
XGBoost算法是由Chen等[19]在GBDT算法基礎上改進的算法,該算法通過對損失函數引入正則項來控制模型的復雜度,避免了出現過擬合的問題;同時該算法還對損失函數進行了二階泰勒展開,進一步提高了算法的收斂速度和收斂精度[20],優化了模型的性能。

(1)
式中:fk為單棵回歸樹;xi為輸入變量,在基礎設施投資中即為各預測指標;K為回歸樹的個數;F為回歸樹所構成的空間。
為了學習得出式(1)中的函數集,需要將下面的正則化目標函數L最小化。
(2)


(3)
為了簡化式(3)的優化過程,對其進行二階泰勒展開,式(3)可改寫為:

(4)

去掉式(4)中的常數項,得到第t次迭代的簡化目標函數為:
(5)
設Ij={i|q(xi)=j}為葉子j的集合,將上式進行化簡,可以得到:
(6)
基于以上推導,對于一個特定的樹結構q(x),式(6)通過對ωj求導可以得到葉子節點的最優權重和目標函數的極值為:
(7)
(8)
(9)
式(9)的結果也叫增益,在每次分裂時選擇增益最大的節點。當樹達到了深度閾值或者所有節點分裂時Lsplit<0,則樹停止分裂,即得到最優的集成樹模型。
在數據量較少的研究中,樣本的劃分方式及排序的隨機性對預測結果影響較大,如果僅采用一組測試集與訓練集,則會存在不能充分利用樣本信息,導致預測準確率不高,評估可靠性不足的問題。
在K折交叉驗證中,用到的數據是訓練集中的全部數據。將訓練集平均分割為K個互斥子集,每次選取第K份作為驗證集,余下(K-1)份則作為訓練集,重復該過程K次,得到K個模型對模型性能的評價,基于評價結果可以計算平均性能。由于驗證集和測試集兩部分數據不同,估計得到的泛化誤差更接近真實的模型表現。K折交叉驗證使用了無重復抽樣技術的好處:每次迭代過程中每個樣本點只有一次被劃入訓練集或測試集的機會。通過這種方式得到的結果對數據劃分方法敏感度相對較低,能提高結果的可靠性。同時,對于模型需要調整的每一個參數,都進行一整輪的K折交叉驗證,如此可以找到能使模型泛化性能最優的超參值。
在應用XGBoost算法和交叉驗證進行基礎設施項目投資預測時,首要的步驟是建立相應類型基礎設施項目投資預測指標體系。在確定基礎設施投資預測指標體系時,需要遵循完備性、可獲得性、可操作性、可比性等原則,識別基礎設施投資的內外部影響因素(如建設地點、時間和技術方案、設備選型等),分項構建基礎設施投資預測的指標體系(如分為建筑工程、安裝工程等分項),這樣不僅有利于基礎設施項目總投資的預測,也有利于基礎設施項目分項投資的預測。在選擇投資預測指標時既要考慮全面又要甄選出關鍵指標,指標體系的數量選取要適度,指標過多或者過少都不利于結果的預測。在指標體系的構建過程中,可以采用主成分分析、專家訪談等方法不斷對指標體系進行修正,保證指標體系的有效性,同時確保最終模型能得到可靠的結果。
在確定基礎設施項目投資預測指標體系后,需要獲取相應基礎設施項目實例作為數據樣本。將實例樣本劃分為訓練集和測試集,訓練集用于對模型進行訓練,得到優質模型,而測試集則用來對模型進行檢驗。為了提升模型的可靠性,本文提出的模型采用交叉驗證的方式,進一步將訓練集均分為K份,取其中第K份為驗證集,其余K-1份為測試集。在完成K次實驗后取平均結果,驗證其是否滿足可靠性,滿足則模型訓練完成,不滿足則對其中的參數進行優化,以滿足對模型可靠性的要求。需要注意的是,對于模型中的每一個需要優化的參數,都需要進行一整輪的交叉驗證,以找到使得模型泛化性能最優的超參值。在確定模型的最優參數后,在全部訓練集上重新訓練模型,并使用獨立測試集對模型進行測試,得到最終的預測結果,同時對模型預測性能做出最終評價,基于XGBoost算法的基礎設施項目投資預測流程如圖1所示。

圖1 基于XGBoost算法的基礎設施項目投資預測流程
為了對模型的準確性和穩健性進行評估,本文選取平均絕對誤差MAE以及擬合優度R2作為評價指標。其中,MAE的取值范圍為[0,+∞),預測值與真實值完全吻合時等于0,即完美模型;誤差越大,該值越大。R2的值越接近1說明模型預測值對實際觀測值的擬合程度越好。上述兩項指標對應的計算公式為:
(10)
變電站工程是電力基礎設施的重要組成部分,變電站工程具有投資數額巨大、產品結構單一、項目周期長等特點。其建設對完善地區電網網架結構,滿足地區用電需求,發展培育戰略性能源產業,優化工業結構和推動地區經濟發展都具有重要意義。在新電改背景下,有效地進行變電站投資預測,對實現電力基礎設施高效益發展至關重要。由于變電站投資預測存在高維、非線性、小樣本的特點,采用傳統的預測方法預測精度不高且計算繁雜。因此本文構建基于XGBoost算法的變電站工程項目投資預測模型,以國網某省公司2016―2020年的部分完整變電站投資工程為例,驗證本文模型的有效性。
變電站由建筑工程和電氣設備安裝工程兩部分組成。建筑工程主要包含建筑物和構筑物,電氣設備安裝工程主要包含一次設備和二次設備安裝以及試驗和調試等。因此,本文將變電站的投資預測指標分為電氣設備和建筑工程兩類。建筑工程類指標主要反應建筑的組成、構造、建材用量和地基處理方式等主要內容。而電氣設備類指標主要反應電氣設備的組成、種類、數量、接配電型式等內容。由于電氣二次設備在變電站總投資中占比較小且通常在進行較為詳細的設計時才能確定,因此,本文不考慮二次設備類的指標。參考QGDW 11337-2014《輸變電工程工程量清單計價規范》、DLT 5218-2005《220~500 kV變電所設計技術規程》等相關規程、規范和文獻等,按照變電站電氣設備和建筑工程分別對變電站工程投資預測指標體系進行初步篩選。初步篩選的指標體系中指標過多,數據繁雜,且對于預測模型的建立也具有非常大的挑戰。因此,以國網某省公司2016―2020年的部分完整變電站投資工程的數據對初步篩選指標進行主成分分析。假設有m個變電站工程,每個變電站工程有n個投資預測指標,首先構建原始數據矩陣X:
(11)
然后對數據進行標準化,消除量綱和數量級對評價的影響,本文采用Z-score方法進行標準化:
(12)
根據標準化后的矩陣計算相關系數矩陣R:
(13)
式中:rij為變量xi和xj的相關系數。根據式(13)的相關系數矩陣計算得出對應的特征值λ1,λ2,…,λn以及特征值所對應的標準正交特征向量β1,β2,…,βn,構成的特征向量組為β=(β1,β2,…,βn)。
得到特征向量后,根據方差累積貢獻率的大小確定提取前p個主成分,方差累積貢獻率為:
(14)
則提取的主成分的權重值可以根據下式計算得到:
(15)
根據上述主成分分析方法步驟,基于國網某省公司2016―2020年的部分完整變電站投資工程的數據,本文篩選出建筑工程和電氣設備部分的關鍵指標及對應權重如表1所示。
基于上述指標,進行專家訪談,對指標進行修正。專家指出,為了較為全面地反應變電站的建設屬性,還需要考慮變電站基礎特征類指標,從變電站整體角度找到對投資影響較大的因素,其中需要包含的內容為:額定電壓等級、建設時間、建設地點、變電站型式、全站建筑面積、建設性質和是否為智能化變電站等幾個變電站基礎屬性。在電氣設備部分,專家認為,銅排和扁鋼用量對投資影響不大,而主變壓器的臺數和容量,高壓側配電形式、接線形式、斷路器臺數和母線PT間隔,橋接線和主變進線或出線間隔等幾個指標對總投資影響較大。在建筑工程部分,電纜溝對總投資影響較小,建筑工程中的地基處理方案、主控(綜合樓)建筑面積、鋼構和支架等用鋼量、主變及進出線基礎混凝土量等對投資影響較大,需要增加。在進行多輪專家訪談修正后,本文最終構建了如圖2所示的變電站工程項目投資預測指標體系。
偶爾迷茫的王老師(以下稱王老師):還不知道呢。現在中小學教師評職稱,需要做課題、發論文。美其名曰是要打造“研究型教師”,可是光發表論文這一條要求,就不知難為了多少人呢!

圖2 變電站工程項目投資預測指標體系
在預測結果方面,本文在預測結果輸出方面選擇了建筑工程費和安裝工程費兩項進行預測。由于設備費需要根據具體的電氣設備型號確定,且各型號設備之間費用差異較大,因此本文沒有考慮設備費用的預測。
本文的數據來源于國網某省公司主網工程數據,選取了自2016―2020年期間的變電站工程數據,經過前期數據清洗,刪除了空缺值較多的工程,對于部分特征數據不全的項目采用回歸插補法進行填充,最終共采集到642個變電站工程的數據用于本文的模型,測試集和訓練集的劃分比例為7∶3。文中的相關模型計算在Python 3.7的環境下完成。
在采用XGBoost算法對基礎設施項目投資進行預測時,需要對大量模型中的參數進行設定。XGBoost模型涉及到三類參數,第一類參數是通用參數(General Parameters),作用是設置模型的整體功能;第二類是提升參數(Booster Parameters),該類參數是選擇每一步采用的booster,值得注意的是,其中的lambda和gamma對應正則項中的懲罰系數λ和γ,用來控制XGBoost的正則化部分;第三類是學習參數(Learning Parameters),作用是進行模型的優化。模型的預測結果對模型參數的具體設置較為敏感,參數設置不合理易導致模型欠擬合或者過擬合,使模型預測精度不高。本文基于網格搜索(Grid Search)搜索最優參數,并選擇交叉驗證后的最優結果作為模型的最優參數。在進行K折交叉驗證時,不同的K值對模型性能的提升效率不同,根據Jung[21]在2017年的研究提出,建議選擇K值時滿足n/K>3d,其中n為樣本數據量,d為特征數目。本文的樣本量為642個,特征維數為25,結果為K<8.56,因此本文選擇5折交叉驗證進行模型參數的優化。本文選取的主要參數最終調參結果如表2所示。

表2 XGBoost參數設置
利用表2中調整后的最優參數對基于XGBoost的基礎設施投資預測模型進行訓練,再用訓練好的模型對測試集數據進行預測。本文的預測值包括建筑工程投資、安裝工程投資兩項,最終輸出的基于XGBoost的基礎設施投資預測模型預測值與真實值的對比如圖3,4所示。

圖3 建筑工程投資預測結果

圖4 安裝工程投資預測結果
從圖3,4的預測值與實際值的對比來看,建筑工程投資和安裝工程投資的預測值曲線與真實值曲線基本吻合,說明預測值與真實值比較接近,預測效果良好,體現了本文所提出的基于XGBoost的基礎設施投資預測模型效果良好。
為了進一步體現本文所構建的基于XGBoost的基礎設施投資預測模型的性能,本文還采用了傳統的線性回歸模型和神經網絡模型對本文的案例進行預測,并將MAE和R2作為評價指標,各模型的輸出結果如表3所示。

表3 模型預測性能比較
從表3所顯示的MAE和R2的結果來看,本文所提出的基于XGBoost算法的基礎設施投資預測模型輸出的建筑工程投資和安裝工程投資的預測精度均高于傳統的線性回歸模型和神經網絡模型。其中基于XGBoost算法的建筑工程投資預測的擬合優度為0.870,安裝工程費的擬合優度為0.903,相較于線性回歸模型和神經網絡模型均有較大的提升,均接近于1,說明了預測值與真實值之間的擬合程度很高,模型的可靠性強。從平均絕對誤差來看,基于XGBoost模型的基礎設施投資預測模型相較于線性回歸模型和神經網絡模型誤差更小,預測所得的結果更為接近真實值,能為決策者提供更為準確的參考信息,實現基礎設施投資的精準預測,從而依據精準預測制定合理的投資策略,提高基礎設施投資效益。
準確預測基礎設施項目投資,對于投資者而言,能夠在有限的資金條件下對基礎設施優化配置提供參考,實現基礎設施項目高效益投資。本文通過采用XGBoost算法對基礎設施項目投資進行預測,并以國網某省公司變電站工程項目實例為樣本,對本文提出的模型進行了驗證,并將該模型的預測性能與傳統的線性回歸模型以及神經網絡模型的性能進行對比分析,結果顯示本文提出的基于XGBoost算法的基礎設施項目投資預測模型具有良好的預測性能,能夠較為準確地預測基礎設施項目的投資,能為決策者提供有效的參考,為項目科學化投資提供重要借鑒。
雖然本文提出的基于XGBoost算法的基礎設施項目投資預測模型能夠較為準確地預測基礎設施項目的投資,但是提出的模型主要是針對電力基礎設施投資預測,未來可對其他類型的基礎設施投資做深入分析,針對具體的基礎設施項目類型進行預測指標體系的確定,以形成完整的基于XGBoost的基礎設施投資預測體系。