敖瑞澤 強茂山
(清華大學項目管理與建設技術研究所,北京 100084)
進度作為傳統項目管理目標的“鐵三角”之一,一直以來備受業界關注。由于項目施工過程復雜多變,項目內外部的不確定性因素會影響項目工期,進而導致工期延誤[1-2]。
當前,我國水利工程項目建設速度逐年提升。由于水利工程項目規模大、周期長、涉及面廣,在實施過程中普遍存在工期延誤問題,對項目利益相關方造成一定的負面影響。“十四五”規劃提出,構建智慧水利體系,引入和推廣機器學習技術,對解決水利工程項目工期延誤問題具有重要意義。基于此,本文以神經網絡為基礎,探究水利工程項目工期延誤風險預測方法,構建水利工程項目工期延誤風險預測模型,旨在提高水利工程項目進度管理水平。
水利工程項目施工工期受眾多因素的復雜作用影響[3]。掙值分析法(EVM)的評價指標具有簡潔性和科學性,能夠較為集中地反映工程項目的資金、資源、進度、難易度等多種影響因素的綜合作用結果[4-5]。但是,基于EVM的工期預測多采用線性假設[6],與工期和各因素間的高度非線性關系不符,因此具有一定的局限性。通過梳理和分析相關研究可知,使用非線性激活函數和深層神經網絡能夠近似模擬任何連續函數[7-8]。基于此,本文采用神經網絡模型對EVM預測方法進行改進。
基于以往學者提出的項目工期影響因素,選擇具有代表性且容易量化的因素與EVM變量指標相結合。
1.1.1 模型的輸入變量
(1)EVM變量指標。在EVM變量指標中,與項目進度密切相關的指標包括計劃值(PV)、掙值(EV)、進度偏差(SV)以及進度績效指標(SPI)。其中,SV和SPI能夠反映實際進度與計劃進度的差異。但相比SV,SPI更有利于神經網絡模型訓練,因此選擇PV、EV和SPI。
(2)工期影響因素。工期影響因素包括環境因素、人為因素和資源因素[9]。將“雨雪天數”“大風天數”作為環境因素;將“合同金額變化率”“勞動力投入變化率”作為人為因素;將“材料設備質量合格率”作為資源因素。
(3)項目自身的靜態因素指標。除了以上能夠反映項目施工的動態性因素,還應選擇項目自身的靜態因素指標。將“合同總金額”“總庫容”“總裝機容量”和“最大壩高”[10]作為靜態輸入變量。
(4)項目施工過程中易獲取且有價值的信息的利用率。
(5)實際施工工期(隨時間同步增加)。該指標與模型輸出變量“剩余施工工期”具有一定的互補性和相關性,能夠提高模型的預測精度。
1.1.2 模型的輸出變量
將水利工程項目施工過程中某一時間節點的“剩余施工工期”預測值作為模型的輸出變量,既符合施工過程的動態性,又能夠實現預測項目工期并識別進度偏差的目標。
綜上所述,將輸入變量進行歸一化或無量綱化處理,得到水利工程項目工期延誤風險預測模型的輸入和輸出變量,見表1。

表1 水利工程項目工期延誤風險預測模型輸入和輸出變量
前饋神經網絡(FNN)采用全連接的網絡結構,通過對輸入進行線性組合和非線性激活輸出結果,實現“原因→結果”;利用循環神經網絡(RNN)對序列數據(如時間序列)建模,將之前和現在的結果序列數據作為輸入,輸出未來的序列數據,實現“結果→結果”。據此,采用FNN處理輸入變量中的靜態特征及工期影響因素,采用RNN處理EVM變量指標。
此外,輸入RNN的變量應為時間序列變量[11],即選擇在時間維度上趨勢性明顯的變量,以提升預測結果的精準度。基于表1中的輸入變量,首先將“實際施工工期”“PV/BAC”以及“EV/BAC”作為時間序列變量輸入RNN,將其余輸入變量輸入FNN;其次,將兩個網絡的輸出組合相連接;最后,由輸出層輸出預測結果。其中,RNN部分采用“無狀態RNN”并選取時間步長為5。由此,構建水利工程項目工期延誤風險預測模型網絡結構,如圖1所示。

圖1 水利工程項目工期延誤風險預測模型網絡結構
2.1.1 工期延誤風險評價
假設R1表示項目可能發生的工期延誤程度,R2表示項目發生該程度工期延誤的概率,利用指標R1和R2評價水利工程項目工期延誤風險。隨著實際施工時間的持續增加,R2在項目總工期中的占比逐漸變大,說明在施工中項目進度可調整的空間越來越小,糾正進度偏差的難度越來越大,即項目工期延誤風險越來越大。具體公式如下
(1)
(2)
式中,EDAC表示項目實際總工期預測值;EDTC表示剩余施工工期預測值;(EDAC-EDTC)表示實際施工工期;PD表示計劃總工期。
2.1.2 模型預測性能評價
模型預測性能評價旨在比較和分析預測值與實際值的接近程度。“剩余施工工期”的預測是一個典型的回歸問題,最常用的精度評價指標是均方誤差(MSE)。此外,可采用以下4個指標更加全面地評價模型預測性能。公式如下
(3)
(4)
(5)
(6)

本文以貴州省5個水利工程項目為例,分別用A、B、C、D、E表示。各項目建設期為2010—2021年,實際總工期為3~5年。
從工程概況、項目合同、施工月報、已報價工程量清單以及施工總進度計劃中梳理出各輸入和輸出變量,將每月的項目執行情況匯總為1條數據,即時間間隔為1個月。由于各項目所處地區在施工期間均未出現6級及以上大風天氣、各項目施工月報中記錄的材料設備供應情況未出現不合格問題、項目D和項目E沒有發電功能,因此,剔除輸入變量“大風天數”“材料設備質量合格率”和“總裝機容量”。此外,相關數據基于時間維度整理且模型采用無狀態RNN,因此,將“合同金額變化率”直接并入“合同總金額”。
綜上所述,歸納出9個輸入變量(其中3個為時間序列變量)和1個輸出變量。經過數據整理和清洗后,共得到230條有效數據。
該模型采用Python 3.7編程軟件,通過 TensorFlow神經網絡技術,利用Selenium、NumPy、Pandas、Matplotlib等軟件進行數據的采集、處理和分析。
輸入FNN1是(n,6)的二維張量,其中,n表示樣本數量且每個樣本包含其對應月份的6個非時間序列變量;輸入RNN是(n,5,3)的三維張量,其中,n表示樣本數量且每個樣本包含近5個月的3個時間序列。該模型取訓練集比例為90%,驗證集比例為10%。
通過多種超參數組合比選出模型的最優超參數組合。在此最優組合下,采用10折交叉驗證,結果見表2。

表2 工期延誤風險預測模型的10折交叉驗證結果

(續)
由表2可知,模型的訓練精度和驗證精度相差不大,說明模型未發生過擬合。模型驗證集的平均RMSE為0.011 27,表明模型的預測誤差約為項目計劃總工期的1.13%。經換算可知,工期預測誤差為8~13天。
由于模型的預測誤差分布較均勻,殘差分布具有隨機性和不可預測性,因此僅以項目A為例進行分析。項目A剩余工期的預測值與實際值對比如圖2所示。從圖2可以看出,該模型對“剩余施工工期”預測精度較高,與實際值十分接近。

圖2 項目A剩余施工工期的預測值與實際值對比
3.2.1 模型預測性能評價分析
采用掙值分析法預測工期時,假設剩余項目計劃工期遵循SPI變化趨勢,公式如下
(7)
式中,ED表示當前已完成工程量對應的計劃工期。
基于式(7)計算結果,比較該模型與掙值分析法的預測性能,結果見表3。

表3 工期延誤風險預測模型與掙值分析法預測性能比較
由表3可見,掙值分析法的預測性能明顯低于工期延誤風險預測模型。這是由于水利工程項目受多種因素綜合影響,在項目前期使用掙值分析法預測得到的結果準確性較低。該案例驗證了工期延誤風險預測模型的適用性,說明神經網絡強大的非線性擬合能力和時間序列預測能力與水利工程施工復雜程度高、周期長等特點相匹配。
3.2.2 工期延誤風險評價分析
利用該模型樣本集的預測結果,計算工期延誤風險評價指標R1、R2的預測值,并與實際值進行比較,結果如圖3和圖4所示。

圖3 項目A的R1預測值與實際值對比

圖4 項目A的R2預測值與實際值對比
由圖3和圖4可以看出,R1、R2的準確性取決于工期預測的準確性。從預測結果來看,R1值波動較小,R2值隨時間逐漸增大。從R1、R2的整體趨勢來看,在項目施工前期,由于R1值較大,項目的工期延誤風險較大;隨著時間的推移,R1值未明顯減小且R2值越來越大,說明項目發生工期延誤的概率越來越大。因此,若能在項目早期準確預測R1,可以及時采取有效管理措施,避免R2值增大導致嚴重的工期延誤。
SPI能夠準確描述當前時刻項目的實際進度與計劃進度的偏差。因此,保持輸入變量不變,將輸出變量改為3個月后的EV,由此計算SPI值,使模型的輸入和輸出中都包含同一變量,但兩者處于不同時間。由此構建的模型也稱為因果模型[12]。采用10折交叉驗證得到的結果見表4。使用預測結果計算項目各時間點的SPI,比較預測值和實際值,結果如圖5所示。

圖5 項目A的SPI預測值與實際值對比

表4 輸出變量改為3個月后EV/BAC的模型的10折交叉驗證結果
通過對比上述兩種建模方式發現:采用第一種方式預測從當前時刻到項目施工結束的“剩余施工工期”,預測精度較高,有助于管理者從整體評價項目工期延誤風險,并根據需要采取相關措施。但是,該方法不能監控施工進度的階段目標,不利于制定和實施短期措施。采用第二種方式預測項目一段時間后的EV,并根據進度計劃計算對應的SPI,有助于管理者預知一段時間后項目的進度情況,并在這段時間內采取措施盡量糾正進度偏差。但該方法存在兩個缺點:一是精度相對較低,且預測值整體偏大,說明預測得到的SPI趨勢偏樂觀,可能會誤導管理者;二是只能局部預測,不能整體把握項目的工期延誤風險。因此,為了得到更加準確的項目進度評價結果,應綜合使用上述兩種建模方式。
(1)工期延誤風險預測模型具有良好的預測性能,明顯優于傳統的掙值分析法。在最優超參數組合下,模型驗證集的MSE為1.316 1×10-4,RMSE為0.0112 7,即該模型的工期預測誤差約為項目計劃總工期的1.13%,換算后為8~13天。由此可見,該模型能夠作為管理者評價項目進度執行情況和預測工期延誤風險的工具,有助于相應進度管理措施的制定與實施。
(2)上述兩種建模方式具有一定的互補性。將兩種方法相結合能夠從整體和局部把握項目進度,得到更加準確的工期延誤風險預測結果。此外,可以結合其他建模方式,綜合評價項目工期延誤風險,提高項目進度管理水平。
在實際應用中,項目管理者應根據自身經驗識別和糾正數據中的錯誤,準確計算出EV、PV和SPI,從而獲得更加完整、準確的施工進度管理數據。同時,管理者可以根據需要選擇時間序列數據的時間間隔,而不局限于以月為單位,以提高模型預測精度。此外,該模型適用于項目各利益相關方。借助該模型,各利益相關方能夠掌握項目實際進度,降低工期延誤概率。因此,水利工程項目工期延誤風險預測模型具有較高的應用價值。
為了在實踐中有效地使用該模型,應強化施工管理人員的數據管理意識,建立和完善項目資料歸檔管理制度。同時,應制定模型的持續更新策略。隨著新項目不斷建設完成以及項目內外部環境的改變,模型的泛化能力將逐漸降低,因此需要持續對模型進行更新。
在“十四五”期間,水利建設仍然是我國重要的戰略發展目標,提高水利項目建設管理水平具有重要的意義和價值。
隨著智慧水利的推進實施,我國水利建設越來越重視數據的收集、存儲以及數字化應用。同時,強調算法、算力等基礎技術的支撐作用以及預測、預警、預報等功能的實現。由此可見,通過工期延誤風險預測模型能夠有效解決我國水利工程建設的進度管理和工期延誤問題。具體建議如下:
(1)擴大研究數據的范圍和數量,提高模型的預測精度和泛化效果。
(2)將關鍵路徑法與掙值分析法相結合,更加精準地描述項目關鍵路徑進度。對關鍵路徑進行掙值分析,計算關鍵路徑上的EV、PV和SPI,以彌補掙值分析法存在的缺陷。
(3)探究集成回歸方法在水利工程工期延誤風險預測中的應用,通過綜合多種機器學習方法最大限度地降低預測結果誤差。