鐘燕華
(上海震旦職業學院, 上海 201908)
目前,我國正在進行世界上規模最大的基礎設施建設,建筑業已成為國民經濟發展的支柱產業之一,對經濟可持續發展發揮著重大作用。國家每年對基本建設的投入約占國民生產總值的15%左右,建筑業從業人數約占全國總從業人數的1/3[1]。由于作業條件復雜、高空作業多等特點,建筑業是僅次于礦業的高危行業。因此,做好建筑業的安全管理工作越來越緊迫。建筑施工事故預測可為企業制定安全生產目標和安監部門宏觀決策提供依據,是加強安全管理工作的有效途徑[2]。
傳統的施工事故預測方法有灰色預測方法、神經網絡及其改進算法等[3-5]。灰色預測法對呈指數變化趨勢的原始樣本擬合較好,但是對于數值波動比較大的樣本無能為力。神經網絡由于存在網絡結構難以確定、過擬合等問題,給實際應用帶來一定困難。最小二乘支持向量機(least squares support vector machine,LSSVM)能夠避免神經網絡過擬合和標準支持向量機訓練耗時長的問題,泛化能力強[6-9]。LSSVM建模中,模型參數對預測精度有很大影響。粒子群算法(particle swarm optimization,PSO)是一種智能隨機優化算法,具有很強的全局搜索能力,非常適合于LSSVM參數優化。
本文采用PSO算法優化LSSVM向量參數,在此基礎上構建建筑施工事故預測的PSO-LSSVM模型,并通過仿真實驗對模型進行驗證。
對一組訓練樣本集D={(xk,yk)|k=1,2,…,N},其中xk∈Rn,yk∈R,xk表示輸入向量,yk表示輸出數據,n為訓練樣本數。在特征空間中LSSVM模型可表示為[10-11]:
y=wTφ(x)+b
(1)
式中:φ(·)表示非線性映射函數;w表示特征空間的權向量;b表示偏置量。
根據結構風險最小化原則,最小二乘支持向量機的函數估計問題可描述為:
(2)

約束條件為:
yk=wTφ(xk)+b+ek
(3)
構建非線性映射函數的目的是提取原始空間的特征,將原始空間中的樣本映射到高維空間,從而解決原始空間中的線性不可分問題。根據式(2),可定義拉格朗日函數如下:
L(w,b,e;α)=J(w,e)-

(4)
式中αk表示拉格朗日乘子,αk∈R。
根據KKT條件,對式(4)進行優化,即:
(5)

(6)
其中:
y=[y1,y2,…,yN],α=[α1,α2,…,αN]
lv=[1,1,…,1],Ω=φT(xk)φ(xl)
(l=1,2,…,N)
根據Mercer條件,存在映射φ和核函數K(·,·),使:
K(xk,xl)=φT(xk)φ(xl)
(7)
由式(6)和式(7)聯立求出α和b后,得到LSSVM回歸算法的函數估計式:
(8)
式(8)取不同的核函數生成不同的支持向量,主要有B樣條核函數、多項式核函數和徑向基核函數(RBF)等。為了獲得最優的核函數參數σ和誤差懲罰參數γ,減少主觀經驗選取參數的盲目性和重復性,本文采用PSO算法確定最優的σ和γ。
PSO算法是由鳥類群體行為啟發而提出的一種全局優化算法。PSO通過個體之間的協作尋求最優解,尤其善于解決連續域優化問題[12-17]。
PSO初始化為一群隨機粒子,通過多次迭代搜索最優解,粒子優劣由適應度函數決定。每個粒子代表一個可能的解向量,通過跟蹤2個最優解(個體最優解、全局最優解)來更新自己的位置和速度,實現全局尋優。設粒子的位置和運動速度為別為X和V,d為決策變量的維數,則第i個粒子的參數可表示為:
Xi=(xi1,xi2,…,xid)
Vi=(vi1,vi2,…,vid)
更新策略為:
(9)
(10)
(11)

用PSO算法優化LSSVM參數,流程如圖1所示,基本步驟如下:
步驟1 初始化PSO算法的參數:群體規模、學習因子、最大迭代次數、粒子的初始位置和速度等。
步驟2 用每個粒子對LSSVM訓練樣本進行學習,得到各粒子當前位置的訓練誤差,作為各粒子的適應度值。將各粒子的當前適應度值與該粒子的最優適應度值進行對比,如果更優,則將當前位置作為該粒子的最優位置。
步驟3 用式(11)計算慣性權重,用式(9)、式(10)更新粒子的速度和位置。
步驟4 判斷是否滿足尋優終止條件(設定的最大迭代次數或精度),如果滿足則求出最優解,如果不滿足則轉至步驟2。

圖1 PSO優化LSSVM參數的基本流程
LSSVM對0到1之間的數據學習效果最佳,為此,在進行機器學習之前首先將原始樣本用下式進行歸一化處理:
(12)
式中:xi表示原始樣本;ximax、ximin分別為原始樣本的最大值和最小值,
最后,對建筑施工事故預測結果進行反歸一化處理,即:
(13)
對于一組給定的樣本序列:
{x1,x2,…,xN}
假定已知x(t),預測x(t+1),可建立映射函數:
f∶Rm→R
于是

(14)

LSSVM預測器的拓撲結構如圖2所示。
LSSVM預測器的待優化參數為γ、σ,即:
(15)
參數優化的目的是提高預測精度,構建訓練樣本的適應度函數:
(16)

圖2 LSSVM預測器的拓撲結構
通常表征預測結果精度的指標有:平均絕對值相對誤差(MAPE)、均方根誤差(RMSE)和相對誤差(RE)等。本文采用預測結果的MAPE作為預測精度評價指標[18]:
(17)
本文預測樣本來源于文獻[4]建筑施工事故數據。選擇嵌入維數為5,將原始樣本分為11組。前9組為訓練樣本,用于構建LSSVM預測器,后2組為預測樣本,用于檢驗PSO-LSSVM預測能力。
選取核函數為RBF核函數,用LSSVM將重構的建筑施工事故訓練樣本進行訓練。
PSO參數設置為:種群數N=30,最大迭代次數為Gmax=100,學習因子c1=1.5,c2=1.5,慣性權重ω=0.7。在Matlab R2011a環境下優化PSO-LSSVM模型,得到最優的寬度參數σ2=0.34,誤差懲罰參數γ=151。
PSO對LSSVM參數的尋優過程如圖3所示。從圖3中可以看出:PSO對LSSVM的尋優速度很快,經過不到20次迭代基本能夠得到最優的LSSVM參數。

圖3 PSO參數尋優過程
得到最優的模型參數后,對建筑施工事故訓練樣本進行訓練,結果如圖4所示。從圖4中可以看出:PSO-LSSVM輸出值和真實值基本重合,說明建模精度非常高。

圖4 建筑施工事故的PSO-LSSVM訓練結果
用訓練好的PSO-LSSVM模型對建筑施工事故進行預測,同時與文獻[4]進行對比,結果見表1。

表1 建筑施工事故的PSO-LSSVM預測結果
從表1可以看出:PSO-LSSVM對2008年、2009年的預測結果相對誤差均小于5%,能夠滿足工程精度要求,計算得MAPE(PSO-LSSVM)=2.99%,相比同類文獻算法MAPE(灰色馬爾可夫)=4.62%而言,PSO-LSSVM對建筑施工事故預測的精度更高,更具先進性。
1) 建筑施工事故具有影響因素錯綜復雜、少樣本、隨機波動大的特點,用傳統預測方法很難進行準確建模,并且計算較為復雜。
2) LSSVM對隨機波動較大的樣本具有較大優勢、泛化能力強。粒子群算法能夠運用于LSSVM參數尋優中,并且計算簡單、運算速度快,仿真案例驗證了2種算法的綜合優勢。
3) 預測結果表明,采用PSO-LSSVM的平均絕對值相對誤差為2.99%,并且每年的預測相對誤差都低于5%,能夠滿足工程應用要求,充分說明了本文所提方法的有效性。
4) 本文借用同類文獻的數據,時效性稍差,但不影響說明所建預測模型的正確性和所用方法的先進性。