王文和 張爽 袁瑋成 劉林精
(1.重慶科技學院安全工程學院 重慶 401331; 2.重慶市安全生產科學研究院 重慶 401331;3.重慶科技學院油氣化工過程安全多尺度研究中心 重慶401331)
事故預測研究是指對系統將來的安全狀態與情況進行科學的預測與計算[1]。預測研究的目的與意義是為了使系統安全達到最優化,也就是說,通過為安全管理人員提供相對全面、可靠的安全數據與信息,使其參照預測結果完善體系,強化對薄弱環節的管理、消除系統內在安全隱患。事故指標預測是根據已發生的事故信息來推斷未來事故信息的過程,也就是基于事故發生的歷史數據,通過整理得到一個時間數據序列,通過應用適當的預測模型,來探究該事故的發生特征與未來發展規律,對事故未來可能發生的結果預先作出科學的推斷,其關鍵在于預測模型的建立。由于事故的發生具有波動性,事故發生起數及各項信息數據不夠全面,若選擇不合適或簡單的預測模型會導致結果誤差較大,因此需要建立高精度預測模型進行事故預測研究[2]。
當前國內外的事故預測研究方法主要有:灰色預測法、支持向量機法(Support Vector Machine,SVM)、神經網絡預測法、指數平滑法、ARIMA預測法等[3]。灰色預測模型適合處理具有趨勢特點分布的事故數據,計算工作量小,可用于近期、短期、中長期預測[4],而實際的?;返缆愤\輸事故數據不僅具有趨勢性,而且具有波動性等特點,運用此模型預測準確度低。SVM算法處理大規模訓練數據效果不佳,穩定性與可靠性低,而危化品道路運輸事故的影響因素多,需要大量數據訓練才會得到較為準確的結果;危化品道路運輸事故受多種因素影響,某些偶然因素也會引發?;返缆愤\輸事故,而神經網絡模型處理此類數據時泛化能力不佳、過擬合,導致其預測結果準確度偏低[5]。指數平滑預測法長期占有較小的比重、近期占有較大的比重,因此適合短期預測,而缺少更深層次數據規律的研究;ARIMA預測模型適用于處理不具有明顯的未來趨勢特征的數據序列,而危化品道路運輸事故起數序列符合此類數據特點,相比灰色預測、神經網絡等模型誤差率小,因此采用ARIMA預測法進行?;返缆愤\輸事故預測。但是,ARIMA模型在描述非線性關系的數據時不夠準確,因此通過建立組合模型,將不同模型的優點結合起來,以獲取理想的結果[6]。建立組合預測模型可以通過線性加權、殘差優化等方式使組合模型預測精度高于單一方法,采用殘差修正法可結合LOESS回歸預測模型,將ARIMA和LOESS兩預測模型結合成ARIMA-LOESS模型中,ARIMA模型描述危化品道路運輸事故數據中的線性關系,LOESS模型刻畫危化品道路運輸事故數據中的非線性關系,通過結合兩模型的預測結果以達到提高模型預測準確度的目的。
ARIMA模型可理解為把事故預測指標隨時間推移而發生的事故數據視為一個數據序列,且此指標數據序列可以通過模型進行擬合。當數學模型能夠反映數據的特點和規律時,就要根據歷史數據來預測未來可能發生的變化。它的局限性在于所有的數據都應該在一定的水平上隨機波動,即時間序列數據是穩定的,而得到的新的時間數據擬合關系就是基于差分變換處理非平穩數據的ARIMA預測模型。其模型根據原始數據序列的穩定性和其回歸的部分,可以將ARIMA預測模型分為以下4個過程:自回歸的過程(AR)、移動平均的過程(MA)、自回歸移動平均的過程(ARMA)及ARIMA過程。在建立模型前,需要檢查原始數據序列是否具有平穩性。如果原始序列不具有平穩性,則需要對非平穩時間數據序列轉換為平穩時間數據序列,然后,由因變量對其滯后值和隨機誤差項的現值、滯后值進行復核后再建立模型[7]。
ARIMA模型通用表達式:
Xt=ф1Xt-1+ф2Xt-2+…+фpXt-p+ut+θ1ut-1+θ2ut-2+…+θqut-q
(1)
式中,Xt代表具有平穩性的時間數據序列;ut代表一個符合正態分布的白噪聲數據序列;фa、θb(a=1,2,3,…,p;b=1,2,3,…,q)分別為數據序列Xt和ut的參數;p代表自回歸的階數;q代表自回歸的階數。
ARIMA模型的表示方式可為ARIMA(p,d,q)。在建立ARIMA預測模型期間,對于不具有穩定性的時間數據序列需要進行一階差分,而后需推斷出其序列的周期性情況,那么可判斷d的值,如果經過m階差分后,推斷數據序列大致不存在周期性,既可以確定差分階數d=m;對于自回歸的階數和自回歸階數的取值,可以通過觀察差分后序列的ACF圖和PACF圖來確定參數p與q的值。由于自回歸的階數和自回歸的階數大部分處于低階,因此,可通過從低階到高階逐階進行計算的方法,從中選擇相對最優模型。
在建立模型過程中,有以下3點需要注意:①要檢查時間數據序列是否平穩;②通過觀察原始數據序列的自相關函數圖(ACF)和偏自相關函數圖(PACF)是否存在拖尾現象,來確定自回歸階p和移動平均階q的取值為多少;③建模結束后,需對模型預測結果進行誤差檢驗,檢驗合格的模型可以用于預測[8]。
(2)
其中,關于d階數據序列yt的關系有:
Xt=△dyt=(1-L)dyt
(3)
那么Xt為具有穩定性的數據序列。
LOESS回歸模型是對預測數據序列進行平滑回歸優化的常用方法之一,其建模過程中如果需要確定一個響應變量的值時,取值方法如下:首先,在變量值的附近獲取一個數據子集,然后,將此子集進行二次回歸,在回歸過程中,可采用加權最小二乘法。當靠近擬合預測值時,它的權重占比就會越大。最后,通過建立LOESS局部回歸模型對響應變量的數值進行優化。利用這種方法,可以通過逐點計算得到整條擬合預測曲線[9]。
建立LOESS模型優化某點平滑值步驟如下:
(1)將某點坐標值的絕對值作為中心確定區間,通過Y=fn確定區間寬度。Y代表在局部回歸計算中擬合觀測數值的數量,n代表總擬合觀測值的個數,f代表參與局部回歸計算的擬合觀測數值占總擬合觀測數值的比率。通過不同的Y與f值并作圖來確定最終值。
(2)計算區間內所有點的權重值。有很多種計算權數函數法可獲取權數。其中權數可以通過xi和權數函數來計算得出。權數函數需要滿足的要求是:在x8位置求出相鄰區間內的極大值,權函數的對稱中心是x8[10]。
在規定的范圍內,再擬合一條符合描述x與y線性關系的直線,并且不需要分析范圍外的點權重,相鄰x8的點在擬合過程中尤為重要,點權數越大,對最終擬合線的效果則越好。
(3)通過上述步驟獲取LOESS局部序列擬合線,再以實際情況為根據,確定是否需要進行局部二次回歸曲線擬合,這可以由數據的變化范圍來確定。因建立LOESS回歸模型過程計算量較大,正常情況下應通過計算機來建立模型[11-13]。
將時間數據序列{Zt}分為線性部分{Mt}與非線性部分{Nt}兩個部分,則表達式為
Zt=Mt+Nt
(4)
式中,Mt和Nt是由具體時間數據序列確定。

(5)
其次,建立LOESS回歸預測模型,對局部數據序列進行優化擬合與修正。因數據序列{Zt}中的非線性關系隱藏在原始序列與得到的結果的偏差數據序列{et}中,通過LOESS回歸模型對偏差序列{et}進行處理后,可以挖掘出{Zt}中的非線性數據信息,那么就有
et=f(et-1,et-2,et-3,…,et-n)+εt
(6)

最后,通過上述步驟建立組合模型,就可以得出組合預測模型的最終結果,其表達式為
(7)
綜上所述,ARIMA預測模型用于描述時間數據序列的線性關系,LOESS回歸模型用于刻畫時間數據序列的非線性關系,兩種模型的組合顯示出了組合模型的優越性[13]。
本文以我國2011—2018年發生的危化品道路運輸事故起數為事故預測指標,依據原國家安全監督管理總局事故查詢系統、中國化學品安全協會以及安全管理網公布的事故信息,整理得出2011—2018年我國每年發生的危化品道路運輸事故的數量,其結果見圖1。

圖1 2011—2018年?;返缆愤\輸事故起數時間序列圖分析
本文首先以2011—2018年發生的?;返缆愤\輸事故起數為原始時間數據序列,根據前述方法,應用SPSS軟件建立ARIMA預測模型,對2019—2021年危化品道路運輸事故起數進行預測。
2.2.1 序列圖分析
建立ARIMA預測模型,需對2011—2018年發生的?;返缆愤\輸事故起數進行序列圖分析,如圖1所示。從序列圖1可以看出,原始序列中沒有出現明顯的季節成分,但有明顯的變化,因此不需要進行季節分解。
2.2.2 自相關和偏自相關分析
為了確定ARIMA預測模型原始數據序列的數據平穩性以及參數值,需要對原數列的自相關(ACF)和偏自相關函數(PACF)分別進行分析,其分析結果如圖2所示。從圖2(a)和圖2(b)可以看出,原始數據序列的自相關分析圖(ACF)和偏自相關分析圖(PACF)都存在拖尾現象,表明原始數據序列不具有平穩性[14],因此需要通過一階差分變化進行下一步分析。通過對原始數據序列進行一階的差分變化,一階差分后的數據序列基本均勻地分布在零標度線的兩側。如圖3所示,原始數列序列通過一階差分變化后具有穩定性。從圖3可以看出,其差分序列是平穩的,因此參數d定為1。因自回歸系數和偏回歸系數均是拖尾所以模型選擇為ARIMA(p,d,q),以及確定模型參數為p=1,d=1,q=1[14]。

圖3 ARIMA預測模型原始時間數據序列一階差分

(a)ACF
2.2.3 ARIMA預測事故起數模型的建立
通過對2011—2018年?;返缆愤\輸事故發生起數的自相關與偏自相關分析和處理,經過反復試驗,最終確定預測事故數模型為ARIMA(1,1,1),則可直接建立危險化學品道路運輸事故起數ARIMA預測模型,預測結果如圖4所示。ARIMA預測模型預測2019、2020、2021年事故起數分別為:20、16、12。

圖4 危化品道路運輸事故起數ARIMA模型預測結果
根據原始序列數據,運用ARIMA(1,1,1)預測模型計算得出2011—2018年事故起數預測值及預測值與實際發生值之間的偏差。然后基于預測值與實際發生值的差值序列訓練LOESS模型,應用MATLAB軟件建立LOESS回歸模型,對ARIMA模型預測偏差進行殘差優化,獲取危化品道路運輸事故起數的非線性部分。LOESS回歸模型對2011—2018年ARIMA預測偏差擬合圖結果如圖5所示。

圖5 LOESS回歸預測模型對2011—2021年危化品道路運輸事故起數的ARIMA預測偏差擬合
根據前述方法,將ARIMA預測模型與LOESS回歸模型進行模型組合,得到了ARIMA-LOESS組合預測模型。通過LOESS回歸預測模型的訓練后,得到2019—2021年的偏差預測值,然后再根據式(7),將ARIMA預測模型所描述的時間數據序列的線性關系函數與LOESS回歸預測模型刻畫的時間數據序列的非線性關系函數結合起來,通過計算最終得到ARIMA-LOESS組合模型的預測結果。其組合模型預測得出的2019年、2020年、2021年?;返缆愤\輸事故起數結果分別是21、17、12。
為檢驗單一模型與組合模型的預測精度,將ARIMA的模型擬合曲線、ARIMA-LOESS的組合模型擬合曲線與實際發生值進行結果比較,其結果對比圖如圖6所示。從圖6可以看出,ARIMA-LOESS組合模型擬合預測曲線更接近真實值擬合曲線,因此,ARIMA-LOESS組合模型預測精度高于單一的ARIMA預測模型,并修正了單一模型的誤差值。該組合預測模型結合了兩者的優勢,發揮了對不同特點的數據序列的優點,以達到對目標時間數據序列的更優擬合。

圖6 ARIMA模型預測值、ARIMA-LOESS組合模型預測值與真實值的對比
(1)ARIMA-LOESS組合預測模型將歷史數據序列的線性和非線性部分的預測結果共同結合,通過了實例對比與驗證,其預測結果可為?;返缆愤\輸事故的預防提供更加可靠的數據支持。
(2)組合模型對ARIMA模型的殘差進行應用差分自回歸滑動優化,修正了ARIMA單一模型的誤差。研究結果表明:通過對目標序列數據的訓練,ARIMA-LOESS組合模型能夠明顯提高危化品道路運輸事故起數預測的精度。
(3)ARIMA-LOESS組合模型結合ARIMA模型和LOESS回歸模型優點,前者處理線性部分,后者得出非線性部分結果,有效解決了由于事故數據存在非線性特征的問題。