王 蕾, 邱 鋒, 2, 夏永旭, 韓興博
(1. 長安大學公路學院, 陜西 西安 710064; 2. 陜西碧桂園置業有限公司, 陜西 西安 710065)
公路隧道的快速發展給我們帶來了顯著的經濟與社會效益,然而由于其結構的封閉性與復雜性,導致運營安全方面存在很大的潛在威脅。尤其隨著長隧道和特長隧道的不斷增加,隧道路段已成為交通事故的高發路段[1],且一旦發生事故,其嚴重程度和致死率遠高于普通路段。因此,研究公路隧道交通安全,特別是交通事故的預測,對公路隧道交通安全管理工作具有非常重要的現實意義。
近年來,國內外許多學者對公路隧道交通安全問題進行了研究,并取得了一定的成果[2-6],但這些研究多以對事故結果的統計分析為主。后續,也有學者關注公路隧道交通事故的預測工作。易富君等[7]構建了基于遺傳算法優化的RBF神經網絡模型,并提出了公路隧道群交通事故的微觀預測方法; 段萌萌等[8]研究了高橋隧比高速公路交通事故的影響因素及規律,采用多元非線性回歸分析法建立了事故預測模型; 馬壯林等[9]采用有序Logit模型和廣義有序Logit模型對交通事故嚴重程度進行了預測; Ciro等[10]以200余起公路隧道交通事故數據為基礎,采用隨機參數方法建立了事故頻率預測模型; 詹偉等[11]結合事故灰色預測模型與馬爾可夫模型,分析了隧道群路段交通事故的發展變化趨勢; 楊健等[12]以沈海高速羅長隧道群為研究對象,建立了基于BP神經網絡的交通事故非線性綜合預測方法。
總結上述研究發現,目前的公路隧道交通事故研究多以統計分析為主,有關事故預測的研究相對較少,且影響因素考慮不全面,基于道路環境影響因素的事故預測研究更是幾近于無。本文以秦嶺某隧道群事故統計資料為基礎,擬通過相關性分析對影響公路隧道交通事故預測的道路環境因素進行主要變量篩選,同時采用樸素貝葉斯模型、隨機森林模型、BP神經網絡模型和支持向量機模型分別對公路隧道交通事故形態、嚴重程度、傷亡情況和持續時間進行預測,以期能在進行不同類別事故預測時選取合適的預測模型,并為今后的公路隧道交通事故預測工作提供一定的參考。
交通事故的發生是諸多因素綜合作用的結果,當其發生在公路隧道中時更顯復雜,為了得到相對準確的預測結果,預測方法的選擇尤為重要,如果選擇不合適的預測方法,結果將差之千里。下文將對幾個常用的預測模型進行分析研究。
樸素貝葉斯模型是在各特征屬性條件獨立的基礎上基于貝葉斯公式所建立的一種智能算法。其基本思路是通過先驗概率得到后驗概率,即交通事故的預測可以通過各影響因素發生的概率計算得到,文獻[13]詳細介紹了樸素貝葉斯模型的基本原理及算法步驟。
樸素貝葉斯模型算法簡單,對小樣本量數據預測較為準確。其缺點在于其條件獨立性假設較難滿足,并且會因為先驗概率的不準確導致預測效果不佳。
BP神經網絡模型是一種多層網絡模型,由輸入層、隱層、輸出層3層構成,網絡結構如圖1所示。其算法過程由正向的結果輸出和反向的誤差調整構成,若數據經過正向輸出所得結果誤差較大,則反向傳播預測誤差調節隱含層神經元,重復此過程直到誤差滿足要求[14]。

圖1 BP神經網絡結構圖
BP神經網絡模型非線性映射能力較強且具有較強的容錯能力,但由于其收斂速度慢導致算法低效,也有可能陷入局部極值而得不到最優結果。
隨機森林模型是由很多決策樹分類模型組成的組合分類模型,通過有放回地隨機抽樣組成決策樹,然后組合多棵決策樹的預測,通過投票得出最終的預測結果,其構建過程如圖2所示。

圖2 隨機森林模型結構圖[15]
隨機森林模型預測準確度較高,不容易出現過擬合的現象,然而當樣本量較小時,隨機森林模型的不完全抽取可能會使得所抽取數據沒有代表性。
支持向量機模型是基于結構風險最小化所建立的數據模型,具體原理在文獻[16]中有詳細介紹。它的優點在于結構簡單、適應性好、泛化能力強,但由于缺乏相關依據使得核函數的選擇較為困難,數據中特殊點的存在也會對結果造成一定影響。
交通事故影響因素涉及人、車、道路環境3大方面,本文擬著重研究道路環境因素對公路隧道交通事故的影響。結合前人研究成果及西漢高速秦嶺隧道群的調查統計資料,選取相關影響因素作為特征變量,如表1所示。
為降低計算成本與難度,對上述自變量進行相關性分析,以篩選出相關性較高且對預測結果具有顯著影響的自變量參數。本文采用的是皮爾森相關性系數法,計算公式如下:

(1)
式中:ρXY為自變量X對因變量Y的相關性系數; COV(X,Y)為變量X與變量Y的協方差;D(·)為變量的方差;E(·)為變量的數學期望。

表1 變量描述表
分別以事故形態、事故嚴重程度、事故傷亡情況和事故持續時間作為因變量,通過皮爾森相關性分析計算各自變量的相關系數,選取9個最大系數的自變量,對其進行編碼賦值后將其納入到預測模型之中,篩選結果如表2所示。
本文以西漢高速秦嶺某隧道群的交通事故為研究對象,西漢高速秦嶺段具有交通量大、隧道數量多、線形復雜、事故頻發等特點,全線共有130座隧道,隧道總長約110 km,本文所選取的隧道群處于事故多發路段,其設計速度為80 km/h,均為雙洞分離式隧道,事故數據采集時間為2014年8月至2017年底,共計496起事故,具體分布如表3所示。以上述事故數據為樣本,將篩選的4組36個自變量作為模型參數,采用不同模型分別對事故形態、嚴重程度、傷亡情況和持續時間進行預測。

表2 自變量篩選及賦值
表3秦嶺公路隧道交通事故統計數據
Table 3 Statistical data of traffic accidents of Qinling Highway Tunnel group

年份交通事故數20143520151012016208201752
采用Matlab隨機函數將收集到的496起事故數據隨機分為2部分,依次作為訓練集和測試集,對數據進行反復迭代得出預測準確率,連續5次運行模型程序,取其平均值作為最終準確率,以預測結果的準確率對不同模型進行評價。準確率計算公式如下:
(2)
式中: accuracy為模型預測準確率; length(predict=text label)為預測準確個數; length(text label)為訓練集個數。
3.1.1 樸素貝葉斯模型
采用貝葉斯模型分別計算各事故形態的發生概率,選擇最高概率結果所對應的形態作為預測結果,并與實際事故形態進行對比,計算預測準確率。部分貝葉斯模型事故形態預測結果如表4所示。

表4 貝葉斯模型事故形態預測結果
根據調查數據進行多次預測,計算得到樸素貝葉斯模型的預測準確率約為69%,標準差為0.92。
3.1.2 BP神經網絡模型
針對模型中的多項分類,激活函數選取Softmax函數,迭代次數設為30 000次,學習率為0.01,隱含層節點數為5,連續多次運行BP神經網絡模型程序,準確率見圖3。可知,模型的預測準確率平均值約為82.09%,標準差為1.38,模型訓練時間約為1 min。
3.1.3 隨機森林模型和支持向量機模型
將前文所選特征向量納入隨機森林模型和支持向量機模型,連續多次運行模型,預測準確率如圖4所示。隨機森林模型的預測準確率平均值約為84%,標準差為0.29; 支持向量機模型的預測準確率平均值約為71%,標準差為0.61。

圖3 BP神經網絡模型事故形態預測準確率
Fig. 3 Prediction accuracy of accident form by BP neural network model

圖4 隨機森林模型和支持向量機模型事故形態預測準確率
Fig. 4 Prediction accuracy of accident form by random forest model and support vector machine model
將以上模型進行對比分析,綜合考慮預測模型的準確率與穩定性,不難看出隨機森林模型最適合對公路隧道交通事故形態進行預測。
公路隧道交通事故嚴重程度的準確預測對快速救援與交通疏導意義重大,對于損失巨大且傷亡慘重的重大及特大交通事故的預測一直都是預測工作的重中之重,在進行模型選擇時需重點考慮大型事故預測的準確程度。參照我國《道路交通事故處理辦法》及公安部頒布的交通事故分類方法,將事故嚴重程度分為4類,如表5所示。預測模型訓練集與測試集的構建與前文相同,不同模型預測準確率結果統計如表6所示。
由表6可知: 隨機森林模型在預測輕微事故時準確率最高,但對一般、重大和特大事故的預測較為困難。貝葉斯模型在預測輕微事故時準確率雖不及其他模型,但其對一般和重大事故的預測準確率較高,而且貝葉斯模型對小樣本量數據的預測較為擅長。因此,在進行公路隧道交通事故嚴重程度預測時可優先考慮貝葉斯模型。

表5 事故嚴重程度分類

表6 不同模型事故嚴重程度預測準確率
采用4大智能模型分別對傷亡情況進行預測,預測準確率結果統計如表7所示。由于傷亡事故數據樣本量較小,模型在運行時表現稍顯不佳,準確率相對較低。其中,BP神經網絡模型共預測到6次傷亡事故,準確率為50%,但結合實際發生的32起傷亡事故,其預測成功率僅為9%;貝葉斯模型的準確率雖然較低,但預測成功率達到了40%,考慮傷亡最小化原則,選擇貝葉斯模型作為公路隧道交通事故傷亡情況預測模型。
交通事故持續時間指的是從交通事故發生到交通恢復正常的總時間,可劃分為事故檢測響應階段、事故清除階段及交通恢復階段3個階段,通常采用事故響應處理時間與擁堵消散時間2個指標來描述事故路段擁堵的時間影響。擁堵持續時間即為事故響應處理時間與擁堵消散時間之和[14],因此,本文采用擁堵持續時間代替交通事故持續時間作為因變量。

表7 不同模型事故傷亡情況預測準確率
圖5為BP神經網絡模型對事故持續時間的預測結果圖。可以看出,預測值與實際值的起伏趨勢大致相似,20~50 min期間的預測值相對較為準確,而其他時間段預測值誤差極大。

圖5 BP神經網絡模型事故持續時間預測結果
Fig. 5 Prediction results of accident duration by BP neural network model
圖6為隨機森林模型對事故持續時間的預測結果圖。可以明顯看出,預測值和實際值的吻合程度較高,特別是持續時間較長時,預測結果誤差依舊較小。

圖6 隨機森林模型事故持續時間預測結果
Fig. 6 Prediction results of accident duration by random forest model
圖7為支持向量機模型對事故持續時間的預測結果圖。圖中預測結果誤差明顯過大,不予考慮。BP神經網絡模型和隨機森林模型的預測準確率對比結果如圖8所示。可見,隨機森林模型最適宜于對交通持續時間進行預測。

圖7 支持向量機模型事故持續時間預測結果
Fig. 7 Prediction results of accident duration by support vector machine model

圖8 BP神經網絡模型和隨機森林模型事故持續時間預測準確率
Fig. 8 Prediction accuracy of accident duration by BP neural network model and random forest model
1)隨機森林模型在預測公路隧道交通事故形態時最為可靠,準確率約為84%;
2)貝葉斯模型對重大或特大事故的預測準確率高達50%,在對公路隧道交通事故嚴重程度和傷亡情況進行預測時可優先考慮;
3)使用隨機森林模型預測公路隧道交通事故持續時間,絕對誤差為20 min時模型準確率將超過70%;
4)由于事故數據的局限性,在進行傷亡情況預測時模型表現不佳,今后工作中應盡可能開展數量更多、區域更廣、持續時間更長的數據搜集工作。