成 衛,馬銘煒,張小龍
(1. 昆明理工大學 交通工程學院,云南 昆明 650504; 2. 通號智慧城市研究設計院有限公司,北京 100071)
隨著我國高速公路的不斷發展,截至2020年底,中國高速公路總里程已達16萬km,位居全球第一。高速公路運輸已經成為我國陸運的主要手段。同時,伴隨著我國汽車保有量的逐年增長,高速公路交通負荷指數上升,導致高速公路的行車風險大大增加,嚴重影響交通安全,作為承載快速運動和大交通流的道路載體,其交通安全問題是交通管理的核心問題之一[1]。面臨如此嚴峻的高速公路安全[2]形勢,有必要通過分析事故數據,調查事故嚴重程度與其相關風險因素之間的關系,構建事故嚴重程度預測模型。通常,事故嚴重程度被認為與一系列風險因素(人、車、道路、環境)相關。了解這些影響因素如何導致事故嚴重程度的增加,有助于探索傷害模式并能夠基于例證來改進安全措施,為交管部門制定事前安全預防措施提供理論依據,為其事后啟動應急預案提供技術依據,加快事故響應速度,減小事故發生帶來的后時空影響。
近年來,對于交通事故影響因素的研究成為學者們關注的重點,從“人-車-路-環境”出發,多維度、多角度地研究交通事故影響因素和事故嚴重程度的關系對于交通安全有重要的研究意義。針對事故影響因素研究方面,裴玉龍等[3]從道路因素出發,分析了道路平面、縱斷面、橫斷面和交叉口在不同參數設置下對交通事故的影響;李文權等[4]利用國內外交通事故數據對事故發生的時間分布規律方面進行了研究,首次從科研、教育、管理和工程措施方面對交通安全提出建議;趙金寶等[5]研究了車輛類型、事故地點和交通參與者等因素對道路交通事故的影響。但是上述研究未對事故嚴重程度進行預測。在事故嚴重程度致因研究方面,馬壯林等[6]基于Logistic回歸模型研究了交通動態情況、隧道情況和時間等因素對交通事故嚴重程度的影響,為回歸模型在事故嚴重程度預測領域奠定了基礎;K. BUCSUHZY等[7]研究了人為因素對事故嚴重程度的影響,包括了交通參與者的身心狀況、駕駛行為、不同年齡等因素;L. N. LIYANAGE等[8]研究了駕駛者年齡、性別和是否飲酒等方面對事故嚴重程度的影響;R.TAMAKLOE等[9]對不同路面和光照條件在工作日和周末發生交通事故的嚴重程度進行了對比分析;戢曉峰等[10]基于有序Logit建立了平縱組合路段事故嚴重程度識別模型。但這些研究從單一維度出發,受限于利用少量候選預測因子和關注特定問題。因此,需要使用包括大量變量的更全面的數據集,以揭示不同影響因素之間潛在的耦合關系。對于多因素方面的研究,MA Zhengjing[11]等綜合多種影響因素構建了交通事故嚴重程度預測深度學習模型;WEN Huiying等[12]建立了隨機效應廣義有序probit模型,針對云南山區高速公路,分析了駕駛員性別、年齡、天氣情況、車輛類型、交通量等因素對兩類駕駛員事故嚴重程度的影響; 賀玉龍等[13]從事故信息中篩選出7項重要指標建立了基于未確知測度理論的高速公路交通安全評價模型,以此評價路段危險程度;劉海珠[14]采用累積Logistic回歸模型研究了15個影響因素對交通事故嚴重程度的影響;陳昭明等[15]建立了基于混合Logit模型的高速公路交通事故嚴重程度分析模型,研究了35種變量對事故嚴重程度的影響,取得了很好的效果。但是大多研究沒有考慮到數據的缺失和不平衡問題。
綜上所述,大多學者對交通事故影響因素的研究主要從單一因素入手(例如特定事故、特定道路、特定環境條件等),主要原因可能是為了創建一組同質性數據,便于研究,僅少數研究考慮了多種因素的影響。但由于部分因素(交通參與者的性別、年齡對事故嚴重程度是否有顯著影響)還存在爭議,且事故變量隨機性較強,不同路段不同情況下相同變量也存在異質性(例如駕駛員年齡這一因素在不同事故中表現出不同程度的影響)[16]。另外,現有研究大多集中在二項式事故嚴重程度上,這也會限制從數據中提取有用信息。針對這些情況,建立合適有效的事故預測模型是越來越多學者研究的目的。
為了綜合考量多種因素對高速公路交通事故嚴重程度的影響,同時考慮到機器學習方法容易造成過擬合問題和變量的異質性問題,筆者采用優于傳統貝葉斯方法的樹增廣型貝葉斯方法構建網絡模型,再結合專家知識優化模型網絡(即數據融合法),對事故數據進行研究,建立事故嚴重程度預測模型,找出事故主要致因并進行推理分析,為交管部門作出相應安全決策提供支撐。
貝葉斯網絡是一種基于概率論的能夠很好地表示各個因素之間關系的圖形化網絡,是由若干父節點和子節點以及它們之間的有向鏈接組成的有向無環圖(directed acyclic graph,DAG)。貝葉斯網絡通過條件概率表達變量之間的影響關系,適用于解決多種不確定性問題,是目前用于推理領域最有效的理論模型之一。樹增廣型貝葉斯方法(TAN)優于傳統貝葉斯方法,它提供了一個類似樹的模型。傳統貝葉斯方法認為,除目標變量外其他所有變量是互相獨立的,用該假設限制網絡模型,而實際應用中,不同變量之間并不是相互獨立的。樹增廣型貝葉斯方法考慮的子節點之間可能的影響關系,比傳統方法,其具有良好的魯棒性及更高的準確率。如圖1,在樹增廣型貝葉斯網絡中,節點C為節點a1、a2、a3的父節點,由有向邊相連。此外,a1、a2、a3之間由有向邊相連并形成樹,節點ai到節點aj之間的有向弧表示輸入變量ai對輸出變量C的影響作用不僅取決于變量自身,還取決于變量aj。自變量之間有互相的影響依賴關系,被稱為互信息,互信息函數可以由式(1)進行計算:

圖1 貝葉斯網絡Fig. 1 Bayesian network
(1)
貝葉斯網絡的結構學習[17]主要有3種方法:
1)專家經驗法。基于專家知識和經驗,結合研究對象本身確定貝葉斯網絡的節點,綜合專家打分情況確定網絡結構。其缺點是網絡結構缺乏樣本數據進行分析對照,有效性稍有欠缺。
2)數據驅動法。包括條件獨立和搜索評分兩種方法,通過算法對事故樣本數據集進行學習,發現變量間的依賴關系,從而建立符合樣本集的網絡結構。其缺點是對樣本數據集要求較高,需要完備且真實的數據集。變量多時,計算比較復雜,消耗時間長且得到的結果不夠精確,無法準確反映變量之間的真實依賴關系,存在不符合建模和實際經驗的節點。
3)數據融合法。基于前兩種方法的結合,能很好地彌補前兩種方法的缺點,得到的網絡結構能夠很好地反應變量之間的關系,在保證有效性的同時又能與數據集相互對照,模型真實且可靠。筆者采用數據融合法進行貝葉斯網絡的結構學習,因數據集較為完整,采用搜索評分法尋找評分最優的網絡結構,評分函數利用BDeu評分,網絡結構尋優用爬山算法進行搜索。基于搜索評分的方法將貝葉斯網絡的結構學習看作一種組合優化的問題,通過確定網絡結構的評分函數,利用算法搜索尋找最優網絡結構,可定義為優化模型:
M=(G,Ω,F)
(2)
式中:G為樣本數據集D中所有變量間可能的連接關系的網絡結構集;Ω為組合優化過程中需要滿足的約束條件集;F為評分函數。
當M為最大值時,得到的網絡結構即為最優網絡結構。
評分函數有兩大類:一是基于貝葉斯的評分函數,主要包括BD評分、K2評分[18]、BDeu評分等;二是基于信息論的評分函數,主要包括MDL評分、AIC評分、MIT評分等。筆者采用基于貝葉斯的評分函數,該方法將尋優過程看作一個MAP(最大后驗概率估計)問題:
(3)
式中:P(G|D)為后驗概率;G*為最優結構。若G的先驗概率為P(G),根據貝葉斯公式得:
(4)
P(G,D)=P(D)P(G|D)=P(G)P(D|G)
(5)
因為P(D)是已知的,與P(G)無依賴關系,則P(G|D)可轉換為:
logP(G,D)=logP(D|G)+logP(G)
(6)
最優網絡結構可表示為:
G*=arglogP(D|G)+logP(G)
(7)
對式(4)兩邊取對數可得到:
(8)
式中:P(D|G,θG)為模型關于數據的似然函數L(G,θG|D)。假設模型參數的先驗分布P(θG|G)服從參數為aijk的Dirichlet分布,在給定樣本數據集D后,得到BD評分:
(9)
當結構的先驗分布為均勻分布時,logP(G)=0。假設參數aijk=1,則BD評分轉化為K2評分:
fK2(G,D)=logP(G)+
(10)
fBDeu(G,D)=logP(G)+
(11)
通過對給定的貝葉斯網絡結構進行參數學習,量化節點之間的影響關系,確定各節點變量的條件概率分布(CPD),輸出條件概率分布表(CPT)。參數學習方法主要包括極大似然估計法和貝葉斯估計法。筆者采用貝葉斯估計法算出后驗概率,該方法考慮了先驗知識的影響,相比于極大似然估計法,其合理性更強。貝葉斯估計法基于貝葉斯原理,根據樣本數據及貝葉斯公式計算出后驗分布,即參數學習結果。首先取θ表示所有參數組成的向量,P(θ)為θ的先驗分布,給定一個樣本數據集D,則參數θ的后驗概率可以表示為P(θ|D)。為了減少計算的復雜程度,筆者采用Dirichlet分布,利用貝葉斯公式推理,后驗概率P(θ|D)為:
(12)


(13)
收集曲靖市境內滬昆高速公路段2017—2019年的1 939起交通事故報告數據,剔除無效數據后,保留有效的1 500起高速公路交通事故數據進行研究。研究因變量為事故嚴重程度,將其按事故后果分為3類:輕微事故、一般事故、重大事故,分別賦值為1、2、3(因無特大事故,所以不進行單獨分類研究),如表1。根據數據分析篩選得到19個高速公路交通事故嚴重程度的影響因素,將其作為自變量進行研究,如表2。但是實際數據中一般事故有1 038起,占比69.2%,導致數據樣本分布極不均衡。為保證輸出結果的合理性和真實性,采用SMOTE過(欠)采樣算法對事故數據樣本進行均衡處理,將處理后的數據進行隨機排列,并按照3∶1劃分訓練集與測試集,用于后續的貝葉斯網絡模型計算,總體層次結構如圖2。

表1 模型因變量設置及離散化取值Table 1 Setting and discretization value of model dependent variable

表2 模型自變量設置及離散化取值Table 2 Setting and discretization value of model independent variable

圖2 模型構建及結果分析層次結構Fig. 2 Hierarchical structure diagram of model construction and result analysis
基于筆者收集的樣本信息充足,能夠較好地體現影響因素之間的關系,采用BDeu評分法進行評分,后用爬山算法進行搜索,尋找評分最優的網絡結構。初步得到的網絡結構如圖3,該網絡中明顯有不符合常識和專業知識的部分及無關節點,此時利用卡方檢驗篩選特征工程,并結合專家知識進行數據融合處理。基于初步網絡再對各個變量節點關系進行重新構建及排序,除去不符合建模經驗的節點及有向連接,剔除孤立的無關節點,得到最終的貝葉斯網絡,如圖4。其中由特征工程的篩選結果可知,對于事故嚴重程度這一變量來說,對其影響最大的是特征1(天氣情況);其次是特征2(視距情況);最后是特征3(路面情況)。直接影響事故嚴重程度的5個變量及其特征如表3。

表3 特征工程篩選結果Table 3 Future engineering screening results

圖3 初步貝葉斯網絡Fig. 3 Preliminary Bayesian network

圖4 高速公路交通事故嚴重程度貝葉斯網絡Fig. 4 Bayesian network of freeway traffic accident severity
經過優化的貝葉斯網絡保留了13個節點,它們之間的有向連接體現了變量間的相互影響,影響因素囊括了人、車、路、環境4個大類,事故嚴重程度的主要致因在貝葉斯網絡中得到了充分體現。由圖4可以看出,天氣情況、視距情況、路面情況、事故車輛數和車輛行駛方向這5個因素對事故嚴重程度有直接影響,其中天氣情況(X15)影響效果最為顯著,既直接影響了事故嚴重程度,又間接影響了駕駛員的視距情況和路面情況等其他因素。
根據結構學習的結果,筆者可以對網絡中的多種變量進行參數學習。根據互信息函數計算輸出具體參數學習結果。由于數據量較多,只列出當車輛事故數、天氣情況、視距情況取值均為1時事故嚴重程度的條件概率分布(表4),即當事故車輛數、天氣情況、視距情況、路面情況、車輛行駛方向離散化取值均為1時,事故嚴重程度取值為1(輕微事故)的概率為0.243 71,取值為2(一般事故)的概率為0.756 21,取值為3(重大事故)的概率為0.000 07,其余項以此類推。

表4 事故嚴重程度的參數學習結果Table 4 Parametric learning results of accident severity
為了驗證貝葉斯網絡模型的有效性,對訓練集和測試集進行對比,如圖5。同時,輸出模型在測試集上的混淆矩陣,模型命中率如圖6。由圖6可知:對事故嚴重程度真實值為1且預測值亦為1的有94個,預測值為2的有27個,預測值為3的有0個;對第1類輕微事故預測的準確率為77.68%,對第2類一般事故預測的準確率為74.19%;對第3類重大事故預測的準確率為100%。再將實際概率與后驗概率進行誤差分析,通過分析對比發現,輕微事故、一般事故、重大事故的概率分布最大絕對誤差分別為0.000 04、0.000 04、0.000 06,如圖7~圖9。再通過參數學習模型對測試數據集進行測試,準確率約為84.27%。G.F.COOPER等[19]指出, 當模型正確率達到80%以上就認為該模型預測效果良好。同時,與傳統貝葉斯方法相比,該模型有更好的準確率和更低的誤分類率,如表5。綜上說明,該模型有效性驗證良好。

表5 模型比較Table 5 Model comparison

圖5 事故嚴重程度預測值與真實值對比Fig. 5 Comparison between the predicted value and the true value of accident severity

圖7 輕微事故的誤差分布Fig. 7 Error distribution of minor accidents

圖8 一般事故的誤差分布Fig. 8 Error distribution of general accidents

圖9 重大事故的誤差分布Fig. 9 Error distribution of major accidents
天氣情況對事故嚴重程度的影響最大,且間接影響范圍最廣。根據事故報告可得出,在雨、雪天氣情況下,路面受到影響變得濕滑,不利于高速行車,駕駛員的視距也會受到嚴重影響,惡劣情況下還會影響駕駛員的心理素質,進而對駕駛行為造成一定程度的干擾,導致了交通事故的發生。由于路面情況較差,事故發生時駕駛員會完全失去對車輛的掌控,失控車輛的滑動軌跡也不同于正常情況,這樣的情況下極容易發生重大、特大事故。天氣情況與事故嚴重程度的關系如圖10。由圖10可知,雨雪天氣更容易造成重大事故的發生。

圖10 天氣情況-事故嚴重程度分布Fig. 10 Weather conditions-distribution of accident severity
駕駛員在高速行車時,由于車速較快,在視距情況受到干擾時,無法對前方路況進行很好地判斷,操作反應時間大大縮短,往往在察覺到危險情況時已經來不及避讓,從而發生較為嚴重的事故。視距情況與事故嚴重程度的關系如圖11。由圖11可知,重大事故在視距情況較差時更容易發生。

圖11 視距情況-事故嚴重程度分布Fig. 11 Sight distance-distribution of accident severity
路面情況作為主要致因之一,其影響主要在于干擾了車輛的行駛狀態,間接干擾了駕駛員的操作行為,使車輛失控而發生交通事故。路面情況與事故嚴重程度的關系如圖12。由圖12可知,路面情況較差時往往有重大事故發生。

圖12 路面情況-事故嚴重程度分布Fig. 12 Pavement condition-distribution of accident severity
1)高速公路交通事故的發生受到人-車-路-環境這一復雜系統的影響,事故影響因素之間均存在一定依賴關系。通過收集大量的高速公路事故案例進行研究,基于貝葉斯網絡構建了考慮多因素下的高速公路交通事故嚴重程度預測模型。與傳統貝葉斯模型相比,樹增廣型貝葉斯模型對高速公路交通事故嚴重程度的預測準確率可達84.27%,能夠很好地預測高速公路交通事故嚴重程度,模型通過驗證具有良好的準確率,有很好的可靠性。
2)貝葉斯網絡推理結果表明,影響高速公路交通事故嚴重程度的主要致因依次為天氣情況、視距情況、路面情況。圍繞這幾個主要致因,交管部門可以據此完善和改進高速公路的安全策略,有針對性地采取措施,例如在事故多發路段前的LED屏警示駕駛者;對關鍵路段進行實時監控;定時路段巡邏,觀察路面情況并及時清障;在夜間駕駛視距不好的路段加裝路燈及反光提示標志,保證高速公路行車安全。在事故發生后及時準確地判斷事故嚴重程度情況,有針對性的采取救援措施。從駕駛者的角度來說,需要培養綜合駕駛素質,定期參加有關高速公路駕駛安全知識的學習培訓,訓練提高對危險情況的判斷能力和反應能力,減少不必要事故的發生;掌握不同情況下的緊急操作,學習自救知識,降低高速公路交通事故的嚴重程度,保障自身安全。
3)高速公路交通事故由多種因素影響造成。由于研究數據有一定局限性,需要更全面完善的數據支持下一步的研究,考慮更多變量例如駕駛方式、碰撞方式、駕駛人的狀態及事故發生前短時間車輛運動軌跡等對事故的影響,或找到更加先進的事故預測模型,進而由事故后預測轉變為事故實時預測,再轉變為事前預警預測,才符合我國未來智能交通的發展方向。