許宏科,趙 威,楊 孟,林 杉,劉冬偉
(1. 長安大學電子與控制工程學院,陜西 西安710064; 2. 招商局重慶交通科研設計院有限公司,重慶40067)
截至2018 年底,我國的高速公路總里程已達14.26 萬km[1]。 隨著高速公路網基本形成以及機動車保有量增加,由此帶來的交通事故頻發問題成為大眾關注的焦點。 目前,已有許多有效的模型與方法應用于交通事故持續時間預測的研究,早期的主要算法有概率分布[2],回歸分析[3],時間序列[4],模糊模型[5]等。 Wang 等[6]針對不同類型的事故類型,采用偏最小二乘回歸(PLSR)建立了事故持續時間與影響因素之間的模型,并通過一個不區分事故類型的模型作為對比;Junhua 等[7]提出基于生存分析和對數邏輯分布的加速失效時間模型,可以接受不同分布的缺失數據并準確預測事故持續時間;馬阿瑾[8]總結性地闡述了交通事故時空影響分析的相關理論基礎,分別針對不同階段建立報警方式分類法、決策樹法、交通波理論和排隊論,將各個階段的預測時間總和作為交通事故持續時間;陳建軍等[9]總結了預測事故持續時間的過程,詳細地介紹了數據收集、數據處理、模型建立步驟,提出了基于條件概率的生存分析事故持續時間預測方法,最終通過得到的累積結束概率圖,來反映事故持續時間的預測值和對應的預測概率。 傳統的方法為交通事故持續時間預測提供了研究思路,但由于模型自身特點導致預測的范圍和精度有限。 隨著交通流理論和人工智能新技術的發展,越來越多的交通事故持續時間預測模型被提出,如決策樹模型[10],貝葉斯網絡模型[11-12],支持向量機[13-14],人工神經網絡[15-16]。 Ahmad 等[17]為了識別和量化影響因素的影響,提出了一種基于“綜合數據庫”歷史數據研究事故持續時間的方法,建立了參數化加速故障時間生存模型,總結出事故持續時間的因素包括事故特征(嚴重程度、類型、傷害、醫療需求等)、基礎設施特征(道路肩的可用性)、一天中的時間和交通特征;趙蕾[18]構建以C4.5 算法為核心的決策樹模型來預測事故延遲時間, 構建基于動態空間占有率的車流波模型來預測交通恢復時間,在不同交通環境及交通狀態下可對交通事故延誤進行估計。綜上所述,目前的交通事故持續時間預測方法大都側重于追求預測精度,極大地增加了模型的復雜度,而實時的持續時間預測才能對事故處理具有指導作用。
針對現有交通事故持續時間預測方法的局限,提出因子分析和BP 神經網絡相結合的方法,通過因子分析法簡化預測指標個數,得到公共因子,從而用較少的公共因子代替較多的原始數據。 進一步將公共因子作為BP 神經網絡結構的輸入層參數,簡化了預測模型的結構,提高了模型的迭代速度和運算效率。 真實的交通事故數據測試結果表明,與經典的交通事故持續時間預測模型相比,本文提出的預測模型預測準確率更高,是一種準確、合理的交通事故持續時間預測模型。
本文涉及的高速公路交通事故主要是指造成高速公路交通流狀態異常的交通事件,不考慮高速公路定期維修、基礎建設、計劃性改造等非緊急事件的影響。
高速公路交通事故持續時間是指從交通事故發生到恢復交通整個過程的時間,主要由事故發現,事故響應、事故清除和交通恢復時間4 個階段組成,如圖1 所示。 前3 個階段的總時間表示事故延遲時間,主要受事故檢測能力和事故清除效率的影響。 交通恢復階段是不可控的變量,不僅受到事故發生期間道路交通狀況的影響,還與事故的形態等級、天氣等因素有關。 本文從時間信息、路段信息、事故信息和環境角度考慮影響因素,主要包括交通事故總量及其類型分布、時間、地點、環境、車輛類型、事故原因、特征及造成損失等影響因素。
本文采用因子分析法對交通事故持續時間初始影響因素進行篩選,因子分析法是通過研究多個變量間協方差矩陣的內部依賴關系,找出能綜合所有變量主要信息的少數幾個不可觀測的隨機變量。 這些隨機變量稱為因子,各個因子間互不相關,所有的變量都可以表示成為公因子的線性組合。
將高速公路交通事故持續時間的影響因素作為初始變量,通過因子分析法減少變量的數目,用較少的公共因子代替所有變量去分析整個問題,在不影響最終預測結果準確性的同時,簡化了網絡結構和提高了運算效率。其計算過程可以分為四個步驟,設n 為交通事故數據樣本總數,p 為影響因素個數,m 為公共因子個數,X 為總影響因素矩陣,F 為公共因子矩陣,具體原理及步驟如下:
第一步:計算總影響因素矩陣的協方差矩陣R,并計算協方差矩陣的特征根,同時計算特征根對應的特征向量γ1,γ2,…,γp

第三步:建立因子得分模型

其中:εi為特殊因子,表示公因子以外的影響因素所導致的變量差異,實際分析時忽略不計。
第四步:通過回歸估計等方法,求解因子得分模型,可解出公因子矩陣F 的表達式

其中:(bij)p×m為因子得分系數,實現總影響因素矩陣X 和公共因子矩陣F 的轉換。
BP 神經網絡算法也稱為誤差逆傳播算法。 它采用梯度下降策略,能夠根據預設的參數更新規則,不斷調整網絡中的參數,以達到最符合期望的輸出?;诟倪MBP 神經網絡進行交通事故持續時間預測的過程如下:
輸入:交通事故影響因素數據集;輸入樣本數n;誤差函數E;計算精度值ε;最大學習次數M;學習率η 。輸出:交通事故持續時間。
1) 原始影響因素的采集和預處理,將影響因素數值化得到影響因素數據集D;
2) 采用min-max 標準化方法對影響因素數據集D 進行標準化,得到影響因素矩陣X;
3) 利用因子分析對影響因素矩陣X 進行指標提取,生成影響因素的公共因子矩陣F;
4) for i=1 to M or E>ε,重復執行(a) (e):
(a) 網絡初始化過程,給各連接權重和偏置分別賦一個(0,1)之間的隨機數;
(b) 將公共因子矩陣F 作為網絡的輸入,依次分別計算隱藏層和輸出層的輸出值;
(c) 根據誤差函數E 來進行誤差的計算,如果誤差滿足要求,則跳出循環,否則進行步驟(d);
(d) 誤差反向傳播過程,使用梯度下降策略依次對輸出層單元和隱藏層單元的權值進行更新;
(e) 返回步驟(4),開始下一個循環。
5) 迭代結束,得到最優的模型參數,進行交通事故持續時間預測。
在數據標準化過程中,采用min-max 方法,其表達式如下

式中:xi為第i 個交通事故影響因素標準化后的值;di為第i 個原始的影響因素的值;dmin為原始數據中的最小值;dmax為原始數據中的最大值。

BP 神經網絡中的誤差函數選擇均方誤差,其表達式如下式中:yk為期望輸出的交通事故持續時間;ok為預測網絡輸出的持續時間。
將預測結果的誤差作為模型評價指標,本文選擇常用的均方誤差(RMSE)、平均絕對誤差(MAE)和準確率(ACC)作為評價指標,具體定義如下

式中:n 為預測樣本數;yi為樣本預測值;yi為樣本真實值。
研究數據來源于包茂高速陜西省西安—延安高速公路路網交通時間管理系統, 選取2016 年1 月至2017 年11 月近兩年來的153 個交通事故數據,其中前120 條數據用于BP 神經網絡預測模型的訓練,后33條數據用于對訓練的模型進行測試。每組交通事故數據由交通事故的持續時間和影響交通事故持續時間的12 個相關影響因素組成,這些影響因素主要包括事故信息、路段信息、時間信息、環境信息。數據經過預處理后,作為各影響因素的原始數據,變量選取及其含義見表1。

表1 變量選取及其含義Tab.1 Variable selection and its meaning
3.2.1 因子分析及數據標準化
通過SPSS 對交通事故持續時間影響因素的數據進行因子分析。 由Bartlett 檢驗可以看出,獨立顯著性因子(Sig.)的值為0.001,應該拒絕各變量獨立的假設,即認為變量間具有較強的相關性。得到的KMO 檢驗統計量為0.725,說明變量間相關性較強,也證明因子分析可行,Bartlett 和KMO 的檢驗結果見表2。 按照特征根大于1 的默認指標提取了6 個公因子,將公因子進行標準化處理,作為BP 神經網絡預測的輸入數據。

表2 Bartlett 和KMO 的檢驗結果Tab.2 Results of Bartlett and KMO
3.2.2 網絡的建立
預測模型結構設置為3 層, 將通過因子分析得到的6 個公共因子代替原有12 個交通事故持續時間影響因素作為BP 神經網絡輸入層參數,將交通事故持續時間以15 min 為一個單位作為輸出層參數。

3.2.3 仿真訓練
設置BP 神經網絡的學習效率為0.01,神經網絡的訓練精度為1×1012,最大的學習次數為1 000 次,基于TensorFlow 環境進行仿真。 經過訓練后的BP 神經網絡模型對高速公路交通事故持續時間進行預測,預測結果如圖2 所示。 從圖2 中可以看出,交通事故持續時間預測值與實際值吻合度較高,表明本文所提出的預測模型應用于實際交通事故持續時間預測中具有可行性。
作為對比,本文還建立了經典的回歸模型和支持向量機模型,用同樣的訓練樣本對回歸模型和支持向量機模型進行訓練和測試。 將BP 神經網絡預測模型與回歸模型、支持向量機模型的各類誤差指標進行對比,評價對比結果見表3。 從表3 可以看出,改進的BP 神經網絡預測模型在預測精度方面明顯優于支持向量機模型和回歸模型。 其中,基于改進BP 神經網絡的MAE、ACC 值分別為0.85 和11.99%,均低于支持向量機和回歸模型,RMSE 的值與支持向量機相近,但明顯低于回歸模型,預測準確率比支持向量機提高了7.8%。 總體來說,該模型是較好的交通事故持續時間預測方法,具有較高的準確性和較好的實用性。

圖2 交通事故持續時間預測結果Fig.2 Prediction results of traffic accident duration

表3 預測模型結果分析Tab.3 Analysis of prediction model results
1) 構建了因子分析與BP 神經網絡相結合的預測模型,通過因子分析對原始數據進行降維,將標準化后的公共因子作為BP 神經網絡的輸入層參數,簡化了預測模型的結構,提高了模型的迭代速度和數據處理效率。
2) 采用本文提出的神經網絡預測方法對包茂高速西延段交通事故持續時間進行預測,預測結果表明,該模型算法結構簡單,性能優異,綜合預測性能優于典型的支持向量機和回歸模型,具有較高的準確率和參考性。