摘 要:本文闡述了我國道路交通安全形勢,以及在此形勢下公路交通安全設施標準化的必要性,并提出一種新的數據分析方法, 其結合了數據挖掘領域中的多維關聯規則技術和概率統計學中的多元線性回歸模型, 充分發揮兩者的優點。在對大量交通事故記錄的方法進行分析中, 找出交通事故的發生規律,從中得出直觀的參數函數, 使得交通管理人員或城市規劃者能在交通管理中方便地運用這些函數, 不但可以對交通事故的產生做定量的分析, 還可以直觀地獲得改進建議,以預防道路交通事故的發生.
關鍵詞: 交通安全 數據挖掘 多維關聯規則 多元線性回歸
中圖分類號:U491 文獻標識碼:A 文章編號:1674-098X(2011)10(b)-0000-00
1 引言
20世紀以來,汽車工業在全球得到了快速發展,歐洲很多國家的汽車保有量大幅上升,城市交通中阻塞問題十分嚴重。私人轎車的廣泛使用導致城市區域交通中的道路擁擠、能源消耗、空氣污染、噪聲污染和交通安全等問題顯得更為嚴重,城市交通的規模復雜性特征、傳統交通控制方法的局限性及日臻成熟的人工智能技術的推廣應用正引發城市交通控制系統的又一次革命,智能交通系統作為解決實際巨型復雜系統問題的方法論,在城市交通管理與控制領域具有相當的應用潛力,因此成為近年來受人矚目的應用研究領域,并向產業化方向迅猛發展,而能否對已發生事故做出正確的分析將直接影響到能否對未來類似事故的成功避免。要完全消除道路交通事故是不現實的,從方法論的角度講,要從根本上減少交通事故的發生量和降低交通事故的嚴重程度,首先必須客觀、全面、科學的審視引發交通事故的原因,才能夠提出相應的對策并實現針對性的管理。本文剖析了各種因素在城市道路交通事故中的重要影響,借助數據挖掘領域中的多維關聯規則技術對交通事故記錄進行分析的同時, 又對分析結果使用多元線性回歸模型進行處理, 從而得到較為直觀的參數函數, 其使用方便, 能有效廣泛地運用在實際工作中, 為城市規劃和道路交通設計提供合理的建議, 從根源上消除交通隱患, 減少交通事故, 挽回經濟損失。
2 城市交通事故中因素分析
2.1 車輛因素
車輛是現代道路交通中的主要元素,影響汽車安全行駛的主要因素是轉向、制動、行駛和電氣四個部分。機動車在長期使用過程中處于各種各樣的環境,承受著各種應力,如外部的環境應力、內部功能應力和運動應力,以及汽車、總成、部件等由于結構和使用條件,如道路氣候、使用強度、行駛工況等的不同,汽車技術狀況參數將以不同規律和不同強度發生變化,或性能參數劣化,導致機動車的性能不佳、機件失靈或零部件損壞,最終成為造成道路交通事故的直接因素。
2.2 道路因素
道路是交通運輸的基礎設施,是影響道路交通安全的重要因素之一。道路建設逐步加大,公路里程增加,高等級公路增加幅度明顯,道路結構和交通條件日益改善,為道路交通安全改善打下了基礎。但是,在我國尤其是城市道路交通構成不合理,如下問題:
交通流中車型復雜,人車混行問題嚴重;
部分地方公共交通不發達,服務水平低,安全性差;
自行車交通比率大,非機動車與機動車和行人爭道搶行;
無效交通如私人車輛增加;
許多城市道路結構不合理,直線路段過長,道路景觀過于單調,容易使駕駛員產生疲勞,注意力分散,致使反應遲緩而肇事;
汽車的轉彎半徑過小,易發生側滑。
駕駛員的行車視距過小,視野盲區過大;
線形的驟變、“斷背”曲線等線形的不良組合,易使駕駛員產生錯覺;
路面狀況對交通安全影響也較大。有的道路的設計要求與實際運行狀況不協調;各地區道路線形、道路結構、道路設施不一,客觀上給過境車輛的駕駛員適應交通環境帶來難度;道路標志標線設置不科學、數量不足、設置不連續;道路周邊的環境建設和配套設施建設沒有與交通安全混為一體,設計標準和實際不協調.
在現實中,還有各種各樣的因素造成交通事故,我們只是列舉出主要因素.本文所采用的方法的數據模型是根據公安部目前使用的道路交通事故信息采集項目表建立的.
3算法介紹
挖掘關聯規則就是從數據集中找出支持度和置信度均大于等于指定的最小閥值的規則。一般包含兩個階段,第一階段要從原始的資料集合中搜集所有頻繁項集。項的集合稱為項集。包含k個項的項集稱為k-項集。項集的出現頻率即為項集的頻率。如果項集I的相對出現頻率大于等于預定義的最小支持度閾值,則I是頻繁項集,找到存在于事務數據庫中的所有頻繁項集,就是發現支持度大于用戶所設置的最小支持度的所有項;第二階段是在第一步基礎上,利用前一步驟的所有頻繁項集來產生規則。在最小可信度的條件限制下,若一規則所求得的可信度滿足最小可信度,稱此規則為關聯規則。相對第一階段而言,第二階段的問題比較容易解決。目前大多數研究主要集中在第一階段中,如何在海量信息中尋找最大頻繁項集,是數據挖掘過程中最耗時的部分。為了快速尋找最大頻繁項集,通常采用削減候選項集、減少掃描數據庫次數的方法和雙向搜索的方法結合起來運用。挖掘關聯規則的主要算法有Apriori算法、DIC算法、抽樣算法等。
我們把由關聯規則所得到的一租規則視為一組樣本集合,對其進行線性回歸分析,通過多元線性回歸可以找到多變量中的線性關系, 并通過參數函數直觀地表現出來, 而在大樣本的條件下則能得到更為理想的結果, 但工作量也呈幾何級數地增長。 同時樣本的質量對結果也有著很大的影響, 大量的噪音數據將使結果產生不可接受的誤差。
本文將兩者結合, 利用多維關聯規則對大數據進行分析,不僅有效地減少了樣本數, 而且消除了噪音數據和冗余數據, 使樣本更準確地反應事實; 利用多元線性回歸模型對關聯規則進行分析, 使得結果更直觀, 使用更為方便。
4 結束語
通過以上的分析研究,得出了一系列道路因素與交通事故特征的內在聯系規律。這些規律不但有助于更深刻地理解導致交通事故發生的根本原因,而且對道路設計改善以預防交通事故也有著積極的啟發作用。總體來講,交通事故是一個受多種因素作用的復雜社會現象。本文可以方便地運用函數來查看哪些客觀因素的組合更容易導致何種嚴重程度的交通事故,從而進行有效的,最終實現整個道路交通系統的安全和暢通。
參考文獻
[1] 景天然.城市道路條件與交通事故率的關系[J].同濟大學學報,1992, 20(3):335-340.
[2] 蔡 軍.交通事故發生規律與城市道路系統的規劃設計研究[J].中國安全科學學報, 2005,15(4):16-20.
[3] Li Xiong Fei, Yuan Sen Miao, Dong Li Yan, Research of Data MiningBased on Association Rule [J]. Natural Science Journal of Jilin University ofTechnology, 2000 Vol.30 No 2 P.43- 46
[4] 李雄飛, 李軍. 數據挖掘與知識發現[M]. 北京:高等教育出版社, 2003