徐 鵬,蔣 凱,王澤華,朱 正
(河海大學(xué)土木與交通學(xué)院,江蘇 南京210009)
基于粗糙集的道路交通事故客觀因素顯著性分析
徐 鵬,蔣 凱,王澤華,朱 正
(河海大學(xué)土木與交通學(xué)院,江蘇 南京210009)
道路交通事故數(shù)據(jù)龐大,傳統(tǒng)方法對(duì)交通事故客觀因素的分析較為原始和平面,沒有充分挖掘數(shù)據(jù)之間的潛在聯(lián)系,且運(yùn)用傳統(tǒng)的方法分析大量交通數(shù)據(jù)較為困難,所以當(dāng)今通過數(shù)據(jù)挖掘技術(shù)從大量交通事故數(shù)據(jù)中挖掘出有聯(lián)系和價(jià)值的信息已成為交通安全領(lǐng)域的熱點(diǎn)研究問題。針對(duì)傳統(tǒng)事故數(shù)據(jù)統(tǒng)計(jì)分析方法的不足,以交通事故數(shù)據(jù)為基礎(chǔ),建立一種基于粗糙集理論的新型數(shù)值模型。通過此數(shù)值模型從大量交通事故數(shù)據(jù)中挖掘分析事故客觀因素,以客觀因素顯著性計(jì)算結(jié)果為數(shù)值依據(jù)將各客觀因素排序,得出各客觀因素對(duì)交通事故影響作用大小不同的結(jié)論,為以后相關(guān)部門交通安全政策的制定提供依據(jù)。
交通安全;數(shù)據(jù)挖掘;客觀因素分析;顯著性 ;粗糙集
機(jī)動(dòng)車保有量持續(xù)增長(zhǎng)且有關(guān)駕駛員不遵守交通規(guī)則,從而引發(fā)的交通事故越發(fā)頻繁。目前,公安機(jī)關(guān)已建立龐大的交通事故信息庫(kù),而在這些數(shù)據(jù)中存在著大量的且尚未被發(fā)現(xiàn)、存在潛在聯(lián)系的有價(jià)值數(shù)據(jù)。通過數(shù)據(jù)挖掘技術(shù)對(duì)大量交通事故數(shù)據(jù)進(jìn)行挖掘分析、已經(jīng)成為國(guó)內(nèi)外交通安全研究領(lǐng)域的熱點(diǎn)問題。然而我國(guó)相關(guān)部門目前對(duì)交通數(shù)據(jù)庫(kù)的分析還停留在較為簡(jiǎn)單,平面和原始的狀態(tài),僅僅對(duì)事故總起數(shù),人員傷亡數(shù)和直接經(jīng)濟(jì)財(cái)產(chǎn)損失等做宏觀統(tǒng)計(jì)。本文充分肯定了在交通事故中主觀因素的重要性,但交通事故整體特征以及與交通事故發(fā)生相關(guān)聯(lián)的客觀因素更加值得關(guān)注,通過建立數(shù)值模型從大量交通事故庫(kù)中挖掘分析道路交通事故客觀因素的顯著性,為相關(guān)交通部門下一步?jīng)Q策提供依據(jù),從而減少交通事故的發(fā)生。
數(shù)據(jù)挖掘最早于1989年ACM大會(huì)上提出的,是指從大量的數(shù)據(jù)中提取出隱藏在其中的、人們事先不知道的、潛在的有價(jià)值的信息和知識(shí)的過程。歐洲環(huán)境委員會(huì)(EEA)對(duì)洲內(nèi)各個(gè)國(guó)家的交通的數(shù)據(jù)情況搜集、分析和挖掘,使得交通管理部門對(duì)事故數(shù)據(jù)的處理變得更加系統(tǒng)[1]。美國(guó)運(yùn)輸研究管理中心通過交通事故數(shù)據(jù)庫(kù),并且與州際高速公路運(yùn)輸協(xié)會(huì)和公共運(yùn)輸標(biāo)準(zhǔn)委員會(huì)等機(jī)構(gòu)進(jìn)行合作,對(duì)國(guó)內(nèi)的汽車安全狀況做了翔實(shí)的統(tǒng)計(jì)分析,并運(yùn)用數(shù)據(jù)挖掘的技術(shù)對(duì)國(guó)內(nèi)的整體汽車安全水平進(jìn)行了評(píng)價(jià)[2]。肯塔基大學(xué)運(yùn)用數(shù)據(jù)挖掘技術(shù)開發(fā)出了事故自動(dòng)的采集系統(tǒng),總體上達(dá)到了事故的數(shù)據(jù)采集和事故數(shù)據(jù)處理相對(duì)集成化[3]。日本的工程研究協(xié)會(huì)運(yùn)用事故數(shù)據(jù)和地圖建立了與GIS相結(jié)合的事故分析系統(tǒng),對(duì)相關(guān)數(shù)據(jù)進(jìn)行了數(shù)據(jù)挖掘分析研究,并對(duì)北海道的交通事故狀況進(jìn)行了分析。綜上可見,歐洲、美國(guó)、日本等國(guó)家運(yùn)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)對(duì)交通事故數(shù)據(jù)進(jìn)行挖掘分析,除統(tǒng)計(jì)基本的參數(shù)外,更加注重這些數(shù)據(jù)之間的聯(lián)系以及交通事故的原因和影響因素,為相關(guān)部門進(jìn)一步管理和決策提供依據(jù)。
我國(guó)與國(guó)外在交通事故數(shù)據(jù)的處理和方案的制定方面還存在很大的差距,我國(guó)對(duì)事故數(shù)據(jù)仍然局限于平面分析,僅對(duì)事故總起數(shù)、傷亡人數(shù)、直接經(jīng)濟(jì)損失等相關(guān)指標(biāo)做宏觀統(tǒng)計(jì),并未運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)交通事故數(shù)據(jù)之間潛在聯(lián)系進(jìn)行挖掘研究分析,從而建立起交通事故影響因素之間的聯(lián)系。從WHO發(fā)布的交通事故報(bào)告可知,我國(guó)以交通事故27.3%的致死率,位居世界之首,可見我國(guó)由于缺乏對(duì)交通事故的進(jìn)一步具體分析,挖掘具體的原因,分析隱藏在數(shù)據(jù)背后的聯(lián)系,未能及時(shí)制定對(duì)應(yīng)的決策方案,成為我國(guó)事故死亡率居高不下原因之一。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中通過統(tǒng)計(jì)、在線分析處理、機(jī)器學(xué)習(xí)等許多方式,根據(jù)不完整信息挖掘出與之相關(guān)聯(lián)的信息,揭示隱藏在數(shù)據(jù)背后的規(guī)律,并可以對(duì)未來的趨勢(shì)進(jìn)行預(yù)測(cè)[4]。粗糙集理論已經(jīng)廣泛的應(yīng)用于其他領(lǐng)域,如機(jī)器學(xué)習(xí),決策分析等[5]。
1)知識(shí)表達(dá)系統(tǒng) 知識(shí)表達(dá)系統(tǒng)S可表示為S={U,B,V,F(xiàn)},U是論域,B=C∪D是屬性集合,條件屬性C與結(jié)果屬性D是子集[6]。知識(shí)表達(dá)系統(tǒng)在下面客觀因素挖掘分析案例中指的是事故總起數(shù)、客觀因素和事故類別構(gòu)成的整體。
2)上近似和下近似設(shè)X?U是任意一個(gè)子集,R是U上的等價(jià)關(guān)系,則上近似和下近似集可表示為:R(X)={X∈U,[x]R?U},(X)={X∈U,[x]R∩X≠?}。 上近似和下近似在論文中用于計(jì)算屬性子集的重要度。
3)決策表屬性依賴度 設(shè)C和D是屬性集合,C對(duì)于D的依賴度定義為:其中POSc(D)為D的C正域,為集合U的基數(shù)。 在實(shí)際案例分析研究中指的是事故客觀因素集對(duì)事故類別屬性集的分類相似度。
4)決策表屬性重要度 設(shè)b∈C,C是條件屬性集,D是決策屬性集,則b的屬性重要度是γC(D)-γC-b(D)。在實(shí)際分析案例中指的是某一個(gè)客觀因素相對(duì)于事故類別屬性集的顯著性。
本研究考慮到道路交通事故受許多客觀因素的影響,例如道路環(huán)境,事故發(fā)生時(shí)間段,車輛的顏色、型號(hào),車輛品牌,駕駛員的年齡,天氣情況,風(fēng)向和風(fēng)力,氣溫等,不同的客觀因素對(duì)交通事故的影響程度不同,本研究把這種影響程度的差異定義為事故客觀因素的顯著性。
交通事故客觀因素分析有明顯的對(duì)象性特征,即事故是以對(duì)象為基礎(chǔ)的,對(duì)于不同的對(duì)象,事故客觀因素顯著性也不相同。事故的類別也對(duì)道路交通事故客觀因素分析產(chǎn)生影響,對(duì)不同研究目標(biāo),客觀分析也可能具有不同顯著性[7]。
道路交通事故客觀因素分析的確是基于具體客觀因素而言,客觀因素顯著性也具有相對(duì)性,客觀因素顯著性還需要基于具體的客觀因素,各個(gè)客觀因素顯著性之間的比較是相對(duì)的。實(shí)際的客觀因素顯著性分析中,客觀因素還包括道路環(huán)境,車輛情況,駕駛員狀態(tài),天氣條件,溫度等。
基于上述客觀因素的特點(diǎn)分析,從而建立起客觀因素顯著性分析模型

式中:σci(D)為客觀因素Ci顯著性;Ci為事故客觀因素;U為事故分析的對(duì)象;D為事故類別屬性集合;C為事故客觀因素集合。
在現(xiàn)實(shí)的事故客觀因素顯著性分析中,在已知的客觀因素分析對(duì)象,事故類別屬性和客觀因素集合前提下,可基于原客觀因素顯著性分析模型,建立相應(yīng)的數(shù)學(xué)模型,用于對(duì)客觀因素顯著性進(jìn)行數(shù)值分析。
粗糙集理論認(rèn)為不同屬性對(duì)系統(tǒng)重要性有差異,各屬性重要性用重要度來表現(xiàn)。可根據(jù)去除該屬性,根據(jù)系統(tǒng)分類的差別大小來判斷該屬性的重要性。
假定{U,C∪D,V,F(xiàn)}是決策表,其中C和D為條件屬性集和決策屬性集,屬性子集C′?C,D的重要度為σCD(C′),見下式(1)[8]:

通過計(jì)算去除該條件屬性前后屬性度依賴度變化的幅度大小來判斷該屬性的重要程度。屬性重要度分析是基于兩基本條件的①明確的決策屬性集合②分析是基于多屬性集合而言的。運(yùn)用粗糙集來分析事故數(shù)據(jù)也滿足這兩條基本條件,所以通過粗糙集理論為基礎(chǔ)建立的數(shù)值模型來分析交通事故客觀因素的顯著性具有可行性。
運(yùn)用原理分析客觀因素的顯著性,從而建立起交通事故決策表{U,C∪D,V,F(xiàn)},對(duì)客觀因素Ci?C,由式(2)計(jì)算出客觀因素 Ci關(guān)于 D 的顯著性,見下式(2)[9]:

式中:γc(D)為 C 對(duì)于 D 分類相似度;γc-ci(D)為子集 C-Ci對(duì)于 D 分類相似度。

式中:card(POSc(D))為 C 對(duì) D 正域的基數(shù);card(U)為交通事故決策表集 U 的基數(shù);card(POSc-ci(D))為子集C-Ci對(duì)于D正域的基數(shù)。
以上述方法為根據(jù),可建立起交通事故因素顯著性分析的數(shù)值模型:

通過計(jì)算得出交通事故客觀因素顯著性數(shù)值,以各客觀因素?cái)?shù)值大小為依托,對(duì)各客觀因素進(jìn)行對(duì)比分析。
為了更加精煉的表達(dá)出基于粗糙集理論的事故客觀因素分析數(shù)值模型和方法,詳細(xì)的流程圖總結(jié)如圖1所示。

圖1 基于粗糙集理論的事故客觀因素分析流程圖Fig.1 Analysis flowchart of objective factors based on rough set theory
論文收集了貴陽市2015年1月1日——5月31日的道路交通事故數(shù)據(jù),交通事故數(shù)共計(jì)18 041條。以收集到的數(shù)據(jù)作為樣本,通過以數(shù)值模型來挖掘分析出事故的客觀因素顯著性。

表1 貴陽市2015年1月至5月交通事故組成Tab.1 Traffic accident composition in Guiyang City(from January to May,2015)
選取了事故數(shù)據(jù)中的 7 個(gè)事故屬性作為知識(shí)表達(dá)系統(tǒng)條件屬性 C,C={C1,C2,C3,C4,C5,C6,C7},其中C1為發(fā)生事故的時(shí)間段,C2為車輛的顏色,C3為車輛型號(hào),C4為駕駛員年齡,C5為天氣條件,C6為氣溫條件,C7為風(fēng)力,共同組成交通事故客觀因素集合。D是事故形態(tài)決策屬性,它構(gòu)成了事故類別的屬性集合。C1:1上午,2 中午,3 下午,4 晚上;C2:01白色,02銀色,03黑色,04紅色,05綠色,06黃色,07灰色,08藍(lán)色,09其他顏色;C3:1、別克,2、奧迪,3、寶來,4、寶馬,5、北京現(xiàn)代,6、比亞迪,7、賓利,8、東風(fēng)標(biāo)致,9、東風(fēng)日產(chǎn),10、豐田,11、福特,12、大眾,13、其他型號(hào);C4:1、青年(18-30 歲),2、壯年(30-40),3、中年(40-50),4、中老年(50-60),5、其他;C5:1、雨,2、雪,3、晴,4、多云,5、陰天,6、其他。C6:1、-1-5 度,2、5-10 度,3、10-15 度,4、15-20 度,5、20-25 度,6、25-30 度;C7:1、風(fēng)力?3 級(jí),2、其他。
在已經(jīng)確定了客觀因素和類別屬性集合后,然后建立起貴陽市的事故形態(tài)知識(shí)表達(dá)系統(tǒng),由于篇幅有限,僅僅摘錄5行數(shù)據(jù),見表2。

表2 交通事故形態(tài)知識(shí)表達(dá)系統(tǒng)Tab.2 Knowledge system of traffic accident morphology
在上述的貴陽市道路交通事故形態(tài)知識(shí)表達(dá)系統(tǒng)中,C是條件屬性,C={C1,C2,C3,C4,C5,C6,C7 },D為決策屬性,D={11,12,13,21,22,23,28,99 }, 該系統(tǒng)在此挖掘案例分析中表達(dá)的是客觀因素集決定的事故類別屬性集。
U 為論域,card(U)=18 041;POSc(D)為正域,card(POSc(D))=7 412。 則代入上述數(shù)值可得出客觀因素集C對(duì)類別屬性集D的分類相似度γc(D)=0.410 842;為了獲取條件屬性C對(duì)決策屬性D的顯著性,可以假設(shè)忽略條件屬性 Ci(i=1,2,3,4,5,6,7),則 C-Ci對(duì) D 的分類相似度為 γc-ci(D)。
計(jì)算知識(shí)表達(dá)系統(tǒng)中條件屬性 card(POSc-ci(D))(i=1,2,3,4,5,6,7)的值,得 card(POSc-c1(D))=3 756,card(POSc-c2(D))=4 638,card(POSc-c3(D))=4 992,card(POSc-c4(D))=4 168,card(POSc-c5(D))=5 341,card(POSc-c6(D))=5 487,card(POSc-c7(D))=6 459。 將屬性正域的結(jié)果代入公式即可得 γC-C1(D)=0.208 192,γC-C2(D)=0.257 081,γC-C3(D)=0.276 703,γC-C4(D)=0.231 029,γC-C5(D)=0.296 048,γC-C6(D)=0.304 141,γC-C7(D)=0.358 018。
由公式(2)計(jì)算出 σCi(D),σC1(D)=0.410 842-0.208 192=0.202 65,σC2(D)=0.410 842-0.257 081=0.153 761,σC3(D)=0.410 842-0.276 703=0.134 139,σC4(D)=0.410 842-0.231 029=0.179 813,σC5(D)=0.410 842-0.296 048=0.114 794,σC6(D)=0.410 842-0.304 141=0.106 701,σC7(D)=0.410 842-0.358 018=0.052 824。 按道路交通客觀因素顯著性的大小順序?qū)ι厦娴?7 個(gè)條件屬性依次排序:σC1(D)>σC4(D)>σC2(D)>σC3(D)>σC5(D)>σC6(D)>σC7(D)。
通過上面事故客觀因素顯著性分析并結(jié)合顯著性含義,可得到以下結(jié)論:
1)各客觀因素對(duì)事故影響作用大小有明顯的差異,即事故客觀因素有主次之分。根據(jù)計(jì)算所得出的結(jié)果,按影響因素從大到小的順序,將上面7個(gè)事故客觀因素排序如下:發(fā)生事故的時(shí)間段、駕駛員年齡、車輛的顏色、車輛型號(hào)、天氣條件、氣溫條件、風(fēng)力,如圖2所示。
2)各客觀因素對(duì)交通事故的影響大小與客觀因素的取值寬度無明顯相關(guān)關(guān)系,因?yàn)榭陀^因素顯著性是通過建立顯著性分析數(shù)值模型,以實(shí)際的交通事故數(shù)據(jù)為基礎(chǔ)進(jìn)行分析的,客觀因素顯著性與客觀因素取值寬度之間不相互影響。各客觀因素對(duì)交通事故的影響大小依次排序?yàn)椋喊l(fā)生事故的時(shí)間段、駕駛員年齡、車輛的顏色、車輛型號(hào)、天氣條件、氣溫條件、風(fēng)力大小,而與其對(duì)應(yīng)的取值寬度為:7,10,5,4,7,3,7,如下圖3所示。
3)通過本道路交通事故客觀因素挖掘分析的案例,研究發(fā)現(xiàn),發(fā)生事故的時(shí)間段和駕駛員的年齡這兩種客觀因素在交通事故中的影響作用最甚。交通管理部門可以采用限定道路的允許通行時(shí)間段的措施,盡可能避開多發(fā)事故時(shí)間段,將交通事故的發(fā)生起數(shù)降到最低??紤]到駕駛員年齡對(duì)交通事故的影響,必要時(shí)相關(guān)部門可以重新限定駕駛員的年齡上限或者延長(zhǎng)駕照培訓(xùn)考試的學(xué)時(shí),這樣也有助于減少交通事故的發(fā)生。本研究首先充分肯定了在交通事故中人的主觀因素是最根本的原因,但客觀因素同樣不可忽視。因此本研究通過對(duì)交通事故大數(shù)據(jù)進(jìn)行挖掘分析,為相關(guān)部門制定決策提供數(shù)據(jù)支撐,有一定的應(yīng)用型和目標(biāo)性。

圖2 客觀因素對(duì)事故影向作用Fig.2 Effect of objective factors width

圖3 客觀因素影響因素與取值寬度Fig.3 Influencing factors and value on the incident
本研究基于貴陽市的大量交通事故數(shù)據(jù),以數(shù)據(jù)挖掘里面的粗糙集為理論基礎(chǔ),建立一種新型事故客觀因素顯著性分析實(shí)用數(shù)值模型,挖掘分析了道路交通事故客觀因素的顯著性,得出不同客觀因素對(duì)交通事故影響作用不同的結(jié)論,解決了實(shí)際交通事故影響因素中具體客觀因素的重要度問題。相對(duì)于傳統(tǒng)的對(duì)交通事故數(shù)據(jù)庫(kù)的宏觀、較為平面的數(shù)據(jù)分析且將事故的發(fā)生簡(jiǎn)單歸結(jié)為人的因素,本研究提出的交通事故客觀因素顯著性分析數(shù)值模型,在沒有先驗(yàn)知識(shí)和事先主觀評(píng)價(jià)的條件下,利用實(shí)際的大量交通事故數(shù)據(jù),比較客觀的從數(shù)據(jù)中挖掘出其中隱含的規(guī)則,從眾多客觀因素中找出主要的交通事故影響因素,為相關(guān)部門作出及時(shí)的交通決策方案提供理論事實(shí)依據(jù)。
考慮到交通事故數(shù)據(jù)的不公開性,本研究只對(duì)簡(jiǎn)單的算例進(jìn)行試驗(yàn),今后還可以選取更多的客觀因素,例如道路的線形、照明設(shè)施條件、路面的類型等,因此上述模型和算法在交通事故客觀因素分析領(lǐng)域的實(shí)用性和合理性有待于更全面的交通事故數(shù)據(jù)的檢驗(yàn)。
[1]DER HORNG LEE,SHIN TING JENG,P CHANDRASEKAR.Applying data mining techniques for traffic incident analysis[J].Journal of The Institution of Engineers,2004,44(2):90-92.
[2]C FOREMAN,JR REY,C DEANNUNTIS.National transit bus accident data collection and analysis[J].Bus Transit Operations,2002,81(2):01-04.
[3]YANG XUE BING.A aigh efficent multi-dimensional association rules mining algorithm[J].Computer Development,2002,12(6):52-54.
[4]李明祥.基于粗糙及理論的數(shù)據(jù)挖掘方法的研究[D].濟(jì)南:山東科技大學(xué),2003:1.
[5]任重,邵軍力.粗糙集理論在通偵信息融合中的應(yīng)用[J].解放軍理工大學(xué)學(xué)報(bào):自然科學(xué)版,2002,3(6):96-99.
[6]袁捷.基于粗糙集的傳力桿接縫水泥道面力學(xué)響應(yīng)影響因素分析[J].華東交通大學(xué)學(xué)報(bào),2017,34(2):1-9.
[7]程坦.道路交通事故數(shù)據(jù)挖掘及應(yīng)用研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:33.
[8]曾黃麟.智能計(jì)算[M].重慶:重慶大學(xué)出版社,2004:14-28.
[9]陳強(qiáng),王雙維,郝乃斕.基于粗集理論的交通事故死亡人數(shù)時(shí)間分布分析[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(8):217-218.
Analysis of Objective Factors of Road Traffic Accidents Based on Rough Set Theory
Xu Peng,Jiang Kai,Wang Zehua,Zhuzheng(College of Civil and Transportation Engineering,Hohai University,Nanjing 210009,China)
Due to the huge road traffic accident data,it is primitive and flat to use the traditional method of analyzing the objective factors for traffic accidents,which fails to fully exploit the potential link among data.Digging out valuable information from a large number of traffic accident data through the data mining technology has become a hot topic in the field of traffic safety research at present.Aiming at the shortcomings of traditional statistical data analysis methods,this paper,through traffic accident data,established a new numerical model based on the rough set theory.Through this numerical model,the objective factors of the accidents were extracted from the traffic accident data.The objective factors are ranked by the calculation of objective factor significance.The research results show that the effects of objective factors on the traffic accident are different,which may provide some reference for the formulation of the traffic safety policy in the future.
traffic safety; data mining; objective factor analysis; significance; rough set
(責(zé)任編輯 王建華)
U419.3
A
1005-0523(2017)06-0066-06
2017-07-25
江蘇省自然科學(xué)基金面上項(xiàng)目(BK20151497)
徐鵬(1968—),男,副教授,碩士研究生導(dǎo)師,主要研究方向?yàn)橹悄芙煌ㄅc交通環(huán)境。
蔣凱(1994—),男,在讀碩士,研究方向?yàn)橹悄芙煌ㄅc大數(shù)據(jù)。