999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于潛類別模型和關(guān)聯(lián)規(guī)則的交通事故原因分析

2018-08-02 07:23:34陳妤婕吳愛華
現(xiàn)代計算機 2018年15期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則

陳妤婕,吳愛華

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

0 引言

道路交通事故可表述為人、車、道路、環(huán)境等動靜態(tài)因素耦合失調(diào)而導(dǎo)致的人或物同時受到損失的過程[1]。影響交通事故的因素非常多,涉及到人、車、道路、環(huán)境等多個方面,這些因素使事故在發(fā)生時間、空間等方面呈現(xiàn)出偶然性。然而大量的事故研究證明,交通事故實際上是受其內(nèi)部規(guī)律所支配的,影響因素之間存在著聯(lián)系,決定著交通事故的發(fā)生和發(fā)展變化。

很多數(shù)據(jù)挖掘方法被用來分析不同因素對交通事故的影響。文獻(xiàn)[2]用泊松回歸模型分析了道路設(shè)計、交通量等因素對信號交叉口嚴(yán)重傷亡事故發(fā)生頻次的影響。文獻(xiàn)[3]運用貝葉斯網(wǎng)絡(luò)對事故概率進(jìn)行定量計算,全面合理地解釋了事故發(fā)生的根本原因。文獻(xiàn)[4]將事故嚴(yán)重程度細(xì)分為八個等級分別建立神經(jīng)網(wǎng)絡(luò)模型,結(jié)果表明是否采用安全帶、是否酒駕和車輛用途等與事故嚴(yán)重程度直接相關(guān)。

由于大量影響因素的存在,交通事故表現(xiàn)出豐富的異構(gòu)性[5],不同類型的交通事故的影響因素不同,如果在分析過程中不考慮這一點,一些導(dǎo)致交通事故發(fā)生的原因可能會被隱藏,聚類處理可以降低事故的異構(gòu)性。文獻(xiàn)[6]用K-modes聚類算法對道路類型、光照情況、時間等特征聚類分析后進(jìn)行致因分析,結(jié)果顯示總體數(shù)據(jù)集并不能體現(xiàn)單個類別的事故原因。文獻(xiàn)[7]用K-means方法來分析事故碰撞前后的模式特點。文獻(xiàn)[8]用潛類別分析對交通事故數(shù)據(jù)進(jìn)行聚類,作為致因分析的初步工作。

本文提出了一個基于潛類別分析和關(guān)聯(lián)規(guī)則挖掘的交通事故原因分析模型。在數(shù)據(jù)集中,存在一些出現(xiàn)次數(shù)較少但影響交通事故的嚴(yán)重程度的因素,而現(xiàn)有的關(guān)聯(lián)規(guī)則算法如Apriori[9]、FP-Growth[10]等受閾值設(shè)定的限制,往往會遺漏這些因素,因此本文在原有的關(guān)聯(lián)規(guī)則挖掘算法上增加了權(quán)重的設(shè)定,更有效地挖掘出影響交通事故嚴(yán)重程度的因素。

1 模型設(shè)計

本文的算法模型主要分為三個部分:特征選擇、聚類分析、關(guān)聯(lián)規(guī)則挖掘,總體流程如圖1所示。

(1)特征選擇。特征集中有一部分無效特征,需要先用合適的特征選擇方法剔除。本文先用卡方檢驗和Boruta算法初步選擇,然后用遞歸特征消除(RFE)算法保留預(yù)測效果最好時的特征集。

(2)聚類分析。交通事故的異構(gòu)性是分析過程中的一個主要問題,用潛類別分析對數(shù)據(jù)集進(jìn)行聚類分析可以找出相同類型的交通事故,有效降低異構(gòu)性。

(3)關(guān)聯(lián)規(guī)則挖掘。本文對Apriori算法進(jìn)行改進(jìn),每次掃描數(shù)據(jù)集生成頻繁項集時,用關(guān)聯(lián)規(guī)則挖掘算法找出每個類別中影響交通事故嚴(yán)重程度的關(guān)聯(lián)規(guī)則。

最后使用關(guān)聯(lián)規(guī)則對新數(shù)據(jù)集中的事故按嚴(yán)重程度進(jìn)行分類,比較Apriori算法和帶權(quán)重的Apriori算法的分類效果。

圖1 算法總體流程示意圖

2 潛類別分析

潛類別分析(Latent Class Analysis,LCA)是潛變量分析的一種,目的在于利用潛類別解釋多個外顯分類變量之間復(fù)雜的關(guān)聯(lián),并使各潛類別內(nèi)部的外顯變量之間滿足局部獨立性[11]。

下面給出潛類別模型的形式化定義:

(1)數(shù)據(jù)集中共有N條記錄,每條記錄都是一個觀察值 i,i=1…N。

(2)每個特征都是離散化的,又稱為多分類變量或外顯變量,每個多分類變量j(j=1…J)有Kj個取值。

例如,性別這個多分類變量,有男性或女性兩種取值,此時 Kj的值為2。

(3)Yijk=1表示觀察值i(i=1…N)在第j(j=1…J)個變量的第k(k=1…Kj)個取值有應(yīng)答;否則,Yijk=0。

(4)潛類別分析通過擬合運算把數(shù)據(jù)集聚類成R個潛類,πijk表示在第r(r=1…R)個潛類中,第j個外顯變量的第k個取值的條件概率。

(5)pr表示每個類別在數(shù)據(jù)集中的概率。

在潛類別分析模型中,上面定義的符號滿足下列條件:

在第r個潛類中,第j個外顯變量的每個取值的條件概率之和為1;每個潛類別在數(shù)據(jù)集中的概率之和為1:

根據(jù)局部獨立性假設(shè),獨立事件聯(lián)合發(fā)生的概率等于單獨發(fā)生概率之積,在每個類別r內(nèi)部,多個變量的聯(lián)合概率為:

其中,Yi是觀察值i各個變量的取值集合,表示一起具體的交通事故。

Yi在整個數(shù)據(jù)集中出現(xiàn)的概率如下,采用貝葉斯后驗概率將個體歸入不同的潛類別。

3 關(guān)聯(lián)規(guī)則挖掘算法改進(jìn)

3.1 帶權(quán)重的Apriori算法

關(guān)聯(lián)規(guī)則的形式化描述:設(shè)D是一個包含n個事務(wù)的數(shù)據(jù)庫,每個事務(wù)T∈D。令I(lǐng)={I1,I2,…,Im}是項的集合,每個事務(wù)T都是項的集合。關(guān)聯(lián)規(guī)則是形如A→B的蘊涵表達(dá)式,其中A?I,B?I且A∩B=?。關(guān)聯(lián)規(guī)則的強度用支持度(support)和置信度(confi?dence)來度量[10]。支持度確定規(guī)則在數(shù)據(jù)集中的頻繁程度,而置信度確定B在包含于A的事務(wù)中的頻繁程度。

在現(xiàn)有關(guān)聯(lián)規(guī)則算法中,k-項集支持度的計算往往只考慮它在數(shù)據(jù)庫中出現(xiàn)的頻率,而沒有考慮不同的項集的重要程度不同。例如,某商店每月售出3000條毛巾,300臺吹風(fēng)機,吹風(fēng)機由于達(dá)不到設(shè)定的最小支持度而被過濾掉,但吹風(fēng)機的銷售利潤比毛巾要高很多,可認(rèn)為吹風(fēng)機比毛巾更重要。

為了在計算支持度時考慮項集的重要程度,引入下面的公式,其中,P(X)表示項集X出現(xiàn)的頻繁程度,W(X)表示項集X的權(quán)重:

β=1時,P(X)和 W(X)對支持度的計算具有相同的影響;β>1時,W(X)具有更大影響;β<1時,P(X)具有更大影響。

用Logistic回歸模型計算權(quán)重W,Logistic回歸模型具有計算代價不高,易于解釋和理解的優(yōu)點。Logis?tic回歸模型進(jìn)行訓(xùn)練后每個特征的系數(shù)即為權(quán)重W,項集 X(X={Ix1,Ix2,…,Ixm})的權(quán)重計算:

帶權(quán)重的Apriori算法偽代碼:

(1)頻繁項集的生成:

(2)對每一條頻繁項集,生成關(guān)聯(lián)規(guī)則:{頻繁項集X}→嚴(yán)重程度

3.2 用關(guān)聯(lián)規(guī)則分類

T為一起交通事故,K為頻繁項集的最大長度。

關(guān)聯(lián)規(guī)則分類偽代碼:

4 實驗分析

實驗數(shù)據(jù)來源于美國國家公路交通安全管理局(NHTSA),選取2015年美國境內(nèi)的共51686條交通事故數(shù)據(jù),交通事故的嚴(yán)重程度根據(jù)有無人員受傷分為嚴(yán)重和不嚴(yán)重。算法實現(xiàn)使用了Python和R語言。

在特征選擇階段,最終RFE的實驗結(jié)果如圖2所示,在特征數(shù)量為19時,算法效果最好。

圖2 不同特征數(shù)量下RFE算法的效果

保留的特征中,與人相關(guān)的是:SEX(性別)、AGE(年齡)、PCRASH1(事故前駕駛員行為)、REST_USE(防護(hù)設(shè)備影響)、PERALCH(酒精影響);與車相關(guān)的是:RELJCT2(與交叉路口的關(guān)系)、DEFORMED(汽車損傷程度)、ROLLOVER(是否翻車)、ACC_TYPE(碰撞類型)、PCRASH2(導(dǎo)致事故發(fā)生事件)、SPEEDREL(是否超速);與環(huán)境相關(guān)的是:HOUR(時間)、MONTH(季節(jié))、VTRAFCON(道路控制標(biāo)志)、LGTCON(光線情況)、WEATHR(天氣);與道路相關(guān)是:VSURCOND(路面情況)、VTRAFWAY(道路分成幾路)。

在潛類別分析階段,從潛類別數(shù)目為1的初始模型開始,擬合了15個模型。衡量模型的好壞用到了3種信息準(zhǔn)則:AIC、BIC、CAIC。隨著類別數(shù)目的增加,雖然統(tǒng)計擬合上有了一定的提升,但是聚類結(jié)構(gòu)會更加復(fù)雜,因此,作為統(tǒng)計擬合和聚類結(jié)構(gòu)復(fù)雜度之間的折中,選擇潛類別數(shù)目為7的模型。

圖3是每個類別中各個多分類變量的分布情況,這里只顯示了部分特征。

圖3 每個類別中各個多分類變量的分布情況

每個類別的具體描述如下:

類別1(C1):有85.77%的交通事故都發(fā)生在交叉路口,且碰撞類型為雙向碰撞,達(dá)到了46.93%,相比其他類別,該類中由于其他車輛駛?cè)氲缆芬l(fā)事故的比率是最高的,達(dá)到了30.92%,有75.32%的事故發(fā)生在沒有道路控制標(biāo)志的情況下,道路劃分最高的是雙向無分離道路(56.46%)。

類別 2(C2):多數(shù)事故都不發(fā)生在交叉路口(86.27%),相比其他類別,翻車率是最高的,達(dá)到了33.66%,超速率也是最高的,達(dá)到了37.92%,73.29%的車的碰撞類型都是單輛機動車從道路邊上駛離,事故發(fā)生的原因中車輛失控占比最高(48.35%),有55.86%道路為濕,絕大部分事故(92.01%)發(fā)生時沒有道路控制標(biāo)志,多數(shù)事故發(fā)生在雨天(41.5%)。

類別 3(C3):多數(shù)事故(68.67%)發(fā)生在晚上(18-23)點,但有74.94%的事故發(fā)生在黑暗有人造光的情況下,發(fā)生在交叉口和其相關(guān)位置的比率都較高,達(dá)到了47.64%和39.84%,58.13%的事故發(fā)生在有交通信號燈的情況下,發(fā)生在秋冬季節(jié)的比率相對其他類別是最高的,達(dá)到了68.88%。

類別4(C4):有51.75%的事故中車輛都受到了一定程度的損傷,事故發(fā)生的原因中占比最高的是機動車與行人、物體等相撞(48.35%),事故發(fā)生前,較多(45.56%)駕駛員在變道,大部分事故(70.62%)發(fā)生時沒有道路控制標(biāo)志,有36.19%的駕駛員集中在45-60歲。

類別5(C5):多數(shù)事故都發(fā)生在晚上和凌晨,達(dá)到50.84%和39.87%,大部分事故都不發(fā)生在交叉路口(88.54%),事故前,69.13%的駕駛員都在直行,大部分事故(92.74%)發(fā)生時沒有道路控制標(biāo)志,受酒精影響的事故比其他類別多,達(dá)到了36.52%,63.18%的事故發(fā)生在黑暗無人造光的情況下,多數(shù)事故發(fā)生在雨天(53.18%)。

類別6(C6):有93.02%的事故都發(fā)生在交叉路口相關(guān)的路段上,超過半數(shù)(56.35%)的事故中車輛受到一定程度的損傷,事故發(fā)生前較多駕駛員在轉(zhuǎn)彎(57.66%),60歲以上的駕駛員在該類中的占比達(dá)到了30.51%,較其他類別高。

類別7(C7):超過半數(shù)(55.16%)的事故中車輛受到了一定程度的損傷,絕大多數(shù)事故的碰撞類型為雙車追尾(94.98%),事故發(fā)生前,67.25%的駕駛員都在直行,事故原因基本上是由路上的其他車輛造成的(96.97%),相比其他類別,有29.46%的事故駕駛員粗心駕駛,較其他類別高。

對每個類別進(jìn)行關(guān)聯(lián)規(guī)則挖掘,圖4和圖5都選取了C1、C2中置信度最高的5條規(guī)則,可以看出,Apriori算法和帶權(quán)重的Apriori算法挖掘出的關(guān)聯(lián)規(guī)則有所不同,而用帶權(quán)重的Apriori算法挖掘的關(guān)聯(lián)規(guī)則更貼近每個類別的特點,說明帶權(quán)重的關(guān)聯(lián)規(guī)則算法能更有效地挖掘出影響交通事故嚴(yán)重程度的因素。這里公式(7)中的 β取1,認(rèn)為項集在數(shù)據(jù)庫中出現(xiàn)的頻率和它的權(quán)重對支持度具有相同的影響。

圖4 Apriori算法挖掘出的關(guān)聯(lián)規(guī)則

圖5 帶權(quán)重的Apriori算法挖掘出的關(guān)聯(lián)規(guī)則

利用挖掘出的關(guān)聯(lián)規(guī)則對美國境內(nèi)2012-2014年的各10000條交通事故進(jìn)行分類。圖6為分類的結(jié)果,從圖中可以看出,用帶權(quán)重的Apriori算法進(jìn)行分類的準(zhǔn)確率都要高于Apriori算法,進(jìn)一步說明帶權(quán)重的關(guān)聯(lián)規(guī)則算法能更有效。

圖6 2012-2014年不同關(guān)聯(lián)規(guī)則算法下的分類效果

5 結(jié)語

本文提出了一個基于潛類別分析和關(guān)聯(lián)規(guī)則挖掘的交通事故原因分析模型,先后用聚類分析和帶權(quán)重的關(guān)聯(lián)規(guī)則算法,分析了各個事故類型的特點,有效克服了影響因素被過濾的問題,并證明了本文算法要優(yōu)于Apriori算法。然而,本文在關(guān)聯(lián)規(guī)則算法權(quán)重和支持度的比較上偏經(jīng)驗化,后續(xù)的研究中可做進(jìn)一步研究。

[1]裴玉龍,蔣賢才,程國柱等.道路交通事故分析與再現(xiàn)技術(shù)[M].北京:人民交通出版社,2010.

[2]Wong S C,Sze N N,Li Y C.Contributory Factors to Traffic Crashes at Signalized in Hongkong[J].Accident Analysis and Prevention,2007,39(6):1107-1113.

[3]龍科軍,劉勇.基于貝葉斯網(wǎng)絡(luò)的交通事故機理分析[J].安全與環(huán)境學(xué)報,2010,10(1):150-153.

[4]Delen D,Sharda R,Bessonov M.Identifying Significant Predictors of Injury Severity in Traffic Accidents Using a Series of Artificial Neural Networks[J].Accident Analysis&Prevention,2006,38(3):434-444.

[5]Savolainen P,Mannering F,Lord D,Quddus M.The Statistical Analysis of Highway Crash-Injury Severities:a Review and Assessment of Methodological Alternatives[J].Accid Anal Prev.2011,43:1666-1676.

[6]S Kumar,D Toshniwal.A Data Mining Framework to Analyze Road Accident Data[J].Journal of Big Data,2015,2(1):26.

[7]R Mauro,MD Luca,G Dell'Acqua.Using a K-Means Clustering Algorithm to Examine Patterns of Vehicle Crashes in Before-After Analysis[J].Modern Applied Science,2013,7(10):11-19.

[8]de Ona J,Lopez G,Mujalli R,Calvo FJ.Analysis of Traffic Accidents on Rural Highways Using Latent Class Clustering and Bayesian Networks.Accid Anal Prev,2013,51:1-10.

[9]Agrawal R,Im ielinski T,Swami A.Mining Association Rules between Sets of Items in Large Databases[J].Acm Sigmod Record,1993,22(2):207-216.

[10]J Han,J Pei,Y Yin.Mining Frequent Patterns Without Candidate Generation[J].Acm Sigmod Record,1999,29(2):1-12.

[11]邱皓政.潛在類別模型的原理與技術(shù)[M].北京:教育科學(xué)出版社,2008.

猜你喜歡
關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
“苦”的關(guān)聯(lián)
數(shù)獨的規(guī)則和演變
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
主站蜘蛛池模板: 亚洲精品无码在线播放网站| 99视频在线观看免费| 精品国产免费第一区二区三区日韩| 中文字幕在线视频免费| 亚洲a免费| 国产精品大尺度尺度视频| 亚洲第一成网站| 2021国产乱人伦在线播放| 国产福利小视频在线播放观看| 在线综合亚洲欧美网站| 国产成a人片在线播放| 欧美精品xx| 久久99热这里只有精品免费看| 国产91精品久久| 又猛又黄又爽无遮挡的视频网站| 免费在线色| 午夜日本永久乱码免费播放片| 欧美午夜在线视频| 一级毛片无毒不卡直接观看 | 国产喷水视频| 国产毛片基地| 亚洲 欧美 偷自乱 图片| 在线观看国产小视频| 亚洲欧美国产五月天综合| 午夜精品区| 亚洲免费成人网| 中文字幕亚洲另类天堂| 成人欧美日韩| 久久香蕉国产线看精品| 看你懂的巨臀中文字幕一区二区 | 久久天天躁狠狠躁夜夜躁| 亚洲男人在线天堂| 国产视频一区二区在线观看| 国产成人啪视频一区二区三区| 国产福利小视频在线播放观看| 中文国产成人精品久久一| 欧美黄网站免费观看| 欧美精品H在线播放| 无码aⅴ精品一区二区三区| 国产特级毛片| 欧美无遮挡国产欧美另类| 国产精品福利社| 欧美一级黄色影院| 国内精品视频在线| 国产区网址| 国产无遮挡猛进猛出免费软件| 亚卅精品无码久久毛片乌克兰| 亚洲AV人人澡人人双人| 国产丝袜第一页| 国产精品区视频中文字幕| 999福利激情视频| 国产精品视频导航| 亚洲二区视频| 夜夜操国产| 亚洲精品无码在线播放网站| 亚洲免费福利视频| 国产丝袜无码精品| 成年人免费国产视频| 国产国产人免费视频成18| 在线观看91精品国产剧情免费| 亚洲色偷偷偷鲁综合| 乱系列中文字幕在线视频| 亚洲一区二区日韩欧美gif| 日韩欧美中文字幕在线韩免费| 久久精品只有这里有| 成人国产免费| 国产小视频免费| 亚洲首页在线观看| 夜夜操狠狠操| 91精品综合| 一级毛片免费高清视频| 精品夜恋影院亚洲欧洲| 久草视频福利在线观看| 日本黄色a视频| 中文字幕久久亚洲一区| 一级毛片网| 99国产精品免费观看视频| 亚洲乱码精品久久久久..| 欧美一级99在线观看国产| 丁香婷婷在线视频| 老司机精品一区在线视频| 久久人午夜亚洲精品无码区|