999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進興趣度度量與Apriori 算法的交通事故多發點成因分析

2021-06-03 07:09:18王穎志沈雅婕王立君
浙江大學學報(理學版) 2021年3期
關鍵詞:成因關聯規則

王穎志,沈雅婕,王立君

(1.浙江警察學院交通管理工程系,浙江杭州 310053;2.浙江大學地理與空間信息研究所,浙江杭州 310028)

0 引言

道路交通事故多發點(black-spots),是指某個地點、路段或區域在一定時間段內發生的交通事故數量或事故率超過了既定基準值[1]。道路交通事故多發點成因分析的目的是探索事故中多種因素與事故嚴重程度之間的關系。常用的分析模型主要有回歸分析模型、神經網絡模型、關聯分析模型等[1-4]。Logistic 回歸分析模型用以研究駕駛員、車輛、環境等因素與交通事故之間的關系[2,4]。在層次分析模型中,結合粗糙集理論分別計算各因素對交通事故嚴重程度的影響[5-6]。DELEN 等[3]用神經網絡模型揭示了年齡、性別、是否酒駕等因素與事故嚴重程度存在顯著相關性[7];張志豪等[8]基于長短期記憶(long short-term memory,LSTM)神經網絡進行交通事故風險預測。

關聯規則分析能從目標數據集中發現隱藏的頻繁模式,并進一步推導隱含的規則、相關性或因果關系[9]。規則集的選擇需要一定的評價指標,一般采用支持度、置信度、提升度等因子對關聯規則興趣度進行評價。文獻[10-12]提出了新穎度、改善度、有效度、影響度等改進的評價因子。Apriori 算法是最經典、最常用的用于發現頻繁模式的關聯規則算法,已有眾多基于Apriori 算法改進的關聯規則方法,使得關鍵事故因素的關注度更高[14-16]。

用關聯規則分析各因素之間及其與交通事故多發點之間的因果關系,需要建立人、車、環境、事故之間的關聯規則。本文使用頻數分析法和改進的關聯規則方法對交通事故多發點進行成因分析,對比交通事故場景下的成因分析適用性,分析小概率因子對交通事故的影響,明確評價成因與結果之間的關聯程度,為交通管理提供決策支持。

1 基于Apriori算法的關聯規則挖掘算法

Apriori 算法的理論基礎是任何頻繁集的子集都是頻繁集,任何非頻繁集的超集都是非頻繁集[13]。關聯規則是從大量數據中挖掘隱藏的、頻繁的組合模式,從數據中尋找規律。空間關聯規則的表達形式如下:

其中,X和Y是謂詞集合,可以是空間謂詞也可以是非空間謂詞,且X∩Y=φ。s%是規則的支持度,指X和Y在所有空間事務中同時發生的概率,P(X∩Y)。

其中,count(X∩Y)表示X∩Y在交易數據庫中出現的頻數,N表示交易總數。c%是規則的可信度,指在所有空間事務中X發生的前提下Y發生的概率P(Y/X)。

非空間謂詞是指一般的邏輯謂詞;空間謂詞是包含空間關系的邏輯謂詞,包括拓撲關系、空間方位關系和距離關系3 種。

Apriori 算法的核心思想是用先驗知識預測數據的關聯規則,通過計算支持度和可信度發現頻繁項集,從而找到關聯規則。為降低計算復雜度,Apriori 算法利用了以下先驗知識:如果一個集合是頻繁集,那么其所有子集都是頻繁集;如果一個集合是非頻繁集,那么其所有超集都是非頻繁集。

Apriori 算法從單元素項集開始,通過組合滿足最小支持度的項集以形成更大的集合。Apriori 剪枝避免了高項候選集的頻繁驗證,但會產生大量候選集和巨大的時間和空間開銷,這些開銷隨數據中不重復項數的增加而顯著增加。從候選集中篩選有效的關聯規則,需綜合多種指標進行判斷。支持度和置信度是2 個首選指標,用于過濾關聯規則,但對假關聯規則不敏感。假關聯規則意味著“小概率因子?大概率事件”,由于后項發生的概率大,所獲得的支持度高,同時前項發生的概率小,導致置信度偏高,因此雖然該關聯規則符合閾值指標,但無法說明前項大概率地導致后項的發生。

2 面向交通事故多發點的關聯規則挖掘方法

交通事故受駕駛員、行人等交通參與人的影響,同時受道路結構、材質等通行條件的影響,更與光線、雨、雪、霧等自然環境息息相關。利用Apriori 算法從交通事故數據中挖掘關聯規則,并進行成因分析,存在以下問題:

(1)不能忽略小概率因子對事故的影響。雖然小概率因子是偶發的,但可能導致極嚴重的交通事故,如臺風、凍雨等極端天氣發生的概率小,但對交通造成的影響很大。在Apriori 剪枝過程中,小概率因子因支持度過低而被排除。

(2)如何選擇支持度閾值。在剪枝過程中,如何平衡小概率因子的影響和支持度閾值降低導致效率低問題至關重要。閾值降低產生大量的頻繁項集,從而降低關聯規則的挖掘效率,且小概率因子隱藏于大量的頻繁項集中,難以反映其對交通事故的影響。

(3)難以篩選得到有效關聯規則。有些關聯規則雖有效,但無法形成解釋事故多發點成因的因果關系。

為解決這3 個問題,本研究改進了Apriori 算法以解決支持度閾值降低造成的關聯規則挖掘效率低的問題。為準確提取小概率因子形成的關聯規則,引入正態提升度作為相關性系數,并建立前后項約束條件過濾不感興趣的關聯規則。

2.1 改進Apriori 算法的頻繁集獲取

如果考慮小概率因子,就必須降低支持度閾值。而這可能導致每次迭代產生的候選集均為頻繁集。k項候選集越多,k+1 項候選集將累乘式增加。因此,在迭代初期應盡可能地過濾掉非頻繁候選集。

在Apriori 算法中,當生成k+1 項候選集時,通過2 個只有1 項不同的k項頻繁集產生不重復的k+1 項候選集。由于1 項頻繁集數量遠小于k項頻繁集,因此本文將此過程改進為將k項頻繁集和1 項頻繁集連接,生成k+1 項候選集。改進前后2 種方法的計算結果一致,但循環遍歷的次數大大減少。

推論[16]存在k項候選集P,若k-1 項頻繁集中包含P的頻繁集數小于k-1,則該k項候選集P是不頻繁的。

另外,由于不包含事故評價屬性的關聯規則是無貢獻的,可將其從頻繁集中剔除。

改進后的Apriori 算法頻繁項集生成步驟如下:

(1)提取某交通事故多發點的所有交通事故數據,建立數據庫,并存儲每條交通事故的基本屬性、評價屬性和環境屬性。

(2)掃描事故數據庫,匯聚所有事故數據中不重復的因子,作為1 項候選集。

(3)根據支持度閾值,剪枝1 項候選集,產生1項頻繁集。

(4)在第k次迭代時,在k項頻繁集的基礎上篩選出k+1 項頻繁集。首先,將k項頻繁集和1 項頻繁集連接,生成k+1 項候選集;其次,判斷該候選集是否包含事故評價屬性,若不包含則剔除;再次,統計k項頻繁集中包含該k+1 項候選集的數量,若小于k,則判斷其為不頻繁并剔除;最后,根據支持度閾值剪枝,獲得k+1 項頻繁集。

(5)若k項頻繁集中無項集或只有1 個項集,則停止迭代。

第(4)步中,k+1 項候選集的生成方法體現了本文對Apriori 算法的改進。對k+1 項候選集添加2 個過濾條件,在迭代計算中盡早排除不感興趣的和不頻繁的候選集,提高關聯規則的挖掘效率。

2.2 基于正態提升度的關聯規則提取

關聯規則中的相關性是指前、后項之間的關聯程度,關聯程度有強弱之分,也有正負之分。常用的相關性系數包括提升度、確信度、規則興趣度、全置信度和余弦距離等。大部分相關性系數均能很好地衡量前后項之間的相關性,但在交通事故場景中仍存在局限,包括全置信度和余弦距離無法判斷交通事故關聯規則前、后項之間相關性的正負;雖然提升度、確信度和規則興趣度均能確定相關性的正負,但無法客觀判斷相關性是否顯著。

因此,基于以下2 點假設,引入正態提升度(normality)[18]:

(1)假設前項和后項的發生都是隨機且服從正態分布的,則兩者的聯合服從二元正態分布,邊際服從一元正態分布;

(2)假設總數N足夠大,根據拉普拉斯中心極限定理,X項集在N中發生的頻率趨近于正態分布

其中,N表示總量。

假設X和Y獨立,在某置信水平下,若正態提升度的絕對值大于正態分布在單邊檢測時的臨界值,則假設失敗,即X和Y之間的關聯規則有效。若正態提升度為正,則X和Y呈正相關,否則,呈負相關。

若X和Y呈正相關,則表示X對Y的發生有推動作用;反之,若X和Y呈負相關,則表示X對Y的發生有抑制作用。對于交通事故多發點的成因分析,更關心促成事件發生的因素。因此,正態提升度閾值是正數,即正相關的關系被保留,當正態提升度大于該閾值時,該關聯規則被定位為強關聯。

2.3 前、后項約束的關聯規則過濾

在引入正態提升度后,從頻繁集中提取關聯規則,應判斷頻繁子集與其補集之間的關聯規則是否有效,支持度、置信度和正態提升度是否均超過了相應閾值。

改進的Apriori 算法雖然已過濾掉不包含事故評價因子的候選集,但候選集在生成關聯規則過程中依然存在產生錯誤關聯規則的可能。例如,頻繁集{上午、下雨、重大事故},包含了事故評價因子“重大事故”,該候選集中最有效的關聯規則形態是“上午+下雨?重大事故”。但若不考慮興趣度度量,則會形成“重大事故?上午+下雨”的無效關聯規則。

本文通過增加前、后項約束的方法對頻繁集產生的關聯規則進行進一步過濾,剔除因果關系錯亂的關聯規則。前項約束是關聯規則的前項必不包含事故評價因子;后項約束是關聯規則的后項必須只包含事故評價因子。因此,關聯規則生成的流程如圖1所示。

圖1 引入前、后項約束的關聯規則過濾流程Fig.1 The association rules filter process introduced the before and after items constraints

3 交通事故多發點成因分析

3.1 研究區域概況

選擇2013—2015 年浙江省某市某街道的交通事故為研究對象,共記錄9 834 則交通事故。事故分布情況見圖2。

圖2 研究區域交通事故分布Fig.2 Spatial distribution of traffic accidents in the study area

每條記錄包含6 類屬性,其中,基本屬性3 種,時間屬性6 種,位置屬性2 種,天氣屬性4 種,道路屬性3 種,評價屬性5 種,如圖3 所示。

圖3 交通事故數據屬性信息Fig.3 Attributes of the traffic accident data

3.2 基于頻數分析法的交通事故成因分析

頻數分析法是指變量在整體中出現的頻率,以此評價變量的重要程度。通常,在交通事故多發點成因分析中,頻數分析法用于衡量因子的影響值,因子的頻數越大,其對交通事故的貢獻越大。按照因子性質,分為3 個評價屬性,16 個評價因子,其頻數統計如表1 所示;除事故編號和坐標外,共有14 個事故成因屬性,71 個成因因子,部分事故成因因子的頻數統計如表2 所示。

表1 事故評價因子的頻數統計Table 1 Frequency statistics of traffic evaluation accidents factors

3.3 基于改進的關聯規則算法的交通事故成因分析

交通事故多發點成因分析的興趣度度量指標,即因子X的概率P(X),指X在交通事故數據中出現的概率。因此,興趣度度量指標不同于常規定義。對于關聯規則“X?Y”,支持度、置信度、正態提升度均指X的出現對Y出現的影響。根據頻繁集中產生強關聯且感興趣的規則,需設置合理的閾值。為在剪枝過程中保留小概率因子,設支持度閾值降低為4/N,即小概率因子只要發生4 次以上便可成為頻繁集。將置信度閾值設為0.7,當正態分布置信水平為0.001 時,單邊檢測時的臨界值為3.131。基于這3 個閾值和前、后項約束條件,從該事故多發點內的交通事故數據中進行挖掘,其得到11 286 條關聯規則。如此多的關聯規則顯然無法進行有效的成因分析,本文根據評價因子對所有關聯規則進行分類,然后對每類關聯規則依次進行正態提升度-置信度-支持度降序排序。排序越靠前,關聯規則越顯著,對交通事故成因貢獻越大。

3.4 小概率評價因子的貢獻

降低支持度閾值后,小概率事件也會出現在關聯規則集中。小概率事件可以分為小概率前項和小概率后項。小概率前項可以是諸如雪天等少發天氣狀況,也可以是極彎道路等情況;小概率后項可以是翻車、同向刮擦等低發事故類型。在傳統的交通事故多發點成因分析中,小概率事件往往被忽略,因此對小概率事件的監控、分析和應對預防相關研究較少。

本研究采用正態提升度評價前項對后項的貢獻,以此探究小概率事件對事故多發點的影響。將小概率事件設定為支持度小于5%的1 項頻繁集。由于小概率事件總量較少,在對其進行關聯規則解釋性分析時,相較于大概率事件存在明顯不足,因此,可從整體進行分析。從關聯規則集中選取雪天、鄉鎮建城區道路、行人作為小概率前項,翻車、逃逸、同向刮擦作為小概率后項進行總體分析,得到:

(1)雪天發生事故的主要是小型客車,長直省道在強風作用下易造成道路濕滑甚至冰凍,當小型客車快速通過時,易發生側向碰撞和輕微交通事故。

(2)在鄉鎮道路上,秋冬季或工作日易發生電動自行車人員受傷的交通事故。

(3)行人發生交通事故多在夏季和工作日,且雨天居多,與電動自行車相關。雨天視野受影響,夏天燥熱天氣下雙方注意力不夠集中,容易造成事故。

(4)東風對翻車事故的誘發性極高;夏季、工作日中午是事故高發期。直道上車輛速度較快,駕駛員在夏季尤其是中午時分容易疲勞駕駛。

(5)交通肇事逃逸多發生在春季、傍晚和周末,以電動自行車為多,此時交通監管力度較弱;傍晚、雨天易發生逃逸事件,長路段亦易發生逃逸事件。其原因可能是春季的傍晚和周末長直道路上的車輛速度快,天氣昏暗有助于肇事者逃逸。

表2 部分事故成因屬性的頻數統計Table 2 Frequency statistics of traffic causal accident factors(part)

(6)夏季的上午和周末車流量較大,小型客車容易發生同向刮擦;在縣道上遭遇強風的車輛更容易發生同向刮擦。

4 結論

所有的交通活動均發生在道路交通系統中,不能簡單地將一起交通事故看作由某種屬性或某一因子引起。關聯規則是數據挖掘領域的重要分支,能從體量巨大的數據中高效挖掘數據屬性之間的關聯性,突破傳統成因分析方法對海量復雜數據處理速度慢、分析結果模糊的局限。本研究對傳統關聯規則算法進行了以下改進:用改進的Apriori 算法提高低支持度閾值情況下的規則提取效率,引入正態提升度作為相關性系數以突出小概率事件形成的關聯規則,并通過前后項約束過濾掉不感興趣的關聯規則。

頻數分析法是一種數理統計方法,能與其他諸多分析方法,如累計概率分布法、Logistic 回歸分析法、經典貝葉斯方法等相結合并進行拓展,適用于對任何體量的數據進行信息提取和分析,但無法考慮屬性之間的內在關聯。改進的關聯規則算法雖然實現過程較為復雜,處理速度緩慢,且需反復調整興趣度度量指標閾值,但其能從數據中挖掘多因子之間的內在聯系,更適用于事故多發點成因分析,可為道路交通安全管理相關部門提供在復雜道路環境下顧及多因子的管理建議。另外,改進的關聯規則算法將數據范圍縮小至單個時空事故多發點,將分析結果精確到單一時空事故多發點,避免進行全區域成因分析和結果泛化,方便交通管理相關部門基于各個事故多發點做出不同的評估和改進。

本文的改進關聯規則算法基于交通事故多發點成因分析的應用場景,并進行了優化和拓展,使其在規則挖掘的效率和興趣度上均有所增強,在有效挖掘的基礎上兼顧了小概率事件對事故多發點的影響。

已有研究采用多種興趣度度量方法對關聯規則進行評價,由于評價指標的多樣性,且各個指標均有其自身的含義和適用場景,采用哪些評價指標,如何使用是關聯規則應用于事故多發點成因分析的一大難題。在后續研究中,可深入探究現有評價因子,形成事故多發點成因分析場景下的關聯規則評價體系。本研究雖然對Apriori 算法進行了改進,但運算過程中仍會產生大量候選集,耗費大量時間,需通過調整興趣度度量指標閾值提高關聯規則的挖掘效率。當數據量越大、數據屬性越復雜時,算法在額外時間和工作量耗費上的優勢越明顯。未來可利用分布式技術提升Apriori 算法的計算效率,并以此為出發點進一步探究提升方法的適用性。

猜你喜歡
成因關聯規則
撐竿跳規則的制定
說說兩種『白氣』的成因
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
暈紋石成因解讀(上)
寶藏(2017年7期)2017-08-09 08:15:19
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
翻譯實踐問題及成因
唐山文學(2016年11期)2016-03-20 15:25:54
主站蜘蛛池模板: 免费一级毛片| 性喷潮久久久久久久久| 欧美一级特黄aaaaaa在线看片| 精品国产自在在线在线观看| 野花国产精品入口| 在线观看亚洲精品福利片| 国产在线视频福利资源站| 波多野结衣在线一区二区| 国产色婷婷| 国产成人无码综合亚洲日韩不卡| 欧美日韩另类在线| 精品国产中文一级毛片在线看 | 日韩第一页在线| 伊人色在线视频| 国产原创自拍不卡第一页| 波多野结衣中文字幕久久| 国产免费看久久久| 在线播放精品一区二区啪视频| 思思99思思久久最新精品| 亚洲精品动漫| 亚洲国产看片基地久久1024| 成人伊人色一区二区三区| jizz亚洲高清在线观看| 久久精品丝袜| 制服丝袜无码每日更新| 黄网站欧美内射| 亚洲精品片911| 91久久国产综合精品女同我| 久久国产精品波多野结衣| 香蕉伊思人视频| 亚洲人人视频| 日韩欧美综合在线制服| 青青草原国产免费av观看| 波多野结衣一区二区三视频| 亚洲动漫h| 九九精品在线观看| 99福利视频导航| 国产精品99r8在线观看 | 四虎综合网| 国产理论一区| 亚洲永久精品ww47国产| 91网红精品在线观看| 日韩精品无码一级毛片免费| 国产又黄又硬又粗| 日本欧美一二三区色视频| 午夜精品久久久久久久无码软件| 97久久精品人人做人人爽| 国产人人射| 亚洲一区二区三区麻豆| 国产午夜福利在线小视频| 熟妇无码人妻| 国产精品久久久久久影院| 欧美日韩导航| 26uuu国产精品视频| 国产女同自拍视频| 欧美成人在线免费| 色婷婷成人| 草草线在成年免费视频2| 青草精品视频| 91精品情国产情侣高潮对白蜜| 热久久国产| 精品人妻无码区在线视频| 欧美色综合网站| a级毛片网| 日本免费福利视频| 亚洲综合婷婷激情| 一级毛片无毒不卡直接观看| 亚洲中文字幕无码爆乳| 欧美亚洲国产日韩电影在线| 日韩第一页在线| 欧美午夜视频在线| 伊人久久大香线蕉aⅴ色| 91香蕉国产亚洲一二三区| 在线欧美一区| 久久国产成人精品国产成人亚洲| 精品丝袜美腿国产一区| 在线观看av永久| 国产三级毛片| 中文字幕久久波多野结衣 | 亚洲久悠悠色悠在线播放| 欧美色图第一页| av午夜福利一片免费看|