999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化CART的交通事故嚴重程度影響因素分析

2023-10-17 02:28:58張萌萌李澤文徐云帆劉永棟
關鍵詞:模型

張萌萌,李澤文,徐云帆,劉永棟

(山東交通學院 交通與物流工程學院,山東 濟南 250357)

0 引 言

據國家統計局[1]顯示,2020年發生交通事故總數達24萬余人,其中死亡人數就占據了四分之一,我國道路交通安全面臨嚴峻挑戰。對交通事故嚴重程度影響因素分析,可精準識別道路交通安全隱患,實現交通事故有效防控,減少人員傷亡與損失。

近幾年,國內外學者對影響交通事故嚴重程度的因素進行研究,馬柱等[2]利用Logistic模型構建交通事故嚴重程度分析模型,得出天氣、道路線型、能見度等是交通事故嚴重程度的主要影響因素;馬壯林等[3]、馮忠祥等[4]、陳昭明等[5]同樣基于Logistic模型,對事故嚴重程度相關因素進行研究;胡驥等[6]將Logistic與Probit模型相結合,但仍需考慮因素間的共線性問題;楊曄[7]、王立曉等[8]為克服傳統Logistic回歸模型變量間共線性問題,構建Scobit模型進行嚴重程度影響因素研究;戢曉峰等[9]則利用結構方程模型,通過量化計算獲取的交通事故以及交通流數據,得出大型車輛平均日交通量是影響交通事故嚴重程度的關鍵因素。國內外學者也曾使用數據挖掘技術進行研究。D.DELEN等[10]利用人工神經網絡,對交通事故嚴重程度與碰撞相關性因素之間的潛在非線性關系進行建模,結果表明事故發生時的環境因素與道路條件對交通事故嚴重程度具有影響;許洪國等[11]運用相關性分析和貝葉斯網絡結構,說明了交通控制方式在降低交通事故嚴重程度方面起到的關鍵作用;孫軼軒等[12]建立交通事故嚴重程度支持向量機分類識別模型,結果表明追尾和側撞、大型車輛等8個特征變量顯著影響模型分類精度。但上述研究方法為了提升模型精度,多需要考慮自變量間共線性問題及自變量的概率分布先驗信息。

而決策樹模型[13]在預測精度和解釋能力表現出優異的性能,該模型不需要考慮自變量間共線性問題和概率分布先驗信息,且具有訓練速度快、運行時間短的優點。雖然孫軼軒等[14]選擇C5.0決策樹算法建立了事故嚴重程度分類模型,提升了模型預測精度,但該模型在建立過程中,需要對數據集進行多次掃描和排序,導致算法計算效率較低。與C5.0決策樹算法相比,CART決策樹算法作為二叉樹,提升了運算速度和模型精確度。

綜上所述,筆者利用CART決策樹算法構建交通事故嚴重程度影響因素模型,首先基于皮爾遜卡方統計檢驗法確定車輛屬性、道路屬性以及環境屬性中交通事故嚴重程度的候選影響因素指標,將其作為輸入變量,并以一般事故、較大及以上事故作為二分類輸出變量構建交通事故嚴重程度影響因素決策樹模型,結合CCP算法優化CART決策樹模型結構,最后,剖析道路交通事故嚴重程度影響因素,為精準預防、主動防控提供理論依據和技術支撐。

1 數據預處理及相關指標提取

對樣本數據進行預處理,并提取顯著相關性較強的指標,是構建決策樹模型的前提。筆者抽取某市2018—2020年的2 267起交通事故數據進行分析,以交通事故嚴重程度為目標(輸出)變量,參考安全事故嚴重程度的劃分標準,將無傷害和輕傷交通事故定義為“一般事故”(y1),將重傷和死亡交通事故定義為“較大及以上事故”(y2)。以人、車、路、環境等屬性作為輸入變量,參考文獻[15]將變量合理分類,且主要從人、車、路、環境等屬性中提取顯著相關的變量進行分析。

考慮到變量離散的特征,筆者采用皮爾遜卡方統計檢驗法度量兩個變量之間的相關性,提取卡方檢驗中顯著性水平小于0.05的指標作為輸入變量。

皮爾遜卡方統計檢驗計算公式為:

(1)

式中:χ2為卡方統計檢驗值,可衡量實際值與理論值之間的偏離程度;f0為實際觀察頻數,即輸入變量某個類別的觀察頻數;fe為該類別的期望頻數。當χ2檢驗的顯著性水平小于0.05時,則表明兩個變量是獨立的不具有顯著性,即認為兩個變量是相關的。

將與目標變量相關性較強的變量(即顯著性小于0.05)作為模型輸入變量,如表1。

2 基于CCP算法優化的CART交通事故影響因素模型構建

2.1 CART基本理論

CART是1984年由L.BREIMAN等[16]提出的決策樹分類模型,包含一個根節點、多個中間節點以及多個葉節點。與其他決策樹算法相比,CART算法計算速度更快,穩定性更好,可精確識別道路交通事故影響因素。該算法利用基尼系數作為衡量數據集混亂程度的指標,基尼系數越小,系統混亂程度越低,即樣本數據集純度越高。對于新的待分類項,從根節點開始,根據計算基尼系數值選取最佳分類節點項,遞歸調用直至滿足結束規則,生成最優決策樹模型[17]。根節點基尼系數的計算公式為:

(2)

式中:N為給定節點的樣本數據集(總數據);pk為類別k在樣本N中可能發生概率,其中k取1和2,分別表示“一般事故”和“較大及以上事故”。

當確定根節點屬性后,其將該節點處N劃分為N1和N2,此時該節點下一層基尼系數值表達式為:

(3)

式中:N1和N2分別為劃分后兩節點各自的樣本量;G(N1)和G(N2)分別為劃分后節點1和節點2的基尼系數。之后按式(3)分別相繼計算N1和N2的下一層的最小基尼系數值,直至劃分至葉節點。

決策樹建模屬于有監督算法,變量可以是離散變量。一般只要決策樹充分地生長,就可以將訓練樣本中的所有個體進行充分的分類。然而在模型應用于驗證時,精度會出現大幅度的下降,即所謂的過擬合現象。故為避免只用CART算法建造決策樹模型時出現這種現象,需采用CCP算法優化決策樹模型,使模型更符合實際需求。

2.2 CCP算法

CCP算法又稱代價復雜度剪枝法[18],其涉及兩則信息,其一是代價,是指將中間節點換成葉節點后,導致誤判率有所增加;其二是復雜度,是指剪枝后葉節點的個數減少,從而降低模型的復雜度。為平衡增加的誤判率與降低的復雜度,需加入一個調節系數α,故代價復雜度剪枝法的目標函數可寫為:

(4)

式中:i為節點T下的第i個葉節點;|T|為節點T下的葉節點個數;Ni為第i個葉節點的樣本量;G(Ni)為第i個葉節點的基尼系數。

其中,令節點T剪枝前的目標函數值等于剪枝后的目標函數值,即Cα(T)a=Cα(T)b,α可表示為:

(5)

通過式(4)、式(5),可計算出所有非葉節點的α值,然后循環剪去最小α值所對應的節點樹,直到決策樹被剪枝到根節點,最終得到n棵新樹。然后將測試數據集運用到n棵新樹中,從中挑選出誤判率最低的樹作為最佳決策樹(圖1)。

圖1 交通事故嚴重程度影響因素決策樹模型

2.3 模型建立

首先將樣本數據按照4∶1的比例劃分為訓練集和測試集,采用CART決策樹算法對每個訓練集樣本進行學習,得到基于基尼系數選擇泛化能力最好的剪枝策略,然后采用CCP算法優化,建立一個過擬合風險較低的道路交通事故嚴重程度影響因素分類決策樹模型,如圖1。

2.4 模型驗證

選擇相對誤差值、ROC曲線和AUC等作為評價指標驗證模型的有效性。相對誤差值可以反映模型的可靠程度,誤差值越小,表明模型可行性越強。將測試數據集代入交通事故嚴重程度影響因素決策樹模型進行驗證,相對誤差僅為6.08%。

ROC曲線是反映TPR(較大及以上事故覆蓋率)和FPR(一般事故誤判率)的綜合指標,通過可視化的方法評估模型好壞,進一步驗證模型在測試集上的預測效果。曲線越靠近左上角,模型的準確率就越高,效果越好。曲線使用兩個指標值進行繪制,其中縱坐標為TPR,橫坐標為FPR。其中TPR和FPR可定義為:

(6)

式中:TP表示實際為y2預測為y2的數量;TP+FN表示實際為y2的數量;FP表示實際為y1預測為y2的數量;FP+TN表示實際為y1的數量。如圖2,ROC曲線靠近左上角,表明模型準確性較高。

圖2 決策樹模型的ROC曲線

AUC是ROC曲線與其橫軸之間的面積,取值范圍一般在0.5~1.0之間,AUC取值越接近于1,說明模型的預測價值越高。如圖2, AUC為0.93,表示該模型擬合效果比較理想,即對交通事故嚴重程度的影響因素分析有一定的參考價值,驗證了本文的有效性。

3 交通事故影響因素決策樹模型結果分析

由2.4節可知,CART決策樹模型可有效對交通事故影響因素進行分析。如圖1,決策樹由上而下為一條非閉合有向路徑,分別對應一般事故、較大及以上事故兩種輸出變量。生成樹的根節點是大型貨車,被分為兩個分支,其對應的右分支點(x15=1)表示大型貨車,左分支點(x15=0)表示車輛類型非大型貨車車輛,模型表明:

1)在交通事故形態方面,由決策樹模型左側部分,非大型貨車車輛在凹凸路面發生較大及以上刮擦事故的概率僅為13%,而發生較大及以上側面碰撞事故概率達51%;尤其在下雨天,發生較大及以上側面碰撞事故概率高達74%。綜上分析可知,側面碰撞相較刮擦碰撞更容易造成較大及以上事故。

2)在車輛類型方面,駕駛大型車輛發生較大及以上事故的概率比小型汽車、中型客車高。尤其是大型貨車,發生較大及以上事故的概率約為59%,是其他類型車輛的4倍。

3)在路面狀況方面,由決策樹模型右側部分,大型貨車在非雨天發生較大及以上事故的概率僅為12.3%;但行駛在塌陷的路面,發生較大及以上事故的概率將增加近7倍。故大型貨車遇塌陷路面行駛,駕駛員應提高警惕。

4)在交通信號控制方面,由決策樹模型左側部分,車輛雨天遇無控制交叉口時,發生較大及以上事故的概率達90%;而模型右側部分,車輛遇有信號交叉口發生事故時,事故類型均為一般事故。綜上分析可知,相比較單一的交通信號控制方式,車輛在交通信號控制方式較完善的交叉口不易發生較大及以上事故。

5)在道路安全屬性方面,由決策樹模型左側部分,當道路安全屬性為隱患路段時,發生較大及以上事故的概率為80%,是正常路段的1.25倍。

6)在不同的天氣下,雨天發生較大及以上事故的概率達95.3%;且車輛在非晴天時發生較大及以上事故概率為晴天的2.344倍。說明良好天氣下發生較大及以上事故率較惡劣天氣下低。

7)在能見度方面,大型貨車在能見度為50~100 m時,發生較大及以上事故的概率僅為20%,是能見度為200 m以上的0.388倍。說明能見度高低并不能與事故嚴重程度成正比,這和駕駛員的安全意識有很大關系。

綜上,建議駕駛員在惡劣天氣和路面狀況較差時小心駕駛,規劃好行車路線,降低交通沖突;道路安全管理部門應及時整改隱患路段,在事故多發交叉口盡量設置信號燈、標志、標線等設施,加強對大型車輛的管控和駕駛員安全意識培訓。

4 結 論

1)通過皮爾遜卡方檢驗法提取輸入變量,基于數據挖掘技術中的CART決策樹算法,結合代價復雜剪枝法,建立交通事故嚴重程度影響因素決策樹優化模型。與以往研究相比,筆者使用CART算法研究交通事故嚴重程度,較好地識別大樣本數據下交通事故嚴重程度的影響因素,為道路交通管理部門防范重大事故提供科學、合理的參考。

2)CART決策樹模型結果表明,在道路及交通環境方面,惡劣天氣、塌陷路面、道路存在隱患、交叉口無信號控制時等情況下,車輛發生較大及以上事故的概率均高于50%;在車輛方面,大型貨車發生較大及以上事故概率是其他類型車輛的4倍。故交管部門應加強對大型車輛安全管控,及時整改道路安全隱患,在事故多發交叉口設置信號燈等控制方式。

3)CART決策樹算法適用于處理大樣本數據集,在處理小樣本數據時,模型準確性會受到影響,在集成學習中使用隨機森林算法可減輕該問題,故在未來研究中,將結合兩種算法進一步提升交通事故嚴重程度的模型實用性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 99久久这里只精品麻豆| 国产欧美日韩在线一区| 亚洲免费毛片| 青青草国产在线视频| 亚洲黄色视频在线观看一区| 亚洲第一在线播放| 国产日韩丝袜一二三区| 新SSS无码手机在线观看| 高清无码一本到东京热| 欧美精品在线看| 丁香婷婷激情综合激情| 欧美乱妇高清无乱码免费| 午夜一级做a爰片久久毛片| 91网在线| 国产美女精品人人做人人爽| 国产午夜人做人免费视频| 欧美成人精品高清在线下载| 成人自拍视频在线观看| 久久综合成人| 97se亚洲综合在线韩国专区福利| 欧洲日本亚洲中文字幕| 青青久视频| 91精品国产自产在线观看| 国产91全国探花系列在线播放 | 日韩欧美国产精品| 蜜桃视频一区二区| 无码人妻免费| 一本大道香蕉中文日本不卡高清二区 | 国产亚洲欧美在线中文bt天堂 | 1769国产精品视频免费观看| 国产精品太粉嫩高中在线观看| 久久黄色免费电影| 国产欧美高清| 成人一区在线| 九九热精品视频在线| 欧美午夜在线观看| 国产福利小视频在线播放观看| 午夜免费小视频| 一区二区影院| 国产午夜在线观看视频| 国产乱子伦精品视频| 欧美一级黄色影院| 国产无人区一区二区三区| 亚洲男人天堂网址| 日韩人妻精品一区| 国产白浆一区二区三区视频在线| 在线精品亚洲一区二区古装| 精品国产成人a在线观看| 波多野结衣一级毛片| 国产精品久久精品| 中文字幕在线免费看| 91精品啪在线观看国产60岁 | 亚洲欧美日韩成人在线| 精品伊人久久大香线蕉网站| 日韩精品无码免费一区二区三区| 无码区日韩专区免费系列| 精品在线免费播放| 亚洲视频一区在线| 伊在人亞洲香蕉精品區| 国产青青操| 中文字幕永久在线看| 日韩毛片在线视频| 欧美第九页| 久草热视频在线| 精品黑人一区二区三区| 中文无码伦av中文字幕| 国产精品美女网站| 亚洲 欧美 中文 AⅤ在线视频| 午夜影院a级片| 亚洲国产系列| 国产亚洲欧美在线人成aaaa| 久一在线视频| 欧美一级大片在线观看| 亚洲第一精品福利| 亚洲精品国产精品乱码不卞| 国产正在播放| 欧美激情一区二区三区成人| 亚洲精品动漫| 亚洲午夜福利在线| 亚洲伊人电影| 2019年国产精品自拍不卡| 亚洲欧洲日产国产无码AV|