999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向不平衡數據集的SMOTENC-XGBoost駕駛人交通安全評估模型

2023-02-25 13:46:34王博文王景升吳恩重
科學技術與工程 2023年2期
關鍵詞:模型

王博文, 王景升*, 吳恩重

(1.中國人民公安大學交通管理學院, 北京 100038; 2.中國人民公安大學治安學院, 北京 100038)

中國的道路交通事故發生率及傷亡率一直處于很高的水平。據中華人民共和國交通事故統計年報顯示[1],中國在2019年共發生道路交通事故1 247.3萬起,造成62 763人死亡、256 101人受傷,直接財產損失達13.5億元。挖掘交通事故致因因素,并采取針對性的整治是降低道路交通事故發生率的重要手段。

當前,中外許多學者針對交通事故致因因素進行了研究[2-4]。王旭磊等[5]從系統安全出發,探索了公路運輸交通事故的致因因素,實驗證明,駕駛人的安全意識不足、操作不當是主要致因因素。賈曉惠等[6]利用貝葉斯網絡研究了環境因素對于公交車事故的影響,結果證明,天氣、時間等因素均可能導致交通事故。林慶豐等[7]使用Logistic回歸分析了機非交通事故中駕駛人、車輛、道路因素對駕駛人過錯及事故嚴重程度的影響。張圓等[8]依據廣東省9 886條小轎車交通事故數據,定量分析了不同性別小轎車駕駛人的交通事故影響因素,其中包含了駕駛人固有屬性因素,如年齡。Bucsuházy等[9]通過對捷克事故數據進行研究,分析了交通環境、車輛和人為因素對交通事故的影響。

此類研究僅從駕駛人固有性質,如年齡、駕齡,或道路環境因素對事故的致因進行研究。但是,交通事故的發生往往與駕駛人歷史交通行為的優劣,如駕駛人是否有酒駕、疲勞駕駛等存在安全隱患的重點駕駛行為經歷存在聯系,因此在研究交通事故致因因素時,應將駕駛人的歷史交通行為維度同時納入研究范圍[10-17]。

除此之外,在模型建立及分析過程中還存在以下問題。

(1)大多數研究忽視了交通事故的發生與否是天然的不平衡現象,獲取的數據集往往存在嚴重的數據不平衡問題。此類研究在進行數據預處理時,并未對存在的數據不平衡問題進行解釋和解決,在進行模型的評價時,也僅使用準確率作為模型效果優劣的評價指標,忽視了模型能夠將少數類個體正確識別的重要性,導致模型無效且泛化能力較低。

(2)此類研究在進行建模時多使用Logistic回歸模型對數據進行擬合,而Logistic回歸屬于天然的欠擬合模型,在對數據的分類處理能力上不及隨機森林(random forest, RF)、支持向量機(support vector machine, SVM)、極端梯度提升(extreme gradient boosting, XGBoost)等模型。

基于上述分析,從輸入維度和算法兩方面進行改進,現構建一種面向不平衡數據集的駕駛人交通安全評估模型,為相關部門進行識別交通隱患個體提供了數據支撐。對于輸入維度的改進:本文研究將從駕駛人固有性質因素、駕駛人交通行為因素兩個維度對相關的14個特征進行分析。在算法改進方面,充分考慮該任務中存在的嚴重的數據不平衡現象,使用SMOTENC算對該問題進行解決,并且構建基于不平衡數據構建XGBOOST模型,與回歸樹(decision tree, DT)、RF、SVM一同作為消融實驗的對照組,用以檢驗模型效果。

1 相關技術

1.1 XGBOOST算法

XGBOOST是一種由多個CART分類樹組成的BOOSTing類型的集成算法。相比于傳統的GBDT算法,XGBOOST算法對損失函數進行二階泰勒展

開,使用一階導數信息及二階導數信息共同決定損失函數,提高了模型的收斂速度;在損失函數中加入了正則項,用來控制模型的復雜度,防止過擬合情況出現;實行多線程并行計算,極大提升了模型的訓練速度和分類精確度。

定義XGBOOST算法的目標函數為

(1)

模型復雜度的懲罰項為

(2)

式(2)中:γ為節點切分的難度;λ為L2正則化系數;||w||為葉節點權重向量的模。

為避免過擬合現象,新生成的樹需要對上一次預測的殘差進行擬合,并通過迭代進行更新,第t輪學習輸出的預測結果表示為

(3)

(4)

式中:當F={t(x)=wq(x)}、w∈RT時,為模型的預測結果;為前一輪模型的預測值;k(xi)為第k棵回歸樹的預測值;t(xi)為參數函數;xi為第i個樣本的特征;wq(x)為葉子節點q的預測值;T為回歸樹葉節點的個數;RT為第T個葉子結點權重w的空間。結合式(1)和式(2)將目標函數使用二階泰勒展開,并將常數項移出,得出目標函數的近似公式為

(5)

定義Ij={i|q(xi)=j}為葉子節點j的實例集,由式(6)將目標函數轉化為

(6)

式(6)中:wj為葉子節點j的權重。

(7)

(8)

使用貪心算法迭代地對現有葉子結點添加分支,假設IL和IR分別為劃分后左、右子樹葉子結點的集合,I=IL∪IR,劃分后的損失函數為

(9)

1.2 SMOTENC算法

用于處理數據不平衡問題的SMOTENC算法是過采樣算法SMOTE的改進算法,可以分別處理連續數據及離散數據,處理流程可表示為如下過程。

(1)對于標簽中占比較少一類的每一個樣本(x1,x2),計算該樣本在多維空間中與其他標簽中占比較少的一類樣本點之間的距離,獲取該樣本最近的k個鄰近點(即對標簽中占比較少一類的樣本點做KNN算法)。

(2)由樣本標簽各類的比例擬定采樣倍率,對于所有標簽中占比較少的一類樣本點,從其k個鄰近點里隨機選取一些樣本,記為(x′1,x′2)。

(3)對于連續數據,對每一個上述步驟中選出的鄰近樣本,根據式(9)合成新樣本:

(X1,X2)=(x1,x2)+rand(0,1)×Δ

(10)

式(10)中:rand(0,1)為0~1的隨機數;Δ={(x′1-x1),(x′2-x2)}。

(4)對于離散數據,選取近鄰樣本中出現頻率最高的離散數據作為新的樣本值。

2 SMOTENC-XGBOOST模型

基于SMOTENC-XGBoost的駕駛人交通安全評估模型的建立流程為:①根據相關文獻研究和專家訪談結果對變量進行選取;②通過問卷調查對數據進行獲取;③對數據集中存在的缺失值進行填補;④選定因變量與自變量;⑤對基于平衡數據集建立的模型采用SMOTENC算法,對數據進行上采樣并在采樣過程中加入隨機擾動(在基于不平衡數據集建立的對照組模型的數據預處理階段則不進行此步驟);⑥使用Embedded算法結合L1正則化,通過模型評估完成對特征子集的選擇,使模型自動篩選出能夠使模型準確率較高的特征;⑦建立Logistic回歸模型,通過獲取的權重得到自變量對因變量的影響關系、自變量之間的效用關系、自變量各個取值之間的效用關系;⑧使用Python語言,基于平衡數據集建立XGBoost模型,并將基于平衡數據集建立的Logistic回歸、DT、RF、SVM及基于不平衡數據集建立的XGBoost作為對照組;⑨對比XGBoost、Logistic回歸、DT、RF及SVM模型,驗證XGBoost模型在駕駛人交通安全評估任務上的有效性;⑩對比基于不平衡數據集建立的XGBoost,驗證采用SMOTENC算法對樣本進行平衡的有效性。

其中,第①~②步用于確定研究變量,獲取數據;第③~⑤步為數據預處理階段,用于對缺失值,不平衡現象進行處理,將數據整理為模型能夠接受的數據格式;第⑥步為特征選擇階段,用于篩除無關變量及冗余變量;第⑦步用于通過獲取的權重描述自變量對因變量的影響關系、自變量之間的效用關系、自變量各個取值之間的效用關系;第⑧步建立模型;第⑨步用于驗證XGBoost模型在駕駛人交通安全評估任務上的有效性;第⑩步用于驗證采用SMOTENC算法對樣本進行平衡的有效性。

3 實驗

3.1 數據來源

根據相關文獻研究和專家訪談結果[14-16],本文研究中變量選擇為駕駛人固有性質維度,包括年齡、性別、駕駛經驗、個人年收入、車輛已使用幾年共5個變量,及駕駛人交通行為維度,包括是否有酒駕經歷、是否有疲勞駕駛經歷、是否有駕駛時抽煙經歷、行駛過程中使用手機的頻率、行駛過程中不系安全帶的頻率、當車輛損壞時是會繼續上路行駛、過去一年是否曾出現過交通事故、過去一年內曾出現交通違法的次數、過去一年內曾參與文明交通志愿者活動次數共9個變量。

變量:年齡、性別、駕駛經驗、個人年收入,從一定程度上反映著駕駛人的反應能力、駕駛能力、社會地位等固有特征。其中個人年收入影響著駕駛人面對較少數額罰款時是否積極規避處罰的態度。變量:車輛已使用幾年,一定程度上反映著車輛的性能。

變量:是否有酒駕經歷、是否有疲勞駕駛經歷、是否有駕駛時抽煙經歷、行駛過程中使用手機的頻率、行駛過程中不系安全帶的頻率、當車輛損壞時是會繼續上路行駛、過去一年是否曾出現過交通事故、過去一年內曾出現交通違法的次數,從一定程度上反映了駕駛人以往駕駛習慣的優劣。

文明交通志愿者從事交通引導工作,協助交警指揮疏導行人、非機動車,并能夠勸阻行人、非機動車闖紅燈、隨意穿行馬路等交通違法行為,在發揮著示范引領作用。變量:過去一年內曾參與文明交通志愿者活動次數,從一定程度上反映著駕駛人的交通意識,將該變量納入考察范圍有利于深化文明交通行動,提高交通參與者參與交通志愿活動的意愿,在實際行動中提高交通意識。

通過問卷星平臺發放問卷,最終收集1 020份問卷。其中不含缺失值的樣本1 009份,占98.92%。本文將特征:過去一年是否發生過交通事故作為標簽。將壞個體定義為:過去一年發生過交通事故的個體,并編碼為1;好個體定義為:過去一年未發生過交通事故的個體,編碼為0。

3.2 數據預處理

缺失值。因含有缺失值的樣本占比較少,所以將含有缺失值的樣本刪除。

變量的所屬維度、名稱、類型等情況如表1所示。

將變量“過去一年是否曾出現過交通事故”作為標簽,取值類型為“是”編碼為1,取值類型為“否”編碼為0,其余變量作為特征。

表1 變量基本情況Table 1 Basic information of variables

標簽“過去一年是否曾出現過交通事故”的兩個取值類別存在嚴重的不平衡現象。對于基于平衡數據集建立的模型,在數據預處理階段采用SMOTENC算法,對數據進行上采樣并在采樣過程中加入隨機擾動。平衡樣本之前,樣本個數為1 009個。其中標簽為1的個體占樣本總量的1.68%。標簽為0的個體占樣本總量的98.32%。使用SMOTENC算法對數據進行平衡后,樣本個數為2 017個,標簽為1的個體與標簽為0的個體之間的比例約為1∶1。在基于不平衡數據集建立的對照組模型的數據預處理階段則不進行此步驟。

3.3 特征選擇

使用Embedded算法結合L1正則化,通過模型評估完成對特征子集的選擇,使模型自動篩選出能夠使模型準確率較高的特征。模型準確率與超參數C的學習曲線如圖1所示。

由圖1可知,當C=0.51時特征選擇后的準確率穩定大于特征選擇前。此時共有6個特征被保留,分別為性別、駕駛經驗、是否有酒駕經歷、是否有疲勞駕駛經歷、行駛過程中違規使用手機頻率、過去一年內曾出現交通違法的次數。

圖1 模型準確率與超參數C的學習曲線Fig.1 Model accuracy and learning curve of hyperparameter C

3.4 變量解釋

為對變量之間的關系進行解釋,使用Logistic回歸以過去一年是否曾出現過交通事故為標簽,以性別、駕駛經驗、是否有酒駕經歷、是否有疲勞駕駛經歷、行駛過程中違規使用手機頻率、過去一年內曾出現交通違法的次數為特征建立模型。

二元Logistic回歸的一般形式為

(11)

g(x)=θ0+θ1x1+…+θnxn

(12)

式中:n為樣本個數;θn為每個特征的權重;xn為每個樣本的特征矩陣。

在擬合訓練集求解參數時,使用損失函數作為信息損失的指標,模型擬合訓練數據越好,損失函數就越小,得到的參數組合越好。損失函數定義為

(13)

模型求解過程使用梯度下降法,設置最大迭代次數為100控制迭代進程。模型的參數檢驗情況如表2所示。

通過對過去一年是否曾出現過交通事故的二元然比卡方值為130.537,自由度為10,通過查卡方檢驗臨界值表得,當顯著性水平為0.05時,卡方臨界值為18.307。因模型的卡方值為130.537,大于卡方臨界值,且顯著性小于0.05,因此模型通過了模型系數的綜合檢驗。

通過對模型進行Hosmer和Lemeshow檢驗,得到卡方值為0.069,自由度為6,通過查卡方檢驗臨界值表得,當顯著性水平為0.05時,卡方臨界值為12.592。因模型的卡方值為0.069小于卡方臨界值,且顯著性小于0.05,因此模型擬合度較好。

該模型通過了參數檢驗、模型系數綜合檢驗和擬合優度檢驗,模型有意義,可以解釋變量之間的相關關系,模型最終分類準確率為98.47%,分類效果好。由表3得出以下結論。

(1)駕駛人固有性質因素維度。男性駕駛員發生交通事故的概率是女性駕駛員的1.667倍;隨著駕駛經驗的增長,駕駛人發生交通事故的風險呈下降趨勢。

表2 參數檢驗表Table 2 Parameter check list

(2)駕駛人交通行為因素維度。有酒駕或疲勞駕駛經歷的駕駛人,發生交通事故的概率分別為無酒駕或疲勞駕駛經歷駕駛人的1.092、3.135倍。在行駛過程中違規使用手機頻率及過去一年內曾出現交通違法的次數上,駕駛人發生交通事故的概率均為隨著頻率的升高或次數的增加而增大。且相比于駕駛時較少違規使用手機的駕駛人,經常違規使用手機的駕駛人發生交通事故的概率為其1.717倍。

3.5 模型對比

將基于平衡數據集建立的Logistic回歸、DT、RF、SVM及基于不平衡數據集建立的XGBOOST作為對照組。

本文用于實現模型的計算機語言均為Python。XGBOOST模型的建立基于XGBOOST庫的XGBClassifier接口,模型的參數為默認值;Logistic回歸、DT、RF、SVM的建立均基于sklearn庫,模型的參數為默認值。

按照7∶3的比例劃分訓練集和測試集,在訓練過程中采用10折交叉驗證。模型的準確率對比如表3所示。

由表3得,相較于Logistic回歸、DT、RF及SVM,XGBOOST模型的準確率更高,準確率提升了0.37%~1.38%。除此之外,相較于基于不平衡數據集建立的XGBOOST模型,基于平衡數據集建立的XGBOOST模型準確率提升了0.75%。

分別繪制基于不平衡數據集和平衡數據集建立的XGBOOST模型的混淆矩陣如圖2所示。

圖2中左上角為真負類,表示樣本的真實類別是0,并且模型將其識別為0;右上角為假負類,表示樣本的真實類別是1,但是模型將其識別為0;左下角為假正類,表示樣本的真實類別是0,但是模型將其識別為1;右下角為真正類,表示樣本的真實類別是1,并且模型識別的結果也是1。

由圖2得,對于不平衡數據集的測試集中的5個壞個體,XGBOOST模型將其中的3個壞個體分類錯誤,而對于平衡數據集的測試集中的318個壞個體,XGBOOST模型將所有壞個體正確分類。因此,在駕駛人交通安全評估任務上,采用SMOTENC算法對樣本進行平衡,并使用XGBOOST算法對數據進行擬合得到的效果更好,更適用于評判駕駛人是否有交通事故發生的傾向性。

表3 模型的準確率對比Table 3 The accuracy comparison of the model

圖2 混淆矩陣Fig.2 confusion matrix

4 結論

本文研究的創新點具體體現在3個方面。

(1)將研究駕駛人的歷史交通行為,如駕駛人是否有酒駕經歷、是否有疲勞駕駛經歷等因素,結合駕駛人固有特征及車輛狀態,同時納入交通致因因素的研究范圍,對管理部門開展針對性整治活動提供理論支撐。

(2)充分考慮該任務中存在的嚴重的數據不平衡現象,使用SMOTENC算對該問題進行解決,并且構建基于不平衡數據構建XGBoost模型作為消融實驗的對照組,以準確率、混淆矩陣共同作為模型的評價指標,通過實驗證明數據不平衡在模型擬合時所造成的問題。

(3)使用機器學習的方法構建模型,以Logistic回歸、DT、RF、SVM作為 對照組,以準確率作為模型的評價指標,通過實驗證明XGBoost模型在解決該問題上的優越性。

(4)由實驗得,隨著駕駛經驗的增長,駕駛人發生交通事故的概率先升后降,說明老年駕駛人可能因視力狀況、反應速度、認知能力等方面存在不適合繼續駕駛的情況,所以之后的研究可以圍繞老年駕駛人是否能夠繼續駕駛進行展開。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线观看热码亚洲av每日更新| 97在线国产视频| 不卡国产视频第一页| 99久久99这里只有免费的精品| 中文字幕永久视频| 四虎永久在线视频| 人妻丰满熟妇啪啪| 99免费视频观看| 在线国产91| 亚洲精品视频在线观看视频| 国产日本欧美在线观看| 亚洲v日韩v欧美在线观看| 男人的天堂久久精品激情| 国产精品视频猛进猛出| 国产人人射| 国产成人无码AV在线播放动漫| 激情五月婷婷综合网| 亚洲精品在线观看91| 亚洲经典在线中文字幕| 尤物在线观看乱码| 国产天天射| 久久综合久久鬼| 国产麻豆福利av在线播放| 国产精品所毛片视频| 亚洲一区黄色| 五月六月伊人狠狠丁香网| 久久亚洲精少妇毛片午夜无码| 欧美啪啪精品| 欧美激情视频二区三区| 国产国产人成免费视频77777 | 无码高清专区| 毛片网站在线看| 国产精品亚洲片在线va| 亚洲男人的天堂久久香蕉网| 日韩人妻少妇一区二区| 国产精品第一区在线观看| 国产网站免费看| 极品国产一区二区三区| 久久综合色天堂av| 成人另类稀缺在线观看| 欧美成人日韩| 狼友视频国产精品首页| 欧美无专区| 久青草免费在线视频| 久久免费看片| 亚洲 欧美 偷自乱 图片| 五月天久久综合| 午夜国产大片免费观看| 日韩欧美在线观看| 青青青国产免费线在| 国产成人精品一区二区不卡 | 亚洲色图欧美在线| 色亚洲成人| 久久午夜夜伦鲁鲁片无码免费| 男女猛烈无遮挡午夜视频| 9丨情侣偷在线精品国产| 欧美性久久久久| 久久久91人妻无码精品蜜桃HD| 国产成人亚洲毛片| 国产xx在线观看| 尤物成AV人片在线观看| 99草精品视频| 91在线无码精品秘九色APP| 亚洲不卡网| 亚洲精品你懂的| 重口调教一区二区视频| 国产成人一区免费观看 | 国产欧美专区在线观看| 婷婷午夜天| 日本精品αv中文字幕| 亚洲 成人国产| 国产91精品最新在线播放| 漂亮人妻被中出中文字幕久久| 一级不卡毛片| 国产精品对白刺激| 亚洲精品成人福利在线电影| 四虎成人免费毛片| 波多野结衣亚洲一区| 亚洲不卡影院| 狠狠ⅴ日韩v欧美v天堂| 久久a级片| 欧美色99|