程錦寶 石 琴 陳一鍇 丁晶晶
(1.合肥工業大學汽車與交通工程學院 合肥 230009)(2.合肥工業大學管理學院 合肥 230009)
基于樹增強樸素貝葉斯分類器的出租車制動系統安全狀態預測?
程錦寶1石 琴1陳一鍇1丁晶晶2
(1.合肥工業大學汽車與交通工程學院 合肥 230009)(2.合肥工業大學管理學院 合肥 230009)
制動系統故障是引發出租車交通事故的主要原因之一,預測出租車制動系統的安全狀態對于主管部門維護管理出租車、減少道路交通傷亡和經濟損失具有重要意義。論文基于合肥某機動車安全技術檢測站提取的335組出租車制動系統檢測數據,以品牌、使用年限和整備質量為屬性變量,分別構建樹增強樸素貝葉斯分類器模型、決策樹模型、K近鄰模型預測出租車制動系統的安全狀態。結果表明,樹增強樸素貝葉斯分類器模型的預測準確率、靈敏度、特異性均優于決策樹模型和K近鄰模型,可準確預測出租車制動系統的安全狀態。
樹增強樸素貝葉斯;出租車制動系統;安全狀態
隨著城市交通系統的快速發展,出租車引發的道路交通事故受到越來越多的關注。2015年,我國共發生出租車交通事故4489起,造成750人死亡、4765人受傷,分別占生產經營車輛交通事故的11.3%、3.9%和12.3%;而在所有機動車安全狀態不良引發的交通事故中,制動不良、制動失效的事故分別占53.5%和16.6%[1]。因此,學者們針對汽車制動系統故障與交通事故間的關系開展了一系列研究。劉靜等運用Logistics理論,建立了車輛機械故障與交通事故嚴重性之間的量化模型,指出相對于轉向失效、失去動力及其他機械故障,車輛制動失效導致人員死亡事故的概率較大[2]。駱穎哲運用灰聚類評價法,對汽車故障所引發交通事故風險等級進行評估,分析表明制動失效和制動不良易導致高風險等級的道路交通事故;并綜合運用層次分析法與模糊評價法,建立了汽車底盤故障事故模糊綜合評價模型,結果表明制動系統故障易導致重大交通事故[3]。
由上述研究可知,出租車制動系統的安全性與道路交通事故密切相關,預測出租車制動系統是否處于良好安全狀態,加強對可能存在安全隱患車輛的維護管理,是提高出租車行駛安全性和減少道路交通事故的重要方法。
樹增強樸素貝葉斯(Tree Augmented Naive Bayesian,TAN)分類器作為樸素貝葉斯[4](Naive Bayesian)分類器的擴展,相比決策樹和K近鄰等機器學習算法,可有效利用變量之間的相關關系,整合專家知識經驗,揭示模型預測的不準確性風險[5~6]。當前,在諸如醫學,社會學,食品安全等眾多領域,TAN分類器作為預測方法具有較好的表現[7~9]。然而,在車輛制動系統安全狀態預測領域還未見應用和報道。
本文基于2016年合肥某機動車安全技術檢測站1月份的294組出租車制動系統檢測數據,運用相關性分析,選取基本信息中與制動系統安全狀態相關性較大的變量,作為TAN分類器模型的屬性變量。運用最大期望值算法(EM)構建TAN分類器模型,用于預測車輛制動系統安全狀態,并使用來自2月份的41組檢測數據檢驗該模型的預測精度。最后,通過與決策樹模型和K近鄰模型的對比,分析了三種方法的預測準確率、靈敏度和特異性。
采用合肥市某機動車安全技術檢測站2016年1~2月的353組出租車制動系統檢測數據作為研究樣本,依據樣本數據生成時間先后順序[9~10],選取1月份的294組(88.6%)數據作為訓練樣本,2月份的41組(11.4%)數據作為測試樣本。每個樣本數據包括車輛基本信息(車身顏色、車輛輪距、車輛品牌、車輛整備質量、車輛使用年限等)和檢測結果數據(各軸制動力、左右輪制動力最大差值、各軸制動率、各軸不平衡率及駐車制動率等)。檢測結果數據中各軸制動率、不平衡率及駐車制動率等某一項不合格車輛,即視為制動系統安全狀態較差車輛,各項均合格車輛視為安全狀態良好車輛。
運用相關性分析,選取車輛基本信息中,與制動系統狀態相關系數絕對值大于0.1的三項[11],車輛品牌、使用年限和整備質量作為TAN分類器模型的屬性變量。
TAN分類器是Friedman在Chow和Liu依賴樹的基礎上建立[12],是樸素貝葉斯分類器的樹形依賴擴展,能夠有效利用屬性變量之間的依賴信息,當屬性變量和類變量之間具有相對星形結構更復雜的依賴結構時,可得到更好的分類預測效果。
TAN分類器結構中,類結點是每一個屬性結點的父結點,屬性結點之間形成一棵最大權重跨度樹。一個簡單的TAN分類器模型如圖1所示。

圖1 TAN分類器模型示意圖
TAN分類器結構需要學習,學習過程如下:
1)在各屬性結點間建立無向邊,并計算屬性變量Xi、Xj之間的條件互信息:

其中,I(Xi,Xj|C)作為邊的權重,Xi、Xj表示屬性變量,C表示類變量,xi、xj表示屬性變量Xi、Xj的取值,c表示類變量C的取值。
2)依據不產生回路的原則,按照邊權重由大到小的順序選擇邊,直到選取n-1條邊,構建最大權重跨度樹,其中,n為屬性變量數目。
3)選擇一個結點作為根節點,設置所有邊的方向是由根節點向外的方向,把無向樹轉變為有向樹。
4)增加一個類結點及類結點指向所有屬性結點的有向邊[13]。
TAN分類器中,對于未知類別樣本X=(X1,…,Xn),由貝葉斯公式,計算其后驗概率p(c|x1,…,xn),選擇使其后驗概率最大的類變量取值c,作為類變量預測值:

其中,c作為類變量C的預測值,(X1,…,Xn)為屬性向量,c(x1,…,xn)表示在屬性向量 (X1,…,Xn)取值為x1,…,xn時類變量C的取值,GT表示在類變量C約束下(X1,…,Xn)的最大權重跨度樹,π(xi)是在最大權重跨度樹中 Xi的屬性父節點∏(Xi)的取值。
本文基于294組訓練樣本,采用R軟件使用最大期望值算法(EM)學習TAN分類器模型結構及其參數[14],其結構如圖2所示。所建TAN分類器模型中的變量包括車輛品牌、使用年限、整備質量和安全狀態,變量的含義及取值如表1所示。其中變量“安全狀態”為類變量,其他變量為屬性變量。

圖2 構建的TAN分類器預測模型

表1 TAN分類器模型變量
本文使用41組測試樣本檢驗所建TAN分類器模型預測效果。表2顯示了用于預測的出租車基本信息和模型預測結果。

表2 41組測試樣本的部分預測
結果表明,TAN分類器模型正確預測了41組中35組樣本安全狀態,其預測準確度為85.4%,其預測靈敏度、特異性分別86.7%、83.3%(見表3),所建TAN分類器模型在預測出租車制動系統安全狀態良好與否方面具有良好表現。

表3 各模型預測結果對比
決策樹方法是以實例為基礎的歸納學習算法,采用自頂向下的遞歸方式,在決策樹的內部節點進行屬性值的比較,并根據不同的屬性值判斷從該節點向下的分支,在決策樹的葉節點得到結論[15],從而生成決策樹分類模型,利用生成的模型對待分類樣本進行分類。本文采用CART決策樹算法中的Gini系數作為分支劃分標準:

其中,T為訓練樣本集,m為訓練樣本類別數,pi為類別ci在樣本集T中的出現概率。
K近鄰方法是基于實例學習的非參數預測算法,通過計算待分類樣本與訓練樣本之間的距離,選出與待分類樣本距離最近的K個訓練樣本,K個樣本中出現次數最多的類別,即為該待分類樣本的預測類別。本文所用樣本間距離為歐氏距離:

其中,X、Y分別為待分類樣本和訓練樣本,d(X,Y)為樣本 X 、Y 之間的距離,(x1,…,xn)、(y1,…,yn)分別為 X、Y特征向量值。
分別使用TAN分類器、決策樹和K近鄰方法構建的模型,對41組測試樣本進行預測,預測結果如表3所示。本文以準確率、靈敏度和特異性為預測效果的評價指標,其中,準確率表示模型對全部樣本預測的正確率;靈敏度表示模型對實際狀態“良好”樣本的預測正確率;特異性表示模型對實際狀態“較差”樣本的預測正確率。
結果表明,所建TAN分類器模型的預測準確率相對于K近鄰模型提高了6.1%,相對于決策樹模型提高了3.0%;靈敏度相對于K近鄰模型提高了8.4%,相對于決策樹模型提高了30%;特異性相對于K近鄰模型提高了11.1%,與決策樹模型相同。體現了所建TAN分類器模型在預測方面的實用性及優越性。
本文基于2016年合肥某機動車安全技術檢測站的335組出租車檢測數據,針對決策樹和K近鄰等機器學習算法,難以有效利用變量間相關關系、揭示模型預測不準確性風險的問題,運用期望最大化算法,構建了用于預測出租車輛制動系統的安全狀態的TAN分類器模型,并通過與決策樹模型和K近鄰模型的預測效果對比,體現了所建TAN分類器模型在預測出租車制動系統安全狀態方面的實用性與優越性,可為相關主管部門管理、維護出租車輛提供理論指導,預防因制動系統故障引發的道路交通事故。
[1]公安部交通管理局.中華人民共和國道路交通事故統計年報(2015年度)[R].無錫:公安部交通管理科學研究所,2016.Ministry of Public Security Traffic Administration Bureau.The People's Republic of China Road Traffic Accident Sta?tistics Annual Report(2015)[R].Wuxi:Ministry of Pub?lic Security Traffic Administration Science Research Insti?tute,2016.
[2]劉靜,馮忠祥,趙汝海.車輛機械故障與交通事故嚴重性關系模型[J].安徽理工大學學報,2016,36(1):25-29.LIU Jing,FENG Zhongxiang,ZHAO Ruhai.The Model of Relationship between Vehicle Mechanical Failures and Accidents Severity[J].Journal of Anhui University of Sci?ence and Technology(Natural Science),2016,36(1):25-29.
[3]駱穎哲.汽車故障事故風險評價方法研究[D].哈爾濱:東北林業大學,2014.LUO Yingzhe.Research of Risk Evaluation Methodology of Automobile Failure Accident[D].Harbin:Northeast Forestry University,2014.
[4]PEARL J.A constraint propagation approach to probabilis?tic reasoning[A].In:KANAL L N,LEMMER J F.Pro?ceedings of the First Conference Annual Conference on Uncertainty in Artificial Intelligence[C]//Corvallis:AUAL Press,1988:31-42.
[5]BURITICA J A,TESFAMARIAM S.Consequence-based framework for electric power providers using Bayesian be?lief network[J].International Journal of Electrical Power and Energy Systems,2015,64(0):233-241.
[6]GENC O,DAG A.A Bayesian network-based data analyt?ical approach to predict velocity distribution in small streams[J].Journal of Hydroinformatics,2016,18(3):466-480.
[7]肖利洪,陳沛然,李梅,等.TAN貝葉斯網絡模型在前列腺癌中的預測研究[J].中華男科學雜志,2016,22(6):506-510.XIAO Lihong,CHEN Peiran,LI Mei,et al.Tree-Aug?mented Naive Bayesian network model for predicting pros?tate cancer[J].National Journal of Andrology,2016,22(6):506-510.
[8]伍杰華.基于樹狀樸素貝葉斯模型的社會網絡關系預測[J].計算機應用,2013,33(11):3134-3137.WU Jiehua.Tree augmented Naive Bayesians model for ties prediction in social networks[J].Journal of Computer Applications,2013,33(11):3134-3137.
[9]BOUZEMBRAK Y,MARVIN H J P.Prediction of food fraud type using data from Rapid Alert System for Food and Feed(RASFF)and Bayesian network modeling[J].Food Control,2016,(61):180-187.
[10]ZHANG Y,ZHAO H,HE X,et al.Bayesian prediction of earthquake network based on space-time influence do?main[J].Physica A,2016(445):138-149.
[11]SUN L,SHENOY P P.Using Bayesian networks for bankruptcy prediction:Some methodological issues[J].European Journal of Operational Research,2007,180(2):738-753.
[12]FRIEDMAN N,GEIGER D,GOLDSZMIDT M.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163.
[13]王雙成.貝葉斯網絡學習、推理與應用[M].上海:立信
會計出版社,2010:146-152.
WANG Shuangcheng.Learning,Inference and Applica?tion of Bayesian Network[M].Shanghai:LIXIN Accoun?tant Express,2010:146-152.
[14]DEMPSTER A P.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statis?tical Society.Series B:Methodological,1977,39(1):1-38.
[15]孫英云,何光宇,翟海青,等.一種基于決策樹技術的短期負荷預測算法[J].電工電能新技術,2004,23(3):55-59.SUN Yingyun,HE Guangyu,ZHAI Haiqing,et al.A short-term load forecasting method based on decisiontree approaches[J].Advanced Technology of Electrical Engineering and Energy,2004,23(3):55-59.
Prediction of the Working Condition of Taxi's Braking System based on Tree Augmented Naive Bayesian Classifier
CHENG Jinbao1SHI Qin1CHEN Yikai1DING Jingjing2
(1.School of Automotive and Transportation Engineering,Hefei University of Technology,Hefei 230009)(2.School of Management,Hefei University of Technology,Hefei 230009)
The malfunction of the braking system is a main cause of the taxis'accidents on the road,therefore,predicting the working condition of taxi's braking system is meaningful for the management and maintenance on the taxis,reducing the casualty and economic losses caused by traffic accidents.This study is based on the database of 335 cases which is extracted from one of the Hefei Motor Vehicles Safety Technology Inspection stations.Based on three basic vehicle parameters-age,brand and weight,this study builds Tree Augmented Naive Bayesian Classifier(TAN)model,Decision Tree(DT)model and K Nearest Neighbors(KNN)model to predict the working condition of taxi's braking system.The results show that the TAN model outperforms the other two mod?els with higher accuracy,sensitivity and specificity,thus with a good performance the proposed TAN model can be employed to pre?dict the working condition of taxi's braking system usefully.
tree augmented naive bayesian classifier(TAN),taxi's braking system,working condition
Class Number TP393
TP393
10.3969/j.issn.1672-9722.2017.12.029
2017年6月15日,
2017年7月19日
安徽省科技攻關計劃項目(編號:1501b042211)資助。
程錦寶,男,碩士研究生,研究方向:載運工具運用與交通安全。石琴,女,博士,教授,博士生導師,研究方向:車輛工程。陳一鍇,男,博士,副教授,碩士生導師,研究方向:車輛工程,結構工程。丁晶晶,男,博士,副教授,碩士生導師,研究方向:統計與決策科學。