賈興林
(對外經濟貿易大學統計學院 北京市 100029)
通過對駕駛員進行管理是預防交通事故,實現交通安全的有效途徑。一方面,在人、車、道路組成的復雜交通環境中,人為因素是導致道路交通事故并產生事故傷害的最主要因素[1]。另一方面,已有研究表明,一部分駕駛人存在“事故傾向性”更易發生交通事故[2]。而對駕駛人行為進行監控、分析是進行駕駛員管理的基礎。隨著車聯網、通信技術的發展,出租車運行中的大量數據被采集和存儲,以及大數據處理和分析技術的快速發展,為出租車駕駛員行為分析奠定了基礎。
駕駛人的駕駛行為受到駕駛習慣的影響,并且在駕駛過程體現出來,但目前已有研究主要集中在駕駛人的異常行為監控識別上。文獻[3]在OBD 數據的基礎上,對駕駛人猛踩油門、平均加速度等操作行為進行了研究和討論。文獻[4]利用車輛GPS 數據通過高速道路上車輛的速度、加速度等數據識別駕駛人的超速、逆行、緊急制動等行為預測和分級預警?,F有駕駛人分析研究中通常會結合車載傳感器、視頻、道路限速等信息進行異常行為的識別,數據采集成本較高。文獻[10]對利用浮動車輛GPS 數據對駕駛人的相對異常行為指標的定義和計算進行了研究。總體而言,對出租車駕駛人長期駕駛中表現的駕駛行為習慣進行分析研究尚較少。
本文以出租車長期積累的GPS 數據為基礎,對出租車駕駛人行為數據分析的方法進行了研究。首先,介紹了車輛GPS 數據預處理的技術。然后,重點研究了基于時空領域多車輛GPS 數據的相對駕駛行為特征指標設計和計算的問題,討論了駕駛人的行為數據分析的方法。最后以四川某地市的實際出租車GPS 數據,對駕駛人的行為進行了實證分析。
本文以時空鄰域內多車輛的GPS 數據為核心對駕駛人的行為進行分析??紤]到在同一時刻雙向道路間的實際交通狀況差異,需通過匹配道路信息以提高空間鄰域分析的精度。本節將對車輛GPS和交通道路網絡數據進行介紹。
1.1.1 車輛GPS 數據
隨著衛星定位技術(GPS)在出租車管理及監控中的廣泛應用,車輛GPS 數據也被大量采集。車輛的單條GPS 數據通常包含了車輛編號、時間、所處經緯度、速度、車頭方向等車輛的瞬時信息,如表1 所示。
GPS 數據中的時間信息和經緯度信息代表了車輛的時空信息,速度、車頭方向等信息表達了車輛的狀態特征。由一系列具有時空屬性的GPS 數據點形成了車輛的運行軌跡,稱為車輛的GPS 軌跡。本文通過對車輛的長期運行的GPS 軌跡數據的分析,實現對駕駛人的超速、變道、加減速等駕駛行為習慣的刻畫和分析。
1.1.2 道路網絡拓撲數據

圖1:車輛GPS 數據預處理流程

圖2:基于HMM 的道路匹配流程
車輛GPS 數據的經緯度信息表達了車輛的空間位置,但道路通常是雙向,且同一時刻不同方向上的交通狀況差異可能是巨大的。而單點的GPS 經緯度信息并不能區分出車輛所在道路,因此需將GPS 軌跡數據與道路信息進行匹配。
本文采用開源的wiki 地圖OpenStreetMap(OSM)數據作為地圖數據,并從中解析出道路網絡拓撲信息[12]。所解析出的道路網絡數據可以區分出道路的方向信息,同一道路的相反方向采用不同道路編號予以區分。
對GPS數據進行預處理是進行駕駛人行為分析的基礎。一方面,受定位精度、天氣因素、障礙物、電磁環境等因素的影響,車輛的GPS 數據會產生一定偏移或丟失,需要對GPS 數據的數據項進行處理。另一方面,在駕駛人駕車、休息等不同狀態下GPS 數據均會持續記錄,需對GPS 軌跡數據進行處理。通常車輛GPS 軌跡數據的預處理包括異常數據處理、停留點發現、數據插值、數據壓縮、地圖匹配、數據過濾等操作[5][6]。
本文基于出租車GPS 數據特點及駕駛人行為分析的需要,采用如圖1 所示數據預處理流程進行GPS 數據預處理。
1.2.1 GPS 數據處理
GPS 數據預處理主要針對GPS 數據中各數據項的異常值及重復值進行處理,包括:空間坐標異常點檢測及處理,單指標異常值檢測,重復記錄檢測及處理。
(1)空間坐標異常數據處理??臻g異常包括由于信號原因造成數據偏移會出現GPS 數據的空間坐標偏移現象,以及遠超出正常行駛空間范圍的GPS 記錄兩種情況。對坐標偏移問題可采用均值過濾算法[7]予以處理,對不合理空間范圍的少量坐標點采用直接剔除的處理方法。

表1:車輛GPS 數據示例

表2:駕駛人的行為特征指標

圖3:對原始特征采用PCA 降維處理后的聚類結果可視化展示
(2)重復記錄處理。GPS 數據的重復記錄是指同一車輛在同一時刻有兩條及以上完全相同的數據記錄。出現這種情況可能與網絡傳輸異常等因素相關。對這類數據的處理方法是:異常僅保留第一條記錄,其它記錄予以刪除。
(3)單指標異常數據處理。單指標異常處理主要指GPS 數據中的速度、方向數據項的異常值進行處理,可采用基于業務或統計的方法進行識別和處理。本研究僅對車輛GPS 數據中車頭方向不在0~360,車輛速度不在0~120km/h 的記錄予以刪除。
1.2.2 GPS 軌跡預處理
GPS 軌跡預處理主要針對車輛的GPS 軌跡數據序列進行處理,以更好反映車輛駕駛人駕駛行為特點。主要包括:停留點發現、GPS 軌跡數據分割、GPS 軌跡數據地圖匹配三方面。
(1)GPS 軌跡的停留點。受駕駛人休息、交通擁堵等因素的影響,車輛可能會長時間停留在某個位置,該部分GPS 數據并不能反映駕駛人的真實駕駛行為,因此應予以識別。本文采用基于時空聚類的停留點檢測算法[8]進行GPS 數據中停留點的檢測,并將停留點的GPS 記錄予以剔除。
(2)GPS 軌跡數據分割。在車輛GPS 數據采集設備出現故障或經停留點處理后的軌跡數據中,會出現車輛軌跡在時空上中斷、不連續的情況。這種不連續的軌跡數據會影響軌跡數據地圖匹配的準確性,進而影響行為分析的結果。因此需從原始的GPS 軌跡中識別出相應的連續子軌跡序列,即對GPS 軌跡進行分割。軌跡數據分割算法包括tdbscan[9]等。
(3)GPS 軌跡數據的地圖匹配。車輛GPS 數據僅有車輛自身的時空及速度等信息,而通過將車輛GPS 數據映射到道路交通網絡上,能夠利用該路段上同時段多輛車的GPS 數據,對駕駛人的相對駕駛行為進行刻畫。地圖匹配的常見算法包括局部算法、HMMM、ST-Matching、IVVM 等[7]。本文采用基于隱馬爾可夫(HMM)的地圖匹配算法,將經過軌跡分割后的子軌跡數據分別與道路網絡進行匹配,流程如圖2 所示。
經1.2 章節的數據預處理,得到了可用于駕駛人行為指標計算的基礎數據,在原有GPS 數據的基礎上新增了GPS 子軌跡編號、道路編號信息。
駕駛行為分析主要是為了對駕駛過程中的超速、變道、急加速/剎車等操作進行識別。本文提出以時空鄰域內多車輛GPS 數據為核心對駕駛人的超速、變道、加減速行為進行分析,主要方法是:通過將目標車輛GPS 數據與同時段、同一道路上的多車輛的GPS進行比較,提取相對行為指標,進而得到駕駛人的駕駛行為特征。
本文的駕駛人行為特征主要包括:相對超速行為、變道行為、變速(加速/剎車)。
2.1.1 相對超速行為
考慮到在道路限制速度數據獲取難度,以及道路通行狀況隨著事故、擁堵等因素實際道路的允許最大速度是不斷變化的。本文通過將時空鄰域內多車輛的平均速度作為參照對目標車輛的相對速度進行轉換,作為相對超速行為的識別方法。
首先,計算出駕駛人在不同時刻的相對超速傾向。相對超速傾向是某個車輛與時空鄰域(一段時間內同一道路上)所有車輛的平均速度的比值,計算公式為:

其中,si,t,r表示第i輛車在t時刻在道路r上的相對超速行為指標;
vi,t,r表示第i 輛車在t 時刻的速度;表示t 時刻的w 時間領域內道路r 上所有出租車數,僅對的時刻進行計算;表示該時段中該路段的平均速度。
然后,通過對第i 輛車所有si,t,r進行統計概括得到駕駛人的超速行為特征,包括:均值avg_si、標準差std_si、最大值max_si、中位數median_si。
2.1.2 變道行為分析
變道行為分析主要對駕駛人在駕駛過程中變道的習慣傾向進行評估。本文通過將車輛在每條道路上車頭方向的標準差與同一道路上所有駕駛人車頭方向的標準差的進行比較分析,判斷該駕駛人在該路段上相對變道行為。
首先,計算駕駛人在每條道路上的相對變道行為指標,計算公式為:

其中,di,r表示第 輛車在道路r 上的變道行為指標,為第i輛車在道路r 上方向角的標準差,表示經過r 道路的所有車輛方向角的平均標準差。
然后,通過對di,r進行統計概括得到駕駛人的變道行為特征,包括:均值avg_di、標準差std_di、最大值max_di、中位數median_di。
2.1.3 變速行為
本文將車輛短時間加速度[8]的絕對值作為駕駛人變速(加速/剎車)行為的評估指標,計算方式如下:

其中,ai,t,r表示車輛i 在t 時刻在r 路段的加速度絕對值,單位m/s2;vi,t,r表示車輛i 在t 時刻r 路段上的車速,vi,t-w,r表示車輛i 在w 時間鄰域內在道路r 上的車速;w 表示GPS 記錄的時間窗口。
通過對所有ai,t,r進行統計概括得到駕駛人的變速行為特征,包括:均值avg_ai、標準差std_ai、最大值max_ai、中位數median_ai。
基于車輛歷史GPS 數據的駕駛人駕駛行為數據分析的主要目的是:幫助車輛運營管理公司提升管理效率。2.1 定義了基于車輛GPS 數據的相對行為指標,可基于這些指標進行后續數據分析工作。
(1)可對駕駛人的駕駛行為指標進行統計分析。一方面,通過計算每個駕駛人各項行為指標的均值、方差、四分位數的統計特征,得到駕駛人的行為概括,同時可結合多種統計圖形、可視化技術進行分析。另一方面,可與時間、道路等維度進行關聯統計分析,以分析駕駛人的危險駕駛行為與時間、道路的關系。
(2)可利用上述駕駛行為特征數據對駕駛人進行分群能夠幫助管理團隊更好認識駕駛人,提升管理效率。而聚類分析是一種無監督學習方法,利用相似性或距離計算將樣本數據劃分為多個簇,簇中差異盡量小,簇間差異盡量大[10][11]。常用的聚類算法包括k-means、分層聚類、基于密度聚類等。本文在駕駛人行為指標的基礎上,采用k-means 算法對駕駛人進行聚類分析。
本節中將以四川某市的出租車GPS 數據為基礎,對駕駛人的行為指標進行計算,對駕駛人行為進行分析。
數據來源于四川某市的營運車輛監控平臺,分析所抽樣數據包含79 輛出租車79 位駕駛人在2018年9月29日至2019年2月16日期間的1486.3058萬條GPS記錄,車輛GPS數據采樣周期為10秒。采用1.2 數據預處理方法處理后,保留1046 萬多條有效GPS 記錄進行駕駛人行為特征指標計算和后續分析。
設置相對超速行為指標計算的時間窗口w=10 分鐘,變速行為指標的時間窗口w=10 秒,根據2.1 中駕駛人行為特征指標計算公式對駕駛人行為特征進行提取。
對表2 特征數據進行歸一化操作后,采用k-means 算法將駕駛人分層3 類。聚類結果如圖3 所示。
從聚類結果可以發現:cluster_2 駕駛人在最大變速指標上明顯高于其他兩類駕駛人,說明該類駕駛人的急加速/減速行為較多;cluster_3 類駕駛人最大相對速度指標要高于其他兩類,說明該類駕駛人相對而言高速行為更多。
本文對以車輛GPS 數據為基礎對出租車駕駛人的行為分析問題進行了研究。在車輛GPS 數據進行預處理的基礎上,提出了基于時空鄰域中多車輛的相對駕駛行為特征計算方法,提出了相對車速、變道傾向、變速(加速/剎車)三類行為的計算指標和統計特征。最后對駕駛人行為數據的分析方法進行了簡要說明。實證分析的結果表明,本文所采用的方法和流程在利用車輛歷史GPS 數據進行出租車駕駛人行為分析方面的有效性,有助于提升駕駛人的分類管理。
本文提出的基于時空鄰域多車輛的相對駕駛行為計算方法具有一定創新和推廣價值。但同時,該算法在海量GPS 數據上的計算復雜度較大,難以滿足實時計算需求,后續可進一步研究、優化。