羅葉,祁首銘,2,張希,廉冠,楊海華
(1.深圳市城市公共安全技術研究院有限公司,廣東 深圳 518000; 2.哈爾濱工業大學 土木與環境學院,廣東 深圳 518055; 3.桂林電子科技大學 建筑與交通工程學院,廣西 桂林 541004;4.中國建設基礎設施有限公司,北京 100029)
道路交通事故造成的傷害是全球嚴重的公共衛生和社會安全問題。根據世界衛生組織(WHO)的數據[1],全球每年約135萬人死于道路交通事故。目前,道路交通事故傷亡人數在全球所有死因中排名第8,預計到2030年將升至第7位。作為全球最大的發展中國家,中國同樣面臨著交通事故傷害問題,在部分省市,交通事故已經成為導致意外死亡的主要原因[2]。隨著城市化進程的不斷發展,城市機動化的發展水平已經成為衡量一個國家城市化水平高低的重要指標,然而不斷增長的機動車及人口密度給道路交通安全帶來巨大壓力,在社會資源有限的前提下如何有效降低交通事故率成為難題。自20世紀50年代,英美等發達國家開始對事故多發點進行鑒別及治理以來,交通事故狀況得到明顯好轉。歐盟道路交通事故委員會在對TEN-T公路進行事故多發點治理后,該公路的事故率降低了11%[3]。因此,在追求城市發展的同時準確、高效地采取針對性措施進行事故預防,提高城市道路交通安全水平成為全社會迫切的愿望。
在空間中,大多數情況下交通事故并非隨機分布,而是在空間中形成集群[4],從而成為事故黑點(Black Spot),識別交通事故黑點被學者們認為是交通安全改善策略中的第一個關鍵步驟[5]。常見的事故黑點識別方法主要是基于事故數以及事故率進行鑒別,主要包括事故頻數法、當量事故數法、累計頻率曲線法、回歸分析法、事故率法、當量事故數-事故率法[6]等。這些方法的研究思路為:劃分目標路段的固定單元,選取一定范圍內的事故數或事故率作為閾值完成事故黑點鑒別,常用于單一路段的事故黑點識別,但結果展現的可視化效果不佳。隨著地理信息技術的發展,越來越多的學者將可視化效果更佳的空間分析技術應用于事故黑點識別,Anderson[7]采用平面核密度分析和K均值聚類算法對倫敦城市道路交通事故黑點進行識別;郭璘等[8]采用基于改進的K-means算法對寧波市的交通事故進行分析;黃鋼等[9]采用基于改進密度的DBSCAN算法對事故地點與原因進行密度聚類;曹倩等[10]采用事故密度峰值聚類方法,評估風險異質性的道路網交通事故風險。然而,由于交通事故的發生并不存在于二維空間,受到道路網絡的約束,Okabe等[11]提出一種基于網絡空間約束的核密度方法,并開發出基于Arcmap的插件SANET。此后,由于無須假設先驗參數、可視化效果佳、符合道路網空間的實際情況,網絡核密度估計算法被應用于交通事故黑點識別、網約車上下客熱點識別、犯罪行為熱點識別等多個領域[12-16]。目前通常采用經驗取值法、自然分段法等對應用網絡核密度估計后的事故進行熱點識別,但這類方法識別事故黑點不具備統計學意義,因而,該方法在交通事故黑點中的應用仍然不足。
因此,本文在使用網絡核密度估計的基礎上,結合局部空間自相關分析,鑒別城市道路事故多發點。可在統計學意義上提升事故黑點識別的準確率及效率。
本文選取深圳市龍華區作為研究區域,下轄6個街道,共50個社區。本研究所使用的數據包括交通事故數據及道路網絡數據。交通事故數據為2018—2020年間3年的交通事故記錄,共計1 105例。每條事故記錄包括描述性事故地點、事故時間、事故類型、事故基本經過、事故傷亡情況等。道路網絡數據來自OpenStreetMap(OSM)2021年的矢量路網數據。
由于原始交通事故數據對應的事故位置信息是描述性信息,因此需要將描述性位置信息進轄6個街道,共50個社區。本研究所使用的數據包括交通事故數據及道路網絡數據。交通事故數據為2018—2020年間3年的交通事故記錄,共計1 105例。每條事故記錄包括描述性事故地點、事故時間、事故類型、事故行地理編碼,即將文字位置信息轉化為經緯度數據。目前國內常用的在線地理編碼服務主要有4種:百度、高德、搜狗及騰訊。根據學者的研究對比,騰訊地圖在數據質量以及完備的地址數據方面表現較為優異,高德地圖則在地址匹配度方面表現良好[17],因此本文選擇騰訊地圖以及高德地圖作為地理編碼的主要工具。
本文調用騰訊地圖geocoder API地理編碼服務,返回數據包括經緯度信息及地址可信度(reliability)。根據騰訊地圖位置服務的官方說明[18],可信度取值范圍為1~10級,當該值大于等于7時,解析結果較為準確。因此,本文提取返回結果可信度大于等于7的經緯度值,其余結果通過調用高德地圖geocode API實行地址位置解析,最終返回結果顯示,僅1.9%的地址未匹配,采用人工糾偏的方式進行位置解析。為便于分析,本文采用的道路網數據為矢量線性數據,無寬度屬性,地理編碼返回的坐標位置分布在道路兩側,因此通過將數據點投影至最近路網的方式進行道路匹配。此外,高德及騰訊地圖返回的經緯度信息均為GCJ02坐標系,為與道路網進行地圖匹配,本文將所有返回的經緯度信息轉換為WGS84大地坐標系。
本文將2018—2020年3年的1 105例道路交通事故繪制成地理信息散點圖,見圖1。通過統計每個街道事故數(圖2),可以發現,事故主要集中在龍華中心區的龍華街道,其次是大浪街道。
核密度估計(Kernel Density Estimate, KDE)是一種常用于從事件樣本中估計空間過程的強度函數,它屬于點模式分析中的非參數方法之一。具體來說,它通過采用平滑的峰值函數(核)對觀察到的數據點進行擬合,從而對真實的概率分布曲線進行模擬,展現出平滑的可視化效果,體現出分析目標在空間上的聚集情況,因而被廣泛應用于犯罪分布、事故空間分布點事件的熱點識別。
平面核密度估計的表達式為:
(1)
式中:λ(s)為事故點s的密度;r為核密度估計的搜索半徑(帶寬),只有在距離點s半徑r范圍內的點才能用于估算λ(s);k為點i權重,其大小取決于點i與點s之間的距離dis與搜索半徑r的比率。在核密度估計中充分考慮了到中心位置s的距離衰減效應,即到事故點s的距離越長,該點的權值就越低,超出搜索半徑距離之外的極限密度為0。因此事故點s的最終密度是通過將搜索半徑內所有的點比率相加而得。
平面核密度估計在分析及確定交通事故熱點時并不適用。經典的核密度估計是基于一個無限、齊次的二維(2D)空間假定,因此核密度估計采用了事件點之間的歐幾里得距離。事實上,交通事故通常發生在道路網絡范圍內,在道路網絡中,車輛的移動總是受到道路網絡的約束,在交叉口可能會改變方向,Steenberghen等[19]將網絡空間稱為1.5D空間。此外,道路網絡中點的距離總會大于或等于歐幾里得距離,因此在交通事故密度分析中使用平面核密度估計會低估道路網絡中交通事故點之間的實際距離,從而會過度識別熱點,見圖3。

(a) 基于歐式距離的核密度搜索方式
網絡核密度估計(Network Kernel Density Estimate, NKDE)是平面核密度估計的擴展形式,兩者之間最大的不同在于距離計算方式的差異,相較于計算2D空間均勻區域單元上點事件的密度,網絡核密度計算的是道路網絡上線性單元(路段)最短路徑距離的點事件密度。其計算公式與平面核密度估計類似:
(2)

(3)
為確定最優帶寬,可根據積分均方差達到最小原則,得到最優帶寬計算公式[14]:
(4)
式中:hopt為最優帶寬;σ為高斯核函數的標準差;在道路網條件下的σ為事故點數據的網絡距離標準差;n為事故點的數量。
在道路網的承載下,各路段間具有一定的空間相關關系,若將事故密度定義為風險的量化指標,那么路段之間事故密度的相關關系可以解釋為交通事故的風險擴散性[21]。因此可通過計算路段之間事故密度的空間相關關系,從而在統計學意義上識別事故高風險路段。
空間自相關分析中,莫蘭指數(Moran′sI)是一種最常用的空間自相關統計方法,也叫聚類和異常值分析法,其通過計算同一分布區域內的相鄰空間數據間潛在的依賴性,檢測出空間范圍內是否存在聚集特性。空間自相關分析大致分為全域法及局域法,其中全域法用于判斷空間中是否存在聚集特性,而局域法則側重于檢定某個聚類單元相對研究空間而言是否足夠顯著。因而局部空間自相關更適用于檢測高密度路段的離散情況,在考慮相鄰路段的基礎上,識別事故多發路段。
局部莫蘭指數(Local Moran′sI)的計算方法如下[22]:
(5)
式中:Ii代表第i個路段的Local Moran′sI;xj和xi分別為路段j和路段i的網絡核密度值;wij為路段i與路段j在特定領域定義下的空間權重;n為路段總數。Local Moran′sI的值本質上類似于相關性系數(Pearson),其代表了觀測值自身與空間滯后Lisa值之間的相關性。當Moran′sI在置信區間內顯著,且當觀測值與空間滯后值符號相同時,稱其為高-高值、低-低值聚類;當觀測值與空間滯后值相反時,稱其為高-低值或低-高值聚類。
本文采用R語言中spNetwork包[23]中的nkde函數對事故點進行網絡核密度分析,并通過tmap包對運算結果進行可視化展示,在Rstudio中實現。由于采用高斯函數作為核函數,當積分均方誤差最小時,采用式(4)計算得到最優帶寬為287.18 m,為了方便計算取最優帶寬為300 m,線性單元長度取最優帶寬的1/10,即30 m[11]。按照空間步長將1 570條路段劃分為子路段,其中不足30 m的部分單獨路段作為子路段,最后得到2 886條空間子路段lixels,并計算空間子路段的核密度估計值,為了得到可讀性更高的結果,將核密度估計值乘以1 000,得到每公里路段的密度估計值,可視化結果見圖4。

圖4 網絡核密度估計圖
同時,為比較平面核密度估計與網絡核密度估計的效果差異,同樣在R語言中運用SpatialKDE軟件包對于事故點分布的平面核密度進行分析,可視化結果見圖5。結果表明:所有的高值網絡核密度路段均位于平面核密度高值范圍內。平面核密度分析結果呈現出局部團狀聚集的情況,其分布情況與網絡核密度分布情況類似,但聚集范圍較大,與網絡核密度估計結果相比存在過度估計的情況。若使用平面核密度估計識別事故多發點,那么將無法精確地對事故多發點進行現場隱患排查、派駐警力開展專項交通治理。

圖5 平面核密度估計圖
從圖4、圖5中可以看出,龍華區2018—2020年的交通事故具有明顯的空間聚集特征。為了進一步識別高密度路段,一般采用經驗法設定鑒別閾值、分位數法、Jenks自然間斷點分級法、K-means聚類法等。
本文采用K均值聚類算法(K-means Clustering Algorithm)將路段的核密度估計結果進行分類,采用碎石圖,即手肘法則(elbow method)確定最優聚類數,以聚類數為x軸,此處選用1~10作為聚類數量,y軸為各個值到簇中心的平方和,可視化結果見圖6。圖中點劃線指的是在特定聚類數下誤差平方和,可見將路段核密度估計值分為4類是最優聚類結果。

圖6 K-means碎石圖
該方法所得的分級聚類結果可滿足簇內數據差異最小而同時達到簇間數據差異最大的性質,使得誤差平方和(Sum of Square Error, SSE)達到局部最小,K-means誤差平方和為:
(6)
式中:x為各路段的密度值;ci為所指定劃分的聚類簇,此處選取的聚類簇為1~10。從式(6)中可以看出K均值聚類刻畫了簇內樣本圍繞均值向量的緊密程度,SSE值越小,簇內樣本相似度越高。通過基于路段密度值之間的相似性進行迭代,使得目標函數SSE最小,最終得到指定聚類簇。
本文通過K-means聚類分析將網絡核密度值分為4類,分別對應一級密度路段、二級密度路段、三級密度路段以及四級密度路段,見圖7。從圖7可以發現,事故密度高值區域多集中在龍華街道中心區域以及大浪街道中心區域,并且分散于各個交叉點處。使用K均值聚類算法進行劃分所劃定的一級密度路段容易引起注意,在聚類分級的基礎上事故密度高值區域相對于圖4更為突出。然而該分類方法僅根據密度值之間的數據特征進行分級,并非統計學意義上的風險路段,且該方法忽略了路段間的空間關系,因此使用K均值分級并不能最終確定事故多發路段。

圖7 基于K-means聚類的網絡核密度估計
本文在網絡核密度計算結果的基礎上,采用R語言中spdep包對路段進行空間自相關分析,選取網絡核密度分析中子路段的密度估計值作為計算Local Moran′sI的要素屬性值,并使用網絡距離的倒數作為空間權重矩陣,將鄰近范圍內具有相似密度屬性的子路段進行合并,最終確定事故多發聚集路段以及異常路段。將置信區間在99%以上的路段繪制Local Moran′sI散點圖(圖8), 其中Local Moran′sI為兩者之間線性關系的斜率, 并將事故多發點鑒別結果在道路網空間進行可視化展示,見圖9。

圖9 基于NKDE及Local Moran′s I的事故黑點鑒別結果
本文將高值聚類區域100%覆蓋K-means聚類分級的一級高值路段,并對相關性顯著的高值路段進行合并。高-高聚類區域除零散分布在各個交叉口及路段外,事故多發點主要集中在3個區域,分別為以龍華街道為中心的區域、大浪街道核心區域、三個街道連接處的交叉口區域。異常值(高-低聚類、低-高聚類)則分布較為零散,且數量較少,由于其不具備明顯的高值聚類結果,本文對異常值不予關注,其形成與交通事故的偶然性相關。
為分析各聚類簇的事故特點,將各聚類簇由右至左、由上至下分別命名為聚類簇1、聚類簇2、聚類簇3,其具體信息見表1、表2。

表1 事故多發聚類簇路段具體信息

表2 事故多發聚類簇具體信息
3個聚類簇均為龍華區的老城區,作為機動化發展速度較快的老城區,其建設初期主要以機動車通行需求為主,因此忽略了非機動車通行。3個聚類簇發生的143宗事故中,82宗為傷亡事故,均涉及弱勢交通參與者;涉及非機動車事故69宗,占比48.25%,其中,涉及無號牌非機動車事故50宗;涉及行人事故13宗,占比9.09%。該區域普遍存在非機動車道建設不完備,部分路段存在人行道、非機動車道寬度不足等問題。隨著非機動車通行需求的增大,機非混行的情況日益突出,且由于缺乏號牌登記基礎,無號牌非機動車逆行、闖紅燈等違法行為無法得到約束。此外,3個聚類簇城中村密集,通行需求較大,內部道路密度高,且交叉口較多,在交通組織不到位、交通參與者不遵守交通規則的情況下,存在大量交通沖突,安全隱患突出。
因此建議通過對3個聚類簇的非機動車道開展隱患排查工作,保證行人及非機動車路權,同時強化全民安全培訓教育,加強3個聚類簇合圍路段的電子警察、巡警等警力配置,強化電動車上牌、非機動車及行人違法行為勸阻,優化交叉口信號配時以減少交通沖突[24]等。
以聚類簇1中識別到的事故多發路段——建輝路為例,該路段途徑城中村高坳新村,人流及非機動車流量較大,且為長下坡路段,道路全段未配置非機動車道,部分路段存在人行道中斷、電線桿置于道路內部阻礙車輛通行的情況,且該路段交通秩序混亂,非機動車、機動車長期占道停車,導致行人、非機動車與機動車混行現象突出。該路段已被列為2021年深圳市市級督辦隱患治理路段。建議通過壓縮機動車道寬度增設“機非共板”非機動車道,通過增加隔離護欄,保障非機動車駕駛員路權,實現機非分離;加強道路全段隱患排查,保證人行道連續性、清除路面障礙物等;增加該路段路面執法力量,清除路面占道停車、勸阻行人及非機動車橫穿馬路的違法行為。
本文以深圳市龍華區2018—2020年1 105例交通事故數據及道路網絡數據為基礎,對比了傳統平面核密度方法及網絡核密度方法的事故點位的空間分布情況,采用K-means聚類對網絡核密度估計值進行分級,為進一步在考慮路段間的相關關系,引入Local Moran′sI對網絡核密度估計值進行空間聚類分析,最終實現事故多發點的識別,具體結論如下:
(1) 基于網絡核密度的事故多發點識別方法在道路網空間內對事故點進行核密度估計,結果較平面核密度估計更為精確且符合實際,適用于識別交通事故多發路段,結果表明以龍華街道為核心的龍華中心區事故密度最高。
(2) 通過K-means聚類可對網絡核密度估計值進行分級,通過分級使得高密度路段更凸顯,然而該方法忽略了臨近路段的相關關系,且不具備統計學意義。
(3) 用Local Moran′sI對網絡核密度估計值進行空間聚類分析,結果表明該方法在100%覆蓋一級路段的基礎上將臨近高密度路段進行合并,在99%置信區間上最終識別3個聚類簇,具有良好的事故多發點識別效果。
本文在道路空間尺度上研究事故多發點,旨在有限社會資源的前提下,有針對性地進行治理,實現警力資源分配和道路改善措施,從而降低事故發生率,提高道路交通安全水平。但受樣本數據時間跨度短及樣本不足的限制,本文僅考慮了空間尺度,忽略了時間維度的分析,未來將在考慮時空尺度的基礎上進一步建立時空單元與事故黑點的關聯性。