胡 林,李 根,王 方,林 淼,巫 寧
(1.長沙理工大學汽車與機械工程學院,長沙 410114;2.中國汽車技術研究中心有限公司,天津 300300;3.波鴻魯爾大學 德國)
根據國家統計局的數據,2020 年我國共發生45 789 起摩托車道路事故,造成53 582 人受傷、10 463 人死亡;29 969 起非機動車事故,造成33 636人受傷、4 373 人死亡,其中自行車交通事故2 611起,造成2 518人受傷、511人死亡[1]。兩輪車騎行人作為弱勢道路使用者中傷亡最多的群體之一,其安全性一直是我國汽車安全領域的研究熱點。
智能車及主被動安全系統有望緩解兩輪車安全現狀[2-6]。基于場景的測試方法被廣泛應用于車輛的性能驗證[7],但場景的設計必須滿足一定的覆蓋度和危險度。事故場景對智能車測試場景設計極具借鑒意義,為此Euro NCAP 和C-NCAP 分別于2018年和2021 年將兩輪車評估場景引入新車評估協議[8-9]。相關研究得出了一些典型兩輪車事故場景,發現路口場景占比顯著,且參與方主要處于直行狀態[10],但一些特殊事故致因(如參與者逆行)并未反映在這些推薦場景中。因此,我國路口兩輪車事故場景有待進一步挖掘。
場景要素種類眾多,而基于不同研究目的選擇合適的場景要素可以減輕統計難度。為優化AEB系統參數,應盡可能選擇與AEB 功能高度相關的要素變量,如參與方動作、相對運動和速度等[11-13];選擇天氣和光照條件來提取傳感器性能相關的測試場景[13];當關注視野條件對事故的影響時,在Pan 等[14]和Sui 等[15]的研究中還考慮了視覺障礙要素。本文關注路口特定道路結構下的兩輪車事故場景,所以路口類型、路口參與方相對位置等要素顯得尤為重要。
數據來源、場景要素選擇和分析方法對場景提取結果影響顯著。事故場景研究的數據來源主要包括CIDAS[13,15]、中國國家車輛事故深度調查系統(NAIS)[16]、英國道路事故深入研究(RAIDS)[17]、事故數據全球協調系統(IGLAD)[18]、GIDAS[19]和交警隊視頻數據[14]。場景提取方法主要有k-means[16]、kmodes[15]、k-medoids[14,20]、層次聚類法[13]和潛在類分析[17]。由于數據處理方法和結果分析的主觀性,使用同一數據庫獲得的結果有時仍有不同[13,15],最具代表性的是相關性處理帶來的影響,因為高相關性變量間互相分配聚類權重使結果極具偏向性。相關研究一般會刪除這些相關性高的變量,但這也會導致數據特征的丟失[13-14,19]。因此,在確定數據來源和聚類變量后,合適的數據處理方法有利于保證結果的正確性。
綜上所述,必須進一步推進我國路口兩輪車事故場景相關研究,主要不足在于未對路口空間作進一步劃分、剔除高度相關變量使數據特征丟失以及未對聚類結果進一步挖掘分析而造成一些特殊的兩輪車事故場景被忽略。因此,本文中首先劃分路口道路空間,人工查看了每個事故的相關信息,為數據庫添加了車輛行駛狀態、速度方向、路口相對位置等重要變量字段。隨后,對比了單層聚類和雙層聚類兩種結構對事故場景的聚類效果,得到了10 種典型事故場景。最后就場景頻率、致傷風險和事故致因等角度討論了這些場景,深度挖掘三者之間的潛在相關性。
通過統計2011~2021 年7 000 多起事故的發生地點,發現53%的事故發生在路口(包括十字路口和T 形路口),其次是直行路段事故。乘用車-兩輪車事故占全部事故的近44.6%,甚至占路口事故的70%。為進一步挖掘路口兩輪車事故場景,對現有數據庫做以下篩選:
(1)根據事故地點、參與方類型篩選出1 689 起城市路口兩輪車事故。
(2)刪除多參與方、車輛起動、停車或開門事故。
(3)刪除數據嚴重缺失的案例。
(4)提取重建文件中碰撞前1 s 的速度作為場景中參考速度。
最后,對1 239 起城市路口乘用車-兩輪車事故進行聚類研究。
表1 給出12 個變量的描述和選取原因,尤其是本文人工引入了車輛行駛狀態、速度方向、路口相對位置等變量,以確定具體的預碰撞形態。速度是連續的數值變量,離散處理會丟失數據的分布特征,故速度只用于場景補充而不參與聚類。如圖1 所示,參與方相對位置(Re_pos)是根據兩輪車在整個路口前后左右的具體位置,以及與乘用車在同一道路時的相對方位關系而確定的。

圖1 路口相對位置的劃分(以十字路口為例)

表1 場景要素變量描述與選取原因
1.2.1 變量相關性分析
本文中聚類變量都是分類變量,故選擇克萊姆相關系數(Cramer’s V)計算變量間的相關性[21]。對于兩個分類變量A{a1,a2,…,am}和B{b1,b2,…,bn},其中m和n是變量屬性個數,那么A和B間的相關性可以計算如下:
式中:Nai、Nbj是變量A、B中屬性ai、bj的數量;N表示樣本總量;χ2是皮爾遜卡方統計量;k是兩個變量中較少的屬性數量。
圖2使用熱圖可視化10個基本變量間的相關性檢測結果,其中只有{Re_pos、Re_dir、Motion_V、Motion_T}或{Road_type、Traffic_light}之間的Cramer’s V值大于0.4,存在強相關性。

圖2 基于Cramer’s V值的變量相關性分析結果
1.2.2 k-medoids聚類方法
k-means、k-modes、k-medoids、層次聚類和潛在類分析常被用于事故特征提取和典型場景挖掘的研究。前3 種基于分區的方法在場景挖掘領域最為常見,其效果主要取決于初始簇中心的選擇、距離計算方法和簇的數量。k-medoid迭代過程中簇中心點必須取自樣本,故其對噪聲具有更好的魯棒性。另外,本文選取的場景變量都是分類變量,故k-medoids算法更適合本研究。
k-medoids算法使用較為普遍,本文中將不再累述其基本原理,但須強調的是:本文通過平均輪廓系數(ASC)和最小簇樣本容量(以80個樣本量為標準)來確定最佳簇個數,并采用k-means++算法初始化各簇中心點。選取漢明距離[22-23]計算樣本之間的距離,如式(4)和式(5)所示,從而可以利用式(6)計算輪廓系數[24],進一步評估聚類效果。
式中:Xi和Yi分別是樣本X和Y中第i個變量的取值;n是聚類變量總個數;a是簇內不相似度,表示樣本到同簇其它樣本間的平均距離;b是簇間不相似度,表示樣本到其它簇所有樣本的最小平均距離。輪廓系數從-1~1 越大,表示簇的劃分越合理,聚類效果越好,否則輪廓系數為負表示樣本被劃分到錯誤的簇[25]。
1.2.3 場景致傷風險指數計算
CIDAS 數據庫將乘員損傷等級劃分為3 類:輕傷、重傷和致命。現有研究主要關注事故場景的死亡率,而忽略了輕傷尤其是重傷造成的損失[17]。所以,本文提出了基于權重系數的場景致傷風險指數,通過對乘員不同損傷等級設置特定的權重系數,最終整合為一個指標來評估場景的整體致傷風險。具體計算如下:首先,將3 個損傷等級的權重關系設置為a∶b∶c;然后,風險指數歸一化處理,將所有乘員損傷等級均為致命的場景致傷風險指數定為1,則致命傷害的貢獻因子等于1/N,根據權重關系,輕傷和重傷的貢獻因子分別為a/(cN)和b/(cN),從而得到式(7)所示的歸一化場景致傷風險指數計算方法。
式中:N是場景樣本總量;N1、N2和N3分別是輕傷、重傷和致命的事故數量。致傷風險指數介于0~1 之間,指數越接近1,該類場景的致傷風險就越高。
變量舍取、聚類分析和主成分分析常被用于處理變量高相關性問題[14-17],下文對比了單層聚類和雙層聚類結構的場景挖掘效果。
根據圖3(a)左圖可以看出隨著簇數增加,最小簇樣本容量逐漸減小,但ASC 提升并不明顯。最終選取最佳簇數K=9,然而根據圖3(a)右圖可知,簇1、4、5、6 中有大量樣本輪廓系數為負,其被劃分到錯誤的簇中,最終聚類效果不太合理。

圖3 基于平均輪廓系數和簇最小樣本量的簇數選擇(左)以及K=9、6、5、4時的樣本輪廓系數(右)
表2 給出了K=9 時各簇變量取值統計,并用黑體標記出各變量的優勢取值。顯然,聚類對時間段、參與方相對位置等變量識別區分效果較好,但對兩輪車類型、道路類型等變量劃分能力明顯較差,尤其在簇S1-S6 中道路類型優勢取值都有兩個,根本無法確定該簇中具有代表性的道路類別。此外,對于簇群S2中{Re_pos、Re_dir、Motion_V、Motion_T}變量組優勢取值確定的場景可以描述為:路口乘用車直行,與左后方同向正在左轉的兩輪車相撞。該場景解釋顯然不符合現實規律,故單層聚類所得結果還存在可解釋性較差的問題。

表2 單層聚類結果統計
根據圖4 中的雙層聚類結構,將案例分為十字路口和T 字路口分別討論。借鑒GIDAS 數據庫中UTYP 字段的定義方式,對高相關變量組{Re_pos、Re_dir、Motion_V、Motion_T}采用第一層聚類將它們整合成新的變量,再通過第二層變量進行整體聚類。

圖4 雙層聚類結構流程圖
首先如圖3(b)、圖3(c)和圖3(d)所示,用同樣的方法確定最佳簇數K=6、5、4。隨著簇數增加,最小簇樣本容量逐漸減小,且ASC 提升較明顯。根據右側輪廓系數統計,取負值的樣本極少,說明樣本劃分較為合理。表3 和表4 對雙層聚類結果變量取值進行統計,其中未出現較多變量優勢取值難以確定的問題,聚類對變量取值區分效果較好,可以進一步對簇群進行場景解釋。

表3 碰撞前變量聚類結果

表4 T字路口和十字路口事故案例聚類結果
根據表3,路口事故中參與方大多處于直行狀態(599 輛乘用車和1 056 輛兩輪車),其中60%(743起)的參與方的速度方向彼此垂直。簇0、1 是最常見的兩輪車預碰撞形態,其可以描述為:直行車與左右兩側直行的兩輪車垂直相撞。
表4 統計了路口事故的聚類結果(T 字路口J0-J4、十字路口C0-C3)。路口場景的共同特征是:兩輪車都處于直行狀態,且除J4 中兩輪車來自乘用車后方外,其余場景中兩輪車均來自前方,且場景J0與C0-2形態非常相似。區別在于:乘用車在十字路口場景中大多正在轉向,而在T 字路口主要處于直行狀態;所有T 字路口場景中均無交通燈;十字路口場景兩輪車與乘用車速度垂直,且大多來自左側。J0、C2 是最常見的場景,都涉及電動兩輪車。J1、C1是典型的夜間場景,C0 是唯一出現視覺障礙的場景。遺憾的是,本文沒有提取任何自行車參與或發生在雨天的典型兩輪車場景。圖5 與表5 對聚類結果進行了場景化解釋。

圖5 典型場景預碰撞初始狀態示意圖
圖6統計了典型場景中參與方速度分布(表5中每類場景的速度區間是根據其分布的上下四分位數來確定的,其中將場景C0-1 與C0-2 合并為C0 綜合統計)。由圖可知,除J2、C1 中乘用車由于直行速度較高外,其他場景中其速度均在20-40 km/h 以內。而兩輪車速度集中在10-30 km/h,且J1、C3 中摩托車速度明顯較高。由于聚類導致每類場景涉及的兩輪車類型并不單一,滿足式(8)的兩輪車速度分布異常點較多,但這在本研究中可以接受。
式中:vmax與vmin是最大與最小速度;Q1和Q3表示分布的第一四分位數和第三四分位數。
圖7 根據式(7)統計每類場景的致傷風險指數(其中a∶b∶c=1∶2∶3)。C3 是致傷風險指數最高的摩托車場景,而電動兩輪車場景中C1具有相對較高的致傷風險。在幾個極其相似的場景(C0-1、C1、C2、C3)中,致傷風險指數明顯與參與方的速度有關,而速度又受兩輪車類型和交通燈安裝情況的影響。結合表5 和圖6 可以發現,摩托車的速度明顯更快,且在有紅綠燈的十字路口行駛速度更快,因此其對應場景的致傷風險會更高。

圖7 場景致傷風險統計
由于兩輪車在外觀和動力性能上存在顯著差異[26-27],本文嚴格區分了兩輪車的類型(自行車、電動車或摩托車)。結合圖6(b)與圖7,發現兩輪車速度與場景致傷風險總體呈正相關,其中場景C3涉及速度較高的摩托車,故其擁有最高的損傷風險指數。而Sui等[15]研究發現,事故中乘員損傷嚴重程度與兩輪車類型沒有統計學上的相關性,這與上述結論完全相反,可能是由于本文將事故地點框定在路口而導致的。
本文選定路口為研究對象,并考慮路口類型和交通燈安裝情況,得到一些新發現。首先,與Pan等[14]的研究結論相比,路口參與方速度明顯更低。其次,由表3 可知,路口場景中參與方大多處于直行狀態,其中60%的兩輪車來自車輛左右兩側。不同類型路口場景區別在于,大多數T 字路口場景中乘用車處于轉彎狀態,且所有T 字路口場景中都沒有配備交通燈,這可能是重要的事故致因。十字路口場景中兩輪車大多來自乘用車左側,這表明Sui等[15]提出的案例對稱性處理即將左右來車案例合并進行統計分析的方法,不適用于本研究中提取高頻場景。最后將場景框定在特定的路口環境下,發現了如兩輪車橫過馬路(J2)、兩輪車逆行(J0 和C0-2)等特色場景。
本文所用事故數據庫本身的特性造成了變量間的高相關性。一方面碰撞事故本身限制了變量{Re_pos、Re_dir、Motion_V、Motion_T}組合的隨機性。另一方面,變量組{Road_type、Traffic_light}高相關性表現在:73%的無交通燈事故發生在T 字路口,而只有27%的案例發生在十字路口。為避免處理高相關變量組導致數據特征丟失,采用雙層聚類進行場景挖掘。第2 章通過與單層聚類方法對比,雙層聚類的結果ASC 明顯更高,樣本輪廓系數負值明顯更少,聚類效果相對更好。同時,在結果的可解釋性方面,雙層聚類結構效果明顯更優。
高頻場景不一定是高致傷風險場景,本文中高頻場景J0 和C2 都涉及電動兩輪車,而高風險場景C3、C1和J1則都涉及兩輪摩托車。相關研究應該同時關注高頻場景與高致傷風險場景,一方面電動兩輪車由于操作簡便和經濟性,成為人們短途出行的首選工具,但由于相關制度規范的落實普及程度不夠,導致電動兩輪車事故頻發。而兩輪摩托車動力性能與安全防護性能反差較大,導致其在事故中往往受傷嚴重。
根據表5中的場景描述,事故致因基本可分為4類:(1)未按要求讓行,如J1 和J2。在無交通燈路口,一些潛在的交通規則往往被忽略。(2)兩輪車逆行,如J0 和J3。盡管GB 17761—2018[28]中明確規定摩托車駕駛員必須通過駕駛執照考試,然而該法規還未普及,兩輪車無證駕駛及無視交規導致逆行事故場景頻繁。(3)交通燈沖突,包括闖紅燈和交通燈切換間隙,如C1 和C2。紅綠燈切換間隙指當直行燈由綠轉紅時,直行車輛無法完全通過路口而與左右來車發生沖突,從而影響路口安全通行效率,這已引起專家們的關注[29-31]。(4)視覺障礙,如C0-1。視覺障礙通常由周圍車輛和路邊綠化帶引起,這是各類交通事故的常見原因之一[32]。
遺憾的是,由于數據成分和忽略變量劣勢屬性,本文并未提取到雨天場景。然而,表4 中雨天事故約占總數的10%(117),所以天氣因素并不應該被事故分析和場景提取相關研究忽視。
本研究所用事故數據庫中有限的字段信息還無法直接生成測試場景,且數據記錄的準確性也值得進一步考量。因此,未來的研究將主要集中在兩個方面:一是改良事故數據采集與重建方法,結合不確定性分析方法實現高精度事故還原。二是對標測試場景搭建需求,更新事故調查頂層變量編碼書,開發全過程數據工具鏈,從而實現事故場景的自動化生成。
首先從數據庫中篩選出1 239 起城市路口乘用車-兩輪車事故案例,對選取的12 個場景變量進行相關性分析。針對強相關變量組,對比了單層聚類和雙層聚類兩種方法,發現雙層聚類在樣本劃分和結果可解釋性方面性能更優。隨后采用基于kmedoids算法的雙層聚類方法挖掘了5個T字路口場景和5 個十字路口場景。從場景頻率和致傷風險兩個角度分析了聚類結果,發現高頻場景不一定是高致傷風險場景,由于路口不同類型兩輪車行駛速度存在差異,導致速度偏高的兩輪摩托車相關場景的致傷風險明顯更高。通過事故致因分析,本文中還發現一些具有中國特色的特殊場景,包括未按規定讓行、兩輪車逆行、交通燈沖突(包括闖紅燈和交通燈切換間隙)以及視覺障礙。
我國兩輪車參與下道路交通環境復雜,導致事故類型多元化。針對事故調查成果提取典型兩輪車事故場景對智能車測試場景設計極具參考意義。研究過程中對高相關變量的處理思路以及對聚類結果深度信息挖掘的方法可為相關研究提供參考。