黃昆
(天津經緯恒潤科技有限公司,天津 300385)
主題詞:跟車測試場景 聚類挖掘 K均值聚類 自動駕駛技術
隨著智能駕駛技術的不斷發展,特斯拉、蔚來等主機廠已經開發了許多較為完善的先進自動駕駛輔助系統[1-2],例如高速自動輔助駕駛(Highway Pilot,HP)、擁堵自動輔助駕駛[3](Traffic Jam Pilot,TJP)等,然而目前智能駕駛汽車仍無法實現L4及以上的智能駕駛,其技術發展仍需要多種自然駕駛場景支持,因此,十分有必要開展各類駕駛場景挖掘研究。
場景聚類挖掘[4-5]是獲取智能駕駛測試場景的主要方法之一。徐向陽[6]等基于國家車輛事故深度調查體系中的499 例事故場景數據,對我國自動緊急制動(Autonomous Emergency Braking, AEB)場景進行聚類挖掘。郭景華[7]等基于我國自然駕駛數據中的危險工況片段,使用層次聚類法對駕駛行程中的危險場景進行聚類挖掘。夏瀾[8]等通過對43例自然駕駛場景進行分析,挖掘到6 類目標切入的危險跟車場景。Adam[9]等人以交通目標之間的位置關系作為判別量,基于此提出了一種距離聚類的場景挖掘方法。Jin[10]等人使用考慮時間與空間的馬氏距離對跟車進行聚類,提出了一種交通異常事件的場景挖掘方法。Birant[11]等人提出了一種用于處理大規模數據集異常問題的時空異常場景挖掘算法。
場景聚類挖掘是智能駕駛場景研發和驗證的基石,對我國智能駕駛技術的發展具有十分重要的意義。本文基于K均值聚類算法,對自然駕駛過程中的跟車場景進行場景解構和場景聚類挖掘研究,依據場景主體要素挖掘到3類典型的跟車工況,并結合場景交通環境及車輛類型等要素,構建了大量的類跟車測試場景,這對我國自動駕駛輔助系統的研發和測試具有十分重要的意義。
道路試驗從2020 年4 月10 日開始到2020 年5 月21 日結束,測試有效時間為56 d,道路測試總里程為10 120 km,測試地點涵蓋河北、山西、河南及周邊地區。道路類型包括高速、國道、市區,測試天氣有晴天、陰天、雨天、霧天,場景數據包括直道、彎道、十字路口、紅綠燈和人行橫道場景。共選取10名男性駕駛員進行試驗,平均年齡為35歲,試驗車中采集數據的傳感器主要包括Mobileye 攝像頭、激光雷達和ESR毫米波雷達,其實物如圖1所示。由于本次試驗主要開展駕駛員跟車特性的研究,故將3種傳感器都安裝在試驗車的前部,其安裝位置如圖2所示,其中淺色圈部分代表傳感器的具體安裝部位。

圖1 試驗所用傳感器

圖2 傳感器安裝位置示意
基于數據庫,首先選取399例城市道路、387例高速公路、413例鄉村道路的跟車場景,并對其加減速度曲線進行提取。共提取1 199例跟車場景,排除121例曲率半徑較大的彎道跟車速度曲線,剔除68例涉及非機動車場景或其它特殊車輛的跟車場景,最終獲得1 010 例跟車場景(均為跟隨同一目標,不存在跟車目標轉換)。

圖3 從CANape 17.0中提取的參數曲線
如圖4 所示,基于CANape 17.0 進行(濾波)提取的跟車場景參數包括速度、目標車頭時距(THW)、橫/縱向相對距離、相對速度。圖5為加速度、減速度曲線樣本頻次分布統計。


圖4 跟車場景參數頻次分布統計

圖5 加速度、減速度頻次分布統計
可以看出,跟車狀態下樣本車的加速度、減速基本維持在-1~1 m/s2之間,這表明所提取的一些超過正常加速度、減速度范圍的數值反應了安全性較差的跟車情況。
場景要素是跟車場景聚類分析的依據,是主成分提取的數據來源。跟車場景要素的分類如圖6所示,包括交通環境要素和場景主體要素2大類以及天氣、光照等10個小類。其中,交通環境要素包括跟車場景中的天氣類型、光照條件、道路類型、交通密度等,場景主體要素包括自車和目標車的車輛類型、車輛位置及運動狀態等要素。

圖6 跟車場景要素提取結果
(1)交通環境要素的提取
跟車場景的交通環境要素包括天氣類型、光照條件、道路類型、交通密度等,天氣類型包括4類:晴天、陰天、雨天、雪天,光照條件主要分為3類:白天、傍晚、夜間,道路類型主要包括5類:城市、高速、國道/省道、鄉村道路,交通密度主要包括3類:暢通、正常、擁堵,其提取結果如表1所示。

表1 交通環境要素提取結果
目前,受自動駕駛領域內感知技術發展的限制,交通環境要素還無法實現自動提取,需進行人工篩選。
(2)場景主體要素提取
場景主體要素如表2 所示,包括自車和目標車的車輛類型、車輛位置、運動狀態等。其中,車輛類型包括轎車、大型貨車/客車等;車輛位置及運動狀態包括自車位置、自車距車道線位置、目標位置、自車速度、自車加速度、目標縱向距離、目標橫向距離、相對速度等參數。

表2 跟車場景主體要素
定義場景主體要素提取矩陣Pmn,用以表征場景主體要素序號1~16 的提取結果(車輛類型單獨考慮)。依據本文提取的1 010例跟車場景,獲取的跟車場景主體要素矩陣如公式(1)所示。

式中,m為場景主體要素序號(m為1~16,要素序號對照詳見表2),n表示提取的跟車場景片段個數。
至此,跟車場景特征要素提取已經完成,其提取過程有3個特點:
(1)考慮了跟車場景中的交通環境要素和場景主體要素,并對交通環境要素進行參數化,便于場景類型劃分。
(2)場景主體要素基于主機廠的道路試驗數據,提取的場景數據源于真實駕駛數據,且具有十分的典型性。
(3)從宏觀角度出發,考慮自車和目標車的車輛類型對場景類型的影響。
由3.1節的場景主體要素矩陣Pmn可知,場景主體要素包含的參數維度較高。為簡化計算,需要降低參數與參數之間的相關性,以達到可以便于聚類分析的要求。此外,由于自車與目標的車輛類型對跟車過程影響較大,需要單獨考慮,對其類型進行劃分。
(1)車輛類型
自車與目標的車輛類型包括轎車和大型貨車/客車兩類。依據車輛類型不同,可以將跟車場景劃分為4種類型的跟車場景,如表3所示。

表3 場景分類
(2)車輛位置和運動狀態
由3.1 節可知,跟車過程中的車輛位置和運動狀態信息可由場景主體要素矩陣Pmn表征,由于矩陣維度較高,且變量之間的相關性較強,為了簡化計算,需要對主體要素矩陣進行相關性分析和降維處理。
PCA (Principal Component Analysis)[12-14]是一種常用的數據分析方法。PCA 通過線性變換將原始數據變換為一組各維度線性無關表示,可用于提取數據的主要特征分量,常用于高維數據的降維。因此,本文使用PCA 算法對跟車場景中的主體要素進行相關性分析和降維處理。
PCA算法的過程如下:
(1)主體要素矩陣的標準化處理
在主體要素矩陣Pmn進行降維之前,首先采用公式(2)對矩陣中的參數進行標準化,消除量綱對參數的影響。

式中,Q*mn為標準化矩陣;Pmn為主體要素矩陣;σn為第n個跟車場景片段的特征參數標準差。
經過公式(2)對矩陣中的每一個參數進行標準化后,最終獲得的主體要素標準化矩陣如公式(3)所示。

式中,Q*mn為標準化矩陣中第m行n列的值;P為主體要素的標準化矩陣。
(2)利用PCA算法對標準化后主體要素矩陣進行降維
主體要素矩陣經過標準化處理后,已經消除了量綱對矩陣中參數的影響,可以利用PCA算法對標準化后的矩陣進行降維處理,得到標準化后的矩陣參數線性組合R*。

式中,Q*mn為標準化矩陣中第m行n列的值;Pomn為相關系數矩陣。
在PCA算法的主成分分析過程中,任務主成分累計貢獻率達到85%以上,即可認為主成分可以代表原始信息。進行標準化后的場景主體要素矩陣主成分分析結果如圖7 所示,前3 個主成分的累計貢獻率已經達到91.16%,完全可以表征跟車場景主體要素信息。依據主成分分析結果,將主體要素矩陣降為3維矩陣。

圖7 主成分分析結果
跟車主體要素矩陣經過降維后,保留累計貢獻率排名前3的主成分,其參數詳見表4。

表4 累計貢獻率排名前3的主成分
經過標準化后的主體要素矩陣使用PCA 算法降維后僅保留排名前3的主成分,降維后的矩陣如公式(5)所示。

式中,P為降維后的主體要素矩陣;P1n,P2n,P3n依次代表自車加速度,目標相對距離,目標相對速度。
K 均 值 聚 類 算 法(K-Means Clustering Algo?rithm)[15-17]是一種迭代求解的聚類分析算法,在數據分析、信號處理以及機器學習等領域得到了廣泛的應用。本文采用K 均值聚類算法對降維后的跟車特征參數矩陣進行聚類,聚類過程如下:
(1)定義初始聚類中心
在K均值聚類的計算過程中,首先需要定義初始聚類中心矩陣以及聚類中心個數k。

式中,M為初始聚類中心矩陣,mj為第j個聚類中心(j∈1,2,…,k),其值為隨機數。此處聚類中心個數k取值為3。
(2)樣本分配
在K均值聚類的計算過程中,每一輪迭代更新開始后,需要計算每個樣本分別到每個聚類中心的歐氏距離[18],其計算過程如公式(7)所示。

式中,xi為樣本數據中的第i(i∈1,2,…,n)個樣本,d(xi, mj)為第i(i∈1,2,…,n)個樣本xi到第j(j∈1,2,…,k)個聚類中心mj之間的距離。
計算各個樣本到各個聚類中心的距離之后,依據距離最小原則,將樣本分配到與距離中心距離最近的類中,如公式(8)所示。

式中,x為樣本數據,Mj為樣本數據聚成的類。
(3)更新聚類中心
由第(2)步將樣本數據聚為k類后,需要對聚類中心進行迭代更新,計算每一類樣本數據的均值,使用每一類中所有樣本數據的樣本均值作為新的聚類中心,實現對聚類中心的更新,其更新過程如公司(9)所示。

式中,mˉj為更新后的聚類中心;x為Mj(j∈1,2,…,k)類中的樣本數據。
(4)準則函數的計算
在K均值聚類的過程中,當完成一輪樣本分配和聚類中心的更新后,需要對聚類結果的準則函數進行計算,如公式(10)所示。若準則函數結果變化較大,重復第(2)和第(3)步,繼續進行迭代更新。若準則函數的結果不變,則停止迭代,結束聚類。

式中,E為準則函數;mˉj為更新后的聚類中心;x為Mj(j∈1,2,…,k)類中的樣本數據。
通過以上步驟計算得到每個樣本對所有聚類中心的準則函數進行計算,然后依據距離中心不變原則和誤差平方和局部最小原則,終止樣本聚類的更新迭代。
利用MATLAB對樣本進行聚類,除了K均值聚類外,還以車頭間距、目標的相對速度、自車加速度進行模糊C 均值聚類,并作為對比(表5)。結果表明,K 均值聚類的相對距離和相對速度較低,且自車加速度較低,但結果都將樣本聚類為3簇,因此將跟車場景分為3類。

表5 K均值聚類和模糊C均值聚類對比
依據場景主體要素的聚類分析結果,將跟車場景劃分為Cluster 1~3類,聚類結果的樣例如圖8~10所示,結合場景的天氣類型、光照條件等交通環境要素,共獲得1 728類測試場景,其結果如表6所示。

表6 聚類分析結果 類
(1)場景聚類結果為Cluster 1樣例
限于篇幅原因,選擇1 例聚類結果為Cluster 1 的場景作為樣例,示例1場景數據如圖8所示,跟車的車頭間距圍繞一個值在小范圍內上下浮動,將Cluster 1劃分為穩定跟車。

圖8 示例1的場景數據
(2)場景聚類結果為Cluster 2樣例
限于篇幅原因,選擇1 例聚類結果為Cluster 2 的場景作為樣例,示例2場景數據如圖9所示,跟車的車頭間距不斷縮小,相對速度恒為負值,將Cluster 2 劃分為加速跟車。

圖9 示例2的場景數據
(3)場景聚類結果為Cluster 3樣例
限于篇幅原因,選擇1 例聚類結果為Cluster 3 的場景作為樣例,示例3 場景數據如圖10 所示,跟車的車頭間距不斷增大,相對速度恒為正值,將Cluster 3劃分為減速跟車。


圖10 示例3的場景數據
本文基于道路試驗數據提取了跟車場景特征要素,運用K 均值聚類算法進行場景挖掘,挖掘獲得大量具有實際價值的跟車場景,并以此為基礎,構造了大量的跟車測試場景。場景數據源于真實道路試驗,構建的場景更具有真實性、可靠性,對智能駕駛汽車的跟車仿真模型的建設具有重要意義。
未來的研究內容,將會依托提取的跟車測試場景,圍繞高速領航功能、彎道跟車輔助功能、自動環道功能測試的仿真模型搭建展開。