基于深度強化學習的駕駛員跟車模型研究*

2021-05-12 02:51:54郭景華李文昌羅禹貢李克強

汽車工程 2021年4期

郭景華，李文昌，4，羅禹貢，陳濤，李克強

（1. 廈門大學機電工程系，廈門 361005；2. 清華大學車輛與運載學院，北京 100084；3. 中國汽車工程研究院股份有限公司，重慶 401122；4. 同濟大學汽車學院，上海 201804）

前言

智能駕駛系統通過現代傳感、人工智能等先進技術輔助或代替駕駛員操控汽車，被認為是實現駕駛員、車輛和交通環境協同的有效手段［1］。為降低駕駛員的操作負擔，提高駕駛員的操控能力和對智能駕駛系統的接受程度，須對駕駛員的駕駛習性進行深入研究。建立準確反映駕駛員跟車行為的駕駛員模型對于智能駕駛系統控制策略的開發具有重要的意義。

駕駛員跟車模型描述了單車道相鄰車輛之間的相互作用，國內外學者建立了多種形式的跟車模型。Bando 等［2］提出了最優速度（optimal velocity，OV）模型，該模型假設車輛的最優速度與跟車距離相關，駕駛員通過加減速調整速度以實現最優車速。文獻［3］中提出一種線性跟車模型，該模型在FVD（full velocity difference）模型［4］的基礎上引入一個反映駕駛員特性的參數，以體現不同駕駛員的期望跟車距離。上述文獻都是以運動學方程或經驗公式的形式建立數學模型。駕駛員跟車時的決策是一個復雜的過程，以數學公式所擬合出的跟車模型不足以全面描述駕駛員的行為。

文獻［5］中通過駕駛模擬器采集駕駛員跟車行駛數據，并使用人工神經網絡學習駕駛員的速度規劃行為。Papathanascpoulou 等［6］通過在意大利那不勒斯采集的駕駛試驗數據，使用局部加權線性回歸方法擬合駕駛員跟車模型，并將相同的數據用于校正Gipps模型進行驗證。文獻［7］中采集10 多個駕駛員的高速道路跟車試驗數據，將相對速度、跟車距離、跟隨車輛速度輸入到自適應神經模糊推理系統進行訓練，輸出跟隨車輛的加速度。Khodayari 等［8］設計了人工神經網絡以建立駕駛員模型，其中輸入為估計的反應時間、跟車相對速度與距離和主車速度，輸出為主車加速度，并使用美國NGSIM數據集進行訓練。文獻［9］中利用遞歸深度神經網絡建立微觀駕駛員跟車模型，該模型與其他模型的區別在于采用更多的歷史狀態而不僅是瞬時狀態作為輸入。使用機器學習的方法建立的跟車模型能較好模仿駕駛員行為，且具有較大的靈活性。然而，現有的跟車模型大多是利用國外的駕駛行為試驗數據集建立的，這些模型所體現的是國外道路和駕駛員的跟馳特性。不同國家在交通、車輛和駕駛風格與文化等方面存在一定的差異，這些差異極可能會造成駕駛行為的明顯差異［10-11］。因此，基于國外道路數據建立的跟車模型不一定適用于描述我國駕駛員的跟車行為特性。為建立真實體現我國駕駛員行為特性的跟車模型，須采集大樣本我國駕駛員真實道路駕駛數據，并利用數據驅動的方法對駕駛員行為進行學習，而當前這方面的研究較少。

因此，本文中提出一種基于深度強化學習的駕駛員跟車模型。通過我國自然駕駛數據分析了駕駛員跟車行為特性及其影響因素，基于深度確定性策略梯度（deep deterministic policy gradient，DDPG）算法建立了駕駛員跟車模型，并通過試驗驗證所建立跟車模型對駕駛員跟車行為的復現能力。

1 跟車場景數據采集與提取

1.1 數據預處理

本文的數據來自我國大規模實車路試的自然駕駛工況數據［11］，數據可劃分為自車行駛數據、目標物信息和駕駛環境信息3類。自車數據主要包括速度、加速度、加速踏板行程和轉向盤轉角等；目標物信息主要包括目標速度、自車與目標的間距和目標類型等；而駕駛環境信息是指根據攝像頭采集的視頻數據通過人工標定的形式獲取，如天氣、道路類型、信號燈和標志牌等。

由于環境條件、設備條件等因素的影響，采集到的數據可能不完整和不準確，如數據缺失、數據噪聲和數據異常等問題。因此，在對自然駕駛數據進行分析前須對原始數據進行加工處理。

本文針對自然駕駛數據的噪聲進行了濾波處理，采用對稱指數移動均值濾波器（symmetric exponential moving average filter，SEMAF）對速度和加速度信號進行降噪，其表達式為

式中：x（tk）為ti（i=1，2，...，n）時刻的原始數據；n為數據量；為處理后的數據；T為濾波寬度；dt為數據時間間隔。

1.2 跟車場景片段提取

跟車指的是主車（跟隨車輛）的位置和速度實時受前方車輛影響的駕駛狀態［10］。圖1 所示為跟車場景示意圖，跟車場景中主要包含相同車道上的一個前方目標車輛和一個主車。駕駛員在駕駛過程中，通過實時道路環境和周圍車輛信息或交通約束條件和主觀經驗等對跟車條件進行判斷，并在某段時間以前方車輛為目標車進行跟隨行駛。

圖1 跟車場景示意圖

基于上述場景定義，從自然駕駛數據中截取符合條件的跟車場景片段數據，還須進一步根據數據特征進行經驗性分析以確定場景辨識的閾值，從而建立場景自動截取算法［12］。從自然駕駛數據中人工篩選部分主車跟隨目標車行駛的案例片段，通過人工觀看視頻和對車輛行駛動態參數分布范圍進行分析，定義的場景截取準則如下。

（1）跟車時，主車與目標車的縱向距離不大于120 m。設立該準則的目的在于排除主車處于自由行駛的工況。

（2）整個片段過程中，主車與目標車的橫向距離應小于5 m。本條準則用于避免車輛處于大彎道的工況。

（3）跟車片段持續時長應大于10 s。該準則保證主車處于穩定的跟車狀態，同時保證整個場景片段具有足夠的數據以供分析。

（4）跟車過程中，主車速度低于1 m/s 時則跟車結束，以保證車輛處于行駛狀態。

根據自動截取算法進行初步篩選后，再通過人工觀看視頻的方式進行驗證，以剔除無效案例。最終，總計得到1 147 個跟車場景片段，累計有效時長1.65×104s，每個數據片段平均時長為14.4 s。

2 駕駛員跟車行為特性分析

對跟車片段進行截取后可獲得大量駕駛員跟車行駛軌跡數據，以這些數據為基礎，選擇駕駛員跟車加速度a、速度v、車間距d和相對速度vr等參數對駕駛員跟車行為特性進行分析。首先，通過駕駛員行為特征參數的頻率分布特征總體了解駕駛員跟車行駛時的行為規律，其次通過相對系數對駕駛員行為特性的影響因素進行分析。

圖2為駕駛員跟車行駛時主車加速度頻率分布。由圖可知，駕駛員跟車時的加速度整體大致符合正態分布，加速度值主要分布在［-1.5 m/s2，1.5 m/s2］區間內，表明駕駛員在跟車過程中習慣保持較為平穩的速度跟隨目標車行駛。圖3 示出主車速度的分布特征。由圖可知，駕駛員跟車速度主要分布區間為［8 m/s，18 m/s］，個別駕駛員跟車速度達到35 m/s，可能的原因為這些數據所對應的行駛道路為高速道路，且道路較為暢通。

圖2 主車加速度頻率分布

圖3 主車速度頻率分布

圖4為駕駛員跟車距離的累計頻率分布，其中25、50、75 3 個百分位對應的數值分別為24.19、44.22 和72.19 m，表明駕駛員在較高的速度行駛時期望保持較大的跟車距離，駕駛員跟車距離越小，越有利于提高交通道路利用率，但過小的距離容易給駕駛員造成心理負擔，且容易造成交通事故。

圖4 跟車距離累計頻率分布

圖5 為駕駛員跟車時相對速度的頻率分布，相對速度定義為目標車速度與主車速度的差值。從圖中可以看出，駕駛員跟車時與目標車的相對速度呈明顯的正態分布，駕駛員在大部分情況下期望以較小的速度差跟隨目標車行駛，個別相對速度達到10 m/s。

圖5 相對速度頻率分布

車頭時距（time headway，THW）是一個表征駕駛員跟車行為的重要參數，定義為前后兩車頭部通過道路某一斷面的時間間隔［13］。THW（單位：s）可以表示為

式中：dx為主車與目標車之間的縱向距離；vx為主車的縱向速度。

THW 值越小，說明主車跟隨目標行駛的形勢越緊急，如跟車距離較小或主車速度較高等情況。圖6示出THW 的頻率分布。從圖中可以看出THW 總體符合對數正態分布，主要分布區間為［1.5 s，3.5 s］，說明駕駛員在大部分跟車行駛時較為從容，與目標車形成較為平穩的相對運動狀態，從而在主觀上達到安全舒適的感受，個別THW 值達到了15 s，可能原因是主車速度較小或跟車距離較大。圖7 為駕駛員跟車THW 值累計頻率分布。其中25、50、75 3 個百分位對應的THW 數值分別為2.11、3.17 和4.65 s。

進一步，為更好地利用自然駕駛數據建立駕駛員跟車模型，采用Spearman 相關系數量化分析駕駛員跟車距離d和相對速度vr以及THW 與主車速度v和加速度a的相關性，從而提示這些因素對駕駛員跟車行為的影響。Spearman相關系數是度量兩個等級變量之間相關關系的非參數指標，其表達式為

圖6 THW頻率分布

圖7 THW值累計頻率分布

式中：R為相關系數；di為兩個變量的等級差；m為樣本數。

由式（3）可知，相關系數取值范圍為［-1，1］，相關系數的正負表示兩個變量呈正相關和負相關；相關系數值的大小反映兩個變量的相關程度。

對各個跟車片段中的駕駛員跟車距離d、相對速度vr和THW 值與加速度和速度的Spearman 相關系數進行計算，并得到了顯著性檢驗的p值。以0.2為間隔對相關系數分布區間進行劃分，統計不同參數與加速度的相關系數在各區間的分布概率，結果如圖8 所示。從圖8 可知，車間距、THW 值與加速度的相關系數在各區間的分布概率較為均勻，而相對速度與加速度呈正相關的概率較大。為更好體現各變量與加速度的相關性程度，在表1 中列出了相關系數的分布。可以看出，各變量與加速度相關系數大于0.4 的概率均大于50%。此外，車間距與加速度相關的概率最高，THW 次之，其中車間距與加速度相關系數大于0.4 和0.7 的概率分別為63.12%和34.35%，而相對速度與加速度相關系數大于0.4和0.7 的分布概率最小，分別為53.18%和23.10%。結果說明駕駛員跟車時根據車間距對加速度進行調整的概率最大，而相對速度相對跟車距離和THW 而言，對駕駛員跟車加速度的影響較小。

圖8 各變量與加速度相關系數分布概率

表1 各變量與加速度相關系數分布情況

圖9 為各變量與加速度相關程度的顯著性檢驗p值的概率分布情況，其中各變量對應的p值小于0.05 的分布概率均超過90%，說明90%以上的案例中各變量與加速度的相關性顯著。綜合以上統計結果的分析，可以判斷跟車距離、相對速度、THW 值對駕駛員跟車加速度都有一定的影響。

圖9 相關程度顯著性檢驗p 值概率分布

圖10所示為各變量與速度相關系數的分布概率情況。從圖中可知，各變量與速度相關系數絕對值主要分布在［0.8，1］之間，說明大部分跟車片段中各變量與速度的相關性較強。跟車距離與速度呈正相關的概率最大，而相對速度與加速度主要呈負相關的趨勢。表2 為各變量與速度相關系數的分布。其中相關系數大于0.4 和大于0.7 的概率分別分布在80%和60%左右，表明各變量大概率與速度具有相關性，且相關程度差異不大，表明駕駛員在跟車過程可能綜合這些參數對速度進行調整。圖11 為顯著性檢驗p值的分布，同樣地，各變量對應的p值小于0.05 的分布概率也都超過90%，表明各變量與速度相關具有較強的顯著性。

圖10 各變量與速度相關系數分布概率

表2 各變量與速度相關系數分布情況

圖11 相關程度顯著性檢驗p值概率分布

3 基于深度強化學習的駕駛員跟車模型

3.1 跟車模型框架設計

當前的跟車模型大多缺乏個性化，精度不高［14］。為克服現有跟車模型的限制，提高跟車模型對駕駛員跟車行為的復現能力，且由于車輛加速度信息以連續狀態存在，本文選擇在連續動作空間中具有很好性能表現的深度確定性策略梯度算法DDPG 設計了駕駛員跟車模型框架。將駕駛員跟車軌跡數據集輸入到模擬跟車環境中，讓智能體從經驗數據中學習駕駛員的決策行為，從而形成從跟車駕駛狀態到加/減速行為關系的映射。

DDPG 使用的是基于確定性策略梯度（deter?ministic policy gradient，DPG）的Actor?Critic神經網絡框架，包含一個基于策略的Actor網絡和一個基于價值的Critic網絡，每個網絡又細分為在線網絡和目標網絡。此外，DDPG算法同樣采用了經驗回放池存儲經驗數據，在學習過程中采用某種策略從中均勻抽取小批量數據更新Actor網絡和Critic網絡的參數。

3.2 環境與獎勵函數設計

由第2 節的分析可知，速度和加速度等駕駛員跟車行為參數受跟車距離、相對速度和THW 的影響，而THW 又與跟車距離和速度相關。所以，本文采用3 個關鍵參數來表征駕駛員在某個時刻t所采取動作的基準信息，即第n輛車（假設為受控車輛）的速度vn，車輛n與前方目標車輛n-1 的相對速度Δv，以及兩車之間的間距s，而駕駛員模型的輸出為車輛n的縱向加速度an（t）。

通過以下表達式描述環境狀態的迭代關系，即

式中Ts為模擬時間間隔。

智能體從環境中獲取當前時刻的狀態信息，并根據策略從動作空間中選取動作，環境執行動作后進入下一個狀態［15-16］，同時智能體因動作獲得相應的獎勵（或懲罰），如此不斷交互直至達到結束條件。智能體的目標是獲取最大的累積獎勵，其中評判智能體所采取動作好壞的度量標準通常用獎勵函數表示。因此，獎勵函數的設計影響智能體的決策方向，是強化學習算法的關鍵。

駕駛員在現實跟車中會根據駕駛環境，采取一定的動作調整車輛的縱向運動狀態，使自車速度和車輛間距離在可接受的安全、舒適范圍內。為更好地反映駕駛員的跟車行為特性，應盡可能減小模擬狀態與真實狀態之間的誤差。本文采用速度作為性能指標，以最小化速度誤差為目標訓練跟車模型。為直觀體現誤差的大小，本文設計的獎勵函數形式為

式中vobs和vsim分別為駕駛員駕駛車速和模擬車速。

3.3 網絡結構與參數更新

設計的Actor 網絡和Critic 網絡的神經網絡結構如圖12所示。其中，Actor網絡的輸入為跟車狀態信息，包括主車速度、相對速度和車間距，輸出為主車的跟車加速度；Critic 網絡的輸入為跟車狀態信息和Actor網絡輸出的加速度，輸出為Q值函數。Actor網絡和Critic 網絡均包含4 層結構，包括輸入層、兩個隱層和輸出層，其中隱層分別包含100 個和50 個神經元。

圖12 Actor和Critic網絡結構示意圖

為得到較好的模型收斂速度，采用整流線性單元（rectified linear unit，ReLU）激活函數擬合隱層中的輸入輸出信號轉換關系，ReLU 激活函數表達式為

此外，為限制加速度輸出范圍，在Actor 網絡輸出層中采用tanh激活函數，使Actor網絡輸出的加速度保持在［-1，1］范圍內。

Critic 網絡從經驗回放池取得經驗樣本后，通過最小化損失函數以更新策略網絡參數，損失函數為

式中：θQ為Q值網絡參數；θQ′為Critic 網絡中目標網絡的參數；θμ′為Actor網絡中目標網絡的參數。

Actor 網絡中的目標網絡用于更新價值網絡參數，其策略梯度表達式為

式中θμ為策略網絡參數。

每次訓練完后，先使用梯度更新在線網絡的參數，然后更新兩個目標網絡的參數，其表達式為

式中τ為軟更新率。

4 驗證與分析

從所有數據集中隨機挑選70%的數據片段對駕駛員模型參數進行訓練校正，剩余30%用于對模型驗證。采用每個訓練步數的總獎勵、平均獎勵和速度的均方根誤差（root of mean square error，RMSE）作為訓練效果的觀測指標，RMSE定義為

式中vobs（i）和vsim（i）分別為采集的第i個真實車速和模擬車速。

每個步數所獲得的總獎勵值、獎勵均值和RMSE 值如圖13～圖15 所示。由于獎勵函數設計為誤差平方的形式，因此獎勵越小時，誤差越小。由圖13～圖15可以看出，盡管訓練步數設置為1 200步，在300步左右時模型便開始收斂。

圖13 訓練過程總獎勵變化

圖14 訓練過程平均獎勵變化

圖15 訓練過程均方差根誤差曲線

為驗證所提出的跟車模型反映駕駛員跟車行為特性的能力，隨機選擇測試集中的數據對300～350步中的模型參數進行驗證。圖16 展示一個跟車片段速度和車間距真實值與模型輸出模擬值的對比。從圖中可以看出，速度和車間距的仿真結果能較好地跟隨真實值，從而說明所建立的DDPG 模型能較好地反映駕駛員跟車行為。

圖16 速度和車間距的模擬與真實值對比結果

為驗證所建立的跟車模型性能，采用現有研究中常用的FVD 模型［4］和IDM 模型［17］進行對比試驗。采用遺傳算法和自然駕駛數據集對FVD模型和IDM模型的參數進行標定，采用速度的均方根百分比誤差（root of mean square percentage error，RMPSE）作為參數標定時的適應度函數，其表達式為

完成FVD 模型和IDM 模型參數的標定后，在穩態、加速、減速3種不同跟車工況下進行對比，分析所提出的模型與對比模型在反映駕駛員跟車行為方面的性能表現。圖17～圖19展示了不同工況下駕駛員跟車速度和車間距與3種跟車模型模擬結果的對比。

圖17 穩態跟車工況

圖18 加速跟車工況

圖17為穩態跟車工況下的速度和車間距對比曲線。由圖可見，DDPG 模型輸出的速度和車間距比FVD 和IDM 模型的結果更接近駕駛員的行駛數據，表明DDPG 模型更能反映駕駛員的真實跟車行為。

圖18 為加速跟車工況下的速度和車間距對比結果。由圖可見，總體來說，加速跟車工況下，DDPG模型輸出的結果比兩種對比模型的結果能更好地體現駕駛員的跟車行為。

圖19 減速跟車工況

減速跟車工況下的速度和車間距對比結果如圖19 所示。由圖可見，總體來說，在減速跟車工況下，DDPG模型能較好地跟隨實際的速度和車間距。

5 結論

設計跟車場景截取準則，并從自然駕駛數據中篩選出符合條件的典型跟車場景。基于自然駕駛數據對駕駛員跟車行為進行分析，通過駕駛員跟車加速度、速度、車間距、相對速度和THW 等參數的頻率分布特征對駕駛員跟車總體規律進行了分析和統計，并通過相關系數分析了車間距、相對速度、THW等因素對駕駛員跟車行為的作用機理，為建立駕駛員跟車模型提供了基礎。最后，采用自然駕駛數據對跟車模型參數進行訓練與調整，基于深度強化學習建立了駕駛員跟車模型，結果表明所提出的DDPG模型能夠真實體現駕駛員的跟車行為。