999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DDPG的無人車智能避障方法研究?

2019-03-11 12:12:06徐國艷宗孝鵬余貴珍蘇鴻杰
汽車工程 2019年2期
關鍵詞:動作策略

徐國艷,宗孝鵬,余貴珍,蘇鴻杰

(北京航空航天大學交通科學與工程學院,北京 100191)

前言

在未知環境中,無人車運行須躲避任意形狀的靜態和動態障礙物,為提高無人車的智能性,控制算法須考慮一系列環境狀態。現有的控制算法大都是基于規則的,但這種人工經驗編程很難應對其它突發情況,因此有必要提出一種更加智能的算法來解決這個問題[1]。

隨著強化學習的發展,越來越多的研究者將其應用在無人車控制中。強化學習的目的是通過與環境的交互學習最優的行為。與傳統的機器學習相比,強化學習有以下優勢:第一,由于不需要樣本標注過程,它能更有效地解決環境中存在的特殊情況;第二,可把整個系統作為一個整體,從而使其中的一些模塊更加魯棒;第三,強化學習可比較容易地學習到一系列行為。這些特點,對于無人車決策控制都很適用。

深度強化學習(deep Q network,DQN)將深度學習與強化學習相結合,能更容易實現人類水平的控制。在DQN模型中,深度學習用來處理傳感器數據,強化學習用來做出決策。這種模型已在Atari游戲中成功實現,并且通過像素輸出,做出人類玩家水平的決策[2]。然而,DQN模型只能處理離散低維動作空間的問題,而無人車的控制是一種連續高維動作空間問題,須輸出連續的轉向盤轉角值和加速度值,DQN算法無法解決。

一種典型的解決方法是將動作空間離散化,但離散程度過高,會引起“維數災難”;離散程度過低,會降低控制精度;因此,離散化動作空間不是解決連續動作空間問題的最優選擇。針對這個問題,谷歌DeepMind團隊提出深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)[3],在仿真環境中實現了連續動作空間的控制。

本文中提出一種無人車控制模型,首先定義無人車的輸入和輸出狀態,討論車輛內外約束條件;然后設計獎賞函數與探索策略,提出改進的DDPG算法。為了評估避障策略的有效性,在TORCS(the open racing car simulator)仿真軟件中搭建各種仿真環境,包含不同賽道和不同車輛。通過設計靜態和動態障礙環境來驗證算法的有效性。結果表明,通過一段時間的自學習,無人車能夠學習到優秀的行為,并且在新的測試環境中表現良好。

1 無人車狀態定義

1.1 傳感器數據融合

DDPG算法中的環境狀態信息通過傳感器數據獲得,輸出動作包括無人車的轉向、加速、制動和擋位值。因此首先要設計無人車傳感器數據融合方法,作為DDPG算法的環境狀態輸入。

1.1.1 傳感器類型

無人車通過各種傳感器感知環境信息,常用的傳感器包括攝像頭、GPS、激光雷達和超聲波雷達。攝像頭可識別車道線信息,判斷車輛與車道線的相對位置;GPS提供實時的位置信息和車輛行駛狀態,包括航向角、車速等;激光雷達檢測到車身周圍障礙物的距離信息;超聲波雷達布置在車身周圍,實現道路邊緣檢測。

1.1.2 多源傳感器數據融合

無人車上的傳感器可提供關于車輛狀態和車輛周圍環境的有用信息。避障算法中使用的輸入變量名稱和定義如表1所示。

表1 輸入變量定義

在真實運行環境中,通過攝像頭進行車道線識別,獲得車輛運行方向與道路軸線的夾角,用弧度表示,同時獲得車輛質心至路面投影點與道路軸線的距離,并將此距離按道路半寬歸一化為[-1,1]。通過GPS數據獲得車輛縱向和橫向速度,方向遵循汽車坐標系標準。通過激光雷達與超聲波雷達,獲得車輛周圍360°范圍內障礙物距離,以及車輛與道路邊緣的距離。

由于無人車獲得的是多個不同類型的傳感器觀測數據,信息具有多樣性和復雜性,因此須進行合理有效的融合,作為無人車狀態輸入。

多源傳感器數據融合的過程如下:

(1)收集多個不同類型傳感器的觀測數據;

(2)對傳感器的輸出數據進行特征提取,得到代表觀測數據的特征值;

(3)對特征值進行數據關聯,完成對相同目標的共同描述;

(4)對不同目標的特征值進行組合,以字典的格式傳入,作為強化學習模型中的狀態輸入。

至此,完成了多源傳感器的數據融合和無人車的狀態描述。

1.2 車輛約束條件

1.2.1 車輛動力學約束

無人車通過控制轉向盤轉角和加速/制動踏板來躲避障礙物。當速度過高時,車輛可能發生滑移甚至側翻,因此為提高行車安全,車輛行駛時要求側向加速度不大于0.4g[4]。

式中:ay為側向加速度;g為重力加速度。

側向加速度與前輪轉角和車速的關系[5]為

式中:u為車速;δ為前輪轉角;K為穩定性因數。K通過下式來計算:

式中:m為汽車質量;L為車輛軸距;a為前軸到車輛質心的距離;b為后軸到車輛質心的距離;k1和k2分別為前后輪側偏剛度。根據約束條件:ay≤0.4g,得

從而前輪轉角滿足:

1.2.2 交通規則約束

除了車輛動力學約束外,還須考慮交通規則約束。典型的交通規則約束包括交通信號燈、車道線和速度限制等。當無人車在避障過程中換道時,必須遵守相關的交通規則約束。在仿真環境TORCS中主要考慮車道線限制與速度限制。車道線分為實線和虛線,在換道過程中實線不可穿越,而虛線可以。速度限制指最高速度不得超過120km/h,讀取無人車實時車速,通過反饋調節限制車輛速度。

1.3 控制變量

無人車的控制通過一組典型的執行器實現,即轉向盤、加速踏板、制動踏板和變速器,變量定義如表2所示。

表2 輸出變量定義

2 無人車避障策略設計

2.1 獎賞設計

強化學習的獎賞函數將感知的狀態映射為增強信號,用來評估動作的好壞。獎賞信號通常是標量,正值表示獎勵,負值表示懲罰。獎賞函數的獎賞值與每一時刻車輛縱向速度呈正相關,當車輛發生碰撞或駛出車道線時給予額外的懲罰。本文中設計獎賞函數如下:

當發生碰撞時,獎賞值設為-10,如果車輛行駛出道路,獎賞值設為-20。其它情況下,獎賞值的目的是最大化車輛縱向速度,最小化側向速度。其中,φ為車輛縱向與道路軸線的夾角,vx為車輛縱向速度,因此vxcosφ表示車輛沿道路軸向方向的速度,vxsinφ表示車輛沿垂直于道路軸線方向的速度。考慮到交通規則約束,即無人車不能穿過道路邊緣的實線,在公式中添加第 3項vx|trackPos|,其中|trackPos|表示車輛質心至路面投影點與道路軸線的歸一化距離。

每次實驗都包含許多學習回合,當車輛出界或者陷入局部最小值即速度小于設定的最小值時,結束該回合的學習。

2.2 探索策略

在強化學習中,適當的探索策略必不可少,嘗試更多新的動作可避免陷入局部最優,即在某些特定的場景中總是采取相同的行動。奧恩斯坦-烏倫貝克過程是一種具有平均回歸特性的隨機過程,本文中用它來實現連續空間中的探索[6]:

式中:ε為變量趨于平均值的速度;μ為均值;σ為過程的波動程度。將該過程分別添加到轉向、制動和加速中,其中加速的μ值需合理設置,避免出現車輛一直踩制動踏板不踩加速踏板的極限情況。

2.3 DDPG算法改進

DDPG結合了DQN、確定性策略梯度算法DPG(deterministic policy gradient)和演員-評論家算法(actor-critic methods),可解決強化學習中連續動作空間問題[3]。DQN利用神經網絡來逼近值函數,其參數是每層網絡的權重,對值函數進行更新其實就是更新權重參數。DPG算法采用異策略學習方法,行動策略采用隨機策略,以保證足夠的探索,評估策略采用確定策略,以減少動作空間的采樣數量。DPG采用演員-評論家算法框架,它通過分離策略函數和價值函數來降低學習難度,策略函數被稱為演員,價值函數被稱為評論家,演員根據當前的環境狀態產生一個動作,而評論家則對演員采取的動作進行評價。在本文中,評論家網絡模型選擇SARSA(state action reward state action)算法,演員網絡模型選擇策略梯度算法。

在常規DDPG算法中,網絡從回放緩沖區中隨機采樣進行離線訓練。回放緩沖區是一個有限大小的緩沖區R,元祖(st,at,rt,st+1)儲存在緩沖區中并且根據探索策略隨機采樣。然而,由于有限的采樣空間大小,且前期的樣本學習效果一般,導致后期學習速率將變慢,且行為無法明顯改善。因此,在學習的第二階段增大樣本空間,增加后期行為較好的樣本,改進后的算法如表3所示。

表3 改進的DDPG算法流程[3]

在迭代更新過程中,先積累經驗回放緩沖區直到達到數據庫指定個數,然后根據樣本分別更新兩個網絡,先更新評論家網絡,通過loss函數L更新參數θQ。再通過評論家得到的Q函數相對于動作的梯度,然后應用演員網絡更新公式更新參數θμ。更新得到的參數θQ和θμ按照比例(通過參數τ)更新到目標網絡,這個目標網絡會在下一步的訓練中用于預測策略和Q函數值。

3 仿真實驗

在TORCS中實現避障算法的仿真,TORCS是一款高度可移植、跨平臺的多車競技、開源游戲平臺,它擁有多玩家、多智能體、多賽道和多模式(練習模式、快速比賽、冠軍賽等)[7]。TORCS中含有不同的賽道,這些道路都包括靜態障礙物和動態障礙物。靜態障礙物包括道路邊緣、樹木和建筑物,動態障礙物是指移動的競爭車輛,無人車的目的是躲避這些障礙物,并盡快完成比賽。

根據障礙物種類,將無人車任務分為兩類情況:情景一只包含靜態障礙物,情景二包含靜態和動態障礙物。無人車躲避這兩種情景的障礙物,設定不同的參數,使車輛可學習到更好的策略。

3.1 情景一:靜態障礙物

3.1.1 參數設定

首先,在沒有其它車輛的道路上進行網絡訓練,無人車躲避的靜態障礙物包括路邊沿、樹木和建筑物等。

演員網絡和評論家網絡均通過Keras構建。演員神經網絡由兩個隱含層組成,分別有300和600個單元。輸出層根據變量的值域選擇不同的激活函數:tanh激活函數的輸出范圍是[-1,1],用于實現轉向指令;sigmoid激活函數的輸出范圍是[0,1],用于實現加速和制動指令。策略網絡的學習速率是10-4。評論家網絡包含兩個隱藏層,分別有300和600個單元,學習速率是10-3,神經網絡訓練大約600個回合。

3個輸出變量的隨機噪聲采用奧恩斯坦-烏倫貝克過程,作為適當的探索策略,且噪聲隨訓練過程的增多逐漸減小,具體參數如表4所示。

表4 隨機噪聲參數

ε代表變量趨于平均值的速度,由于轉向動作數量多,需提高轉向的探索次數,將轉向的ε設置為0.6,加速和制動的ε設為1.0。μ代表噪聲的平均值,轉向有正有負,因此均值為0;加速均值為0.6,使車輛擁有初始速度;為了避免頻繁制動,將制動μ值設為-0.1。σ為噪聲的波動程度,為提高轉向的探索動作數量,將轉向的σ值設為0.30,同樣地,為避免頻繁制動,加速的σ值需大于制動的σ值,分別設為0.10和0.05。

3.1.2 實驗結果

選擇CG Speedway number 1作為訓練賽道,如圖1所示。其長2 057.56m,寬15m,擁有道路的典型特征,包含靜態障礙物和車道線,中途有20個坑洼障礙。

圖1 訓練賽道

圖2為每回合的訓練步數。由圖可知,在大約前800個回合,無人車的訓練步數均小于500步,表明無人車觸發訓練終止條件,即無人車駛出道路或者陷入局部最小值(速度為0)。大約在第805個回合,訓練步數開始增加,普遍超過500步,甚至超過2 000步,表明無人車學習到較好的策略,能完整地跑完整條賽道,并重復行駛多圈。在第900個回合左右,有幾個回合的訓練步數減小,是由于無人車嘗試隨機探索動作的原因。

圖2 每回合步數

無人車每回合的累計獎賞值如圖3所示,無人車的目的是通過不斷學習來提高環境獎賞值,從而獲得最大的獎賞值。因此,獎賞值越大,表明學習效果越好。對比可知,累計獎賞值的變化趨勢與每回合步數變化趨勢保持一致。

圖3 每回合累計獎賞值

每一回合的每一步平均獎賞值反映了學習進程的效果。學習過程如圖4所示,平均獎賞值呈逐漸增加的趨勢。大約經過400個回合,平均獎賞值大于50,表明無人車學習到較好策略。在720個回合左右,平均獎賞值有一定的降低,且直到第840個回合左右才趨于穩定,保持一個較大的值。

圖4 每回合平均獎賞值

在賽道CG Speedway number 1學習完成后,在另一賽道CG track 2上進行算法驗證,驗證賽道要比學習賽道更長,更復雜,長3 185.83m,寬15m,在賽道中含有16個坑洼障礙,如圖5所示。

圖5 驗證賽道

圖6為在驗證賽道上每步的獎賞值。由圖可以看出,所有的獎賞值均為正值,表明無人車能成功跑完整條賽道,每一步都沒有碰撞發生。

圖6 每步獎賞值

3.2 情景二:動態障礙物

3.2.1 參數設定

在靜態障礙環境訓練后,添加其它競爭車輛作為動態障礙物,無人車不僅要躲避靜態障礙物,還要躲避動態障礙物。

演員網絡和評論家網絡的構建方法與情景一類似,有兩個隱藏層,分別有300和600個神經單元。3個輸出變量的隨機噪聲參數如表5所示。

表5 隨機噪聲參數

參數的具體含義同表4,區別是將加速度的μ值從0.6減到0.4,制動的μ值從-0.1變到0.1,這是因為無人車需要更多的制動來躲避其它車輛。

3.2.2 實驗結果

同樣選擇CG Speedway number 1賽道作為訓練賽道,如圖7所示。添加其它5輛車作為移動障礙物,由AI控制完成整條賽道的比賽,由于一些車輛比較極端,可能會撞到路邊圍欄,因此無人車應學習如何躲避這些事故車輛,不發生碰撞,獲得最大獎勵。在訓練開始階段,無人車無法有效躲避其它車輛,會發生碰撞,有時也會撞到道路邊緣。經過多回合訓練,逐漸提升性能,最終學會躲避靜態障礙物和動態障礙物。

每回合的步數如圖8所示。在實驗開始階段,每回合的步數小于100,無人車發生碰撞,重新開始訓練。大約經過500個回合后,步數顯著增加,表明無人車學到較好策略。

圖7 訓練賽道

圖8 每回合步數

每回合的累計獎賞值如圖9所示。在前400個回合,累計獎賞值較小,這與回合中的學習步數少有關。在500個回合左右,學習步數增多,累計獎賞值也變大。在700個回合左右,由于學習步數沒有明顯變化,累計獎賞值也保持一定值,隨后隨著步數的增加,累計獎賞值也增加。可以看出,累計獎賞值的變化趨勢與學習步數的變化趨勢保持一致。

圖9 每回合累計獎賞值

每回合的平均獎賞值如圖10所示。前400個回合,平均獎賞值都比較低,無人車處于學習狀態。大約400個回合后,平均獎賞值開始增加,并且逐漸趨于穩定,表明無人車學習到較好策略。

當無人車在訓練賽道上表現優異時,在賽道CG Track 2上進行驗證,同樣添加其它5輛車作為移動障礙物,如圖11所示。

圖10 每回合平均獎賞值

圖11 驗證賽道

每一步的獎賞值如圖12所示,所有的獎賞值均為正值,表明沒有碰撞發生。

圖12 每步獎賞值

4 結論

本文中將深度確定策略梯度算法應用于無人車避障策略,使無人車執行連續動作。算法中考慮車輛動力學約束和交通規則約束,使輸出動作更合理有效。將障礙物分為靜態障礙物和動態障礙物兩大類,分別通過學習過程和測試過程來驗證算法的有效性。首先在學習軌道上訓練,經過足夠多的訓練回合后,在其它賽道進行驗證學習效果。結果表明,該算法在無人車仿真平臺TORCS中表現良好。

猜你喜歡
動作策略
基于“選—練—評”一體化的二輪復習策略
下一個動作
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 欧美区一区二区三| 高清免费毛片| 亚洲精品波多野结衣| 热久久综合这里只有精品电影| 狼友av永久网站免费观看| 精品欧美一区二区三区久久久| 五月天香蕉视频国产亚| 亚洲性影院| 五月天在线网站| 欧美一区二区三区欧美日韩亚洲| 欧美亚洲欧美区| 欧美成人精品在线| 欧美中文一区| 成人综合久久综合| 欧美日韩资源| 国产成人精品高清在线| 99精品免费在线| 美女啪啪无遮挡| 免费一级α片在线观看| 国产欧美高清| 久久久久青草线综合超碰| 色AV色 综合网站| AV天堂资源福利在线观看| 亚洲国产成人在线| 成人av手机在线观看| 国产男女XX00免费观看| 最新加勒比隔壁人妻| 免费不卡视频| 国产区人妖精品人妖精品视频| 成人免费网站久久久| 国产精品毛片一区视频播| 欧美天堂在线| 国产免费羞羞视频| 午夜a级毛片| 亚洲精品国产首次亮相| 伊人久久婷婷五月综合97色| www欧美在线观看| 国产成人精品三级| 亚洲人成网站在线观看播放不卡| 一级毛片在线播放免费观看 | 91麻豆国产视频| 区国产精品搜索视频| 亚洲an第二区国产精品| 在线欧美日韩| 国产精品色婷婷在线观看| 日韩a级毛片| 免费国产高清视频| 波多野结衣的av一区二区三区| 成人噜噜噜视频在线观看| 亚洲精品卡2卡3卡4卡5卡区| 亚洲黄色激情网站| 呦视频在线一区二区三区| 日本亚洲欧美在线| 人妻免费无码不卡视频| 国产精品香蕉在线| www.91在线播放| 国产亚洲精品无码专| 国产成人无码播放| 伦精品一区二区三区视频| 亚洲性日韩精品一区二区| 亚洲AⅤ无码国产精品| 五月天综合婷婷| 无码'专区第一页| 青青青国产视频| 精品无码专区亚洲| 国产日产欧美精品| 激情成人综合网| 欧美性猛交一区二区三区| 91无码网站| 欧美v在线| 亚洲毛片一级带毛片基地| 亚洲最黄视频| 国产精品成人免费视频99| 久久国产精品国产自线拍| 精品欧美一区二区三区久久久| 欧美日韩免费在线视频| 性69交片免费看| 无码高潮喷水专区久久| 欧美精品v欧洲精品| 日本在线亚洲| 亚洲一欧洲中文字幕在线| 天天综合色网|