999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的換道模型研究

2021-07-05 12:00:18黃幸文郝海明張水潮俞思寧
電子技術與軟件工程 2021年10期
關鍵詞:方向模型

黃幸文 郝海明 張水潮 俞思寧

(寧波工程學院建筑與交通學院 浙江省寧波市 315211)

1 概述

換道是車輛行駛的核心功能,也是自動駕駛車輛的基礎模塊,現狀的換道模型研究可以劃分為兩類,一類是換道決策模型[1‐3],研究車輛在行駛過程中,駕駛員決定是否換道的決策過程;一類是換道控制模型[4‐6],當確定換道后,怎么操控車輛,讓車輛安全、平順地完成換道任務。

現狀換道控制研究主要采用最優化控制的方法建模并求解換道軌跡,對車載設備的計算功能要求非常高,而且,在求解的過程中,車輛狀態在持續改變,且最優化求解需要一定的時間,所以車輛實際上是以新的行駛狀態執行舊的最優解,運行效率受到一定的影響。為了有效解決這個問題,本研究采用強化學習的方法構建車輛換道模型,AI智能體。強化學習的運用分兩個部分,學習階段和執行階段。學習階段是一個尋優過程,需要充足的時間,由路測單元提前完成,即AI 智能體根據路段的實際情況,隨機選取車輛的初始位置,通過試錯法校準深度神經網絡的參數,完成參數標定后,存儲神經網絡模型;執行階段僅僅根據輸入參數計算輸出,計算工作量非常小,由車輛完成,當車輛行駛到該路段時,由路測單元將神經網絡模型模型通過I2V 設備傳輸給車載單元,車輛可根據換道的需求使用模型。

2 控制優化模型

本研究所選用的環境為直道的換道,假設道路有兩個車道,假設車輛沿著道路方向的速度不變,只控制車輛垂直道路方向的位置、速度,所采取的控制變量為車輛在垂直道路方向的加速度ay(t)。

2.1 約束條件

本問題的約束條件有三個,分別為加速度、速度、車輛位置的約束。

(1)車輛的控制變量為車輛在垂直道路方向的加速度ay(t)。車輛的加速度必須滿足車輛的機械性能,任意時刻加速度的大小要在最大加速度amax與最小減速度‐dmax的范圍內,

式中ay(t)為車輛在垂直道路方向的加速度隨時間的函數,amax表示車輛在垂直道路方向的最大加速度,‐dmax表示車輛在垂直道路方向的最小減速度,amax和dmax都是正數。

(2)車輛的速度是加速度的一階積分,在任意時刻,車輛的速度必須小于車輛和道路所能允許的最大速度vmax,由于此處的速度為車輛垂直于道路方向的速度,所以,既可以為正值也可以為負值,在任意一個時刻,車輛的速度必須滿足,

式中v(0)為車輛在初始時刻在垂直于道路方向的速度。

(3)為了保證車輛的安全性,任意時刻,車輛必須在道路內行駛,即車輛的位置不可以到道路邊線之外。

式中Lu為道路左側的邊界,Ld道路右側的邊界,s(t)為車輛在第t 時在垂直于道路方向所處的位置,

2.2 初始條件

初始條件為車輛沿道路方向的位置、速度、加速度以及車輛垂直于道路方向的位置、速度、加速度。由于本研究主要控制車輛的縱向運動,所以,車輛沿道路方向的速度為固定的值,即加速度為0。初始時刻垂直于道路方向的位置、速度和加速度可以在有效的取值區間內任意給定。

2.3 目標函數

(1)根據研究的目的不同,優化目標有多種。最常用的一種研究模型是希望車輛在換道的過程中車輛的位置盡可能位于目標車道,即希望換道過程中,實際的軌跡和目標車道之間的誤差越小越好,

式中abs[?]為求絕對值函數,Y 為目標車道的道路中心線,s(t)為車輛在任意時刻在垂直于道路方向的位置。

(2)在完成換道的基礎上,也可同時降低車輛的油耗,即eco‐driving 方式。這個研究方向是目前CAV 研究方向最熱門的研究,它的目的是降低車輛行駛的油耗并順帶提高車輛行駛的舒適性。油耗通常為車輛速度與加速的函數,

式中Wp,qand Mp,q為油耗模型的參數。

追求油耗最低的前提是車輛完成換道行為,所有這類優化問題為雙目標優化,為了便于求解,采用加權的方式將雙目標優化轉換為單目標優化,

式中1>γ ≥0 為油耗的權重系數,γ 越大表示越追求油耗的最低,γ 越小,表示越追求換道的效率,當γ=0 時,目標函數(6)等價于目標函數(4)。

(3)車輛行駛的平穩性也是智能駕駛車輛需要保障的一個目標,即保證乘客的舒適性。通常,我們使用加速度反映車輛的平穩性,加速度越小,車輛運行越平穩,

式中|?|為絕對值函數。

此處也需要采用加權的方法將雙目標轉換為單目標,

式中1>γ ≥0 為油耗的權重系數,γ 越大表示越追求速度的平穩性,γ 越小,表示越追求通行效率,當γ=0 時,目標函數(8)等價于目標函數(4)。

3 Deep Q Learning模型

3.1 Deep Q Learning概述

Deep Q Learning 的理論基礎為馬爾可夫決策過程,馬爾可夫決策過程是為多步驟決策最優化建模的有效工具[7]。AI 智能體的學習過程包含兩個模塊,一個為嘗試模塊,在初始狀態st,智能體根據初始化的深度神經網絡選擇一個行為at,并傳入環境模擬器,環境變量根據實際問題生成下一個狀態st+1與回報rt。智能體在嘗試中不斷的收集基礎數據(st, at, rt, st+1),并將這些數據存入記憶庫中。另一個為學習模塊,學習模塊是一個神經網絡,該神經網絡的輸入為當前時刻的狀態st,輸出為每個行為a 的Q 值,Q?(st, ak),表示從當前狀態st選擇第K 個行為ak所期望的最大收益值,? 為模型的參數。根據深度學習所建立的理論,當Q?(st, ak)訓練至收斂后,即可實現最優策略,也就是所求解問題的最優解。通過多種模型的比較,本研究最終選用換道學習效率最好的Dueling deep network structure (DDQN)模型。

3.2 狀態轉移設計

狀態轉移主要完成車輛速度和位置的改變,由于交通仿真采用離散的行駛,且仿真的步長T 非常小,為0.05 秒,因此對狀態轉移做了簡化,即忽略行駛距離計算中加速度的那一項,y 方向的狀態轉移為:

3.3 約束條件設計

加速度的取值為離散值,在最大值與最小值間,均勻取樣。加速的最大值與最小值分別為,1 和‐1,加速度的取值點為11 個。

速度必須在最大速度與最小速度之間,在實現過程中,車輛在Y 方向的正負方向向均可運行,但是要求不超過車輛在Y 方向的最大值,1。

安全約束,Lu

本研究的道路環境為單向2 車道,道路邊界線的值分別為10和18 米。此外,道路長度為90 米,若車輛在X 軸方向的位置達到90 米,說明車輛成功的運行了一個周期,本次仿真完成。

3.4 目標函數設計

3.4.1 最快換道模型

優化目標是以回報函數的形式呈現的,在2.3 節采用最優化技術建立跟車模型時,優化目標是車輛在運行過程中,車輛的位置于目標車道中線越接近越好,但是求解需要采用離散的時間,因此,需要將目標函數調整為:

因為在Deep Q Learning 算法中,若回報的值不大于0,且最高的回報值為0,學習效果最高。所以,上述目標需要改寫為求最大值的函數:

因此,在每一步操作中,回報函數為,

3.4.2 eco‐driving 模型

為了降低車輛的油耗與尾氣排放,需要將油耗函數考慮進來,若取γ=0.5 則優化目標為,

3.4.3 soft‐driving 模型

采用eco‐driving 模型回報函數的設計方法,設計soft‐driving模型的回報函數為,

4 數值實驗

4.1 最快換道模型

首先測試第一個目標函數,即最快換道實驗。經過5 萬步的訓練,約5 分鐘,駕駛智能體即可完成換道任務,運行之后的Y 方向的速度和位置曲線如圖1所示。

圖1:最快換道模運算結果

根據位置曲線,車道換道的曲線還比較順利,但是根據速度曲線,我們發現速度波動曲線具有鋸齒化的現象,這主要是用于智能體的神經網絡模型比較小,導致模型的誤差比較大導致的。解決辦法有兩個,一個是增大神經網絡的規模,二是采用soft driving 的模式,增加加速度變動的成本。

4.2 eco-driving模型

eco‐driving 模型經過5 萬步的訓練,約5 分鐘,運行之后的Y方向的速度和位置曲線如圖2所示。根據位置曲線,車道換道的曲線還比較順利,但是根據速度曲線,速度的曲線較最快換道模型的速度曲線平滑。

圖2:eco-driving 換道模運算結果

4.3 soft-driving模型

soft‐driving 模型經過5 萬步的訓練,約5 分鐘,收斂之后的智能體可以很好地完成換道任務。運行之后的Y 方向的速度和位置曲線如圖3所示。雖然運行成功,但是運行的速度曲線波動仍然很大,說明加速度的權重對于強化學習的影響很大,需要精心的調試,才可以得到期望的結果。

圖3:soft-driving 換道模運算結果

5 結論

經典換道控制模型通常采用傳統的最優化建模與求解算法計算最優換道軌跡,在線優化的方法對車載設備的計算要求非常高,且尋優過程需要花費時間,將導致實際執行換道存在誤差,為應對這兩項缺陷,本研究采用車聯網的框架,設計了基于強化學習的換道控制模型。首先,采用最優化建模的方法設計換道控制模型的約束條件、初始條件和目標函數。其次,面向Deep Q Learning 的算法及需求,根據車輛的運動規律設計狀態轉移方法,將約束條件內嵌到仿真器中,根據目標函數設計回報函數。最后,通過數值試驗驗證三種模型的有效性。研究顯示,強化學習換道模型具有可作自動駕駛車輛換道控制模塊的潛力。

猜你喜歡
方向模型
一半模型
2022年組稿方向
計算機應用(2022年2期)2022-03-01 12:33:42
2022年組稿方向
計算機應用(2022年1期)2022-02-26 06:57:42
2021年組稿方向
計算機應用(2021年4期)2021-04-20 14:06:36
2021年組稿方向
計算機應用(2021年3期)2021-03-18 13:44:48
2021年組稿方向
計算機應用(2021年1期)2021-01-21 03:22:38
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产伦精品一区二区三区视频优播 | 久久黄色一级片| 日本在线亚洲| 精品五夜婷香蕉国产线看观看| 亚洲制服丝袜第一页| 热伊人99re久久精品最新地| 亚洲va在线∨a天堂va欧美va| 国产美女主播一级成人毛片| 国产精品13页| 日韩在线2020专区| 亚洲国产亚综合在线区| 国产剧情一区二区| 亚洲国产午夜精华无码福利| 自拍亚洲欧美精品| 三区在线视频| JIZZ亚洲国产| 久久这里只有精品国产99| 久久成人免费| 青青国产在线| 91成人试看福利体验区| 99精品久久精品| 亚洲欧洲日本在线| 中国丰满人妻无码束缚啪啪| 久久6免费视频| 综合网久久| 九九九精品成人免费视频7| 久久久久亚洲精品无码网站| 久久精品中文字幕免费| 亚洲国产亚洲综合在线尤物| 久久久久人妻一区精品色奶水| 日韩精品一区二区三区大桥未久| 亚洲va精品中文字幕| 亚洲愉拍一区二区精品| 国产成人乱无码视频| 久久黄色影院| 亚洲国产中文在线二区三区免| 亚洲成人播放| 精品国产成人av免费| 国产99精品视频| 999精品免费视频| 欧美日韩在线观看一区二区三区| 久久国产精品麻豆系列| 久久公开视频| 国产综合无码一区二区色蜜蜜| 亚洲高清在线播放| 18禁影院亚洲专区| 97国产在线观看| 亚洲男人的天堂视频| 2021国产v亚洲v天堂无码| 日本影院一区| 爱色欧美亚洲综合图区| 国产成人夜色91| 国产微拍一区| 国产自在线播放| 极品av一区二区| 亚洲美女一级毛片| 国产欧美视频在线| 狼友av永久网站免费观看| 婷婷99视频精品全部在线观看 | 男女男精品视频| 国产精品三区四区| 黄网站欧美内射| 久久香蕉国产线看观| 亚洲国产成人精品青青草原| 久久精品中文字幕免费| 伊人中文网| 欧美综合一区二区三区| 99伊人精品| 欧美一级高清片久久99| 日韩欧美视频第一区在线观看| 欧美一级在线播放| 黄色网站不卡无码| 精品久久久无码专区中文字幕| 国产毛片不卡| 69av免费视频| 国产成人a毛片在线| 四虎影视库国产精品一区| 国产成人综合网在线观看| 国产一区亚洲一区| 五月婷婷综合网| 午夜丁香婷婷| 国产主播在线观看|