999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TD3算法的網(wǎng)聯(lián)汽車隊列控制研究

2025-04-10 00:00:00張鵬
物流科技 2025年7期

摘" 要:隨著汽車智能化和網(wǎng)聯(lián)化技術(shù)的進(jìn)步,汽車編隊行駛逐漸成為緩解城市交通擁堵的有效手段之一。為了提高隊列行駛的安全性和穩(wěn)定性,文章提出了一種基于雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法的網(wǎng)聯(lián)汽車隊列控制器。該控制器將隊列間距誤差和速度誤差作為智能體的輸入特征,設(shè)計了綜合考慮隊列安全性與穩(wěn)定性的獎勵函數(shù),接著在SUMO仿真平臺中搭建訓(xùn)練場景,并進(jìn)行參數(shù)訓(xùn)練。結(jié)果表明,與模型預(yù)測控制方法相比,提出的TD3算法在安全行駛性能上有顯著優(yōu)勢。

關(guān)鍵詞:網(wǎng)聯(lián)汽車隊列;軌跡優(yōu)化;深度強化學(xué)習(xí);模型預(yù)測控制

" 中圖分類號:U491" " 文獻(xiàn)標(biāo)志碼:A

DOI:10.13714/j.cnki.1002-3100.2025.07.014

Abstract: With the advancement of automotive intelligence and connectivity technologies, vehicle platooning has gradually become one of the effective solutions to alleviate urban traffic congestion. To enhance the safety and stability of platoon driving, this study proposes a connected vehicle platoon controller based on the Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm. The proposed controller incorporates the inter-vehicle distance error and velocity error as input features for the agent, and a reward function is designed to explicitly account for both safety and stability requirements. Then, a training scenario is built in the SUMO simulation platform for parameter training. Experimental results demonstrate that, compared to the model predictive control approach, the TD3-based controller significantly improves driving safety and overall performance.

Key words: connected vehicle platoon; trajectory optimization; deep reinforcement learning; model predictive control

0" 引" 言

" 網(wǎng)聯(lián)汽車隊列作為智能交通領(lǐng)域的的重要研究方向,因其能夠減少車輛行駛中的空氣阻力、降低能耗并改善環(huán)境污染,逐漸成為高效管理交通的關(guān)鍵手段[1]。在網(wǎng)聯(lián)汽車隊列中,車輛以期望間距穩(wěn)定行駛,不僅有助于降低交通事故的發(fā)生概率,還能有效提高道路利用率[2]。這種隊列控制策略對車輛行駛的安全性、舒適性等指標(biāo)具有重要影響,是實現(xiàn)智慧交通的核心技術(shù)之一[3]。

近年來人工智能技術(shù)的迅猛發(fā)展,深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)通過與環(huán)境的交互式學(xué)習(xí),能夠自適應(yīng)的優(yōu)化控制策略,在解決復(fù)雜決策問題方面表現(xiàn)出色[4]。在自動駕駛領(lǐng)域,DRL已被廣泛應(yīng)用于路徑規(guī)劃、行為決策和控制優(yōu)化等場景中。對于網(wǎng)聯(lián)汽車隊列控制問題,基于優(yōu)化的模型預(yù)測控制(Model Predictive Control,MPC)在復(fù)雜環(huán)境下可能面臨計算效率不足的問題,難以實現(xiàn)高效的車輛編隊管理[5]。而深度強化學(xué)習(xí)方法憑借其強大的泛化能力和適應(yīng)性,為解決這些難題提供了一條高效的路徑。本文在SUMO仿真平臺上構(gòu)建了強化學(xué)習(xí)訓(xùn)練環(huán)境,并基于TensorFlow深度學(xué)習(xí)框架設(shè)計TD3的隊列控制器。通過選取縱向間距誤差和速度誤差作為輸入變量,并設(shè)計針對安全性和穩(wěn)定性的獎勵函數(shù),最終將隊列行駛所需的加速度作為輸出控制量,從而建立了適用于城市工況下的隊列控制策略。

1" 隊列控制研究現(xiàn)狀

網(wǎng)聯(lián)汽車隊列控制通常包括縱向控制、側(cè)向控制和綜合控制三個方面。縱向控制的主要任務(wù)是使隊列中的車輛保持安全間距,并在直線道路上實現(xiàn)跟馳,從而保證隊列行駛的安全性和舒適性;側(cè)向控制則關(guān)注于實現(xiàn)隊列換道、彎道行駛和避障等行為;綜合控制研究是縱向和側(cè)向控制相耦合的方式,需要考慮隊列在行駛過程中出現(xiàn)的各種因素。針對上述隊列控制問題,相關(guān)學(xué)者已經(jīng)提出了多種隊列控制器,并將其應(yīng)用于不同的交通場景。目前,較為成熟的方法包括基于比例-積分-微分(Proportion Integration Differentiation,PID)控制的隊列控制方法、基于MPC的隊列控制方法和基于DRL的隊列控制方法等。PID控制方法雖然結(jié)構(gòu)簡單,但在面對復(fù)雜和多變的行駛環(huán)境時,不能提供足夠的適應(yīng)性和控制精度。Zhen et al.[6]在研究純電動車的生態(tài)駕駛軌跡規(guī)劃問題中,首先采用動態(tài)規(guī)劃來獲取領(lǐng)航車的期望軌跡,對于隊列中的其他車輛使用基于PID的自適應(yīng)巡航控制跟隨前車。Ma et al.[7]提出一種基于模擬退火粒子群優(yōu)化算法的MPC方法,建立了包括隊列車輛經(jīng)濟(jì)性、舒適性和安全性的多目標(biāo)優(yōu)化函數(shù),通過與自適應(yīng)巡航控制進(jìn)行對比,結(jié)果表明,所提出的MPC方法不僅滿足隊列安全要求,還在提升燃油經(jīng)濟(jì)性方面表現(xiàn)出色。馬曉帆[8]在進(jìn)行商用車隊列綜合控制研究時,將所有的跟隨車看作是一個單獨智能體,且該智能體的空間狀態(tài)由每輛跟隨車與前車的速度誤差、橫縱向間距誤差等構(gòu)成。接著設(shè)計了適當(dāng)?shù)莫剟詈瘮?shù),采用DRL算法對智能體進(jìn)行訓(xùn)練,以獲得最優(yōu)的控制策略。

2" 基于TD3的網(wǎng)聯(lián)汽車隊列控制策略

2.1" TD3算法

目標(biāo)網(wǎng)絡(luò)的參數(shù)并不是直接復(fù)制當(dāng)前網(wǎng)絡(luò)的參數(shù),而是通過一個軟更新的方式,逐步調(diào)整目標(biāo)網(wǎng)絡(luò)的參數(shù)向當(dāng)前網(wǎng)絡(luò)的參數(shù)靠近。具體來說,目標(biāo)網(wǎng)絡(luò)的參數(shù)在每次更新時會按照一個較小的步長進(jìn)行更新,從而避免訓(xùn)練過程中的劇烈波動。這種軟更新機制有助于保持訓(xùn)練過程的穩(wěn)定性,進(jìn)而提高算法的收斂性。更新方式如公式(5)所示:

3" 仿真結(jié)果與分析

3.1" 參數(shù)與訓(xùn)練結(jié)果

為驗證提出的TD3算法的有效性,選擇SUMO作為強化學(xué)習(xí)的訓(xùn)練和驗證環(huán)境,并采用Tensorflow深度學(xué)習(xí)框架設(shè)計TD3算法。通過Traci(Traffic Control Interface)接口實現(xiàn)SUMO環(huán)境與PyCharm編譯器之間的數(shù)據(jù)。TD3算法的主要參數(shù)如表1所示。

根據(jù)上述參數(shù),訓(xùn)練得到的累計獎勵值如圖4所示。在前50輪的訓(xùn)練中,由于Actor網(wǎng)絡(luò)尚未進(jìn)行充分優(yōu)化,輸出的動作較為隨機,且受到噪聲的影響,導(dǎo)致獎勵值較低。隨著訓(xùn)練回合次數(shù)增加,獎勵值逐漸上升,在200輪左右趨于穩(wěn)定。訓(xùn)練結(jié)果表明,所設(shè)計的深度強化學(xué)習(xí)算法在隊列控制已展現(xiàn)出較優(yōu)的效果。

3.2" 模型預(yù)測控制

為了與提出的TD3方法進(jìn)行對比,本文建立了一種分布式模型預(yù)測控制的隊列控制器。模型預(yù)測的核心思想是根據(jù)當(dāng)前車輛及前車的狀態(tài)和動力學(xué)特性,預(yù)測未來一段時間內(nèi)跟隨車的行駛軌跡,并通過優(yōu)化在預(yù)測時域內(nèi)的控制輸入,從而實現(xiàn)車輛的最優(yōu)控制。MPC隊列控制的目標(biāo)函數(shù)如公式(11)所示,通過優(yōu)化在預(yù)測時域T內(nèi)跟隨車與前車的間距誤差、速度誤差和加速度變化量得到最優(yōu)控制序列,并將序列中第一個控制值作為下一時刻車輛的加速度。

3.3" 結(jié)果分析

由于在隊列控制策略中未考慮領(lǐng)航車的速度規(guī)劃,本文選擇城市工況FTP75(Federal Test Procedure)中的部分工況作為領(lǐng)航車的行駛工況,以驗證隊列控制方法的性能。FTP75工況的步長為1秒,與仿真步長不一致,因此需要對工況數(shù)據(jù)進(jìn)行插值處理,結(jié)果如圖5所示。

在FTP75部分工況下,隊列行駛的速度曲線如圖6和圖7所示。在MPC和TD3控制策略下,當(dāng)領(lǐng)航車的速度發(fā)生變化時,跟隨車能夠及時做出響應(yīng)。在100秒左右,領(lǐng)航車狀態(tài)由減速變?yōu)榧铀伲cMPC控制策略相比,TD3策略下隊列的速度變化更為迅速。原因在于,MPC的目標(biāo)中考慮了加速度變化量,而TD3策略則沒有。因此,在MPC控制下,隊列加速度變化較為緩慢,導(dǎo)致隊尾車輛的速度未能及時根據(jù)前車狀態(tài)進(jìn)行調(diào)整。

根據(jù)圖8和圖9所示的隊列行駛間距誤差曲線,TD3策略下的間距誤差范圍小于MPC控制下的間距誤差,因此TD3策略具有更好的安全性能。由于本文選擇的隊列拓?fù)浣Y(jié)構(gòu)是PF(Predecessor Following),即跟隨車1的速度是直接受到領(lǐng)航車0速度變化的影響,而后續(xù)跟隨車間接受到領(lǐng)航車的影響,因此在兩種隊列控制方法中,跟隨車1的間距誤差通常大于其他跟隨車的間距誤差。在MPC控制下,跟隨車1的間距誤差在±1米以內(nèi),其他跟隨車的間距誤差保持在±0.6米以內(nèi);在TD3控制下,跟隨車1的間距誤差在±0.6米以內(nèi),其余跟隨車的間距誤差在±0.2米以內(nèi),且相較于MPC間距誤差變化更加穩(wěn)定。

隊列速度誤差如圖10和圖11所示。在MPC和TD3控制策略下,跟隨車1的速度誤差范圍均在±0.5km/h內(nèi),而在TD3策略中,其他跟隨車的速度誤差更小,范圍為±0.3km/h。在40秒時,領(lǐng)航車減速,圖9中的跟隨車的速度誤差較大;而在圖10中,除跟隨車1外,其他跟隨車速度誤差保持在一個穩(wěn)定范圍。這表明TD3隊列策略在領(lǐng)航車速度發(fā)生變化時,能夠確保隊列中跟隨車對前車有良好的速度跟隨表現(xiàn)。

4" 結(jié)" 論

" 本文探討了一種基于深度強化學(xué)習(xí)的網(wǎng)聯(lián)汽車隊列軌跡優(yōu)化策略。結(jié)合Tensorflow框架和SUMO仿真環(huán)境,提出了一種基于雙延遲深度確定性梯度策略的網(wǎng)聯(lián)汽車隊列控制方法。經(jīng)過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試,所提出方法能夠有效滿足車隊縱向的安全行駛需求。與模型預(yù)測控制方法在城市工況下進(jìn)行對比,實驗結(jié)果表明,所提出的隊列控制方法在間距安全性和速度穩(wěn)定性方面有較強的適應(yīng)性。

參考文獻(xiàn):

[1] 司勝營,劉子薇,孫恩澤. 智慧城市基礎(chǔ)設(shè)施與智能網(wǎng)聯(lián)汽車協(xié)同發(fā)展研究與實施[J]. 現(xiàn)代交通與冶金材料,2023,3(3):10

-23,42.

[2] 趙倩. 基于安全間距策略的商用車隊列控制研究[D]. 長春:吉林大學(xué),2023.

[3] 繆立新,王發(fā)平. V2X車聯(lián)網(wǎng)關(guān)鍵技術(shù)研究及應(yīng)用綜述[J]. 汽車工程學(xué)報,2020,10(1):1-12.

[4]" LI D, ZHAO D, ZHANG Q, et al. Reinforcement learning and deep learning based lateral control for autonomous driving[J]. IEEE Computational Intelligence Magazine, 2019,14(2):83-98.

[5] 羅捷,魯良葉,何德峰,等. 通信拓?fù)淝袚Q下車輛隊列分布式模型預(yù)測控制[J]. 控制理論與應(yīng)用,2021,38(7):887-896.

[6]" ZHEN H, MOSHARAFIAN S, YANG J J, et al. Eco-driving trajectory planning of a heterogeneous platoon in urban environments[J]. IFAC-PapersOnLine, 2022,55(24):161-166.

[7]" MA H, CHU L, GUO J, et al. Cooperative adaptive cruise control strategy optimization for electric vehicles based on SA

-PSO with model predictive control[J]. IEEE Access, 2020,8:225745-225756.

[8] 馬曉帆. 基于深度強化學(xué)習(xí)的商用車編隊控制方法[D]. 長春:吉林大學(xué),2022.

收稿日期:2025-02-01

基金項目:西安市科技計劃項目(2022JH-GXQY-0074)

作者簡介:張" 鵬(1998—),男,陜西延安人,長安大學(xué)汽車學(xué)院碩士研究生,研究方向:網(wǎng)聯(lián)汽車隊列控制。

引文格式:張鵬. 基于TD3算法的網(wǎng)聯(lián)汽車隊列控制研究[J]. 物流科技,2025,48(7):55-59.

主站蜘蛛池模板: 伦伦影院精品一区| 免费 国产 无码久久久| 亚洲二区视频| 国产午夜一级淫片| 亚洲国产91人成在线| 久久精品这里只有精99品| 国产永久在线视频| 国产精品理论片| 91年精品国产福利线观看久久 | 无码AV动漫| 日韩国产无码一区| 午夜国产小视频| 国产剧情一区二区| 国产精品v欧美| AV网站中文| 日韩天堂网| 激情视频综合网| 98精品全国免费观看视频| 伊人久久青草青青综合| 亚洲视频免费播放| 久久99国产综合精品女同| 亚洲国产午夜精华无码福利| 中文字幕有乳无码| 国产国产人在线成免费视频狼人色| 曰AV在线无码| 国产精品私拍在线爆乳| 毛片a级毛片免费观看免下载| 一区二区三区国产| 中文字幕在线播放不卡| 日韩欧美在线观看| 四虎影视国产精品| hezyo加勒比一区二区三区| 天堂在线www网亚洲| 粗大猛烈进出高潮视频无码| 国产区91| 91视频99| 91毛片网| 日韩国产黄色网站| 亚洲香蕉久久| 无码 在线 在线| 国产在线观看第二页| 亚洲免费黄色网| 丁香婷婷久久| 国产亚洲视频中文字幕视频| jizz在线观看| 天天干天天色综合网| 国产无码精品在线播放| 日本久久网站| 日本草草视频在线观看| 美女内射视频WWW网站午夜 | 国内丰满少妇猛烈精品播| 99视频全部免费| 成人毛片免费在线观看| 老色鬼欧美精品| 欧美成人一区午夜福利在线| 久青草网站| 五月综合色婷婷| 激情无码视频在线看| 国产福利免费视频| 久久成人国产精品免费软件 | 国内毛片视频| 久久精品国产精品青草app| 久久人体视频| 国产乱人伦精品一区二区| 伊人久久精品无码麻豆精品 | 伊人色天堂| 国产精品亚洲日韩AⅤ在线观看| 又爽又大又黄a级毛片在线视频| 亚洲第一黄片大全| 精品小视频在线观看| 区国产精品搜索视频| 一本大道无码高清| 亚洲综合色婷婷| 国产jizz| 久久香蕉国产线看精品| 欧美在线中文字幕| 国产嫖妓91东北老熟女久久一| 亚洲精品第一页不卡| 欧美午夜在线观看| 91在线丝袜| 国产在线一二三区| 91九色最新地址|