999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于封閉場景自動駕駛的DDPG決策規劃方法

2025-11-12 00:00:00蔣立偉王滿江邱千肖文超周波朱海龍
專用汽車 2025年10期

A DDPG-Based Planning Method for Autonomous Driving in Confined Environments

Jiang LiweilWang Manjiang1Qiu Qian1Xiao WenchaolZhou BolZhu Hailong2 1.Wuhan Bus Manufacturing Co.,Ltd.,Technology Center,Wuhan 430200,China 2.Military Representative Bureau of Chemical Defense,Army Equipment Department,Yichang 443000,China

Abstract:With the advancementof autonomousdriving technology,decision-makingand planing inunstructured road scnarios havebecomearesearchfocus.Traditionalrule-basedmethodsexhibit limited generalizationcapabilityincomplexanddynamicenviron ments,struglingtobalanceeficiencyandeconomy.Besedonthis,the paperproposesadecision-makingand planning methodbased onDep DeterministicPolicyGradient(DDPG).Byreasonablydesigning the stateandactionspaceandconstructingareward function that ntegrateseficiencyconomy,afety,andcomfort,simulationexperimentsreconductedinustructuredroadscenariosiningareas.Theresultsdemonstratethattheproposed methodachievesexcellentperformanceacross multipleaspects,signicantlyenhancing evehicle'sdecision-makingandplanningcapabilies,andprovidinganovelapproachfortheappicationofautonomousdriing in complex road environments.

Key Words:Decision planning;DDPQ;Unstructured roads scenarios;Mining scene

1前言

自動駕駛系統的決策規劃模塊負責解析環境信息并生成安全高效的行駛指令,其性能直接影響車輛在復雜交通環境中的可靠性[1-2]。近年來,深度強化學習作為一種新興的人工智能技術,在自動駕駛決策規劃方面展現出了巨大的潛力。

傳統基于規則的方法依賴專家設計的邏輯(如狀態機、決策樹等)進行決策[3-4],在結構化道路中表現良好,但在礦區、工地等非結構化場景中性能顯著下降。例如,有研究采用博弈論方法優化變道決策[5],或設計規則解決復雜交叉口問題%,但在非結構化道路中適應性有限。

近年來,深度強化學習展現出巨大潛力。例如,有研究結合蒙特卡洛樹搜索和強化學習來優化高速公路決策[7],或利用博弈論方法處理無信號交叉口的交互問題[8]。此外,分層控制框架[9]和擬人化決策模型[10]也被用于提升駕駛策略的適應性和安全性。然而,這些方法在礦區等極端非結構化道路中的決策規劃仍有待深入探索[]。

本文提出的基于DDPG(DeepDeterministic PolicyGradient)的決策規劃方法,通過合理定義狀態和行動空間,并設計綜合考慮運營效率、經濟性、安全性和舒適性的回報函數,在礦區道路場景中進行模擬試驗。實驗結果表明,該方法在車輛行駛效率、經濟性、安全性以及舒適性等多方面表現出色,為自動駕駛技術在實際復雜道路環境中的應用提供了新的思路和方法。

2基于DDPG的決策規劃

2.1基于DDPG的決策架構

DDPG是一種結合深度學習和強化學習的先進算法,專門用于處理連續動作空間的強化學習問題。它通過Actor-Critic架構實現智能體與環境的交互學習,演員一評論員機制的核心思想是將帶基準線的策略梯度方法與時序差分思想相結合。其中演員(actor)對應策略函數,負責生成動作并與環境進行交互;評論員(crit-ic)對應值函數,負責評估當前策略的優劣,并指導演員下一階段的動作。系統整體架構如圖1所示。

圖1系統整體架構

2.2訓練狀態集與行為定義

2.2.1狀態集定義

在對礦區場景的實地調研與分析基礎上,狀態集的核心要素定義如下:

a.本車狀態:位置、速度、航向角等。

b.全局參考信息:參考線、期望軌跡點等。

c.環境信息:道路邊界、障礙物等信息。

因此,定義狀態集 s 為:本車當前位置 y ,本車當前速度 v ,本車當前航向角 ? ,全局信息Global(全局參考軌跡點 xref,yref,νref,?ref 等),環境障礙物信息Oblist(附近最近的 N 個障礙物信息,如相對本車的位置 相對本車的航向角 dN? 以及相對本車的速度 d 等), s 的表達式如下:

S=(x,y,v,?,Oblist,Global)

2.2.1行為定義

a.左轉、右轉:是指根據道路分支或避讓慢速車輛調整方向而做出的左轉或者右轉的決策動作。例如,在礦區主干道行駛時,前方存在慢速車輛,車輛需要左轉繞開慢速車輛,以提高通行效率,采用強化學習方式做出左轉動作決策。在左轉或右轉狀態下,車輛根據轉向指令選擇合理的繞行路徑,實現超車繞行,提高通行效率。

b.巡航:是指道路暢通時保持當前速度與方向。當道路狀況良好,前方沒有障礙物時,巡航是一種高效且安全的行駛方式,通過強化學習來做出巡航動作決策。在巡航狀態下,車輛沿著全局參考路徑并按照全局規劃

速度高效行駛。

c.跟車:前方存在其他低速車輛,當無法采用左轉或右轉繞行或者繞行路徑上有風險時,采用跟車行駛策略。跟車行駛狀態下車輛需要根據前車的速度和距離來調整自身的速度,保持安全車距,同時避免頻繁超車或減速。

d.AEB(自動緊急制動):當車輛前方突然出現高風險障礙物時,采用自動緊急制動,降低碰撞風險,通過強化學習做出緊急制動動作決策。

2.3回報函數設計

DDPG通過優化長期累積獎勵來指導智能體學習最優策略,因此回報函數的設計需要準確反映駕駛決策的預期目標。為此,構建了包含四個關鍵維度的復合回報函數:行駛效率、能耗經濟、行車安全和乘坐舒適性。

2.3.1運營效率回報

在礦區等物流運輸場景中,高效行駛可以減少人工遠程干預,提升車輛營業價值,因此提高運營效率對商業化應用至關重要。為了使智能體學習到高效的運行策略,采用兩項指標作為獎勵回報:第一是鼓勵車輛保持較高的速度行駛可以減少行駛時間;第二是盡可能向終點方向行駛。通過這兩方面的回報獎勵,能較準確地表征運營效率,從而讓智能體學習到高效運行策略。具體的公示如下:

式中, 分別為當前車速和參考車速; 為全局的終點坐標; (x,y) 為當前位置坐標; σ 為權重系數; Reff 為獎勵項。

2.3.2安全性回報

安全性回報函數設計考慮障礙物距離和道路邊界距離回報 Rsafe ,盡可能讓車輛行駛在距離道路邊界和障礙物較遠的區域,從而讓智能體學習到安全行駛策略。

碰撞在行車過程中是嚴重的問題,是不允許發生的事件,若發生碰撞,則給予嚴重懲罰,否則為0,具體表示如下:

式中,8為權重系數; dmin 為當前車輛與障礙物和道路邊界的最小距離; dminth 為車輛與障礙物和道路邊界之間允許的最小距離閾值。

2.3.3舒適性回報

舒適性回報衡量車輛行駛的平穩性,主要包括速度

變化約束,能減少智能體頻繁轉向繞行和跟車決策,避免急加減速,通過方向變化約束,能減少智能體頻繁轉向決策,減少連續急轉,提高舒適性。具體表達式如下:

式中, vpre??pre 為上一時刻的速度和航向角; δ?1 和 δ?2 均為權重系數。

2.3.4綜合回報

將這三部分回報相加得到總的回報,以此來指導車輛在行駛過程中綜合考慮運營效率、經濟性、安全性和舒適性,實現最優的決策規劃。具體表達式如下:

Rt1Reff2Rsafe3Rconf

2.4DDPG神經網絡設計

本研究基于DDPG框架構建決策規劃模型,采用Actor-Critic雙網絡結構,其中Actor負責生成連續動作,Critic評估狀態-動作對的價值,并結合隨機環境生成與終止條件設計提升訓練效率與泛化能力。

a.評價器網絡(Critic)。

評價器由狀態子網絡與動作子網絡組成。狀態輸入經全連接層映射至400維特征空間并經ReLU激活,動作輸人經全連接層映射至300維特征空間。兩者特征在加法層融合后,經過ReLU激活及全連接層輸出(20 Q 值。

b.策略網絡(Actor)。

策略網絡以狀態為輸入,依次經過全連接層與Re-LU激活,最終通過tanh層將輸出限制在 [-1,1][-1,1] [-1,1]范圍內,并結合softmax層生成動作概率分布。

c.單幕訓練終止條件。

為提高訓練效率,設置如下終止條件: ① 抵達終點;② 與障礙物碰撞; ③ 超出道路邊界; ④ 長時間低速或靜止。

d.隨機環境生成。

為防止在特定環境中陷入局部最優,構建隨機化的礦區動態障礙物環境。依據某礦區長期運營條件下統計的實際交通行為,設定障礙物行為概率(如沿邊界行駛0.7、橫穿0.05、掉頭0.01、卸載區等待0.8等),并據此生成軌跡輸入訓練網絡,以提升模型的泛化能力。

3算法訓練

本文采用的仿真平臺為Prescan+Matlab軟件。Pr-escan提供駕駛環境、感知設備、車輛動力學等必要的自動駕駛要素;Matlab建立強化學習等智能算法,并與 Pr. escan集成,實現模型在線訓練。最后會將本文DDPG方法與基于規則的方法在相同環境下進行對比仿真試驗。

3.1模型訓練環境構建

本研究基于某礦區60臺礦卡長期運營數據,提取關鍵道路特征,構建了如圖2所示的礦區自動駕駛作業環境。模擬環境涵蓋坡度變化、不同附著系數路面及道路曲率變化等影響車輛動力學的路段,設置了單行道、交叉路口、裝卸區等典型無明確車道邊界場景,并在道路上隨機布置靜態障礙物以模擬碎石等實際情況。

圖2Prescan礦區場景

3.2訓練環境集成

將設計的DDPG智能體與訓練環境集成。外圍訓練環境主要包含全局路徑規劃、局部路徑規劃、速度規劃、控制單元以及Prescan仿真場景等。將Prescan仿真場景反饋的障礙物狀態及自車狀態信息作為智能體的連續狀態空間輸入,并基于多目標優化回報函數計算環境回報,反饋到智能體。DDPG智能體通過Actor網絡輸出連續動作(如巡航、轉向等),用于后端局部路徑規劃及控制單元的決策運算。整體軟件架構如圖3所示。

圖3系統軟件架構

3.3模型訓練

訓練Agent每一幕最大步數設置為1500步,當超過最大步數或者提前達到終點時,該幕結束,進人下一幕。實驗總幕數Episodes設置為20O00幕。具體參數如表1所示。

從訓練結果圖4可見,在固定場景下,經過2000幕訓練后模型收斂,回報值穩定,車輛逐漸學會預期策略。

平均行駛速度從 1m/s 提升至 3.5m/s ,接近設定目標速度;平均行駛距離從 90m 增長至 330m ,顯示車輛能有效避障并完成駕駛任務,達到了較好的訓練效果。

表1模型訓練參數

4測試對比

根據實際作業流程,在相同試驗環境下開展模型在環(Model-in-the-Loop,MIL)測試和硬件在環(Hard-ware-in-the-Loop,HIL)測試,對比分析基于規則與基于DDPG的決策方法。車輛運營路線包括從裝載區出發,經平直路、上坡、彎道、T型路口、大彎道等路段,到達裝載區平臺后重載沿原路返回卸載區。

從圖5以及表2可以看出,在礦區復雜交通環境中,基于規則的決策方法表現較為保守,尤其是面對低速前車時車輛多處于跟隨狀態,導致行駛速度低、任務時間長,影響效率。相比之下,基于DDPG的決策策略能靈活變道避障,更好地跟蹤全局規劃車速,實際速度與目標速度誤差更小,顯著提升了運行效率。

圖5車輛行駛數據

表2評價指標對比

為了進一步驗證所提出的基于DDPG的決策規劃方法在實際硬件環境中的可行性和有效性,進行了硬件在環測試。測試環境由中央域控制器、實時仿真器、傳感器套件以及礦區場景仿真平臺組成,如圖6所示。

HIL測試結果與MATLAB/Simulink仿真趨勢一致,圖7表示在多障礙物場景下,由于左側也有障礙物,基于規則方法只能做出不換道慢速跟車的決策,而基于DDPG的方法能做出快速換道并避開障礙物的決策(圖8)。

根據MIL和HIL測試可知,基于DDPG的決策規劃方法在突發情況和非結構化環境下依然展現出較高的自主性與靈活性,能夠根據實時狀態做出合理決策,從而提升任務完成效率。相比之下,基于規則的方法在部分場景中表現出決策僵化和響應滯后的問題,處理動態環境的能力有限。同時,基于DDPG的策略在實際硬件運行中未引發明顯的安全性或舒適性下降,車輛始終保持平穩運行,符合礦區作業需求。

圖 6HIL 臺架測試架構

圖7基于規則多障礙物彎道場景決策(綠圈表示全局規劃)

圖8基于DDPG多障礙物彎道場景決策(綠圈表示全局規劃)

5結語

本文提出了一種基于深度強化學習的決策規劃方法,用于解決非結構化礦區道路場景下的自動駕駛問題。通過合理設計狀態空間、動作空間及多目標優化回報函數(綜合考慮運營效率、經濟性、安全性和舒適性),在仿真礦區環境中進行了對比試驗。MIL(Model-in-the-Loop)與HIL(Hardware-in-the-Loop)測試結果表明,相較于傳統規則型方法,DDPG算法在提升車輛運行效率、降低能耗、增強避障安全性及優化行駛平順性等方面具有顯著優勢。

然而,當前研究仍存在進一步優化的空間。例如,礦區環境的動態復雜性(如天氣變化、路面濕滑、突發障礙物等)尚未完全建模,未來可結合更精細的環境感知數據來提升算法魯棒性。此外,DDPG算法的訓練穩定性、樣本效率及對高維狀態空間的適應性仍需改進,以更好地適應礦區實時決策需求。

未來,隨著礦區無人駕駛技術的深入應用,本研究方法可進一步結合多智能體協同、在線自適應學習等技術,以應對更復雜的實際作業場景。同時,也需要進一步探索深度強化學習在非結構化道路自動駕駛中的泛化能力,推動其在礦山、港口等特殊場景的落地應用。

參考文獻:

[1]熊璐,康宇宸,張培志,等.無人駕駛車輛行為決策系統研究[J].汽 車技術,2018(8):9.

[2]Hubmann C,Becker M,Althof D,et al.Decision making for autonomous driving considering interaction and uncertain prediction of surrounding vehicles [C]//2017 IEEE intelligent.vehiclessymposium (IV).IEEE,2017:1671-1678.

[3]王曉原,楊新月.基于決策樹的駕駛行為決策機制研究[J].系統仿 真學報,2008,20(2):415-419.

[4]Aksjonov A,KyrkiV.Rule-based decision-making system for autonomous vehicles at intersections with mixed traffic environment[C]// 2021 IEEE International Intelligent Transportation Systems Conference (ITSC).IEEE,2021:660-666.

[5]Talebpour A,Mahmassani HS,Hamdar S H.Modeling lane-changing behavior in a connected environment:A game theory approach [J]. TransportationResearch Procedia,2015,7:420-440.

[6]Aksjonov A,KyrkiV.Rule-based decision-making system for autonomousvehicles at intersections with mixed traffic environment[C]// 2021 IEEE International Inteligent Transportation Systems Conference(ITSC).IEEE,2021:660-666.

[7]Hwang S,Lee K,Jeon H,et al.Autonomous vehicle cut-in algorithm for lane-merging scenarios via policy-based reinforcement learning nested within finite-state machine[J].IEEE Transactions on Intelligent Transportation Systems,2022,23(10):17594-17606.

[8]KiranBR,Sobh I,TalpaertV,etal.Deep reinforcementlearning for autonomous driving:A survey[J].IEEE transactions on intelligent transportation systems,2021,23(6):4909-4926.

[9]夏偉,李慧云.基于深度強化學習的自動駕駛策略學習方法簡[J]. 集成技術,2017,6(3):29-40.

[10]Arulkumaran K,Deisenroth MP,Brundage M,et al.Deep reinforcement learning:A brief survey[J].IEEE Signal Processing Magazine, 2017,34(6):26-38.

[11]Wu J,Yang H,Yang L,et al.Human-guided deep reinforcement learning for optimal decision making of autonomous vehicles[J]. IEEE Transactions on Systems,Man,and Cybernetics:Systems,2024 (6):16-19.

作者簡介:

蔣立偉,男,1984年生,高級工程師,研究方向為無人駕駛規劃控制、新能源電控。

主站蜘蛛池模板: 日本亚洲国产一区二区三区| 精品国产成人a在线观看| 欧美19综合中文字幕| 午夜欧美在线| 国产高清无码第一十页在线观看| 国模极品一区二区三区| 日本午夜三级| 欧美日韩国产精品综合| 久久久黄色片| 波多野结衣的av一区二区三区| 国产综合欧美| 国产欧美日韩综合在线第一| 91无码人妻精品一区二区蜜桃| 久久这里只有精品66| 中文字幕在线观看日本| 99久久人妻精品免费二区| 91视频区| 重口调教一区二区视频| 欧美一区中文字幕| 69av免费视频| 亚洲黄色视频在线观看一区| 免费xxxxx在线观看网站| 国产午夜福利片在线观看| 性色一区| 亚洲欧美国产五月天综合| 青草免费在线观看| 天堂在线www网亚洲| 国产成人av一区二区三区| 黄色网站在线观看无码| 日本a级免费| 久久综合色播五月男人的天堂| 国产人人乐人人爱| 亚洲欧美成人网| 免费一级全黄少妇性色生活片| 国产乱视频网站| 国产美女91视频| 国模粉嫩小泬视频在线观看 | 中字无码精油按摩中出视频| 亚洲欧美日本国产专区一区| 婷五月综合| av天堂最新版在线| 久久国产高清视频| 亚洲不卡影院| 欧美日韩在线国产| 国产啪在线91| 高清国产在线| 成年A级毛片| 欧美亚洲综合免费精品高清在线观看| 天天色天天综合| 中文字幕欧美日韩高清| av午夜福利一片免费看| 国产三级毛片| 亚洲天堂久久新| 中文字幕在线视频免费| 精品伊人久久久大香线蕉欧美 | 日韩一区精品视频一区二区| 亚洲综合亚洲国产尤物| 久久精品只有这里有| 国产97公开成人免费视频| 色AV色 综合网站| 国内黄色精品| 久久国产V一级毛多内射| 9啪在线视频| 国产欧美专区在线观看| 欧美97色| 2021国产在线视频| 国产精品成人一区二区不卡| 欧美无专区| 亚洲AV无码乱码在线观看裸奔| 国产欧美日韩va另类在线播放| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美成人综合在线| 毛片久久网站小视频| 91午夜福利在线观看| 欧美精品综合视频一区二区| 午夜福利免费视频| 免费欧美一级| 亚洲娇小与黑人巨大交| 狠狠色噜噜狠狠狠狠奇米777| 国产成人一区在线播放| 亚洲国产高清精品线久久| 日韩精品视频久久|