999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的AGV智能導航系統設計

2022-01-01 00:00:00賀雪梅匡胤楊志鵬楊亞喬
計算機應用研究 2022年5期

摘 要: 針對現有的AGV在大規模未知復雜環境中進行自主導航配送的問題,基于深度強化學習完成了AGV智能導航系統設計。首先,結合傳感器對周圍的障礙物進行探測感知,利用DDPG(deep deterministic policy gradient)算法實現AGV小車從環境的感知輸入到動作的直接輸出控制,幫助AGV完成自主導航和避障任務。此外,針對訓練樣本易受環境干擾的問題,提出了一種新穎的DL(disturb learning)- DDPG算法,通過對學習樣本中相關數據進行高斯噪聲預處理,幫助智能體適應噪聲狀態下的訓練環境,提升了AGV在真實環境中的魯棒性。仿真實驗表明,經改進后的DL-DDPG 算法能夠為AGV導航系統提供更高效的在線決策能力,使AGV小車完成自主導航與智能控制。

關鍵詞: 自動導引車; 深度強化學習; 深度策略性梯度; 智能導航

中圖分類號: TP399"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-036-1501-04

doi:10.19734/j.issn.1001-3695.2021.10.0472

Design of AGV intelligent navigation system based on deep reinforcement learning

He Xuemei1, Kuang Yin1, Yang Zhipeng2, Yang Yaqiao3

(1.College of Art amp; Design,Shaanxi University of Science amp; Technology, Xi’an 710021, China; 2.

System Design Institute of Hubei Aerospace Technology Academy, Wuhan 430040, China; 3.State Grid Wuhan Dongxihu District Power Supply Company, Wuhan 430040, China)

Abstract: Aiming at autonomous navigation and delivery of AGV in large-scale complicated and unknown environment,this paper put forward an autonomous online decision-making algorithm based on deep reinforcement learning.Specifically,combining with sensors to detect and perceive surrounding obstacles,the method used DDPG algorithm to realize the input of environmental perception and action direct output control,which helped the AGV complete autonomous navigation and autonomous obstacle avoidance tasks.To solve the problem,it disturbed the training samples easily by the environment,the algorithm preprocessed the relevant data with Gaussian noise in the learning sample,which helped the agent adapt to the training environment under noise and improve its robustness in real environment.Simulation results show that the improved DL-DDPG algorithm can provide more efficient online decision-making ability for the control system and enable the competency of autonomous navigation and intelligent control of AGV.

Key words: automatic guide vehicle; deep reinforcement learning; deep deterministic policy gradient; intelligent navigation

0 引言

自動導引車(automatic guided vehicle,AGV)是一種以蓄電池作為動力源,裝有非接觸控制導向裝置的無人駕駛自動化搬運小車[1]。隨著智能制造、電子商務的迅猛發展,AGV作為物料、產品的自動化運輸設備,其應用規模逐漸擴大,應用場景也變得更加復雜。AGV的自主導航能力對改善物流運輸系統結構、降低物流運輸成本、提升系統運行效率起著重要作用,具有巨大的應用價值[2]。因此,開展AGV自主智能導航決策算法研究具有重要意義。近年來,隨著AGV應用領域的逐步擴大,關于AGV的路徑規劃問題也逐漸成為研究熱點。傳統的路徑規劃算法有 Dijkstra算法[3]、A*算法[4]、D*算法[5]、人工勢場法[6]以及快速擴展隨機樹法[7]等,這些算法用于解決已知環境下的路徑規劃問題,相對容易實現,但傳統的路徑規劃算法易受到環境因素的干擾,在大規模狀態空間下處理數據能力不足,算法收斂不穩定。

隨著人工智能技術的飛速發展,深度強化學習(deep reinforcement learning,DRL)以其出色的感知能力與決策能力在智能導航和路徑規劃領域中發揮著重要作用[8]。Levine等人[9]利用DRL方法對視覺感知和運動控制進行端到端聯合訓練,使機器人完成了對特定物品的放置任務。Mirowski等人[10]將A3C算法與循環神經網絡結合,使智能體在迷宮中完成路徑規劃與周圍環境的地圖構建。Kendall等人[11]基于 DDPG算法使智能體能有效獲取周圍的視覺信息,從而控制其自主移動。Chen等人[12]將注意力機制融入算法,提出了基于改進DQN(deep Q network)算法的移動路徑規劃方法,可令移動機器人根據實時圖像信息獲得控制策略,并在與人群交錯時主動避讓。Sallab 等人[13]將DQN和Actor-Critic算法結合以控制無人駕駛車輛的行駛。Liao等人[14]提出了將勢場法與DQN算法相結合的AGV路徑規劃方法,解決了傳統的強化學習算法在大規模狀態空間下處理數據能力不足的問題。

DRL算法在進行路徑規劃時,需要智能體依靠傳感器、雷達等設備對周圍環境探測信息以完成任務,因此從傳感器獲取的信息準確性對算法性能有重要影響。受硬件性能、信息傳輸等影響,智能體得到的數據樣本與真實數據之間會存在一定誤差,造成AGV對真實場景的誤判,進而影響其自主導航決策效率。

為此,本文基于一種改良深度強化學習算法完成了AGV智能導航系統設計。具體地,通過構建深度強化學習模型,實現了AGV小車從狀態感知輸入到移動控制輸出的映射,幫助AGV小車進行實時自主導航決策。同時,針對訓練樣本易受環境干擾的問題,為了降低數據樣本與真實數據的誤差,在深度確定性策略梯度DDPG算法的基礎上[15~17],提出了一種改良的DL-DDPG算法,即對訓練樣本進行噪聲預處理,幫助其適應噪聲環境下的訓練狀態,降低現實誤差帶來的影響。

3 仿真實驗

3.1 仿真環境

為了驗證DL-DDPG算法在AGV小車智能導航與自主控制上的可行性,本文設置了對應的仿真實驗加以驗證。本仿真環境在Gym-agent-master、Python3.6、TensorFlow 1.14.0、PyCharm平臺上運行,采用VTK第三方庫在北東地坐標系下生成仿真環境,如圖4所示。環境中的建筑物(障礙物)被抽象為圓柱體,而AGV小車被抽象為球形。設定AGV小車的最大運行速度為2.0 m/s,模擬場景中的障礙物半徑為1 m,障礙物中心間距為3 m。為保證AGV導航任務的有效性,設定AGV與目的地初始位置不小于50 m,仿真步長為1 s。在仿真實驗中,構建了一個類似的仿真模擬器來實現大型復雜環境中的AGV自主智能控制。為了實驗的簡便性,設定忽略對AGV小車的動力學物理約束,并假定控制命令可以立即生效。AGV對環境的觀察通過測距儀實現,設定當AGV與目標點距離小于1 m時,視為AGV到達目的地,完成自主導航和智能控制任務。

本實驗構建的Actor網絡、Critic網絡及其目標網絡為BP神經網絡,其中輸入層一層、隱藏層兩層、輸出層一層,設定隱藏層中神經元個數為128,引入非線性函數ReLU作為激勵函數。隨著實驗的進行,神經網絡利用反向傳播機制,即梯度下降法,進行網絡擬合和參數更新。設定A網絡和C網絡學習速率分別為0.000 1和0.000 2,獎勵折扣系數為0.99。設定經驗池容量為100 000,當經驗池存滿數據后,進入學習狀態,每次從經驗池中抽取的樣本數量為32。

3.2 實驗結果與分析

設定相關超參數后,開始對AGV進行訓練。設定若AGV在規定時間內未完成導航任務或與障礙物相撞,則視為回合結束,任務場景被重置,訓練進入新的回合。同時,為了模擬真實的配送環境,設定場景更新規則,即每一回合AGV與目的地的位置隨機產生,且障礙物的數量在100~200隨機生成。

為了驗證本文提出的DL-DDPG算法在AGV自動導航與智能控制中的有效性,本仿真實驗分別用DL-DDPG、DDPG和TD3算法對AGV小車進行訓練和對比測試,并記錄訓練過程中AGV小車每回合內獲得的獎勵值,如圖5所示。

可以看出,DL-DDPG算法相比另外兩種算法的上升趨勢最為明顯,在4 000次左右率先達到240左右的峰值。TD3算法下的回報表現最低,且存在較大振蕩。傳統的DDPG算法在2 000次左右才開始有上升趨勢,并存在較大波動,到達峰值的時間也晚于優化改進過的DL-DDPG算法,這說明本文提出的DL-DDPG算法在訓練過程中收斂速度更快,且收斂后所獲取的回合獎勵更高。綜上可以得出,DL-DDPG算法能有效幫助AGV小車適應噪聲狀態下的訓練環境,提升訓練效率。

同時,在每一訓練回合中統計了近1 000回合內的AGV導航任務成功率,如圖6所示。

可以看出,隨著曲線收斂后,DDPG和TD3算法下,AGV的任務完成率都不足80%,學習到的策略表現較差。而DL-DDPG算法訓練下的成功率上升較快,約3 000次訓練之后,AGV自主導航任務成功率基本穩定在80%以上,峰值接近90%,明顯高于另外兩種算法。這意味著DL-DDPG算法下的AGV導航策略更為有效,導航成功率更高。

為了驗證AGV系統導航策略的有效性,將基于DL-DDPG算法訓練好的AGV智能控制系統模型部署在三種測試場景下進行測試,三種測試場景下分別設定障礙物數量為100、150、200個,仿真結果如圖7所示。其中左側為AGV運動軌跡圖,右側為AGV實時速度變化圖。從仿真實驗結果可以得出,在不同障礙物數量的環境下,訓練好的AGV都能實現智能自主導航,最終成功避開障礙物到達目的地。此外,根據AGV速度變化趨勢可以看出,隨著任務進行,AGV能穩定提升速度并保持在最大速度限制以內,最終成功到達目的地,這意味著經過深度強化學習訓練的AGV智能系統能夠實現自主導航決策。

為了進一步驗證DL-DDPG算法下AGV自主導航策略的有效性,本文分別在上述三種場景下進行1 000回合對比測試,并收集AGV導航成功率,如表1所示。

可以看出,隨著障礙物數量的增加,雖然AGV小車的導航成功率呈下降趨勢,但DL-DDPG算法下的AGV自主導航任務成功率始終高于其他兩種算法。在200個障礙物的復雜場景下,DL-DDPG算法下AGV的成功率依然維持在76.6%的較高水平。這表示DL-DDPG算法下的AGV導航系統能夠實時感應周圍狀態并調整自身策略,可以適應更為復雜的配送場景。

同時,記錄了上述測試過程中所有成功回合的數據,并統計了三種算法下的平均任務完成時間,如表2所示。在簡單場景下,三種算法下的AGV導航任務時間無明顯差異。但隨著障礙物數量的提升,DL-DDPG算法下的AGV系統展示了更好的適應能力,且能夠以更短的時間到達目的地。這意味著,經過優化后DL-DDPG算法訓練的AGV系統,能夠制定出更為高效的導航策略,以較短時間完成自主導航任務。

4 結束語

本文提出了一種基于深度強化學習的自主智能導航算法,通過端對端的學習方式實現從環境的感知輸入到動作的直接輸出控制。同時,基于部分可觀測馬爾可夫模型,引入傳感器幫助AGV對障礙物進行探測感知,實現了AGV對障礙物的自主規避。在DDPG算法基礎上,提出了一種對學習樣本進行噪聲干擾的DL-DDPG算法,提升了AGV在真實環境中自主決策的抗干擾性和魯棒性。仿真結果表明,經過針對性設計后的DL-DDPG 算法,能夠為AGV控制系統提供更高效的在線決策能力,從而使AGV小車更為自主、精確、穩定地完成自主導航任務。

雖然在仿真實驗中,本文提出的DL-DDPG算法取得了比較好的效果,但與真實環境還存在一定差距。下一步需要考慮AGV在自主導航過程中受移動狀態下的小車、行人等外界因素影響,對AGV智能導航系統進行進一步優化。

參考文獻:

[1]Vis I F A .Survey of research in the design and control of automated guided vehicle systems[J].European Journal of Operational Research,2006,170(3):677-709.

[2]Zheng Zhang,Juan Chen,Qing Guo.AGVs route planning based on region-segmentation dynamic programming in smart road network systems[J].Scientific Programming,2021,2021:article ID 9589476.

[3]Dijkstra E W.A note on two problems in connexion with graphs[J].Numerische Mathematik,1959,1(1):269-271.

[4]Leach A R ,Lemon A P.Exploring the conformational space of protein side chains using dead-end elimination and the A* algorithm[J].Proteins-Structure Function amp; Bioinformatics,2015,33(2):227-239.

[5]Oral T,Polat F.MOD lite:an incremental path planning algorithm ta-king care of multiple objectives[J].IEEE Trans on Cybernetics,2016,46(1):245-257.

[6]Khatib O.Real-time obstacle avoidance for manipulators and mobile robots[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,1985:500-505.

[7]Xu Tong,Xu Yang,Wang Dong,et al.Path planning for autonomous articulated vehicle based on improved goal-directed rapid-exploring random tree[J].Mathematical Problems in Engineering,2020,2020:article ID 7123164.

[8]Mousavi S S,Schukat M,Howley E.Deep reinforcement learning:an overview[C]//Proc of SAI Intelligent Systems Conference.Berlin:Springer,2016:426-440.

[9]Levine S,Finn C,Darrell T,et al.End-to-end training of deep visuomotor policies[J].Journal of Machine Learning Research,2016,17(39):1-40.

[10]Mirowski P,Pascanu R,Viola F,et al.Learning to navigate in complex environments[EB/OL]. (2017-01-13).https://arxiv.org/abs/1611.03673.

[11]Kendall A,Hawke J,Janz D,et al.Learning to drive in a day[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:8248-8254.

[12]Chen Yufan,Everett M,Liu Miao,et al.Socially aware motion planning with deep reinforcement learning[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:1343-1350.

[13]Sallab A E,Abdou M,Perot E,et al.End-to-end deep reinforcement learning for lane keeping assist[EB/OL].(2016-12-13).https://arxiv.org/abs/1612.04340.

[14]Liao Xiaofei,Wang Yang,Xuan Yiliang,et al.AGV path planning model based on reinforcement learning.[C]//Proc of Chinese Automation Congress.Piscataway,NJ:IEEE Press,2020:6722-6726.

[15]Sutton R S,McAllester D A,Singh S,et al.Policy gradient methods for reinforcement learning with function approximation[C]//Proc of the 12th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,1999:1057-1063.

[16]曾睿,周建,劉滿祿,等.雙Q網絡學習的遷移強化學習算法[J].計算機應用研究,2021,38(6):1699-1703. (Zeng Rui,Zhou Jian,Liu Manlu,et al.Transfer reinforcement learning algorithm with double Q-learning[J].Application Research of Computers,2021,38(6):1699-1703.)

[17]Lillicrap T P,Hunt J,Pritzel A,et al.Continuous control with deep reinforcement learning[EB/OL].(2015-09-09).https://arxiv.org/abs/1509.02971.

[18]徐繼寧,曾杰.基于深度強化算法的機器人動態目標點跟隨研究[J].計算機科學,2019,46(S2):94-97. (Xu Jining,Zeng Jie.Research on dynamic target point following of robot based on deep reinforcement algorithm[J].Computer Science,2019,46(S2):94-97.)

[19]張榮霞,武長旭,孫同超,等.深度強化學習及在路徑規劃中的研究進展[J].計算機工程與應用,2021,57(19):44-56. (Zhang Rongxia,Wu Changxu,Sun Tongchao,et al.Research progress of reinforcement learning in path planning[J].Computer Engineering and Applications,2021,57(19):44-56.)

[20]周盛世,單梁,常路,等.改進DDPG算法的機器人路徑規劃算法研究[J].南京理工大學學報,2021,45(3):265-270,287. (Zhou Shengshi,Shan Liang,Chang Lu,et al.Path planning algorithm for robot based on improved DDPG algorithm[J].Journal of Nanjing University of Science and Technology,2021,45(3):265-270,287.)

[21]賀亮,徐正國,賈愚,等.深度強化學習復原多目標航跡的TOC獎勵函數[J].計算機應用研究,2020,37(6):1626-1632. (He Liang,Xu Zhengguo,Jia Yu,et al.Design of TOC reward function in multi-target trajectory recovery with deep reinforcement learning[J].Application Research of Computers,2020,37(6):1626-1632.)

主站蜘蛛池模板: 久久精品免费国产大片| 亚洲av无码牛牛影视在线二区| 国产免费福利网站| 国产精品无码翘臀在线看纯欲| 亚洲精品大秀视频| 精品视频一区在线观看| 色网在线视频| 成人精品午夜福利在线播放| 99r在线精品视频在线播放| 国产噜噜噜| 青青国产在线| 欧美精品二区| 在线播放精品一区二区啪视频| 夜夜操天天摸| 青草视频免费在线观看| 一区二区自拍| 欧美日韩亚洲综合在线观看| www.亚洲一区二区三区| 亚洲V日韩V无码一区二区| 亚洲天堂日韩在线| 国产在线视频自拍| 亚洲国产精品VA在线看黑人| 美女免费黄网站| 婷婷在线网站| 欧美一级黄片一区2区| 国产亚洲视频在线观看| 免费看一级毛片波多结衣| 国产精品亚洲综合久久小说| 一级毛片在线播放免费| 日本免费新一区视频| 亚洲av无码成人专区| 国产情侣一区二区三区| 中文字幕在线观看日本| 国产一级小视频| 欧美亚洲第一页| 国产麻豆永久视频| 一级毛片无毒不卡直接观看| 亚洲无码高清免费视频亚洲| 性视频久久| 国产精品综合色区在线观看| 97色婷婷成人综合在线观看| 国产色伊人| 蝌蚪国产精品视频第一页| 欧美狠狠干| 久久久久无码精品| 国产视频你懂得| a亚洲视频| 亚洲精品国产日韩无码AV永久免费网| 欧美啪啪网| 国产在线观看精品| 无码在线激情片| 久久国产香蕉| 2019国产在线| 狠狠综合久久| 中国精品自拍| 中文字幕亚洲无线码一区女同| 国产黄色片在线看| 中文字幕在线免费看| 精品无码一区二区在线观看| 久久激情影院| 91免费在线看| 欧美一级黄片一区2区| 本亚洲精品网站| 亚洲一欧洲中文字幕在线| 88av在线看| 91无码国产视频| 成人中文字幕在线| 亚洲精品麻豆| 国产精品永久久久久| 国产在线自乱拍播放| 白浆免费视频国产精品视频 | 国产精品一区二区久久精品无码| 成人综合在线观看| vvvv98国产成人综合青青| 欧美h在线观看| 久久永久精品免费视频| 国产精品9| 青青青国产视频| 中文成人在线| 国产网站一区二区三区| 成人另类稀缺在线观看| 日韩亚洲综合在线|