基于深度強化學習的AGV智能導航系統設計

2022-01-01 00:00:00賀雪梅匡胤楊志鵬楊亞喬

計算機應用研究 2022年5期

摘要：針對現有的AGV在大規模未知復雜環境中進行自主導航配送的問題，基于深度強化學習完成了AGV智能導航系統設計。首先，結合傳感器對周圍的障礙物進行探測感知，利用DDPG（deep deterministic policy gradient）算法實現AGV小車從環境的感知輸入到動作的直接輸出控制，幫助AGV完成自主導航和避障任務。此外，針對訓練樣本易受環境干擾的問題，提出了一種新穎的DL（disturb learning）- DDPG算法，通過對學習樣本中相關數據進行高斯噪聲預處理，幫助智能體適應噪聲狀態下的訓練環境，提升了AGV在真實環境中的魯棒性。仿真實驗表明，經改進后的DL-DDPG 算法能夠為AGV導航系統提供更高效的在線決策能力，使AGV小車完成自主導航與智能控制。

關鍵詞：自動導引車；深度強化學習；深度策略性梯度；智能導航

中圖分類號： TP399"" 文獻標志碼： A

文章編號： 1001-3695（2022）05-036-1501-04

doi：10.19734/j.issn.1001-3695.2021.10.0472

Design of AGV intelligent navigation system based on deep reinforcement learning

He Xuemei1， Kuang Yin1， Yang Zhipeng2， Yang Yaqiao3

（1.College of Art amp; Design，Shaanxi University of Science amp; Technology， Xi’an 710021， China； 2.

System Design Institute of Hubei Aerospace Technology Academy， Wuhan 430040， China； 3.State Grid Wuhan Dongxihu District Power Supply Company， Wuhan 430040， China）

Abstract： Aiming at autonomous navigation and delivery of AGV in large-scale complicated and unknown environment，this paper put forward an autonomous online decision-making algorithm based on deep reinforcement learning.Specifically，combining with sensors to detect and perceive surrounding obstacles，the method used DDPG algorithm to realize the input of environmental perception and action direct output control，which helped the AGV complete autonomous navigation and autonomous obstacle avoidance tasks.To solve the problem，it disturbed the training samples easily by the environment，the algorithm preprocessed the relevant data with Gaussian noise in the learning sample，which helped the agent adapt to the training environment under noise and improve its robustness in real environment.Simulation results show that the improved DL-DDPG algorithm can provide more efficient online decision-making ability for the control system and enable the competency of autonomous navigation and intelligent control of AGV.

Key words： automatic guide vehicle； deep reinforcement learning； deep deterministic policy gradient； intelligent navigation

0 引言

自動導引車（automatic guided vehicle，AGV）是一種以蓄電池作為動力源，裝有非接觸控制導向裝置的無人駕駛自動化搬運小車［1］。隨著智能制造、電子商務的迅猛發展，AGV作為物料、產品的自動化運輸設備，其應用規模逐漸擴大，應用場景也變得更加復雜。AGV的自主導航能力對改善物流運輸系統結構、降低物流運輸成本、提升系統運行效率起著重要作用，具有巨大的應用價值［2］。因此，開展AGV自主智能導航決策算法研究具有重要意義。近年來，隨著AGV應用領域的逐步擴大，關于AGV的路徑規劃問題也逐漸成為研究熱點。傳統的路徑規劃算法有 Dijkstra算法［3］、A*算法［4］、D*算法［5］、人工勢場法［6］以及快速擴展隨機樹法［7］等，這些算法用于解決已知環境下的路徑規劃問題，相對容易實現，但傳統的路徑規劃算法易受到環境因素的干擾，在大規模狀態空間下處理數據能力不足，算法收斂不穩定。

隨著人工智能技術的飛速發展，深度強化學習（deep reinforcement learning，DRL）以其出色的感知能力與決策能力在智能導航和路徑規劃領域中發揮著重要作用［8］。Levine等人［9］利用DRL方法對視覺感知和運動控制進行端到端聯合訓練，使機器人完成了對特定物品的放置任務。Mirowski等人［10］將A3C算法與循環神經網絡結合，使智能體在迷宮中完成路徑規劃與周圍環境的地圖構建。Kendall等人［11］基于 DDPG算法使智能體能有效獲取周圍的視覺信息，從而控制其自主移動。Chen等人［12］將注意力機制融入算法，提出了基于改進DQN（deep Q network）算法的移動路徑規劃方法，可令移動機器人根據實時圖像信息獲得控制策略，并在與人群交錯時主動避讓。Sallab 等人［13］將DQN和Actor-Critic算法結合以控制無人駕駛車輛的行駛。Liao等人［14］提出了將勢場法與DQN算法相結合的AGV路徑規劃方法，解決了傳統的強化學習算法在大規模狀態空間下處理數據能力不足的問題。

DRL算法在進行路徑規劃時，需要智能體依靠傳感器、雷達等設備對周圍環境探測信息以完成任務，因此從傳感器獲取的信息準確性對算法性能有重要影響。受硬件性能、信息傳輸等影響，智能體得到的數據樣本與真實數據之間會存在一定誤差，造成AGV對真實場景的誤判，進而影響其自主導航決策效率。

為此，本文基于一種改良深度強化學習算法完成了AGV智能導航系統設計。具體地，通過構建深度強化學習模型，實現了AGV小車從狀態感知輸入到移動控制輸出的映射，幫助AGV小車進行實時自主導航決策。同時，針對訓練樣本易受環境干擾的問題，為了降低數據樣本與真實數據的誤差，在深度確定性策略梯度DDPG算法的基礎上［15～17］，提出了一種改良的DL-DDPG算法，即對訓練樣本進行噪聲預處理，幫助其適應噪聲環境下的訓練狀態，降低現實誤差帶來的影響。

3 仿真實驗

3.1 仿真環境

為了驗證DL-DDPG算法在AGV小車智能導航與自主控制上的可行性，本文設置了對應的仿真實驗加以驗證。本仿真環境在Gym-agent-master、Python3.6、TensorFlow 1.14.0、PyCharm平臺上運行，采用VTK第三方庫在北東地坐標系下生成仿真環境，如圖4所示。環境中的建筑物（障礙物）被抽象為圓柱體，而AGV小車被抽象為球形。設定AGV小車的最大運行速度為2.0 m/s，模擬場景中的障礙物半徑為1 m，障礙物中心間距為3 m。為保證AGV導航任務的有效性，設定AGV與目的地初始位置不小于50 m，仿真步長為1 s。在仿真實驗中，構建了一個類似的仿真模擬器來實現大型復雜環境中的AGV自主智能控制。為了實驗的簡便性，設定忽略對AGV小車的動力學物理約束，并假定控制命令可以立即生效。AGV對環境的觀察通過測距儀實現，設定當AGV與目標點距離小于1 m時，視為AGV到達目的地，完成自主導航和智能控制任務。

本實驗構建的Actor網絡、Critic網絡及其目標網絡為BP神經網絡，其中輸入層一層、隱藏層兩層、輸出層一層，設定隱藏層中神經元個數為128，引入非線性函數ReLU作為激勵函數。隨著實驗的進行，神經網絡利用反向傳播機制，即梯度下降法，進行網絡擬合和參數更新。設定A網絡和C網絡學習速率分別為0.000 1和0.000 2，獎勵折扣系數為0.99。設定經驗池容量為100 000，當經驗池存滿數據后，進入學習狀態，每次從經驗池中抽取的樣本數量為32。

3.2 實驗結果與分析

設定相關超參數后，開始對AGV進行訓練。設定若AGV在規定時間內未完成導航任務或與障礙物相撞，則視為回合結束，任務場景被重置，訓練進入新的回合。同時，為了模擬真實的配送環境，設定場景更新規則，即每一回合AGV與目的地的位置隨機產生，且障礙物的數量在100～200隨機生成。

為了驗證本文提出的DL-DDPG算法在AGV自動導航與智能控制中的有效性，本仿真實驗分別用DL-DDPG、DDPG和TD3算法對AGV小車進行訓練和對比測試，并記錄訓練過程中AGV小車每回合內獲得的獎勵值，如圖5所示。

可以看出，DL-DDPG算法相比另外兩種算法的上升趨勢最為明顯，在4 000次左右率先達到240左右的峰值。TD3算法下的回報表現最低，且存在較大振蕩。傳統的DDPG算法在2 000次左右才開始有上升趨勢，并存在較大波動，到達峰值的時間也晚于優化改進過的DL-DDPG算法，這說明本文提出的DL-DDPG算法在訓練過程中收斂速度更快，且收斂后所獲取的回合獎勵更高。綜上可以得出，DL-DDPG算法能有效幫助AGV小車適應噪聲狀態下的訓練環境，提升訓練效率。

同時，在每一訓練回合中統計了近1 000回合內的AGV導航任務成功率，如圖6所示。

可以看出，隨著曲線收斂后，DDPG和TD3算法下，AGV的任務完成率都不足80%，學習到的策略表現較差。而DL-DDPG算法訓練下的成功率上升較快，約3 000次訓練之后，AGV自主導航任務成功率基本穩定在80%以上，峰值接近90%，明顯高于另外兩種算法。這意味著DL-DDPG算法下的AGV導航策略更為有效，導航成功率更高。

為了驗證AGV系統導航策略的有效性，將基于DL-DDPG算法訓練好的AGV智能控制系統模型部署在三種測試場景下進行測試，三種測試場景下分別設定障礙物數量為100、150、200個，仿真結果如圖7所示。其中左側為AGV運動軌跡圖，右側為AGV實時速度變化圖。從仿真實驗結果可以得出，在不同障礙物數量的環境下，訓練好的AGV都能實現智能自主導航，最終成功避開障礙物到達目的地。此外，根據AGV速度變化趨勢可以看出，隨著任務進行，AGV能穩定提升速度并保持在最大速度限制以內，最終成功到達目的地，這意味著經過深度強化學習訓練的AGV智能系統能夠實現自主導航決策。

為了進一步驗證DL-DDPG算法下AGV自主導航策略的有效性，本文分別在上述三種場景下進行1 000回合對比測試，并收集AGV導航成功率，如表1所示。

可以看出，隨著障礙物數量的增加，雖然AGV小車的導航成功率呈下降趨勢，但DL-DDPG算法下的AGV自主導航任務成功率始終高于其他兩種算法。在200個障礙物的復雜場景下，DL-DDPG算法下AGV的成功率依然維持在76.6%的較高水平。這表示DL-DDPG算法下的AGV導航系統能夠實時感應周圍狀態并調整自身策略，可以適應更為復雜的配送場景。

同時，記錄了上述測試過程中所有成功回合的數據，并統計了三種算法下的平均任務完成時間，如表2所示。在簡單場景下，三種算法下的AGV導航任務時間無明顯差異。但隨著障礙物數量的提升，DL-DDPG算法下的AGV系統展示了更好的適應能力，且能夠以更短的時間到達目的地。這意味著，經過優化后DL-DDPG算法訓練的AGV系統，能夠制定出更為高效的導航策略，以較短時間完成自主導航任務。

4 結束語

本文提出了一種基于深度強化學習的自主智能導航算法，通過端對端的學習方式實現從環境的感知輸入到動作的直接輸出控制。同時，基于部分可觀測馬爾可夫模型，引入傳感器幫助AGV對障礙物進行探測感知，實現了AGV對障礙物的自主規避。在DDPG算法基礎上，提出了一種對學習樣本進行噪聲干擾的DL-DDPG算法，提升了AGV在真實環境中自主決策的抗干擾性和魯棒性。仿真結果表明，經過針對性設計后的DL-DDPG 算法，能夠為AGV控制系統提供更高效的在線決策能力，從而使AGV小車更為自主、精確、穩定地完成自主導航任務。

雖然在仿真實驗中，本文提出的DL-DDPG算法取得了比較好的效果，但與真實環境還存在一定差距。下一步需要考慮AGV在自主導航過程中受移動狀態下的小車、行人等外界因素影響，對AGV智能導航系統進行進一步優化。

參考文獻：

［1］Vis I F A .Survey of research in the design and control of automated guided vehicle systems［J］.European Journal of Operational Research，2006，170（3）：677-709.

［2］Zheng Zhang，Juan Chen，Qing Guo.AGVs route planning based on region-segmentation dynamic programming in smart road network systems［J］.Scientific Programming，2021，2021：article ID 9589476.

［3］Dijkstra E W.A note on two problems in connexion with graphs［J］.Numerische Mathematik，1959，1（1）：269-271.

［4］Leach A R ，Lemon A P.Exploring the conformational space of protein side chains using dead-end elimination and the A* algorithm［J］.Proteins-Structure Function amp; Bioinformatics，2015，33（2）：227-239.

［5］Oral T，Polat F.MOD lite：an incremental path planning algorithm ta-king care of multiple objectives［J］.IEEE Trans on Cybernetics，2016，46（1）：245-257.

［6］Khatib O.Real-time obstacle avoidance for manipulators and mobile robots［C］//Proc of IEEE International Conference on Robotics and Automation.Piscataway，NJ：IEEE Press，1985：500-505.

［7］Xu Tong，Xu Yang，Wang Dong，et al.Path planning for autonomous articulated vehicle based on improved goal-directed rapid-exploring random tree［J］.Mathematical Problems in Engineering，2020，2020：article ID 7123164.

［8］Mousavi S S，Schukat M，Howley E.Deep reinforcement learning：an overview［C］//Proc of SAI Intelligent Systems Conference.Berlin：Springer，2016：426-440.

［9］Levine S，Finn C，Darrell T，et al.End-to-end training of deep visuomotor policies［J］.Journal of Machine Learning Research，2016，17（39）：1-40.

［10］Mirowski P，Pascanu R，Viola F，et al.Learning to navigate in complex environments［EB/OL］. （2017-01-13）.https：//arxiv.org/abs/1611.03673.

［11］Kendall A，Hawke J，Janz D，et al.Learning to drive in a day［C］//Proc of IEEE International Conference on Robotics and Automation.Piscataway，NJ：IEEE Press，2019：8248-8254.

［12］Chen Yufan，Everett M，Liu Miao，et al.Socially aware motion planning with deep reinforcement learning［C］//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway，NJ：IEEE Press，2017：1343-1350.

［13］Sallab A E，Abdou M，Perot E，et al.End-to-end deep reinforcement learning for lane keeping assist［EB/OL］.（2016-12-13）.https：//arxiv.org/abs/1612.04340.

［14］Liao Xiaofei，Wang Yang，Xuan Yiliang，et al.AGV path planning model based on reinforcement learning.［C］//Proc of Chinese Automation Congress.Piscataway，NJ：IEEE Press，2020：6722-6726.

［15］Sutton R S，McAllester D A，Singh S，et al.Policy gradient methods for reinforcement learning with function approximation［C］//Proc of the 12th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，1999：1057-1063.

［16］曾睿，周建，劉滿祿，等.雙Q網絡學習的遷移強化學習算法［J］.計算機應用研究，2021，38（6）：1699-1703. （Zeng Rui，Zhou Jian，Liu Manlu，et al.Transfer reinforcement learning algorithm with double Q-learning［J］.Application Research of Computers，2021，38（6）：1699-1703.）

［17］Lillicrap T P，Hunt J，Pritzel A，et al.Continuous control with deep reinforcement learning［EB/OL］.（2015-09-09）.https：//arxiv.org/abs/1509.02971.

［18］徐繼寧，曾杰.基于深度強化算法的機器人動態目標點跟隨研究［J］.計算機科學，2019，46（S2）：94-97. （Xu Jining，Zeng Jie.Research on dynamic target point following of robot based on deep reinforcement algorithm［J］.Computer Science，2019，46（S2）：94-97.）

［19］張榮霞，武長旭，孫同超，等.深度強化學習及在路徑規劃中的研究進展［J］.計算機工程與應用，2021，57（19）：44-56. （Zhang Rongxia，Wu Changxu，Sun Tongchao，et al.Research progress of reinforcement learning in path planning［J］.Computer Engineering and Applications，2021，57（19）：44-56.）

［20］周盛世，單梁，常路，等.改進DDPG算法的機器人路徑規劃算法研究［J］.南京理工大學學報，2021，45（3）：265-270，287. （Zhou Shengshi，Shan Liang，Chang Lu，et al.Path planning algorithm for robot based on improved DDPG algorithm［J］.Journal of Nanjing University of Science and Technology，2021，45（3）：265-270，287.）

［21］賀亮，徐正國，賈愚，等.深度強化學習復原多目標航跡的TOC獎勵函數［J］.計算機應用研究，2020，37（6）：1626-1632. （He Liang，Xu Zhengguo，Jia Yu，et al.Design of TOC reward function in multi-target trajectory recovery with deep reinforcement learning［J］.Application Research of Computers，2020，37（6）：1626-1632.）

計算機應用研究2022年5期

計算機應用研究的其它文章: 基于卷積神經網絡的多模態視頻場景分割優化算法; 基于多尺度殘差視覺信息融合的牧場牛只數量估計方法; 學習點云鄰域信息的三維物體形狀補全; PNet：融合注意力機制的多級低照度圖像增強網絡; 結合結構重參數化方法與空間注意力機制的圖像融合模型; 基于注意力機制的紅外與可見光圖像融合網絡