張宏宏 甘旭升 毛億 楊春林 謝曉偉



摘 要:隨著低空空域改革的推進, 無人機離開隔離空域, 進入低空融合空域執行多樣化任務已成為發展趨勢, 而低空動態復雜融合空域給無人機造成嚴重威脅, 避障技術已成為無人機任務決策系統的關鍵環節, 對保障無人機安全運行、 提高作業效率起到重要作用。 本文首先對無人機避障的相關概念、 路徑評價指標以及避障關鍵技術進行闡述, 然后對基于優化、 勢場和機器學習的避障算法進行概念闡述、 優缺點比較, 最后分析得出了制約無人機避障發展的挑戰、 研究重點和方向。
關鍵詞: 無人機; 避障; 優化; 勢場; 機器學習; 人工智能; 自主控制
中圖分類號:??? V279; V249; TP18 ?文獻標識碼:??? A文章編號: 1673-5048(2021)05-0053-11
0 引? 言
隨著航空技術與自動化技術的不斷發展, 無人機憑借其機動性強、 成本低、 操作方便等特點, 在軍事、 農業、 交通、 公共管理等領域獲得廣泛應用。 根據前瞻產業研究院發布的《2018-2023年中國無人機行業市場需求預測及投資戰略規劃分析報告》預測, 我國民用無人機產品銷售和服務總體市場規模到2025年將達到750億元。 2016年, 國務院辦公廳在《關于促進通用航空業發展的指導意見》中提出擴大低空空域開放, 低空空域管理改革實現軍民融合[1]。 2018年, 國家空管委辦公室發布《無人駕駛航空器飛行管理暫行條例(征求意見稿)》[2], 無人機低空運行成為當前低空空域改革的重點。 隨著改革的推進, 無人機由視距內人工遙控器操作發展為超視距遠程網絡操作, 從而進入融合空域執行多樣化任務已成為當前趨勢[3], 而制約無人機發揮更大效能的關鍵在于其是否具有可靠的避障能力。
1 無人機避障相關概念
低空融合空域內, 執行特定任務的無人機與靜態建筑、 樹木障礙物、 動態飛行器等共享同一空域, 當空域內流量過大時, 極易發生危險接近甚至空中撞擊事件, 帶來了安全隱患。 飛行沖突是指兩架航空器在橫向、 縱向或垂直方向上距離小于特定間隔, 使得航空器受到安全威脅的狀態[4]。 無人機避障是通過研究航空器在未來一段時間內是否存在潛在沖突, 通過改變無人機運行狀態, 規劃出避免沖突的理想軌跡, 達到規避障礙物的過程, 目的是保證空域內無人機與障礙物保持一定的安全距離[5]。 避障策略是無人機用于解決沖突的一系列動作, 基本動作包括變速(加速或減速)、 水平動作(左轉或右轉)和垂直動作(爬升或下降)。 簡單沖突場景時, 一個簡單的基本操作就可以避免碰撞, 但面對高密度、 高不確定性的復雜沖突環境時, 需要結合基本動作, 同時或依次進行操作, 才能保證避障的有效性與最優性。
由于無人機具有高機動性、 自身性能約束等特點, 因此在避障過程中需要考慮一系列條件:
(1) 安全約束: 安全運行是無人機運行的關鍵指標之一, 指無人機與其他航空器的距離在任意時刻下都保持一定的安全間隔。
(2) 解脫實時性: 與中高空空域相比, 低空空域環境更加復雜, 執行任務的飛行器種類更加多樣, 路徑更加不規則, 沖突概率相應增大, 因此, 無人機避障策略計算時間要盡可能小, 滿足實時性約束, 以此來應對具有高不確定的障礙物。
(3) 物理性能約束: 無人機的最大航程、 最小航段、 最小轉向速度、 飛行速度、 運行高度、 過載等物理量受到自身動力學性能約束, 因此, 在避障過程中必須考慮相關約束條件, 生成滿足動力學性能約束的安全路徑。
(4) 執行任務: 無人機在避障過程中, 往往會偏離原路徑, 影響任務執行效率, 因此, 在無人機沖突消解后, 需要考慮航跡恢復問題, 降低規避策略對無人機執行任務的影響。
(5) 空間約束: 低空混合空域具有一定的空間限制, 包括禁飛區、 危險區等嚴禁無人機進入的空域, 同時復雜融合空域內運行的無人機需要考慮地理威脅因素, 包括建筑、 山體等障礙物對運行軌跡的影響, 因此, 在解脫路徑生成時需要考慮空間約束條件。
另外, 無人機屬性、 性能差異等因素也應予以考慮。
融合空域執行任務的無人機系統應具備一定的規避障礙物的能力, 如圖1所示, 在外部環境約束、 任務目標和機動性能的約束下, 地面/機載處理器需要實時生成避障策略, 并傳送給無人機飛行控制器, 通過動力單元模塊實現沖突消解。
無人機避障問題的核心在于計算得到沖突解脫路徑, 因此, 求解獲取路徑的優劣需要建立相應指標進行評價, 一般包括解脫路徑質量與算法性能兩部分, 具體指標如圖2所示。
作為無人機自主控制能力的關鍵技術之一, 避障技術受到國內外學者的關注。 從智能控制的角度來看, 無人機是一個集綜合環境感知層、 決策控制層與操作執行層為一體的智能控制系統, 同時, 無人機還是一個高度智能化的系統, 其自主性、 適應性與交互性的特征需要綜合多學科知識進行技術實現。 由于運行環境的高復雜性與不確定性, 無人機避障規劃研究的關鍵技術主要包括信息感知、 智能決策、 路徑規劃與運動控制等方面。
(1) 信息感知技術。 無人機要達到避障控制的目標, 首要考慮的問題就是獲取自身狀態信息及其周圍環境信息以指導下一步決策, 這些信息需要通過信息感知系統進行獲取, 因此, 如何獲取相關信息成為無人機避障的關鍵技術之一。
(2) 智能決策技術。 無人機需要通過感知的自身狀態信息與環境信息進行自主決策判斷, 確定合適的運行模式, 并作出相應的機動決策策略。
(3) 路徑規劃技術。 無人機避障路徑規劃是根據智能決策給出的避障任務與實時環境變化, 為無人機提供可機動策略空間與運行引導的過程。 路徑規劃可分為全局規劃與局部規劃, 是無人機避障關鍵技術之一。
(4) 運動控制技術。 運動控制技術是根據當前無人機自身狀態以及規劃出的避障路徑, 生成控制指令, 控制無人機精確、 快速跟蹤規劃出的路徑, 主要包括調向、 調速、 調高等控制動作, 是無人機避障關鍵技術之一。
2 無人機避障方法
運行中的無人機一旦檢測到飛行沖突, 立即解算避障路徑, 并驅動機體按照安全路徑運行。 當前避障技術主要分為三類: 基于優化、 勢場和機器學習的避障方法。
2.1 基于優化的避障方法
基于優化的避障方法思想源于最優控制[6], 是根據已建立的無人機時域數學模型或頻域數學模型, 選擇一個容許的控制律, 使無人機按照約束的條件運行, 并使某一性能指標達到最優的過程。 其特點在于從整個沖突態勢的演繹全局來考慮問題, 可用各類數值計算與現代優化方法求解規避障礙的路徑。
2.1.1 數學優化算法
針對已建立的無人機避障模型, 可利用各類數學優化算法將最優控制問題轉化為便于求解的模型, 從而生成解脫路徑。
(1) 非線性優化方法
性能指標或約束條件中包含非線性函數的問題稱為非線性優化問題, 當前用于無人機避障的非線性優化方法有梯度下降法、 二次規劃法、 凸優化法等。 陳偉鋒等[7]將避障問題轉化為最優控制命題形式, 提出一種基于析取關系直接變換的動態聯立求解方法, 并用Radau配置點的拉格朗日插值對最優控制模型進行離散化處理, 并通過對比驗證了方法的有效性。 付其喜等[8]將無人機額外飛行距離作為優化函數, 首先基于隨機并行梯度下降法(Stochastic Parallel Gradient Descent,? SPGD)對初始解脫可行解進行計算, 再利用序列二次規劃(Sequential Quadratic Programming,? SQP)求解最優解脫航向。 王祝等[9]將無人機避障非凸問題轉化成一系列近似凸優化子問題, 利用凸優化法進行求解, 得到兼具時效性與最優性的解脫路徑。
(2) 混合整數線性/非線性規劃(Mixed Integer Linear/Nonlinear Programming,? MILP/ MINLP)
混合整數線性規劃方法是用整數約束無人機的控制指令(速度、 航向), 進而通過線性規劃的方法對最優航路進行計算。 Radmanesh等[10] 提出一種有限范圍內的動態混合整數線性規劃算法, 降低了航路規劃計算量。 Turnbull等[11]提出基于MILP-MPC的避撞航路規劃算法, 對語言決策樹進行訓練, 訓練后的模型被用于實時航路規劃。 Sarim等[12]在粗略航路規劃的前提下, 利用MILP對航路進行精細處理, 生成最優避障路徑。 Alonso-Ayuso等[13]利用多次滾動時域方法將消解問題轉化為混合整數非線性規劃問題, 并進一步線性化為MILP模型, 實現速度調整進行避障。 張啟錢等[14]基于序列混合整數線性規劃, 提出同時可以選擇調速、 調向與調高的序列混合整數線性優化(Sequential Mixed Integer Linear Optimization-Velocity Change,? Turn Change and Altitude Change,? SMILO-VTAC)模型, 解決了復雜低空多機沖突解脫問題。 采俊玲等[15]采用航向-速度解脫策略結合的混合整數非線性規劃(MINLP)模型, 實現空域內航空器的避障。
(3) 動態規劃法(Dynamic Programming,? DP)
動態規劃的核心是基于貝爾曼最優性原理, 根據基本遞推關系式, 不斷轉移決策過程, 將最優化問題轉化為多步決策問題。 Denton等[16]將動態規劃與樹形搜索結合, 計算出三維最優地形回避航路。 Sunberg等[17]將多無人機沖突消解問題轉化為近似動態規劃問題進行求解。 Bousson[18]利用單網格點動態規劃, 對飛行器避撞問題進行最優化求解。
基于數學優化方法的避障路徑求解模型較為直觀, 易于理解, 但當約束條件較為復雜時, 求解難度增大, 計算量增加, 不能滿足實時性要求。 常見的基于數學優化方法的避障算法適用場景與優缺點如表1所示。
2.1.2 啟發式算法
啟發式算法是在可接受的計算成本下, 對近似最優解進行搜索的優化算法, 在基于路徑規劃的避障領域應用廣泛, 主要有群智能算法、 A*、 D*等。
智能算法是基于仿生學計算原理, 模擬群體生物行為協同搜索空間最優解的過程。 對于高緯度、 非線性、 多約束的最優化問題, 往往能夠收斂到最優值。 在無人機路徑規劃中應用廣泛, 同時也相應解決了無人機避障問題。 常用算法有粒子群算法、 遺傳算法、 蟻群算法、 人工蜂群算法、 布谷鳥算法等。
(1) 粒子群算法(Particle Swarm Optimization,? PSO)
粒子群算法是模擬自然界中鳥群覓食現象, 通過種群迭代更新粒子位置和速度進行搜索空間最優解[19]。 Tang等[20]將多智能粒子濾波器用在未知環境路徑規劃求解上, 降低了計算量。 Zhuang等[21]將PSO與勒讓德偽譜法結合, 尋找更適合無人機運行的軌跡。 Yan等[22]將PSO與路徑點制導算法結合, 生成低功耗、 更平滑的避撞路徑。 Lim等[23]將PSO與量子物理結合, 提出量子-粒子群優化算法(Quantum Behavior Particle Swarm Optimization,? QPSO)生成光滑的無人機可飛路徑, 同時降低計算量、 提升效率。
(2) 遺傳算法(Genetic Algorithm,? GA)
遺傳算法是模擬自然界遺傳機理以及生物進化過程, 通過基因的選擇、 交叉、 變異等操作, 實現對最優值的搜索[24]。 余文曌等[25]將GA與彈性網絡結合, 降低搜索空間, 提高搜索效率。 Yan等[26]對GA模型進行改進, 可以生成滿足航空器性能約束的解脫路徑, 降低運行能耗。 何光勤等[27]將GA應用在三維空間內的避障, 將懲罰函數代入性能指標中, 求解出的解脫路徑光滑性較好, 適合航空器運行。
(3) 蟻群算法(Ant Colony Optimization,? ACO)
蟻群算法是模擬自然界中螞蟻覓食的生物行為而提出來的一種最優化搜索算法, 具有并行計算、 魯棒性好的特點, 在無人機避障領域應用廣泛[28]。 Wu等[29]將回退、 死亡兩種策略加入到ACO中, 促使螞蟻以更大概率達到最優目標位置, 優化了算法搜索能力。 Jiao等[30]提出了基于自適應狀態轉移策略和自適應信息素更新策略的改進ACO算法, 強化信息素強度、 啟發信息對算法迭代優化過程的重要作用, 提高了算法全局尋優性。 Luo等[31]提出將信息素的優劣區分開, 除去正常的信息素更新迭代, 額外強化效果好的信息素, 對提升算法收斂性起到一定作用。 張宏宏[28]等基于分割法, 以時間換取空間, 提高了蟻群算法的搜索能力。
(4) 人工蜂群算法(Artificial Bee Colony Algorithm,? ABC)
人工蜂群算法是模擬蜜蜂行為而提出的一種優化算法。 Kang等[32]在蜂群采蜜階段加入Rosenbrock旋轉方向法, 避免了算法早熟收斂, 準備率也有一定提升。 王淵等[33]在傳統ABC算法的基礎上, 改進了跟隨蜂對雇傭蜂的選擇概率, 用最優解引導迭代方向, 保證算法跳出局部最優解。 Contreras-Cruz M A等[34]將ABC算法與進化算法結合, 先由ABC算法進行局部搜索, 再由進化算法得出最優解脫路徑。 Li等[35]將平衡性策略應用到傳統ABC算法中, 在局部與全局之間實現平衡。
此外, 還有一些智能算法被用在無人機路徑規劃上, 實現避障, 如布谷鳥算法(Cuckoo Search,? CS)[36]、 鯨魚優化算法(Whale Optimization Algorithm,? WOA)[37]、 蟻獅算法(Ant Lion Optimizer,? ALO)[38]、 鴿群算法(Pigeon-Inspired Optimization,? PIO)[39]、 螢火蟲算法(Firefly Algorithm,? FA)[40]、 烏賊算法[41]等。
(5)A*/D*算法
A*算法是一種圖搜索算法, 將啟發信息因素引入待求解問題目標信息中, 使得搜索方向更加精準, 降低收斂時間。 A*算法支付代價為 f(n)=g(n)+h(n) , 其中 g(n) 表示航路代價, ?h(n) 表示預測代價。 在搜索過程中, 將支付代價最小的節點插入路徑鏈表中, 完成對障礙物的規避。 馬云紅等[42]采用變步長策略, 提高A*算法搜索效率, 同時生成一系列滿足UAV俯仰角、 偏航角等物理性能約束的可飛航線。 祁玄玄等[43]從目標性擴展、 目標可見性判斷、 更換啟發函數、 改變擴展節點選擇策略四個方面對A*算法進行改進, 提高了算法的收斂效率, 優化了路徑長度。 宋雪倩等[44]將Dubins結合A*算法, 使用“向量共享”原理, 對解脫航向改變量進行計算, 并進行路徑重規劃, 可在短時間內獲取連續飛行安全路徑。
針對復雜環境動態變化的問題, 傳統A*算法難以應用, 因此一些學者在A*算法的基礎上進行改進, 典型的改進算法有D*算法。 Ganapathy等[45]提出Enhanced D* Lite算法, 解決了穿越尖角障礙物產生的不安全路徑問題。 Stentz[46]提出分批次局部更新航跡代價圖的D*算法, 有效解決避障問題。 常見的基于啟發式典型算法的避障算法的適用場景與優缺點如表2所示。
2.1.3 圖? 論
基于圖形的避障方法, 首先通過柵格化方法, 對環境進行建模, 再利用搜索算法生成避障路徑, 完成全局沖突解脫, 常用方法有Dijkstra算法、 Voronoi圖、 隨機路標圖法(Probabilistic Roadmap,? PRM)、 Dubins 曲線、 輪廓圖法(Silhouette)、 通視圖法(Visibility Graph)等。
Dijkstra算法是圖論中經典最短路徑求法, 頂點代表航路點, 邊代表可行路徑, 適用于邊權非負的二維靜態避障場景。 使用該算法的關鍵在于選取有效航跡點, 縮短規劃時間[47-48]。 Voronoi圖根據障礙物分布情況, 畫出相鄰障礙物中垂線, 構成圍繞障礙物的多邊形, 再對每條路徑進行賦權值, 最優搜索出代價最小的避障航路。 由于Voronoi圖能夠在飛行過程中有效降低支付代價, 在無人機避障領域應用廣泛[49-50]。 Dubins 曲線考慮無人機轉彎性能約束, 生成一條可飛的無人機解脫路徑[51-53]。 在復雜低空空域中, 搜索具有多個自由度的高維避障路徑的規劃問題往往代價較高, 因此, 可以放松一下弱約束條件, 尋求一種折中的搜索空間, 既能代表完備的環境信息, 又能有效提高搜索速度。 隨機路標圖法(Probabilistic Roadmap,? PRM)基于這一原則, 對無人機解脫空間進行搜索[54-55]。 常見的基于圖論的避障算法的適用場景與優缺點如表3所示。
2.2 基于勢場和導航函數的避障方法
基于勢場的避障方法在空域內構造虛擬勢場, 生成導航函數, 將航空器的運動規律轉化為物體間力的作用結果, 是一種廣泛應用的避障方式, 具有數學描述結構簡單、 美觀, 規劃算法快等特點, 常見的算法有人工勢場法、 速度障礙法、 流函數法等。
2.2.1 人工勢場法
人工勢場法的基本思想是將復雜障礙環境轉化為一個勢場, 障礙物產生的斥力Frep與目標點產生的引力Fatt共同作用在無人機, 合力Ftotal控制無人機運動狀態, 達到局部避撞的效果, 如圖3所示。 管祥民等[56]結合蟻群算法與APF的優點, 提出改進混合避障方法, 得出時效性與飛行更好的解脫路徑。 Yang等[57]提出了一種回歸搜索法, 用來改進勢場函數, 避免了陷入局部極小點的缺陷。 韓知玖等[58]提出改進APF算法, 可在航空器動力學約束的條件下, 生成路徑短、 平滑的最優路徑。
2.2.2 速度障礙法
速度障礙法(Velocity Obstacle,? VO)是通過分析無人機與動態障礙物之間的空間幾何關系, 計算避障所需的速度與航向。 如圖4所示, 無人機與動態障礙物的速度分別為v1, v2, 速度障礙法將相對速度vR=v1-v2作為研究對象, 將位置障礙轉化為速度障礙。 若相對速度vR落在障礙錐中, 則存在沖突, 否則不存在。 無人機通過調整自身航向、 速度, 使得相對速度落在障礙錐之外, 實現沖突解脫。
張宏宏等[59]等基于速度障礙法, 對無人機避障應調航向與速度進行嚴格的理論推導, 實現不同沖突場景下無人機自主選擇解脫策略實現避障。 Durand等[60]在速度障礙法的基礎上, 提出最優互惠避碰(ORCA)算法, 使之適用于速度受限的飛機。 Bareiss等[61]對最優互惠避碰(ORCA)模型進行分析, 將所有基于速度障礙理論的避障策略歸納為泛速度障礙模型。 楊秀霞等[62]利用空間速度障礙球冠模型, 將三維空間內的障礙映射到二維平面, 給出無人機避障的最優航向決策, 具有一定的可行性與有效性。
2.2.3 流函數法(Stream Function, SF)
流函數法是將流體計算與規避障礙物相結合, 通過模擬自然界流水避石, 從起始點流向終點的現象而提出的避障方法, 因其可以快速生成光滑避碰路徑而受到學者關注, 如圖5所示。 梁宵等[63]采用旋轉評議矩陣與流線數據疊加模型, 解決了多障礙物任意位置存在的避障問題。 Daily等[64]通過對不同障礙物流函數進行加權求和處理, 解決了多障礙物重疊時的避障問題。 王宏倫等[65]提出虛擬動態目標方法, 將無人機所受的性能約束轉化為虛擬障礙, 能在復雜環境下規劃出可飛的解脫航路。
常見的基于勢場和導航函數的避障算法適用場景與優缺點如表4所示。
2.3 基于機器學習的避障方法
機器學習算法是將無人機避障問題轉化為一個決策問題, 通過與復雜動態環境的信息反復交互, 選擇最優或近最優策略, 以實現其長期目標。 隨著智能化水平的不斷提升, 機器學習算法在無人機避障領域得到廣泛應用, 常見方法有神經網絡、 強化學習與深度強化學習。
2.3.1 神經網絡
無人機避障導航控制是根據傳感器獲取的信息, 快速得到無人機應采取的動作, 其本質是獲取狀態空間與動作空間的映射關系[66]。 映射關系往往難以用精確的數學表示, 而神經網絡是由大量非線性單元連接構成的非線性復雜網絡結構, 通過對人腦功能的控制與反饋功能進行模擬, 形成的非線性映射系統[67]。 神經網絡憑借其強大的學習與泛化能力、 非線性映射能力以及快速規劃能力, 在機器人動力學以及導航控制領域得到廣泛應用。
國內外學者結合神經網絡的特點, 對無人機路徑規劃、 制導與避障控制進行了大量研究。 王延祥等[68]提出擾動流體動態系統與神經網絡結合的自適應避障路徑生成算法, 能夠適應環境的復雜性, 且具有較高的魯棒性。 Zhang等[69]基于神經網絡模型, 不斷對無人機進行離線訓練, 找到符合約束條件的解脫路徑。 Choi等[70]采用機器學習框架, 提出了一種無人機雙層避障算法, 使得無人機以最小的支付代價避障多個障礙物, 得到滿足實時性和有效性的避障決策。
單一神經網絡未能考慮訓練與決策過程中的不確定性, 因此有學者將模糊邏輯理論與神經網絡相結合, 用隸屬度代替不確定性的指標, 更符合實際情況, 具有較強的自學習與自適應能力[71-72], 以適應環境變化。
2.3.2 強化學習
強化學習是將動態規劃與監督學習相結合的一種新型學習方法, 強調在于環境的交互中不斷學習, 執行“嘗試-失敗”機制, 通過反饋的評價, 實現輸出最優決策, 在無人機復雜避障決策問題得到應用。 這種學習理念能夠通過獎勵指標最大化, 使得系統做出一系列決策, 而不需要人工干預, 流程圖如圖6所示。 2005年,? Michels J等[73]將強化學習應用在避障系統中, 通過訓練模型預測合適的避障策略。 Xie等[74]基于Double DQN 算法, 實現了室內場景自主避障。 Vamvoudakis等[75]也將強化學習應用在智能體避障領域, 但實驗表明樣本特征質量的選擇影響避障效果。 鄒啟杰等[76]提出強化學習驅動快速探索隨機數的RL-RRT方法, 加快搜索速度, 實現解脫路徑多目標決策優化。 Kulkarni等[77]基于目標驅動內在動機的深度學習方法, 在實時環境中學習導向行為, 以提高復雜環境內收斂速度。
目前, 強化學習在無人機避障領域已取得不錯的進展, 只需對環境樣本進行訓練, 便可得到避障模型, 同時具有規劃速度快的特點, 但是, 當運行場景發生變化時, 往往需要重新對模型進行訓練, 代價相對較高。
2.3.3 深度強化學習
深度強化學習(Deep Reinforcement Learning,? DRL)是將強化學習與深度學習相結合, 通過強化學習與環境探索得到優化目標, 通過深度學習獲取系統運行機制, 用于表征和解決問題[78]。 作為機器學習中的研究熱點, 該方法憑借深度學習的感知能力, 即使針對高維原始數據輸入, 也能獲取有效的控制決策。 基于深度強化學習的系統避障控制模型如圖7所示, 可分為基于值函數和基于策略梯度的深度強化學習算法。
(1) 基于值函數的深度強化學習算法
DQN(Deep Q-Learning)算法由DeepMind公司在NIPS2013上提出, 后于2015年在Nature上提出改進版本[79]。 其核心思想是用神經網絡來表征函數或者參數化動作策略, 基于梯度對損失函數進行優化, 實現了“感知-動作”的學習算法。 Lü等[80]提出了一種改進的學習策略, 該策略基于不同學習階段對經驗深度和廣度的不同需求, 其中DQN計算Q值, 采用密集網絡框架。 在學習的初始階段, 創建一個經驗價值評價網絡, 增加深度經驗的比例, 以更快地理解環境規則。 當發生路徑漫游現象時, 采用平行探索結構, 考慮漫游點等點的探索, 提高了經驗池的廣度。 劉慶杰等[81]采用改進DQN算法克服了Q-learning表格式算法在連續狀態下導致內存不足的局限性。 通過改進獎勵機制, 增加實時獎懲作為補充, 解決學習耗時長和訓練不穩定的問題。
DQN在無人機避障控制領域取得不錯效果, 但其動作空間是離散形式的, 不能實現連續的路徑生成。
(2) 基于策略梯度的深度強化學習算法
為實現連續的狀態空間和動作空間, 梯度策略直接利用梯度參數優化策略, 不計算執行策略獲取的累計獎勵值, 輸出完整動作策略, 而不是輸出狀態動作值函數。 最先廣泛應用的是隨機策略搜索法中的區域信賴策略優化算法(Trust Region Policy Optimization,? TRPO)。 該算法由Schulman等[82]提出, 通過進行數據新舊策略分布評估, 應用于無人機導航控制領域。 此外, 深度確定性策略梯度算法(Deep Deterministic Policy Gradient,? DDPG)[83]、 引導性策略梯度算法(Guided Policy Search,? GPS)[84-85]和分布式近似策略優化算法(Distributed Proximal Policy Optimization,? DPPO)[86]等算法, 也在逐步應用于無人機避障控制中。
但基于策略梯度的深度強化學習算法存在收斂難度大的問題, 具體在復雜障礙場景下的樣機試驗還需進一步研究。
3 無人機避障研技術的挑戰和研究方向
隨著低空空域改革的推進以及人工智能、 信息技術的革新, 無人機相關新理論與新成果不斷涌現, 其未來發展空間必將更加廣闊。
從無人機避障研究現狀以及未來發展趨勢來看, 當前挑戰主要集中在:
(1) 無人機動力學建模問題。 避障過程中, 多是將無人機簡化成三自由度的質點, 忽略偏轉角、 俯仰角與滾轉角對運行狀態的影響, 使得現在避障算法難以適應高機動性的無人機, 導致實際無人機執行任務時解脫路線與規劃路線存在偏差, 影響任務執行效果。
(2) 機載傳感器誤差。 目前無人機解脫路徑模型中, 一般假設無人機可探測范圍內障礙物的物理信息均可由理想機載傳感器獲取, 而較少考慮機載傳感器的實際性能與特性。 目前采用的紅外、 超聲波、 激光和視覺等主流避障方法, 難以精確探測復雜環境(例如煙霧等)。 同時, 不同機載傳感器由于工作原理與性能指標的差異, 存在信息融合效果差、 時間延遲、 測量誤差等問題, 對解脫路徑的生成造成一定影響。
(3) 環境建模問題。 目前的避障路徑規劃算法多數都是基于規則的理想障礙物的假設, 而實際無人機運行環境復雜多樣, 特別是復雜凹型障礙環境(例如U型障礙等)、 密集動態障礙(例如大規模集群系統)等場景的探測與描述, 還需要進一步的探索。
(4) 算法實時性問題。 若環境信息是時變的, 避障算法就必須具有在線規劃能力。 算法的實時性與其應用背景緊密聯系, 只有達到一定解算速度的實時性算法, 才可應用于復雜動態環境的在線重規劃, 否則, 只能應用于離線規劃或局部重規劃。 當前的避障算法一般通過對復雜系統進行線性化與近似化處理, 實時性問題并沒有得到很好的解決。
(5) 組網通信。 當前無人機之間通過無線通信方式進行信息交換, 當集群規模較小時尚可滿足需求, 但面對大范圍、 大規模集群高速飛行場景時, 對組網通信的性能需求較大。 因此, 快速可靠的通信和組網仍是目前具有挑戰性的問題。
研究重點和方向主要集中在以下幾點:
(1) 完善避障算法的實用性。 對于復雜環境建模, 必須通過具體測量或者使用準確的三維地圖, 從而獲取可靠精確的數據, 考慮復雜環境多因素對避障效果的影響, 利用數據對模型進行驗證。 針對具體型號的無人機, 重點研究六自由度無人機在復雜環境下的避障算法, 考慮機載傳感器誤差等一系列約束條件, 對機載傳感器信息傳輸模型進行細化, 針對不同性能傳感器設計不同的規劃方法, 實現無人機“感知-避撞”流程閉環。 同時在融合空域內, 無人機必須考慮無人機空中交通管理(Unmanned Air Traffic Management,? UTM)下的運行規則, 充分結合環境建模和具體應用背景, 設計出具有實用性的避障路徑。
(2) 融合多類型避障路徑算法。 融合不同類型的避障算法, 彌補現有單個方法的缺陷與不足, 是當前的重要研究趨勢。 例如, 傳統避障規劃方法(基于優化、 勢場等)可與機器學習為代表的人工智能技術相結合, 優勢互補, 解決傳統避障算法中局部最優等問題, 也在一定程度上彌補基于機器學習的避障規劃算法中的實時性差等問題。
(3) 多機協同避障。 由于單無人機的機動區域很小, 一旦發生碰撞, 會影響臨近無人機, 集群之間產生鏈式效應, 將造成任務失敗, 因此, 隨著無人機集群在戰術打擊、 目標協同搜索、 多異構平臺協同等復雜任務的廣泛應用, 多機協同編隊避障主要研究在滿足多樣約束條件下, 將避障策略合理分配給各個有能力的無人機個體, 完成協同避障。 由于多機協同編隊避障對環境感知、 任務建模以及規劃方法都有較高的要求, 因此, 還需要進一步的探索與研究。
(4) 設計合理的容錯機制。 容錯冗余機制是保障無人機系統運行安全的重要環節。 當前沒有對避障算法核心以及薄弱環節進行容錯機制設計, 一旦解脫環節失效, 會造成不可預知后果。 因此, 在未來研究中要著重無人機機能失效時的容錯機制設計, 避免不可控事件發生。
(5) 規劃-控制一體化設計。 當前學者將無人機避障路徑規劃與路徑控制區分開, 分別進行建模研究, 而實際無人機是否精確跟蹤無人機規劃解脫路徑是當前未解決的問題。 因此需要將無人機控制制導律融合到解脫路徑解算過程中, 實現規劃-控制一體化。
4 結 束 語
避障技術是反映無人機自主控制以及智能化水平的關鍵指標, 同時作為無人機任務決策規劃的核心模塊, 避障技術逐漸發揮其重要作用。 分析結論表明:
(1) 基于優化的避障方法可以處理異常復雜的非結構化約束以及各類難以近似處理的動力學約束等問題, 其中數學優化算法計算繁雜, 不易理解, 但可綜合考慮避障路徑的可靠性、 安全性與優化性能。 啟發式算法一般實時性較差, 不適合在線避障規劃場景, 只適用于離線規劃或者全局的初始規劃等場景。
(2) 基于勢場和導航函數的避障方法可以快速生成避障路徑, 實時性好, 且路徑光滑, 但不能將各類約束條件加入到避障過程, 易陷入局部最優, 因此, 在局部規劃器中可優先采用此類方法。
(3) 基于機器學習的避障方法規劃實時性與全局性均達到不錯的效果, 且不依賴于環境先驗信息, 但當無人機處于連續狀態空間與動作空間場景時, 模型離線學習訓練耗時長, 且不易收斂, 甚至難以完成訓練。
從當前發展現狀來看, 無人機避障工程實踐滯后于理論發展, 在下一步發展中, 應致力于理論實踐化。
參考文獻:
[1] 國務院辦公廳關于促進通用航空業發展的指導意見[EB/OL]. (2016-05-17)[2021-01-10].http:∥www.gov.cn/zhengce/ content/2016-05/17/content_5074120.htm.
Instruction on Promoting the Development of General Aviation Industry from General Office of the State Council[EB/OL]. (2016-05-17)[2021-01-10].http:∥www.gov.cn/zhengce/ content/2016-05/17/content_5074120.htm. (in Chinese)
[2] 中國民航局. 無人駕駛航空器飛行管理暫行條例[EB/OL]. (2020-03-28)[2021-01-10]. https:∥wenku.baidu.com/view/ b36cc48bff4733687e21af45b307e87100f6f866.html.
Civil Aviation Administration of China. Interim Regulations on Flight Management of Unmanned Aircraft[EB/OL]. (2020-03-28) [2020-01-10]. https:∥wenku.baidu.com/view/ b36cc48bff4733687e21af45b307e87100f6f866.html. (in Chinese)
[3] 全權,? 李剛,? 柏藝琴,? 等. 低空無人機交通管理概覽與建議[J]. 航空學報,? 2020,? 41(1): 023238.
Quan Quan,? Li Gang,? Bai Yiqin,? et al. Low Altitude UAV Traffic Management: An Introductory Overview and Proposal[J]. Acta Aeronautica et Astronautica Sinica,? 2020,? 41(1): 023238.(in Chinese)
[4] Lanicci J,? Halperin D,? Shappell S,? et al. General Aviation Weather Encounter Case Studies[R]. Washington D C: Office of Aerospace Medicine,? 2012:1-12.
[5] 楊健. 無人機集群系統空域沖突消解方法研究[D]. 長沙: 國防科學技術大學,? 2016: 1-14.
Yang Jian. Study on the Airspace Conflict Resolution Problem of Unmanned Aerial Vehicle Swarm Systems[D]. Changsha: National University of Defense Technology,? 2016: 1-14.(in Chinese)
[6] Soler M,? Kamgarpour M,? Lloret J,? et al. A Hybrid Optimal Control Approach to Fuel-Efficient Aircraft Conflict Avoidance[J]. IEEE Transactions on Intelligent Transportation Systems,? 2016,? 17(7): 1826-1838.
[7] 陳偉鋒,? 邵之江. 基于析取關系直接變換的沖突解脫方法[J]. 航空學報,? 2014,? 35(4): 1122-1133.
Chen Weifeng,? Shao Zhijiang. Direct Disjunction Transcription Based Conflict Resolution Approach[J]. Acta Aeronautica et Astronautica Sinica,? 2014,? 35(4): 1122-1133.(in Chinese)
[8] 付其喜,? 梁曉龍,? 張佳強,? 等. 雙層優化的多無人機合作式沖突探測與解脫[J]. 哈爾濱工業大學學報,? 2020,? 52(4): 74-83.
Fu Qixi,? Liang Xiaolong,? Zhang Jiaqiang,? et al. Cooperative Conflict Detection and Resolution for Multiple UAVs Using Two-Layer Optimization[J]. Journal of Harbin Institute of Technology,? 2020,? 52(4): 74-83.(in Chinese)
[9] 王祝,? 劉莉,? 龍騰,? 等. 基于罰函數序列凸規劃的多無人機軌跡規劃[J]. 航空學報,? 2016,? 37(10): 3149-3158.
Wang Zhu,? Liu Li,? Long Teng,? et al. Trajectory Planning for Multi-UAVs Using Penalty Sequential Convex Programming[J]. Acta Aeronautica et Astronautica Sinica,? 2016,? 37(10): 3149-3158.(in Chinese)
[10] Radmanesh M,? Kumar M,? Nemati A,? et al. Dynamic Optimal UAV Trajectory Planning in the National Airspace System via Mixed Integer Linear Programming[J]. Proceedings of the Institution of Mechanical Engineers,? Part G: Journal of Aerospace Engineering,? 2016,? 230(9): 1668-1682.
[11] Turnbull O,? Lawry J,? Lowenberg M,? et al. A Cloned Linguistic Decision Tree Controller for Real-Time Path Planning in Hostile Environments[J]. Fuzzy Sets and Systems,? 2016,? 293: 1-29.
[12] Sarim M,? Radmanesh M,? Dechering M,? et al. Distributed Detect-and-Avoid for Multiple Unmanned Aerial Vehicles in National Air Space[J]. Journal of Dynamic Systems,? Measurement,? and Control,? 2019,? 141(7): 071014.
[13] Alonso-Ayuso A,? Escudero L F,? Martín-Campo F J. A Mixed 0-1 Nonlinear Optimization Model and Algorithmic Approach for the Collision Avoidance in ATM[J]. Computers & Operations Research, 2012, 39(12): 3136-3146.
[14] 張啟錢,? 王中葉,? 張洪海, ?等. 基于SMILO-VTAC模型的復雜低空多機沖突解脫方法[J]. 交通運輸工程學報,? 2019,? 19(6): 125-136.
Zhang Qiqian,? Wang Zhongye,? Zhang Honghai,? et al. SMILO-VTAC Model Based Multi-Aircraft Conflict Resolution Method in Complex Low-Altitude Airspace[J]. Journal of Traffic and Transportation Engineering,? 2019,? 19(6): 125-136.(in Chinese)
[15] 采俊玲,? 張寧. 基于MINLP模型的飛機沖突解脫研究[J]. 重慶理工大學學報:自然科學,? 2020,? 34(2): 188-195.
Cai Junling,? Zhang Ning. Aircraft Conflict Resolution Study Based on Mixed Integer Nonlinear Programming Model[J]. Journal of Chongqing University of Technology: Natural Science,? 2020,? 34(2): 188-195.(in Chinese)
[16] Denton R V,? Jones J E. Demonstration of an Innovation Technique for Terrain Following/Terrain Avoidance—The Dynapath Algorithm[R]. IEEE NAECON Conference, 1985:522-529.
[17] Sunberg Z N,? Kochenderfer M J,? Pavone M. Optimized and Trusted Collision Avoidance for Unmanned Aerial Vehicles Using Approximate Dynamic Programming[C]∥IEEE International Conference on Robotics and Automation,? 2016: 1455-1461.
[18] Bousson K. Single Gridpoint Dynamic Programming for Trajectory Optimization[C]∥AIAA Atmospheric Flight Mechanics Conference and Exhibit,? 2005.
[19] 薛敏, 徐海成, 王碩. 基于粒子群優化算法的無人艇路徑規劃[J]. 中國科技信息, 2018(24): 69-70.
Xue Min,? Xu Haicheng,? Wang Shuo. Path Planning of Unmanned Surface Vehicle Based on Particle Swarm Optimization Algorithm[J]. China Science and Technology Information,? 2018(24): 69-70. (in Chinese)
[20] Tang X L,? Li L M, ?Jiang B J. Mobile Robot SLAM Method Based on Multi-Agent Particle Swarm Optimized Particle Filter[J]. The Journal of China Universities of Posts and Telecommunications,? 2014,? 21(6): 78-86.
[21] Zhuang Y F,? Sharma S,? Subudhi B,? et al. Efficient Collision-Free Path Planning for Autonomous Underwater Vehicles in Dynamic Environments with a Hybrid Optimization Algorithm[J]. Ocean Engineering,? 2016,? 127: 190-199.
[22] Yan Z P,? Li J Y,? Zou J J,? et al. A Hybrid PSO-WG Algorithm for AUV Path Planning in Unknown Oceanic Environment[C]∥IEEE 8th International Conference on Underwater System Technology: Theory and Applications (USYS),? 2018: 1-6.
[23] Lim H S,? Fan S S,? Chin C K H,? et al. Constrained Path Planning of Autonomous Underwater Vehicle Using Selectively-Hybridized Particle Swarm Optimization Algorithms[J]. IFAC-PapersOnLine,? 2019,? 52(21): 315-322.
[24] 李平陽. 基于遺傳算法的無人機多目標路徑規劃[J]. 農業裝備與車輛工程,? 2019,? 57(1): 68-70.
Li Pingyang. Multiobjective Path Planning of Unmanned Aerial Vehicle Based on Genetic Algorithm[J]. Agricultural Equipment & Vehicle Engineering,? 2019,? 57(1): 68-70.(in Chinese)
[25] 余文曌,? 佘航宇,? 歐陽子路. 基于彈性網格的改進遺傳算法在無人艇路徑規劃中的研究[J]. 中國航海,? 2018,? 41(4): 101-105.
Yu Wenzhao,? She Hangyu,? Ouyang Zilu. Path Planning of Unmanned Surface Vehicle Based on Variable Mesh Improved Genetic Algorithm[J]. Navigation of China,? 2018,? 41(4): 101-105.(in Chinese)
[26] Yan S K,? Pan F. Research on Route Planning of AUV Based on Genetic Algorithms[C]∥IEEE International Conference on Unmanned Systems and Artificial Intelligence (ICUSAI),? 2019: 184-187.
[27] 何光勤, 朱一飛, 張才然. 基于遺傳算法的無人機三維航跡規劃研究[J].價值工程,? 2020, 39(7): 215-218.
He Guangqin,? Zhu Yifei,? Zhang Cairan. Research of 3D Flight Path Planning of UAV Based on Genetic Algorithm[J]. Value Engineering,? 2020,? 39(7): 215-218. (in Chinese)
[28] 張宏宏,? 甘旭升,? 李雙峰,? 等. 復雜低空環境下考慮區域風險評估的無人機航路規劃[J]. 儀器儀表學報,? 2021,? 42(1): 257-266.
Zhang Honghong,? Gan Xusheng, ?Li Shuangfeng,? et al. UAV Route Planning Considering Regional Risk Assessment under Complex Low Altitude Environment[J]. Chinese Journal of Scientific Instrument,? 2021,? 42(1): 257-266. (in Chinese)
[29] Wu X X,? Wei G L,? Song Y,? et al. Improved ACO-Based Path Planning with Rollback and Death Strategies[J]. Systems Science & Control Engineering,? 2018,? 6(1): 102-107.
[30] Jiao Z Q,? Ma K,? Rong Y L,? et al. A Path Planning Method Using Adaptive Polymorphic Ant Colony Algorithm for Smart Wheelchairs[J]. Journal of Computational Science,? 2018,? 25: 50-57.
[31] Luo Q,? Wang H B,? Zheng Y,? et al. Research on Path Planning of Mobile Robot Based on Improved Ant Colony Algorithm[J]. Neural Computing and Applications,? 2020,? 32(6): 1555-1566.
[32] Kang F,? Li J J,? Ma Z Y. Rosenbrock Artificial Bee Colony Algorithm for Accurate Global Optimization of Numerical Functions[J]. Information Sciences,? 2011,? 181(16): 3508-3531.
[33] 王淵,? 孫秀霞,? 劉樹光,? 等. 基于改進人工蜂群算法的多機飛行沖突解脫策略[J]. 空軍工程大學學報:自然科學版,? 2014,? 15(3): 10-14.
Wang Yuan,? Sun Xiuxia,? Liu Shuguang,? et al. Research on Multi-Aircraft Confliction Resolution Based on a Modified Artificial Bee Colony Algorithm[J]. Journal of Air Force Engineering University: Natural Science Edition,? 2014,? 15(3): 10-14. (in Chinese)
[34] Contreras-Cruz M A,? Ayala-Ramirez V,? Hernandez-Belmonte U H. Mobile Robot Path Planning Using Artificial Bee Colony and Evolutionary Programming[J]. Applied Soft Computing,? 2015,? 30: 319-328.
[35] Li B,? Gong L G,? Yang W L. An Improved Artificial Bee Colony Algorithm Based on Balance-Evolution Strategy for Unmanned Combat Aerial Vehicle Path Planning[J]. The Scientific World Journal,? 2014,? 2014: 1-10.
[36] Xie C,? Zheng H Q. Application of Improved Cuckoo Search Algorithm to Path Planning Unmanned Aerial Vehicle[C] ∥Intelligent Computing Theories and Application,? 2016: 722-729.
[37] Wu J F,? Wang H L,? Li N,? et al. Path Planning for Solar-Powered UAV in Urban Environment[J]. Neurocomputing,? 2018,? 275: 2055-2065.
[38] Yao P,? Wang H L. Dynamic Adaptive Ant Lion Optimizer Applied to Route Planning for Unmanned Aerial Vehicle[J]. Soft Computing,? 2017,? 21(18): 5475-5488.
[39] Zhang B,? Duan H B. Three-Dimensional Path Planning for Uninhabited Combat Aerial Vehicle Based on Predator-Prey Pigeon-Inspired Optimization in Dynamic Environment[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics,? 2017,? 14(1): 97-107.
[40] 李鳳玲, 陳珊, 范興江, 等. 基于螢火蟲算法動態未知環境的路徑規劃[J]. 自動化與儀表,? 2019,? 34(6): 53-58.
Li Fengling,? Chen Shan,? Fan Xingjiang,? et al. Path Planning Based on Firefly Algorithm in Dynamic Unknown Environment[J].Automation & Instrumentation,? 2019,? 34(6): 53-58.
[41] 錢洲元,? 雷明. 面向無人機航跡規劃的自適應烏賊算法[J]. 哈爾濱工業大學學報,? 2019,? 51(10): 37-46.
Qian Zhouyuan,? Lei Ming. Adaptive Cuttlefish Algorithm for UAV Path Planning[J]. Journal of Harbin Institute of Technology,? 2019,? 51(10): 37-46.(in Chinese)
[42] 馬云紅,? 張恒,? 齊樂融,? 等. 基于改進A*算法的三維無人機路徑規劃[J]. 電光與控制,? 2019,? 26(10): 22-25.
Ma Yunhong,? Zhang Heng,? Qi Lerong,? et al. A 3D UAV Path Planning Method Based on Improved A* Algorithm[J]. Electronics Optics & Control,? 2019,? 26(10): 22-25.(in Chinese)
[43] 祁玄玄,? 黃家駿,? 曹建安. 基于改進A*算法的無人車路徑規劃[J]. 計算機應用,? 2020,? 40(7): 2021-2027.
Qi Xuanxuan,? Huang Jiajun,? Cao Jianan. Path Planning for Unmanned Vehicle Based on Improved A* Algorithm[J]. Journal of Computer Applications,? 2020,? 40(7): 2021-2027.(in Chinese)
[44] 宋雪倩,? 胡士強. 基于Dubins路徑的A*算法的多無人機路徑規劃[J]. 電光與控制,? 2018,? 25(11): 25-29.
Song Xueqian,? Hu Shiqiang. Dual-UAV Path Planning by Dubins-Path Based A* Algorithm[J]. Electronics Optics & Control,? 2018,? 25(11): 25-29.(in Chinese)
[45] Ganapathy V,? Yun S,? Chien T. Enhanced D* Lite Algorithm for Autonomous Mobile Robot [J]. International Journal of Applied Sciense and Technology,? 2011,? 1(1): 58-73.
[46] Stentz A. Optimal and Efficient Path Planning for Partially-Known Environments[C]∥IEEE International Conference on Robotics and Automation,? 1994: 3310-3317.
[47] 朱龍彪,? 王輝,? 王景良,? 等. 基于動態時間窗的泊車系統路徑規劃研究[J]. 工程設計學報,? 2017,? 24(4): 440-448.
Zhu Longbiao,? Wang Hui,? Wang Jingliang,? et al. Research on Path Planning of Parking System Based on Dynamic Time Window[J]. Chinese Journal of Engineering Design,? 2017,? 24(4): 440-448.(in Chinese)
[48] Maini P,? Sujit P B. Path Planning for a UAV with Kinematic Constraints in the Presence of Polygonal Obstacles[C]∥IEEE International Conference on Unmanned Aircraft Systems,? 2016: 62-67.
[49] Bhattacharya P,? Gavrilova M L. Roadmap-Based Path Planning-Using the Voronoi Diagram for a Clearance-Based Shortest Path[J]. IEEE Robotics & Automation Magazine,? 2008,? 15(2): 58-66.
[50] Han T,? Wu W C,? Huang C Q,? et al. Path Planning of UAV Based on Voronoi Diagram and DPSO[J]. Procedia Engineering,? 2012,? 29: 4198-4203.
[51] 李寰宇,? 陳延龍,? 張振興,? 等. 基于Dubins的無人機自動避撞路徑規劃[J]. 飛行力學,? 2020,? 38(5): 44-49.
Li Huanyu,? Chen Yanlong,? Zhang Zhenxing,? et al. UAV Collision Avoidance Path Planning Based on Dubins Method[J]. Flight Dynamics,? 2020,? 38(5): 44-49.(in Chinese)
[52] Zhu M N,? Zhang X H,? Luo H,? et al. Optimization Dubins Path of Multiple UAVs for Post-Earthquake Rapid-Assessment[J]. Applied Sciences,? 2020,? 10(4): 1388.
[53] Yan P,? Yan Z,? Zheng H X,? et al. A Fixed Wing UAV Path Planning Algorithm Based on Genetic Algorithm and Dubins Curve Theory[J]. MATEC Web of Conferences,? 2018,? 179: 03003.
[54] 曾國奇,? 趙民強,? 劉方圓,? 等. 基于網格PRM的無人機多約束航路規劃[J]. 系統工程與電子技術,? 2016,? 38(10): 2310-2316.
Zeng Guoqi,? Zhao Minqiang,? Liu Fangyuan,? et al. Multi-Constraints UAV Path Planning Based on Grid PRM[J]. Systems Engineering and Electronics,? 2016,? 38(10): 2310-2316.(in Chinese)
[55] Upadhyay A,? Shrimali K R,? Shukla A. UAV-Robot Relationship for Coordination of Robots on a Collision Free Path[J]. Procedia Computer Science,? 2018,? 133: 424-431.
[56] 管祥民,? 呂人力. 基于混合人工勢場與蟻群算法的多飛行器沖突解脫方法[J]. 武漢理工大學學報: 交通科學與工程版,? 2020,? 44(1): 28-33.
Guan Xiangmin,? Lü Renli. Conflict Resolution Method for Multiple Aircraft Based on Hybrid Artificial Potential Field and Ant Colony Algorithm[J]. Journal of Wuhan University of Technology : Transportation Science & Engineering,? 2020, ?44(1): 28-33.(in Chinese)
[57] Yang X,? Yang W,? Zhang H J,? et al. A New Method for Robot Path Planning Based Artificial Potential Field[C]∥IEEE 11th Conference on Industrial Electronics and Applications (ICIEA),? 2016: 1294-1299.
[58] 韓知玖,? 吳文江,? 李孝偉,? 等. 一種改進的動力學約束人工勢場法[J]. 上海大學學報: 自然科學版,? 2019,? 25(6): 879-887.
Han Zhijiu,? Wu Wenjiang,? Li Xiaowei,? et al. An Improved Artificial Potential Field Method Constrained by a Dynamic Model[J]. Journal of Shanghai University: Natural Science Edition,? 2019,? 25(6): 879-887.(in Chinese)
[59] 張宏宏,? 甘旭升,? 李昂,? 等. 基于速度障礙法的無人機避障與航跡恢復策略[J]. 系統工程與電子技術,? 2020,? 42(8): 1759-1767.
Zhang Honghong,? Gan Xusheng,? Li Ang,? et al. UAV Obstacle Avoidance and Track Recovery Strategy Based on Velocity Obstacle Method[J]. Systems Engineering and Electronics,? 2020,? 42(8): 1759-1767.(in Chinese)
[60] Durand N. Constant Speed Optimal Reciprocal Collision Avoi-dance[J]. Transportation Research Part C: Emerging Technologies, ?2018,? 96: 366-379.
[61] Bareiss D,? van den Berg J. Generalized Reciprocal Collision Avoidance[J]. The International Journal of Robotics Research,? 2015,? 34(12): 1501-1514.
[62] 楊秀霞,? 張毅,? 周硙硙,? 等. 基于空間障礙球冠的UAV保角映射避碰決策[J]. 華中科技大學學報: 自然科學版,? 2019,? 47(2): 127-132.
Yang Xiuxia,? Zhang Yi,? Zhou Weiwei,? et al. Spatial Optimal Collision Avoidance Decision for UAV Based on Spatial Obstacle Spherical Cap[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition,? 2019,? 47(2): 127-132.(in Chinese)
[63] 梁宵,? 王宏倫,? 李大偉,? 等. 基于流水避石原理的無人機三維航路規劃方法[J]. 航空學報,? 2013,? 34(7): 1670-1681.
Liang Xiao,? Wang Honglun,? Li Dawei,? et al. Three-Dimensional Path Planning for Unmanned Aerial Vehicles Based on Principles of Stream Avoiding Obstacles[J]. Acta Aeronautica et Astronautica Sinica,? 2013,? 34(7): 1670-1681.(in Chinese)
[64] Daily R,? Bevly D M. Harmonic Potential Field Path Planning for High Speed Vehicles[C]∥IEEE American Control Conference,? 2008: 4609-4614.
[65] 王宏倫,? 姚鵬,? 梁宵,? 等. 基于流水避石原理的無人機三維航路規劃[J]. 電光與控制,? 2015,? 22(10): 1-6.
Wang Honglun,? Yao Peng,? Liang Xiao,? et al. Three-Dimensional Path Planning for UAVs Based on Theory of Fluid Avoiding Obstacles[J]. Electronics Optics & Control,? 2015,? 22(10): 1-6.(in Chinese)
[66] Floreano D,? Mondada F. Evolutionary Neurocontrollers for Auto-nomous Mobile Robots[J]. Neural Networks,? 1998,? 11(7/8): 1461-1478.
[67] 方旭,? 劉金琨. 四旋翼無人機三維航跡規劃及跟蹤控制[J]. 控制理論與應用,? 2015,? 32(8): 1120-1128.
Fang Xu,? Liu Jinkun. Three-Dimension Path Planning and Trajectory Tracking Control for Quadrotor Unmanned Aerial Vehicle[J]. Control Theory & Applications,? 2015,? 32(8): 1120-1128.(in Chinese)
[68] 王延祥,? 王宏倫,? 吳健發,? 等. 基于流體擾動算法與深度神經網絡的無人機自適應路徑規劃[J]. 無人系統技術,? 2020,? 3(6): 50-58.
Wang Yanxiang,? Wang Honglun,? Wu Jianfa,? et al. Adaptive Path Planning for UAV Based on Interfered Fluid Algorithm and Deep Neural Network[J]. Unmanned Systems Technology,? 2020,? 3(6): 50-58.(in Chinese)
[69] Zhang Y Y,? Li S,? Guo H L. A Type of Biased Consensus-Based Distributed Neural Network for Path Planning[J]. Nonlinear Dynamics,? 2017,? 89(3): 1803-1815.
[70] Choi Y J,Jimenez H,Mavris D N. Two-Layer Obstacle Collision Avoidance with Machine Learning for More Energy-Efficient Unmanned Aircraft Trajectories[J]. Robotics and Autonomous Systems,2017,98:158-173.
[71] 邴麗媛,? 劉智,? 蔣余成. 基于模糊神經網絡的電力巡線無人機避障技術研究[J]. 長春理工大學學報: 自然科學版,? 2017,? 40(3): 98-102.
Bing Liyuan,? Liu Zhi,? Jiang Yucheng. Research on Obstacle Avoidance Technology of Unmanned Aerial Vehicle in Power Line Inspection[J]. Journal of Changchun University of Science and Technology: Natural Science Edition,? 2017,? 40(3): 98-102.(in Chinese)
[72] Chang Y,? Wang Y Q,? Alsaadi F E,? et al. Adaptive Fuzzy Output-Feedback Tracking Control for Switched Stochastic Pure-Feedback Nonlinear Systems[J]. International Journal of Adaptive Control and Signal Processing,? 2019,? 33(10): 1567-1582.
[73] Michels J,? Saxena A,? Ng A Y. High Speed Obstacle Avoidance Using Monocular Vision and Reinforcement Learning[C]∥The 22nd International Conference on Machine Learning,? 2005: 593-600.
[74] Xie L H,? Wang S,? Markham A,? et al. Towards Monocular Vision Based Obstacle Avoidance through Deep Reinforcement Learning[EB/OL]. (2017-06-29)[2021-01-10]. https:∥www. researchgate.net/publication/318029385_Towards_Monocular_Vision_based_Obstacle_Avoidance_through_Deep_Reinforcement_Learning, 2017.
[75] Vamvoudakis K G,? Vrabie D,? Lewis F L. Online Adaptive Algorithm for Optimal Control with Integral Reinforcement Learning[J]. International Journal of Robust and Nonlinear Control,? 2014,? 24(17): 2686-2710.
[76] 鄒啟杰,? 劉世慧,? 張躍,? 等. 基于強化學習的快速探索隨機樹特殊環境中路徑重規劃算法[J]. 控制理論與應用,? 2020,? 37(8): 1737-1748.
Zou Qijie,? Liu Shihui,? Zhang Yue,? et al. Rapidly-Exploring Random Tree Algorithm for Path Re-Planning Based on Reinforcement Learning under the Peculiar Environment[J]. Control Theory & Applications,? 2020,? 37(8): 1737-1748.(in Chinese)
[77] Kulkarni T D. Narasimhan K R,? Saeedi A,? et al. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation[C]∥ 30th International Conference on Neural Information Processing Systems,? 2016: 3675-3683.
[78] Yang S L,? Xu Z G,? Wang J Y. Intelligent Decision-Making of Scheduling for Dynamic Permutation Flowshop via Deep Reinforcement Learning[J]. Sensors,? 2021,? 21(3): 1019.
[79] Mnih V,? Kavukcuoglu K,? Silver D,? et al. Human-Level Control through Deep Reinforcement Learning[J]. Nature,? 2015,? 518(7540): 529-533.
[80] Lü L,? Zhang S J,? Ding D R,? et al. Path Planning via an Improved DQN-Based Learning Policy[J]. IEEE Access,? 2019,? 7: 67319-67330.
[81] 劉慶杰,? 林友勇,? 李少利. 面向智能避障場景的深度強化學習研究[J]. 智能物聯技術,? 2018,? 1(2): 18-22.
Liu Qingjie,? Lin Youyong,? Li Shaoli. Research on Deep Reinforcement Learning for Intelligent Obstacle Avoidance Scenarios[J]. Technology of IoT & AI,? 2018,? 1(2): 18-22.(in Chinese)
[82] Schulman J,? Levine S,? Moritz P,? et al. Trust Region Policy Optimization[EB/OL]. (2015-02-01)[2021-01-10]. https:∥www. researchgate.net/publication/272521272_Trust_Region_Policy_ Optimization,? 2015.
[83] Fan L Q,? Zhang J,? He Y,? et al. Optimal Scheduling of Microgrid Based on Deep Deterministic Policy Gradient and Transfer Learning[J]. Energies,? 2021,? 14(3): 584.
[84] Du J Y,? Fu J,? Li C. Guided Policy Search Methods: A Review[J]. Journal of Physics: Conference Series,? 2021,? 1748: 022039.
[85] Levine S,? Finn C,? Darrell T,? et al. End-to-End Training of Deep Visuomotor Policies[EB/OL]. (2015-04-01)[2021-01-10]. https:∥www.researchgate.net/publication/274572264_End-to-End_Training_of_Deep_Visuomotor_Policies, 2015.
[86] Heess N,? TB D,? Sriram S,? et al. Emergence of Locomotion Behaviours in Rich Environments[EB/OL]. (2017-07-01) [2021-01-10]. https:∥www.researchgate.net/ publication/ 318316001_ Emergence_of_Locomotion_ Behaviours_in_Rich_ Environments,? 2017.
Review of UAV Obstacle Avoidance Algorithms
Zhang Honghong1, 2, Gan Xusheng1, 2*, Mao Yi1, Yang Chunlin1, Xie Xiaowei3
(1. Air Traffic Control and Navigation College,? Air Force Engineering University,? Xian 710051,? China;
2. National Key Laboratory of Air Traffic Collision Prevention,? Xian 710051, China;
3. Equipment Management and UAV Engineering College,? Air Force Engineering University,? Xian 710051,? China)
Abstract: Along with the advancement of ?low-altitude airspace reform,? it has become a developing trend that UAV leaves the isolation airspace and gets into the fusion low-altitude airspace to perform diverse missions. A serious threat is brought to UAV in the low dynamic complex fusion airspace,? so the obstacle avoidance technology has become a key process in UAV mission decision-making system,? to ensure the safe operation of the UAV and to improve working efficiency. Firstly,? the relevant concepts,? path evaluation indexes and key technologies of UAV obstacle avoidance are described. Then, the concepts? of? obstacle avoidance algorithms based on optimization,? potential field and machine learning are? described,? and the advantages and disadvantages of these algorithms are compared. Finally,? the current challenges that restrict the development of UAV obstacle avoidance and the future research directions are proposed.
Key words: UAV; obstacle avoidance; optimization; potential field; machine learning; artificial intelligence; autonomous control