
中圖分類號:V249 文獻標志碼:A
Abstract:In order to achieve the autonomous exploration of complex 3D unstructured environment by fixed-wing UAV,a flight path planning solution is proposed to explore 3D environment by flying in 2D space. An autonomous exploration method is proposed,which takes local terrain information as input and is based on Proximal Policy Optimization (PPO).3D unstructured terrain environment is constructed based on Berlin noise.A mathematical model of reinforcement learning is designed,which takes the elevation information (local terrain) in the field of view of the UAV as the state and the continuous yaw angle as the action. The fixed-wing UAV was able to efficiently explore unstructured environments with minimal local information under flight dynamics constraints. The experimental results show that the method has stronger exploration power and generalization performance in terms of total reward,exploration rate,path length,and other indicators of map exploration compared to using only 2D occupancy information.
Key words: fixed-wing UAV; autonomous exploration; complex 3D unstructured environment;proximal policy optimization;perlin noise
0 引言
無人機在城市街道、工業園區等結構化環境中的研究與應用相對成熟,而在礦區、森林、荒漠、災害現場等缺乏明確邊界、規則的非結構化環境(unstructuredenvironment)中的研究與應用尚顯不足[1-3],固定翼無人機應用于非結構化環境探索的相關研究更是鮮見.非結構化環境中場景元素的分布和特征具有高度的不確定性和隨機性,信息不完全,難以通過傳統方法進行全面建模和分析.無人機在缺失先驗地圖信息的條件下進行探索會遇到不確定性大、決策時間長、探索速率慢和魯棒性差等問題4],難以保證探索的效率與完整性.
目前,自主探索算法領域主流的傳統算法包括基于邊界檢測的自主探索算法、基于隨機采樣的自主探索算法、基于信息理論的自主探索算法等[5].但傳統算法大都缺乏對先前不存在的經驗或策略的探索能力,容易陷人局部最優的困境,在策略執行過程中,部分求解環節依賴與空間維度和空間離散數成正比的直接搜索,計算資源開銷大,亟待更加高效的方法.基于深度強化學習的自主探索算法因其強大的高維度信息感知、理解、處理能力,且不需要依賴環境模型,受到了越來越多學者的關注[7-11],更多的研究人員將深度強化學習與無人機系統相結合來處理未知環境下的決策問題.
Bouhamed等[12]提出了一種使用深度確定性策略梯度算法(DDPG)的自主無人機路徑規劃框架,訓練無人機在給定的模擬三維城市區域內到達移動或靜態目標.Peake等[13]特別注重無人機在未知環境中搜索興趣區域,針對探索建圖、導航的雙任務各自設計了獨立模型,使用地圖分割技術將分解后的環境地圖作為網絡的輸人,并將算法搭載在物理機上進行了消融實驗.Li等[14]在自主探索框架的基礎上,提出了一種以構建地圖作為輸入的自主探索決策算法,設計了用于環境探索的獎勵函數和新的動作空間來緩解由于機器人誤差導致在實體機器人控制上遷移性能差的問題.
本文針對復雜三維非結構化環境下的固定翼無人機自主探索問題,提出了一套可行的解決方案:將處于定高模式開展探索的無人機視場下方環境的局部地形信息作為網絡輸入,結合深度強化學習方法,訓練出能在有限的步數下最大限度探索覆蓋未知區域智能體.采用了柏林噪聲自主構建了高復雜度的三維非結構化地形環境,在固定高度對地圖模型進行切片截取,將觀測到的環境高程信息添加到布爾型切片地圖中,設計了以無人機視場內高程信息作為狀態、連續的偏航角作為動作的強化學習模型.在二維切片地圖的基礎上融合了三維高程信息,保有豐富環境細節的同時又不提高計算復雜度,相較于二維環境不全面的狀態觀測具有更好的探索效果,同時因為采取了二維的動作空間,在動作空間復雜度和訓練難度層面上相較于三維環境又更具優勢.
1三維環境構建與飛行初始點篩選
本文采用了具有良好平滑性的柏林噪聲[15]來生成三維非結構化隨機環境的數字高程圖[16],幫助智能體適應真實世界特性,并創建相應的布爾型切片地圖,完成對初始飛行點隊列的篩選.
1.1復雜三維非結構化環境設計實現
柏林噪聲算法會先在覆蓋全圖的晶格矩形網格的晶格點上隨機初始化一個梯度向量,假定晶格內的一個待計算像素點為 P ,該點所屬的四個晶格點分別記作
(如圖1(a)所示),其梯度向量記為 (grado,gradl,grad2 ,grad3 〉.接下來計算出 P 點分別距離四個晶格點的偏移向量 ?delta?,delta?1,delta?2,delta?3? (如圖1(b)所示),再根據公式(1)計算出每個晶格點的梯度向量與偏移向量的點積并求累和,經過平滑函數處理后最終獲得 P 點的隨機噪聲值.重復上述步驟,依次計算完晶格內的所有點即可得到完整的噪聲圖(如圖1(c)所示).其中, f(?) 具體展開為公式(2)所示:

圖1柏林噪聲生成過程

初始的柏林噪聲圖四周的邊界是開放的,本文在噪聲圖的四周添加了一層厚度適中、值等同于噪聲圖中最大值的電子邊界(如圖2(a)所示),從而構建了一個封閉的飛行空域,確保智能體在該區域內進行自主探索.同時為了消除電子邊界與原地圖連接處的不連續性,再對添加電子邊界后的探索地圖使用適配于地圖規模的均值卷積核進行卷積平滑處理(如圖2(b)所示),減少對智能體探索策略的學習造成影響.
圖2地圖預處理

為了便于后續數據處理,對卷積平滑后的隨機地圖進行歸一化處理,將原本的地圖高程的值域范圍映射到[0,1]內.采用8位二進制整型變量存儲地圖上單個數據點的高程數據,一共可以均勻量化出256級高程值,減輕了無人機機載電腦的存儲負擔,本文中垂直分辨率設置為1米,可記錄海拔變化范圍在 0~255 米的高程地圖.真實無人機受限于動力供給與通信范圍,最大飛行高度和航程有限,因此后續的研究會采用固定的步數來對模型進行訓練與測試.
1.2飛行初始點篩選
本文所設計地圖相較于真實世界的數字高程模型(DEM)而言具有更高的障礙物密度和復雜度,訓練難度也會更大.為了避免模型在訓練過程中出現生成在山體內部等違背物理條件的隨機初始飛行點,需要在二維切片地圖上對初始飛行點隊列進行篩選.二維切片地圖是三維地圖在垂直維度上水平方向的簡略表示,有利于無人機提高對其飛行平面上的地理特征感知與學習能力,切片地圖生成的具體流程如圖3所示.
圖3切片地圖生成流程

截取與起始飛行點處于同一海拔高度的三維高程模型水平面,將該平面數據映射到二維平面上形成二維柵格地圖,再進行閾值分割,制作成布爾型的切片地圖.閾值分割后的地圖中值為。的點即為備選的初始飛行點,并通過障礙物檢測篩選可行初始飛行點.
障礙物檢測的具體方法如下:設定初始生成半徑 Rinit ,在切片地圖中以待檢測的備選點為幾何中心,向四周截取邊長長度為 2Rinit 的正方形矩陣記作 Ainit ,并與具有相同維度的掩碼矩陣 Amask 進行點乘運算,其中 Amask 內元素取值滿足公式(3),i,j 分別是該點的橫縱坐標,公式(4)中 xi,j?yi,j 分別是該點距中心候選點的橫向距離和縱向距離.

Ri,j=(xi,j-Rinit)2+(yi,j-Rinit)2
根據 Ainit?Amask 的結果中的最大值判斷該候選點是否為可行初始點.若最大值不大于0則說明該候選點附近較為空曠,適合作為起始飛行點,并將其添加到可行初始點的備選隊列中;反之,則說明該點附近存在障礙物,不適合作為起始飛行點.
可行初始點與不可行初始點的示意圖如圖4所示,圓環內圓為無人機可能觀察到的視野范圍,半徑為 RFOV ,整個外圓內的部分是初始生成點的障礙物檢測范圍,半徑為 Rinit ,本文中默認 RFOVlt; Rinit .為確保初始飛行點分布的均勻性,采用隨機抽樣方法從隊列中選取100個備選點作為訓練的固定初始點.
圖4可行初始點與不可行初始點示意圖

2部分可觀測環境自主探索數學模型
本章的主要研究內容是基于固定翼無人機飛行動力學約束,通過狀態空間設計、動作空間設計、獎勵函數設計和算法設計建立一個含約束的無人機自主探索的部分可觀測馬爾可夫決策過程(POMDP)模型.
2.1無人機飛行動力學約束建模
固定翼無人機的飛行動力學模型及飛行動力學約束比多旋翼無人機更為復雜,為了不失一般性,本文采用固定翼無人機作為飛行動力學約束建模的參考對象.以固定翼無人機飛行動力學模型[7為基礎,僅考慮無人機在固定高度飛行時的簡化飛行動力學約束,推導最小轉彎半徑、最大航向半角等無人機參數.假定無人機以固定航速VUAV 飛行,則其最小轉彎半徑 Rmin 為公式(5)所示:

式(5)中: g 為重力加速度, ny 無人機最大允許正常過載系數.將其代人公式(6)可得到最大航向半角 Ψ ,其中無人機運動步長 λ 如公式(7)所示:

λ=VUAV×dt
無人機自主探索規劃后的下一步的位置和方向的更新如公式(8)所示:

式(8)中:
分別為無人機在當前時刻的位置與下一時刻的位置, φu…φu' 分別為無人機在當前時刻的方向與下一時刻的方向.
2.2 狀態空間設計
本文的狀態空間是由無人機與周圍環境互動時機載傳感器觀測到的環境信息組成的,以無人機執行探索任務的封閉區域的總和為全局地圖.無人機無法在將未知地圖轉化為已知地圖的探索過程中觀測到全局探索地圖信息,只能通過機載傳感器獲得在當前時間步 χt 下所處位置視角朝向內的局部化地形環境的高程信息,并將觀測到的部分且有限的局部地圖作為狀態 st :
客觀世界的狀態信息在經過無人機傳感器后會產生非線性畸變,形成扇形的觀測視野.在本文所提的方法中,無人機被視作是一個質點,仿真系統會實時記錄無人機當前的位置與航向角,截取扇形視場內柵格地圖數據信息作為局部觀測地圖.隨著無人機的運動不斷刷新捕獲的視場環境并使用光線投射法進行預處理,將扇形視野恢復成 40× 40分辨率的矩形局部地圖后批量存儲到數據緩沖區,最終作為網絡模型的狀態輸入.
無人機觀測的局部地圖和畸變校正后的局部地圖如圖5所示.在圖5中,可行區域的顏色由紫漸變為綠色代表著該處環境海拔的升高;紅色邊線是從無人機扇形視場頂點所發出射線與障礙物相交后形成的,代表著在當前高度切片下無人機觀測到的可行域與山體的邊界;未知區域則是超過無人機當前海拔高度未被觀測到的地形.無人機根據局部地圖能夠獲取到環境高程數據及其變化趨勢、與邊界的距離、未知區域分布等信息,依照學習到的自主探索策略完成對未知環境的探索覆蓋.
圖5無人機觀測局部地圖(即狀態)

2.3 動作空間設計
對無人機的相對航向角進行動作空間設計,可以建立離散動作空間和連續動作空間:離散動作空間是將最大航向角范圍均勻等分成有限份離散的轉向角度,不同的動作序號分別對應著不同的轉向角度;連續動作空間則是將無人機最大航向角范圍[-ψ,ψ] 通過tanh激活函數映射到[—1,1」上.在實際應用中,離散動作空間的動作選擇的數量有限,因此計算效率較高,學習過程更加快速,但在復雜任務的執行上可能會遇到性能瓶頸.連續動作空間雖然會增加學習的復雜性,但能夠更真實地模擬現實世界中的動作,適配于無人機飛行控制等需要精細控制的場景,也能幫助智能體更好地應對復雜環境帶來的挑戰,因此本文采用連續動作空間建模.
2.4獎勵函數設計
探索過程中,無人機智能體將根據視野范圍內的環境信息快速準確地進行安全無碰撞的航跡規劃,避免與障礙物相撞,在確保自身具備持續探索能力的前提下開展后續探索.基于這一思想本文設計的獎勵函數如下:

獎勵函數的設計分為兩個部分,分別用以提升無人機的生存能力和探索能力.在生存能力獎勵邏輯部分,采用了碰撞懲罰機制來引導無人機學習自主避障策略,提高續航能力.當無人機與障礙物發生碰撞時,獎勵系統立即給予一個較大的負獎勵值-1000 ,旨在強調避免碰撞的重要性,并且一旦發生碰撞就會直接結束該回合的探索.
在探索能力獎勵邏輯部分,無人機每一步的獎勵值由新探索到的未知區域面積決定,用于激勵積極無人機探索未知區域.具體來說,獎勵值re 為單步新探索到的未知區域的面積乘以折扣系數后計算得出,其值大小一般在幾十左右,以反映探索新區域的價值,若該步并未探索到新的未知區域則獎勵值就為0,從而鼓勵無人機不斷尋找并探索新的區域,避免陷入僅在已知區域內活動的局部最優.
2.5 算法設計
三維非結構化環境具有更高的空間維度和更復雜的環境狀態,為了提高智能體應對復雜地形的能力和探索效率,本文采用適用于精細控制任務與高維狀態空間的PPO算法,搭建的強化學習框架整體流程如圖6所示.
圖6 PPO算法流程

強化學習環境交互部分運用的是強化學習的經典框架,智能體結合當前獲得的狀態信息依據自身策略在環境中做出動作,環境更新智能體到下一狀態并反饋即時獎勵給智能體.無人機的探索軌跡由具有最新策略的Actor去采集,到達預設的更新步數后開始更新網絡參數.Critic網絡的更新會根據目標值和預測值計算優勢函數,并使用最小均方誤差作為損失函數對網絡權重參數進行反向傳播更新.Actor網絡則需要新、舊網絡輸出各自對于當前狀態的動作概率分布,其中動作概率分布的標準差會隨著訓練輪次的增加而線性衰減至預設值,再依照PPO-Clip的目標函數來對網絡進行更新.
PPO-Clip的目標函數為:
LPPO-Clip(θ)=Eτ~πθ[min(surr1,surr2)]


式(10)中: θ 代表網絡的權重參數, τ 為根據當前策略探索 πθ 得到的軌跡,surr1與 surr2 是兩個替代函數.
式(11)、(12)中: πθold 是先前的策略,
at )是狀態 st 下采取動作 at 的優勢函數, ρt 為重要性采樣:

裁剪函數 clip(ρt(θ),1-ε,1+ε) 會將 ρt(θ) 幅度截斷在 [1-ε,1+ε] 范圍中,以此保證新舊策略的相似.為了進一步提高模型的收斂性能,本文在模型中應用了網絡正交初始化、策略熵、狀態標準化等Trick進行改進.
從局部觀測到值函數和策略函數復雜的映射關系通過深度神經網絡進行擬合.本文Actor和Critic網絡采用了輕量化的網絡結構,先使用三層級聯的卷積神經網絡對輸入圖片尺寸為 40×40 、顏色通道數為1的局部地圖特征信息進行提取,再通過兩層全連接層完成動作與狀態價值的輸出.決策網絡的結構如圖7所示.
圖7決策網絡結構

3仿真實驗及結果分析
本文進行實驗的物理設備是搭載了32GBRAM的IntelCorei9-12900KFCPU的計算機,顯卡為GeForceRTX3090,操作系統為Ubuntu20.04,Python版本3.10,訓練采用Pytorch框架.
3.1實驗設置與參數配置
本文用于訓練與測試的三維非結構化環境采用柏林噪聲生成,并通過添加電子邊界、卷積平滑、歸一化等方式對地圖進行了預處理.以固定翼無人機作為飛行動力學約束建模的參考對象,構建實驗環境物理運行規則,并將航向角作為智能體的動作輸出.
在仿真實驗中,無人機均進行定高且勻速的飛行,訓練地圖為 1 000×1 000 分辨率的封閉非結構化地圖.為了研究高程信息對智能體策略的影響,本文同步對比了三維環境和二維切片環境下訓練出來的智能體的表現.
PPO算法的訓練參數如表1所示,二維切片模型、三維模型和三維縮放模型所采用的模型結構與超參數大小均相同,區別僅在于輸入的狀態是否包含環境高程信息.隨著訓練輪次的增加,動作分布的標準差逐漸從1降低到0.1后固定不變,智能體選擇動作的隨機性也趨于穩定.
表1訓練參數設置

訓練時無人機首先會隨機初始化在備選的飛行點之一,其初始朝向也是隨機的,在初始化的同時會獲得視野半徑內的環境信息.每輪次訓練的時間采樣步長為1000步,當無人機探索步數達到1000步時將結束該回合的探索,若在達到1000步前無人機與障礙物相撞則會導致提前結束探索.
3.2 評價指標
實驗開展后需要通過不同的性能指標來對模型表現進行評價,本文針對強化學習訓練結果、模型測試等方面設置以下評價指標:
(1)探索總獎勵 Riotal .智能體在每步的探索過程中與環境交互會產生獎勵反饋,累積幕內所有步所獲獎勵之和作為該幕的探索總獎勵.探索總獎勵的數值大小直接映射了無人機在地圖探索任務中的覆蓋深度,而其動態變化的獎勵曲線則直觀揭示了模型在學習過程中的演進軌跡與性能提升.
(2)探索率 Se .即探索面積比,代表了在每幕結束時無人機已探明的地圖面積占全局地圖中所有可探索面積的百分比值,計算方式如式(14)所示:

式(14)中: Sexplore 表示已探索的地圖面積,由探索狀態地圖計算獲得, Stotal 為指定海拔下全局理論可供探索的面積,由全局地圖計算獲得.
(3)路徑長度 L .本文中無人機采取恒定飛行速度,無人機飛行路徑長度正比于探索步數,將探索步數做為路徑長度衡量單位,路徑長度越長代表無人探索行為持續越久,因撞到障礙物而結束探索的情況越少.
(4)探索效率 Ee .采用無人機在單位路徑長度下探索面積的大小進行定義,表征了無人機的探索地圖未知區域的能力,表達式如下:

3.3訓練結果與分析
二維切片模型、三維模型和三維縮放模型均采用同一隨機種子下生成的非結構化地圖,未知區域歸一化后的值為0.600,邊界值為1.000.二維切片模型和三維模型無人機起始點飛行高度歸一化后的高度閾值為0.550,即無人機僅能獲取 0~0.550 的地圖高程數據.三維縮放模型是在三維模型的基礎上對無人機獲取到的高程數據進行縮放處理得到的,本文三維縮放模型將 0~0.550 的數據線性壓縮至 0~0.200 的范圍內再交由網絡訓練,用于觀察模型性能的改變.在面對高維的訓練數據時,強化學習訓練過程并不平穩,為了減少獎勵曲線抖動對趨勢觀察的影響,采用了指數滑動平均(EMA)來對曲線進行平滑處理,同時為了減少訓練過程中的偶然性帶來的影響,獎勵曲線圖均采取10次獨立實驗后的均值來進行繪制,總獎勵曲線圖如圖8所示.
圖8訓練總探索獎勵對比結果

每組實驗訓練的總步數為 2×107 步,獨立運行需8個小時.圖中藍線代表二維切片模型(PPO-2D)在訓練過程中的總獎勵曲線,綠線代表三維模型(PPO-3D)在訓練過程中的總獎勵曲線,紅線代表三維縮放模型(PPO-3DZoom)在訓練過程中的總獎勵曲線,各獎勵曲線上下的陰影部分代表著曲線在對應step下的標準差,三種模型的獎勵曲線在 7×106 步附近交匯.
三維模型相較于二維切片模型具有更多的高程信息可以用于決策,到達交匯點前三維縮放模型獎勵的增長速度最快.在 7×106 步后的訓練過程中,智能體已經能通過具有高程信息的復雜狀態做出更有利于獎勵獲取的決策,因此三維模型的獎勵值依次高于三維縮放模型和二維切片模型.此外,在訓練的中后期三維模型相較于二維切片模型和三維縮放模型具有更高的標準差,這表明高程信息為模型增添了探索高額獎勵的潛力,但也加大了模型性能表現的波動.高程信息的引入使得三維模型與三維縮放模型在最終收斂獎勵值、獎勵收斂速度等方面的不同程度上優于二維模型.
3.4測試結果與分析
選取訓練過程中各類別下性能最優的模型在同一個訓練地圖模型中分別獨立測試50次,測試模式下單幕最大探索步數設置為10000步,訓練地圖的全局地圖與測試過程中各模型的探索面積最大的探索地圖如圖9所示.二維探索地圖中淺灰色圓點為起點,黑色圓點為終點,三維探索地圖中紫色圓點為起點,紅色圓點為終點.
圖9訓練地圖下不同模型測試效果圖
圖10 不同地圖探索率對比圖

根據測試數據,二維切片模型、三維模型、三維縮放模型已探索面積占全局地圖可探索面積的最大探索率分別為 76.38%.77.18%.78.76% .實驗結果表明,三維模型和三維縮放模型在探索步數固定的情況下比二維模型具有更高的探索上限.在二維模型探索地圖中,部分地形下無人機探索軌跡的重合度較高,對于已探明的區域仍會重復上一次探索的路徑.三維模型和三維縮放模型的軌跡的重復性較低,不容易陷入局部最優.
為了驗證模型的泛化性能,將三種模型各自分別置入三個不同隨機種子下生成的測試地圖進行測試,同樣設置單幕最大探索步數為10000步獨立測試50次.記錄測試過程中完整探索的數據,與在同個訓練地圖上的表現進行對比,訓練地圖和測試地圖上的探索率對比圖如圖10所示.
各模型均在訓練地圖上獲得了超過了 50% 的地圖探索率,其中二維切片模型、三維模型、三維縮放模型探索率分別為 56.64%.57.33% 59.08% .三維模型和三維縮放模型相較于二維切片模型在訓練地圖上的測試結果分別提高了0.69和2.44個百分點.在三個測試地圖上,二維切片模型、三維模型、三維縮放模型的平均探索率分別為 29.29%.51.43%.39.75% ,三維模型和三維縮放模型相較于二維切片模型在測試地圖上的探索率分別提高了22.14和10.46個百分點.三維模型和三維縮放模型在測試地圖中的探索率均高于二維切片模型,可見引入了高程信息后的模型性能獲得了提高,在執行探索步長較長的任務時,三維模型和三維縮放模型的優勢更為顯著.
路徑長度對比圖如圖11所示.各模型在訓練地圖上的路徑長度更長,二維切片模型、三維模型、三維縮放模型的路徑長度分別為9150.56、8827.40、9717.20.結合探索率對比圖中的數據來看,在保持較高探索率的前提下,三維模型的探索效率高于二維切片模型.在三個測試地圖上,二維切片模型、三維模型、三維縮放模型的平均路徑長度分別為5475.50、6842.46、7604.73,三維模型和三維縮放模型的路徑長度相較于二維切片模型的路徑長度在測試地圖上的測試結果分別增長了1366.93和2129.20.
3.5 真實地形檢驗
為了檢驗模型在現實世界中的可行性,使用真實地形的DEM文件進行實驗驗證.測試地貌取自云南省曲靖市羅平縣南盤江流域附近的山地地形,地理位置范圍為北緯24.53度到北緯24.65度,東經104.39度到東經104.51度,DEM數據信息源自地理空間數據云,采用的是GDEMV330M分辨率數字高程數據,山地的數字三維景觀以及本文模型在其中的探測情況如圖12所示.

與訓練時構造的復雜地形相比,真實山地地形結構上相對簡單,但山體整體存在一定坡度,因此進行切片截取后聯通的可飛行區域總面積較小,檢驗時相應適當減小了單幕最大探索步數.測試結果表明,本文所提模型在3000步內就能完成對可行域 76.48% 的探索覆蓋,可見模型具有良好的泛化性能與實用性,移植到真機后將有助于解決現實場景中的復雜問題.
4結論
針對固定翼無人機在復雜三維非結構化環境下的自主探索問題,為了提高無人機在未知環境的探索率和探索效率,本文提出了一種面向三維非結構環境自主探索的強化學習無人機航跡規劃方法,并使用柏林噪聲自主構建了高復雜度的三維非結構化地形環境用于訓練與測試.
實驗結果表明,與不具備高程信息處理能力的二維切片模型相比,本文所提的三維模型和對高程值進行縮放的三維縮放模型在測試地圖上的探索率上分別提升了 22.14% 和 10.46% ,探索路徑長度分別增長了1366.93和2129.20.
因此,本文所提模型提高了無人機在復雜三維非結構化環境進行自主探索的探索力和魯棒性,其泛化性和探索效率也比二維切片模型更強,并通過了真實環境地形的測試實驗,在當今人工智能技術快速發展的時代具有廣闊的應用前景.
參考文獻
[1]WangNan,Li Xiang,ZhangKanghua,etal.A survey on path planning for autonomous ground vehicles in unstructuredenvironments[J].Machines,2024,12(1):31.
[2].Ginerica Cosmin,Zaha Mihai,Floroian Laura,et al.A Vision dynamics learning approach to robotic navigation in unstructured environments[J].Robotics,2024,13(1):15.
[3]Tadic Snezana,KrsticMladen,VeljovicMilos,etal.Riskanalysis of theuse of drones in city logisticsJ.Mathematics,2024,12(8):1250.
[4]安城安,周思達.基于改進多智能體PPO的多無人機協同 探索方法[J].電光與控制,2024,31(1):51-56.
[5]王樂,齊堯,何濱兵,等.機器人自主探索算法綜述 [J].計算機應用,2023,43(S1):314-322.
[6]李波,黃晶益,萬開方,等.基于深度強化學習的無人機 系統應用研究綜述[J].戰術導彈技術,2023(1):58-68.
[7]ZhangLijuan,Peng Jiabin,Yi Weiguo,etal.A state-decomposition DDPG algorithm for UAV autonomous navigation in 3-D complex environments[J].IEEE Internet of ThingsJournal,2023,11(6):10 778-10 790.
[8]Liu X,Tan Y.Feudal latent space exploration for coordinated multi-agent reinforcementlearning[J].IEEE Transactions on Neural Networks and Learning Systems,2023, 34(10):7 775-7 783.
[9]Hao J,Yang T,Tang H,et al.Exploration in deep reinforcement learning:From single-agent to multiagent domain[J]. IEEE Transactions on Neural Networks and Learning Systems,2024,35(7):8 762-8 782.
[10]盧錦澎,梁宏斌.基于深度Q網絡的機器人路徑規劃研 究綜述[J].傳感器與微系統,2024,43(6):1-5.
[11]馬海杰,薛安虎.基于深度注意力Q網絡的機器人路徑 規劃研究[J].傳感器與微系統,2024,43(12):66-70,75.
[12]Bouhamed Omar,GhazzaiHakim,BesbesHichem,etal. AutonomousUAV navigation:A DDPG-based deepreinforcement learning approach[C]//2o2o IEEE International Symposium on circuits and systems (ISCAS).Seville,Spain:IEEE,2020:1-5.
[13]Peake Ashley,Mc Calmon Joe,Zhang Yixin,etal.Deep reinforcement learning for adaptive exploration of unknown environments[C]// 2o21 International Conference on Unmanned Aircraft Systems (ICUAS).Athens, Greece:IEEE,2021:265-274.
[14]Li Haoran,ZhangQichao,Zhao Dongbin.Deepreinforcement learning-based automatic exploration for navigation in un known environment[J].IEEE Transactions on Neural NetworksandLearning Systems,2019,31(6):2 064-2076.
[15]Perlin Ken.An image synthesizer[J].ACM Siggraph ComputerGraphics,1985,19(3):287-296.
[16]黃書嶠,伍錫如,黃國明.基于動態視場的深度啟發改進 3維 A*"算法[J].機器人,2024,46(5):513-523.
[17]唐嘉寧,楊昕,周思達,等.未知環境下改進DDQN的 無人機探索航跡規劃研究[J].電光與控制,2023,30(4): 23-27,33.