999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于IMM-PPO的無人機機動目標追蹤

2022-03-20 09:06:46成旭明叢玉華歐陽權王志勝
彈箭與制導學報 2022年6期
關鍵詞:環境策略

成旭明,叢玉華,歐陽權,王志勝

(南京航空航天大學自動化學院,南京 210016)

0 引言

隨著航空、軍事領域的發展,空中偵察追逃、災后搜索救援等任務的危險和損耗與日俱增。無人機因其高機動性、低成本性,在這些任務中得到廣泛的應用[1-2]。如何使無人機在復雜環境下具備自主避障導航與跟蹤機動目標的能力是在實際應用中需要解決的難題,為此國內外學者進行了深入研究。

智能體在復雜環境中進行自主避障跟蹤可以視為一類具有動態目標點的路徑規劃問題,在常見的路徑規劃問題上,Duchoň等[3]通過生成詳細網格地圖為智能體提供全局信息,采用改進的A*算法完成路徑規劃。Huang等[4]采用RRT算法在環境不確定性下規劃智能體軌跡。Li等[5]將規劃問題轉換為目標優化問題,并提出了一種基于牛頓引力的啟發式算法進行搜索尋優。上述的路徑規劃策略在全局規劃上具備一定的優勢,但對智能體模型與地圖環境的信息有較高的要求。

隨著計算機技術與人工智能的發展,一些研究者嘗試將強化學習應用于無人機導航任務中,取得了不錯的成果。Q-learning是強化學習中一種較為常用的算法,能夠通過判斷長期折扣獎勵評估智能體的學習優劣[6]。Zhao等[7]設計了基于Q-learning的自適應路徑探索與避障策略,用以無人機導航。Chao等[8]改進了Q-learning的動作選擇策略并采用新的Q值初始化方法,使無人機具有更強的探索最優路徑的能力。深度神經網絡以其強大的函數逼近擬合能力,與強化學習結合衍生出許多改進算法,Jiang等[9]將經驗回放思想引入DQN提出了MP-Dueling DQN,相比DQN在無人機避障與跟蹤任務上具有更快的收斂速度與更強的泛化性。Guo等[10]采用分布式深度強化學習框架,利用LSTM神經網絡處理時序問題的能力,提出了分層RQN的學習方法,能夠在高動態環境中完成導航。以上方法雖然具備完成導航任務的能力,但也存在智能體動作空間離散的局限性。與這些方法中的離散動作空間不同,在實際應用中,無人機的動作空間往往是連續的,在現有的研究中,Li等[11-12]基于連續動作空間的DDPG算法框架,改進了演員-評價者(Actor-Critic)網絡結構,使其對歷史觀測具備更好的擬合能力,對地面目標跟蹤性能更優。在DDPG探索中引入混合噪聲,對飛行任務解構并基于遷移學習的思想進行預訓練權重,在面對不確定環境時具有良好的泛化性。以上研究通過強化學習訓練決策網絡,能夠對移動目標進行有效避障跟蹤,但在面對具有混合運動模型的機動目標時,缺少了對目標的狀態估計步驟,在實際任務中具有較大的偏差。

針對上述缺陷,提出一種基于交互式多模型濾波(IMM)和近端策略優化(PPO)的機動目標追蹤跟隨策略,定義了以無人機運動模型為基礎的動作空間以及用來表示環境信息的狀態空間,根據追蹤時間、跟蹤性能以及避障約束構建獎懲函數,設計避障跟蹤決策網絡并進行訓練。根據仿真實驗分析,提出的方法相比傳統算法在動態環境中具備更優秀的追蹤避障及跟蹤性能。

1 問題描述

1.1 無人機運動模型

研究無人機在三維空間中的動態目標追蹤任務,假設能夠通過自動駕駛儀使無人機運動在某一固定高度,無人機在二維坐標系中滿足如下的連續運動方程:

(1)

式中:x(t),y(t)為t時刻無人機在二維坐標系中的位置;v(t)表示t時刻無人機朝向方向的線速度;ψ(t),w(t)分別為t時刻無人機的偏航角與偏航角速度。將運動方程離散化可以得到從t時刻到(t+1)時刻的無人機狀態更新方程為:

(2)

式中Δt為離散時間間隔。

1.2 任務目標及約束

無人機在復雜障礙物環境中追蹤并跟隨移動目標需要綜合考慮目標跟蹤性能與追蹤耗時,同時需要滿足任務過程中的避障約束。

1.2.1 目標跟蹤性能

對機動目標的跟蹤性能通常可以用無人機與目標的距離表示,提升跟蹤性能即縮短無人機在單位時間內與目標的距離。跟蹤性能對應的目標函數可以表示為:

(3)

1.2.2 追蹤耗時

在無人機實際執行目標跟蹤任務時,會存在起始位置與目標起始位置相距較大的問題。在這種情況下,無人機需要自主規劃路徑以快速追蹤并逼近機動目標,因此縮短無人機追蹤目標的時間是需要考慮的另一個重要目標。追蹤時間的待優化目標函數可以表示為:

minJ2=NΔt

(4)

式中N為無人機到達目標跟蹤范圍內的采樣步數。

1.2.3 避障約束

在無人機的飛行域內存在大小、方位均未知的靜止障礙物,可視為移動障礙物的敵方無人機,追蹤無人機在感知到敵方無人機后能夠獲取其最大半徑及當前時刻的狀態信息。在復雜障礙物環境下,考慮到算法學習的收斂性,將實際觀測窗信息進行處理,壓縮至9條激光束,且每個激光束的相隔角度為22.5°,如圖1所示。

圖1 基于激光測距的無人機障礙物檢測

圖中:vuav為無人機當前的速度矢量;{di|d1,d2,…,dn}為第i個從無人機出發的激光束測得的與障礙物的距離,且di≤dmax。任務環境中存在靜止障礙與運動狀態已知的移動障礙,若在無人機導航過程中發生碰撞,則任務失敗,因此無人機需要與障礙物保持合理安全的距離,約束條件為:

min(d1,d2,…,dn)>rsafe

(5)

式中rsafe為安全避障距離。

2 基于IMM-PPO的無人機避障跟蹤

為了實現復雜環境下對機動目標更準確的跟蹤,將IMM與PPO算法結合,對機動目標進行多模型融合狀態估計,并將融合輸出結合其他觀測量構建狀態空間,作為強化學習算法Actor-Critic網絡的輸入,訓練無人機自主跟蹤決策模型。作為一種基于策略的算法,PPO算法解決了傳統策略梯度算法收斂依賴步長選擇的問題并提高了經驗利用率,使訓練過程能夠更快收斂。

2.1 跟蹤目標狀態估計

卡爾曼濾波常用于運動目標的狀態估計,而在復雜環境下,機動目標的運動模型往往不是單一的,基于IMM的濾波方法能夠考慮多個運動模型的轉移概率,通過馬爾可夫轉移矩陣完成模型概率更新,從而得到多個濾波器的融合輸出估計。IMM的優化過程如圖2所示。

圖2 交互式多模型濾波融合估計

定義模型間的概率轉移矩陣P為:

(6)

其中pij(i=1,2,…,n;j=1,2,…,n)代表由模型i轉換到模型j的概率,根據轉移概率及概率更新計算模型混合概率為:

(7)

(8)

(9)

模型j的概率更新采用最大似然函數法,選取似然函數為:

(10)

式中vj(k),Sj(k)分別為濾波殘差與其協方差,由對應于模型j的濾波器輸出得到,概率更新方式為:

(11)

(12)

至此完成了k時刻運動目標的狀態估計。

2.2 基于強化學習的目標跟蹤框架

2.2.1 動作空間和狀態空間設計

參照1.1節中無人機運動模型,以無人機朝向方向的線速度v與偏航角速度w作為控制量輸入,強化學習動作空間可表示為:

A=(v,w)

(13)

狀態空間從3個角度構建:1)無人機自身信息;2)對障礙物和動態威脅的觀測量;3)機動目標的狀態估計。在強化學習算法中,為了消除狀態信息的維度不同對訓練效果造成的影響,對狀態空間St=(Sb,So,Star)中不同量綱的分量進行歸一化處理,分別表示為:

(14)

(15)

(16)

其中:(xuav,yuav)為當前時間步下無人機于坐標系下的位置坐標;xmax,ymax分別為矩形飛行域的長、寬;ψ為無人機偏航角;vmax為無人機最大允許線速度;Svo表示碰撞域的狀態信息;θ表示當前無人機和目標的連線與坐標系x軸所成夾角。無人機追蹤機動目標的過程如圖3所示。

圖3 無人機追蹤機動目標示意圖

2.2.2 獎懲函數設計

針對無人機自主避障跟蹤的獎懲函數設計建立在指標函數與約束條件的基礎之上。一種常用的設計思路是采用稀疏獎懲,即智能體僅在回合結束的情況下得到獎懲,這就需要智能體以不加引導的隨機動作不斷探索環境以獲得獎懲,會導致算法的收斂速度降低,并且容易陷入局部最優解。因此在任務中,獎懲函數由稀疏獎懲與單步獎懲組成,稀疏獎懲僅在特定任務完成或回合結束時產生,單步獎懲則在智能體與環境的每一步交互后產生,旨在引導智能體更快地完成追蹤任務。

1)障礙物懲罰函數

根據狀態空間及避障約束條件設計障礙物懲罰函數,利用狀態信息{di|d1,d2,…,dn}構造虛擬斥力場的思想,在無人機接近障礙物時給以較大的懲罰,而在遠離障礙物時給以較小的懲罰,在未檢測到障礙物時懲罰為0,設置單步懲罰函數的數學形式為:

(17)

式中αso為障礙物懲罰系數。在面對具有避障功能的移動障礙物時,基于碰撞域提出一種考慮碰撞時間的懲罰函數設計方法。為了方便計算,將障礙物與無人機形狀簡化為其最小外接圓。如圖4所示,其中va,ra分別為無人機速度矢量和半徑,vb,rb分別為障礙物速度矢量和半徑。

圖4 無人機與移動障礙物示意圖

圖5 碰撞域示意圖

(18)

ACC=RCC⊕vb

(19)

根據碰撞域的數學形式,當無人機的線速度矢量處于碰撞域ACC內時,經過時間tc,智能體將與移動障礙物發生碰撞。基于預期碰撞時間的單步懲罰函數構造為:

(20)

ro=rso+rvo

(21)

此外,為了縮減訓練時間使其更快收斂,在無人機撞到障礙物或邊界時將得到稀疏懲罰:

(22)

2)快速追蹤獎勵函數

復雜環境下追蹤目標需要無人機以較短的時間完成避障導航并快速進入目標跟蹤范圍,因此在避障導航階段決策網絡需要提供較大的速度決策量,設置單步獎勵函數為:

(23)

rt=-αtkLk

(24)

rf=rv1+rt

(25)

此外,為了鼓勵無人機到達跟蹤范圍,在完成避障導航后,給以稀疏獎勵:

(26)

3)跟蹤性能獎勵函數

為了實現更精準的無人機地面目標跟蹤,需要使跟蹤階段的無人機具有與目標接近的速度,且在二維平面上無人機與目標的距離越小代表跟蹤性能越好。因此設置基于速度、距離和角度的獎懲函數分別為:

(27)

rL=αL(Lk-1-Lk)

(28)

(29)

rc=rv2+rL+ra

(30)

將以上獎懲函數按照重要性分配權重系數,則總獎懲函數的數學表達形式為:

r=woro+wfrf+wcrc+rdone1+rdone2

(31)

2.3 基于IMM-PPO的目標追蹤策略訓練

PPO算法采用了Actor-Critic網絡,這種網絡結構能夠同時進行值函數與策略函數學習,其中Actor學習策略函數,Critic學習策略的近似值函數。

圖6 Actor-Critic網絡

在Actor-Critic框架下的策略更新[13]可以表示為:

(32)

圖7 無人機導航跟蹤策略訓練框架

Actor網絡用于接收智能體與環境交互的狀態信息St=(Sbody,Sobs,Star),并輸出動作(v,w)的采樣Dt,Critic網絡通過對優勢函數的估計來評估策略的優劣。網絡權重及學習參數的更新本質上是學習關于(a,s)的策略函數,將待優化的導航跟蹤策略函數近似參數化:

Π(a|s)~Πθ(a,s)

(33)

式中:a為無人機動作(v,w);s為狀態信息St。通過策略梯度算法對策略參數進行基于梯度的優化[14],定義策略梯度估計為:

(34)

(35)

式中:VΠ(st)表示無人機在t時刻下的狀態st時采用策略Π的價值;Rt′表示在t′時刻智能體得到的獎勵;γ為獎勵折扣因子。無人機導航跟蹤策略更新的目的是尋找到一個優于原策略Πθ的Π′θ,以舊的策略Πθ與環境交互,將采集到的樣本用于更新策略Π′θ,為了防止新舊策略相差過大,使用一種截斷方式限制策略更新。因此采用優勢函數估計描述策略更新的目標函數表示為:

(36)

式中:Π′θ為新的策略,ε為超參數。clip()函數用來將新舊策略的比值限定在(1-ε)與(1+ε)之間,具體函數形式如圖8所示。

圖8 截斷函數示意圖

若在t時刻采取動作at的回報大于平均回報,即優勢函數為正,則增大該動作概率,反之減小該動作概率。

2.4 無人機目標追蹤策略網絡決策

對網絡權重參數訓練完成后,決策網絡將無人機與環境交互采集到的狀態信息St=(Sb,So,Star)=(s1,s2,…,sn)作為輸入,其中n為狀態空間維度。采用權重參數和偏置計算網絡輸入的加權和,并得到神經元的輸出,其表達式為:

(37)

圖9 決策神經網絡結構圖

3 仿真驗證

為驗證IMM-PPO算法在無人機追蹤任務上的有效性,進行仿真實驗。首先進行仿真環境的搭建以及參數設置,然后分析了策略訓練過程中強化學習算法的獎勵變化曲線,最后分別采用IMM-PPO算法與DWA算法進行無人機機動目標追蹤仿真實驗,比較兩種算法的性能。

3.1 仿真環境

3.2 基于IMM-PPO的無人機跟蹤策略訓練

采用IMM濾波算法對目標狀態進行估計,將估計值作為強化學習算法狀態空間的一部分進行無人機跟蹤策略訓練。訓練過程中的回報隨回合數變化如圖10所示。

圖10 獎勵變化曲線

從圖中可以看出,在訓練初始時刻,無人機在復雜環境中處于探索階段,得到的回合獎勵較少。在多個回合訓練后,無人機逐漸具備避障跟蹤能力,能夠與障礙物保持安全距離并縮短與目標之間的最小距離,回報呈逐漸上升趨勢。在900回合后無人機避障跟蹤決策網絡權重趨于收斂,表明無人機能夠在獎勵函數的指引下學習到最優的跟蹤策略。

3.3 與傳統DWA算法對比

為了突出IMM-PPO算法在障礙物環境中追蹤機動目標的優越性,與傳統DWA算法作比較,設置兩種算法下無人機具備相同的初始狀態以及約束條件,在同樣的環境中追蹤運動模式相同的機動目標。

3.3.1 快速性對比

針對單位時間決策網絡的動作輸出,給出IMM-PPO算法和DWA算法下的無人機避障導航的過程圖如圖11所示。

圖11 避障導航過程圖

從圖中可以看出,IMM-PPO算法與DWA算法均能指引無人機躲避障礙并到達目標跟蹤范圍。在t=16 s時,IMM-PPO算法下的無人機檢測到障礙物并調整偏航角,在獎勵函數的引導下以較快的速度躲避障礙并飛往下一個跟蹤點,如圖11(a)所示。在t=21 s時DWA算法下的無人機檢測到障礙物并判斷后續k步的路徑指標函數,選擇最優的避障路徑,并在t=31 s時完成避障,如圖11(d)所示。從t=36 s至t=42 s,IMM-PPO決策網絡根據環境信息預測的碰撞時間,結合快速追蹤的獎勵函數,調整輸出的動作,使無人機能夠快速且以較低代價遠離碰撞域,如圖11(e)、圖11(f)所示。t=50 s時,IMM-PPO算法下的無人機到達機動目標的跟蹤范圍并開始執行跟蹤任務,而在t=79 s時,DWA算法指導的無人機才進入目標的跟蹤范圍,如圖11(g)、圖11(h)所示。兩種算法下無人機完成追蹤避障并進入目標跟蹤范圍的路徑長度如表1所示。

表1 IMM-PPO與DWA避障導航路徑長度比較

3.3.2 跟蹤性能對比

為了體現IMM-PPO在跟蹤性能方面的優勢,無人機飛行過程中的速度控制量和目標相對距離變化曲線及跟蹤任務軌跡分別如圖12~圖14所示。

圖12 IMM-PPO,DWA速度變化圖

圖13 無人機與目標相對距離圖

圖14 機動目標跟蹤任務軌跡圖

從圖12可以看出,在任務起始時刻,IMM-PPO算法與DWA算法都輸出較大的速度控制量,從而使無人機能夠快速接近目標,在檢測到障礙物并進入避障任務環節時,IMM-PPO算法的速度控制量仍舊穩定在最大允許速度附近,而DWA算法下無人機的速度控制量具有較大振幅。當任務進行到跟蹤階段,即無人機到達機動目標的跟蹤范圍內時,IMM-PPO策略網絡輸出一個接近機動目標真實速度的速度控制量進行跟蹤,并且直到仿真結束均能夠穩定在目標速度附近;而DWA算法下的無人機速度振蕩明顯,無法達到穩定在目標速度附近的跟蹤效果。圖13描述了任務過程中無人機與目標相對位置變化,可以看出,從t=50 s至t=149 s,IMM-PPO決策網絡能夠使無人機以平穩的速度穩定在跟蹤范圍內,相比于DWA算法,IMM-PPO算法下的無人機具有更多的有效跟蹤步數。圖14展示了從初始時刻到最大時間步數的無人機運動軌跡,從圖中可以看出,IMM-PPO算法下的無人機具有更加平滑的運動軌跡,DWA算法犧牲了部分跟蹤性能而進行避障,軌跡具有較明顯的突變。根據以上結果分析,基于IMM-PPO算法的無人機在線避障跟蹤策略明顯具有更好的跟蹤性能。

3.4 強化學習在線跟蹤策略

為了進一步體現IMM-PPO的在線感知避障跟蹤能力,改變環境中障礙物的大小,分別設置無人機與移動障礙物位于與上述仿真不同的初始位置(110 m,10 m),(182 m,204 m)并且移動障礙物具有不同的避障軌跡,仿真結果如圖15所示。

由圖15可以得到,無人機能夠在無碰撞的情況下,在41 s時到達目標跟蹤范圍執行跟蹤任務并始終保持與目標的相對距離在20 m內。由此可以看出,在環境改變的情況下,訓練后的無人機避障跟蹤策略網絡仍然能夠指導無人機進行靜止與移動障礙躲避并跟蹤機動目標。

圖15 不同環境下的無人機在線避障跟蹤仿真

總之,傳統的避障算法DWA能夠通過指標函數選取最優的無人機控制量(v,w),但在面對復雜障礙物時將得到較大的減速度,從而無法保持較高的速度追蹤機動目標,延長了無人機導航的路徑長度與耗時,在執行跟蹤任務時無法保持與目標接近的速度。而文中所提算法能夠在線自適應調整動作,根據無人機與移動障礙的預期碰撞時間避免其在追蹤過程中陷入碰撞域內,從而快速躲避障礙物并到達目標跟蹤范圍,在跟蹤目標時速度能夠穩定在目標速度附近,更適用于無人機機動目標跟蹤場景。

4 結論

針對復雜環境下無人機機動目標追蹤的問題,提出一種基于IMM-PPO的目標追蹤策略,首先采用交互式濾波算法對機動模型進行濾波估計,接著根據優化目標及約束設計獎懲函數,并對策略網絡權重進行訓練,訓練好的神經網絡根據智能體與環境交互得到的信息更新輸出動作的概率分布,在避開靜止與移動障礙物的前提下在線完成快速導航并對機動目標進行穩定跟蹤。從仿真結果來看,相較于傳統避障算法DWA,文中所提算法能夠兼顧目標跟蹤過程的安全性、快速性并且能夠保持更好的跟蹤性能,在環境改變時也能夠執行目標追蹤任務,具備一定的泛化性。

猜你喜歡
環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
我說你做講策略
環境
孕期遠離容易致畸的環境
主站蜘蛛池模板: 日韩视频福利| 亚洲永久免费网站| 亚洲熟女中文字幕男人总站| 鲁鲁鲁爽爽爽在线视频观看| 亚洲天堂久久久| 亚洲人成影院在线观看| 男女精品视频| 日韩a在线观看免费观看| 国产日韩欧美中文| 99精品一区二区免费视频| 国产美女91呻吟求| 91黄视频在线观看| 伊人AV天堂| 国产女人爽到高潮的免费视频| 中文精品久久久久国产网址| 无码精品国产dvd在线观看9久| 久久精品人人做人人爽97| 中文无码精品a∨在线观看| 激情爆乳一区二区| 亚洲有码在线播放| 国产91麻豆免费观看| 青青国产视频| 四虎永久在线精品影院| 在线欧美国产| 91久久偷偷做嫩草影院精品| 亚洲成人免费在线| 久草美女视频| 永久免费精品视频| 久久99久久无码毛片一区二区| 在线观看免费国产| 亚洲欧洲自拍拍偷午夜色无码| 国产精品一区二区在线播放| 朝桐光一区二区| 欧美国产在线看| 在线播放国产99re| 欧美精品v| 久久一本精品久久久ー99| 黑人巨大精品欧美一区二区区| 久久婷婷人人澡人人爱91| 国产精品流白浆在线观看| 制服丝袜在线视频香蕉| 999精品在线视频| 亚洲狼网站狼狼鲁亚洲下载| 天天综合天天综合| 青青草91视频| 综合色88| 国产女人在线| 亚洲成人77777| 伊人无码视屏| 亚洲高清在线播放| 国产日韩精品一区在线不卡| 欧美啪啪网| 四虎永久免费地址| 国产激情影院| 国产91视频观看| 亚洲美女操| 国产区网址| 亚洲精品国产精品乱码不卞| 污污网站在线观看| 国产视频你懂得| 亚洲精品无码在线播放网站| 亚洲欧美激情另类| 青草免费在线观看| 亚洲天堂区| 粗大猛烈进出高潮视频无码| 毛片大全免费观看| 国产自在线拍| 色精品视频| 欧美国产精品不卡在线观看| 欧洲亚洲一区| 9丨情侣偷在线精品国产| 欧美在线中文字幕| 色国产视频| 综合色亚洲| 国产网站免费| AV色爱天堂网| 欧美日本在线观看| 99re在线免费视频| 亚洲第一中文字幕| 亚洲婷婷丁香| 欧美激情视频一区二区三区免费| 国模粉嫩小泬视频在线观看 |