999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PER-IDQN的多無人飛行器圍捕研究

2023-10-10 07:09:10楊志鵬陳子浩李金亮
兵器裝備工程學報 2023年9期
關鍵詞:智能環境

楊志鵬,李 波,林 松,陳子浩,曾 長,李金亮

(1.湖北航天技術研究院總體設計所,武漢 430040;2.西北工業大學 電子信息學院,西安 710114;3.中國電子科技集團公司第二十九研究所,成都 610036)

0 引言

近年來,無人飛行器在搜索救援、地面勘探、農業種植、特殊物流等諸多領域取得了不錯的成績,也開始在軍事領域中大放異彩,出色的完成了許多有人機難以完成的任務[1-3]。隨著無人飛行器性能的提升,無人飛行器將在未來空戰中扮演更加重要的角色,其在空戰上發揮的作用將不單單是戰場偵查與監視,也應該包括執行對敵機動追蹤、決策博弈任務,逐步完成從常規的偵察平臺到作戰平臺的轉換[4]。

由于單體飛行器能力有限,難以完成復雜的任務[5]。因此,通過選擇多飛行器組成集群,共同完成任務,能夠有效克服飛行器的能力限制,提高任務執行效率[6]。為在空戰中取得優勢,提升無人飛行器集群智能化水平,讓飛行器編隊能夠根據態勢環境而自動進行對目標圍捕成為主要的研究方向[7]。

現有的多無人飛行器圍捕相關研究大部分基于分布式控制,即通過將集群圍捕問題轉換為一致性問題,然后設計分布式算法使得集群向目標位置接近和收斂,實現對敵目標的包圍捕獲效果。黃天云等[8]提出了一種基于松散偏好規則的自組織方法,通過分解圍捕行為,利用松散偏好規則使個體機器人自發形成理想的圍捕隊形,并運用Lyapunov穩定性定理證明系統的穩定性。李瑞珍等[9]提出了一種基于動態圍捕點的多機器人協同圍捕策略。根據目標位置設置動態圍捕點,并利用任務分配方法為圍捕機器人分配最佳圍捕點,綜合考慮圍捕路徑損耗和包圍效果,計算圍捕機器人的最優航向角,實現集群對目標的圍捕。張子迎等[10]提出一種多層環狀伏擊圍捕模型,并依據能量均衡原則,對系統能量消耗進行平衡。然而,這類圍捕方法是一種程序式的圍捕,換言之,盡管該類方法不用人為手動控制,但面對環境變化和突發狀況時,需要消耗大量資源重新對外界環境模型進行建模和解算,大大影響飛行器決策的實時性和有效性,難以應用于未知復雜環境下的多飛行器圍捕任務中[11]。

為了實現多無人飛行器的協同自主決策,構建一個合理有效的多無人飛行器控制模型是有意義的[12]。深度強化學習結合了深度學習的環境感知能力和強化學習的決策控制能力,被廣泛運用于智能體的智能控制任務中[13]。各飛行器利用深度神經網絡對數據進行提取和特征學習,進而通過和環境的交互訓練,不斷優化策略,實現大系統下的多無人飛行器協同決策控制,完成對目標的有效圍捕。

本文中所進行的多無人飛行器圍捕研究代表了無人飛行器在軍事領域中的潛在應用之一。通過提出一種基于深度強化學習PER-IDQN算法的新方法,采用離線學習對神經網絡進行訓練,將訓練時產生的數據存儲于經驗池中,為神經網絡的優化提供學習樣本[14]。并結合多飛行器機動控制和協同圍捕任務要求,對飛行器動作和狀態進行設計,實現對多無人飛行器的智能決策控制。最后,結合仿真結果,對多無人飛行器圍捕任務研究進行了進一步的分析說明。

1 多無人飛行器圍捕任務

1.1 無人飛行器飛行場景

由于無人飛行器底層控制中涉及到的變量因素太多,較為復雜[15]。為重點關注二維環境下飛行器高層決策控制,本研究假設無人飛行器為定高飛行,以對飛行器控制模型和飛行場景進行簡化。具體的,采用柵格法對無人飛行器飛行環境進行表示和限制,其中柵格邊長為c,環境長度為L,寬度為W,則環境中包含的柵格數量為LW。

在無人飛行器飛行過程中,可能面臨實體障礙物或雷達干擾等影響。因此,為了訓練無人飛行器對威脅區的規避能力,我們在環境中引入了障礙物作為干擾,各無人飛行器需要在機動飛行過程中,完成對威脅區的規避,最終實現對目標的圍捕任務。圖1描述了柵格化環境下的飛行場景。

圖1 無人飛行器飛行場景

1.2 圍捕任務定義

本研究計劃采用的場景是多對單的圍捕場景。在圍捕任務中,包含信息獲取、軌跡預測、包圍攔截、合圍捕獲等環節和戰術,各飛行器需協調自身行為和團隊策略,實現對目標的最終合圍。在二維受限制的場景中,圍捕飛行器和目標點的位置隨機給出,通過設定圍捕飛行器數量、飛行方向、飛行速度、探測半徑等相關參數,對雙方機動能力進行設定約束??紤]到硬件能力和資源有限,圍捕飛行器編隊需要在一定時間內完成對目標的捕獲,目標可以制定有效的機動逃避策略與圍捕飛行器完成對抗。各飛行器在機動運動時,需要對環境中的障礙物進行規避。當目標處于每個圍捕飛行器的探測范圍內,視為圍捕成功。

2 深度強化學習算法

2.1 強化學習

強化學習是一種用于實現智能體自主決策控制的有效方法。在強化學習的過程中,智能體每一時刻下回根據自身的狀態做出有效的動作,并獲得相應的獎勵。智能體通過與環境的不斷交互積累經驗,進而建立對周圍環境的知識,實現自主決策。

強化學習實現的基本過程如圖2所示。一般情況下,可以使用馬爾可夫決策過程(Markov Decision Process,MDP)來對基于強化學習的訓練過程進行描述。標準的MDP通常由五元組〈S,A,R,P,γ〉來表示,其中S表示在訓練過程中每個時間步長智能體與環境交互獲得的觀察狀態信息,即智能體的狀態量;每回合,智能體執行動作A并根據預先設計的獎勵函數獲得獎勵R;P表示當前狀態轉移到新狀態的概率分布。γ為折扣因子,用于平衡當前時刻獎勵和長遠獎勵對累積獎勵的影響。

圖2 強化學習理論框架

2.2 基于深度強化學習的IDQN算法

IDQN(Independent DQN)是一種結合Independent Q-Learning(IQL)和DQN的多智能體深度強化學習算法,用于解決多智能體環境中的協同決策問題。IDQN是一種集中式訓練,分布式執行的策略方法。對于每一個智能體i,在t時刻時,其執行的動作為

(1)

式中:εgreedy為貪婪系數,e服從區間(0,1)之間的均勻分布。智能體執行動作at后,會得到rt和st+1,將一組樣本[st,at,rt,st+1]存入到經驗回放隊列中。在滿足學習條件的t時刻,隨機從經驗回放隊列中批量提取m個樣本[si,ai,ri,si+1]作為訓練樣本。結合目標網絡θ′,可以計算得到IDQN的目標值Yt:

(2)

式中:γ為獎勵折扣因子。在當前t時刻,計算均方差損失函數L(θ)并更新在線網絡:

(3)

IDQN算法對目標網絡采用軟更新策略進行更新,用軟更新系數τ對目標網絡的更新幅度進行控制:

θ′=τθ+(1-τ)θ′

(4)

2.3 PER-IDQN算法

IDQN算法繼承了DQN算法的優勢,通過構建經驗回放機制,幫助智能體對學習數據和樣本進行收集,進而用于智能體訓練過程中。在訓練過程中,從經驗回放隊列里隨機抽取經驗樣本進行訓練,有效的打破了經驗樣本的相關性。然而,在該方法中,由于各個經驗樣本抽取的幾率是相同的,一些有益于智能體學習的經驗樣本在訓練過程中利用率較低,導致學習效率不高和收斂速度較慢等問題。

在IDQN算法基礎上,引入重要性采樣方法,提出一種新的PER-IDQN算法,既保證能夠對高優先級的樣本進行高效利用,提升智能體學習效率;又可以使不同樣本對梯度下降的影響是相同的。針對多智能體無人飛行器系統中,對于序號為i的飛行器,其TD-error可以表示為

(5)

式中:TD-error表示期望值與當前Q值之間的差值。可以看出,TD-error越大,表示計算出的期望值與當前Q值之間差距較大,這意味著當前時刻智能體距離期望狀態具有較大的差距,需要重點對該樣本進行學習。具體地,引入重要性采樣的權重系數wj,設定新的損失函數為

(6)

式中:重要性采樣的權重系數wj為

(7)

式中:超參數β用于調節重要性采樣對PER算法和模型收斂速率的影響。最終,結合了經驗優先回放策略的PER-IDQN算法流程如下表所示。

3 基于PER-IDQN算法的多無人飛行器圍捕設計

3.1 狀態空間

在柵格環境中,設定單元格長度為l,則每個柵格為l×l,代表一個飛行器在單位決策時刻下的活動空域。設定任務場景柵格數量為b×c,則任務場景寬度為b×l,記作lwidth;任務場景長度為c×l,記作llength。結合任務場景,設定無人飛行器狀態:

S=[Suav,Steamer,Sobser,Starget,Sfinish]

(8)

對于第i個圍捕飛行器,其狀態輸入包含圍捕飛行器自身位置信息Suavi和隊伍中其他飛行器信息Steameri,其中:

(9)

(10)

式中:xi、yi分別表示第i個圍捕飛行器的橫、縱坐標值。此外,圍捕飛行器的觀測信息Sobseri表示該圍捕飛行器對周邊九宮格位置的探索信息,具體可以表示為

(11)

此外,Stargeti表示目標相對我方飛行器i的相對距離和方位信息,可由我方預警機機載雷達或地面雷達系統進行探測獲取,進而利用通信設備傳遞給我方圍捕飛行器。圖3描述了圍捕飛行器與目標的位置關系。其中,紅色、黃色、綠色的星星表示我方圍捕飛行器,藍色圓表示移動目標,黑色矩形表示環境中的障礙物,di和θi分別表示我方圍捕飛行器與目標的距離和相對方位角,Stargeti可以表示為

圖3 圍捕飛行器與目標的位置關系

(12)

同時,設定子狀態量Sfinishi:

(13)

表示飛行器任務完成或失敗時受到的獎懲。

3.2 動作空間

本研究中,設定圍捕場景如下:任務中有一個逃跑防守者和3個圍捕進攻者,它們具有相反的目的:逃跑者要躲避圍捕,而圍捕者要捕獲逃跑者,并且圍捕者與逃跑者呈追擊關系。當3個圍捕者都距離逃跑目標一個單位距離(在本場景中為一個柵格),視作圍捕成功。在圍捕過程中,各圍捕者之間不能發生碰撞,切圍捕者需要對途中隨機運動的障礙物進行規避。設定動作集A為

A=[(0,-b),(0,b),(-b,0),(0,b)]

(14)

式中:b表示單元格的寬度;A表示飛行器可以執行的動作集,分別為向上運動,向下運動,向左運動,向右運動。

3.3 獎勵函數

為了保證各無人飛行器能夠安全飛行,并完成對目標的接近,最終實現合圍??紤]接近、避障等因素,設立獎勵函數為

R=σ1rpos+σ2rsafe+σ3reffi+σ4rtask

(15)

式中:rpos、rsafe、reffi、rtask分別表示位置獎勵、安全飛行獎勵、高效飛行獎勵、任務完成獎勵;σ1~4為各項獎勵相應的權重值,具體的:

rpos=(|xe-xi|+|ye-yi|)′-(|xe-xi|+|ye-yi|)

(16)

表示柵格環境下當前時刻和上一時刻飛行器到目標的距離之差。這意味著當飛行器靠近目標時,會獲得正獎勵。設置安全飛行器獎勵:

(17)

表示飛行器碰撞時會受到懲罰。設置高效飛行獎勵:

reffi=-nstay

(18)

式中:nstay表示飛行器在該柵格內停留的次數,停留次數約大,表明飛行器重復路徑越多,受到越大懲罰。此外,設置:

(19)

表示飛行器在完成圍捕任務時,受到的任務完成獎勵。最終,基于構建的狀態輸入和動作輸出模型,并利用設定的獎勵函數完成信號反饋,可完成對多無人飛行器的自適應感知和協同決策模型訓練。

4 仿真實驗與結果分析

4.1 仿真環境

為了驗證本文中所提出方法對多無人飛行器圍捕策略學習的有效性。仿真實驗在Windows 10、Python 3.6、Tensorflow 1.14.0的環境下對多無人飛行器進行訓練。基于Tkinter對訓練環境進行了建模和設計,設定環境中的無人飛行器個數為3,目標個數為1。設定每回合我方無人飛行器移動一步,目標無人飛行器移動3步,此時可視為目標機動性優于我方無人飛行器。

在本仿真實驗中,設定PER-IDQN人工神經網絡及其目標網絡的層數為4層,包含一層輸入層、兩層隱含層、一層輸出層,其中隱含層中包含的神經元個數為64。當滿足學習條件時,網絡采用ReLU激活函數方法進行訓練,每次批量從經驗池抽取的學習樣本個數為16。設定PER-IDQN網絡的學習率為0.01,并隨著訓練進行衰減,衰減頻率為每回合一次,衰減率為0.99。當神經網絡學習率衰減至0.000 1時,學習率不再衰減,此時訓練仍繼續進行。此外,設定獎勵函數衰減系數為0.95,目標網絡進行更新的軟更新系數為0.02。

4.2 實驗結果分析

在場景1中,設定環境大小為(80×40),逃跑方為雙步隨機運動,即追捕者每運動一次,逃跑者運動2次。同時,設立環境中的障礙物占環境總柵格數的比值為20%,障礙物移動率為10%。訓練過程中多無人飛行器獎勵曲線如圖4所示。其中,橫坐標表示訓練間隔的回合數,縱坐標表示每回合內飛行器獲得的獎勵合計值??梢钥闯?基于PER-IDQN算法的紅色曲線在1 235回合時開始逐漸提升,大約到2 350回合時開始收斂穩定,最終獎勵均值逐漸穩定在17.2左右,峰值為21.3?;贗DQN算法的藍色曲線在1 692回合開始提升,直到3 000回合后才逐漸開始收斂,最終獎勵均值收斂在14.6,波動較大。對比可以得出,引入經驗優先回放策略的PER-IDQN算法能夠提升飛行器學習效率。并且由于在訓練過程中,智能體有更高的幾率選擇更好的樣本進行學習,最終訓練得到的模型能夠適應動態變化的環境,能夠獲得較為穩定高額的回報。

圖4 多無人飛行器執行圍捕戰術獲得的獎勵之和曲線

場景1下訓練好的飛行器圍捕仿真測試,如圖5所示。其中,紅色矩形和淡紅色矩形分別表示1號追捕者和1號追捕者路徑;綠色矩形和淡綠色矩形分別表示2號追捕者和2號追捕者路徑;黃色矩形和淡黃色矩形分別表示3號追捕者和3號追捕者路徑;可以看出,在復雜的場景下,圍捕者可以自主生成圍攻避障策略。

圖5 場景1下的多無人飛行器圍捕仿真

為比較2種算法的有效性,通過設置障礙物覆蓋率以改變環境復雜程度,并統計1 000個測試回合下2種算法圍捕成功率表現如圖6所示。

圖6 不同環境下圍捕成功率

在障礙物覆蓋率為0.05、0.10、0.15時,2種算法下飛行器圍捕成功率都能保持在較高水平。當障礙物覆蓋率提升至0.20時,IDQN算法下的多無人機圍捕任務成功率降低至0.412,明顯低于PER-IDQN算法下的成功0.631,這意味著基于PER-IDQN算法的多無人機圍捕戰術模型具有更高的魯棒性。

為了模擬飛行器在低威脅、大邊界場景下的圍捕戰術,同時驗證模型的泛化能力,拓展120×120場景2,設定障礙物數量為720,障礙物移動率為20%。此外,設置圍捕飛行器與目標機動能力比為1∶5,即圍捕飛行器每運動一步,目標運動五步。

場景2下基于深度強化學習PER-IDQN算法的多無人飛行器圍捕仿真如圖7所示??梢钥吹?訓練好的模型在場景2中也有不錯的表現。盡管目標擁有更強的機動能力和速度,各追捕者一直朝向正確的方向運動并不斷逼近逃跑的目標。同時,各圍捕飛行器在運動過程中,通過對移動障礙物的自主規避,保證了安全飛行。最終,在仿真步長為345時,完成了對目標的圍捕任務。這表示經過深度強化學習算法訓練過的多無人飛行器圍捕模型,具有優秀的泛化性能,可以拓展在新的任務場景中使用。

5 結論

本文中針對多無人飛行器對機動目標的圍捕問題,提出了一種基于深度強化學習PER-IDQN的策略方法。包括多無人飛行器系統深度強化學習算法設計、多無人飛行器圍捕模型設計、多無人飛行器模型訓練,通過不同場景下的仿真測試結果,證實了本方法的合理性和有效性,并得出以下結論:

1) 在基于深度強化學習算法的多無人飛行器模型中,通過對多個飛行器狀態輸入、動作輸出、獎勵函數進行針對性設計,可以實現多無人飛行器協同機動決策,能夠完成自主避障,并最終實現對目標的圍捕任務。

2) 提出的PER-IDQN算法,能夠有效提升模型訓練效率和模型穩定性,構建的多無人飛行器圍捕模型,可移植至新的場景中進行使用,不受環境所限制,具有一定應用性。

猜你喜歡
智能環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
智能制造 反思與期望
環境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
主站蜘蛛池模板: 一本大道香蕉高清久久| 网久久综合| 亚洲精品久综合蜜| www欧美在线观看| 91精品国产丝袜| 成人亚洲视频| 91精品国产一区自在线拍| 欧美a网站| 米奇精品一区二区三区| 国产精品香蕉| 亚洲第一成网站| h网站在线播放| 久久久久亚洲精品成人网| 中文字幕日韩欧美| 超清无码一区二区三区| 日韩精品无码免费一区二区三区| 国产流白浆视频| 国产精品第页| 国产香蕉一区二区在线网站| 欧美在线视频a| 日本亚洲欧美在线| 久久久久国产精品免费免费不卡| 亚洲区一区| 青青草原国产av福利网站| 亚洲欧美一区二区三区图片| 国产系列在线| 国产精品开放后亚洲| 一级毛片网| 精品国产亚洲人成在线| 日韩欧美中文在线| 蝌蚪国产精品视频第一页| 国产乱人乱偷精品视频a人人澡| 亚洲国产日韩在线观看| 91亚瑟视频| 国产欧美日韩免费| 中文成人在线视频| 国产门事件在线| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲精品爱草草视频在线| 成人亚洲视频| 国产精品视频999| 夜夜操天天摸| 亚洲高清国产拍精品26u| 操国产美女| 国产性生大片免费观看性欧美| 色悠久久久| 欧美日韩国产精品va| 国产极品美女在线播放| 国产精品无码一区二区桃花视频| 亚洲精品视频免费观看| 欧美激情第一欧美在线| 亚洲成a人在线观看| 红杏AV在线无码| 青草午夜精品视频在线观看| 91精品网站| 国产欧美高清| 国产一级一级毛片永久| 久久人人妻人人爽人人卡片av| 欧美精品色视频| 国产精品主播| 亚洲欧美人成人让影院| 在线看片中文字幕| 精品国产中文一级毛片在线看| 9966国产精品视频| 无码中文字幕加勒比高清| 九九热视频在线免费观看| 一级毛片网| 国产精品久久久精品三级| 99久久精品免费观看国产| 亚洲欧美h| 国内毛片视频| 在线视频亚洲色图| 视频一区亚洲| 国产精品视频导航| 中文字幕欧美日韩高清| 天堂网亚洲系列亚洲系列| 日韩成人午夜| 亚洲国产欧美国产综合久久| 永久免费av网站可以直接看的 | 亚洲无线视频| 亚洲欧美日韩成人在线| 男女男精品视频|