999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于群體意志統一的無人機協同圍捕策略

2022-11-30 08:11:16劉峰魏瑞軒周凱丁超
北京航空航天大學學報 2022年11期
關鍵詞:策略信息模型

劉峰,魏瑞軒,*,周凱,2,丁超

(1.空軍工程大學 航空工程學院,西安 710051; 2.空軍航空大學,長春 130000)

多無人機協同圍捕是研究如何指導一群具有自主決策能力的無人機通過相互合作對單一個體或群體實現圍捕。由于這類問題有著重要的理論價值和廣泛的應用前景,如應用于軍事領域,可大幅度提高軍隊無人機的自動化程度,降低軍事任務成本,提高戰斗效率等,因此受到很多學者的關注[1-6]。

就協同圍捕策略設計而言,蔡云飛等[7]設計出Cross-EKF定位算法,通過交叉計算目標位置的后驗估計協方差,將對動態圍捕點的收斂擴展到對動態圍捕面的收斂,提高了協同圍捕的收斂速度及穩定性。黃天云等[8]通過對圍捕行為的分解,設計了每個個體自組織運動控制器,提出了基于松散偏好規則(loose-preference rule,LPRule)的自組織協作圍捕策略,并從理論上分析了其穩定性。李瑞珍等[9]為使機器人有效地快速圍捕移動目標,提出一種基于動態圍捕點的多機器人協同圍捕策略,采用協商法為圍捕機器人分配最佳圍捕點,建立目標函數并優化,實現了圍捕機器人在線路徑規劃。裴惠琴等[10]主要針對圍捕環境受限及雙方的速度比率受限問題,設計基于動態虛擬勢點的“切換式”圍捕策略,在提高圍捕效率的同時解決了由“夾角最小”原則帶來的圍捕者“死鎖”問題。

以上對于協同圍捕策略的研究仍是建立在獲取目標位置后,預先依據圍捕成功的條件進行任務分配與協同環節的基礎上,并基于特定控制模式完成圍捕。同時,需要指出的是,圍捕策略對于環境的自適應性、策略體現出的智能性有待提高。

近年來,也有部分學者通過觀察總結和強化學習來探索集群協同問題[11-12]。Muro等[11]通過觀察、計算模擬北灰狼群圍捕獵物行為的規則和主要特征,從狼群和獵物的4種簡單行為中提出一個計算多智能體模型,總結出狼群的圍捕策略。Lowe等[12]從多智能體深度強化學習的角度,構建智能體合作與競爭的場景,提出多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法,采用集中訓練和分散執行的框架,實現了群體之間的協同策略,其魯棒性遠優于傳統的強化學習算法,但是,隨著智能體數量的增加,系統的穩定性降低,收斂速度變慢。

基于以上研究的不足,本文探索出一種智能化的多無人機協同圍捕策略。在該策略中,借助圖卷積網絡模型對圍捕無人機進行信息融合認知設計,實現參數共享,減少模型復雜度,有效減輕計算負載;更具魅力之處在于借鑒人類在協作任務中達成認知統一的規律[13],設計群體意志趨同學習的生成式模型使圍捕無人機通過學習更傾向于產生協作策略,使無人機集群涌現出更加智能化的圍捕行為。仿真結果驗證了基于群體意志統一的圍捕策略能夠有效完成多無人機協同圍捕任務。

1 問題描述

假設在一個無限大且無障礙的二維空間中,有N(N≥3)個圍捕無人機對一個目標無人機進行圍捕,如圖1所示。

圖1 N個無人機圍捕單個目標Fig.1 N drones rounded up a single target

其中,U={U1,U2,…,UN}為N架圍捕無人機的集合,VU={VU1,VU2,…,VUN}為N架圍捕無人機速度的集合。T為單架目標無人機,VT為目標無人機的速度。為更好的體現所設計圍捕策略的智能性,?VUi∈VU,滿足VUi<VT,其中,i=1,2,…,N。所有無人機均視為質點,且不具備攻擊能力,圍捕無人機僅通過協作形成封閉包圍圈完成圍捕。

圍捕開始后,圍捕無人機通過協作對目標無人機實施圍捕,目標無人機則按照一定的逃逸策略進行逃離。當圍捕無人機在目標無人機周圍形成封閉的Apollonius圓域時,視為圍捕成功。考慮到圍捕無人機固定物理防守半徑RUi,當目標無人機T與任意一架圍捕無人機Ui距離小于相應的RUi時,也視為圍捕成功。

2 模型構建

2.1 無人機運動模型

假設無人機當前時刻位置向量為[x,y]T,將無人機的運動模型表述如下:

式中:θ為航向角;v為速度;?x為v的水平分量;?y為v的豎直分量。

可以看出,忽略姿態變化后,無人機的橫向、縱向速度都可以通過v和θ進行相應配置。為拓展無人機機動能力,航向角θ可變,但存在角速度上限,變化示意圖如圖2所示。

圖2 無人機航向變化示意圖Fig.2 Diagram of course change of UAV

2.2 基于Apollonius圓的圍捕模型

Apollonius圓的定義為平面內到2個定點的距離之比為常數k(k≠1)的點的集合。針對圍捕無人機與目標無人機而言,若二者速度之比為k,則雙方同時到達Apollonius圓上,從而實現單一方向上的攔截。

圍捕無人機借助與目標無人機到達Apollonius圓[14]上點的時間相等這一特點進行決策,其決策原則如圖3所示。

圖3 圍捕無人機決策靜態示意圖Fig.3 Static schematic of a roundup UAV decision making

圖中綠色、藍色、紅色虛線圓分別為圍捕無人機U1、U2、U3與目標無人機T之間構建的Apollonius圓,點O1、O2、O3分別為3個圓的圓心,點C11、C12、C21、C31分別為圍捕無人機當前 位置與3個圓的切點。由于圍捕無人機速度小于目標無人機速度,故目標無人機未被圍捕前,可利用速度優勢從C11以 左、C21以 右 或C12以 上、C31以 下 區域,進行逃離。若形成封閉Apollonius圓域,則圍捕成功。

3 基于群體意志統一的協同圍捕策略

3.1 雙回路認知模型

當人類參與協作任務時,個體除獲取自身信息外,通過觀察、交流獲得環境及其他個體信息,基于融合后的信息,一方面進行自我認知,形成指導自身的策略;另一方面能夠進行協作認知,形成對于群體目標的認知,且群體目標會反過來影響個體的自我認知過程。本文將圍捕無人機根據其獲得信息形成關于協作任務的認知定義為群體意志。對于每個個體而言,群體意志是個體根據自身能獲得的所有信息形成的對協作任務的認識。根據這種現象,構建了人類在協作任務中的雙回路認知模型如圖4所示。

圖4 雙回路認知模型示意圖Fig.4 Schematic diagram of double-loop cognitive model

在協作任務中,人類的認知活動分為兩部分。其中,第1部分如圖4紅色箭頭表示的實踐學習認知回路,個體根據自我認知形成決策,并通過觀察環境反饋的信息不斷學習優化,以保證個體策略的最優性;第2部分如圖4藍色箭頭表示的回路,個體將自身得到的群體意志與群體中其他個體獲得的群體意志進行對比,存在差異時,試圖與其他個體實現統一,此過程反過來會改變信息融合時的側重點和對信息的認知理解,從而改變自身對能夠獲得的信息的融合過程,將這一過程稱為群體意志趨同認知回路。

3.2 無人機融合認知方法設計

在協同圍捕過程中,圍捕無人機之間存在不完全聯系,為有效形成個體對于整體的認識,需要構造一個能夠實現信息交聯,并進行融合認知的模型。

3.2.1 基于圖論的信息交聯關系

采用圖G=(V,E,H)描述N架圍捕無人機的信息交聯關系,其中,V={1,2,…,N}為各圍捕無人機節點集合,E為邊集。當圍捕無人機j能獲得圍捕無人機i的信息,則有(i,j)∈E,且將圍捕無人機i稱為圍捕無人機j的鄰居(Neighbor)。H為N×N的鄰接矩陣,建立式(2)模型描述圍捕無人機之間的連通性。

3.2.2 基于圖卷積網絡的融合認知模型

借助空間域和譜域融合的圖卷積網絡[15](graph convolutional network,GCN)在拓撲結構數據上強大的特征提取能力和分類能力,設計了基于GCN的融合認知模型,如圖5所示。以圍捕無人機i為例,將狀態信息si=[xi,yi]T和動作信息ai=θi,記為xi={si,ai},利用一個隱藏層為2層,每層64個節點,激活函數為tanh函數的多層感知器(multi-layer perceptron,MLP)對xi進行池歸一化[16]等預處理,記處理后的信息為x′i={s′i,a′i}。將x′i輸入圖卷積網絡,利用GCN的特征提取能力獲得融合信息。融合認知過程中信息的傳遞過程可以表示為

圖5 融合認知模型結構示意圖Fig.5 Schematic diagram of fusion cognitive model

相較于已有結果,融合認知模型的優勢在于:①魯棒性強。由于將各圍捕無人機之間存在差異的連接關系作為GCN網絡的輸入,因此,不需要針對每架圍捕無人機設計特定的信息提取模型。②模型復雜度低。使用單層卷積即能夠實現所有相鄰圍捕無人機信息的融合,若增加一層則可實現與當前圍捕無人機有二跳連接關系的圍捕無人機信息融合。

同時,圖卷積網絡的層數也不宜過多,連接關系較遠的圍捕無人機對當前個體認知的影響較小,層數增加會出現過度平滑的問題[17],失去了利用局部信息實現群體意志統一的意義。

3.3 群體意志的趨同學習原理

式中:P(xi,C)為xi與C的聯合分布;P(xi)為無人機i獲得的信息的分布。對于圍捕無人機協作問題而言,式(4)很難執行,因為圍捕無人機獲得的信息相對復雜,聯合分布P(xi,C)難以獲得,并且,達成統一后的群體意志C的分布P(C)也是后續求解得到的。

式中:DKL(·)為2個分布之間的KL散度(也稱為交叉熵或相對熵),表示2個分布之間的距離。根據變分推斷理論[18],式(5)等價于

圖7 用于群體意志趨同學習的生成式自動編碼器結構Fig.7 Generative autoencoder for group will convergence learning

圖7中,黃色部分為編碼器,根據信息xi構造群體意志,即圖6中的群體意志構造模塊。綠色部分為解碼器,根據編碼器生成的試圖恢復信息xi,其輸出為xi的近似值將其寫成條件概率分布形式即為,其中W′表示解碼器部分神經網絡的參數。圖中與C之間的KL散度對應式(6)中的第2項,P(C)),能夠使圍捕無人機學習到的群體意志分布盡可能接近統一的群體意志的先驗分布P(C)。L2(xi,;W,W′)為原始信息xi與重構信息之間的重構誤差,是式(6)中第1項的最小二乘距離表達形式。通過兩方面的誤差傳播,上述生成式自動編碼器能夠不斷優化神經網絡參數,從而實現群體意志的趨同逼近。需要指出的是,,P(C))計算的是2個分布之間的距離,生成式自動編碼器不像傳統的自動編碼器那樣輸出實數向量,而是輸出一個分布模型。

圖8 協作認知模塊的神經網絡結構Fig.8 Neural network structure of cooperative cognition module

綜上,群體意志趨同學習的訓練過程表示為

4 仿真及分析

4.1 訓練集參數設定

為驗證所設計策略的有效性,取圍捕無人機數目N=4進行仿真實驗,初始位置隨機生成,大致散布在目標無人機周圍,最遠不超過150km,具體參數如表1所示。

表1 無人機參數設定Table1 UAV parameter setting

設定t時刻獎勵函數如下:

式中:DIDi(t)表示t時刻第i個圍捕無人機與目標無人機的距離,為便于處理數據及突出獎勵,對距離和乘以10。訓練開始時,記初始時刻獎勵r0=0。flag定義為

式(8)第①部分促使圍捕無人機接近目標無人機進行圍捕,第②部分為圍捕成功后反饋獎勵值10。當?i∈{1,2,…,N},D(t-1)-D(t)<0成立時,判定圍捕任務失敗。

仿真流程如圖9所示。其中,M為所設置的訓練片段數量上限,t為常數。

圖9 仿真流程Fig.9 Simulation flow chart

4.2 仿真結果

通過對比實驗分析群體意志統一對無人機協作圍捕學習的影響,實驗組采用基于群體意志統一的策略訓練圍捕無人機,對照組采用與實驗組相同的網絡結構,但采用傳統的分布式優化策略,只進行基于實踐的學習,而不進行趨同學習。

記錄下實驗后期某片段圍捕無人機獲得的實時獎勵,如圖10所示。

圖10 訓練實時獎勵Fig.10 Training real-time rewards

從圖10中可以看出,實驗組與對照組的學習效果大約在第6500回合出現差別。進行趨同學習的實驗組獲得的初始獎勵較低,但圍捕無人機系統經過基于群體意志統一的學習,能夠在較短回合內提升獎勵值,并經過大約45000回合的訓練后,通過協作實現了對目標無人機的圍捕。而采用傳統的分布式優化策略,只進行實踐學習的對照組能夠更快的獲得較高的初始獎勵,隨后獎勵值的增長速度較慢,遠小于實驗組。同時,由于對照組個體更傾向于接近目標無人機,擴大自身收益,在局部回合較實驗組能夠獲得更高的實時獎勵,但從任務整體的收益來看,最終并未完成圍捕任務。

為了更直觀地說明問題,將訓練48000回合的圍捕無人機系統接入訓練環境,獲取實驗組和對照組的攔截過程截圖。

如圖11和圖12所示,紅色實心點為目標無人機的當前位置,紅、綠、藍、黑4條虛線弧分別為圍捕無人機U1、U2、U3、U4與目標無人機形成的Apollonius圓弧。從實驗組和對照組圍捕過程中可以看出,采用基于統一群體意志的協作圍捕策略,圍捕無人機更傾向于互相配合,盡快形成封閉Apollonius圓域完成圍捕,實驗組相比于對照組而言,盡管獲得的獎勵函數式(8)第①部分值較低,但是獲得獎勵函數整體值較高。對照組中圍捕無人機更傾向于擴大自身收益,利用其他個體的Apollonius圓,盡快接近目標無人機,以固定物理防守半徑完成圍捕,卻被目標無人機利用速度優勢獲得更好的局部態勢。正如圖11和圖12所示,對照組與實驗組擁有相同的初始條件,如圖12(a)和圖11(a)所示;在2組相應的圍捕策略指導下,經過一段時間的運動后,對照組較實驗組有更好的圍捕態勢,如圖12(b)所示;在目標無人機向下運動壓縮圍捕無人機U3的Apollonius圓時,對照組圍捕無人機U1和U4并沒有像實驗組及時保護U3的弱側,卻徑直接近目標無人機,反被目標無人機利用速度沖擊U1和U3空檔,沒有及時完成合圍,如圖12(c)和圖12(d)所示。

圖11 實驗組圍捕過程Fig.11 Experimental group round up process

圖12 對照組圍捕過程Fig.12 Control group round up process

5 結 論

本文所設計的基于群體意志統一的多無人機協同圍捕策略能夠有效解決不同數量的無人機集群在固定環境下的圍捕問題。設定圍捕無人機集群速度小于目標無人機速度,同時擺脫復雜、精確的模型控制,提出群體意志趨同學習原理,在保證全局有解的情況下,使整個圍捕無人機系統涌現出的智能化得到充分發揮。較采用傳統的分布式優化策略,僅進行實踐學習的圍捕無人機能夠更快的完成圍捕,提高圍捕成功率。

同時,本文只考慮了無約束的二維空間環境,僅能將所設計圍捕策略簡單適用于在指定高度層下,定速無人機協同圍捕單架定速目標無人機的工程應用中,具有一定的局限性。下一步將針對有障礙物約束的二維場景及無障礙約束的三維空間環境,逐步進行深入擴展研究,并結合三維空間下的多無人機協同圍捕工程應用,以增強該圍捕策略在復雜環境下的魯棒性。

猜你喜歡
策略信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
Passage Four
主站蜘蛛池模板: 国产激情无码一区二区免费| 国产91视频观看| 中国特黄美女一级视频| 亚洲中文字幕无码爆乳| 日韩无码黄色网站| 国产黄网永久免费| 国产成人免费手机在线观看视频| 国产精品亚洲日韩AⅤ在线观看| 免费高清a毛片| 亚洲精品无码久久毛片波多野吉| 色综合婷婷| 欧美另类精品一区二区三区| 97免费在线观看视频| 国产精品男人的天堂| 特级毛片8级毛片免费观看| 中文字幕1区2区| 五月激情婷婷综合| 亚洲欧美国产视频| 中文无码日韩精品| 91丝袜在线观看| 日本一本在线视频| 国产肉感大码AV无码| 国产新AV天堂| 欧美日韩精品在线播放| 欧美黄网站免费观看| 国产精品无码影视久久久久久久| 天天色综网| 精品国产自在在线在线观看| 88av在线| 亚洲精品成人片在线观看| 国产精品成人AⅤ在线一二三四| 成人国产小视频| 国产在线拍偷自揄观看视频网站| 成人亚洲国产| 国产成人夜色91| 国产自产视频一区二区三区| 日韩免费无码人妻系列| 老色鬼久久亚洲AV综合| 小蝌蚪亚洲精品国产| 九九九国产| 亚洲精品国产日韩无码AV永久免费网| 欧美啪啪网| 国产99视频免费精品是看6| 国产精品自在线拍国产电影| 日韩高清中文字幕| 亚洲中文字幕手机在线第一页| 久久综合亚洲色一区二区三区| 中国精品自拍| 一级毛片免费观看不卡视频| 色老头综合网| 久久国产精品电影| 国产在线八区| 五月天在线网站| 欧美三级不卡在线观看视频| 国产乱人激情H在线观看| 久久久精品久久久久三级| 婷婷久久综合九色综合88| 国产黄网站在线观看| 无码丝袜人妻| 亚洲精品天堂自在久久77| aⅴ免费在线观看| 欧美日韩第二页| 看国产毛片| 久久永久精品免费视频| 五月综合色婷婷| a级毛片免费看| 任我操在线视频| 色香蕉影院| 国产黄在线观看| 国产精品不卡片视频免费观看| 色婷婷亚洲十月十月色天| 伊人久久精品无码麻豆精品| 青青青草国产| 久久a级片| 精品久久久久久中文字幕女| 亚洲伊人久久精品影院| 97色伦色在线综合视频| 又粗又大又爽又紧免费视频| 欧美伊人色综合久久天天| 精品国产自在现线看久久| 玖玖精品视频在线观看| 波多野结衣久久精品|