999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的無人機(jī)智能任務(wù)分配方法

2023-03-20 02:39:34費(fèi)陳,鄭晗,趙

費(fèi) 陳,鄭 晗,趙 亮

(武警士官學(xué)?;A(chǔ)部,杭州 311400)

0 引言

隨著對危險(xiǎn)領(lǐng)域探索的逐漸深入,傳統(tǒng)有人駕駛飛機(jī)已經(jīng)無法滿足相關(guān)科學(xué)研究和工程應(yīng)用的需求,而無人機(jī)的出現(xiàn)解決了這樣的難題[1]。通常無人機(jī)是指能夠自主控制或由地面操作人員操控、可自行推進(jìn)飛行、能單次或循環(huán)使用的無人駕駛飛機(jī)[2-3]。隨著無人化、智能化和導(dǎo)航技術(shù)的不斷發(fā)展,無人機(jī)從最初的訓(xùn)練靶機(jī),逐漸發(fā)展成為具有自主決策、自主攻擊的偵察打擊一體化無人機(jī)[4]。

由于小型無人機(jī)單機(jī)能力有限,因此,多架無人機(jī)通過協(xié)同合作組成的無人機(jī)聯(lián)盟擁有廣闊的應(yīng)用前景[5-7],如何在滿足不同約束條件的前提下,在較短的時(shí)間內(nèi)盡可能將所有任務(wù)分配給無人機(jī)編隊(duì)聯(lián)盟,充分發(fā)揮無人機(jī)聯(lián)盟協(xié)同工作效能,以實(shí)現(xiàn)性能最優(yōu)化,是存在的無人機(jī)任務(wù)分配問題[8-10]。

針對這類問題,劉暢、胡大偉等[11-12]提出將無人機(jī)群的任務(wù)分配問題轉(zhuǎn)化為車輛路徑模型(VRP),該模型以美軍的捕食者與全球鷹為研究對象,將無人機(jī)視為車輛,偵察目標(biāo)視為顧客,采用禁忌搜索算法求解此問題;Choi等[13]開發(fā)出一個(gè)分散的任務(wù)分配框架,涉及一個(gè)基于市場的策略,通過協(xié)商的方法為無人機(jī)群分配任務(wù);Rasmussen等[14]使用樹搜索算法將任務(wù)分配給無人機(jī)群,該方法將問題表示為決策樹,并使用樹搜索算法來解決,同時(shí)還考慮了不確定情況下的任務(wù)分配;蔣碩等[15]提出一種改進(jìn)的階層分級粒子群優(yōu)化算法(HGIWPSO),根據(jù)實(shí)數(shù)創(chuàng)建粒子和實(shí)際分配的映射關(guān)系,從而使分配問題得到解決;常松等[16]提出將無人機(jī)任務(wù)通過對改進(jìn)的合同網(wǎng)算法進(jìn)行分配,該方法通過優(yōu)化每個(gè)無人機(jī)的負(fù)載平衡,結(jié)合時(shí)間和外部的約束條件,解決任務(wù)分配不合理的問題。綜上所述,無人機(jī)群任務(wù)分配的研究存在處理信息量大、可靠性低、信息交互不全、任務(wù)完成度低等問題。

針對上述存在的局限性,人們又提出一種無人機(jī)聯(lián)盟目標(biāo)打擊分層框架[17-19],將多個(gè)無人機(jī)視為一個(gè)聯(lián)盟并對目標(biāo)進(jìn)行分類,形成任務(wù)簇,并將每個(gè)任務(wù)簇映射到無人機(jī)聯(lián)盟中,將復(fù)雜的目標(biāo)打擊任務(wù)分配問題分為幾個(gè)不同層次的子問題,通過解決每級的子問題,進(jìn)而將復(fù)雜的問題簡單化,降低了計(jì)算復(fù)雜度,避免多個(gè)無人機(jī)執(zhí)行同一任務(wù),縮短目標(biāo)打擊任務(wù)分配時(shí)間,提高目標(biāo)打擊完成度。同時(shí)引入多智能體強(qiáng)化學(xué)習(xí)算法(MADDPG),從狀態(tài)空間、網(wǎng)絡(luò)架構(gòu)、動(dòng)作集合、獎(jiǎng)勵(lì)函數(shù)4個(gè)方面進(jìn)行設(shè)計(jì),將該模型與無人機(jī)任務(wù)分配相融合,而多無人機(jī)則被視作一個(gè)聯(lián)盟,聯(lián)盟中各無人機(jī)協(xié)同工作,根據(jù)無人機(jī)相互之間觀察互動(dòng)和反饋獎(jiǎng)勵(lì)調(diào)整自身策略,以便獎(jiǎng)勵(lì)最大化,從而獲得無人機(jī)聯(lián)盟完成目標(biāo)打擊的最優(yōu)策略,提升無人機(jī)目標(biāo)打擊的效率。

1 問題描述與任務(wù)分層框架設(shè)計(jì)

1.1 問題描述

文中場景設(shè)置如下[20]:假設(shè)戰(zhàn)場上有數(shù)個(gè)打擊目標(biāo)和威脅源,目標(biāo)和威脅源位置均固定不變,每個(gè)目標(biāo)任務(wù)只需要一個(gè)無人機(jī)來進(jìn)行打擊,每個(gè)任務(wù)之間都相互獨(dú)立,無人機(jī)一旦進(jìn)入威脅源范圍內(nèi),將被導(dǎo)彈打中而無法完成任務(wù)。無人機(jī)聯(lián)盟隨機(jī)出現(xiàn)在戰(zhàn)場上,任務(wù)均勻分布在環(huán)境中,并按照距離最短原則分配給距離最近的無人機(jī)聯(lián)盟,無人機(jī)聯(lián)盟內(nèi)將任務(wù)進(jìn)一步進(jìn)行細(xì)分,確保每個(gè)無人機(jī)可以規(guī)避危險(xiǎn),順利完成任務(wù)。

因?yàn)闊o人機(jī)任務(wù)分配具備高維空間性與多元性的特征[21-22],所以給出簡化研究問題的假定:將每個(gè)無人機(jī)看成是具備同樣特點(diǎn)的同質(zhì)性實(shí)體模型,在研究過程中,忽略無人機(jī)的外形和尺寸,并進(jìn)行定義:

(1)

式中:(xi,yi)為無人機(jī)的位置坐標(biāo)信息;vi為無人機(jī)的飛行速度;φi為無人機(jī)的偏航角。

將環(huán)境因素理想化[23],忽略自然環(huán)境因素對無人機(jī)的影響,重點(diǎn)考慮無人機(jī)的軍事威脅,軍事威脅主要是敵方導(dǎo)彈威脅。假設(shè)在二維空間環(huán)境中,敵方防空導(dǎo)彈的探測范圍為360°,相當(dāng)于一個(gè)以導(dǎo)彈位置為中心、導(dǎo)彈水平探測距離Rmax為半徑的圓,定義為:

(2)

因此,導(dǎo)彈威脅的數(shù)學(xué)模型為:

(3)

式中UR為無人機(jī)當(dāng)前位置與導(dǎo)彈位置的相對距離。

1.2 任務(wù)分層框架設(shè)計(jì)

認(rèn)知心理學(xué)指出,生物智能體解決復(fù)雜問題的能力依賴于層級化的認(rèn)知機(jī)制,即將復(fù)雜的問題分解成更簡單的子問題[24]。這種分層方法能夠以零樣本的方式解決以前看不見的問題,無需試錯(cuò)。如圖2所示,描繪了一只烏鴉如何解決由3個(gè)因果步驟組成的食物獲取的難題:它首先拿起一根棍子,然后用棍子從管道里面拖出一個(gè)石頭,最后用石頭來觸發(fā)機(jī)關(guān),激活一個(gè)機(jī)制釋放這個(gè)食物。

圖2 基于MADDPG算法的無人機(jī)任務(wù)分層框架

受靈長類動(dòng)物處理問題機(jī)制啟發(fā),提出一種基于任務(wù)分層的無人機(jī)聯(lián)盟目標(biāo)打擊的任務(wù)分層框架,整個(gè)過程分為目標(biāo)聚類、集群分配、任務(wù)目標(biāo)分配。

1)目標(biāo)聚類。目標(biāo)聚類的目的是將彼此接近的目標(biāo)歸為一組,它是簡化任務(wù)分配問題的關(guān)鍵和基本步驟,經(jīng)過這一步,NT目標(biāo)被劃分為M個(gè)簇,M等于無人機(jī)聯(lián)盟的數(shù)量,為了在無人機(jī)聯(lián)盟之間平均分配工作負(fù)載,聚類算法必須平衡每個(gè)集群中的目標(biāo)數(shù)量。

2)集群分配。集群分配的目的是將M個(gè)集群分配給M個(gè)小無人機(jī)聯(lián)盟,通過強(qiáng)化學(xué)習(xí)算法,得出該級無人機(jī)目標(biāo)任務(wù)分配的最優(yōu)策略,即每個(gè)小無人機(jī)聯(lián)盟被分配一個(gè)任務(wù)集群。

3)任務(wù)目標(biāo)分配。在每個(gè)小無人機(jī)聯(lián)盟內(nèi),通過多智能體強(qiáng)化學(xué)習(xí)算法(MADDPG),將小無人機(jī)聯(lián)盟內(nèi)的每個(gè)無人機(jī)與目標(biāo)任務(wù)進(jìn)行交互,獲得這個(gè)小無人機(jī)聯(lián)盟完成目標(biāo)任務(wù)的最優(yōu)策略。小無人機(jī)聯(lián)盟中Leader獲得聯(lián)盟內(nèi)目標(biāo)任務(wù)分配的最優(yōu)策略并將任務(wù)分配給每個(gè)無人機(jī),確定攻擊順序。

其中,目標(biāo)聚類和任務(wù)集群分配由無人機(jī)控制中心集中解決,而任務(wù)目標(biāo)分配由小無人機(jī)聯(lián)盟內(nèi)部解決。

2 多智能體強(qiáng)化學(xué)習(xí)算法(MADDPG)設(shè)計(jì)

2.1 MADDPG算法

MADDPG框架如圖3所示。

圖3 MADDPG算法結(jié)構(gòu)框架圖

其核心思想是Actor-Critic網(wǎng)絡(luò):一個(gè)行動(dòng)家網(wǎng)絡(luò)π和一個(gè)評論家網(wǎng)絡(luò)Q。π網(wǎng)絡(luò)根據(jù)獲取的狀態(tài)計(jì)算要執(zhí)行的動(dòng)作,而Q網(wǎng)絡(luò)評估行為網(wǎng)絡(luò)計(jì)算的動(dòng)作,以提高行為網(wǎng)絡(luò)的性能。使用經(jīng)驗(yàn)重放緩存區(qū)存儲一定數(shù)量的訓(xùn)練經(jīng)驗(yàn),Q網(wǎng)絡(luò)在更新網(wǎng)絡(luò)時(shí)隨機(jī)讀取,以打破訓(xùn)練數(shù)據(jù)中的相關(guān)性,使訓(xùn)練更加穩(wěn)定。在訓(xùn)練階段,π網(wǎng)絡(luò)只從自身中獲取觀察信息,而Q網(wǎng)絡(luò)則獲取其他主體的動(dòng)作和觀察等信息。在執(zhí)行階段,不涉及Q網(wǎng)絡(luò),只需要一個(gè)π網(wǎng)絡(luò),這意味著執(zhí)行是分散的。

考慮具有N個(gè)無人機(jī)的場景,π={π1,π2,…,πN},表示N個(gè)智能體的策略,θ={θ1,θ2,…,θN},表示策略參數(shù)[25],那么無人機(jī)ri的期望回報(bào)梯度為:

(4)

(5)

(6)

通過最小化無人機(jī)ri的策略梯度來更新參與者網(wǎng)絡(luò),可以寫為:

(7)

式中:K為樣本的小批量大??;k為樣本的指數(shù)。

2.2 動(dòng)作設(shè)置、狀態(tài)設(shè)置、獎(jiǎng)勵(lì)函數(shù)設(shè)置

2.2.1 動(dòng)作設(shè)置

(8)

2.2.2 狀態(tài)設(shè)置

將每架無人機(jī)當(dāng)前的位置視為該架無人機(jī)的當(dāng)前狀態(tài),針對無人機(jī)UAVi在t時(shí)刻的狀態(tài)定義為:

St,UAVi=(SUAV1,SUAV2,…,SUAVi)=

((vUAV1,x,vUAV1,y),(vUAV2,x,vUAV2,y),…,

(vUAVi,x,vUAVi,y))

(9)

2.2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)置

1)在威脅避開區(qū)設(shè)定一個(gè)獎(jiǎng)勵(lì),當(dāng)無人機(jī)進(jìn)入威脅避開區(qū)后,會被給予一個(gè)負(fù)獎(jiǎng)勵(lì)。即RN=-1,(DU

2)無人機(jī)飛行過程中,假如無人機(jī)離得太近,會相互碰撞,導(dǎo)致各個(gè)無人機(jī)之間產(chǎn)生威脅,因此,為了防止無人機(jī)之間發(fā)生機(jī)械碰撞,設(shè)置一個(gè)獎(jiǎng)勵(lì)RC,當(dāng)無人機(jī)之間距離低于安全性距離時(shí),給予獎(jiǎng)勵(lì)RC。即RC=-1,(DLmn

3)在訓(xùn)練開始的時(shí)候,為了能精確引導(dǎo)無人機(jī)動(dòng)作挑選,使無人機(jī)的每一步都獲得獎(jiǎng)勵(lì),制定距離獎(jiǎng)勵(lì)RS,并在每一步都測算無人機(jī)和目標(biāo)的最近距離,將負(fù)距離做為獎(jiǎng)勵(lì)值,距離越近,獎(jiǎng)勵(lì)值越多。也就是說,RS=-dmin,其中,dmin是每個(gè)目標(biāo)和每個(gè)UAV之間的最小距離之和。最終無人機(jī)的獎(jiǎng)勵(lì)函數(shù)設(shè)置為:

RZ=RN+RC+RS

(10)

3 實(shí)驗(yàn)結(jié)果分析

3.1 參數(shù)設(shè)置

文中設(shè)計(jì)了一個(gè)10 km×10 km的模擬仿真地圖,初始化環(huán)境仿真結(jié)果如圖4所示。

圖4 初始環(huán)境

其中,(a)圖包括1個(gè)無人機(jī)聯(lián)盟(3架無人機(jī))的初始位置、5個(gè)威脅區(qū)、3個(gè)目標(biāo)的位置;(b)圖包括2個(gè)無人機(jī)聯(lián)盟(5架無人機(jī))的初始位置、6個(gè)威脅區(qū)、5個(gè)目標(biāo)的位置。

MADDPG算法模型采用確定性動(dòng)作策略,即a=πθ(s)。最大回合數(shù)為8 000,輔助網(wǎng)絡(luò)的更新率為0.01,價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)率為 0.01,策略網(wǎng)絡(luò)的學(xué)習(xí)率為0.001。

3.2 結(jié)果分析

為了驗(yàn)證該策略的可行性,分別形成1個(gè)無人機(jī)聯(lián)盟(3架無人機(jī))和2個(gè)無人機(jī)聯(lián)盟(2架無人機(jī)和3架無人機(jī)),建立任務(wù)分層框架并通過MADDPG進(jìn)行訓(xùn)練,與任務(wù)不分層框架進(jìn)行對比,3架無人機(jī)各自回報(bào)值變化曲線如圖5所示。從圖中可以看出,隨著訓(xùn)練回合次數(shù)的增加,3架無人機(jī)各自回報(bào)值都逐漸增大,直至收斂。對比任務(wù)分層框架和任務(wù)不分層框架下MADDPG算法中每架無人機(jī)回報(bào)值變化曲線,可以發(fā)現(xiàn),在任務(wù)分層框架下,每架無人機(jī)的回報(bào)值都比任務(wù)不分層框架下的回報(bào)值要大,說明任務(wù)分層框架比不分層框架具有更強(qiáng)的穩(wěn)定性,每架無人機(jī)都能夠更加準(zhǔn)確的完成任務(wù),確保任務(wù)完成度更高,獲得更高的回報(bào)值。

3架無人機(jī)在任務(wù)不分層的情況下,收斂速度較快,這是因?yàn)?架無人機(jī)更傾向于找最容易完成的目標(biāo)去完成,雖然一定程度上能夠較快的完成任務(wù),但是很可能導(dǎo)致多個(gè)無人機(jī)執(zhí)行同一任務(wù),無法達(dá)到多無人機(jī)協(xié)作完成多個(gè)目標(biāo)任務(wù)的目的。

最終的整體回報(bào)值如圖5(d)所示,由圖可知,隨著訓(xùn)練回合次數(shù)的增多,獎(jiǎng)勵(lì)逐漸增大,且在訓(xùn)練回合數(shù)達(dá)到2 000后,兩種框架策略的獎(jiǎng)勵(lì)曲線趨于平緩,總體呈收斂趨勢,但任務(wù)分層框架下的整體回報(bào)值明顯高于任務(wù)不分層框架下的整體回報(bào)值。由于訓(xùn)練過程中存在隨機(jī)噪聲,所以訓(xùn)練時(shí)無論是哪個(gè)時(shí)刻都存在振蕩現(xiàn)象。

5架無人機(jī)各自回報(bào)值變化曲線如圖6所示,從圖中可以看出,隨著訓(xùn)練回合次數(shù)的增加,5架無人機(jī)各自回報(bào)值都逐漸增大,直至收斂。對比任務(wù)分層框架和任務(wù)不分層框架下MADDPG算法中每架無人機(jī)回報(bào)值變化曲線,可以發(fā)現(xiàn)在任務(wù)分層框架下,每架無人機(jī)的回報(bào)值都比任務(wù)不分層框架下的回報(bào)值大,說明任務(wù)分層框架比不分層框架具有更強(qiáng)的穩(wěn)定性,每架無人機(jī)都能夠更加準(zhǔn)確的完成任務(wù),確保任務(wù)完成度更高,獲得更高的回報(bào)值。

最終的整體回報(bào)值如圖6(f)所示,其訓(xùn)練獎(jiǎng)勵(lì)變化曲線規(guī)律與3架無人機(jī)訓(xùn)練獎(jiǎng)勵(lì)變化曲線(圖5(d))大體相同。

圖5 3架無人機(jī)網(wǎng)絡(luò)參數(shù)變化

圖6 5架無人機(jī)網(wǎng)絡(luò)參數(shù)變化

在任務(wù)分層框架下,將MADDPG與DDPG、DQN算法進(jìn)行對比,對比結(jié)果如圖7所示。由圖可知,在5架無人機(jī)中,與DDPG、DQN相比,MADDPG算法收斂速度最快,且收斂過程波動(dòng)較少,收斂更加穩(wěn)定。

圖7 5架無人機(jī)任務(wù)分層-聯(lián)盟算法對比

3種不同算法的無人機(jī)飛行軌跡對比圖如圖8所示。由圖可知,對比3種算法,MADDPG 算法模型的飛行軌跡都進(jìn)入各自目標(biāo)區(qū)域,而且躲避了所有的威脅區(qū);在DDPG算法模型的飛行軌跡中,第四架無人機(jī)進(jìn)入威脅區(qū),第一和第三架無人機(jī)進(jìn)入同一目標(biāo)區(qū)域,其余兩架無人機(jī)都進(jìn)入各自的目標(biāo)區(qū)域內(nèi);DQN算法模型的飛行軌跡除了第三和第五架無人機(jī)進(jìn)入威脅區(qū)外,其余三架無人機(jī)都進(jìn)入各自的目標(biāo)區(qū)域內(nèi)。綜合分析3種算法的獎(jiǎng)勵(lì)曲線變化圖和飛行軌跡圖,可以得出結(jié)論: 在任務(wù)分層框架下,MADDPG 算法訓(xùn)練表現(xiàn)優(yōu)于 DDPG 算法和DQN算法。

圖8 無人機(jī)飛行軌跡對比

4 結(jié)論

針對無人機(jī)群目標(biāo)打擊任務(wù)分配問題,受靈長類動(dòng)物處理問題機(jī)制啟發(fā),提出一種基于強(qiáng)化學(xué)習(xí)的無人機(jī)智能任務(wù)分配方法。該方法提出一種任務(wù)分層框架,將多個(gè)無人機(jī)視為一個(gè)聯(lián)盟并對目標(biāo)進(jìn)行分類,形成任務(wù)簇,并將每個(gè)任務(wù)簇映射到無人機(jī)聯(lián)盟中,通過MADDPG算法將任務(wù)簇內(nèi)的目標(biāo)與無人機(jī)聯(lián)盟內(nèi)的小無人機(jī)進(jìn)行合理配對并對目標(biāo)實(shí)施打擊,得到MADDPG算法的回報(bào)值和飛行軌跡,并與DDPG算法、DQN算法的回報(bào)值和飛行軌跡進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,在小樣本任務(wù)分配中,與不分層框架相比,該方法可以提高目標(biāo)任務(wù)打擊完成度,提升目標(biāo)打擊的效率;在分層框架下,該方法在收斂速度、收斂穩(wěn)定性、任務(wù)完成度等方面都優(yōu)于其他兩種算法并具有更好的表現(xiàn)。

主站蜘蛛池模板: 亚洲无码视频一区二区三区| 亚洲天堂网站在线| 2021最新国产精品网站| 国产午夜一级毛片| 真实国产乱子伦高清| 国产成人三级| 在线观看无码a∨| 精品国产免费人成在线观看| 精品综合久久久久久97| 国产在线啪| 日韩专区欧美| 91系列在线观看| 香蕉伊思人视频| 亚洲日韩第九十九页| 精品国产自在在线在线观看| 日本www色视频| 九九精品在线观看| 毛片在线播放a| 国产毛片高清一级国语| 亚洲—日韩aV在线| 欧美中出一区二区| 国产丝袜丝视频在线观看| 18禁黄无遮挡网站| 精品久久香蕉国产线看观看gif| 久久夜夜视频| 久久一级电影| 91一级片| 亚洲中文字幕日产无码2021| 蝴蝶伊人久久中文娱乐网| 国产制服丝袜91在线| 免费AV在线播放观看18禁强制| 超级碰免费视频91| 操美女免费网站| 欧美日韩国产在线播放| 欧美午夜理伦三级在线观看| 国产网友愉拍精品| 亚洲天堂伊人| 国产av一码二码三码无码| 国产精品太粉嫩高中在线观看 | 久久精品免费国产大片| 99福利视频导航| 无码高清专区| 色妺妺在线视频喷水| 国产精品成人第一区| 青青青国产视频手机| 中文字幕无码中文字幕有码在线| 国产女人18水真多毛片18精品| 国产精品第| 国产欧美另类| 国产无码精品在线| 国产精品女熟高潮视频| 国产福利在线免费| 中文字幕第1页在线播| 日韩中文字幕免费在线观看| 男人的天堂久久精品激情| 综合社区亚洲熟妇p| 成人亚洲视频| 五月丁香伊人啪啪手机免费观看| 国产迷奸在线看| 思思热在线视频精品| 国产成人精品高清在线| 最新亚洲av女人的天堂| 欧美精品不卡| 国产精品嫩草影院视频| 99久久人妻精品免费二区| 精品久久久久无码| 老司机午夜精品网站在线观看| 国产欧美日韩综合在线第一| 国产一区二区色淫影院| 亚洲精品无码av中文字幕| 日本一区二区三区精品视频| 99无码中文字幕视频| 欧美成人一区午夜福利在线| 亚洲欧美日韩综合二区三区| 亚洲无码免费黄色网址| 日韩A级毛片一区二区三区| a级高清毛片| 久久国产高清视频| 激情成人综合网| 91国内视频在线观看| 日本国产一区在线观看| 无码国产偷倩在线播放老年人|