999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種結合MADDPG和對比學習的無人機追逃博弈方法

2024-03-30 10:53:18王若冰王曉芳
宇航學報 2024年2期
關鍵詞:智能

王若冰,王曉芳

(北京理工大學宇航學院,北京 100081)

0 引言

現代無人機體型小,隱蔽性強,大量應用于現代空戰。無人機追逃博弈問題成為當前競相研究的熱點。為了提高無人機的自主博弈能力,亟需研究使無人機空戰對抗更加智能化的追逃博弈方法[1]。

求解飛行器追逃問題的方法主要有基于蒙特卡洛法的數值求解方法[2]、采用最優控制理論[3-4]和微分對策理論[5-6]的方法。采用數值解法的追逃博弈求解方法需要進行大量仿真,求解成本過高,不滿足當前快速求博弈均衡解的需求。文獻[3-4]在基于最優控制理論的飛行器追逃博弈求解方法中,都假設對方的機動策略已知。這些方法不適用于追逃雙方均在自己最大機動能力范圍內進行機動,而沒有哪方采用固定策略的場景。采用微分對策理論的博弈方法大多是基于精確的追逃雙方相對運動模型推導的。而現代戰爭中,復雜戰場環境往往對飛行器形成較大干擾,無法建立其追逃問題的精確數學模型,此時微分對策博弈方法的精度將會下降,甚至不再適用。

近年來發展起來的深度強化學習算法不需要建立飛行器的精確數學模型,而是通過與環境的交互、設定獎勵函數來引導飛行器進行自主機動決策。當前,深度強化學習算法在航跡規劃[7]、制導律設計[8-10]、姿態控制[11-13]、空戰決策[14]等多方面有著較多的應用。近年來,也有學者采用深度強化學習理論研究飛行器追逃博弈問題[15-16]。文獻[15]采用基于自博弈架構的PPO 算法,根據CW 方程設計了一種特殊的獎勵函數,最終求解得到軌道航天器追逃博弈的均衡解;文獻[16]將模糊推理與時序誤差評價相結合,對經驗回放池進行分類后,采用深度強化學習算法求解了高速飛行器的攻防博弈。

當前采用深度強化學習算法的追逃博弈求解方法,大多采用了多階段交替訓練(自博弈)的方式,也就是固定一方的策略同時訓練另一方的策略直至收斂,并進行多次交替訓練。但實際博弈過程中,追逃雙方同時機動,上述方法求得的解并不一定是最優解,且該方法中網絡的訓練時間比較長。本文將復雜作戰環境中變速飛行的飛行器追逃博弈問題看作多智能體博弈對抗問題,采用多智能體強化學習與博弈論相結合的方法,通過“集中式訓練、分布式執行”[17]的方式,實現訓練過程中無人機追逃雙方的同時機動博弈,在追逃雙方獎勵函數收斂時求得雙方的最優解(納什均衡解)。

在追逃博弈問題中,捕獲域和逃逸域是非常重要的概念。所謂捕獲域是指追擊方成功情況下追逃雙方初始態勢的集合,逃逸域定義類似。目前求解捕獲域(逃逸域)的方法,大多數是在定性或定量微分對策的基礎上,對微分對策問題進行簡化,最后求得捕獲域[18-19]。文獻[18]采用微分博弈理論研究了捕獲域的存在條件,并給出了近地軌道飛行器追逃博弈中關于偏心率的捕獲域邊界;文獻[19]提出了一種基于定性微分博弈的數值方法,對軌道追逃問題中的三維界柵軌跡和捕獲域進行轉化并求解。

以上求解捕獲域的方法都是在精確數學模型基礎上進行的,當飛行器處于復雜干擾環境而無法獲得精確數學模型,求解捕獲域非常困難,目前還未見到此方面的文獻。事實上,影響博弈結果的初始因素很多,例如初始位置、初始速度方向等,故表征捕獲域的是一個高維狀態向量域,此時捕獲域的求解會更加復雜。深度對比學習方法是一種考察樣本之間差異信息的監督學習方法[20-21],通過構建孿生神經網絡,采用引導樣本進行分類的損失函數訓練出一種可以穩定有效提取特征的深度神經網絡。而捕獲域和逃逸域實際上是兩種不同類別的高維向量域,因此本文采用深度對比學習的方法,對高維初始狀態向量進行區分學習,進而實現對復雜環境中高維捕獲域(逃逸域)的間接表征。

1 問題描述與建模

1.1 無人機運動建模

假設兩架無人機在水平面內進行博弈對抗,其相對運動關系如圖1所示。

圖1 無人機二維追逃博弈幾何模型Fig.1 Geometric model of UAVs two-dimensional pursuit-evasion game

圖1 中,OXZ為地面坐標系。P、E 分別代表追擊方無人機(以下簡稱“追擊方”)和逃逸方無人機(以下簡稱“逃逸方”)。vP、vE分別為追擊方和逃逸方的速度矢量,速度矢量與OX軸的夾角為速度方向角ψ,若由OX軸逆時針旋轉至速度矢量,則ψ為正,反之為負。ηPE為追擊方速度矢量前置角,即vP與目標視線之間的夾角,若由速度矢量逆時針旋轉到目標視線,則ηPE為正,反之為負。分別為追擊方和逃逸方的切向加速度大小則為雙方的法向加速度大小。qPE為追擊方-逃逸方無人機視線角。

考慮擾動的無人機運動模型為:

式中:xi,zi(i=P,E)為無人機i的質心坐標和為復雜環境中的等效有界擾動。考慮到無人機機動能力的有限性,其控制量須滿足:

在無人機追逃博弈問題中,無人機i可通過攜帶的慣導、雷達探測器等裝置獲得自身與對手的位置以及自身的速度信息,故可得雙方之間的距離rPE及追擊方速度矢量前置角ηPE為:

式中:vP、rPE分別為追擊方速度大小與追逃雙方相對距離大小。

假設ra為追擊無人機的毀傷半徑,Tmax為考慮燃油等因素的無人機允許飛行最長時間。當滿足以下不等式時,認為追擊方成功捕獲逃逸方,否則認為逃逸方成功逃逸。

式中:TPE為追逃博弈的實際時間。

1.2 無人機追逃博弈數學建模

對于無人機追逃博弈問題,追擊方與逃逸方是非合作目標,雙方的博弈目的完全沖突,此問題實質上是一種完全競爭的零和博弈(Zero-sum game,ZSG)問題。二維平面內運動的無人機通過調整切向加速度和法向加速度來實現對運動的控制,即無人機i的控制量ui=

追逃博弈過程中,追擊方(逃逸方)在考慮對方的前提下,不斷調整自身的策略以縮短(增加)相對距離來實現捕獲(逃逸)。根據追逃雙方上述博弈目標,構建t時刻基于相對距離的博弈效能微分函數jP(uP,uE)、jE(uP,uE),考慮總博弈時間為TPE,則時間-控制量效能目標函數為:

式中:λi(i=P,E)為加權系數。

綜上,本文的無人機追逃博弈三要素為:博弈者集合{P,E}、動作集合U={uP,uE}、效能函 數{JP,JE}。

在無人機追逃博弈過程中,追逃雙方分別根據當前的狀態調整策略,獨立優化各自的效能函數JP,JE,并得到各自的最優策略。假設目標函數JP,JE:uP×uE→R在uP×uE上連續,則根據博弈論中的納什均衡理論,雙方的策略滿足如下不等式時,零和博弈存在納什均衡態:

式中:J=JP。對于零和博弈,博弈均衡態是博弈系統的穩定狀態。本文采用的基于多智能體強化學習算法的無人機追逃博弈求解框架,在“集中式訓練”中,追逃雙方的博弈能力不斷提升,最終雙方的效能函數均達到考慮對手策略與狀態下的最優,系統到達博弈納什均衡態。采用“分布式執行”的方式,追逃雙方可根據自身狀態執行將所有對手的狀態與動作考慮在內的納什均衡策略,得到在不同初始條件下的納什均衡解。

2 采用MADDPG算法的追逃雙方納什均衡解求解

MADDPG 算法基于多個智能體之間的博弈關系,采用全局觀測信息與策略不斷評估各個智能體的決策。本節首先介紹多智能體馬爾科夫決策過程與MADDPG 算法理論,最后給出了采用MADDPG 算法的無人機追逃博弈納什均衡解求解流程。

2.1 追逃雙方多智能體馬爾科夫決策過程

2.1.1 追逃雙方的狀態空間與動作空間

對于多智能體強化學習,其采用的馬爾科夫決策過程可以看作一種隨機博弈(Stochastic games,SG)框架,具體可以表示為:

式中:S為包含環境中所有智能體的所有狀態的空間集合,在無人機博弈問題中,觀測量S為:

設N為參與博弈的智能體數量,A1,A2,…,AN表示各智能體的動作,則多智能體的聯合動作A可表示為A=A1×A2× …×AN,對于無人機追逃博弈,無人機i(i∈{P,E})的動作為其切向加速度大小ati和法向加速度大小ani,則聯合動作A為:

式(8)中的P:S×A×S→[0,1]為狀態轉移矩陣,γ∈[0,1]為獎勵期望中的衰減因子。

2.1.2 追逃雙方的獎勵函數

式(8)中,R1,R2,…,RN為智能體的即時獎勵。獎勵函數的設置對于MADDPG 算法的收斂性具有重要影響。追逃博弈過程中,式(3)中的相對距離rPE與追擊方速度矢量前置角ηPE對追逃雙方的博弈態勢有著至關重要的作用,因此可根據這2 項設定獎勵函數。

式(14)中:ηa為追擊方期望的速度矢量前置角,為了有利于追擊目標并且網絡不至于太難收斂,其一般設為一個較小的值,本文設為15°。

為了避免常值獎勵函數帶來的獎勵稀疏問題,式(11)~(14)中,在常值獎勵函數的基礎上增加了隨時間變化的項(式(12)和(14)的常值獎勵函數可看作0)。

綜上,對于第m步,追擊方獎勵函數RP為:

類似地,逃逸方的獎勵函數RE也由4 部分組成:

考慮到逃逸方目標與追擊方相反且采用零和馬爾科夫博弈的前提,式(16)中4 部分獎勵函數分別為:

2.1.3 無人機追逃博弈的納什均衡態表征

追逃雙方無人機智能體i(i∈{P,E})的狀態值函數為:

式中:πi為智能體i的策略,π-i為除去智能體i以外其他智能體的策略;Ei表示智能體i的累計回報在聯合狀態St=T=s處的期望值為智能體i在t=T+1 時刻獲得的獎勵;St=T+1為所有智能體在t=T+1時刻的聯合狀態集;γ仍然為折扣系數。

對于無人機追逃博弈這個零和博弈問題,所有智能體i(i∈{P,E})都在最大化各自的策略價值函數,其納什均衡態可表示為:

式中:πi,?、π-i,?分別為智能體i與除去i外的其他智能體的納什均衡策略;∏i為智能體i的策略集。

2.2 MADDPG算法框架

MADDPG 算法的網絡結構分為Actor 網絡與Critic 網絡,其采用“集中式訓練,分布式執行”的框架進行訓練,意義在于:在訓練過程中,通過全局集中式的Critic 網絡對各個獨立的agent 進行訓練,使得每個agent 都在考慮全局信息的前提下對自身的局部策略進行調整,避免了單智能體算法無法解決的環境不平穩問題;在分布式應用時,每個Actor 網絡僅需根據自身的觀測信息便可得出策略。

采用MADDPG 算法的無人機追逃博弈求解算法架構如圖2所示。

圖2 采用MADDPG算法的無人機追逃博弈求解算法架構Fig.2 Framework of the MADDPG algorithm solving the pursuit-evasion game between UAVs

多智能體追逃博弈網絡中,每個智能體的Critic網絡的輸入包括所有智能體的全局信息,網絡損失函數為:

Critic 網絡通過最小化式(20)來實現自身網絡參數的更新。

追逃雙方智能體的Actor 網絡則采用梯度下降法進行參數更新,每個智能體的Actor網絡僅需要局部信息,以此實現后續的分布式執行。

智能體(i∈{P,E})的Actor 網絡梯度的計算公式為:

式(20)~(21)中,參數上下標t代表更新網絡參數的第t個數據,其中t=1,2,…,K。

追逃雙方的Actor網絡參數的更新公式為:

式中:η為學習率,θi為Actor網絡參數。

在MADDPG 集中式訓練過程中,追逃雙方智能體i(i∈{P,E})的策略梯度均按照式(20)~(22)進行更新。當每個智能體的獎勵函數都趨于收斂時,雙方的獎勵均為考慮對手策略下的最優,根據1.2小節以及式(6)可知,此時便得到了多智能體追逃博弈的納什均衡解。

2.3 對比學習下的追逃雙方捕獲域和逃逸域求解

2.3.1 無人機捕獲域和逃逸域的表征

對于無人機追逃博弈,雙方的博弈結果取決于博弈的初始態勢,即不同的初始狀態對應的雙方博弈結果不同。本文中,定義追擊方成功捕獲所對應的追逃雙方初始條件的集合為捕獲域;逃逸方成功逃逸所對應的初始條件的集合稱為逃逸域。

若對抗開始時,追逃雙方的位置、速度大小已定,則表示初始速度方向的速度方向角組合(ψP0,ψE0)可表征捕獲域和逃逸域;若對抗開始時,追逃雙方的速度大小和方向已定,則雙方的初始位置XPE=(xP0,zP0,xE0,zE0)T可表征捕獲域和逃逸域。

以(ψP0,ψE0)表征的捕獲域(由于逃逸域也類似,以下均不再寫逃逸域)是二維平面內的點集,因此可較容易地直觀表征。而以(xP0,zP0,xE0,zE0)T表示的捕獲域為四維點集,其表征比較困難。如果對抗開始時雙方的位置和速度均未定,則表征捕獲域的向量維度更高。本文采用對比學習的方法來求取高維捕獲域。

對比學習通過讓孿生神經網絡學習數據點之間的相似或不同的關系,來獲得區分數據點類別的能力[21]。對于高維度的向量,孿生神經網絡將其映射為一個具有區分度的低維向量,并通過衡量低維向量之間的相似度來衡量高維向量之間的相似度。

對于本文中的高維捕獲域與逃逸域,兩者互不相容,故可采用對比學習的方法,利用孿生神經網絡將高維初始條件映射為具有區分度的低維特征向量,并衡量低維特征向量的相似程度,進而對高維的捕獲域和逃逸域進行間接表征。

2.3.2 深度對比學習的樣本集獲取

給定典型攻防對抗場景下的初始條件,采用收斂的MADDPG 博弈網絡獲得不同初始態勢下的博弈結果,從而獲得捕獲成功樣本點集和逃逸成功樣本點集。之后,采用先隨機打亂、后隨機取樣的方式獲得具有相同分布且互不相容的訓練樣本集、驗證樣本集與測試樣本集,用于孿生神經網絡的訓練和測試。

2.3.3 采用深度對比學習的捕獲域求解

孿生神經網絡的2 個輸入為追逃博弈的2 個初始條件X1,X2,以Y來表示X1,X2的差異 度。若X1,X2對應的博弈結果相同,稱其為同類樣本對,則Y=0;若不同,則為異類樣本對,同時Y=1。孿生神經網絡由2 個共享權重的深度神經網絡構成,輸入為高維的向量樣本對X1,X2,輸出為具有可提取特征的低維樣本對G(X1),G(X2)。X1,X2之間的相似程度用映射后的低維向量之間的歐氏距離D來衡量,即:

設定歐氏距離閾值ε,當D(X1,X2) ≤ε時,認為X1,X2相似;反之,則認為X1,X2相異。對比學習算法通過低維樣本的相似度衡量高維向量的相似度,具體見文獻[21]。

孿生神經網絡的損失函數為對比損失函數L,其表達式為[21]:

基于訓練集中的同類樣本對與異類樣本對,通過最小化L來不斷更新網絡參數,最終可訓練出使異類樣本對相互遠離,同類樣本對相互靠近的孿生神經網絡。當L趨于0 并穩定后,認為孿生神經網絡收斂,此時網絡便具有了穩定地提取特征的能力。

設孿生神經網絡提取特征能力的強弱由區分正確率ζ來表示:

式中:N為總樣本數,M為孿生神經網絡區分正確的樣本數。

本文采用對比學習算法,在訓練過程中通過L來調整網絡參數,直到驗證集與訓練集的ζ均不低于95%且L收斂時,停止訓練。再應用測試集對該網絡的區分效果進行非重復試驗,進而驗證網絡對樣本區分的有效性與魯棒性。

3 仿真校驗及分析

3.1 仿真條件

本仿真在CPU 為i5-6500 CPU@3.20 GHz、內存為12 GB 的PC 機上進行,基于Pycharm Community 2022.03.22 平臺、采用Python 3.7 語言進行程序編寫,深度學習環境采用Pytorch 1.13.1。

追逃雙方無人機的初始位置、初始速度大小及方向范圍、雙方的切向和法向加速度范圍,以及擾動見表1。表中dti與dni在擾動范圍內均勻分布。

表1 追逃雙方初始參數、加速度及擾動Table 1 The initial parameters,accelerations of the pursuer and escaper and the disturbances

假設追擊方無人機毀傷半徑ra=15 m。MADDPG 算法中的Actor 網絡與Critic 網絡的參數設置見表2。

表2 MADDPG網絡參數Table 2 Network parameters of MADDPG

MADDPG算法訓練參數設置見表3。

3.2 無人機博弈對抗納什均衡解求解分析

采用表2~3 的網絡與算法參數,對處于表1 隨機場景中的追逃雙方無人機進行集中式訓練,得到的追逃雙方平均回合獎勵如圖3所示。

圖3 追逃雙方平均回合獎勵Fig.3 Average episode reward of the pursuer and escaper

由圖3可知,博弈對抗網絡在經過1 849回合的集中式訓練后,追逃雙方平均回合獎勵趨于收斂,此時雙方的獎勵函數都在考慮對方策略的前提下趨于收斂穩定,系統達到了均衡狀態,此時博弈對抗網絡即為納什均衡網絡。

采用收斂的MADDPG 博弈對抗網絡作為策略生成網絡,對給定追逃雙方初始條件的場景進行“分布式執行”,實現雙方無人機的博弈對抗。假設某作戰場景中,追擊方的初始位置(xP0,zP0)為(-30.84,24.42)m,初始速度大小vP0=148.75 m/s,初始發射方向ψP0=69.13°;逃逸方初始位置(xE0,zE0)為(27.99,1 727.25)m,初始速度大小為vE0=24.42 m/s,初始發射方向ψE0=-34.68°。追逃雙方切向、法向加速度范圍與訓練時相同,見表1。

采用MADDPG 決策網絡得到追逃雙方的飛行軌跡(包含第20、30、40步的追逃雙方實時位置和視線)如圖4所示。

圖4 追逃雙方運動軌跡Fig.4 The trajectory of the pursuer and the escaper

由圖4可知,在給定場景中,追擊方在t=9.809 s時與逃逸方的相對距離rPE達到15 m,實現了對逃逸方的捕獲。

追擊方和逃逸方的切向加速度、法向加速度變化如圖5~8所示。

圖5 追擊方切向加速度Fig.5 The tangential acceleration of the pursuer

圖6 逃逸方切向加速度Fig.6 The tangential acceleration of the escaper

圖7 追擊方法向加速度Fig.7 The centripetal acceleration of the pursuer

圖8 逃逸方法向加速度Fig.8 The centripetal acceleration of the escaper

由圖5~8可知,追擊方的切向加速度較小且其變化也較小,而其法向加速度變化較大;逃逸方的法向加速度較小且其變化也較小,但其切向加速度較大,因此追擊方主要通過法向機動進行追擊而逃逸方主要通過切向機動進行逃逸。

對于無人機追逃博弈,不同的初始條件下,追逃雙方的博弈結果也不同,接下來求解以初始發射方向、初始位置表征的捕獲域和逃逸域。

3.3 無人機追逃博弈捕獲域與逃逸域求解

1) (ψP0,ψE0)表征的捕獲域與逃逸域

假設追逃雙方的初始位置、速度大小以及加速度范圍與3.2 中的仿真場景一致,追擊方、逃逸方的初始速度方向角ψP0與ψE0分別在[60°,75°]和[ -45°,-15°]內采樣。采用收斂的MADDPG 決策網絡作為無人機的控制網絡,根據博弈結果,可直接通過蒙特卡洛打靶的方式得到以(ψP0,ψE0)表征的捕獲域和逃逸域,具體如圖9所示。

圖9 捕獲域與逃逸域的劃分Fig.9 Division of capture region and escape region

圖中,藍色區域為捕獲域,紅色區域為逃逸域,分別表征追擊方成功捕獲與逃逸方成功逃逸的(ψP0,ψE0)。

2) (xP0,zP0,xE0,zE0)表征的捕獲域與逃逸域

假設追逃雙方無人機初始速度大小及加速度范圍同3.1 中的仿真場景,本部分設雙方的初始發射方向分別為ψP0=60°,ψE0=-30°。追擊方初始位置的xP0、zP0分別在(-100,0)m 和(0,100) m 內均勻采樣,逃逸方初始位置的xE0、zE0分別在(0,100) m 和(1 700,1 800) m內均勻采樣。將四維向量XPE=[xP0,zP0,xE0,zE0]T輸入MADDPG 博弈對抗網絡,根據博弈結果,劃分同類樣本對與異類樣本對,2類樣本對的數量基本符合1∶1 的比例。2 類樣本對混合得到總樣本對集合W。基于W按照8∶2∶2的比例劃分訓練集T、驗證集V和測試集J,各樣本集中同類、異類樣本對的數量也基本符合1∶1的比例,具體見表4。

表4 訓練集、驗證集和測試集參數Table 4 The parameters of the training set、validation set and test set

對比學習訓練參數以及孿生神經網絡結構參數設置見表5。

表5 對比學習訓練參數和孿生神經網絡參數Table 5 The training parameters of contrastive learning and parameters of the Siamese Network

在計算區分正確率的式(25)中,設N=100。在表4和表5的基礎上,得到孿生神經網絡的L隨回合數變化曲線如圖10所示;訓練集與驗證集的區分正確率隨回合數變化的曲線如圖11所示。

圖10 孿生神經網絡的損失函數圖Fig.10 The loss of the Siamese Network

圖11 訓練集與驗證集的區分正確率Fig.11 The distinguish accuracy rate of the training and validation set

由圖10 可知,經過40 回合的訓練后,孿生神經網絡的L逐漸收斂至0附近;由圖11可知,隨著回合數的增多,訓練集和驗證集的區分正確率呈現振蕩上升趨勢,當回合數為90 時,測試集和驗證集的區分正確率均達到96%,此時滿足算法終止條件(區分正確率大于95%),停止訓練。

從測試集中隨機抽取100 個樣本對,采用第90 回合的孿生神經網絡對其進行判別,重復進行30 次。在30 次的測試結果中,最低的ζ為88%,最高的ζ達99%,平均ζ為94.8%,說明訓練出的孿生神經網絡對于追擊成功與逃逸成功對應的高維初始條件有著較強的區分能力。

隨機從W中抽取1 414 個高維樣本(追擊成功、逃逸成功樣本分別為621、793個),將其輸入至孿生神經網絡,根據深度對比學習算法的原理,網絡將輸出具有可區分特征的低維向量,其空間分布如圖12所示。

圖12 追擊成功與逃逸成功的低維可提取特征向量分布Fig.12 Low-dimensional extractable feature vector distribution of successful pursuit and successful escape

由圖12可知在絕大多數情況下,經由對比學習得到的孿生神經網絡可將追擊成功與逃逸成功的高維向量對應的低維特征向量明顯地區分開,即:同類樣本點的低維特征向量之間的距離大部分小于歐氏距離閾值0.1,異類樣本點的低維特征向量之間距離則大部分大于0.1。結合式(24)可知,孿生神經網絡使同類樣本點相互靠近而異類樣本點相互遠離,以此實現了對于高維初始條件的區分,進而間接表征了高維捕獲域。

在實際應用時,令孿生神經網絡的其中一個輸入為捕獲成功的某初始條件向量(xP0,zP0,xE0,zE0)T=(-50,40,90,1 790)Tm,另一個輸入是需判別的20個初始條件向量,得到的對比學習分類與實際分類結果如表6所示(為了節省篇幅,只給出其中10個的結果)。表中P和E分別表示捕獲成功和逃逸成功。

表6 采用孿生神經網絡的捕獲與逃逸預測Table 6 The predictions of the pursuit and escape success by using Siamese Network

由表6 可知,對比學習網絡的區分正確率為95%,說明了此對比學習的孿生神經網絡對于捕獲域(逃逸域)表征的有效性。

4 結論

本文針對二維平面內無人機追逃博弈問題,研究了博弈均衡解的求取以及捕獲域(逃逸域)的表征問題。主要結論有:提出了一種考慮零和博弈的無人機追逃博弈獎勵函數設計方法,并建立了多智能體追逃博弈馬爾科夫模型;構建了采用MADDPG算法的追逃博弈策略求解框架,并求得了博弈均衡解;提出了一種采用深度對比學習理論和孿生神經網絡的捕獲域(逃逸域)求解方法,實現了對2 個高維區域的有效區分和間接表征。

猜你喜歡
智能
智能與自主
讓紙變得智能
一種智能微耕機的研發
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
爭渡智能石化
能源(2018年4期)2018-05-19 01:53:44
主站蜘蛛池模板: 精品久久久久久久久久久| 亚洲成aⅴ人在线观看| 九色免费视频| 婷婷伊人久久| 亚洲天堂啪啪| 亚洲伊人久久精品影院| 又大又硬又爽免费视频| 亚洲人成人无码www| 日本国产一区在线观看| 欧美色亚洲| 999在线免费视频| 亚洲国语自产一区第二页| 亚洲性影院| 亚洲精品日产AⅤ| 亚洲免费人成影院| 婷婷综合色| www精品久久| 制服丝袜在线视频香蕉| 国产成人久久777777| 免费A级毛片无码免费视频| 亚洲av色吊丝无码| 国产成人精品视频一区二区电影 | 中文字幕av一区二区三区欲色| 日本欧美精品| 福利姬国产精品一区在线| 国产毛片高清一级国语| 亚洲 成人国产| 国产黑丝一区| 在线a网站| 毛片久久久| 国产香蕉在线| 欧美无专区| 国产午夜看片| 国产网站免费看| 亚洲福利一区二区三区| 亚洲第一区欧美国产综合| 无码精品国产dvd在线观看9久| 四虎成人免费毛片| 香蕉久人久人青草青草| 午夜日韩久久影院| 爱色欧美亚洲综合图区| 日本高清视频在线www色| 激情爆乳一区二区| 伊人色综合久久天天| 国产女人18毛片水真多1| 国产在线视频导航| 永久免费精品视频| 国产丝袜无码精品| 91成人在线免费观看| 亚洲色图欧美| 色呦呦手机在线精品| 亚洲天堂精品视频| 欧美不卡在线视频| 亚洲另类国产欧美一区二区| 一本久道热中字伊人| 成年人久久黄色网站| 欧美黄网在线| 秘书高跟黑色丝袜国产91在线| 人与鲁专区| 亚洲国产综合精品一区| 少妇精品在线| 99热国产这里只有精品9九 | 青草娱乐极品免费视频| a网站在线观看| 色欲色欲久久综合网| 日韩精品欧美国产在线| 欧美一级专区免费大片| 国内精品小视频在线| 国产鲁鲁视频在线观看| 18禁影院亚洲专区| 成人福利在线观看| 激情乱人伦| а∨天堂一区中文字幕| 国产91视频观看| 成人午夜视频网站| 国产av无码日韩av无码网站| 国产91无码福利在线| 亚洲热线99精品视频| 亚洲精品免费网站| 久久婷婷五月综合97色| 青草视频免费在线观看| 一本一道波多野结衣一区二区|