基于不確定性的貝葉斯策略重用方法

2025-03-20 00:00:00付可陳浩王宇劉權黃健

系統工程與電子技術 2025年2期

摘要：針對多智能體對抗中因對手策略變化導致的非平穩性問題，在對手動作不可獲取的限制下，提出一種基于不確定性的貝葉斯策略重用算法。在離線階段，在策略學習的同時，通過自編碼器建模智能體軌跡與對手動作之間的關系表征以構建對手模型。在在線階段，依據對手模型和有限交互信息，估計對手策略類型的不確定性，并基于此選擇最優應對策略并重用。最后，在兩種對抗場景下的實驗結果表明所提算法相比3種先進的基線方法識別精度更高，且識別速度更快。

關鍵詞：多智能體對抗; 貝葉斯策略重用; 強化學習; 關系表征

中圖分類號： TP 301.6

文獻標志碼： ADOI：10.12305/j.issn.1001 506X.2025.02.20

Uncertainty based Bayesian policy reuse method

FU Ke， CHEN Hao， WANG Yu， LIU Quan， HUANG Jian*

（College of Intelligence Science and Technology， National University of Defense Technology， Changsha 410073， China）

Abstract：To solve the non stationarity problem caused by opponent policy changes in multi agent competitions， this paper proposes an algorithm called uncertainty based Bayesian policy reuse under the restriction of unavailability of the online opponent’s actions. In the offline phase， use an autoencoder to model the relationship representation between agent trajectories and the opponent actions during policy learning. In the online phase， the agent evaluates the uncertainty of the opponent type only conditioning on limited interaction information and the built opponent models. Afterward， optimal response policy is selected for execution. The proposed algorithm on two scenarios and demonstrate that it has higher recognition accuracy and faster speed than three state of the art baseline methods.

Keywords：multi agent competition; Bayesian policy reuse; reinforcement learning; relationship representation

0 引言

多智能體系統（multi agent systems， MAS）通過在一個系統中考慮多個智能體來擴展經典的決策問題^［^1-2^］。多智能體對抗作為其子方向之一，已被廣泛應用于游戲^［^3-4^］、軍事^［^5-6^］、機器人^［^7-8^］等領域。然而，在現實世界的對抗交互中，對手方可能會采取不同的策略，策略會隨著時間的推移而發生變化。MAS中的智能體共享同一個環境并相互影響，導致系統非平穩，（藍方）智能體難以快速適應變化的對手策略^［^9-10^］。例如，若每個玩家都配備一個策略庫，并根據交互信息選擇適當的策略重用來最大化自己的利益，在這種情況下，如何快速、準確地識別和適應在線交互中突然切換策略的非平穩對手是一個具有挑戰性的問題。

貝葉斯策略重用（Bayesian policy reuse， BPR）框架及其衍生方法可以在面對一個未標記（但之前見過的）任務時，有效地識別和重用已有策略^［^11-12^］。BPR+^［13^］將BPR擴展到非平穩對手的多智能體設定中。面向策略層面的貝葉斯心智理論策略（Bayesian theory of mind on policy， Bayes ToMoP）^［¹⁴^］算法引入了心智理論（theory of mind， TOM）^［15-16^］來應對具備更高層次策略推理能力的對手，即假設對手同樣也可以采用BPR推理。盡管這些方法有所成效，但其信念高度依賴只使用回合獎勵作為更新信號的性能模型，不足以快速、準確地識別對手的策略。

將對手行為融入BPR框架是提高識別精度的有效方法。深度BPR （deep BPR， Deep BPR+）^［¹⁷^］算法使用一個神經網絡模型擬合對手策略，即從對手的歷史交互序列中描述其行為。這樣處理的優點是即便在面對未訪問過的狀態時，依舊可以推斷對手的行為。然而，該方法假設在交互中可以準確獲取對手的私有動作信息，這一假設在現實應用中難以保證。例如，在空戰中，很難即時準確判斷對方的機動動作，但卻可以感知由該動作引起的態勢變化。

本文重點關注在執行階段對手動作信息不可獲取的對抗場景下，如何快速應對策略可切換的非平穩對手。針對該問題，提出基于不確定性的BPR（uncertainty based BPR， Uncertainty BPR）算法，該算法結合了BPR的推理能力和識別能力。Uncertainty BPR分為離線階段和在線階段。離線階段旨在學習智能體的軌跡和對手動作之間的關系表征。具體地，通過自編碼器（auto encoder， AE）^［18-19^］在潛在空間中構建智能體軌跡與對手動作的關系模型，并提取潛在特征。然后，將潛在特征作為下游強化學習（reinforcement learning， RL）任務的輸入增益。同時，統計AE重建對手動作的回合累積熵，并將其擬合為高斯分布，作為對手模型。在線階段通過對手模型以在線交互所得到的回合累積熵修正關于對手策略類型與當前所使用策略匹配度的信念，然后基于信念和性能模型，從策略庫中選擇最優應對策略并重用。最后，本文在兩個對抗場景中，證明所提算法相比于3個基準算法在識別精度和識別速度方面性能更優。

本文主要貢獻總結如下：

（1）本文結合AE模型，提出了一個基于回合累積熵的對手模型，以衡量對手策略類型的不確定性程度。

（2）本文提出了Uncertainty BPR方法，該方法在執行過程中不需要訪問對手行為即可以準確識別對手類型。

（3）經過與3個基線方法的實驗對比，本文所提算法在識別速度和識別精度方面均表現出優異的性能。

1 準備知識

1.1 問題定義

Uncertainty BPR算法的決策過程可以建模為雙人馬爾可夫博弈^［^20-21^］，并由一個5元組組成〈S，A，O，P，R 〉。其中，S是有限狀態集;A和O是智能體和對手的有限動作集;P：S×A×O×S→［0，1］是狀態轉移函數。其中，“×”表示笛卡爾積。每個玩家i有一個獎勵函數R：S×A×O→R，且試圖最大化總預期折扣回報Ri=∑^t=Tt=0γtrit，以找到最優策略π*i。其中，R是實數集，T是回合步長，r是立即獎勵，r∈［0，1］是用于平衡即時獎勵和未來獎勵的折扣因子。

然后，定義智能體的軌跡為={st，at}^t=Tt=0。

如果對手策略固定，那么雙人馬爾可夫博弈可簡化為馬爾可夫決策過程（Markov decision process， MDP），可通過RL算法求解，如近端策略優化（proximal policy optimization， PPO）^［22^］和優勢演員-評論家（advantage actor critic， A2C）^［23^］等。

1.2 智能體結構及訓練

本文設計的智能體的內部結構如圖1所示，該框架結合了AE模型和RL。其中，AE模型包含一個編碼器和一個解碼器，目的是學習智能體軌跡和對手動作之間的關系表征。假設空間Z中的潛在特征zt隱含了每個時間步t對手的動作信息。接著，采用帶有長短時記憶網絡（long short term memory， LSTM）的編碼器學習智能體軌跡與潛在特征之間的關系，即fω：1→Z，參數為ω。然后，同樣使用參數為u的解碼器來學習對手動作和潛在特征之間的關系，定義解碼器為fu：Z→O，即重建對手動作的模型。編碼器僅以智能體軌跡為條件關聯對手動作，并生成潛在特征，并將潛在特征輸入到下游RL任務中。

在每個時間步t，編碼器基于智能體的信息（s：t，a：t－1）生成潛在特征zt。同樣地，在每個時間步t，解碼器基于zt學習重建對手動作ot，即輸出對手動作的類別分布。此時，AE模型的損失函數可以寫為

LAE=－1T∑Tt=1［ln fu（ot∣zt）］（1）

式中：zt=fw（s：t，a：t－1），t為時間步;T為回合步長。在本文的實驗中，采用A2C^［23^］來求解智能體策略，但也可以使用其他RL算法替代。給定批次數據B，A2C的損失可以寫為

LA2C=E（st，at，rt+1，st+1）～B12（rt+1+γV（st+1，zt+1）－

V（st，zt））2－A^lnπθ（at∣st，zt）－λH（πθ（at∣st，zt））（2）

式中：V為值函數;E是數學期望;A^是基本優勢項;H是熵;超參數λ控制了熵正則化項的強度。

1.3 BPR

BPR框架可以在面對未標記（但之前見過的） MDP任務時有效地選擇和重用最優策略。具體的步驟是先從離線經驗中學習任務x∈χ的最優應對策略π∈Π，其中χ是任務庫，Π是智能體的策略庫。然后，將其作為任務空間上的貝葉斯先驗，并通過來自當前任務的新觀測信號σ∈Σ進行更新。信號σ可以是一個與策略π性能相關的任意信息，如即時獎勵、效用（回合獎勵、回報）或狀態-動作-狀態元組。此外，觀測模型P（σ∣x，π）是將策略π作用于任務x所產生的信號的概率分布。信念β是χ上的一個概率分布，它衡量了當前任務x*與χ中已知任務的匹配程度。信念可以用先驗概率來初始化。在每次試驗k個回合后，根據智能體觀察到的信號，使用貝葉斯規則更新信念βk（x）：

βk（x）=P（αk∣x，πk）βk－1（x）Σx′∈χP（αk∣x′，πk）βk－1（x′）（3）

BPR使用性能模型P（U|x，π）來描述每個策略π在先前解決過的任務x上獲得的效用值的概率分布。文獻［11］提出了一些探索啟發式方法，來選擇最優策略的BPR變體。BPR 預期改進（BPR expected improvement， BPR EI）啟發式算法在所有BPR變體中表現最佳。假設U-=maxπ∈Π∑x∈χ·β（x）E［U|x，π］是當前信念下的最優估計，那么BPR EI選擇最優策略的表達式如下：

π=arg maxπ∈Π∫^UmaxU-∑x∈χβ（τ）P（U+∣x，π）dU+（4）

式中：U-lt;U+lt;U^max，U+為積分變量，U^max為最大回合累積效用。這里回顧的BPR方法主要參考文獻［15］，文獻中將使用不同策略的對手視為不同的任務。

2 Uncertainty BPR

本節詳細描述了Uncertainty BPR算法的理論推導和實現過程。如圖2所示，圖2上半部分表示離線階段策略學習和模型生成的過程，下半部分表示在線階段信念修正和策略重用的過程。

2.1 離線策略學習和模型生成

假設紅藍雙方都分別伴隨著一個策略庫的形式而存在，那么首先需要在離線階段對藍方策略庫進行填充。對于特定任務x*∈χ，固定對手策略τ∈T，智能體使用圖1結構與對手進行交互，以學習最優應對策略。然后，將學習到的應對策略添加到最優應對策略庫Π中（算法1中的第1～3行）。此時，智能體的應對策略已存放于最優應對策略庫Π中。為了從策略庫Π中準確地選擇應對策略，在線執行時選擇輔助識別信息是一種挑戰。熵或信息熵是香農利用熱力學知識引入的一個概念，描述了信息源中每個可能事件發生的不確定性^［²⁴^］。它遵循一個性質，即熵值越大，不確定性越大，反之亦然。熵是機器學習（machine learning， ML）中理解各種概念的有用工具，在ML研究中被廣泛應用^［²⁵^］，概率分布的熵可以解釋為對不確定性的度量^［^26-27^］。

定義 1 定義分布p在M個狀態的離散隨機變量Y的熵為

H（Y）=－∑Mm=1p（Y=m）ln p（Y=m）（5）

本文使用熵來衡量重建對手動作的準確性，從而評估對手策略類型的不確定性。參考BPR建立性能模型的過程，本文統計了潛在特征重建對手動作時的回合累積熵。累積熵的概念與文獻［28］不同，指在整個回合中重建對手動作的熵累積和，可以表示為

h-=－∑Tt=0fu（ot|zt）ln fu（ot|zt）（6）

式中：fu（ot|zt）表示對手在時間步t時的動作類別分布;h-的值反映了重建對手動作的準確性。理論上，當智能體所使用的策略恰好是應對對手的最優策略時，h-的值最小。算法1中的第4～10行描述了性能模型和對手模型的生成過程。

算法 1 離線策略學習和模型生成

輸入智能體策略庫Π，對手策略庫Ξ

輸出性能模型P（U|Ξ，Π），對手模型P（H-|T，Π）

1. for 每個對手策略τ∈Ξ do

2." 學習最優應對策略并將其添加到Π

3. end

4. for 每個對手策略τ∈Ξ do

5.nbsp;" for 每個應對策略π∈Π do

6.使用策略π對抗策略τ

7.收集回合獎勵u和回合累積熵h-

8."" end

9."" 將u，h-擬合為高斯分布以生成性能模型

P（u|Ξ，Π）和對手模型P（h-|Ξ，Π）

10. end

2.2 在線信念修正和策略重用

識別對手策略類型的準確度將直接影響策略重用的性能。標準BPR中的信念僅依賴性能模型。然而，針對不同對手的性能模型可能是相同的。例如，在稀疏獎勵下，只有任務成功才能獲得收益，而任何的失誤都可能導致零收益。假設在某個回合中，智能體以策略πi對抗對手策略τj，如果i≠j，那么性能模型可能為

p（u=0|πi，τ1）=…=p（u=0|πi，τi－1）=…=p（u=0|π1，τn）

這導致在不同對手策略上的信念模型無法區分，即：

β（τ1）=…=β（τi－1）=β（τi+1）=…=β（τi+n）

因此，僅依靠性能模型難以準確識別對手策略類型。為了克服此問題，本文使用對手模型P（H-|Ξ，Π）來糾正信念，并且不需要在在線執行期間直接訪問對手的動作。直觀地說，修正后的信念可以理解為識別對手策略類型的后驗概率。

性能模型和對手模型是相互獨立的，因為它們分別依賴于u和h-。因此，可以直接將兩個模型相乘，以衡量對手使用策略τ時的概率，從而得到一個更準確的對手策略預測模型。此時，重寫公式中的信念更新公式為

β-k（τ）=P（h-k|τ，πk）P（uk|τ，πk）β-k－1（τ）∑τ′∈TP（h-k|τ′，πk）P（uk|τ′，πk）β-k－1（τ′）（7）

在每一回合開始時，根據信念選擇最優匹配策略π*執行：

π=arg maxπ∈Π∫^UmaxU-∑τ∈Tβ-（τ）P（U+∣τ，π）dU+（8）

式中：U-=maxπ∈Π∑τ∈τβ-（τ）E［U∣τ，π］。算法2詳細描述了在線階段的信念修正和策略重用過程。值得注意的是，上述信念修正的思路類似于Deep BPR+^［17^］，但也存在幾點差異：① Uncertainty BPR中的對手模型關注的是預測對手動作準確性的熵分布，而不是從離線經驗中學習對手的真實策略;② Deep BPR+使用神經網絡來建立對手模型，但本文使用了統計的方法;③ Deep BPR+在在線執行時需要獲取整個回合中的對手動作來識別應對策略。但是，本文所提方法不需要直接訪問對手動作。

算法 2 在線信念修正和策略重用

輸入智能體策略庫Π，對手策略庫Ξ，性能模型P（U|Ξ，Π），對手模型P（H-|Ξ，Π），最大化回合數K，回合步長T

輸出應對策略

1. 以均勻分布初始化信念β-0（τ）

2. for 回合k=1，2，…，K do

3."" 初始化環境狀態

4."" a－1←零向量，uk=hk=0

5."" 重置編碼器中LSTM的隱藏狀態

6."" 使用公式（8）選擇應對策略π*k

7."" While tlt;T and 游戲未停止 do

8.計算隱藏特征zt=fw（s：t，a：t－1）

9.智能體獲取環境狀態st并選擇動作

at=π*k（at|st，zt），對手選擇動作ot

10.計算編碼器重建對手動作的熵值

ht=fu（ot|zt）ln fu（ot|zt）

11.執行動作并獲得立即獎勵rt

12.h-k=h-k+ht，uk=uk+rt

13."" end while

14."" 將uk和h-k代入公式（7），更新信念β-k（τ）

15. end

3 實驗分析

在本節中，本文在足球游戲和追捕游戲兩種對抗環境中比較了最具代表性的3種算法，包括BPR+^［13^］、Bayes ToMoP^［14^］和Deep BPR+^［17^］。BPR+將標準BPR擴展到對抗環境，特別是那些從一個固定策略切換到另一個的設置^［¹³^］。Bayes ToMoP假設對手也使用BPR推理。Deep BPR+提出使用神經網絡來近似對手的歷史軌跡，并將其視為對手模型^［¹⁶^］。在實驗中，所有的算法都使用相同的性能模型，并且Deep BPR+可以在在線執行中獲取真實的對手動作。實驗環境包括二維網絡世界的足球游戲以及粒子群環境^［^29-30^］中的追捕游戲，其中足球游戲的全局狀態采用獨熱編碼，由球員的位置和控球權組成，而追捕游戲中的全局狀態由相應智能體的位置和速度數值組成。在離線階段，著重分析了足球游戲的實驗結果。在在線階段，分別在兩種對抗環境中評估了累積獎勵、回合獎勵以及識別對手策略準確度的指標。

3.1 環境描述

3.1.1 足球游戲

球員在足球游戲世界中的初始位置如圖3所示。紅色機器人表示智能體，藍色機器人代表對手。在每一回合開始時，對手都擁有控球權。圖中的每個網格只能容納一個球員，而球總是與球員一起存在于同一位置。當球員之間發生碰撞時，交換球權，但球員的位置不會改變。在每個時間步t，玩家從動作空間{上，下，左，右，不動}中選擇一個動作并執行。一旦球員進球或達到最大回合步長（T=50）時，游戲結束，球員和足球的位置就會被重置。在該環境中，實驗設定了3個不同的目標。當智能體帶球達到3個目標時，相應的即時獎勵分別為：rG1=100，rG2=50，rG3=20。

在足球游戲的實驗中，如圖3所示，共設計了6個對手策略，分別對應圖中的（1）～（6）。G1、G2和G3分別表示3個不同的目標，每個目標對應2個對手策略。實驗設定是只有當智能體的目標位置與當前對手策略的目標位置相匹配時，該目標才有效且可以獲得獎勵。例如，在某一任務中，如果對手使用圖3中的策略（2），那么只有當智能體將球帶入右邊的G2目標時，該結果才有效。在這種情況下，只有當智能體準確地識別到對手策略時，才能從環境中獲得相應獎勵。

3.1.2 追捕游戲

追捕游戲的初始玩家位置如圖4所示，其中包含3個捕食者和1個獵物。紅色圓球代表捕食者，藍色圓球代表獵物，四周表示黑色圍墻，智能體不可越過圍墻。在每個時間步t中，捕食者試圖與獵物相撞，而獵物的目標是避免碰撞。在每個時間步t，智能體可從動作空間{上，下，左，右，不動}中選擇一個動作并執行。如果獵物成功避免與捕食者發生碰撞，它將得到r0=0.1的獎勵。當碰撞次數分別為1、2和3時，獎勵則分別為r1=－1、r2=－5和r3=－10。一旦達到最大回合步長（T=50），游戲結束。

在實驗中，藍方控制獵物，將3個捕食者視為一個對手整體，并為對手設計了4種策略，即優先垂直追蹤、優先水平追蹤、順時針追蹤、逆時針追蹤，4種策略的具體定義如下：優先垂直追蹤：捕食者首先通過上下移動來縮小與獵物的垂直距離，然后在垂直距離足夠小時再向左或向右移動;優先水平追蹤：捕食者首先向左或向右移動，以減少與獵物的水平距離，然后在水平距離足夠小時再向上或向下移動;順時針追蹤：捕食者以順時針的運動軌跡追蹤獵物;逆時針追蹤：捕食者以逆時針的運動軌跡追蹤獵物。

3.2 離線階段實驗結果分析

本節重點分析了離線訓練階段足球游戲的實驗結果，圖5（a）和圖5（b）展示了性能模型的數值可視化，圖5（c）和圖5（d）則展示了對手模型的數值可視化，其中藍色系和橙色系分別表示效用值u和回合累積熵h-擬合為高斯分布后的均值和方差。從圖5（a）可以看出，性能模型中的均值在對角線位置時，效用值是最大的，即回合獎勵最大，此時恰好智能體面對某一對手時采取最優應對策略。但是從圖中也可以看出，由于只有在達成目標時才會得到獎勵，因此在藍方智能體某個策略πi應對不同對手策略時，可能會出現性能模型相同的情況，所以如果只依賴性能模型來識別對手類型，將會導致識別結果不準確。

對手模型的分析與前面類似，如圖5（c）和圖5（d）所示，對角線位置依舊表示智能體的最優應對策略，此時均值最小，即回合累積熵值最小，不確定性也最低。相比于性能模型，對手模型中每一行內的色塊之間顏色深淺變化更多，更能區分。因此，在性能模型的基礎上通過對手模型修正的信念會更加準確。除此之外，圖6展示了離線訓練階段解碼器重建對手動作的準確度。圖6中，πi表示智能體i;τj表示對手j。從圖6中可以看出，隨著訓練的進行，該模型能夠準確地重建出對手動作，并以此來關聯對手策略，由此也能證明本文所構建出的對手模型是較為準確的。

3.3 在線階段實驗結果分析

3.3.1 足球游戲

在在線階段，實驗分為3個階段，共運行400個回合，重復100次。在前100個回合中，對手同樣采用BPR的方式推斷智能體的策略類型并切換策略，切換間隔為20回合/次。在第100～200回合中，對手一開始采用策略（1），然后，在每3個回合中，按［（1）→（3）→（6）］或［（5）→（2）］或［（1）→（4）］的順序切換策略。在第200～400回合中，對手按照［（3）→（1）→（5）→（3）］的順序，以50回合/次的間隔切換策略。

圖7和圖8分別展示了累積獎勵和回合獎勵，圖9表示在不同階段面對不同對手策略時的識別準確率。圖中不同的顏色圖例表示不同的算法，陰影區域和灰線表示標準差。圖7和圖8中部分交替的背景顏色用以區分對手策略的切換。在第一階段的前100個回合中，對手同樣也使用性能模型對紅方智能體進行推斷。從實驗圖可以看出，4種算法性能基本保持一致，識別準確率均可達到90%以上。

在第100～200回合中，對手每隔幾個回合就會切換一次策略。與第一階段相比，從圖8和圖9可以看出，Uncertainty BPR在第二階段的性能優勢明顯，且能夠更快速地識別對手策略類型。特別地，在一個回合結束、更新信念后，對手就可以被識別且延遲較小。雖然Deep BPR+同樣也使用對手模型修正原始信念，但從圖中可以看出，當策略切換間隔小于5個回合時，該算法的識別效率會降低。此外，BPR+和Beyes ToMoP都是僅依賴回合獎勵識別對手策略類型的方法。然而，當對手策略切換間隔減小時，這兩種方法的性能皆呈現下降趨勢（見圖7和圖8），且Beyes ToMoP的波動較大。

在第200～400回合中，BPR+，Deep BPR+和Uncertainty BPR算法表現一致，皆可較快識別對手策略類型。但是，Beyes ToMoP波動最大，尤其是在第200回合開始時（見圖8），因為Bayes ToMoP需要額外的時間判斷對手是否同樣使用BPR推理。綜上，如表1所示，Uncertainty BPR在整個實驗過程中的識別準確率最高，達到87.7%，第2位是BPR+;識別準確率為84.5%，Deep BPR+和Beyes ToMoP位列第3和第4位，識別準確率分別為84.1%和81.8%。

3.3.2 追捕游戲

在在線階段，追捕游戲實驗同樣分為3個階段運行400個回合，重復100次。在前100回合中，對手采用BPR模型推斷紅方智能體的策略類型，并以20回合/次的間隔切換策略。在第100～200回合中，對手最初采用策略（1），接著以每5個回合1次的間隔按［（1）→（2）→（4）→（3）］的順序改變策略。在第200～400回合中，對手從4個候選策略中選擇1個策略，并以50回合/次的間隔進行切換，策略切換順序為［（4）→（3）→（1）→（2）］。

同樣，分析追捕游戲在在線重用階段的實驗結果，圖例表示與足球游戲相同。在前100個回合中，對手仍然具備推理能力，如圖10所示。如圖11所示，4個算法在此階段整體表現優越，識別準確率皆可達到90%以上。然而，Beyes ToMoP相對其他3個算法略有波動（見圖10和圖11），這是因為Beyes ToMoP在對手切換策略時需要額外的時間判斷對手是否使用BPR推斷。

在第100～200回合中，對手在4種策略內以5回合/次的間隔按設定的順序切換策略。由于智能體需要在回合間更新信息，所以難以立即檢測到對手策略的類型，至少需要一次交互來更新信念。因此，從圖10和圖11可以看出，當切換間隔減小時，所有算法的性能皆有所下降。其中，Beyes ToMoP和BPR+的識別準確率相對較低，這是因為BPR+和Beyes ToMoP過度依賴性能模型，使得當性能模型相似時，很難區分對手。此外，Deep BPR+的識別準確率僅略低于Uncertainty BPR。

在第200～400回合中，對手以50回合/次的間隔切換策略。如圖11和圖12所示，4個算法皆有較好的性能，可以快速識別和應對對手策略切換。不過，Beyes ToMoP相對于其他3個算法性能依舊有所波動。綜上所述，如表1所示，Uncertainty BPR在整個實驗過程中的識別準確率最高，達到92.5%;第2位是Deep BPR+，識別準確率為91.6%，BPR+、Beyes ToMoP排名第3和第4，識別準確率分別為90.7%和89.7%。

3.3.3 對策略切換間隔影響的分析

為了研究對手策略切換間隔對識別精度的影響，實驗比較不同算法在不同時間間隔切換策略時的性能。實驗將對手的切換間隔分別設置為20、10、5和3回合/次，并且在每次切換時隨機從對手策略庫T中選擇一個策略。然后，在400個回合中分別重復100次實驗。

圖13和圖14分別描述了足球游戲和追捕游戲中對手使用不同切換間隔時的識別精度。從圖中可以看出，4個算法在切換間隔較小時都有較好的效果。但是，隨著切換間隔的減小，各個算法的性能皆有所下降。其中Bayes ToMoP算法性能損失最為明顯，因為該算法需要額外的時間來判斷對手是否使用BPR推斷。而Deep BPR+的表現明顯優于BPR+和Bayes ToMoP。Uncertainty BPR算法的性能則依舊是最好的。綜上所述，本文所提算法在適應一個回合后就能識別出對手的策略。

4 結論

在多智能體對抗中，快速地識別和適應在線執行中動作不可獲取的非平穩對手是一個具有挑戰性的問題。本文提出合理的假設，并對具體的方法和實驗進行描述性分析。在理論上，為了避免在線執行時直接獲取對手動作，本文以離線建模、在線使用的思路，結合AE模型，通過統計重建對手動作的回合累積熵建立對手模型。然后，利用對手模型以在線交互回合累積熵修正信念，選擇最優策略并重用，并通過實驗驗證所提方法的有效性。具體地，Uncertainty BPR相比于僅依賴回合獎勵作為更新信號的BPR+和Bayes ToMoP，識別速度更快。此外，雖然Uncertainty BPR不能直接訪問對手動作，但是依舊可以取得與Deep BPR+相同、甚至更好的識別效果。

參考文獻

［1］ ZHOU Z Y， LIU G J， TANG Y. Multi agent reinforcement learning： methods， applications， visionary prospects， and cha llenges［EB/OL］. ［2023-09-05］. https：∥doi.org/10.48550/arXiv.2305.10091.

［2］WEN M N， KUBA J， LIN R J， et al. Multi agent reinforcement learning is a sequence modeling problem［J］. Advances in Neural Information Processing Systems， 2022， 35： 16509-16521.

［3］VINYALS O， BABUSCHKIN I， CZARNECKI W M， et al. Grandmaster level in StarCraft II using multi agent reinforcement learning［J］. Nature， 2019， 575（7782）： 350-354.

［4］GAO Y M， LIU F Y， WANG L， et al. Towards effective and interpretable human agent collaboration in MOBA games： a communication perspective［C］∥Proc.of the 11th International Conference on Learning Representations， 2023.

［5］張磊，李姜，侯進永，等. 基于改進強化學習的多無人機協同對抗算法研究［J］. 兵器裝備工程學報， 2023， 44（5）： 230-238.

ZHANG L， LI J， HOU J Y， et al. Research on multi UAV cooperative confrontation algorithm based on improved reinforcement learning［J］. Journal of Ordnance Equipment Engineering， 2023， 44（5）： 230-238.

［6］POPE A P， IDE J S， MICOVIC D， et al. Hierarchical reinforcement learning for air combat at DARPA's Alpha dog fight trials［J］. IEEE Trans.on Artificial Intelligence， 2022， 4（6）： 1371-1385.

［7］ANDRIES S， HERMAN A E， WILLIE B， et al. Scaling multi agent reinforcement learning to full 11 versus 11 simulated robotic football［J］. Autonomous Agents and Multi Agent Systems， 2023， 37（1）： 30.

［8］孫輝輝，胡春鶴，張軍國. 基于主動風險防御機制的多機器人強化學習協同對抗策略［J］. 控制與決策， 2023， 38（5）： 1429-1450.

SUN H H， HU C H， ZHANG J G. Cooperative countermeasure strategy based on active risk defense multiagent reinforcement learning［J］. Control and Decision， 2023， 38（5）： 1429-1450.

［9］ZHANG T. Opponent modelling in multi agent systems［D］. London： University College London， 2021.

［10］HU H M， SHI D X， YANG H H， et al. Independent multi agent reinforcement learning using common knowledge［C］∥Proc.of the IEEE International Conference on Systems， Man， and Cybernetics， 2022： 2703-2708.

［11］ROSMAN B， HAWASLY M， RAMAMOORTHY S. Bayesian policy reuse［J］. Machine Learning， 2016， 104： 99-127.

［12］何立，沈亮，李輝，等. 強化學習中的策略重用：研究進展［J］. 系統工程與電子技術， 2022， 44（3）： 884-899.

HE L， SHEN L， LI H， et al. Survey on policy reuse in reinforcement learning［J］. Systems Engineering and Electronics， 2022， 44（3）： 884-899.

［13］HERNANDEZ LEAL P， TAYLOR M E， ROSMAN B， et al. Identifying and tracking switching， non stationary opponents： a Bayesian approach［C］∥Proc.of the 30th Conference on Artificial Intelligence， 2016.

［14］YANG T P， MENG Z P， HAO J Y， et al. Towards efficient detection and optimal response against sophisticated opponents［C］∥Proc.of the 28th International Joint Conference on Artificial Intelligence， 2019： 623-629.

［15］WEERD H D， VERBRUFFE R， VERHEIJ B. How much does it help to know what she knows you know？ an agent based simulation study［J］. Artificial Intelligence， 2013， 199： 67-92.

［16］HERNANDEZ LEAL P， KARTAL B， TAYLOR M E. A survey and critique of multiagent deep reinforcement learning［J］. Autonomous Agents and Multi Agent Systems， 2019， 33： 750-797.

［17］ZHENG Y， MENG Z P， HAO J Y， et al. A deep Bayesian policy reuse approach against non stationary agents［C］∥Proc.of the Advances in Neural Information Processing Systems， 2018.

［18］BANK D， KOENIGSTEIN N， GIRYES R. Autoencoders［J］. Machine Learning for Data Science Handbook， 2023. DOI：https：∥doi.org/10.1007/978 3 031 24628 9_16.

［19］ZHAI J H， ZHANG S F， CHEN J F， et al. Autoencoder and its various variants［C］∥Proc.of the IEEE International Conference on Systems， Man， and Cybernetics， 2018： 415-419.

［20］LI C J， ZHOU D， GU Q， et al. Learning two player Markov games： neural function approximation and correlated equilibrium［J］. Advances in Neural Information Processing Systems， 2022， 35： 33262-33274.

［21］GUO W B， WU X， HUANG S， et al. Adversarial policy learning in two player competitive games［C］∥Proc.of the 38th International Conference on Machine Learning， 2021： 3910-3919.

［22］SCHULMAN J， WOLSKI F， DHARIWAL P， et al. Proximal policy optimization algorithms［EB/OL］. ［2023-09-05］. https：∥doi.org/10.48550/arXiv.1707.06347.

［23］VOLODYMYR M， ADRIA P B， MEH D， et al. Asynchronous methods for deep reinforcement learning［C］∥Proc.of the 33th International Conference on Machine Learning， 2016.

［24］姜楠，王健. 信息論與編碼理論［M］. 北京：清華大學出版社， 2010.

JIANG N， WANG J. The theory of information and coding［M］. Beijing： Tsinghua University Press， 2020.

［25］ZHANG T， YING W G， GONG Z C， et al. A regularized opponent model with maximum entropy objective［C］∥Proc.of the 29th International Joint Conference on Artificial Intelligence， 2019.

［26］WIMMER L， SALE Y， HOFMAN P， et al. Quantifying aleatoric and epistemic uncertainty in machine learning： are conditional entropy and mutual information appropriate measures？［C］∥Proc.of the 39th Conference on Uncertainty in Artificial Intelligence， 2023： 2282-2292.

［27］MURPHY K P. Probabilistic machine learning： an introduction［M］. Cambridge： Massachusetts Institute of Technology Press， 2022.

［28］CRESCENZO D A， LONGOBARD M. On cumulative entropies［J］. Journal of Statistical Planning and Inference， 2009， 139（12）： 4072-4087.

［29］PAPOUDAKIS G， CHRISTIANOU F， ALBRECHT S. Agent modelling under partial observability for deep reinforcement learning［J］. Advances in Neural Information Processing Systems， 2021， 34： 19210-19222.

［30］LOWE R， WU Y I， TAMAR A， et al. Multi agent actor critic for mixed cooperative competitive environments［C］∥Proc.of the 31st International Conference on Neural Information Processing Systems， 2017： 6382-6393.

作者簡介

付可（1993—），女，博士研究生，主要研究方向為多智能體強化學習、系統仿真。

陳浩（1993—），男，講師，博士，主要研究方向為多智能體強化學習、系統仿真。

王宇（1998—），男，博士研究生，主要研究方向為多智能體強化學習、系統仿真。

劉權（1985—），男，副研究員，博士，主要研究方向為機器學習、無線傳感器網絡。

黃健（1971—），女，研究員，博士，主要研究方向為系統仿真、機器學習。

系統工程與電子技術2025年2期

系統工程與電子技術的其它文章: 基于Vondrak Cepek組合濾波和注意力機制加權的時間比對融合算法; 基于AHP權重優化的數據鏈跳頻網絡信道負載統計算法; 基于新信息準則與梅西算法的LSC DSSS信號序列估計; 并行載波索引差分混沌移位鍵控通信方案; 基于多尺度融合神經網絡的同頻同調制單通道盲源分離算法; 面向陣列天線抗干擾無人機的隱蔽誘騙方法