摘 要:無人機集群博弈對抗已經成為未來戰爭的發展趨勢,無人機對抗決策算法的選擇對提升無人機集群作戰能力至關重要。本文深入探討了基于規則的、基于博弈論的和基于神經網絡的三大類無人機集群博弈對抗決策算法,并對它們的優勢和局限性進行了全面分析與總結。在此基礎上,提出將“基于多智能體強化學習的信用分配模型”和“基于角色的多智能體強化學習模型”應用于無人機集群博弈對抗的研究思路。最后,強調了選擇適當的決策算法對于提高無人機集群作戰效能的重要性,并為未來無人機對抗決策的發展提出了有益的建議,為相關領域的研究和應用提供了深入見解。
關鍵詞:無人機集群; 博弈對抗; 專家系統; 博弈論; 多智能體強化學習
中圖分類號:V279 文獻標識碼:A DOI:10.19452/j.issn1007-5453.2024.04.002
基金項目: 航空科學基金(20200058069001)
現代戰爭形式呈現多樣化特征,各種武器裝備層出不窮,作為一種替代人類執行高風險、高難度任務的工具,無人機具備廣泛的應用前景[1-2]。然而,獨立行動的無人機面臨載荷能力有限、戰術預測性不足等問題。在這一背景下,無人機集群作戰模式以其獨特的規模大、分散度高、作戰能力強、戰術決策水平高等特點,逐漸成為一種新興的作戰形式。通過充分發揮無人機集群的規模和分散度,可以實現內部的快速大量信息傳輸和共享,從而顯著提高無人機集群的對抗博弈能力。在無人機集群作戰中,決策算法直接決定了無人機集群的作戰能力。因此,無人機決策算法的研究至關重要。
本文旨在全面總結目前主流的無人機集群對抗決策算法,涵蓋了基于規則、博弈論和神經網絡的對抗決策算法。通過深入分析這些算法的適用場景和局限性,揭示了它們在解決復雜軍事問題上的差異和局限。針對基于強化學習的對抗決策算法中存在的信用分配和角色同質化問題,本文提出了兩種創新性的基于強化學習的對抗決策算法。最后,結合當前研究現狀,本文強調了選擇適當的決策算法對于提高無人機集群作戰效能的緊迫性,并為未來無人機對抗決策算法的發展指明了可行的研究方向,為相關領域的研究和實際應用提供啟示。
1 基于規則的無人機對抗決策算法
基于規則的無人機對抗決策算法通過設置規則來指導無人機在對抗環境中做出決策。首先出現的是基于專家知識的對抗決策算法,這類算法通過大量的先驗專家知識來構建規則,無人機在實際作戰中將戰場態勢與規則進行匹配來做出決策。基于專家知識的算法具有決策速度快的優點,但是對未知情況的適應性差,隨后出現了基于貝葉斯網絡的對抗決策算法,這類方法通過貝葉斯網絡構建各因素之間的依賴關系,對未知情況有較好的適應能力。
1.1 基于專家系統的方法
如圖1所示,基于專家系統的無人機對抗決策算法將專家知識構建為規則庫和綜合數據庫,在實際作戰中將當前輸入的戰場態勢等信息與專家系統中的規則進行匹配,進而做出決策[3]。
1975年,美國國家航空航天局(NASA)開發了自適應機動邏輯(AML),首次使用專家系統進行機動決策[4]。在面對形式瞬息萬變的戰場態勢時,基于專家系統的方法能夠快速準確地進行決策。這一特點使得基于專家系統的方法得到了充分發展和廣泛應用。目前基于專家系統的方法已經成為無人機博弈對抗領域發展最成熟的技術之一。
趙威等[3]利用專家系統來判斷敵機的威脅等級并對攻擊目標進行排序,提出了基于空戰任務和目標編隊組合的協同攻擊排序方法。隨著深度學習的發展,基于深度學習的專家系統已經涌現出來,這類方法采用深度神經網絡進行決策,能夠處理更加復雜的情況,并且能夠通過學習自主提取特征。Mao Yiming等[5]采用基于深度學習的方法來構建專家系統,利用Transformer網絡提出了一種能夠從歷史數據中學習知識的戰術狀態決策過程建模方法。該方法能夠隨著實戰經驗的增加自動更新專家系統以適應不斷變化的戰斗場景。
快速決策的特點使得基于專家系統的方法得到了廣泛應用。但同時,專家系統也受限于知識庫和推理機制的局限性,針對未知情況可能表現不佳。將專家系統與其他方法(如貝葉斯網絡、深度學習)結合實現共同決策,以彌補其局限性是未來基于專家系統的無人機決策方法的發展趨勢。
1.2 基于貝葉斯網絡的方法


孟光磊等[6]構建了一個4層動態貝葉斯模型,能根據不確定信息來推理敵方軌跡和戰略意圖,并利用從飛行員經驗中獲取的先驗知識確定對抗策略,能較好地適應戰場的形勢變化。Ren Zhi等[7]提出了一種基于不完全信息動態博弈的協同決策方法,使用動態貝葉斯網絡來推斷敵方無人機的戰術意圖,最后結合強化學習框架來求解空戰博弈模型。針對無人機空戰適應性差、決策模式不合理等問題,Meng Guanglei等[8]提出了一種基于目標軌跡預測的最優空戰決策方法。首先根據空戰情況,設置不同的性能指標函數,然后利用貝葉斯網絡識別敵方意圖,根據實時情況分析結果,選擇不同的性能指標函數進行最優控制。
通過概率分布,貝葉斯網絡可以量化不確定性,并提供對不確定性的推理能力,這使得其在面對不完整數據時具有魯棒性。但目前基于貝葉斯網絡的方法通常需要與其他方法結合來選擇對抗策略。
2 基于博弈論的無人機集群博弈對抗決策算法


博弈論研究博弈雙方如何基于對方的策略來優化自己的策略,基于博弈論的方法也就是研究雙方無人機集群之間策略交互的方法[9]。不同于依賴大量先驗知識庫的方法,基于博弈論的策略交互方法通過逐步自學習達到最優策略。在應對無人機集群空戰的強對抗性和強動態性方面,博弈論的應用能夠生成更適用于實戰的決策計劃。本節聚焦于博弈論在無人機集群博弈對抗中的應用,首先介紹博弈對抗決策模型,包括確定策略集合、態勢優勢函數以及求解納什均衡的過程。隨后,探討博弈對抗決策與控制方法,包括粒子群算法、蟻群算法、人工魚群算法和狼群算法等不同群體智能算法的應用。
2.1 博弈對抗決策模型
基于納什均衡的決策模型在無人機集群博弈對抗中被廣泛研究[9-10]。該方法首先需要確定對抗雙方無人機的策略集合和態勢優勢函數,然后求解納什均衡。
影響無人機態勢優勢函數的因素主要由雙方對抗關系得到,如圖3所示。由圖3可知,影響因素可包括雙方無人機之間的角度、速度、距離等。vA和vB分別表示無人機A和B的速度,αA和αB分別表示無人機A和B的方位角,dAB表示無人機A和B之間的距離。綜合多種優勢函數,根據權重不同,可以得到無人機間總的態勢優勢函數[11]。

在確定對抗雙方的策略集合和態勢優勢函數后,進一步結合集群中每個無人機的態勢優勢,得到對抗雙方各自的總體態勢優勢函數矩陣,并根據具體場景中的收益函數,得到雙方各自的收益矩陣。基于由雙方策略集合組成的混合策略以及雙方的收益矩陣,可定義博弈對抗策略模型。混合策略的納什均衡解即為無人機集群的最優策略。為了求得納什均衡解,常將最優策略的約束轉化為優化問題,最優值對應的混合策略就是博弈問題的納什均衡點[12]。
上述過程給出了單位時間內對抗雙方最優策略的求解方法,由于無人機集群的對抗過程是動態的,因此需要將上述過程應用于博弈對抗時間段內的每個時間點。也就是從初始時間起,在每個單點時間內,雙方無人機集群根據求得的最優策略,得出下一時刻的狀態,包括無人機姿態和位置等,從而進行下一步的最優策略求解。
姚宗信等[10]將對抗雙方可能的互相攻擊方式作為策略集合,根據雙方的攻擊有效性和攻擊代價建立優勢態勢函數和收益矩陣,并基于過往戰術經驗和模擬仿真結果對混合策略的分布進行預測。盛磊等[11]為對抗的攻守雙方建立了各自的動態攻防場景和策略,根據攻守方的不同假設構建收益矩陣。
部分研究通過構建除納什均衡模型外的其他模型來對無人機集群對抗問題進行建模,其中也包括對納什均衡模型的變體。惠一楠等[13]提出,在實際空戰場景中,無人機之間只能知道他人的決策分布,而難以觀察到他人的真實決策,所以無人機集群的博弈對抗并不是完全信息博弈,而是非完全信息博弈。因此,他們基于非完全信息動態博弈理論,構建貝葉斯納什均衡模型并求解。黃宇銘等[14]提出只研究納什均衡條件意味著模型只有單步預見的能力,因此他們綜合考慮了包括納什穩定性、一般元理性、對稱元理性和序貫穩定性在內的4種穩定性,使所得決策擁有更高的預見水平。陳俠等[15]提出在實際空戰環境中,由于各種因素的干擾(如傳感器精度和環境干擾等),無人機所能獲得的信息往往不是精確的,因此他們建立了模糊信息下的態勢優勢函數,并構建了基于模糊信息的收益矩陣,提出了模糊信息下的博弈對抗決策模型。
2.2 博弈對抗決策與控制方法
基于2.1節提出的博弈對抗決策模型,無人機集群通過控制個體無人機決策,在群體水平上表現出復雜行為,來達到不同的作戰能力。在這一過程中,模擬自然界各種群體行為而產生的群體智能算法,因為具有較好的可擴展性、并行性、實現簡單等特點,被廣泛應用于無人機集群博弈對抗的決策。
粒子群算法是一種模擬鳥群行為的隨機搜索算法,具有能夠在保持多樣性的同時快速收斂的特點,其基本思想如圖4所示。圖4中,A為粒子的當前位置,B為粒子的個體極值位置,C為群體的全局最優位置。綠色為個體當前速度(矢量),藍色為向個體極值位置的速度(矢量),紅色為向全局最優位置的速度(矢量),黃色為基于粒子群算法得到的目標速度(矢量),受算法參數影響。粒子群算法首先初始化一群粒子表示可行的解,每個粒子具有位置、速度、適應度三個特征。隨后粒子在問題的搜索空間中運動,其運動方向同時跟蹤該粒子的個體極值位置和群體的全局最優位置。粒子每運動一次,即每更新一次位置,就計算一次適應度值,并與自己的個體極值和全體的全局最優值比較,從而更新各自極值位置和群體最優位置。粒子群算法的標準形式如式(2)所示

陳俠等[16]將粒子群算法和區間數多屬性方案排序方法相結合,求解不完全信息下無人機攻防博弈中的納什均衡問題。Duan Haibin等[17]引入生物界的捕食者-獵物機制,提出混合捕食者-獵物粒子群算法,緩解了粒子群算法容易陷入局部最優的問題,在無人機博弈對抗的任務分配中得到有效應用。該方法通過將任務分配方案表示為雙方的可選策略集,將粒子群算法應用于無人飛行器的任務分配問題,并通過使用粒子群算法求解混合納什均衡來獲得博弈雙方的協同任務分配結果。在每個決策步驟,針對敵方決策,捕食者-獵物粒子群算法通過計算矩陣對策的混合納什均衡來最大化其自身收益。在此過程中,通過將粒子分為捕食者和獵物兩類,并相應地調整它們的速度,捕食者-獵物算法獲得了較高的尋優性能。多種粒子群算法變體也被提出來求解納什均衡。


Zhen Ziyang等[19]針對無人機集群的協同搜索和攻擊任務規劃問題,提出改進的分布式蟻群算法對無人機進行任務分配。Yang Fan等[20]針對無人機策略中完全未知的搜索空間,提出了改進的蟻群算法行為準則和信息素圖的更新原則,達到了更高的覆蓋率和搜索效率。
人工魚群算法利用魚群典型的覓食行為、聚群行為、追尾行為和隨機游動行為,解決復雜非線性優化問題[21],如圖6所示。Li Zhanwu等[22]提出改進的魚群算法,以保證無人機生存能力和最小化武器消耗為目標,應用于無人機集群空戰中的武器分配問題。Jiang Haobo等[23]針對無人機協同作戰的目標分配問題,將蟻群算法中的擁擠度引入魚群算法,所得到的混合算法在搜索前期不易陷入局部最優,在搜索后期收斂速度快。


狼群算法模擬狼群的社會等級層次和群體捕食行為來達到優化的目的,并平衡局部搜索和全局搜索[24]。Hua Xiang等[25]將無人機集群視為多個并行的狼群,提出具有多種群機制的狼群算法,通過采用多層優化策略,有效地解決集群對抗中的多目標分配問題。
綜上所述,博弈論在無人機集群博弈對抗中提供了一種框架,用于研究無人機之間的策略交互和最優決策計劃,能夠確定對抗雙方無人機的策略集合,構建態勢優勢函數,并求解納什均衡。而群體智能算法在無人機集群博弈對抗中可以幫助實現復雜的群體行為和優化目標,這類具有可拓展性和并行性特點的算法可用于控制個體無人機的決策,使無人機集群在博弈對抗中表現出協同性和適應性,從而提高無人機集群的性能,幫助其應對動態和復雜的對抗環境。
3 基于神經網絡的無人機集群對抗決策算法
基于神經網絡的無人機對抗決策算法通過神經網絡來實現對對抗態勢的感知并做出決策,能動態適應戰場態勢的變化。由于訓練神經網絡需要大量數據,而實戰數據較難獲取,所以目前訓練神經網絡的數據大多來自仿真平臺。根據訓練方式的不同,可以分為基于強化學習和基于深度學習的算法,基于強化學習的方法通過與仿真環境的交互來不斷地直接優化策略網絡,而基于深度學習的方法往往關注如何通過神經網絡提取戰場態勢信息,從而做出決策。本節首先介紹這兩類方法的工作方式,然后介紹該方向的代表性工作,最后總結這類方法的使用場景和限制。
3.1 基于強化學習的對抗決策算法
強化學習無須依賴模型或先驗信息,而是通過不斷試錯,根據從環境中得到的獎勵來優化自身策略。如圖7所示,強化學習包含智能體、環境、狀態、動作和獎勵5個主要組成部分。當智能體執行動作時,環境進入一個新的狀態,并發出相應的正獎勵信號或負獎勵信號。在接收到這些信息后,智能體會根據策略選擇新的動作以適應新的狀態和獎勵信號。

深度神經網絡與強化學習結合后,智能體可以在仿真環境中迭代優化無人機集群對抗算法, 適用于解決那些建模困難、決策復雜且多變的無人機集群決策控制問題。
王爾申等[26]從無人機集群實戰特性入手,通過對多智能體的獎勵函數進行創新,來搭建基于非完全信息的多智能體柔性行動器-評判器(MASAC),并通過試驗證明該方法可以在無人機集群對抗博弈的場景取得很好的性能。但該方法還不能很好地應用于存在異質無人機集群的對抗博弈中。符小衛等[27]針對主流算法多智能體深度確定性策略梯度(MADDPG)中存在的值函數高估問題,引入TD3算法并將其擴展到多智能體領域中,提出了優先經驗回放多智能體雙延遲深度確定性策略算法(PERMATD3),該算法采用優先經驗回放機制,提高了算法的收斂速度和穩定性,并在障礙物隨機分布的復雜環境下取得了很好的對抗效果。文永明等[28]針對復雜場景中無人機集群對抗的突防軌跡和目標分配等決策問題,提出了集群對抗多耦合任務智能決策方法。該方法解決了無人機對抗中決策空間大、場景不確定和在線決策耦合任務多的問題,并在多種隨機場景的紅藍博弈中驗證了該方法的有效性和先進性。
基于強化學習的無人機集群對抗決策算法適用于建模困難的集群對抗環境,但是基于強化學習的方法需要在試錯的基礎上優化自身,因此往往需要先在仿真環境下訓練再投入實際戰場環境。此外,獎勵函數直接決定了強化學習算法的性能,如何設置獎勵函數也是基于強化學習的方法當前面臨的重要問題。
針對多智能體強化學習中的信用分配問題,李濰團隊[29]提出了“基于多智能體強化學習的信用分配模型”,并在此基礎上設計了“基于注意力機制的內部獎勵網絡”用于提高智能體之間團隊協作的有效性,以及“內部獎勵和外部獎勵混合網絡”使得網絡輸出的總獎勵值更加適應環境的變化。該模型從建立精準內部獎勵的角度,根據每個智能體在團隊協作任務中的貢獻度,生成對應的內部獎勵,并動態結合來自多智能體環境中的全局獎勵。針對無人機集群博弈對抗場景,相較于現有代表性算法,該模型有望實現更快收斂速度和更高獲勝率。
針對多智能體強化學習算法中的策略同質化問題,李濰團隊[30]提出了“基于角色的多智能體強化學習模型”。該模型包含了一種新的角色定義方法以及角色分配策略,使得智能體能夠根據實際環境依照動態的角色分配從不同的角度做出決策,避免了決策的狹隘性。同時,為了解決引入角色選擇模塊所導致的動作價值估計效率低下問題,該模型在雙流估計架構的基礎上,采用了一種新的動作價值估計雙流架構。針對無人機集群博弈對抗場景,相較于現有代表性算法,該模型有望達到更快收斂速度、更佳魯棒性及更高獲勝率。
3.2 基于深度學習的對抗決策算法
深度神經網絡是模仿生物神經系統的計算模型,具有強大的非線性擬合能力和自學習能力,可以適應無人機集群對抗決策中的環境變化和目標變化。
Schvaneveldt等[31]根據在模擬空戰中測量的各種參數的值,用人工神經網絡預測交戰結果。證實了人工神經網絡模型在空戰機動決策領域的可行性和有效性,并實現了具有強魯棒性的自適應無人機決策控制方法。張宏鵬等[32]利用含有36種機動動作的飛行仿真數據構建樣本,并利用該樣本訓練深度神經網絡,對所有動作所對應的未來態勢進行預測,使無人機可以在較短的時間內做出更具優勢的決策。
為了進一步改善決策算法的不足,目前很多研究聚焦于改進神經網絡的結構或將其他決策算法與神經網絡相結合,來提升無人機對抗決策性能。李鋒等[33]提出了一種利用模糊神經網絡進行決策的方法,將超視距空戰分為進入、攻擊和脫離三個階段,并根據不同階段的特點,設計了相應的模糊神經網絡結構和規則庫,實現了對空戰態勢信息和目標預測信息的快速處理和決策輸出。Li Bo等[34]提出了一種基于卷積神經網絡(CNN)的智能機動決策模型。將空戰態勢數據輸入CNN中,得到機動決策變量,然后依照仿真實驗的評價指標調整CNN的參數和結構。結果表明該方法比基于人工神經網絡的方法具有更好的決策性能。
利用深度神經網絡,可以有效地處理空戰中的不確定性和非線性性,充分地對數據特征和知識進行自動提取和表達,實現對空戰態勢的快速判斷和適應性決策。但基于深度神經網絡的方法需要大量的訓練數據和合理的網絡結構,并且缺乏可解釋性。
4 結論與展望
無人機集群已成為未來戰爭中的重要一環。無人機集群對抗決策技術對無人機集群的智能化至關重要,本文通過梳理現有文獻,對無人機集群對抗決策方法及各方法的優勢和適用場景進行歸納總結,包含了基于規則的方法、基于博弈論的方法和基于神經網絡的方法。三種方法各有優勢,適應不同的應用場景?;谝巹t的方法在可解釋性上表現出色,但在處理復雜和動態的對抗態勢時,可能無法靈活適應快速變化的戰場環境。基于博弈論的方法在理論建模和策略優化上具有優勢,但在處理實際對抗環境時受制于對完全信息的依賴,對于不完全信息和快速變化的戰局表現不佳。基于神經網絡的方法在處理非線性和不確定性方面表現出色,但需要大量實戰數據進行訓練,且其性能受訓練數據質量和獎勵函數設計的影響較大。
綜合當前的研究現狀,認為無人機集群對抗決策領域以下幾個問題值得深入研究。
(1)單一種類的決策算法的限制
無人機集群對抗中,采用單一種類的決策算法會受到一定限制。例如,基于規則的方法在未知場景下決策可信度較低;基于博弈論的方法對環境建模要求較高;基于神經網絡的方法需大量數據進行訓練。未來決策算法的發展趨勢是將不同方法相互結合,突破單一方法的限制,提高決策的準確性和可靠性。
(2)深度學習缺乏可解釋性
當前許多無人機決策算法借助深度學習來提高模型的表征能力。但由于無人機集群對抗系統面對的是嚴肅殘酷的戰場環境,對于可靠性要求極高。一旦出現難以預測的錯誤,或由于無法解釋決策而產生戰術配合失誤,將會造成巨大損失。因此決策算法的發展依賴于深度學習的理論突破。
(3)仿真與實際作戰環境差距大
由于實際作戰環境中各種因素錯綜復雜,在仿真環境中能順利完成任務的算法不一定能適應實際作戰環境。一方面,完善仿真平臺,使其能更好地模擬實際戰場;另一方面,提高決策算法對不確定性的適應能力,是未來無人機決策的重要發展方向。
參考文獻
[1]張炯,牛歡,陳雪.基于多傳感器融合的無人機應急著陸功能研究[J].航空科學技術,2022,33(11):11-20. Zhang Jiong, Niu Huan, Chen Xue. Research on UAV emergency landing function based on multi-sensor fusion[J]. Aeronautical Science Technology, 2022, 33(11): 11-20. (in Chinese)
[2]郭強,何勝杰,程家林,等.一種無人機自主規避導彈的威脅度評估方法[J].航空科學技術,2022,33(7):8-14. Guo Qiang, He Shengjie, Cheng Jialin, et al. A threat evaluation method of autonomous UAV avoidance missile[J]. Aeronautical Science Technology, 2022, 33(7): 8-14. (in Chinese)
[3]趙威. 基于專家系統的雙機協同攻擊決策技術研究[D]. 西安: 西北工業大學, 2007. Zhao Wei. Research on decision making technique of twomachine cooperative attack based on expert system[D]. Xi’an: Northwestern Polytechnical University, 2007.(in Chinese)
[4]Burgin G H, Fogel L J, Phelps J P. An adaptive maneuvering logic computer program for the simulation of one-on-one air-toair combat: General description[R]. NASA-CR- 2582, 1975.
[5]Mao Yiming, Xia Zhijie, Li Qingwei, et al. Accurate decisionmaking method for air combat pilots based on data-driven[C]. International Conference on Data Mining and Big Data, 2022: 439-448.
[6]孟光磊,劉德見,周銘哲,等.近距空戰訓練中的智能虛擬對手決策與導引方法[J]. 北京航空航天大學學報, 2022, 48(6): 937-949. Meng Guanglei, Liu Dejian, Zhou Mingzhe, et al. Intelligent virtual opponent decision making and guidance method in short-range air combat training[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(6): 937-949.(in Chinese)
[7]Ren Zhi, Zhang Dong, Tang Shuo, et al. Cooperative maneuver decision making for multi-UAV air combat based on incomplete information dynamic game[J]. Defence Technology, 2022, 27:308-317.
[8]Meng Guanglei, Zhang Cheng, Liu Shouye, et al. UAV Attack and defense optimization guidance method based on target trajectory prediction[C]. 2019 IEEE International Conferences on Ubiquitous Computing Communications (IUCC) and Data Science and Computational Intelligence (DSCI) and Smart Computing, Networking and Services (SmartCNS). IEEE, 2019: 495-499.
[9]Omidshafiei S, Tuyls K, Czarnecki W M, et al. Navigating the landscape of multiplayer games[J]. Nature Communications, 2020, 11(1): 5603.
[10]姚宗信,李明,陳宗基. 基于博弈論模型的多機協同對抗多目標任務決策方法[J]. 航空計算技術, 2007(3): 7-11. Yao Zongxin, Li Ming, Chen Zongji. Mission decision-making method of multi-aircraft cooperative attack multi-object based on game theory model[J]. Aeronautical Computing Technique, 2007(3): 7-11.(in Chinese)
[11]盛磊,時滿紅,亓迎川,等. 基于態勢演化博弈的無人機集群動態攻防[EB/OL]. (2023-06-21). http://kns. cnki. net/kcms/ detail/11.2422.TN.20230619.1902.004.html. Sheng Lei, Shi Manhong, Qi Yingchuan, et al. Dynamic offense and defense of UAV swarm based on situation evolution game[EB/OL]. (2023-06-21). http://kns. cnki. net/ kcms/detail/11.2422.TN.20230619.1902.004.html.(in Chinese)
[12]Yan Ming, Yuan Huimin, Xu Jie, et al. Task allocation and route planning of multiple UAVs in a marine environment based on an improved particle swarm optimization algorithm[J]. EURASIP Journal on Advances in Signal Processing, 2021, 94: 1-23.
[13]惠一楠,朱華勇,沈林成. 無人機攻防對抗不完全信息動態博弈方法研究[J]. 兵工自動化, 2009, 28(1): 4-7. Hui Yinan, Zhu Huayong, Shen Lincheng. Study on dynamic game method with incomplete information in UAV attackdefends campain[J]. Ordnance Industry Automation, 2009, 28(1): 4-7.(in Chinese)
[14]黃宇銘,葛冰峰,侯澤強,等. 基于沖突分析圖模型的多無人機協同空戰博弈[J]. 系統工程理論與實踐,2023(9):2714-2725. Huang Yuming, Ge Bingfeng, Hou Zeqiang, et al. Multiunmanned aerial vehicle cooperative air combat gaming based on graph model for conflict resolution[J].Systems EngineeringTheory Practice, 2023(9): 2714-2725.(in Chinese)
[15]陳俠,趙明明,徐光延. 基于模糊動態博弈的多無人機空戰策略研究[J]. 電光與控制, 2014, 21(6): 19-23+34. Chen Xia, Zhao Mingming, Xu Guangyan. Fuzzy dynamic game based operation strategy for multiple UAVs[J]. Electronics Optics Control, 2014, 21(6): 19-23+34. (in Chinese)
[16]陳俠,劉敏,胡永新. 基于不確定信息的無人機攻防博弈策略研究[J]. 兵工學報, 2012, 33(12): 1510-1515. Chen Xia, Liu Min, Hu Yongxin. Study on UAV offensive/ defensive game strategy based on uncertain information[J]. Acta Armamentarii, 2012, 33(12): 1510-1515.(in Chinese)
[17]Duan Haibin, Li Pei, Yu Yaxiang. A predator-prey particle swarm optimization approach to multiple UCAV air combat modeled by dynamic game theory[J]. IEEE/CAA Journal of Automatica Sinica, 2015, 2(1): 11-18.
[18]Pendharkar P C. An ant colony optimization heuristic for constrained task allocation problem[J]. Journal of Computational Science, 2015, 7: 37-47.
[19]Zhen Ziyang, Xing Dongjing, Gao Chen. Cooperative searchattack mission planning for multi-UAV based on intelligent self-organized algorithm[J]. Aerospace Science and Technolo‐gy, 2018, 76: 402-411.
[20]Yang Fan, Ji Xiuling, Yang Chengwei, et al. Cooperative search of UAV swarm based on improved ant colony algorithm in uncertain environment[C].2017 IEEE International Confer‐ence on Unmanned Systems (ICUS). IEEE, 2017: 231-236.
[21]Pourpanah F, Wang Ran, Lim C P, et al. A review of artificial fish swarm algorithms: Recent advances and applications[J]. Artificial Intelligence Review, 2023, 56(3): 1867-1903.
[22]Li Zhanwu, Chang Yizhe, Kou Yingxin, et al. Approach to WTA in air combat using IAFSA-IHS algorithm[J]. Journal of Systems Engineering and Electronics, 2018, 29(3): 519-529.
[23]Jiang Haobo, Li Song, Lin Chi, et al. Research on target assignment method based on ant colony-fish group algorithm[J]. Journal of Physics: Conference Series. IOP Publishing, 2019, 1419(1): 012002.
[24]Mirjalili S, Mirjalili S M, Lewis A. Grey wolf optimizer[J]. Advances in Engineering Software, 2014, 69: 46-61.
[25]Hua Xiang, Wang Zhao, Yao Hongjuan, et al. Research on many-to-many target assignment for unmanned aerial vehicle swarm in three-dimensional scenarios[J]. Computers Electrical Engineering, 2021, 91: 107067.
[26]王爾申,劉帆,宏晨,等.基于MASAC的無人機集群對抗博弈方法[J].中國科學: 信息科學, 2022, 52(12):2254-2269. Wang Ershen, Liu Fan, Hong Chen, et al. A MASAC-based adversarial game approach for UAV clusters[J]. China Science: Information Science, 2022, 52(12): 2254-2269. (in Chinese)
[27]符小衛,徐哲,朱金冬,等.基于PER-MATD3的多無人機攻防對抗機動決策[J].航空學報,2023,44(7):196-209. Fu Xiaowei, Xu Zhe, Zhu Jindong, et al. Multi-UAV attackdefense countermeasure maneuver decision based on PERMATD3[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(7):196-209. (in Chinese)
[28]文永明,石曉榮,黃雪梅,等.一種無人機集群對抗多耦合任務智能決策方法[J].宇航學報, 2021, 42(4): 504-512. Wen Yongming, Shi Xiaorong, Huang Xuemei, et al. An intelligent decision-making method for UAV cluster countermeasures with multiple coupled tasks[J]. Journal of Astronautics, 2021, 42(4):504-512.(in Chinese)
[29]Li Wei, Liu Weiyan, Shao Shitong, et al. Attention-based intrin‐sic reward mixing network for credit assignment in multi-agent reinforcement learning[J/OL]. IEEE Transactions on Games:1-13. (2023-03-29). https://doi.org/10.1109/TG.2023.3263013.
[30]Li Wei, Qiu Ziming, Shao Shitong, et al. MDDP: Making deci‐sions from different perspectives in multi-agent reinforcement learning[J/OL]. IEEE Transactions on Games:1-14. (2023-11-01). https://doi.org/10.1109/TG.2023.3329376.
[31]Schvaneveldt R W, Goldsmith T E, Benson A E, et al. Neural network models of air combat maneuvering[R]. Armstrong Laboratory, 1992.
[32]張宏鵬,黃長強,軒永波,等.基于深度神經網絡的無人作戰飛機自主空戰機動決策[J]. 兵工學報, 2020, 41(8):1613-1622. Zhang Hongpeng, Huang Changqiang, Xuan Yongbo, et al. Maneuver decision of autonomous air combat of unmanned combat aerial vehicle based on deep neural network[J]. Acta Armamentarii, 2020, 41(8):1613-1622.(in Chinese)
[33]李鋒,孫隆和,佟明安.基于模糊神經網絡的超視距空戰戰術決策研究[J]. 西北工業大學學報, 2001, 19(2):317-322. Li Feng, Sun Longhe, Tong Ming’an. A tactical decision support system for bvr air combat based on neural network[J]. Journal of Northw estern Polytechnical University, 2001, 19(2): 317-322.(in Chinese)
[34]Li Bo, Liang Shiyang, Tian Linyu, et al. Intelligent aircraft maneuvering decision based on CNN[C]// Proceedings of the 3rd International Conference on Computer Science and Application Engineering, 2019: 1-5.
Review of UAV Swarm Air-combat Decision-making Algorithms
Li Wei1, Huang Shiyi1, Liu Hongming1, Sun Zhangjun2
1. Southeast University, Nanjing 210096, China
2. AVIC Xi’an Flight Automatic Control Research Institute, Xi’an 710076, China
Abstract: UAV swarm air-combat has become the development trend of future warfare, and the selection of UAV swarm air-combat decision-making algorithms is crucial for improving the UAV swarm combat ability. This paper delve into three types of UAV swarm air-combat decision-making algorithms based on rules, game theory, and neural networks, and comprehensively analyze and summarize their advantages and limitations. On this basis, this paper propose to apply the multi-agent reinforcement learning based credit assignment model and role-based malti-agent reinforcement learning model and design for UAV swarm air-combat. Finally, it emphasize the importance of selecting appropriate decision algorithms to improve the combat effectiveness of UAV clusters, and provide useful suggestions for the development of UAV countermeasures decision-making in the future, providing in-depth insights for research and application in related fields.
Key Words: UAV swarm; air-combat; expert system; game theory; multi-agent reinforcement learning