丁偉,明振軍,王國新,閻艷
(北京理工大學(xué) 機(jī)械與車輛學(xué)院,北京 100081)
在未來作戰(zhàn)過程中提前預(yù)知裝備體系的作戰(zhàn)效能,是對(duì)體系作戰(zhàn)方案進(jìn)行優(yōu)化并最終贏得勝利的重要前提。裝備體系可視為一種典型的多智能體系統(tǒng)(MAS)[1]。近年來,多智能體系統(tǒng)在交通管理[2]、信息處理[3]、導(dǎo)彈防御[4]等方面表現(xiàn)出良好的環(huán)境適應(yīng)性和魯棒性。該類系統(tǒng)通常由共享同一個(gè)公共環(huán)境、具備自主交互能力的智能群體組成,利用傳感器感知環(huán)境并通過執(zhí)行器輸出動(dòng)作,能夠彼此協(xié)作完成指定的復(fù)雜任務(wù)。如何基于MAS 仿真準(zhǔn)確地動(dòng)態(tài)預(yù)測(cè)作戰(zhàn)效能,一直是未來戰(zhàn)爭(zhēng)面臨的重要課題,其目標(biāo)是通過探索效能演化過程規(guī)律,為指揮人員提供更全面、更準(zhǔn)確的體系效能評(píng)估,從而提高作戰(zhàn)過程的決策能力和應(yīng)對(duì)突發(fā)事件的調(diào)整能力。
作戰(zhàn)體系效能預(yù)測(cè)是多智能體攻防(MAAD) 問題中克敵制勝的重要手段,通過綜合評(píng)估歷史效能數(shù)據(jù)來預(yù)測(cè)我方的作戰(zhàn)效能及戰(zhàn)場(chǎng)走勢(shì),可為作戰(zhàn)決策提供有力的保障。若戰(zhàn)場(chǎng)缺乏效能預(yù)測(cè)輔助支持,將不利于作戰(zhàn)指揮者做出準(zhǔn)確且全面的即時(shí)決策。
在作戰(zhàn)對(duì)抗方面,相關(guān)專家學(xué)者對(duì)表征作戰(zhàn)效能的相關(guān)數(shù)學(xué)模型進(jìn)行了研究。例如,牛德智等[5]從飛機(jī)作戰(zhàn)效能評(píng)估的角度出發(fā),建立了能夠表征數(shù)據(jù)鏈效應(yīng)的改進(jìn)Lanchester 方程航空作戰(zhàn)模型,為空戰(zhàn)決策提供了參考依據(jù)。Peng 等[6]采用基于系統(tǒng)動(dòng)力學(xué)理論建立作戰(zhàn)仿真和損耗預(yù)測(cè)模型,分析了影響紅藍(lán)兩軍作戰(zhàn)效能的因素,為有效實(shí)施戰(zhàn)場(chǎng)援助提供了科學(xué)分析。無人集群作戰(zhàn)效能方面,齊智敏等[7]從群體能力、作戰(zhàn)條件和群體條件三個(gè)維度,建立智能無人機(jī)群體作戰(zhàn)效能空間,為下一步構(gòu)建智能無人機(jī)群體作戰(zhàn)效能評(píng)估模型、優(yōu)化評(píng)估方法奠定了基礎(chǔ)。劉顯光等[8]提出了一種基于多層次指標(biāo)權(quán)重和灰色理論結(jié)合的有人/無人機(jī)反艦作戰(zhàn)效能評(píng)估模型,為智能戰(zhàn)場(chǎng)效能評(píng)估研究提供了新思路。
在地空作戰(zhàn)效能評(píng)估方面,也取得了頗多成果。魏武臣等[9]從快速響應(yīng)需求、平臺(tái)安全性需求、投放靈活性需求、任務(wù)效率、效費(fèi)比5 個(gè)方面進(jìn)行分析,提出了基于作戰(zhàn)仿真推演的空-地制導(dǎo)彈藥效能評(píng)估方法,為指揮員提供了輔助決策支持。郭雷平等[10]采用指標(biāo)聚合方法評(píng)估合成部隊(duì)主要光電裝備在體系對(duì)抗中的作戰(zhàn)效能,分析基于觀察、判斷、決策、行動(dòng)(OODA) 環(huán)的光電裝備作用,面向偵察打擊全過程建立了光電裝備作戰(zhàn)效能評(píng)估模型。王瑛等[11]針對(duì)無人機(jī)作戰(zhàn)編隊(duì)問題,使用美國國防部體系結(jié)構(gòu)框架(DoDAF) 構(gòu)建了無人協(xié)同作戰(zhàn)體系框架,建立了協(xié)同作戰(zhàn)能力指標(biāo)體系,突破了單項(xiàng)效能指標(biāo)的局限性。韓月明等[12]梳理了集群協(xié)同作戰(zhàn)效能評(píng)估方法,闡述了各自特點(diǎn)及適用性,并對(duì)作戰(zhàn)效能評(píng)估研究領(lǐng)域的發(fā)展動(dòng)向進(jìn)行了展望。隨著人工智能的迅速發(fā)展,效能預(yù)測(cè)方面也獲得了巨大的研究潛能。劉國強(qiáng)等[13]對(duì)炮光集成武器系統(tǒng)的作戰(zhàn)效能進(jìn)行了有效的評(píng)估和預(yù)測(cè),建立了相應(yīng)的效能評(píng)估模型和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN) 預(yù)測(cè)模型。任俊等[14]針對(duì)武器裝備體系效能評(píng)估在高維噪聲小樣本數(shù)據(jù)條件下準(zhǔn)確性不高的問題,提出一種基于堆棧降噪自編碼與支持向量回歸機(jī)的混合模型。
綜上所述,當(dāng)前研究提出了諸多效能預(yù)測(cè)模型和估計(jì)算法,為解決作戰(zhàn)效能預(yù)測(cè)問題提供了有效支撐。然而,現(xiàn)有文獻(xiàn)多為個(gè)體能力到作戰(zhàn)效能兩層之間的直接映射,缺少從多層次角度深入探究自底向上涌現(xiàn)過程中個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能三層間的映射關(guān)系。此外,在攻防體系效能預(yù)測(cè)技術(shù)方面也欠考慮作戰(zhàn)過程中動(dòng)態(tài)時(shí)序性因素的影響,從而難以達(dá)到對(duì)攻防作戰(zhàn)效能的定量預(yù)測(cè)精度要求。
針對(duì)上述問題,本文基于自底向上和OODA 環(huán)建立攻防體系的總體框架和作戰(zhàn)流程,采用多主體NetLogo 平臺(tái)獲取MAAD 過程的多層次動(dòng)態(tài)演化數(shù)據(jù),利用善于處理時(shí)序數(shù)據(jù)的LSTM 網(wǎng)絡(luò),構(gòu)建個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能三層間的定量映射關(guān)系,最終通過所建映射關(guān)系來準(zhǔn)確預(yù)測(cè)未來攻防作戰(zhàn)效能。
在多智能體攻防過程中,同構(gòu)或異構(gòu)的雙方智能體處于跨域/全域的作戰(zhàn)環(huán)境,智能體數(shù)量的增加往往會(huì)導(dǎo)致模型的輸入更為復(fù)雜[15]。與此同時(shí),隨著攻防作戰(zhàn)的推演,作戰(zhàn)效能也隨時(shí)間不斷更新變化,突發(fā)事件時(shí)常發(fā)生。因此必須對(duì)體系作戰(zhàn)效能進(jìn)行提前準(zhǔn)確預(yù)測(cè),才能使其具備快速的響應(yīng)能力和精確的調(diào)整能力。
事實(shí)上,MAAD 可看作是個(gè)體間通過預(yù)設(shè)初始行為而產(chǎn)生復(fù)雜模式的無規(guī)律涌現(xiàn)現(xiàn)象。本文希望通過所建立的MAAD 作戰(zhàn)效能預(yù)測(cè)模型來揭示這種涌現(xiàn)過程的不可預(yù)知性,并進(jìn)一步預(yù)測(cè)未來時(shí)刻攻防作戰(zhàn)效能。為了實(shí)現(xiàn)從多層次角度深入探究在涌現(xiàn)過程中個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能三層間的映射關(guān)系,并在技術(shù)上提高對(duì)攻防效能的精準(zhǔn)預(yù)測(cè),所構(gòu)建的模型應(yīng)滿足以下特點(diǎn):
1) 多層次: 由圖1 可以看出,MAAD 過程本質(zhì)上是自底而上由個(gè)體決策層匯聚到群體結(jié)構(gòu)層,并最終演化為整個(gè)作戰(zhàn)效能層的涌現(xiàn)過程。每個(gè)層次的參數(shù)之間存在一對(duì)多、多對(duì)一、多對(duì)多的耦合映射關(guān)系。多層次的MAAD 總體框架既有利于梳理各層次的相關(guān)參數(shù),也揭示了中間層在效能預(yù)測(cè)過程中的內(nèi)部映射關(guān)系。

圖1 所構(gòu)建模型的多層次特征Fig.1 Multi-level characteristics of the established model
2) 時(shí)序性:通過整合具有非線性和時(shí)變性的時(shí)間因素,揭示個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能之間的演化規(guī)律。隨著個(gè)體決策參數(shù)的改變,形成新的群體拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu),最終導(dǎo)致不同的作戰(zhàn)結(jié)果。
3) 定量化: 從數(shù)學(xué)定量化的角度,分析并實(shí)現(xiàn)個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能之間的函數(shù)關(guān)系映射,并基于該映射來預(yù)測(cè)未來攻防效能,為下一階段探索裝備作戰(zhàn)性能的優(yōu)化設(shè)計(jì)奠定基礎(chǔ)。
如圖2 所示,橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示每個(gè)層次的有效參數(shù),同一條顏色線表示一個(gè)完整的自底而上的攻防作戰(zhàn)涌現(xiàn)過程,反映了模型具有時(shí)序性特征。從圖2(a) 到圖2(b),給定多組仿真中不同底層參數(shù)(速度、攻擊等) 的預(yù)設(shè)初值,通過自底而上自發(fā)涌現(xiàn)產(chǎn)生相應(yīng)的中間層參數(shù)(密度、距離等) 。圖2(b)、圖2(c) 顯示了從中間層參數(shù)到頂層參數(shù)(如效率、成本等) 的涌現(xiàn)過程。其中,所建立模型的量化水平是通過實(shí)際值曲線與預(yù)測(cè)值曲線的吻合程度來衡量的。由此,本文希望通過定量化手段來揭示攻防作戰(zhàn)過程中的復(fù)雜涌現(xiàn)現(xiàn)象,并以此進(jìn)一步提高對(duì)作戰(zhàn)效能的預(yù)測(cè)精度。

圖2 所構(gòu)建模型的時(shí)序性定量化特征Fig.2 Temporal and quantitative characteristics of the established model
圍繞MAAD 問題,首先定義多智能體集群的總體框架,其次設(shè)計(jì)攻防的作戰(zhàn)流程,最后使用NetLogo 仿真平臺(tái)[16]搭建所需的作戰(zhàn)攻防環(huán)境,為接下來的獲取訓(xùn)練數(shù)據(jù)做準(zhǔn)備。
2.1.1 總體框架
多智能體攻防是一個(gè)多層次的動(dòng)態(tài)復(fù)雜無規(guī)律涌現(xiàn)過程。頂層作戰(zhàn)效能參數(shù)與底層個(gè)體決策參數(shù)之間雖然存在一定的相關(guān)性,但智能體彼此通過交互通信形成群體結(jié)構(gòu)的這一過程并未體現(xiàn)。為揭示這種涌現(xiàn)行為的因果關(guān)系,使得更加準(zhǔn)確地反映多層次MAAD 攻防作戰(zhàn)過程,基于自底而上涌現(xiàn)機(jī)理[17],將總體框架分為個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能3 個(gè)層次,如圖3 所示。

圖3 基于自底而上涌現(xiàn)過程的MAAD 總體框架Fig.3 Overall framework of MAAD based on bottom-up emergence
個(gè)體決策層包括底層參數(shù),如每個(gè)智能體的通信、移動(dòng)、攻擊和偵察等屬性。在群體結(jié)構(gòu)層上采用Boids 策略,根據(jù)周圍智能體的位置和速度移動(dòng)其位置。作戰(zhàn)效能層相當(dāng)于一個(gè)指控中心,用來記錄實(shí)時(shí)攻防效能。該總體框架有助于解決MAAD 建模中層次不清的問題,將智能建模技術(shù)融入框架中,充分體現(xiàn)多智能體集群的自學(xué)習(xí)特性。
2.1.2 攻防流程
攻防作戰(zhàn)采取OODA 循環(huán),從觀察、判斷、決策、行動(dòng)4 個(gè)步驟出發(fā),對(duì)MAAD 的作戰(zhàn)流程進(jìn)行分解。在MAAD 過程中,一定數(shù)量的多智能體集群M1執(zhí)行OODA 循環(huán),并向多智能體集群M2發(fā)起進(jìn)攻。與此同時(shí),M2針對(duì)M1的策略來執(zhí)行自身OODA循環(huán)。由此,M1與M2的OODA 環(huán)之間形成交互狀態(tài),如圖4 所示。

圖4 基于OODA 循環(huán)的MAAD 作戰(zhàn)流程Fig.4 Operational process of MAAD based on OODA loop
本文MAAD 的作戰(zhàn)流程具體如下:
1) 觀察:當(dāng)M1進(jìn)入到M2的觀察范圍內(nèi)時(shí),M2以一定概率觀察到M1的入侵;同樣地,當(dāng)M2落入M1的觀察范圍內(nèi)時(shí),M1也以一定概率觀察到M2。
2) 判斷: 當(dāng)觀察到M1后,M2經(jīng)過判斷響應(yīng)時(shí)間,完成對(duì)M1的定位;同樣地,當(dāng)M1發(fā)現(xiàn)M2后,M2的定位也就此完成。
3) 決策:當(dāng)M2完成對(duì)M1的定位后,經(jīng)過決策響應(yīng)時(shí)間,形成對(duì)M1的決策;同時(shí),當(dāng)M1完成對(duì)M2的定位后,形成對(duì)抗M2的行動(dòng)決策。
4) 行動(dòng): 當(dāng)M2完成對(duì)M1的決策后,M2根據(jù)Boids 策略采取行動(dòng);此時(shí)M1也以一定的攻擊概率攻擊M2。
5) 當(dāng)所有M1或M2被全部消除時(shí),紅藍(lán)雙方作戰(zhàn)仿真結(jié)束。
2.1.3 環(huán)境構(gòu)建
本文使用的NetLogo 平臺(tái)能夠很好地建立微觀個(gè)體行為與宏觀模式涌現(xiàn)之間的關(guān)系,特別適用于模擬隨時(shí)間發(fā)展的復(fù)雜系統(tǒng)。在本文構(gòu)建的攻防環(huán)境中存在兩組多智能體集群,即紅方和藍(lán)方。紅藍(lán)雙方按2.1.1 節(jié)的總體框架進(jìn)行設(shè)計(jì),按2.1.2 節(jié)所制定的攻防流程執(zhí)行。
如圖5 所示,所構(gòu)建的MAAD 環(huán)境分為5 個(gè)區(qū)域,即控制區(qū)域、顯示區(qū)域、頂層參數(shù)可視化區(qū)域、中間層參數(shù)監(jiān)測(cè)區(qū)域、底層參數(shù)初始化區(qū)域。其中,C、R 和A 分別表示指控、偵察和攻擊基地,用于生成相應(yīng)智能體。五邊形圖案代表指控智能體;方形圖案代表偵察智能體;箭頭圖案表示攻擊智能體;黑色、綠色和黃色虛線分別表示每個(gè)智能體之間的攻擊、指控和通信指令。其中,指控和攻擊指令是單向的,通信指令是雙向的;白色數(shù)字表示每個(gè)智能體的編號(hào)。

圖5 使用NetLogo 平臺(tái)構(gòu)建的MAAD 動(dòng)態(tài)環(huán)境Fig.5 Dynamic environment of MAAD reconstructed using NetLogo platform
首先明確3 個(gè)層次上個(gè)體決策、群體結(jié)構(gòu)、作戰(zhàn)效能的參數(shù)含義和表達(dá)形式;然后隨機(jī)選擇初始個(gè)體決策參數(shù)模擬攻防過程;最后,基于2.1 節(jié)所建立的MAAD 環(huán)境,通過時(shí)間軸連續(xù)快照方式,獲得群體結(jié)構(gòu)、作戰(zhàn)效能隨時(shí)間的演變過程數(shù)據(jù)。
2.2.1 個(gè)體決策參數(shù)
攻防智能體的個(gè)體決策參數(shù)如表1 所示。
個(gè)體決策參數(shù)可分為3 類:
1) 靜態(tài)參數(shù)。其定義擬采用〈屬性: 能力指數(shù)〉二元組的形式表示,例如靜態(tài)參數(shù)記為[〈攻擊:85〉,〈防御: 70〉,〈速度: 60〉,…]。
2) 交互參數(shù)。每個(gè)智能體從攻防過程中獲得獎(jiǎng)罰值,實(shí)現(xiàn)與環(huán)境的不斷交互。其中,回報(bào)是指攻防所帶來的獎(jiǎng)勵(lì),成本是指攻防所消耗的資源,士氣則可以反過來影響智能體的能力。
3) 動(dòng)態(tài)參數(shù)。包括以下3 類:影響個(gè)體決策的總效用值、反映個(gè)體密度的涌現(xiàn)系數(shù)和防止智能體碰撞的避障系數(shù)。如表2 所示,本文將總效用分為自我效用和協(xié)同效用兩部分,盡可能地滿足智能體自我收益與群體協(xié)同收益的最大化,再使用Sigmoid函數(shù)將總效用值設(shè)定在(0,1) 之間。

表2 多智能體攻防過程中的效用部分Table 2 The utility part of multi-agent attack and defense process
自我效用:
協(xié)同效用:
總效用:
式中:自我效用U1取決于個(gè)體的參與范圍Pr、參與數(shù)量Pn和參與時(shí)長Pt;協(xié)同效用U2取決于多智能體在攻防過程中己方彼此合作和雙方彼此競(jìng)爭(zhēng)的相關(guān)參數(shù),包括合作范圍Cr、合作范圍內(nèi)的智能體數(shù)量Cn、合作時(shí)長Ct、競(jìng)爭(zhēng)范圍Br、競(jìng)爭(zhēng)范圍內(nèi)的智能體數(shù)量Bn、競(jìng)爭(zhēng)時(shí)長Bt,其中兩種效用的參數(shù)彼此耦合,例如個(gè)體的參與范圍Pr與己方合作范圍Cr、以及雙方競(jìng)爭(zhēng)范圍Br是相互影響的。
除此之外,盡管每個(gè)智能體所采用的效用函數(shù)類型可能相同,但由于其輸入不同(例如周圍智能體的數(shù)量不同、距離不同、作用效果不同等),且偵察、打擊、指控單元因初始參數(shù)設(shè)定不同,由此獲得的效用值也是不相同的。
值得注意的是,本文只研究同質(zhì)智能體,即紅方、藍(lán)方的初始化參數(shù)相同。通過NetLogo 軟件中的滑塊功能靈活地調(diào)整個(gè)體決策參數(shù),為獲取下一級(jí)參數(shù)做準(zhǔn)備。
2.2.2 群體結(jié)構(gòu)參數(shù)
借鑒數(shù)學(xué)中的圖論思想[18],將每個(gè)攻防智能體看作是一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)間是否存在連邊取決于智能體間的通信范圍,定義以下群體結(jié)構(gòu)參數(shù):
1) 群體規(guī)模(PS) :群體規(guī)模取決于節(jié)點(diǎn)的個(gè)數(shù)N 和連邊的數(shù)量E,
2) 群體密度(PD) :群體密度通常定義為在具有N 個(gè)節(jié)點(diǎn)的群體中,連邊數(shù)與節(jié)點(diǎn)兩兩組合總數(shù)的比值,
式中:Emax表示節(jié)點(diǎn)兩兩排列組合總數(shù)。
3) 聚類系數(shù)(CC) :某節(jié)點(diǎn)聚類系數(shù)與其相鄰節(jié)點(diǎn)之間的連邊數(shù)呈正比,與其相鄰節(jié)點(diǎn)數(shù)的二次方呈反比,整個(gè)群體的聚類系數(shù)是所有節(jié)點(diǎn)聚類系數(shù)的平均值,
式中:ni表示為第i 個(gè)節(jié)點(diǎn)的相鄰節(jié)點(diǎn)數(shù);ei表示這些相鄰節(jié)點(diǎn)數(shù)之間的連邊數(shù)。
4) 均勻系數(shù)(UC) : 某節(jié)點(diǎn)的均勻系數(shù)等于其相鄰節(jié)點(diǎn)之間的連邊數(shù),整個(gè)群體的均勻系數(shù)是所有節(jié)點(diǎn)的均勻系數(shù)的平均值,
5) 整體跨度(OS) :整體跨度指群體結(jié)構(gòu)中最大路徑的連邊數(shù),
式中:P 表示最大路徑中的連邊數(shù)。
6) 連通指標(biāo)(CI) : 其值越小,說明群體孤島現(xiàn)象越嚴(yán)重,彼此間節(jié)點(diǎn)聯(lián)系越弱。
7) 平均距離(AD) : 在圖論的基礎(chǔ)上,通過引入了真實(shí)距離來表示建立通信的智能體之間的空間分布,
式中:Di表示兩個(gè)節(jié)點(diǎn)之間的距離。
圖6 為用來解釋群體結(jié)構(gòu)參數(shù)的多智能體分布圖。圖6 中:黑色圓圈表示智能體(數(shù)量為5),用大寫字母表示;阿拉伯?dāng)?shù)字表示兩智能體之間的實(shí)際距離;綠色虛線表示各智能體的通信范圍;實(shí)線表示兩智能體之間的通信連邊,其中紅線表示能夠建立通信的連邊(數(shù)量為3),黑線表示無法建立通信的連邊(數(shù)量為7),故Emax為10。

圖6 用來解釋群體結(jié)構(gòu)參數(shù)的多智能體分布圖Fig.6 Multi-agent distribution diagram for explaining the population structure parameters
從整體跨度和連通指標(biāo)的定義看,OS=3 和CI=2。進(jìn)一步,智能體A 只能與E 建立連邊,智能體E 的連邊數(shù)量為2;而智能體E 可與A 和B 建立連邊,智能體A 和B 的連邊數(shù)量分別為1 和2,由此可得nA=1,eA=2,nE=2 和eE=3,其中,nA和nE表示與智能體A 和E 的相鄰節(jié)點(diǎn)數(shù);eA和eE表示與智能體A 和E 之間所建立的連邊數(shù)。
根據(jù)2.2.2 節(jié)定義的式(4)~式(10),通過數(shù)據(jù)代入計(jì)算,得到式(11)~式(15) :
利用AutoCAD 輔助工具將NetLogo 平臺(tái)中顯示區(qū)域(見圖5) 描述的攻防過程轉(zhuǎn)換為更直觀的示意圖(見圖7),用于分析攻防智能體的群體結(jié)構(gòu),并利用2.2.2 節(jié)的方法計(jì)算相應(yīng)參數(shù)。在圖7 中,可以方便地測(cè)量智能體間的距離,并快速得到智能體的數(shù)量和連邊。

圖7 利用AutoCAD 輔助工具繪制的攻防群體結(jié)構(gòu)示意圖Fig.7 Schematic diagram of attack and defense population structure drawn by AutoCAD
2.2.3 作戰(zhàn)效能參數(shù)
將任務(wù)完成率、作戰(zhàn)效率、作戰(zhàn)成本視為作戰(zhàn)效能參數(shù)。
1) 任務(wù)完成度(TC) :指對(duì)方智能體的改變量占集群總數(shù)的百分比,公式如下:
式中:TCM1表示多智能體集群M1的任務(wù)完成度;表示集群M2中智能體的損失數(shù);表示集群M2由相應(yīng)基地所產(chǎn)生的智能體數(shù);表示集群M2中智能體的總數(shù)。
2) 作戰(zhàn)效率(OE) : 指單位時(shí)間內(nèi)智能體的變化量。
式中:OEM1表示多智能體集群M1的作戰(zhàn)效率;表示集群M1中智能體的損失數(shù);表示群集M1中智能體的生成數(shù);t 表示時(shí)間長度。
3) 作戰(zhàn)成本(OC) : 指對(duì)方智能體改變量與我方智能體改變量的比例。
式中:OCM1表示多智能體集群M1的作戰(zhàn)成本。
2.3.1 代理模型:LSTM 網(wǎng)絡(luò)
LSTM 網(wǎng)絡(luò)[19]具有處理長期時(shí)序信息的能力,在給定序列xt=(x1,x2,…,xn) 的情況下,預(yù)測(cè)序列yt=(y1,y2,…,yn) 可表示為如下形式:
式中:下標(biāo)t 表示時(shí)間序列;ht=(h1,h2,…,hn) 為隱含層序列;f 表示非線性激活函數(shù),如tanh 或ReLU函數(shù);下標(biāo)x、h、y 分別表示輸入層、隱含層、輸出層;Wxh表示從輸入層到隱含層的權(quán)重矩陣;Whh表示隱含層的權(quán)重矩陣;Why表示從隱含層到輸出層的權(quán)重矩陣;bh表示隱含層的偏置向量;by表示輸出層的偏置向量。
LSTM 網(wǎng)絡(luò)在循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)節(jié)點(diǎn)中增加記憶單元來存儲(chǔ)歷史信息,并增加輸入、遺忘和輸出門來控制歷史信息的使用。圖8 中,i、f、o、c分別表示輸入門、遺忘門、輸出門和單位狀態(tài)。W為相應(yīng)的權(quán)重矩陣,b 為偏置向量。

圖8 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 Structure of LSTM networks
式中:Wxi、Whi、Wxf、Whf、Wxc、Whc、Wxo、Who分別為輸入門i、遺忘門f、單位狀態(tài)c、輸出門o 所對(duì)應(yīng)的輸入層x 和隱含層h 的權(quán)重矩陣。
2.3.2 函數(shù)映射關(guān)系
在NetLogo 獲取攻防數(shù)據(jù)的基礎(chǔ)上,利用2.3.1 節(jié)的LSTM 對(duì)關(guān)聯(lián)關(guān)系進(jìn)行定量分析,建立個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能間的多層次映射函數(shù)(見圖9) 。

圖9 MAAD 多層次間的關(guān)聯(lián)邏輯和映射關(guān)系Fig.9 Correlation logic and mapping relationship between multiple levels of MAAD
1) 個(gè)體決策-群體結(jié)構(gòu)的映射函數(shù)
將個(gè)體決策層次上的靜態(tài)參數(shù)、交互參數(shù)、動(dòng)態(tài)參數(shù)作為輸入數(shù)據(jù)X,以時(shí)間軸連續(xù)快照方式獲得的群體規(guī)模、群體密度、聚類系數(shù)、均勻系數(shù)、整體跨度、連通指標(biāo)和平均距離等7 個(gè)群體結(jié)構(gòu)參數(shù)作為輸出數(shù)據(jù)Y。考慮時(shí)序因素,采用LSTM 對(duì)X、Y 間的非線性關(guān)系進(jìn)行擬合,建立映射函數(shù)Y=f(X,t) 。
2) 群體結(jié)構(gòu)-作戰(zhàn)效能的映射函數(shù)
將輸出數(shù)據(jù)Y 作為該階段的輸入,以時(shí)間軸連續(xù)快照方式獲得的任務(wù)完成度、作戰(zhàn)效率、作戰(zhàn)成本作為輸出數(shù)據(jù)Z。同樣采用LSTM 對(duì)Y、Z 間的非線性關(guān)系進(jìn)行擬合,建立映射函數(shù)Z=g(Y,t) 。
3) 個(gè)體決策-群體結(jié)構(gòu)-作戰(zhàn)效能的映射函數(shù)
結(jié)合上述兩種非線性函數(shù),形成個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能三層間的映射關(guān)系。該模型考慮了底層個(gè)體決策行為、中層群體結(jié)構(gòu)特征和頂層作戰(zhàn)效能變化,建立三者間的關(guān)聯(lián)邏輯。與兩層間函數(shù)映射相比,從自底而上涌現(xiàn)的角度解釋了多層級(jí)間的映射關(guān)系,揭示了MAAD 的總體設(shè)計(jì)機(jī)制,可基于該映射關(guān)系來預(yù)測(cè)未來攻防作戰(zhàn)效能。
2.3.3 多層次LSTM 的使用方法
進(jìn)一步介紹多層次LSTM 的使用方法,揭示其數(shù)據(jù)存儲(chǔ)方式、訓(xùn)練預(yù)測(cè)過程和中間數(shù)值變化。
2.3.3.1 數(shù)據(jù)存儲(chǔ)方式
圖10 揭示了LSTM 網(wǎng)絡(luò)在預(yù)測(cè)多智能體攻防作戰(zhàn)效能過程中的數(shù)據(jù)存儲(chǔ)方式。本文將200 組通過NetLogo 仿真獲得的數(shù)據(jù)集按照6∶2∶2比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,這些數(shù)據(jù)存儲(chǔ)在同一個(gè)元胞數(shù)組中,其中元胞數(shù)組的每個(gè)空間存放1 組仿真結(jié)果,包含20 ×T 維個(gè)體決策變量矩陣、7 ×T 維群體結(jié)構(gòu)變量矩陣和3 × T 維作戰(zhàn)效能變量矩陣(矩陣橫向表示相應(yīng)參數(shù),列向表示仿真周期) 。由于每次攻防過程的仿真結(jié)束時(shí)間不同,每組序列T1,T2,…,Tn的長度各不相同。

圖10 多層次LSTM 網(wǎng)絡(luò)的數(shù)據(jù)存儲(chǔ)方式Fig.10 Data storage method of multi-level LSTM networks
2.3.3.2 訓(xùn)練驗(yàn)證過程
圖11 顯示了LSTM 網(wǎng)絡(luò)對(duì)作戰(zhàn)效能的訓(xùn)練預(yù)測(cè)過程。首先基于120 組訓(xùn)練集數(shù)據(jù)構(gòu)建LSTM 模型,以個(gè)體決策變量為輸入、群體結(jié)構(gòu)變量為輸出訓(xùn)練第1 層個(gè)體決策-群體結(jié)構(gòu)LSTM 網(wǎng)絡(luò);然后采用40 組驗(yàn)證集數(shù)據(jù)進(jìn)行調(diào)整模型的超參數(shù),并對(duì)模型的能力進(jìn)行初步評(píng)估;在每個(gè)epoch 完成后,利用40 組測(cè)試集數(shù)據(jù)測(cè)試當(dāng)前模型的準(zhǔn)確率,并評(píng)估最終模型的泛化能力,預(yù)測(cè)下一次仿真的群體結(jié)構(gòu)變量。同理,以預(yù)測(cè)得到的群體結(jié)構(gòu)變量為輸入、作戰(zhàn)效能變量為輸出構(gòu)建第2 層群體結(jié)構(gòu)-作戰(zhàn)效能LSTM 網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)下一次攻防作戰(zhàn)效能的預(yù)測(cè)。

圖11 多層次LSTM 網(wǎng)絡(luò)的訓(xùn)練預(yù)測(cè)過程Fig.11 Training prediction process of multi-level LSTM networks
2.3.3.3 中間數(shù)值變化
如圖12 所示,ct-1維度S=(1,units),其中units為前一個(gè)單元傳入的神經(jīng)元個(gè)數(shù);xt和ht-1通過水平拼接構(gòu)成一個(gè)向量S=(xt+ht-1,1) ;每個(gè)邏輯門的權(quán)重W 維度S=(units,xt+ht-1),偏置b 維度S=(units,1) 。

圖12 多層次LSTM 網(wǎng)絡(luò)的中間數(shù)值變化Fig.12 Middle-value change of multi-level LSTM networks
利用本文建立的多層次映射關(guān)系對(duì)MAAD 過程的作戰(zhàn)效能進(jìn)行預(yù)測(cè),并給出實(shí)驗(yàn)對(duì)象、仿真數(shù)據(jù)、評(píng)價(jià)指標(biāo)、參數(shù)設(shè)定、仿真結(jié)果、統(tǒng)計(jì)分析。實(shí)驗(yàn)仿真通過NetLogo 6.2.0 平臺(tái)獲取數(shù)據(jù),在Window 10下使用MATLAB 2021a 進(jìn)行回歸擬合。
為更直觀地觀察MAAD 情況,將基于NetLogo平臺(tái)的紅藍(lán)雙方完整攻防過程分為8 幀,如圖13 所示。圖13 中:第1 幀中紅藍(lán)雙方智能體均由相應(yīng)的基地隨機(jī)生成,并遵循Boids 策略采取行動(dòng);在第2 幀中,紅方首先發(fā)起進(jìn)攻指令,藍(lán)方則繼續(xù)搜索目標(biāo);在第3 幀中,紅方已經(jīng)消滅一部分藍(lán)方智能體,而藍(lán)方才剛剛發(fā)現(xiàn)目標(biāo)準(zhǔn)備反擊;從第4 幀到第7 幀,紅藍(lán)雙方不斷移動(dòng)自身位置,相互攻守;第8 幀顯示紅方幾乎被完全消滅,作戰(zhàn)仿真結(jié)束。

圖13 采用NetLogo 平臺(tái)的紅藍(lán)智能體攻防仿真流程Fig.13 Simulation of the attack and defense of red and blue agents using NetLogo platform
在訓(xùn)練LSTM 網(wǎng)絡(luò)前,必須先明確數(shù)據(jù)集并進(jìn)行相應(yīng)的預(yù)處理[20],將其200 組數(shù)據(jù)集按照6∶2∶2比例分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,訓(xùn)練集包含120 次NetLogo 仿真得到的訓(xùn)練輸入集(input_train) 和訓(xùn)練輸出集(output_train) 。同樣地,驗(yàn)證集包含40 次仿真的驗(yàn)證輸入集(input_validation) 和驗(yàn)證輸出集(output_validation),測(cè)試集也包含40 次仿真的測(cè)試輸入集(input_test) 和測(cè)試輸出集(output_test) 。根據(jù)訓(xùn)練集建立回歸模型,再通過驗(yàn)證集調(diào)整模型超參數(shù),使用測(cè)試集得到預(yù)測(cè)輸出(output_pred),比較與測(cè)試輸出(output_test) 之間的誤差來衡量所建立模型的精度。
表3 為120 次NetLogo 攻防模擬中第N 次個(gè)體決策參數(shù)的初始化情況,其中個(gè)體決策參數(shù)的靜態(tài)參數(shù)、交互參數(shù)以及動(dòng)態(tài)參數(shù)的取值范圍不同,本文按照均勻分布uniform 對(duì)參數(shù)進(jìn)行隨機(jī)初始化,并通過所構(gòu)建NetLogo 平臺(tái)中底層參數(shù)初始化區(qū)域的滑塊功能來設(shè)置參數(shù)。表4 為記錄第N 次仿真中紅藍(lán)雙方群體結(jié)構(gòu)和作戰(zhàn)效能層次下的動(dòng)態(tài)數(shù)據(jù)。

表3 第N 次仿真中個(gè)體決策參數(shù)的初始化Table 3 Initialization of decision-making parameters in the N-th simulation

表4 第N 次仿真中多智能體攻防的群體結(jié)構(gòu)和作戰(zhàn)效能參數(shù)Table 4 Parameters concerning population structure and operational effectiveness of the MAAD in the N-th simulation
由于120 次攻防過程的仿真時(shí)間不同,每個(gè)序列的長度各不相同。為減少小批量的填充量,在使用LSTM 網(wǎng)絡(luò)之前將訓(xùn)練數(shù)據(jù)按序列長度排序,指定小批量大小為24。圖14 顯示了未排序序列和已排序序列的填充情況。

圖14 數(shù)據(jù)預(yù)處理:對(duì)訓(xùn)練數(shù)據(jù)的小批量分割Fig.14 Data preprocessing: dividing the training data into mini-size batches
本文使用均方誤差MSE、平均絕對(duì)誤差MAE 和相關(guān)系數(shù)R 指標(biāo)來評(píng)價(jià)模型性能,NetLogo 平臺(tái)和LSTM 網(wǎng)絡(luò)參數(shù)設(shè)定見表5。

表5 模型參數(shù)設(shè)定Table 5 Parameter settings of the model
在40 組測(cè)試仿真中隨機(jī)選取第4 組、第21 組和第35 組,并對(duì)3 個(gè)作戰(zhàn)效能參數(shù)的預(yù)測(cè)進(jìn)行可視化。表6 給出了基于本文所建效能預(yù)測(cè)模型的測(cè)試數(shù)據(jù)擬合效果圖,圖例中真實(shí)數(shù)據(jù)為通過多智能體NetLogo 軟件獲取的紅藍(lán)雙方攻防作戰(zhàn)的測(cè)試數(shù)據(jù),而預(yù)測(cè)輸出為在已知個(gè)體決策數(shù)據(jù)的前提下,通過多層次LSTM 網(wǎng)絡(luò)得到的新一輪預(yù)測(cè)輸出。
由表6 可看出,隨機(jī)選取的三組測(cè)試仿真,無論對(duì)紅方還是藍(lán)方進(jìn)行預(yù)測(cè),都取得了很好的擬合實(shí)驗(yàn)結(jié)果。這也說明本文構(gòu)建的多智能體攻防效能預(yù)測(cè)模型能夠?qū)崿F(xiàn)較高的預(yù)測(cè)精度,進(jìn)而指導(dǎo)多智能體做出更全面、更準(zhǔn)確的決策。

表6 作戰(zhàn)效能參數(shù)中測(cè)試數(shù)據(jù)與預(yù)測(cè)輸出的比較Table 6 Comparison between the tested and predicted output concerning operational effectiveness parameters
為清楚地觀察紅藍(lán)雙方作戰(zhàn)效能參數(shù)的絕對(duì)預(yù)測(cè)誤差,利用頻率分布直方圖的形式進(jìn)行可視化,除了個(gè)別預(yù)測(cè)點(diǎn)外,總體誤差大致呈現(xiàn)中高兩端低的高斯分布(見表7) 。通過學(xué)習(xí),預(yù)測(cè)在可接受的誤差范圍內(nèi)有效完成。其中,紅藍(lán)智能體的任務(wù)完成度預(yù)測(cè)誤差基本在[-1.5,1.5]之間。同時(shí),作戰(zhàn)效率和作戰(zhàn)成本的預(yù)測(cè)誤差范圍分別為[-0.1,0.1]和[-0.06,0.06]。

表7 用頻率分布直方圖表示作戰(zhàn)效能參數(shù)的絕對(duì)誤差分布Table 7 Distribution of absolute errors concerning operational effectiveness parameters using frequency distribution histograms
表8 表示作戰(zhàn)效能參數(shù)的平均相對(duì)誤差MRE,從第4 組、第21 組和第35 組測(cè)試仿真,可看出雙方作戰(zhàn)效能參數(shù)的平均相對(duì)誤差百分比分別在6%、7%、5%、4%、6%、5%以內(nèi)。至此,可以證明本文所建模型在攻防效能預(yù)測(cè)方面是穩(wěn)定的。

表8 作戰(zhàn)效能參數(shù)的平均相對(duì)誤差Table 8 MRE of operational effectiveness parameters
表9 給出了分別以多智能體紅藍(lán)方攻防對(duì)抗中任務(wù)完成度、作戰(zhàn)效能、作戰(zhàn)成本為對(duì)象的6 種模型方法的性能指標(biāo)比較結(jié)果,并分別列出了7 個(gè)評(píng)價(jià)指標(biāo),包括最大值Max、最小值Min、平均值Mean、標(biāo)準(zhǔn)差Std、誤差平方和SSE、均方誤差MSE 和均方根誤差RMSE。由表9 可以看出:本文所使用的LSTM建模方法比同類方法BPNN 和RNN 的各項(xiàng)誤差指標(biāo)較小,說明該方法的預(yù)測(cè)精度較高,這主要是因?yàn)槎嘀悄荏w攻防數(shù)據(jù)具有時(shí)序性,LSTM 相比于BPNN在處理該類數(shù)據(jù)時(shí)具有優(yōu)勢(shì),且避免了RNN 網(wǎng)絡(luò)中的梯度消失問題;可看出單層次LSTM 與多層次LSTM 的預(yù)測(cè)誤差指標(biāo)相差不大,后者略優(yōu)于前者,但多層次LSTM 網(wǎng)絡(luò)能更加有效地梳理各層次的相關(guān)參數(shù),也揭示了中間層在效能預(yù)測(cè)過程中的內(nèi)部映射關(guān)系。為了進(jìn)一步證明本文方法的有效性,以多層次LSTM 網(wǎng)絡(luò)為參考目標(biāo),采用Wilcoxon 符號(hào)秩檢驗(yàn)進(jìn)行非參數(shù)檢驗(yàn),相應(yīng)結(jié)果見表9。上述結(jié)果表明,本文方法明顯優(yōu)于其他方法,在預(yù)測(cè)多智能體紅藍(lán)方攻防過程中作戰(zhàn)效能方面可達(dá)到較為全面的精度指標(biāo)和映射要求。

表9 不同方法的性能指標(biāo)比較Table 9 Comparison of performance indicators using different methods

續(xù)表9
為避免外界干擾對(duì)所建模型的偶然因素影響,表10 綜合分析了40 組測(cè)試集預(yù)測(cè)結(jié)果的相關(guān)評(píng)價(jià)指標(biāo),可得出以下結(jié)論: 1) 藍(lán)方的預(yù)測(cè)精度普遍高于紅方;2) 作戰(zhàn)效率的參數(shù)預(yù)測(cè)優(yōu)于其他兩項(xiàng);3) 從相關(guān)系數(shù)基本在95% 以上可以看出,本文建立的模型具有一定的穩(wěn)定性和魯棒性;4) 表10 中數(shù)據(jù)證明了本文體現(xiàn)基于多層次動(dòng)態(tài)特征的模型可應(yīng)用于多智能體的攻防效能定量化預(yù)測(cè)。

表10 綜合40 組測(cè)試集預(yù)測(cè)結(jié)果的評(píng)價(jià)指標(biāo)對(duì)比分析Table 10 Comparison of the prediction results of 40 testing sets
本文針對(duì)多智能體攻防體系作戰(zhàn)效能預(yù)測(cè)過程中動(dòng)態(tài)性差、準(zhǔn)確性低和可解釋性弱的問題,構(gòu)建了一種基于多層次LSTM 網(wǎng)絡(luò)的多智能體攻防效能動(dòng)態(tài)預(yù)測(cè)模型。得出主要結(jié)論如下:
1) 通過設(shè)計(jì)一種自底而上的多智能體攻防總體框架來突出“個(gè)體決策、群體結(jié)構(gòu)和作戰(zhàn)效能”三層間的多層次涌現(xiàn)特點(diǎn),揭示了智能體彼此通過交互通信形成群體結(jié)構(gòu)的因果關(guān)系,使得更加真實(shí)地反映多層次MAAD 作戰(zhàn)過程。
2) 利用多主體NetLogo 平臺(tái)模擬無規(guī)律涌現(xiàn)的攻防作戰(zhàn),梳理了MAAD 的各層次相關(guān)參數(shù),在總體框架的基礎(chǔ)上獲取多層次的動(dòng)態(tài)演化數(shù)據(jù)。
3) 考慮攻防作戰(zhàn)中動(dòng)態(tài)時(shí)序性因素的影響,基于LSTM 網(wǎng)絡(luò)建立了多層次間的定量化函數(shù)映射。研究結(jié)果表明,通過所建映射關(guān)系能夠準(zhǔn)確預(yù)測(cè)攻防雙方的作戰(zhàn)效能,描述體系攻防效能演變過程,提高作戰(zhàn)指揮和輔助決策能力。