盛 磊, 時滿紅, 亓迎川,*, 李 浩, 龐明軍
(1. 空軍預警學院, 湖北 武漢 430000; 2. 中國人民解放軍95894部隊, 北京 100000)
無人機在軍事和民用領域都有廣泛的應用[1-3],在復雜條件下,可以替代有人機執行“枯燥、惡劣、危險、縱深(dull, dirty, dangerous and deep, 4D)”任務[4]。隨著人工智能(artificial intelligence, AI)技術的發展,集群控制成為無人機應用的發展方向[5]。無人機集群作戰[6-8]也成為無人機軍事應用的研究熱點。
現階段無人機集群動態攻防的研究仍處于初步階段,實現的方法主要包括:基于專家系統和基于博弈論。
基于專家系統[9]的規則制定,就是通過總結以往空戰經驗,設計態勢評估函數,針對障礙物或者敵我態勢,己方選擇相應行為準則。文獻[10]設計了一種自組織的攻防對抗決策(offense-defense confrontation decision-making, ODCDM)算法,利用分布式決策,通過與鄰近友機的通信,完成態勢感知,求解控制輸入,實現無人機集群的對抗。文獻[11]提出了一種將模糊專家系統與差分進化算法相結合的逃逸機動決策算法,通過以往戰術知識的學習,建立模糊專家系統,根據模糊專家系統實現機動動作的選擇,而后經過差分算法尋優,最后完成對機動動作的最優控制。Yang[12]等利用深度Q網絡(deep Q network,DQN)搭建了無人機決策模型,計算敵我雙機對抗過程中的態勢變化,根據機動動作庫中相應規則,完成無人機決策。
雖然基于專家系統的無人機集群算法能夠有效且穩定地解決無人機集群對抗問題,但是其依賴于專家庫的建立,處于不確定環境或者集群規模過大時,存在調試時間長,策略選擇不是最優等不足。
基于博弈論[13-16]的方法,就是一類研究智能體之間策略交互的數學理論與方法[17]。相比專家系統,該方法不需要先驗知識,可以通過自學習逐步獲得最優策略。文獻[18]提出了一種基于演化博弈框架下的多智能體策略競爭,設立了合作、懲罰、投機以及孤立4種策略,通過初始條件的變化,驗證了多智能體運動的演進方向。文獻[19]基于捕食獵物粒子群優化(predator-prey particle swarm optimization, PP-PSO)的博弈論方法,將攻防對抗中的復雜任務分配轉化為每階段的雙方博弈,然后利用PP-PSO求解與之對應的納什均衡,保證攻防雙方在對抗過程中采取對己方最有利的策略。文獻[20]基于競爭學習鴿群優化(competitive learning pigeon-inspired optimization, CLPIO)算法,采用分布式群對抗方式,分別設計了兩種動態博弈模型:仿鷹的攻擊子群和仿鴿的對抗子群,利用CLPIO算法尋找混合納什均衡。文獻[21]利用多人動態博弈分解解決多無人機追逃問題,降低了時間復雜度,提升了運行速度。但是,這些基于博弈論的無人機集群攻防對抗,在涉及基地概念時,多數將其作為目標點,基地并不具備功能,這與實際情況存在差異。
本文結合專家系統和演化博弈的優點,提出了態勢演化博弈模型。貼近實際作戰場景,賦予基地探測功能,基地能夠提高守方無人機的態勢感知能力,并且能夠與守方無人機集群保持通信。在此基礎上,構造了基地-守方無人機集群-攻方無人機集群三者相互影響的攻防情形。首先,分別設計了攻方無人機態勢評估函數、守方無人機態勢評估函數和基地態勢評估函數,切實體現對抗過程中攻防雙方的態勢變化情況。然后,將各階段態勢變化,代入演化博弈模型,使每一階段的演化博弈過程延伸到全階段全員的博弈,并使攻防雙方在各階段都處于演化穩定狀態(evolutionary stable state, ESS),實現攻防雙方無人機集群對抗策略的自適應最優選擇。
雙方無人機集群的動態描述包括無人機集群動態攻防場景與規則、基地生存模型、無人機單機攻防模型和無人機集群攻防模型。其中,無人機動態攻防場景與規則給定了攻防對抗的作戰背景以及雙方的勝負條件;基地的生存模型,主要表現基地受攻防雙方無人機集群的影響,其生存率的變化情況;無人機單機攻防模型,主要體現無人機單機的運動準則及武器數量的變化;無人機集群攻防模型,主要體現集群運動規則以及控制輸入隨策略選擇的變化情況。
雙方無人機性能相同,攜帶武器的功能與數量相同。模擬場景假定為,不考慮高度因素,雙方處于同一二維區域。攻方無人機已知基地位置,在一定的時間窗口,經過奔襲,對守方發動進攻。守方無人機集群在對抗開始前,采取巡航方式對基地進行有效防衛,且基地具備一定的探測能力,能與守方無人機集群建立持續有效的通信,在基地探測范圍內,能夠提升守方無人機的態勢感知能力。當雙方武器消耗殆盡時,攻方無人機會選擇撤離,守方無人機會選擇回到基地。
攻守布防示意圖如圖1所示。

圖1 攻守布防示意圖Fig.1 Offensive and defensive deployment diagram
攻方為達到進攻效益最大化,采取整體分散,局部聚集的策略;在未探測到攻方無人機時,守方無人機在基地受威脅區與基地探測區之間巡航。所謂基地受威脅區,就是以基地為中心,無人機攻擊距離為半徑的圓;所謂基地探測區,就是以基地為中心,基地探測距離為半徑的圓。
在攻防對抗的時間窗口內,雙方的勝負條件為:① 基地生存率小于被癱瘓閾值Ph,則攻方勝利;② 基地生存率大于被癱瘓閾值Ph,則守方勝利。
為簡便分析,將無人機模型視為質點,并假設:① 無人機能夠準確進行敵我識別,且每一時刻只針對敵方單一目標發動攻擊;② 無人機能夠探知友機的位置等信息;③ 無人機能夠探知敵機的速度、方位、位置等信息。
影響基地生存率的因素包括攻方無人機對基地的毀傷以及守方無人機采取防御策略時為基地帶來的收益。基地的生存率模型為
pb(t+1)=pb(t)·Ab(t)
(1)
(2)
(3)
式中:t表示作戰時刻;pb(t)表示t時刻基地的生存率;Ab(t)表示基地從t時刻到t+1時刻生存率;pib(t)表示t時刻攻方第i架無人機對基地的毀傷概率;nib(t)表示t時刻攻方第i架無人機對基地發射的武器數;β(0≤β≤1)為環境影響因素;Sib(t)表示t時刻攻方第i架無人機攻擊基地時對基地的態勢優勢;Sjb(t)表示t時刻守方第j架無人機采取防御策略時為基地帶來的態勢優勢;nDO為t時刻針對攻方第i架無人機采取防御策略的守方無人機數目;Kib表示武器對基地的理想殺傷概率,規定Sib(t)-Sjb(t)≥0。
設定基地癱瘓閾值為Ph=0.4,當基地的生存率小于基地存活閾值時,認為基地被摧毀。
每架無人機的狀態矩陣為
(4)

每架無人機的狀態方程為
(5)

(6)
(7)


(8)
(9)

在t時刻,攻方第k架無人機發射的武器數為攻擊守方無人機與攻擊基地的數目的和,即
(10)
同理,守方第k架無人機發射的武器數為攻擊攻方無人機的數目,即
(11)
(12)
(13)
(14)
設定無人機生存閾值為PT,當無人機的存活率小于無人機生存閾值時,認為該無人機被摧毀。
常見的集群運動模型包括:Vicsek模型[22-23]、Couzin模型[24]以及社會力模型[25]。社會力模型是基于牛頓力學的建模方式,將個體間的協同,抽象為力的形式,能直觀體現雙方無人機集群的動態運動。
本文采用自下而上的基于個體的建模方式,通過個體運動的拉格朗日法,建立無人機集群的動力學模型,對于具有N個個體的群運動,群中個體i的拉格朗日模型為
(15)

集群運動的3個基本規則為分離、聚集和速度一致。在此基礎上,針對雙方無人機集群的對抗,本文又增加了進攻、防守與防御3項攻防規則。
(1) 分離準則
所謂分離,就是集群運動時,避免群內個體發生碰撞,相鄰個體間產生斥力作用。
(16)

(2) 聚集準則
所謂聚集,就是在無人機探測范圍內,群內個體相互靠近,相鄰個體間產生引力。
(17)

分離和聚集規則,構成了集群運動的位置協同力,由位置關系產生的總力為
(18)
式中:a,b,c為常數,構建的目的是當無人機i與相鄰友機距離過近時,相互排斥;當無人機i與相鄰友機距離過遠時,相互吸引。無人機間相互作用,在位置上形成群的形式,刻畫個體間的防撞和空間的聚集特性。
(3) 速度一致性準則
所謂速度一致性,就是速度協同力,使群內個體保持速度一致。
(19)

(4) 攻擊準則
攻方無人機的防守策略和守方無人機的出擊策略,是彼此之間的攻擊,因此兩者采用相同的準則。
(20)

(5) 進攻準則
進攻準則就是攻方無人機向基地發動攻擊的行為準則。
(21)
式中:kb為常數,是控制增益;uib為攻方第i架無人機對基地發起進攻時,其向基地運動的力。
(6) 防御準則
守方采取防御策略,最佳情況就是與基地保持適當距離,一旦探測到攻方無人機,保證守方無人機有充足的時間做出反應。
(22)

綜上,攻方無人機會采用策略式(1)~式(5),即攻方無人機的總輸入為
(23)
(24)

守方無人機會采用策略式(1)~式(4)和式(6),即守方無人機的總輸入為
(25)
(26)
態勢評估[26-28]函數包括雙方無人機的態勢優勢評估,以及基地與雙方無人機間態勢的相互影響。
2.1.1 雙方無人機間的態勢評估
某時刻,雙方無人機對抗關系如圖2所示。

圖2 雙方無人機對抗方位圖Fig.2 Azimuth map of unmanned aerial vehicle confrontation between both sides
影響無人機間態勢評估函數的因素主要包括角度、速度以及距離。
(1) 角度優勢函數
(27)
隨著方位角的增加,角度優勢呈非線性減小,即追擊式的攻擊會帶來最大的角度優勢。
(2) 速度優勢函數
(28)
無人機間的相對速度越大,速度優勢越明顯。
(3) 距離優勢函數
(29)
式中:dij為無人機間距離;rs為無人機探測距離。
隨著無人機間的距離減小,距離優勢函數呈線性增大。
上述3種優勢函數,綜合影響無人機間的態勢評估,根據三者影響權重的不同,無人機間總的態勢評估函數為
Sij=ω1Sαij+ω2Svij+ω3Srij
(30)

2.1.2 無人機與基地的態勢評估
某時刻,無人機與基地對抗關系如圖3所示。

圖3 無人機與基地對抗方位圖Fig.3 Azimuth map of unmanned aerial vehicle and base confrontation
(1) 攻方無人機與基地的態勢評估函數
影響攻方無人機與基地態勢評估函數的因素主要包括角度和距離。
角度優勢函數:
(31)
即只有當攻方無人機向基地方向運動時,才會存在角度優勢,該優勢隨著方位角的增加呈非線性減小。
距離優勢函數:
(32)
隨著無人機與基地的距離減小,距離優勢呈線性增大。
上述兩種優勢函數,綜合影響攻方無人機與基地間的態勢評估,根據兩者影響權重的不同,攻方無人機與基地間總的態勢評估函數為
(33)

(2) 守方無人機與基地的態勢評估函數
當守方無人機采取防御策略時,與基地相互作用,兩者越近,基地為守方無人機帶來的態勢感知優勢越明顯;守方無人機越靠近基地,越能提高基地的生存概率。
守方無人機為基地帶來的態勢優勢:
(34)
式中:rb為基地探測距離;djb為守方無人機與基地的距離。
守方無人機與基地的距離越小,守方無人機為基地帶來的態勢優勢越大。
基地為守方無人機帶來的態勢優勢:
(35)
基地與守方無人機的距離越小,基地為守方無人機帶來的態勢優勢越大。
演化博弈模型[29-30]的優勢是,既可以直觀有效地解決博弈主體的行為選擇,也可以出于利益最大化原則,體現雙方攻防對抗的動態變化。
2.2.1 模型假設
本次博弈的主體為:攻方無人機和守方無人機。攻方無人機的策略集為{進攻,防守};守方無人機的策略集為{出擊,防御}。具體定義如下。
攻方無人機的策略:① 進攻,即直接對基地發起進攻;② 防守,即直接與守方無人機進行對抗。
守方無人機的策略:① 出擊,即在基地探測區外,主動對攻方無人機發動進攻;② 防御,即守方無人機在基地探測區域內與攻方無人機展開對抗。
攻方無人機對守方發動襲擊,會產生燃油消耗、資源占用等成本Ci;攻方無人機選擇進攻時,直接威脅基地,為攻方帶來收益G1的同時,基地承擔的風險,也以π1G1(0≤π1≤1)的方式影響守方無人機的收益;攻方無人機選擇防守時,通過摧毀守方無人機,增加攻方無人機數目和能力優勢,為攻方帶來收益G2。
守方無人機前期進行巡航偵察,同樣會產生燃油消耗、資源占用等成本Cj,由于守方無人機在基地附近巡航,不需要遠距離奔襲,所以產生成本較小,即Cj 基地具備探測功能,能夠提高守方無人機的態勢感知優勢,理想狀態下會為守方無人機帶來收益B3,隨著基地生存率π3的變化,該收益也會發生變化。 攻方無人機發動進攻的概率為x,進行防守的概率為1-x;守方無人機進行出擊的概率為y,進行防御的概率為1-y。 2.2.2 模型構建 根據模型假設,攻方無人機與守方無人機的收益矩陣如表1所示。 表1 態勢演化博弈收益矩陣 結合表1的收益矩陣,設攻方無人機選擇進攻的期望收益為E11,選擇防守的期望收益為E12,攻方無人機的平均期望收益為E1。 E11=y(G1-Ci-B1)+(1-y)(G1-Ci-B2-π3B3) (36) E12=y(G2-Ci-B1)+(1-y)(G2-Ci-B2-π3B3) (37) E1=xE11+(1-x)E12 (38) 根據式(36)~式(38)可以得到攻方無人機的復制動態方程: (39) 同理,設守方無人機選擇出擊的期望收益為E21,選擇防御的期望收益為E22,守方無人機的平均收益為E2。 E21=x(B1-Cj-π1G1)+(1-x)(B1-Cj-G2) (40) E22=x(B2-Cj-π1G1+π2R+π3B3)+ (41) E2=yE21+(1-y)E22 (42) 根據式(40)~式(42)可以得到守方無人機的復制動態方程: (43) 2.2.3 演化博弈分析 由F(x)=F(y)=0,可得到4個均衡點如表2所示。 表2 均衡點 根據Friedman的研究方法,利用Jacobian矩陣的局部穩定性可以對這4個復制動態均衡點的穩定性進行分析,通過對F(x)與F(y)求偏導可得Jacobian矩陣為 根據演化博弈理論知識可知,只有滿足det(J)>0且tr(J)<0的均衡點才會趨于穩定。各均衡點的穩定性分析如表3所示。 表3 各均衡點矩陣行列式和跡的表達式 2.2.4 攻防雙方策略的選取 (1) 均衡點1的漸進穩定條件 均衡點1的漸進穩定條件如下: 對均衡點1的仿真結果如圖4所示。圖4中,橫坐標代表攻方無人機選擇進攻策略的概率,縱坐標代表守方無人機選擇出擊策略的概率。 即在此條件下,攻方無人機選擇防守策略,守方無人機選擇防御策略。 (2) 均衡點2的漸進穩定條件 均衡點2的漸進穩定條件如下: 對均衡點2的仿真結果如圖5所示。 圖5 均衡點2Fig.5 Equilibrium point 2 即在此條件下,攻方無人機選擇進攻策略,守方無人機選擇防御策略。 (3) 均衡點3的漸進穩定條件 均衡點3的漸進穩定條件如下: 對均衡點3的仿真結果如圖6所示。 圖6 均衡點3Fig.6 Equilibrium point 3 即在此條件下,攻方無人機選擇防守策略,守方無人機選擇出擊策略。 (4) 均衡點4的漸進穩定條件 均衡點4的漸進穩定條件如下: 對均衡點4的仿真結果如圖7所示。 圖7 均衡點4Fig.7 Equilibrium point 4 即在此條件下,攻方無人機選擇進攻策略,守方無人機選擇出擊策略。 態勢評估函數與演化博弈模型相結合,將某一時刻態勢評估函數的值作為演化博弈模型的數據。在無人機的探測范圍內,首先,利用態勢評估函數,遍歷自身對敵方無人機的優勢。然后,依據演化博弈模型中選擇策略的條件,實現雙方無人機的自適應策略選擇。最后,將每一階段的態勢評估函數數值以及無人機狀態帶入相應模型,完成全階段態勢演化博弈的策略選擇和全員的實時狀態更新,保證了每一階段每一架次的策略選擇都處于納什均衡,即做出了對己方最有利的策略選擇和狀態變化。 態勢演化博弈模型與態勢評估函數的對應關系如表4所示。 表4 博弈論模型與態勢評估函數的對應關系 當出現一架無人機對敵方多架無人機采取相同策略時,攻方無人機以G2的大小確定優先級順序,G2越大越優先,G2相同時再按照態勢評估函數的權重比進行優先級排序,即權重越大的態勢評估函數,其值越大,則優先級越高。防守無人機的策略選擇以態勢評估函數的權重比進行判斷。 本實驗采用Matlab R2021b編寫仿真程序。無人機與基地參數如表5所示,無人機集群動態對抗模型參數如表6所示。 表5 無人機與基地參數 表6 無人機集群動態對抗模型參數 基地坐標為(0,7 500),攻方無人機經過突襲,在距離基地12~15 km處發起攻擊。仿真結果如圖8所示。 圖8 無人機集群攻防軌跡Fig.8 Unmanned aerial vehicle swarm offensive and defensive trajectory 圖8中,以基地為中心的小圓代表基地的受威脅區,當攻方無人機攜帶武器進入此區域時,會給基地帶來一定的威脅。以基地為中心的大圓代表基地的探測區。每20 s為攻防雙方的軌跡做一個標記。其中,代表攻方無人機的藍色三角形反向時,表明此時武器消耗殆盡,攻方無人機撤離;代表守方無人機的紅色三角形反向時,表明守方無人機策略的改變,由出擊轉為防御,不再遠離基地,而是向基地方向回防。 從圖8中可以看出,攻方無人機最初采取進攻策略,以編隊方式向基地前進;守方無人機最初采取防御策略,在基地受威脅區與基地探測區間巡航。最終雙方相遇,初始相遇階段,攻方具備先發優勢:守方無人機對最接近基地探測區的攻方無人機進行攔截,以使得守方優勢最大化,這給后續分散到達的攻方無人機可乘之機,故而雙方遭遇的初始階段,守方無人機處于劣勢。隨著時間的推移,基地的作用凸顯,守方處于優勢:攻方無人機逐漸進入到基地的探測區內,此時基地為守方無人機增強了態勢感知能力,守方無人機與攻方無人機在此范圍內對抗,消耗了攻方無人機的武器數量,增加了基地的生存率。雙方無人機對抗的最后階段:雙方武器消耗殆盡,攻方選擇撤離,守方無人機或大角度機動,或緩慢機動,由出擊策略變為防御策略,返回基地。 圖9顯示了雙方無人機剩余數量隨時間變化的情況,在45~49 s,雙方最初遭遇,此時即攻方優勢期,守方迅速損失4架。而后,雙方進入相持階段,彼此糾纏,在50~70 s,雙方數量基本保持不變;在75~85 s,隨著攻方無人機的持續深入,基地功能凸顯,逐步進入到守方優勢期,攻方無人機數目漸次減少;85 s之后,為對抗結束期,雙方武器消耗殆盡,改變策略,各自撤離戰場。 圖9 雙方無人機剩余數量圖Fig.9 Number of remaining unmanned aerial vehicles on both sides 為更直觀體現雙方無人機的動態攻防過程,雙方無人機的存活率分別如圖10和圖11所示,可以看到任一架無人機任意時刻被攻擊的情況。其中,不連續的線,表示下一時刻該無人機的存活率低于生存閾值,即被擊毀。 圖10 攻方無人機剩余數量圖Fig.10 Number of remaining unmanned aerial vehicles on offensive side 圖11 守方無人機剩余數量圖Fig.11 Number of remaining unmanned aerial vehicles on defensive side 圖12和圖13中顯示了雙方無人機剩余武器數目隨時間的變化。 圖12 攻方無人機武器剩余數量圖Fig.12 Number of offensive unmanned aerial vehicles’weapons remaining 圖13 守方無人機武器剩余數量圖Fig.13 Number of defensive unmanned aerial vehicles’weapons remaining 由以上分析可知,在成規模的無人機集群對抗仿真中,基地安好,守方勝利。為更直接展現無人機集群對抗中無人機個體的策略選擇,選取攻方第7架無人機和守方第6架無人機進行分析,兩者策略變化如圖14所示。 圖14 所選無人機決策結果圖Fig.14 Decision results of the selected unmanned aerial vehicles 圖14中曲線的每一次突變,代表策略的變化。在未發生對抗前,即15 s時,攻方率先改變策略,對守方無人機發動進攻,體現了攻方的前期先發優勢。守方迎戰,策略變化慢于攻方,隨著態勢逐漸對守方有利,守方策略轉化明顯,即態勢占優時攻擊,擊毀攻方無人機后,短時間無合適目標,選擇防御策略,隨著位置變化,又發現其他攻方無人機,進而策略不斷變化。當雙方武器消耗殆盡后,策略不再改變。圖14說明,攻防雙方的策略可以隨著態勢變化而自適應選擇。 由圖15的無人機間最小距離圖可知,在集群攻防過程中安全可控,沒有發生碰撞。守方無人機在對抗初始階段的最短距離迅速變小,與之前分析相符。為了驗證具備探測功能的基地對攻防雙方勝負的影響,利用蒙特卡羅法分別進行1 000次仿真實驗,基地具備探測功能時,攻方勝利次數:守方勝利次數為367:633;基地不具備探測功能時,攻方勝利次數:守方勝利次數為507∶493。即具備探測功能的基地為守方提高了14%的勝率。 圖15 所選無人機決策圖Fig.15 Selected unmanned aerial vehicles decision map 本文提出的態勢演化博弈模型,能夠解決基地具備功能情況下的攻防雙方無人機集群協同對抗的自適應。無人機個體能夠根據自身態勢情況,選擇最優策略,實現自身收益最大化。運用該模型,使無人機集群對抗展現出強大的對抗能力,仿真實驗證明了基地具備探測功能時能夠有效提高守方勝率。 下一步將拓展無人機和基地功能,實現攻防雙方在三維空間上的集群動態對抗。
(1-x)(B2-Cj-G2+π2R+π3B3)






2.3 態勢演化博弈模型的實現

3 仿真與實驗
3.1 參數設定


3.2 仿真結果與分析








4 結束語