李迎春,程建博,于 堯
(中國人民解放軍裝備學院 復雜電子系統仿真重點實驗室,北京 101416)
?
【裝備理論與裝備技術】
基于博弈論的無人機戰場攻防策略求解模型
李迎春,程建博,于 堯
(中國人民解放軍裝備學院 復雜電子系統仿真重點實驗室,北京 101416)
提出基于博弈論的無人機戰場攻防策略求解模型;利用零和博弈求解方法,找出當目標平均定位時間變化時的不同納什均衡點;案例結果表明:該納什均衡點即為攻守雙方一定條件下的最佳策略集合;該模型可為實際戰場決策提供參考。
無人機;博弈論;最優決策;零和博弈;納什均衡
無人機(Unmanned Aerial Vehicle,UAV)是一種具備自主飛行和獨立執行任務能力的新型作戰平臺,不僅能夠執行軍事偵察、監視、搜索、目標指向等非攻擊性任務,而且還能夠執行對地攻擊和目標轟炸等作戰任務。現代戰爭中無人機作為戰場的“先鋒部隊”,一旦任務失利,可能對整個戰局造成巨大的影響。合理的無人機任務分配是提高作戰效率的重要手段。面對復雜的戰場環境,無人機的任務分配成為決策方首要考慮的問題[1]。
博弈論主要是研究智能體之間相互依存的理性行為,是研究智能體之間競爭沖突的形式化表示方法,目的是通過理性的決策得到最大化的收益或者最小化的懲罰。這與無人機戰場環境十分相似,攻守雙方決策者均需使用自己的策略達到利益最大化或懲罰最小化。特別地,在無人機任務規劃中,由于路線和程序設定后沒有人為干預很難更改,戰前策略的制定顯得尤為重要[2]。本文將引進博弈論及其相關策略求解方式,建立簡單的無人機博弈模型,得出決策者特定條件下最佳的策略集。
博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略,達到取勝的目的[3]。1928年,馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1951年, John Forbes Nash利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎[4]。博弈論的本質是局中人必須置身其中,站在其他人的角度考慮問題,從別人的決策中找到自己的最佳決策。所以,局中人必須是理性的。每一個博弈論模型中都有三個要素:局中人、收益和策略空間。一個博弈可用G={S1,S2,…,Sn;u1,u2,…,un}來表示,其中Si為第i個局中人的策略空間,ui為第i個局中人的收益值。
納什均衡是博弈論中一種策略組合,它可使得同一時間內每個參與人的策略是對其他參與人策略的最優反應。假設有n個局中人參與博弈,如果某情況下無一參與者可以獨自行動而增加收益,則此策略組合被稱為納什均衡。納什均衡達成時,雙方均不可能獨自改變策略而獲得更多收益,所以納什均衡解可以看成是一個局部最優解。當一個博弈中只有一個納什均衡點時,局中人在不知道其他人的決策時,理性的決策者會趨向納什均衡點來制定策略。
2.1 模型介紹
現有攻守雙方模擬戰場,攻擊方在推進的過程中發現防御方某重要建筑物,擬派遣無人機群對其進行打擊。防御方建筑物附近安放有一部隱秘性很好的遠程雷達。
現攻擊方有4架FY攻擊型無人機,將被派出擊毀防御方某目標建筑物與其附近遠程雷達。目標建筑物自帶近程雷達,位置已知,附近的遠程雷達具體坐標未知,需等其開機后才能探測到,防御方可以選擇開啟遠程雷達或者關閉。現以目標坐標為原點建立平面直角坐標系,戰場示意圖如圖1。

圖1 戰場示意圖
打擊過程中,攻方無人機先飛往目標建筑物或雷達附近,再實施打擊,最后飛離,由于打擊目標建筑物需要信息的協同,所以至少需要3架無人機同時參與,打擊遠程雷達沒有限制[5]。

2.2 模型假設
為簡化模型,突出博弈論在戰場環境的應用性,對模型進行假設:
作戰雙方都是絕對理性的;由于作戰時間很短,雙方戰術一旦形成并采用,便不能中途更改;若攻擊方在未知遠程雷達具體坐標的情況下就飛往雷達附近,則定位時間t0不能忽略,并且此時間不是一定的,需根據戰場環境估計。
2.3 模型博弈論三要素
1) 局中人
Ai={a1,a2},其中a1為攻擊方;a2為防御方。
2) 收益
該博弈符合零和博弈范疇,零和博弈是博弈論的一個概念,指參與博弈的各方,在嚴格競爭下,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠為“零”,雙方不存在合作的可能。在本例中,所有無人機暴露在敵方雷達范圍內的時間總和t總為防守方的收益,也為進攻方的懲罰,或將-t總看作進攻方的收益[6-7]。
3) 策略空間
攻擊方已經得知防御方遠程雷達大致位置,在遠程雷達開機的情況下,先攻擊雷達總能帶來更高的收益,所以戰機的數量安排構成了攻擊方的策略空間。








求解博弈論的最佳策略集合,就是求解博弈的納什均衡點。畫出博弈論框圖如表1所示,由于該博弈是零和博弈,同一策略下,雙方收益為相反數,即u1=-u2,該表以防御方收益為正。

表1 博弈論框圖

表2 代入數值的博弈論框圖
為方便表示,表2中以序號表示收益。由于t0不是固定的,t0的變化導致雙方策略組合收益排序發生變化。同樣以防御方為例,t0從小到大變化過程中,出現的收益大小排序:
0 0.74 1.17 2.17 2.6 圖2 動態博弈圖 在無人機戰場中,雙方決策者應該是絕對理性的,所做出的決策應該趨向收益的最大化,這也正是博弈論的前提,并且無人機實施攻擊任務過程中,往往很難再做出人為干預,在博弈論中,最優策略組合一旦找到,也不應中途做出改變。本文通過一個簡單的案例,證明了博弈論在無人機任務規劃中的適用性。現實的無人機有更加復雜的策略集合和收益形式,在特定的場合和任務下,應建立不同的模型,但博弈方式和建模思路大同小異,本文的模型可為現實無人機戰場的博弈論建模提供參考。 [1] 詹明明.多無人機任務規劃研究[D].合肥:合肥工業大學,2012. [2] 付超,楊善林.基于博弈論的多無人機協同作戰仿真系統[J].系統仿真學報,2009,21(9):2591-2594. [3] 齊格弗里德.納什均衡與博弈論[M].北京:化學工業出版社,2011. [4] 謝識予.經濟博弈論[M].上海:復旦大學出版社,2002. [5] 陳小林.博弈論在鑒定雷達抗干擾特性中的應用[J].航天電子對抗,1986(s1):115-123. [6] 周代平,李康奇,賀琳.誘導信息條件下車輛路徑選擇:基于有限理性模糊博弈[J].重慶工商大學學報(自然科學版),2015,32(12):31-35. [7] 艾瑞卡·S.奧爾森.零和博弈[M].北京:中國財政經濟出版社,2014. [8] 韓玉龍,嚴建鋼,陳榕,等.改進博弈論的艦載無人機編隊協同對海突擊目標分配[J].火力與指揮控制,2016(7):65-70. (責任編輯 周江川) Solving Model of Unmanned Aerial Vehicle Battle Strategy Based on Game Theory LI Ying-chun, CHEN Jian-bo, YU Yao (Science and Technology on Complex Electronic System Simulation Laboratory, Academy of Equipment of PLA, Beijing 101416, China) A solving model of unmanned aerial vehicle battle strategy based on the game theory is been proposed. Referring to the solving method of zero-sum game, different Nash equilibriums are found out which depends on the average locating time. Results of a case show that these Nash equilibriums are the best strategy profile of offensive and defensive sides under certain conditions. This model can provide a reference for the practical model of battlefield decision. unmanned aerial vehicle; game theory; the best strategy; zero-sum game; Nash equilibrium 2017-02-25; 2017-03-26 李迎春(1993—),男,碩士研究生,主要從事指控系統的建模與評估研究。 10.11809/scbgxb2017.06.015 format:LI Ying-chun, CHEN Jian-bo, YU Yao.Solving Model of Unmanned Aerial Vehicle Battle Strategy Based on Game Theory[J].Journal of Ordnance Equipment Engineering,2017(6):70-72. TJ741 A 2096-2304(2017)06-0070-03 本文引用格式:李迎春,程建博,于堯.基于博弈論的無人機戰場攻防策略求解模型[J].兵器裝備工程學報,2017(6):70-72.


4 總結