紅藍雙方攻防射擊決策最優指數策略

2014-12-25 02:34:26李龍躍劉付顯

軍事運籌與系統工程 2014年4期

關鍵詞：策略

李龍躍劉付顯

(空軍工程大學防空反導學院，陜西西安710051)

1 引言

很多軍事作戰問題可以抽象為紅方防御多個藍方目標的射擊戰斗問題，如地空導彈射擊多個空中目標的防空作戰場景。這種場景下藍方目標可能有多個類型，紅方不能完全確定藍方目標的類型，且紅方也可能被藍方摧毀而喪失防空射擊能力［1］。紅藍雙方攻防射擊對抗過程本質上是分配紅方可用射擊資源去射擊固定集合的藍方來襲目標，紅方射擊策略優劣對射擊收益、殺傷藍方目標數量和紅方生存概率都有影響，因此紅方制定和選用最優射擊策略對于獲取最高射擊收益至關重要。Gittins 和Jones 首先基于指數最大化來研究決策問題［2］。近年來，Christopher M. Anderson［3］、Gu M Z［4］、Isaac M Sonin［5］、U Dinesh Kumar［6］、Si P B［7］等對Gittins 指數理論研究及在資源調度、任務分配和隨機決策等領域的應用進行了拓展，Glazebrook 和Gaver 結合Gittins 指數討論了軍事射擊優化問題［8］。本文通過引入和拓展指數策略(Index Policy)應用于紅藍雙方攻防射擊問題，以紅方在自身被摧毀之前最大化殺傷藍方目標的收益(或數量)為目標，對指數策略在射擊策略中的最優性進行了討論，旨在最大化紅方作戰收益，對于輔助紅方射擊決策和建設作戰指揮信息系統具有一定借鑒意義。

2 紅藍攻防射擊的馬爾可夫過程描述

首先考慮1 個紅方火力單元射擊N個藍方目標的問題，規定“1 次戰斗”至少包括紅方對藍方進行1 次射擊(期間紅方有可能被藍方摧毀)，也包括紅方對藍方目標殺傷效果的觀察過程。假設防空武器系統的彈藥數量不受限制，此時紅方的核心決策問題在于如何根據以往的射擊戰斗情況，選擇下一個需要射擊的目標，從而最大化射擊過程中的期望收益。以上決策問題可以描述為馬爾可夫決策過程［11］:

(1)X(t)={X1(t)，X2(t)，…，XN(t)}表示t∈N時刻(即在t +1 時刻之前)藍方目標的狀態集合，Xj(t)表示藍方目標j的狀態。

(2)Xj(t)∈Ωj∪{ωj}，其中Ωj是紅方對藍方目標j所有可能狀態的認知空間，Xj(t)=ωj表示在時刻t，紅方被藍方目標j摧毀。

(3)在t∈N時刻，aj表示在紅方沒有被摧毀的前提下，選擇下一次射擊(即在t +1 時刻)藍方目標j。

(4)紅方在t∈N時刻采取射擊行動aj的期望收益為有界且非負函數:

常數β 為折扣因子，Rj可以理解為藍方目標j的價值或對紅方造成的威脅值。

(5)Qj為標記函數，滿足:

標記函數Qj(x)=0 表明如果紅方被摧毀則紅方收益為0，下一時刻停止射擊或目標飛出射擊時間窗口。

(6)如果紅方在t時刻執行射擊行動aj，藍方目標j狀態由Xj(t)變為Xj(t +1)的概率為:

顯然Ωj包含狀態ˉωj，表示藍方目標被殺傷而紅方未被摧毀。為描述射擊行動的期望收益，引入有界函數:

其中Rj(x)表示在時刻t紅方執行行動aj的期望收益函數，?Rj = RjQj，則紅方在時刻t執行射擊行動aj的期望收益為:

從式(3)中的Qk乘積項也可以看出如果紅方在射擊過程中被摧毀則收益為0，引入折扣因子β∈(0，1)來增加模型的通用性，β 的取值一般由決策者自行設定［12］。

3 指數射擊策略

一個射擊策略本質是紅方基于歷史射擊效果，決策每一時刻射擊藍方目標行動的一種規則。設射擊策略為v，v(t)表示時刻t紅方的射擊選擇，則策略v下射擊期望收益為:

研究射擊策略的目的在于找到最優射擊策略v*，使得紅方射擊期望收益最大。上述分析是馬爾可夫決策過程的一種，叫作廣義bandits 決策過程。廣義bandits 決策過程在不同決策行為之間引入了相互獨立的決策收益，可以作為研究射擊問題的框架。

令τ 表示紅方射擊過程結束時刻，?Rj(x，τ)表示在時間段［0，τ)紅方的射擊期望收益，則:

當紅方被摧毀時，則紅方收益也被終止，其收益率為:

Gj(x)為?Gj(x，τ)最大值。文獻［13］探討過Gj(x)的計算方法。

對于廣義bandits 決策過程存在最優射擊策略，有定理1。

定理1［14］存在函數Gj∶Ωj→?+，假設在時刻t紅方未被摧毀，紅方射擊藍方目標j*是最優策略，當且僅當j*滿足下式:

假設藍方目標有B種類型，“類型”是指隨著射擊戰斗進行，可以決定射擊結果的藍方目標特征的總稱。這里設定目標“類型”是為了增強方法的普遍性，因此“類型”是廣義的，需要根據具體問題進行設定，其常用的區分方法可以是依據對目標的不同殺傷概率進行劃分，如在防空作戰中“類型”可以是不同類型的目標，如隱身目標、轟炸機目標、戰斗機目標等。通常情況下紅方不能確定藍方目標的類型，射擊前其不確定性由N個獨立先驗分布∏1，∏2，…，∏N表示，∏j b表示紅方判定藍方目標j屬于b類型的概率(1 ≤j≤N，1 ≤b≤B)。設在1次戰斗中，所有射擊結果相互獨立，紅方對藍方b類型目標的殺傷概率為rb，被其摧毀的概率為θb。紅方在第t次射擊殺傷一個藍方b類型目標的收益為βtRb，紅方的戰斗目標是在被摧毀前最大化殺傷藍方目標所獲得的收益(若β=1，Rb =1，紅方的戰斗目標等價于在被摧毀前最大化殺傷藍方目標的數量)。基于貝葉斯理論，在經歷n次戰斗后，如果紅方和藍方目標j均存活，則此時紅方判定藍方目標j屬于b類型的概率可由后驗分布∏j，nb來表示:

則可得到下式:

式(9)中的3 個式子分別表示紅方和藍方目標j均存活、紅方存活且藍方目標j被殺傷和紅方被摧毀三種情況。三種情況下射擊行動的期望收益(不帶折扣因子)為:

令隨機變量τr為紅方射擊的終止時刻(r為正整數，Xj(0)= n)，紅方對藍方目標j能射擊r次，直到兩者之間有一個被摧毀時停止射擊。τr表示當前紅方射擊次數，則紅方射擊行動的期望收益為:

依據式(6)、(8)、(11)和(12)可得到定理2。

定理2 假設在時刻t紅方未被摧毀，紅方射擊藍方目標j*是最優策略(Xj*(t)≠ˉωj*)，當且僅當j*滿足下式:

令式(13)中r =1，則可將Gj(n)化為Hj(n)(即僅考慮當前射擊收益，不考慮后續射擊收益)。

式(14)中Hj(n)本質上可以被理解為紅方射擊藍方b類型目標的加權平均收益指數Rbrb(1-β+βθb)-1。當Rb和rb較大，θb較小時射擊收益指數較高，即目標價值和紅方殺傷藍方概率較大，被藍方摧毀概率較小時收益指數較高，射擊收益較高，此目標適宜射擊;反之，對于Rb和rb較小，θb較大的目標，即目標價值和紅方殺傷藍方概率較小，被藍方摧毀概率較大時收益較低，此目標不適宜射擊，上述結論較為符合實際作戰認知。

如果函數Hj(n)是單調遞減的，則對于所有n當r =1 時式(13)取得最大值，此時有Gj(n)=Hj(n)。這種特殊情況表示紅方的射擊策略是不停轉換所需射擊的藍方目標，選擇射擊指數最高的目標射擊。如果函數Hj(n)是單調遞增的，則對于所有n當r→∞式(13)取得最大值，此時Gj(n)為:

這種特殊情況表示紅方最優策略是對每一個藍方目標持續射擊直至目標被殺傷。

4 近視策略、隨機策略和循環策略

為了和指數策略進行比較，給出近視策略(Myopic Policy)、隨機策略(Random Policy)和循環策略(Round - Robin Policy)3 種射擊策略。

(1)近視策略。如果指數策略選擇射擊目標是考慮射擊戰斗的長遠期望收益，那么近視策略選擇射擊目標則是考慮即時最優收益，因此近視策略又可稱為即時最優策略。近視策略指導紅方決策者按“眼前”最優收益進行射擊。如果藍方目標j為b類型的先驗概率分布為∏j b，采用近視射擊策略，進行n次射擊戰斗后收益為:

近視策略并不一定是最優策略［12］。舉例說明，如某次射擊戰斗，有2 枚射擊彈，射擊2 個目標，2 枚射擊彈對2 個目標的殺傷概率是［1，0.9;0.9，0］，R1= R2=1。按照近視策略，用第1 枚選擇目標1，不使用第2 枚射擊彈，總收益是1，而最優的策略則是用第2 枚射擊目標1，如果失敗再用第1 枚射擊目標1，或者第1 枚射擊目標2，總收益都是0.9×(1+0.9)+0.1×(0+1)=1.81，顯然這說明了近視策略并非最優策略。對本文研究來說，近視策略以紅方當前時刻收益最大為目標，計算量小，實時性強，但未考慮下一時刻目標類型的變化對射擊收益的影響，適用常規目標無差別射擊。

(2)隨機策略。隨機射擊策略就是對存活待射擊的藍方目標，紅方從中隨機選擇進行射擊，選擇任何一個藍方目標的概率相等或相似。

(3)循環策略。循環射擊策略就是對存活待射擊的藍方目標，紅方按某種順序循環射擊，其中，第1 個射擊目標隨機選擇決定。

5 實例分析

參數設置:設計2 個射擊戰斗場景，均含有10個待射擊藍方目標，藍方目標有5 種類型，具體參數見表1。從表1 中可以發現基本上藍方價值越高的目標就越難被殺傷，并且紅方被摧毀的概率越大。已知N =10，B =5，每次計算將目標分成5 組，設置組內第i類型目標先驗概率為0.75，組間則設相互獨立，并服從U(0，1)分布，滿足1(1 ≤j≤10)，折扣率β 設置為0.95。

表1 紅藍雙方參數值

實驗過程:用4 種射擊策略對2 個場景問題進行求解，針對4 種射擊策略分別計算10000 次。

實驗結果:實驗記錄了2 個場景紅方的收益，包括最小收益、平均收益、最大收益、平均殺傷數量、紅方被摧毀概率等數據。表2 是2 個場景下針對4 種射擊策略紅方收益數據，表3 是2 個場景下針對4 種射擊策略紅方殺傷藍方目標數量數據，表4 是4種射擊策略下紅方被摧毀的概率。

表2 紅方收益數據

表3 紅方殺傷藍方目標數量數據

表4 紅方被摧毀的概率

6 結論

一般認為，射擊戰斗過程中較好射擊策略是根據紅藍雙方當時狀態確定的，應當是即時最優策略(近視策略);較差策略是隨機策略，因為隨機策略不考慮射擊收益，而通過實例和計算結果分析發現并非如此。4 種射擊策略中指數策略要優于其他3種射擊策略，尤其是平均射擊總收益和平均殺傷藍方目標數量上具有優勢，與定理1 和定理2 的論述相符。近視策略比預想表現要差，其根本原因在于對紅方自身被摧毀的概率考慮較少，導致紅方較早被摧毀而結束戰斗，獲得的射擊總收益也較少。實例中，近視策略甚至還不如隨機策略或循環策略，其原因有待下一步研究。

［1］武從猛，王公寶.大型水面艦艇編隊空中來襲目標威脅值評估［J］.軍事運籌與系統工程，2013，27(3):24 -27.

［2］ GITTINS J C. Multi-armed bandit allocation indices［M］. Chichester:Wiley，1989.

［3］ CHRISTOPHER M ANDERSON. Ambiguity aversion in multi -armed bandit problems［J］. Theory and Decision，2012，72(1):15 -33.

［4］ GU M Z，LU X W. The expected asymptotical ratio for preemptive stochastic online problem ［J］. Theoretical Computer Science，2013，49(5):96 -112.

［5］ ISAAS M SONIN. A generalized Gittins index for a Markov chain and its recursive calculation［J］. Statistics and Probability Letters，2008，78(12):1526 -1553.

［6］ U DINESH KUMAR，HARITHA SARANGA. Optimal selection of obsolescence mitigation strategies using a restless bandit model［J］. European Journal of Operational Research，2010，200(1):170 -180.

［7］ SI P B，JI H，YU F R. Optimal network selection in heterogeneous wireless multimedia networks ［J］. Wireless Networks，2010，16(5):1277 -1288.

［8］ GLAZEBROOK K D，GAVER D P，JACOBS P A. On a military scheduling problem ［R］. Monterey CA:Naval Postgraduate School，2001.

［9］ BARKDOLL T C，GAVER D P，GLAZEBROOK K D，et al.Suppression of enemy air defense(SEAD)as an information duel［D］. Monterey: Naval Postgraduate School Working Paper，2001.

［10］ GLAZEBROOK K D，WASHBURN A. Shoot - Look - Shoot:A review and extension ［J］. Operations Research，2004，52(3):454 -463.

［11］ GLAZEBROOK K D，MITCHELL H M，GAVER D P，et al.The analysis of shooting problems via generalized bandits［R］.Monterey CA:Naval Postgraduate School，2004.

［12］ GLAZEBROOK K D，KIRBRIDE C，MITCHELL H M，et al.Index policies for shooting problems［R］. Monterey CA:Naval Postgraduate School，2006.

［13］ GLAZEBROOK K D，GREATRIX S. On transforming an index for generalized bandit problems［J］. Journal of Applied Probability，1995，32(1):168 -182.

［14］ NASH P. A generalized bandit problem［J］. Journal of the Royal Statistical Society (Series B)，1980，42(2):165 -169.