基于智能對抗進化的聯合火力打擊任務規劃方法

2019-08-06 01:49:58劉昊張策丁文韜

兵工學報 2019年6期

關鍵詞：智能

劉昊，張策，丁文韜

(1.國防大學聯合作戰學院, 河北石家莊 050000; 2.國防大學研究生院, 北京 100091)

0 引言

聯合火力打擊任務規劃是根據聯合火力打擊任務等約束條件，運用輔助決策工具對聯合火力打擊行動進行籌劃計算，包括計算兵力彈藥滿意度、輔助制定聯合火力打擊計劃、評估火力打擊效果等[1]。其核心問題是解決聯合作戰中的動態火力分配問題，即根據戰場態勢和敵我動態博弈情況實時生成目標打擊清單，動態分配火力打擊力量和打擊目標，以實現聯合火力打擊效能的最大化[2]。其難點在于火力打擊任務規劃不僅計算我方火力分配的效能最大化，還必須考慮敵方火力打擊對我方造成的影響，這是因為敵我初始火力分配的微小差別將導致最終打擊效果的千差萬別，極大地增加任務分配推演計算和算法實現的復雜度。

國內外研究人員已經針對任務規劃問題探索了多種解決方法，其中：特征評估法[3-5]通過算法公式計算影響戰果的評估指標，效率高但推廣性差；改進遺傳算法[6-9]利用生物進化思想尋找當前狀態下的全局最優解，構造簡單但環境依賴性大；動態博弈法[10-13]通過博弈論形成敵我雙方之間的納什均衡，動態適應性強但計算復雜性劇增；神經網絡法[14-16]模擬智能體的自學習能力，依靠經驗解決問題，理論完美但訓練數據來源受限。上述方法存在的普遍問題是：關注靜態條件下對我方火力打擊效能的評估，未考慮將敵我雙方納入網絡體系實施對抗推演，使火力打擊計劃片面化、簡單化；關注評估指標的理論計算，未考慮對抗推演中的有效性檢驗，使火力打擊計劃偏離戰場實際；關注當前態勢下的最優分配結果，未考慮敵我雙方態勢變化的可能性，使火力打擊計劃更脆弱。

本文在總結前人方法的基礎上，借鑒自然界物種間的對抗進化機理，在遺傳算法基礎上設計對抗進化算法，實現敵我雙方任務規劃的無上限對抗進化，產生出在當前態勢及未來可能態勢下解決任務規劃問題的最優個體，并通過仿真實驗驗證了該方法產生的最優個體自我學習能力以及在解決聯合火力打擊任務規劃問題上的智能性。

1 問題描述

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

并保證我方彈藥消耗比例do約束條件如下：

(9)

(10)

問題的難點在于：1)各節點的發現概率決定了目標打擊清單，目標打擊清單決定了各波次打擊任務的火力分配結果，火力分配差異影響最終評估結果，如何從不確定的發現概率中找到確定性的最優化火力分配，是任務規劃問題的難點[17]；2)敵我雙方均在尋找最優化評估結果，且雙方火力分配的微小調整均對各自最終評估結果產生重要影響，如何實現敵我雙方的對抗推演評估也是算法難點。本文試圖構造敵我雙方多波次的火力打擊對抗評估模型，通過對抗推演統計敵我雙方的評估函數分值，以此判斷勝負結果并找到最佳火力分配方法。

2 算法構建

針對聯合火力打擊動態分配問題難點，智能對抗進化算法設計目標包括：1)實現由不確定的發現概率得到確定性的評估結果；2)建立敵我雙方互為評估條件的對抗評估機制。智能對抗進化算法以遺傳算法為基礎，引入雙種群對抗評估機制，在設置初始個體的基礎上實現敵我雙方種群間的對抗進化，在眾多代繁衍后產生能夠解決聯合火力打擊任務規劃問題的最優個體。算法流程圖如圖1所示。

圖1 智能對抗進化算法流程圖Fig.1 Flow chart of intelligent confrontation evolution algorithm

2.1 生成敵我超網絡

超網絡概念是美國科學家Sheffi[18]在處理交織網絡時提出的，特指高于而又超于現存網絡的網絡，體現出超越一般網絡的復雜性和涌現性。為了確定敵我火力分配任務的打擊排序，本文將敵我雙方節點區分為觀察單元、判斷決策單元、信息傳輸單元、行動單元、其他單元5類；按照各目標的信息通聯屬性，構建出偵察情報網、指揮控制網、信息傳輸網、火力打擊網，并在各子網基礎上構建作戰超網絡。圖2為以敵方戰場態勢信息構建的超網絡示例。

2.2 生成敵我雙種群

本文中的個體特指具備一定智能程度的任務規劃對象，即給定當前狀態的目標打擊清單，能夠唯一地輸出聯合火力打擊任務規劃的智能體。對于一個固定的目標打擊清單，個體必能產生唯一對應的火力打擊任務分配表。本文對DNA定義為：由隨機整數組成的二維動態數組，整數值、組內個數均不固定，用以模擬生物DNA隨機變異、由簡單向復雜進化的自然特性。個體數據結構如表1所示(敵我雙方雙種群內的個體結構相同)。

圖2 敵方作戰超網絡示例Fig.2 Example of a friend-foe operation super-network

表1 個體數據結構

繁殖變異用于產生新生個體，以優秀個體作為父代，通過1/1 000的隨機變異操作產生不同于父代的子個體。繁殖變異算法流程圖如圖3所示。

圖3 繁殖變異算法流程圖Fig.3 Flow chart of reproductive mutation algorithm

設種群內個體上限數目為1 000. 其中，輸入壓縮種群階段，種群中個體數目小于1 000；選中父個體階段，在種群中選取最高評分且遺傳次數最少的個體作為父個體，若存在多個個體，則采用輪盤法確定父個體；復制新個體階段，將父個體完整復制產生新個體；變異操作階段，通過千分之一的隨機變異操作修改新個體的DNA動態數組信息；算法輸出規模為1 000的擴充種群。

2.3 更新目標清單

由于敵我雙方處于信息不透明狀態，在初始目標清單基礎上，火力打擊方必然會使己方處于觀察- 判斷- 決策- 打擊(OODA)循環中的節點發現概率增大，當發現概率到達發現閾值時即被對方偵察，目標清單上即顯示該節點，因此每波次火力打擊后敵我雙方的目標清單均需更新，用于剔除已消滅目標并引入新發現目標。更新目標清單算法流程圖如圖4所示。

圖4 更新目標清單算法流程圖Fig.4 Flow chart of target list updating algorithm

(11)

刪除已消滅節點階段，刪除毀傷程度超過80%的節點；添加新發現節點階段，將發現概率超過80%的節點加入目標清單。

2.4 個體轉錄

轉錄是指以DNA為基礎產生蛋白質酶以控制生物體性狀的過程，本文中特指在輸入目標打擊清單后，個體DNA數組通過內部算法，產生唯一對應的火力打擊任務分配表的過程。具體算法步驟如下：

步驟1窮舉所有可能的火力分配任務。每個火力分配任務包含“打擊目標編號、使用部隊編號、火力打擊起止時刻”。

步驟2數據非線性推演。為每個火力分配任務和DNA數組，對應計算f(zi)函數并留存計算結果。設火力分配任務輸入值為目標重要程度zi，DNA數組初始維數為10，對應數組值為d，推演公式如下：

(12)

若為首段輸入，則輸入打擊目標的重要程度；若為第i段輸入，則以zi=f(zi-1-1)代入f(zi)函數進行計算。

步驟3判定是否實施該火力分配任務。若結果f(zi)<50，則不實施；反之則實施；按f(zi)的分值由大到小排序，選取前10的火力分配任務。

步驟4去冗余操作。去除超程任務；去除彈藥不足任務；去除兵力不足任務；去除執行沖突任務；輸出最終的火力分配表如表2所示。

表2 個體對應火力分配表示例

注：T為戰斗發起時刻。

2.5 計算火力打擊排序

根據OODA循環理論，火力打擊過程可抽象為“觀察(Observe)-判斷(Orient)-決策(Decide)-打擊(Act)”4種行動的不斷循環，則勝利的關鍵在于通過加快己方的OODA循環，在敵人對己方前次行動作出反應之前發起新的行動，從而遲滯或打破敵人的OODA循環，以達成制勝的目的。OODA循環理論可以解決敵我雙方火力打擊任務的排序問題。在敵我作戰超網絡中，偵察情報網對應“觀察”環節，指揮控制網對應“判斷”和“決策”環節，火力打擊網對應“打擊”環節，則可通過超網絡中各節點的通聯效率作為評判OODA循環效率的依據。

本文設置敵我雙方各火力打擊任務的排序規則如下：1)超網絡中觀察單元、判斷決策單元、行動單元之間的循環越短，該行動單元的OODA循環效率越高；2)超網絡中的各子網越健全，網絡中行動單元的OODA循環效率越高；3)行動單元的OODA循環效率越高，火力打擊排序越靠前。設超網絡中第i個單元的易毀傷程度為hi；與第t個行動單元相連接的觀察單元數目為m，判斷決策單元數目為n，信息傳遞單元數目為k，分別對應的單元編號為im、in、ik. 定義第t個行動單元的觀察效率為Gt：與其相接的觀察單元重要程度越高，機動能力越強，越難以毀傷，則觀察效率越高。Gt的計算公式如下：

(13)

式中：him、zim、dim分別表示易毀傷程度、重要程度、機動能力指標。

定義判斷決策效率Ct：與其相連接的判斷決策單元重要程度越高，越難以毀傷，固定位置時間越長，則判斷決策效率越高。Ct的計算公式如下：

(14)

式中：hin、zin、din分別表示易毀傷程度、重要程度、機動能力指標。

定義信息傳輸效率St：與其相連接的信息傳輸單元重要程度越高，越難以毀傷，固定位置時間越長，則信息傳輸效率越高。St的計算公式如下：

(15)

式中：hik、zik、dik分別表示易毀傷程度、重要程度、機動能力指標。

定義OODA評估指標Pt，其計算公式如下：

Pt=lg(max{Gt,1})×lg(max{Ct,1})×

lg(max{St,1}).

(16)

按Pt排序實施火力打擊，更新打擊目標方的毀傷程度，更新實施打擊方的彈藥消耗和發現概率。設某個作戰單元在第p波次火力打擊中的易毀傷程度為hp，參與火力打擊的部隊毀傷能力為kp，兵力消耗比例為bp，更新各節點毀傷程度的計算公式為

(17)

更新發現概率的計算公式為

fp=fp-1+rand{Gt,Ct,St}×
rand{10,…,30}.

(18)

此外，每波打擊中隨機對一個目標發現概率賦值100.

2.6 計算敵我雙方對抗結果

敵我雙方對抗評估用于在火力打擊結束后，通過敵我雙方兵力、彈藥損耗，計算出敵我雙方綜合評分的過程。對抗評估算法流程圖如圖5所示。

圖5 對抗評估算法流程圖Fig.5 Flow chart of confrontation evaluation algorithm

(19)

(20)

計算對抗評估參數階段，用T1描述在固定火力打擊次數情況下對更重要的節點實施火力打擊；用T2描述實際火力打擊次數和規定火力打擊次數的差異率；用T3描述各節點的平均毀傷程度。設第is個行動單元的火力打擊次數為ris，重要程度為zis，對抗評估參數T1、T2、T3的計算公式如下：

(21)

(22)

(23)

計算綜合評分階段，使用熵權法將對抗評估參數降維為單一評估指標。設敵我雙種群共進行了v次對抗推演，則在第q次對抗推演中，第p項評估指標對應評估參數矩陣T中的子集為tpq. 首先對評估參數矩陣T做歸一化處理，得到歸一化矩陣P，其中子集ppq的計算公式如下：

(24)

然后計算每次對抗推演中每項評估參數對應的熵值ep為

(25)

式中：當ppq=0時，ep=0.

計算每次對抗推演中每項評估參數對應的權重tp為

(26)

最后計算并輸出本次對抗推演的綜合評分Mq為

(27)

對敵我雙方計算綜合評分，判斷評分高的一方為勝利方。

2.7 雙種群優勝劣汰

優勝劣汰用于構造敵我雙方動態博弈環境，在博弈中勝者留存并繁衍后代，敗者淘汰以釋放資源。優勝劣汰算法流程圖如圖6所示。

圖6 優勝劣汰算法流程圖Fig.6 Flow chart of fittest algorithm

圖6中，結束條件設置為：當我方種群中個體的勝利次數和敵方種群中個體的勝利次數比例超過某一閾值時，可判定結束。

3 仿真分析

為了驗證智能對抗進化算法在聯合火力打擊任務規劃的優越性，采用文獻[7]提供的改進遺傳算法作為對比算法。仿真實驗計算機配置如下：聯想筆記本電腦運行MFC程序；Intel酷睿雙核處理器T7300 2.0 GHz；3 GB內存；32位Windows7操作系統；vc6.0編程環境。敵我雙方目標態勢特征屬性如表3所示，各類目標的網絡關聯情況示例如表4所示，火力打擊兵器毀傷屬性如表5所示。

表3 敵我雙方目標態勢表示例

表4 營指揮所的目標關聯表示例

表5 火力打擊兵器毀傷屬性表示例

表4為以營指揮所為中心的各目標類型與其關聯情況。

表6為以炮兵陣地為火力打擊力量對各目標類型實施火力打擊，能夠達成規定毀傷程度所需的打擊次數。運用該算法設計制作“智能聯合火力打擊任務規劃軟件”以服務于作戰籌劃實踐。軟件操作界面如圖7所示。

表6 炮兵陣地的火力毀傷能力表示例

圖7 軟件操作界面Fig.7 Software operation interface

3.1 參數有效性分析

本文實驗參數求取過程如下：隨機枚舉500個敵方火力打擊任務規劃，在調節我方各參數適用范圍基礎上計算個體的適應度值，以500次仿真計算結果的平均值作為參數優選參考依據。所用參數如表7所示。

3.2 各代最優個體適應度分析

為了檢驗算法的適應度變化情況，以敵我雙方雙種群為基礎實施自由對抗，每次對抗記為1代，并記錄我方個體對抗中的適應度分值；同時引入文獻[7]中的改進遺傳算法作為對比實驗，以敵方初始種群作為對抗環境代入改進遺傳算法中計算各代最優個體的適應度分值。經過500代迭代進化的適應度變化情況如圖8所示。

表7 參數取值范圍表

圖8 各代最優個體適應度分值統計Fig.8 Optimal individual fitness scores for each generation

實驗結果表明：智能對抗進化算法相比于改進遺傳算法的適應度結果，適應度分值呈現階段性收斂和陡降狀態，改進遺傳算法由于敵方環境固定不變，適應度分值收斂于固定分值，而后的進化計算由于結果不變而導致進化停滯；智能對抗進化算法則處于敵我雙方動態變化過程中，敵方環境的動態變化導致我方最優個體結構做出動態調整以應對敵方環境變化，調整必然導致適應度分值產生陡降，而每次陡降過程中產生的個體結構有后代個體繼承并作為DNA傳遞，因此智能對抗進化算法相比于改進遺傳算法的環境適應能力更強。

3.3 最優個體對抗結果分析

為了驗證算法的自我學習能力和對抗優越性，取智能對抗進化算法中的敵方各代最優個體作為對抗環境，取改進遺傳算法經過500代進化獲得的最優個體作為對比實驗個體，通過智能對抗產生我方最優個體，每次對抗記為1代，共推演400 000代，分析我方和對比實驗與敵方最優個體對抗的勝敗比率，以此判斷智能對抗進化算法是否具備優于遺傳算法的自我學習進化能力。我方勝利次數統計如圖9所示。

圖9 各代最優個體勝利次數統計Fig.9 Statistics of the victories of best individuals in each generation

實驗結果表明：隨著對抗進化迭代次數的增加，敵方最優個體不斷改進自身結構，改進遺傳算法的最優個體初期可獲勝，隨后被敵方最優個體壓制，并在總體進化進程中無翻盤可能；智能對抗進化算法中的我方最優個體可通過改造自身結構積累獲勝經驗，具備隨時翻盤的可能。

為了驗證智能對抗進化算法獲得最優個體的任務規劃能力優越性，實驗設計從敵方種群中隨機抽取1 000個個體作為對抗環境，以改進遺傳算法獲得的最優個體作為對比實驗個體，使敵我雙方個體逐一對抗并記錄勝負，以此判斷智能對抗進化算法在任務規劃能力上的優越性。最優個體勝利情況統計如圖10所示。

圖10 最優個體隨機對抗勝利次數統計Fig.10 Statistics of optimal individual random confrontation wins

實驗結果表明，智能對抗進化算法獲取的最優個體在勝率上明顯優于改進遺傳算法，相比于智能對抗進化產生的最優個體，改進遺傳算法獲取的最優個體由于嚴重依賴固定的敵方環境而產生了過擬合，導致其在敵方環境變化上的適應度分值明顯下降，并促使勝率低于智能對抗進化的最優個體。

3.4 算法時空消耗分析

為了驗證算法對個體結構改善情況，實驗抽取對抗過程中產生的最優個體并統計其存儲容量，以改進遺傳算法的各代最優個體存儲容量作為對比實驗個體，結果如圖11所示。

圖11 最優個體存儲容量統計Fig.11 Optimal individual storage capacity statistics

實驗結果表明：隨著進化代數的增加，改進遺傳算法獲取的最優個體存儲容量趨近收斂，并在多代進化后陷入進化停滯，個體結構不再改變；智能對抗進化獲取的最優個體隨著對抗進化代數的增加，個體數據結構呈線性增長，伴隨著結構復雜性的提升，個體對敵方動態環境的適應性相應增強。

為了檢驗算法的計算效率，取各代最優個體實施對抗并統計時間消耗，以改進遺傳算法的最優個體作為對比實驗個體，以隨機抽取的100個敵方個體作為對抗環境，取100次對抗平均時間作為評估指標，結果如圖12所示。

圖12 最優個體對抗時間消耗統計Fig.12 Optimal individual vs. time consumption

實驗結果表明，相比于改進遺傳算法最優個體，智能對抗進化算法的最優個體由于自身結構復雜度提升，對抗時間消耗也相應增大，但考慮到戰場中只使用智能對抗進化的多代最優個體，因此時間消耗在可承受范圍內。

3.5 任務規劃結果顯示

聯合火力打擊任務規劃的最終結果是生成輔助決心建議，因此將多代進化的最優個體和敵方當前態勢獲取的實時個體進行對抗，并生成對抗結果，轉化為輔助決心建議格式如下：依據當前敵我態勢以及目標打擊清單，我火力打擊綜合勝率為XX%，不能完成火力打擊任務，建議補充兵力彈藥或能夠完成火力打擊任務；建議使用X號個體作為火力打擊任務分配算法，其綜合勝率達XX%；預計執行完火力打擊任務時，我火力打擊部隊兵力剩余XX%，彈藥剩余XX%.

4 結論

本文基于對抗進化思想，在遺傳算法基礎上構造出敵我雙方的對抗進化機制，通過多代的優勝劣汰和遺傳變異，積累應對各種情況的遺傳因子，獲取能夠應對各種情況的最優個體，進而實現聯合火力打擊任務規劃的自我進化和迭代，產生了符合作戰實際需求的任務規劃。仿真實驗結果表明，該算法相比于標準遺傳算法具有更大的靈活性，能夠動態匹配目標打擊清單和敵我雙方作戰態勢，具備解決特定問題的人工智能算法基礎。