杜增義 馬勇 孔浩冉



摘要:隨著軍事任務的多樣性和火力成分的多元化,高效火力運用的難度逐漸增加。針對步兵戰車火力運用智能輔助決策問題,圍繞步兵戰車分隊火力打擊目標威脅估計、火力分配、毀傷等級評估和火力運用等方面需求,基于深度強化學習、優化技術實現步兵戰車分隊指揮的火力分配輔助決策應用研究,開發了基于人工智能技術的火力運用輔助決策系統,通過實驗驗證火力運用原則等火力運用理論研究成果的有效性,支持了本領域內相關教學、科研工作。
關鍵詞:火力運用;輔助決策;循環神經網絡;深度強化學習;遺傳算法
中圖分類號:TP18? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)30-0014-04
開放科學(資源服務)標識碼(OSID):
現代化戰爭的特點及其對指揮的要求,已迫使我們不得不進行軍事輔助決策系統的研究[1]。步兵戰車火力運用研究,需要緊密結合各種作戰類型的戰術環境,應用前沿的人工智能技術[2-3],并通過計算機輔助決策[4-5]。
李大鵬等人[1]采用層次分析法和線性規劃法對坦克連沖擊時目標價值和火力分配問題進行了分析,并在理論分析基礎上,開發了火力分配輔助決策軟件。鞏玨等人[6]研究并開發的輔助決策系統使得炮兵打擊輔助決策和軍事地理信息系統不再獨立,而是將來兩者緊密結合了起來,并且該系統基于MGIS。孫心琿[7]根據炮兵指揮自動化系統和炮兵設計訓練模擬系統的發展要求,建立到了輔助決策專家模型和炮兵分隊設計指揮評估模型,有一定指導作用。輔助決策系統在艦艇防空作戰也有所研究,姚曉白等人[8]根據該方面對火力分配的需求,并結合艦艇武器系統的具體特點,建立了面向輔助決策系統的艦艇防空火力分配模型。張弛等人[9]采用戰術兵棋的相關理念,提出了基于地形的戰場火力勢算法,用于定量表現戰場中火力體系的強弱分布態勢,輔助指揮員進行決策,提高指揮謀略和作戰計算能力。王宏磊等人[10]對戰場實際情況作出合理假設,并在此基礎上基于馬爾可夫理論建立動態火力匹配模型,建立的模型對許多輔助決策系統的開發提供了理論基礎,尤其在對指揮系統的目標處理子系統及戰場目標綜合處理等方面尤為重要。以上研究面向炮兵指揮、艦艇防空作戰指揮等領域,本文將圍繞步兵戰車分隊火力打擊目標威脅估計、火力分配、毀傷等級評估和火力運用等方面開展研究和系統開發。
1 系統總體設計
1.1 設計思路
步兵戰車分隊指揮時形成火力分配決策,這是步兵戰車火力運用的核心問題。采用深度強化學習技術,構建步兵戰車分隊指揮智能體(簡稱分隊指揮AI),將深度神經網絡放在步兵戰車分隊作戰環境下進行訓練,使分隊指揮AI兼具威脅估計能力和目標分配決策能力,通過毀傷評估作為環境獎勵,不斷優化目標分配策略,實現基于人工智能技術分隊指揮的“自我進化”,總體設計思路如圖1所示。
1.2 功能構成
基于AI技術的步兵戰車火力運用輔助決策系統,以步兵分隊指揮火力分配輔助決策為核心任務,包括應用層、交互層、功能層、計算層和資源層,功能組成架構如圖2所示。
2 功能模塊構建與實現
2.1 威脅估計模塊
威脅估計模塊用于根據步兵戰車分隊作戰態勢得出敵方目標威脅程度、等級,并進行威脅排序。項目主要進行目標威脅度評估,進而得到威脅度優先級排序。該模塊由威脅度評估指標構建、威脅度評估特征空間約簡等7個子模塊構建,其組成結構如圖3所示。
其中,目標威脅度評估綜合子模塊采用模糊綜合評判方法,根據評估指標的隸屬度,把定性評價轉變為定量評價,對受多種因素影響的目標威脅做出整體評價,并確定目標威脅等級。
模糊評價是利用數學方法,按照評價標準和實測值,對事物做出評價前進行模糊變換的一種方法。而綜合評價就是對受許多要素影響的對象或事物做出總體評價,即根據對評價的全體所給的條件,先對其中的所有對象賦予一個實數,所賦予的實數要求為非負的,該非負實數即為評價結果,得出評價結果后進行排序,最后擇取適當的結果。模糊綜合評價方法的過程可大體分為6步,具體步驟如下:
1)確定因素集
首先,建立所研究問題的評估指標體系,然后將建立的指標體系映射為相應的模糊綜合評估因素集。設確立的評估因素集為[U=u1,u2,…,um],m表示評估因素數量,即評估基礎指標的數量。
2)確定模糊評判集和對應得分
常用模糊評判集一般有兩種,第一種是[v1]={優、良、中、差},第二種是[v2]={好、較好、一般、較差、差}。這兩種評判集使用人員可以任選一種,或根據所研究具體問題的需要,設計適當的評判集。評判集確定后,就應為模糊綜合做準備,即明確所有評判等級的分數。設確定的評判集得分為[v=v1,v2,…,vm],m的含義同上。
3)確定底層指標的隸屬度函數
所謂底層指標的隸屬度,就是底層指標的無量綱的0-1的評估值,如0.9。確定底層指標的隸屬度,就是實現評估基礎指標值的無量綱轉化。本文中對所有底層指標區分指標的類型,定性指標采用專家方法確定隸屬度,定量指標采用統一的隸屬度函數確定隸屬度,將專家方法與函數方法相結合。
假設有n名專家對于某一因素逐一打分,第j個專家在(0,1)上給出該指標得分值為[xj],其自信度為[aj],n名專家分別打分后會得到n個數對[xj,aj],j=1,2,…,n,即n個專家的分值和自信度數對,則該因素或該評估指標的隸屬度為:
[Rj=j=1najxjj=1naj]? ? ? ? ? ? ? ? ? (1)
其中,[Rj]就是待評估指標的隸屬度值,它是一個無量綱的0到1的數。
隨后,將評估對象相對于理想對象的滿意程度或匹配程度,定義為該評估對象的滿意度,即隸屬度[R]。例如,對某些取值要求越大越好的指標,即效應型指標,則隸屬度為:
[Rj=1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? xj≥Mjxj-mjMj-mj? ? ? mj≤xj≤Mj0? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?xj≤ mj]? ? (2)
其中,評估指標為效應型;上式中[xj]代表指標初始評估值;[Mj]代表理想最大值,[mj]為理想最小值。
根據以上情況可類似處理成本型指標。對適中型指標,則隸屬度為:
[Rj=2×xj-mj Mj-mj? ? ? ? ? mj≤xj≤Mj-mj22×Mj-xj Mj-mj? ? ? ? Mj-mj2≤xj≤Mj0? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? xj> Mj或xj 4)基于AHP的指標加權 在模糊綜合評判過程中,綜合評判的結果受指標權重的直接影響。模糊綜合評估方法不同于傳統的評估方法,該方法確定指標權重時采用的是AHP層次分析法。具體步驟如下: 首先,選用一種AHP打分方法,對評估指標體系中的同層因素兩兩比較量化,生成判斷矩陣: [A=aijn×n]; 其次,進行層次排序及其一致性檢驗。在求出矩陣A的所有特征值后找出其最大值,再使最大值所對應的特征向量中的各元素之和為1(即歸一化),得到的結果為某層各個因素對應于上層某因素的相對重要性權值。判斷矩陣受人們的主觀判斷影響,因此不可避免地帶有估計誤差,所以還需進行一致性檢驗。 5)確定模糊聚合方法 得到本層指標的隸屬度值是模糊綜合的目的。為了更好地達到這一目的,模糊聚合綜合了兩類信息,一類是下層指標的隸屬度值,另一類是下層指標對本層的權重。模糊綜合方法常用如下兩種: (1)模糊矩陣的合成運算,實現模糊聚合,即: [B=A?R=B1,B2,…,Bn]? ? ? ? ? ? ? ?(4) 式中,n為評判等級數;[Bn=∨mAi∧Rij],j=1,2,…,n;∧表示[Ai]與[Rij]比較取最小值;∨表示要在[Ai∧Rij]的幾個值中取最大值。[B]的各分量之和如果不為1,則需進行歸一化處理。 6)模糊綜合 為了得到最終結果,需進行模糊綜合來確定頂層指標對各評價等級的隸屬度,計算公式如下: [D=BVT]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5) 其中,[B]、[V]、[D]分別有不同含義,[B]為頂層指標的隸屬度向量,[V]為評判集得分向量,[D]為頂層指標的模糊綜合評價值。 以上步驟,就實現了評估基礎指標的無量綱化、評估聚合和評估綜合,得到了用戶最關心的頂層指標,即作戰效能的模糊綜合評估值,完成了基于模糊綜合評價方法的作戰效能評估解算過程。 2.2 火力分配模塊 火力分配模塊用于根據步兵戰車分隊作戰威脅態勢和己方兵力態勢進行火力分配決策。該模塊由初始打擊方案生成、目標毀傷效果預估和火力分配策略優化模型構建等五個子模塊構成,其組成結構,如圖4所示。 該模塊的輸入為威脅估計數據和毀傷評估數據,輸出為火力分配決策文本。其中,毀傷評估數據作為火力分配策略優化的行動效果反饋數據。 火力分配策略優化模型構建子模塊是火力分配模塊的核心子模塊,也是系統功能實現的關鍵核心部分。該子模塊用于構建火力分配方案的優化策略空間,并采用一定的優化方法,在策略空間進行火力分配方案尋優,支持火力分配方案優化或火力分配策略優化。優化產物用于支持射擊規則的更新。 火力分配策略優化模型構建的基本運行框架,如圖5所示。 本文構建遺傳算法模型,支持火力分配方案探索優化。遺傳算法(GA)是一種逐步尋找最優解的優化算法,該算法的思想與人類進化過程相似,簡而言之,就是適者生存,優勝劣汰,只不過該過程是用計算機來進行模擬。遺傳算法實現全局優化是利用個體與群體間的信息交互,搜索信息是適應度函數,運算對象為決策變量的編碼,算法流程如圖6所示。 1)初始化種群,在產生種群的過程中必須是隨機的,種群中的個體不只是個體,還代表了其對應的染色體基因編碼。 2)編碼與解碼。把待解決的問題參數轉化為種群的染色體基因碼空間,其實質就是將問題參數化描述。 3)個體適應度評價。種群中的不同個體適應度也會不同,根據遺傳算法的基本思想,應利用優化準則來衡量個體適應度,如果個體適應度符合該規則,則將最佳個體以及最佳個體代表的最優解進行輸出。 4)選擇。自然界中,越適應的個體越有優勢,遺傳算法中選擇的目標是選出比較有優勢的。選擇方法有多種,但通常選用隨機選擇。 5)交叉。生物學中的染色體交叉是同源染色體將位于同一位置的染色體片段進行交換以產生新的個體。遺傳算法中的交叉與生物學中類似,該過程的目的是使種群的穩定性不受影響,并朝著最優解的方向進化。 6)變異。通過一定概率翻轉某個位的值,這是體現遺傳算法智能性的關鍵要素。 7)結束。算法不會一直執行下去,可以制定一種規則,當算法達到該規則時便結束算法,該規則應滿足使算法可以找出最優解。判定準則有許多,其中常用的有兩種,這兩種判定規則都是設定一個極小的閾值,當小于該閾值時結束算法,但不同的是,第一種規則要求全部個體適應度的方差小于設定值,而第二種則要求接連幾代個體平均適應度的差異比該設定值小。 3 工作流程與系統實現 3.1 系統工作流程 基于上述設計方案和各功能模塊所使用的算法,開發了基于人工智能技術的火力運用輔助決策系統,系統工作流程如圖7所示。 3.2 系統實現 目標威脅評估不僅是為決策提供依據的保證,同時也對目標分配至關重要,評估結果的好壞直接影響到目標分配是否合理。結合模糊綜合判斷理論,利用模糊綜合評價對目標物的威脅程度進行判斷,區分目標的威脅等級,為發射決策提供依據。所開發系統中基于模糊綜合評判法的目標威脅度評估綜合子模塊界面如圖8所示。 利用模糊綜合評價的思想,將敵方空襲目標定性的評價轉換為定量的評價,使模糊的問題有清晰的結果且系統性強,能夠很好地解決模糊的、難以量化的問題,對各種非確定性問題的解決普遍適用,為火力單元級自動化作戰指揮系統的目標威脅度評估提供了一種簡捷有效的方法。 火力分配模塊用于根據步兵戰車分隊作戰威脅態勢和己方兵力態勢進行火力分配決策。系統中基于遺傳算法的火力分配功能模塊界面如圖9所示。 通過改進遺傳算法建立一個火力分配模型,利用用戶輸入的各項參數計算出最優適應度和火力分配矩陣。系統中建立了基于遺傳算法的火力分配模型,快速有效地解決武器攔截系統的火力分配問題。 4 結論 基于深度強化學習、優化技術等人工智能新技術,圍繞步兵戰車分隊火力打擊目標威脅估計、火力分配、毀傷等級評估和火力運用等方面需求,本文研究了步兵戰車分隊指揮的火力分配輔助決策方法,并通過計算機編程,開發了基于人工智能技術的火力運用輔助決策系統,通過實驗驗證火力運用原則等火力運用理論研究成果的有效性,有助于提高指揮員戰場的指揮決策能力。 參考文獻: [1] 楊建兵,李大鵬,王忠義,等.線性規劃在最優火力分配輔助決策中的應用[J].高校應用數學學報A輯(中文版),2004,19(S1):550-560. [2] 王夢真,陳歡良.基于改進遺傳算法解決多目標智能排班問題研究[J].電腦知識與技術,2022,18(2):79-81. [3] 鄭華利,陳鐵健,徐蕾,等.作戰輔助決策模型設計及評估方法[J].火力與指揮控制,2021,46(10):67-72. [4] 郭寶寶,楊章勇,張自翔,等.深度學習技術在輔助決策中的應用研究[J].科技創新與應用,2020(22):175-176. [5] 張曉海,操新文.基于深度學習的軍事智能決策支持系統[J].指揮控制與仿真,2018,40(2):1-7. [6] 鞏玨,王代智,趙磊.基于MGIS的炮兵遠程火力打擊輔助決策系統[J].四川兵工學報,2011,32(7):128-129,136. [7] 孫心琿.指揮自動化條件下炮兵火力運用的決策與評估研究[D].南京:南京理工大學,2001. [8] 姚曉白,趙曉哲.基于輔助決策系統艦炮防空火力分配模型[J].火力與指揮控制,2005,30(4):10-13. [9] 張弛,趙中華.戰場火力勢算法及在地面戰斗輔助決策中的應用[J].軍事運籌與系統工程,2015,29(2):28-32. [10] 王宏磊.基于馬爾可夫決策過程的動態火力目標匹配[J].電腦知識與技術,2011,7(11):2655-2656. 【通聯編輯:唐一東】