999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DQN的反艦導彈火力分配方法研究

2019-09-13 08:40:28棟,蘇航,朱
導航定位與授時 2019年5期
關鍵詞:艦艇深度策略

閻 棟,蘇 航,朱 軍

(清華大學計算機科學與技術系,北京 100086)

0 引言

隨著軍事技術的不斷發展,各種高精尖武器在戰爭中的地位日益凸顯。反艦導彈作為海上作戰的主要武器,以其對敵的精準打擊和高效毀傷能力在歷次海戰中均取得不俗的戰績。與此同時,為了有效攔截反艦導彈,艦船的各種防御設施對于反艦導彈的預警、偵查、攔截和干擾技術都有顯著的提高,因此如何提升反艦導彈對敵方艦船的毀傷能力就成為現代海上作戰的關鍵環節,而保證反艦導彈安全快速突防和精確高效打擊就是其中的核心。在給定反艦導彈自身技戰術性能的前提下,如何進行反艦導彈的火力分配決定了攻擊的最終毀傷效果。

反艦導彈的火力分配是以對敵方艦艇編隊的毀傷效果最大化為目標[1]。目前國內外對于反艦導彈攻擊艦艇編隊的火力分配問題基本都是針對特定的場景進行建模[11-12],對于特定的情況反艦導彈火力分配在考慮打擊的代價和收益的情況下,將問題轉化為最大化打擊收益和最小化打擊代價的算法問題。但是由于在實際復雜戰場環境下綜合求解上述問題涉及參數過多,傳統的求解方法(枚舉法、分支定界法和動態規劃的方法[2])易于實現但搜索速度太慢,智能算法(遺傳算法、神經網絡算法)存在難以擴展的問題。例如文獻[3]提出的一種基于神經網絡的火力分配求解方法,該方法合理地使用了神經網絡但容易得到不穩定的解。目前大多數的反艦導彈火力分配模型在方法上存在著一定的缺陷和不足,優化效果有限且無法推廣到大規模、高強度的軍事對抗當中,因此如何建立更加準確、全面和合理的火力分配模型以及如何改進傳統的智能優化算法成為當前的研究熱點。

隨著人工智能技術的突破性進展,特別是強化學習技術在智能控制領域的發展給反艦導彈的火力分配問題帶來了新的思路。強化學習算法的機制類似人類的決策過程,智能體的每一個動作都是在策略的驅動下完成的,而策略是智能體通過與環境的交互得到的。智能體通過交互式的學習從環境中得到獎勵或者懲罰,并根據學習過程中的累加回報值不斷更新策略。強化學習主要包含兩類算法,一類是基于值函數估計的方法,如Q-learning[3]和SARSA[4]等,這類方法具有較好的理論基礎,算法的收斂性和解的質量相對有保證;另一類是在參數空間中進行求解的方法,其中典型方法包括TRPO[5]和Actor-Critic[6]等,其主要思想是將策略參數化,直接在參數空間中對問題進行求解,在許多場景下求解效率較高,但缺乏理論保證。如前所述,這兩類經典的強化學習算法僅能夠解決一些小規模問題。在面對現實世界中大規模、復雜的問題時,由于無法遍歷整個狀態空間,所以不能在一個合理的時間內給出結果。近年來,深度神經網絡與強化學習相結合,形成了深度強化學習方法。利用深度神經網絡[7]來解決強化學習中狀態空間的泛化問題,在許多領域取得了突破[8,13-15]。其中用深度神經網絡擬合Q值函數,同時使用Q-learning更新規則來迭代Q值函數的方法稱為深度Q值網絡(Deep Q-value Network, DQN)。使用深度Q值網絡訓練的智能體在視頻游戲上的表現達到或者超過了人類專家的水平[9]。本文針對反艦導彈火力分配問題,利用深度Q值網絡在高維度的解空間學習反艦導彈火力分配策略并最終實現打擊效果的優化。

1 反艦導彈突防模型

反艦導彈對目標艦艇編隊實施攻擊,目標艦艇編隊對來襲反艦導彈實施電子干擾、艦空導彈攔截和密集陣火力攔截。為了簡化反艦導彈的火力分配模型,本文采用單一類型的反艦導彈,以多彈協同的方式打擊艦艇編隊,綜合考慮導彈飛行及目標捕獲的可靠性、抗干擾能力、抗導彈攔截能力和密集陣攔截等對抗全過程,計算打擊任務成功率。

整個過程中可假設反艦導彈和防空導彈均做勻速直線運動,在攻擊過程中艦艇編隊的隊形保持不變,艦艇編隊可將態勢信息進行共享。反艦導彈到達指定位置后導引頭開機,開始搜索目標艦艇,一旦捕獲目標即對目標進行識別并判斷相關威脅,此時由于目標艦艇編隊發現來襲反艦導彈,開始捕捉跟蹤并將相關數據同步傳送給其他艦艇。

1.1 艦艇編隊陣型設定

艦艇編隊一共有四種不同的陣型設定,如圖1所示,從左上到右下依次為3支艦艇、6支艦艇、8支艦艇和10支艦艇。艦艇位置在圖中以小圓點形式表示,其中:紅色為宙斯盾驅逐艦,擁有8個火力通道,冷卻時間20s,防空導彈攔截半徑為20km;藍色為普通驅逐艦,擁有4個火力通道,冷卻時間25s,防空導彈攔截半徑為15km;黃色為補給艦,沒有火力通道。各個艦艇的防空范圍在圖中以綠色圓圈表示。所有艦艇都擁有密集陣攔截能力,密集陣攔截半徑為3km,在圖中為簡潔起見不予展示。

圖1 艦艇編隊設定Fig.1 Fleet formation setting

1.2 艦艇編隊毀傷概率模型

為了衡量突防策略的優劣,此處對艦艇編隊毀傷概率模型進行簡要說明。假設一共有N枚反艦導彈同時在指定位置發射,每一枚導彈從發射到命中的過程相互獨立。該過程一共需要經歷如下4個步驟:

1)可靠飛行及目標捕獲流程

反艦導彈之間相互獨立,其概率分布符合二項分布,N0發導彈中有i枚導彈捕獲攻擊目標的概率為

(1)

其中,N0為導彈初始彈量,P1為單彈能夠可靠飛行并成功捕獲目標的概率,其值為0.98。

2)各類干擾流程

在準備攔截反艦導彈的過程中,艦艇編隊對反艦導彈實施干擾,默認在準備使用干擾設備的情況下一定會使用該設備,且干擾一旦釋放所有的反艦導彈都會受到干擾。根據反艦導彈的抗干擾概率計算突防彈量,概率分布采用二項分布計算。各導彈之間相互獨立,其概率分布符合二項分布,N1枚導彈中有N2枚導彈對抗干擾成功的概率計算方法如下

(2)

(3)

3)防空導彈攔截

當反艦導彈到達艦艇防空導彈的防御邊界時,艦艇發射防空導彈對反艦導彈進行攔截。對于單次攔截事件,按照獨立事件處理,防御艦船火力通道有限,一個火力通道只能導引一枚防空導彈對反艦導彈進行攔截,在考慮協防的情況下,需要計算攔截次數。在整個攔截過程中,攔截次數可以分為目標艦艇對反艦導彈的攔截以及協防艦艇對反艦導彈的攔截兩種。對于協防艦艇,在保證自身安全的情況下對目標艦艇提供保護,每次用一枚防空導彈攔截反艦導彈,不存在多枚防空導彈攔截一枚反艦導彈的情況。

在防空導彈對反艦導彈的攔截過程中,各導彈之間相互獨立,其概率分布符合二項分布,經過一次防空導彈攔截后,N1枚導彈中有N2枚導彈成功突防的概率為

(4)

其中,P3為單彈突破防空導彈攔截的概率,N1和N2均為非負整數,n為本次攔截的可用火力通道數目。

4)密集陣攔截

其中記一枚導彈在暴露于密集陣時所飛行的距離為d,密集陣攔截半徑為d0=3km;如果單彈在全過程中完全暴露于密集陣,則面對密集陣攔截時能夠成功突防的概率為P4=0.5。

給定上述4個攔截步驟,設第i枚導彈能夠擊中其目標艦艇j的概率為Pij,則有

所以最終目標為最大化艦隊中所有艦船的毀傷概率之和pfleet,即將所有導彈的毀傷概率線性加和為

2 基于深度Q值網絡的反艦導彈火力分配

2.1 強化學習

強化學習研究未知環境下的序列決策問題,其基本理念是基于環境給出的反饋來決定行為,以取得最大化的累積獎勵。與監督學習相比,強化學習的訓練并不需要預設的輸入/輸出對,可通過與環境的交互自動改善性能。由于其訓練理念的普適性,它在許多其他領域如運籌學、博弈論、控制論、群體智能、信息論、統計學以及遺傳算法等都有相關研究。在機器學習的語境下,強化學習更加注重在線規劃,需要在探索(在未知的領域)和遵從(現有知識)之間找到平衡。

2.2 馬爾可夫決策過程

在強化學習中,未知環境通常被建模為馬爾可夫決策過程。馬爾可夫決策過程包括如下5個元素,狀態空間S、動作空間A、變遷函數T(s,a,s′)、獎勵函數R(s,a)以及折扣因子λ。在艦隊火力分配問題中,狀態空間S為當前已發射導彈和艦隊毀傷狀況;動作空間A為所有可選艦船目標;變遷函數T(s,a,s′)為發射一枚導彈之后艦隊從狀態s轉移到狀態s′的概率;獎勵函數R(s,a)為發射導彈后增加的毀傷數值;折扣因子λ取0.99.

具體地,假設在t-1時刻已發射了t-1枚導彈,將計算得到每一艘艦艇j的當前毀傷概率向量Pj(t-1)作為狀態s。將t時刻,智能體進行的動作a定義為給定當前狀態s選擇第t枚導彈所瞄準的艦艇和它的發射位置。隨后根據T(s,a,s′)得到狀態s′,即t時刻每一艘艦艇的毀傷概率Pj(t)。而這次動作所獲得的獎勵為Pj(t)-Pj(t-1)。

2.3 Q值學習算法

強化學習的目標是最大化累計獎勵值,因此可用未來可能獲得的累計獎勵值來評價從一個狀態出發選擇每個動作的的優劣。使用Q(s,a)來表示從狀態s出發選擇動作a所可能獲得的累計獎勵值,在后續的文中稱其為Q值。在獲得正確的Q值后,在每個狀態選擇Q值最大的動作,就是智能體的最佳策略。Q值學習算法的核心思想就是通過與環境的交互,迭代逼近真實的Q值,其公式如下

Q(st,at)=Q(st,at)+α(rt+

Q值學習算法給每個狀態動作對一個隨機的初始值。從初始狀態出發,選擇Q值最大的動作,按照這個過程不斷的積累數據。每一組數據表示為一個五元組(st,a,st+1,r,t),將每一組數據代入上述公式更新相應的Q值,交替進行數據的積累和Q值的更新,直到Q值收斂。其算法具體流程如表1所示。

表1 深度Q值網絡算法流程

2.4 深度Q值網絡

傳統的Q值學習算法只能處理低維數據,而現實生活中的實際問題的狀態空間往往非常巨大,無法采用遍歷的方式更新。因此,研究人員采用深度神經網絡解決Q值在不同狀態之間的泛化問題,從而提出了深度Q值網絡[10]。

如圖2所示,本文所采用深度Q值網絡由兩層全連接層組成。值得說明的是,由于本文所處理問題的狀態可以表示為一維概率向量,所以網絡結構中沒有采用常見深度Q值網絡中的卷積層。深度Q值網絡采用ReLU作為激活函數,每層的神經元數量均為128,采用隨機方式對網絡權重初始化。

圖2 深度Q值網絡結構示意圖Fig.2 Structural diagram of deep Q-value network

2.5 訓練參數

Q值學習為確定性算法,為保證算法能夠找到最優值,本文在訓練過程中采用epsilon貪心法來探索新的動作序列,其中epsilon值隨訓練進行而線性遞減。訓練深度Q值網絡的所有相關參數如表2所示。

表2 深度Q值網絡訓練參數

3 仿真驗證

在實驗部分,本文通過在四種不同的艦隊配置下計算深度Q值網絡和其他三種策略的毀傷概率來驗證深度Q值網絡的實際效果。圖3展示了在10艘艦艇,最多64枚導彈的設定下,深度Q值網絡的訓練情況。其中橫軸為訓練周期數,縱軸為毀傷效能;圖4則展示了在相同設定下深度Q值網絡損失函數的變化情況。

圖3 深度Q值網絡訓練效果Fig.3 Training result of deep Q-value network

圖4 深度Q值網絡收斂曲線Fig.4 Convergence of deep Q-value network

從圖3中可以看出,在前60個訓練周期中深度Q值網絡所給出的毀傷值都處在較低的水平。這是由于在這個階段,深度Q值網絡輸出的策略主要被epsilon貪心策略決定,以探索各種可能的策略為主。經過前60個訓練周期之后,深度Q值網絡對整個樣本空間有了一個相對全面的采樣。在此基礎上,神經網絡通過訓練不斷對Q值進行泛化,同時epsilon探索值也下降到了0.1,因此從60個訓練周期開始性能逐步上漲直到訓練結束。

圖4展示了損失函數隨訓練時間的變化,從圖4中可以看到,在前30個訓練周期中,epsilon貪心策略的探索值從0.9線性下降到0.5,因此深度Q值網絡損失函數顯露出先下降后上升的波動趨勢。而在經過前30個訓練周期后,探索值從0.5逐步下降到0.1,此時過去與環境交互獲得的經驗開始占據主導地位,因此損失函數不斷下降,直至趨近于0。

圖5展示了在4種編隊陣型(艦船數目依次為3,6,8,10)的設定下,給定不同的導彈數目上限值,每個策略所能達到的最好表現。橫軸表示導彈數目,縱軸表示各個艦艇的平均毀傷概率。除了深度Q值網絡之外,還引入了其他3個策略進行比較:

1)隨機策略:在離艦隊中心50km的圓上隨機選擇每一枚導彈的發射位置,并且隨機選擇其目標艦艇;

2)最近攻擊策略:將導彈發射位置均勻分布在50km圓上,每枚導彈只會打離自己發射位置最近的艦艇;

3)平均攻擊策略:給每一艘艦艇分配幾乎相同數量的導彈去攻擊,并且如果2枚導彈的目標是同一艘艦艇,那么它們的發射位置完全重合,這樣能最大限度減小密集陣攔截的效果。

從圖5中可以看出,深度Q值網絡(圖標為DQN,紅色曲線)在各個場景中均比其他策略有著明顯的優勢,最近攻擊策略(圖標為heuristic 1,黃色曲線)和平均攻擊策略(圖標為heuristic 2,綠色曲線)表現不相上下,隨機策略(圖標為random,藍色曲線)表現最差。在3艘艦艇的配置下,由于其防御能力不足,各個策略在導彈數目達到一定數量之后的差距不是很明顯,但是導彈數目較少時深度Q值網絡一直保持明顯優勢;6艘和8艘艦艇的場景下,深度Q值網絡在各個導彈上限設置下均有著比其他方法更加明顯的優勢,雖然在導彈數目增多之后,性能逐漸被其他兩種策略追上;10艘艦艇防御能力最強,但是深度Q值網絡仍然取得了最佳的毀傷效果,并且遙遙領先其他策略,直至導彈數目增加到上限64時仍相對其他策略保持著巨大的優勢。

圖5 不同策略在不同設定下的最優表現Fig.5 Experiment results with different settings

更進一步地考察深度Q值網絡的火力分配策略可以發現,在反艦導彈數目未滿足飽和攻擊標準的情況下,對任何一種艦艇編隊,深度Q值網絡均能自動學習出集火策略,即集中攻擊艦隊中防御較弱的普通驅逐艦,避開防御能力較強的宙斯盾驅逐艦。在火力分配問題上,深度Q值網絡不僅求解效果優于其他策略,而且能夠很好地為人類所理解。

4 結論

本文針對反艦導彈的火力分配問題,提出了一種基于深度Q值網絡的解決方案。算法分析與實驗結果表明,與傳統方案相比,深度Q值網絡在各種艦船編隊下都能取得最佳的毀傷效果,且具有良好的可解釋性。在不使用任何先驗信息的情況下,深度Q值網絡通過純粹的訓練過程,自動學到了集中火力攻擊艦隊防空薄弱角度的策略。

目前的艦隊防空模型與真實情況相比,做了較多簡化處理。未來可通過進一步細化防空模型使其更加貼近真實情況,從而使得深度Q值網絡的計算結果更加符合作戰要求。

猜你喜歡
艦艇深度策略
艦艇入列
環球時報(2022-12-30)2022-12-30 15:15:00
海戰中的蒙面殺手——隱形艦艇
深度理解一元一次方程
例談未知角三角函數值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
Passage Four
主站蜘蛛池模板: 99九九成人免费视频精品| 国产亚洲精久久久久久无码AV| 久996视频精品免费观看| 国产第一页亚洲| 在线中文字幕日韩| 成人永久免费A∨一级在线播放| 亚洲色图欧美| 久久天天躁狠狠躁夜夜躁| 久久精品免费国产大片| 久久网欧美| 亚洲伊人天堂| 亚洲一区二区三区国产精品 | 亚洲女同一区二区| 成人午夜网址| 噜噜噜久久| 亚洲精品欧美日韩在线| 亚洲v日韩v欧美在线观看| 国产乱人乱偷精品视频a人人澡 | 久久综合九九亚洲一区| 精品国产aⅴ一区二区三区| 国产欧美日韩精品第二区| 国产成年无码AⅤ片在线| 亚洲日韩精品欧美中文字幕| 综合色在线| 亚洲中文字幕国产av| 青青青草国产| 很黄的网站在线观看| 91久久偷偷做嫩草影院免费看 | 亚洲日韩精品综合在线一区二区| 国产一级特黄aa级特黄裸毛片| 久久黄色免费电影| 在线不卡免费视频| 毛片三级在线观看| 第一页亚洲| 无码高潮喷水在线观看| 欧美伦理一区| 国产乱视频网站| 福利在线免费视频| 成年人视频一区二区| 亚洲香蕉伊综合在人在线| 久久亚洲美女精品国产精品| 91福利国产成人精品导航| 奇米影视狠狠精品7777| 国产成人无码播放| 国产成人精品在线1区| 亚洲中文字幕无码mv| 亚洲天堂2014| 农村乱人伦一区二区| 亚洲欧美成aⅴ人在线观看| а∨天堂一区中文字幕| 伊人91在线| 熟女日韩精品2区| 国产大片黄在线观看| 97国产在线观看| 日韩激情成人| 国产精品久久自在自线观看| 国产人成在线视频| 亚洲欧美精品日韩欧美| 欧美性精品| 国产jizzjizz视频| 五月丁香伊人啪啪手机免费观看| 亚洲美女一级毛片| 国产呦视频免费视频在线观看| 精品久久国产综合精麻豆| 极品性荡少妇一区二区色欲| 2020极品精品国产| 一本大道东京热无码av| 中文字幕乱妇无码AV在线| 欧美在线一二区| 久久精品人人做人人爽电影蜜月 | 国产亚洲精品资源在线26u| 国产幂在线无码精品| 久久semm亚洲国产| 在线a网站| 国产亚洲精品无码专| 一区二区日韩国产精久久| 97一区二区在线播放| 91蜜芽尤物福利在线观看| 国产精品一区在线观看你懂的| 人妻丰满熟妇AV无码区| 新SSS无码手机在线观看| 成人福利在线免费观看|