999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式通信對抗智能決策仿真系統(tǒng)

2019-08-30 03:31:58宋秉璽楊鴻杰杜宇峰
無線電通信技術 2019年5期
關鍵詞:動作智能策略

宋秉璽,肖 毅,楊鴻杰,杜宇峰

(1.中國電子科技集團公司第五十四研究所,河北 石家莊050081;2.中國人民解放軍31618部隊,福建 福州350003)

0 引言

自20世紀60年代人工智能被提出以來,它已應用于模式識別、語言處理和圖像識別等各種領域,人工智能應用于通信對抗也已經(jīng)成為國際的前沿研究方向[1]。在電子對抗方向上,美國國防高級研究計劃局(DAPRA)近年來使用新一代人工智能技術重點發(fā)展自適應電子戰(zhàn)行為學習及自適應雷達對抗等認知電子戰(zhàn)項目[2-3],并將電子戰(zhàn)系統(tǒng)的智能化水平提到前所未有的高度。2018年,美國國防部啟動了聯(lián)合人工智能中心(JAIC),預計投資16億美元,探索人工智能在電子對抗領域的應用。中國船舶工業(yè)總公司的楊春華等人做了Agent理論和技術在電子戰(zhàn)中應用的研究,主要應用于雷達對抗[4],本文將主要通過仿真手段來研究多Agent在通信對抗中的應用實現(xiàn)。通過建立仿真模型,來模擬通信對抗過程,進而完成智能決策算法的學習與驗證,可以有效提升通信對抗能力。

1 對抗模型設計

本文主要目的是研究群體通信對抗的自動化協(xié)作決策問題,針對該問題提出模型開展仿真,找出最優(yōu)方案。要構(gòu)建決策對象模型,此對象模型應可以客觀表征群體通信對抗作戰(zhàn)的特點,能夠進行博弈、有勝負,應用于決策技術的訓練,可以展示作戰(zhàn)過程,并且可以人機對抗演示。由此仿真模型的基本元素構(gòu)想如下:

① 紅藍雙方:進行博弈的2個作戰(zhàn)方;

② 通信單元:負責進行通信的單元;

③ 干擾單元:負責進行干擾對方通信單元;

④ 干擾區(qū)域:干擾單元可以干擾到的范圍;

⑤ 策略:對應作戰(zhàn)單元的移動方式;

⑥ 行動方式:紅藍雙方每次可以移動的作戰(zhàn)單元數(shù)目,有步進方式和整體方式2種,其中步進方式表示紅藍雙方每次只動一個仿真單元,整體模式則表示紅藍雙方每次可動多個仿真單元;

⑦ 數(shù)量規(guī)模:仿真單元數(shù)量;

⑧ 對戰(zhàn)策略:對戰(zhàn)的方式,人機對戰(zhàn)和機器對戰(zhàn);

⑨ 地圖大小:棋盤大小,代表作戰(zhàn)單元可移動的位置范圍;

⑩ 勝負判別:多輪后累計被干擾的通信單元總數(shù)少的一方獲勝。

由此設計的仿真模型基本處理流程如圖1所示,可視化對抗仿真主界面如圖2所示。

圖1 仿真模型基本處理流程

圖2 可視化對抗仿真主界面

根據(jù)基本設計元素和流程設計博弈戰(zhàn)場環(huán)境基本的配置界面主要通過在交互界面上點擊下拉框選擇相應的配置參數(shù)。這些參數(shù)配置信息常駐內(nèi)存,在仿真的每一個回合博弈的過程中是不可重入的,在每一個回合博弈開始時是可重入的。

根據(jù)仿真配置界面數(shù)據(jù)生成通信對抗主場景,實時可視化展示當前仿真對抗的相關信息,如圖2所示。頁面展示的內(nèi)容包含當前戰(zhàn)場和仿真單元的位置和干擾區(qū)域等信息,顯示當前回合和平均上紅藍雙方的正常通信數(shù)量和干擾通信數(shù)量,顯示出仿真過程。

2 智能仿真體決策關鍵技術

2.1 基于After-State強化學習搜索算法

2.1.1 環(huán)境定義

首先對強化學習中的環(huán)境進行定義,包括狀態(tài)空間、動作空間和獎賞函數(shù)。

(1)狀態(tài)表示

整個對戰(zhàn)棋局的狀態(tài)使用28*28*6的數(shù)據(jù)結(jié)構(gòu)進行表示,具體每一通道所代表的含義如圖3所示。

(2)動作和獎勵

動作:本方所有移動單元的動作(50*5*10);

獎勵:∑(本方通信單元數(shù)目+干擾對方通信單元數(shù)量)的變化值。

圖3 棋局狀態(tài)表示

2.1.2 算法介紹

① 初始化狀態(tài)價值網(wǎng)絡V(S);

② 獲取當前的戰(zhàn)場狀態(tài);

③ 通過環(huán)境模型獲取所有可能的動作所到達的下一個狀態(tài);

④ 將所有可能到達的下一個狀態(tài)輸入至狀態(tài)價值網(wǎng)絡中,獲取對應的V值;

⑤ 通過評估所有可能的V值獲取當前的策略,即選擇最大的V值所對應的動作;

⑥ 通過執(zhí)行動作,獲取Reward,更新當前的V值,更新方法為:V(S)=r+γV(S′)。

算法描述如圖4所示。

網(wǎng)絡的輸入即之前定義的狀態(tài),是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個,最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對應的V值。在本網(wǎng)絡中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務。優(yōu)化器用的是Adam。

圖4 基于After-State強化學習算法示意圖

2.2 基于多Agent的集中式控制算法

通過對該場景進行分析認為:干擾兵必須到達地理上的可干擾區(qū)域,才能夠通過控制頻段實現(xiàn)干擾;而通信兵只有在保證較大程度地遠離對方干擾兵,到達安全距離的條件下,才能最大程度保持跟隊友的頻段一致。因此,最核心的控制部分在于位置的控制,在該方法中將動作的控制與頻段的選擇進行了分離。位置的控制采用了強化學習的算法,位置確定之后頻段采用基于全局的控制方法。環(huán)境定義和狀態(tài)表示與基于After-State強化學習算法類此,算法的基本步驟如下:

① 初始化狀態(tài)動作價值網(wǎng)絡Q(s,a);

② 在本方所有的Agent中進行循環(huán),依次選擇;

③ 根據(jù)選擇出的Agent,確定該Agent的視野,進而確定其對應的狀態(tài);

④ 將該狀態(tài)輸入至Q網(wǎng)絡中,獲取所有動作對應的Q值;

⑤ 在環(huán)境中對該Agent執(zhí)行最大Q值所對應的動作,并獲取所對應的Reward;

⑥ 通過該Reward使用TD-ERROR更新Q網(wǎng)絡;

⑦ 通過全局控制的頻段選擇方法對頻段進行選擇;

⑧ 執(zhí)行下一個Agent一直到該回合結(jié)束。

算法描述如圖5所示。

圖5 基于多Agent的集中式控制圖

網(wǎng)絡的輸入即之前定義的狀態(tài),是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個,最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對應的所有動作的Q值。在本網(wǎng)絡中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務。優(yōu)化器用的是Adam。

2.3 基于平均場的多Agent強化學習算法

通過對基于多Agent的集中式控制算法場景進行分析,在此基礎上提出再利用平均場論來理解大規(guī)模多智能體交互,極大地簡化了交互模式,提高多智能體強化學習算法的能力。應用平均場論后,學習在2個智能體之間是相互促進的:單個智能體最優(yōu)策略的學習是基于智能體群體的動態(tài);同時,集體的動態(tài)也根據(jù)個體的策略進行更新。環(huán)境定義和狀態(tài)表示與基于After-State強化學習算法類此,算法的基本步驟如下:

① 初始化狀態(tài)動作價值網(wǎng)絡Q(s,a);

② 在本方所有的Agent中進行循環(huán),依次選擇;

③ 根據(jù)選擇出的Agent,確定該Agent的視野,進而確定其對應的狀態(tài);

④ 計算每一個Agent的所有鄰居Agent的平均行為;

⑤ 將第③步和第④步計算出的結(jié)果合并;

⑥ 將第⑤步的結(jié)果輸入到該狀態(tài)輸入至Q網(wǎng)絡中,獲取所有動作對應的Q值;

⑦ 在環(huán)境中對該Agent執(zhí)行最大Q值所對應的動作,并獲取所對應的Reward;

⑧ 通過該Reward使用TD-ERROR更新Q網(wǎng)絡;

⑨ 通過全局控制的頻段選擇方法對頻段進行選擇;

⑩ 執(zhí)行下一個Agent一直到該回合結(jié)束。

基于平均場的多Agent強化學習描述如圖6所示。

圖6 基于平均場的多Agent強化學習圖

網(wǎng)絡的輸入即之前定義的狀態(tài),是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個,最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對應的所有動作的Q值。在本網(wǎng)絡中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務。優(yōu)化器用的是Adam。最后在選擇最大的V值對應的動作之后,本文再基于貪心策略選擇頻段,如果當前的Agent被干擾則更換頻段,使得不被干擾;否則頻段不變。

3 終端對抗學習仿真過程

在雙Ti1080GPU下,用Python平臺經(jīng)過3小時訓練后,通信子與干擾子初步具備了對抗能力。對抗的干擾子和通信子具備了追擊和躲避功能,干擾兵會向前移動去干擾對方的通信兵,而通信兵則向后移動躲避對方干擾兵的干擾。干擾子在進入通信子可干擾范圍后,可以自動選擇和通信方一致的干擾頻段進行干擾,如圖7所示,紅干擾單元成功干擾藍方通信兵,使其不能通信。

圖7 紅干擾單元成功干擾藍方通信兵

當通信方被干擾后,應當自動逃離干擾子,通過訓練學習后,通信子具備了此項能力,在被干擾后通信子優(yōu)先選擇了距離遠離,并沒有優(yōu)先選擇改變頻段策略,只有無法移動后,才選擇改變頻段,如圖8所示,藍方被干擾通信兵陳工逃離紅方干擾單元的干擾。

圖8 藍方被干擾通信兵陳工逃離紅方干擾單元的干擾

經(jīng)過計算機3天的增強學習訓練,各干擾節(jié)點可以簡單配合對通信節(jié)點進行聯(lián)合干擾。近距離干擾節(jié)點可以組成一個小組進行協(xié)作,對敵方多子進行干擾,如圖9所示。

圖9 近距離干擾兵作為一個小組進行合作

4 結(jié)束語

本文對分布式通信對抗作戰(zhàn)進行了模型建立和仿真運行,設計了紅藍雙方多智能體、雙兵種的作戰(zhàn)模式,分別仿真了機器自主對戰(zhàn)和人機對戰(zhàn)的不同模式,在此基礎上利用基于平均場的強化學習算法,實現(xiàn)了在分布式通信對抗環(huán)境下的智能對抗系統(tǒng),并對敵方系統(tǒng)采用隨機策略、貪心策略以及人工策略的多種情況進行了仿真。事實證明,該智能對抗系統(tǒng)能夠贏過隨機策略及貪心策略,且能夠在對抗人工策略時達到百分之五十的勝率。本文的方法為智能對抗系統(tǒng)的進一步研究提供了新的思路,可以為智能對抗系統(tǒng)的發(fā)展提供參考。

猜你喜歡
動作智能策略
例談未知角三角函數(shù)值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
高中數(shù)學復習的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产男女免费完整版视频| 波多野结衣在线se| 色首页AV在线| 最新国产高清在线| 91精品专区国产盗摄| 久久久久久高潮白浆| 色欲综合久久中文字幕网| 18禁黄无遮挡免费动漫网站| 成年人视频一区二区| 尤物成AV人片在线观看| 午夜欧美理论2019理论| 美女高潮全身流白浆福利区| 天天干天天色综合网| 999国产精品永久免费视频精品久久| 国产91精品久久| 欧美激情视频一区| 亚洲天堂视频在线播放| 久久亚洲国产最新网站| 国产亚洲精品精品精品| 国产小视频a在线观看| 亚洲综合第一区| 国产爽爽视频| 无码AV高清毛片中国一级毛片| 91蜜芽尤物福利在线观看| 欧美成人午夜影院| 这里只有精品免费视频| 国产高潮视频在线观看| 国产免费人成视频网| 国产国模一区二区三区四区| 国产成人亚洲精品蜜芽影院| 手机永久AV在线播放| 日本日韩欧美| 国产a在视频线精品视频下载| 国产好痛疼轻点好爽的视频| 人妻一本久道久久综合久久鬼色| 精品伊人久久久大香线蕉欧美 | 无码人妻热线精品视频| 国产尹人香蕉综合在线电影| 久久久久青草线综合超碰| 美女毛片在线| 天堂av综合网| 呦视频在线一区二区三区| 性视频一区| 91免费国产在线观看尤物| 欧美在线观看不卡| 国产极品美女在线观看| 国产精品蜜臀| 免费观看亚洲人成网站| 波多野结衣无码AV在线| 日韩无码白| 99精品国产电影| 日韩在线网址| 激情综合网激情综合| 中文成人在线视频| 亚洲欧洲自拍拍偷午夜色| 久久精品国产精品青草app| 波多野结衣在线se| 日韩成人午夜| 国产精品亚欧美一区二区| 性做久久久久久久免费看| 一区二区三区四区精品视频| 国产成人精品一区二区不卡 | 五月婷婷激情四射| 午夜激情福利视频| 91无码视频在线观看| 国产中文在线亚洲精品官网| 久久久精品无码一二三区| 538精品在线观看| 大乳丰满人妻中文字幕日本| 免费国产不卡午夜福在线观看| 精品91视频| 又粗又硬又大又爽免费视频播放| 免费久久一级欧美特大黄| 91蝌蚪视频在线观看| 国产精品v欧美| 国产精品99在线观看| 老司机午夜精品网站在线观看| 3D动漫精品啪啪一区二区下载| 欧美国产日韩在线播放| 国产高清在线观看| 亚洲精品自在线拍| 亚洲一区二区成人|