999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的智能網絡安全防護研究

2021-12-14 01:48:20劉月華
通信技術 2021年11期
關鍵詞:網絡安全動作智能

周 云,劉月華

(1.78111 部隊,四川 成都 610011;2.中國電子科技集團公司第三十研究所,四川 成都 610041)

0 引言

2013 年深度思考(DeepMind)公司開發深度學習和強化學習結合構建價值網絡訓練智能體挑戰雅達利2600(Atari2600)中的游戲[1-2]。2016 年,阿爾法圍棋(AlphaGo)[3]在圍棋領域的成功是強化學習領域的里程碑事件,AlphoGo 將深度學習和強化學習結合構建價值網絡和策略網絡訓練智能體,在對弈階段采用蒙特卡洛樹搜索[4]。隨后推出的阿爾法元(AlphaGoZero)在AlphaGo 的基礎上將策略網絡和價值網絡合并成一個深度神經網絡進行強化學習,在不使用已有知識經驗的條件下自我訓練3 天即擊敗AlphaGo[5-7]。Atari 游戲、圍棋、國際象棋都屬于完美信息博弈,每個參與者可以在任何時候看到已經發生或正在發生的游戲局勢。2019 年,阿爾法星(AlphaStar)[8]攻克即時戰略游戲星際爭霸,智能體可以戰勝99.8%的人類選手。星際爭霸是不完全信息下的博弈,主要使用了監督學習、深度強化學習、基于循環神經網絡(Recursive Neural Network,RNN)的局部馬爾可夫決策,該智能體解決了不完全信息,需要遠期計劃,實時性以及多主體博弈的難點問題。

DeepMind 團隊取得的成績推動了人工智能從感知智能進入認知智能。感知智能以深度學習為代表,認知智能以強化學習為代表。

強化學習的基本思想是從與環境的不斷交互中學習[9],根據從環境觀測到的信息,做出行動決策,然后觀察環境反應調整行動,最終實現目標。網絡空間安全攻防對抗過程中,攻防雙方通過將攻擊行為和防護行為作用于網絡環境,并根據網絡安全態勢的變化調整對抗策略,從而實現網絡攻擊和網絡安全防護的目的,而強化學習為網絡空間攻防對抗智能化提供了重要途徑和技術手段。

本文主要研究強化學習的基礎理論,針對網絡空間安全防護如何應用強化學習實現智能防護的問題,提出初步解決方案。本文沒有考慮網絡攻擊智能化的問題。

1 深度強化學習基礎理論

強化學習[9](Reinforcement Learning,RL)以試錯的機制與環境進行交互,通過最大化累積回報學習最優策略。它是一種通過智能體Agent 與環境不斷交互,獲得最大累計期望回報,學習最優狀態到行動映射關系的方法。強化學習系統的原理如圖1 所示。

圖1 強化學習原理

強化學習系統通常包含4 個元素[10]:狀態s,動作a,回報(Reward,又稱獎懲/獎勵)r,策略π(a|s)。

狀態空間S:s∈S,狀態集合。

動作空間A:a∈A,動作集合。

累計期望回報R的計算方式為:

式中:γ∈[0,1]為折扣因子表示未來某一時刻的獎勵在累計獎勵中所占的影響比重;E為r的數學期望。強化學習目標是最大化累積回報期望,回報函數是關鍵。

策略π(a|s):狀態空間到動作空間的映射函數,Agent 依據策略π(a|s)生成動作a。

時間序列T:t∈T,t表示當前時刻,t+1 表示t時刻的下一時刻。

Agent 根據輸入的環境狀態st由策略π(a|s)選取動作at作用于環境,環境狀態轉移至st+1,新的環境狀態st+1和動作執行回報rt再次輸入Agent,Agent 評估策略π(a|s)優劣程度,進一步調整做出新的決策。

如圖2 所示,強化學習分為基于值函數(Value-based)的強化學習和基于策略函數(Policy-based)的強化學習。

圖2 強化學習分類

行動者-評論家(Actor-Critic)[11]算法結合了兩者優勢,其結構包括Actor 策略函數和Critic 值函數。Actor 產生動作,Critic 評價動作好壞,并生成時序差分(Temporal Difference,TD)誤差指導Actor 和Critic 更新。Actor 策略函數π(a|s)和Critic值函數(s,w)通過神經網絡學習獲得。對于高維的狀態st和動作at數據,構建深度神經網絡(Deep Neural Network,DNN)[12]提取數據特征,學習策略函數和值函數。

圖3 為Actor-Critic 邏輯架構。圖中,Actor 網絡使用環境狀態st作為輸入,輸出動作at。Critic網絡計算動作最優價值,Actor 利用最優價值迭代更新網絡參數θ,進而選擇新的動作作用于環境。Critic 使用環境反饋的回報at和環境新狀態st+1更新網絡參數w,然后使用新的參數w計算Actor 輸出動作的最優價值。Critic 的評估點基于TD 誤差,TD 誤差代表了估計值與目標值的誤差大小,誤差越大樣本的價值就越大。

圖3 Actor-Critic 邏輯架構

TD 誤差的表達式為:

Critic 網絡使用均方差損失函數作為參數w的更新梯度,表達式為:

Actor 網絡使用帶權重的梯度更新策略網絡參數θ,表達式為:

2 基于DRL 的智能網絡安全防護

基于深度強化學習(Deep Reinforcement Learning,DRL)的網絡安全防護智能體學習引擎使用虛擬化的網絡空間綜合靶場作為“環境(Environment)”,并通過Actor-Critic 算法和深度神經網絡構建DRL 框架,如圖4 所示。

圖4 智能網絡安全防護DRL 框架

虛擬網絡空間綜合靶場基于云計算平臺構建,作為實際網絡的仿真運行環境[13-14],環境中的數據支持從實際網絡引入,從而使Agent 的訓練學習面向真實環境。當把虛擬化網絡空間綜合靶場換做實際網絡環境時,Agent 可以直接使用不需要再做遷移學習。

2.1 狀態集合設計

狀態集合S是網絡狀態信息的集合,是網絡狀態已知信息的客觀描述數據,是強化學習的重要數據。組成狀態集合的狀態要素分類如表1 所示。

表1 狀態要素

表1 中的狀態要素是一個分類,每個分類有更詳細的原子狀態信息,所有的原子狀態信息共同構成環境狀態集合形成狀態空間,例如:攻擊對象原子狀態信息有計算機、網絡路由器、網絡交換機、系統、服務,安全設備、工業設備等;計算機原子狀態信息有主機可訪問狀態,操作系統類型,操作系統版本、權限、漏洞、存在脆弱性的服務和進程等[15];攻擊來源原子狀態信息有IP 地址,域名,AS 號等。

2.2 動作集合設計

動作集合A是Agent 可以采取的操作的集合,策略st+1從動作集合中選取at執行。組成動作集合的動作要素分類如表2 所示。

表2 動作要素

表2 中的動作要素是一個分類,每個分類有更詳細的原子動作,所有的原子動作共同構成動作集合形成動作空間。

2.3 回報函數設計

2.3.1 回報函數

回報函數對強化學習的每步決策選擇動作進行獎勵或懲罰,評判動作性能。回報函數對強化學習過程起著導向作用,回報函數引導Agent 在與環境交互的過程中不斷修正策略以選擇價值回報最大的動作。

回報函數為:

Agent 選擇動作at執行后,環境給出t時刻網絡攻擊威脅度xt∈X。如果xt大于閾值Xthreshold,進行正值反饋對Agent 進行獎勵;如果xt小于閾值Xthreshold,進行負值反饋對Agent 進行懲罰;xt等于閾值Xthreshold,不獎勵也不懲罰。此處閾值Xthreshold不做特別規定,視具體情況自行定義。

2.3.2 基于動態貝葉斯的網絡攻擊威脅度評估

動態貝葉斯[16]網絡攻擊威脅度評估,首先確定攻擊威脅各組成要素及其關系,按照要素間關系建立對應的貝葉斯模型;其次確定貝葉斯模型中各節點的先驗概率和條件概率;最后進行模型推理。

靜態貝葉斯模型在時間維度上展開得到動態貝葉斯模型,如圖5 所示。

圖5 動態貝葉斯網絡威脅度評估模型

動態貝葉斯網絡推理使用濾波算法利用過去結果和當前證據預測當前結果的推理方法,推理公式為:

式中:E代表證據;X代表連接毗鄰時間片的節點;t-1 代表過去;t代表當前;P(Et)和P(Xt)是當前證據E和節點X的先驗概率;P(Xt|Et)是當前網絡濾波推理前的概率結果;P(Xt-1|E1∶t-1)和P(Xt-1|E1∶t)是過去和當前網絡濾波推理后的概率結果;是當前和過去間節點X的狀態轉移概率;是過去網絡濾波推理后最大的概率結果對應的狀態;α是歸一化因子。

2.4 網絡安全防護智能體訓練過程

圖6 為網絡安全防護智能體訓練過程示意圖,訓練部分包括網絡空間安全態勢狀態數據和安全防護動作相關的樣本數據集、虛擬網絡空間綜合靶場仿真環境、Actor 神經網絡和Critic 神經網絡。

圖6 中的網絡安全防護智能體訓練過程描述如下。

圖6 網絡安全防護智能體訓練過程

步驟1:構建Actor 神經網絡和Critic 神經網絡,形成Actor 策略網絡和Critic 價值網絡。由于網絡安全態勢數據和網絡安全防護動作數據是高維數據,神經網絡構建采用深層的深度神經網絡。初始化神經網絡參數、初始化訓練次數、折扣因子、學習率等。

步驟2:引入實際網絡數據,提取網絡安全攻擊數據,按照動作集合設計中的動作要素構建網絡安全防護動作數據集。

步驟3:將網絡安全態勢數據作為模型的訓練數據輸入。

步驟4:Actor 策略網絡根據策略函數從動作空間A 中選擇actions 輸出給仿真環境。

步驟5:仿真環境執行動作actions,動作執行后的網絡攻擊威脅度和新的網絡安全態勢做為Critic 價值網絡的輸入。

步驟6:Critic 價值網絡計算TD 誤差(td_error),計算min(td_error2),使用策略梯度算法更新神經網絡參數w,同時將TD 誤差反饋給Actor 策略網絡。

步驟7:Actor 策略網絡使用策略梯度算法更新神經網絡參數θ。

步驟8:重復步驟3 至步驟7,直至訓練結束。

步驟9:訓練結束后,Actor 策略網絡參數和學習到策略函數、Critic 價值網絡參數和學習到的價值函數共同構成智能體Agent,訓練過程獲得的目標策略即是網絡安全攻擊與其相對應的最優安全防護策略。

3 結語

本文針對網絡空間安全防護如何智能化的問題進行研究,探索了深度強化學習解決問題的方法和過程。將深度強化學習應用在網絡空間安全防護領域,使用深度學習提取網絡安全態勢數據特征,構建智能體,由回報函數進行強化學習決策導引,判斷策略和動作好壞,并通過在虛擬網絡空間綜合靶場訓練學習獲得安全防護智能體和最優安全防護策略集合。智能體在面對網絡攻擊時根據模型和策略快速應對,并且強化學習從環境交互過程中學習的特性可以使智能體在線學習新的策略。

網絡空間已成為領土、領海、領空、太空之外的“第五空間”,是國家主權的新疆域,國家安全的重要組成部分。信息網絡安全已成為國家信息化建設的重要基礎支撐。信息與通信技術(Information and Communications Technology,ICT)和人工智能技術不斷取得的新進展,為網絡空間安全防護提供了新手段新措施。此外,網絡空間安全對抗也將更加智能化,對該領域的研究將會持續深入。

猜你喜歡
網絡安全動作智能
網絡安全
網絡安全人才培養應“實戰化”
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
上網時如何注意網絡安全?
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 天天做天天爱夜夜爽毛片毛片| 在线国产91| 亚洲欧美另类专区| 97影院午夜在线观看视频| 天天操天天噜| 国产精品偷伦在线观看| 91人妻日韩人妻无码专区精品| av在线5g无码天天| 茄子视频毛片免费观看| 一本色道久久88| 青草国产在线视频| 国产精品伦视频观看免费| 久久综合九色综合97网| 69精品在线观看| 99精品免费在线| 超碰91免费人妻| 亚洲欧美色中文字幕| 亚洲男人在线| 亚洲欧美日韩另类在线一| 98精品全国免费观看视频| 日韩二区三区| 91福利片| 亚洲精品少妇熟女| 青青草一区二区免费精品| 一级香蕉人体视频| 婷婷色狠狠干| 亚洲国产精品日韩专区AV| 久一在线视频| 97影院午夜在线观看视频| 波多野结衣在线se| 福利小视频在线播放| 国产欧美视频在线观看| 亚洲一区网站| 久久6免费视频| 国产av色站网站| 不卡色老大久久综合网| 欧洲精品视频在线观看| 玖玖精品在线| a毛片在线免费观看| 欧美日一级片| 色悠久久久| 国产午夜在线观看视频| 666精品国产精品亚洲| 色婷婷丁香| 99热这里只有精品在线播放| 婷婷激情亚洲| 免费无码AV片在线观看国产| 日韩无码黄色| 欧美午夜在线播放| 毛片免费观看视频| 午夜三级在线| 成人免费一级片| 天天躁日日躁狠狠躁中文字幕| 欧美五月婷婷| 亚洲第七页| 亚洲bt欧美bt精品| 久无码久无码av无码| a级毛片免费在线观看| 日韩中文字幕免费在线观看| 香蕉久久国产超碰青草| 日本午夜影院| 99在线国产| 综合色区亚洲熟妇在线| 美女免费黄网站| 欧美日韩国产精品综合| 欧美人人干| 国产av一码二码三码无码| 欧洲日本亚洲中文字幕| 國產尤物AV尤物在線觀看| 1024你懂的国产精品| 色欲色欲久久综合网| 日韩黄色大片免费看| 九九这里只有精品视频| 国产区福利小视频在线观看尤物| 国产成人综合亚洲欧洲色就色| 国产精品无码影视久久久久久久| 色婷婷久久| 热热久久狠狠偷偷色男同| 国产精品蜜臀| 97色婷婷成人综合在线观看| 日韩天堂网| 国产三区二区|