999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Stackelberg安全博弈的動態防御策略選取方法

2020-09-04 03:15:56葛瀟月周天陽臧藝超朱俊虎
計算機工程與應用 2020年17期
關鍵詞:動作策略信息

葛瀟月,周天陽 ,2,臧藝超,朱俊虎,2

1.信息工程大學 數學工程與先進計算國家重點實驗室,鄭州 450001

2.國家數字交換系統工程技術研究中心,鄭州 450001

1 引言

防御策略生成技術[1]通過分析潛在攻擊威脅,評估安全態勢,提供防御策略,對保障網絡系統安全有重要意義。現有的防御策略生成技術常分為靜態防御技術和動態防御技術。靜態防御技術[2]是發生在攻擊之后的一種被動防御技術。動態防御技術是通過態勢感知、風險評估、安全檢測等手段對當前網絡安全態勢進行判斷,并依據判斷結果實施網絡動態防御。動態防御技術相比于靜態防御技術能夠實時識別網絡中存在的脆弱點和潛在的安全威脅,從而達到提前規避風險的目的。網絡攻防對抗的本質可以抽象為攻防雙方相互博弈的過程,防御者所采取的防御策略是否有效,不僅要考慮自身安全需求,還應考慮攻擊者可能采取的攻擊策略和方法[3]。所以,基于博弈模型的防御策略生成方法相對于其他方法更能夠體現攻防雙方策略依存的關系,因此博弈模型在網絡防御策略生成技術中應用廣泛。

現有的基于博弈模型的防御策略生成技術可以分為靜態防御策略生成技術和動態防御策略生成技術。在網絡攻防對抗中,基于博弈模型的靜態防御策略生成技術的研究已經十分成熟。文獻[2]構建完全信息靜態博弈模型進行防御策略生成,將網絡對抗過程看成是雙方擁有完全信息并同時采取行動的零和博弈過程,并給出了零和博弈算法。不足之處在于在網絡對抗中使用完全信息靜態博弈模型,與實際的應用場景不夠貼切。文獻[4]建立了不完全信息靜態博弈模型對網絡防御策略選取方法進行了分析,但文獻中存在防御策略簡單,策略收益量化僅為假設的情況。為解決收益的問題,文獻[5]將網絡所受攻擊后的恢復時間作為收益來定義靜態博弈模型,并分析網絡安全性。上述文獻都是基于零和博弈進行的策略分析,有些學者認為網絡攻防行為可以采用非零和博弈進行策略的生成。文獻[6]認為網絡攻防行為中攻擊策略和防御策略相互影響,在此基礎上提出了一種基于博弈的網絡安全態勢感知方式,采用非零和博弈計算混合納什均衡并給出了策略選取結果。但由于該方法對安全態勢的定性分析較為片面,因此對于具體網絡攻防策略生成的實施操作較為困難。

基于博弈模型的動態防御策略生成方法比靜態防御策略生成方法能夠更好地描述網絡實時變化的情況。文獻[7]在網絡防御策略生成中引入動態博弈模型,基于動態博弈理論提出了完全信息和非完全信息兩種場景的攻防博弈算法,進行策略的生成,但基于完全信息假設建立的博弈模型在現實攻防場景中很難滿足。文獻[8]在網絡攻防對抗中提出了基于信號博弈的網絡攻防博弈模型,從動態不完全信息的角度對網絡攻防行為進行建模并給出信號博弈精煉貝葉斯均衡的求解過程。上述文獻是基于單階段博弈的策略生成技術。文獻[9]提出了一種基于操作系統動態遷移的多階段博弈模型,該模型是從攻擊方出發得到最優策略。文獻[10]基于不完全信息動態博弈構建的面向動態目標防御的單階段和多階段模型并給出了精煉貝葉斯均衡求解算法和先驗信息修正方法,求解出不同安全態勢下最優動態防御策略。文獻[11]基于不完全信息動態博弈理論構建多階段攻防信號博弈模型,解決了有限信息條件下,多階段網絡防御策略選取問題。但在對主動防御機制進行研究時主要考慮了信號的選取和釋放方式,并沒有考慮到其他的防御機制。在安全態勢評估的過程中文獻[12]提出了基于馬爾可夫博弈模型的風險評估方法,該方法考慮了雙方行為對風險的影響,動態地分析了潛在風險,文獻在安全態勢評估與預測子系統中進行了實現。

通過上述分析發現,基于博弈模型的防御策略生成技術雖解決了網絡中攻防雙方目標對立、策略依存和關系非合作性質的描述,但無法刻畫攻防雙方的信息不對等特性。

本文將Stackelberg 安全博弈[13]引入到網絡攻防的過程中來解決攻防雙方信息不對等問題,進而得到最優防御策略。首先分析網絡攻防過程中攻防雙方的信息不對等特性;依據攻防雙方策略交互的競態特性,構建了基于Stackelberg安全博弈模型的安全策略計算模型,并利用了該模型求解網絡防御中的最優防御策略;最后通過仿真實驗驗證并分析了該方法的有效性。

2 相關知識

2.1 Stackelberg安全博弈

Stackelberg博弈模型在20世紀30年代被提出,用于競態條件下的最優策略生成[14]。如圖1所示,Stackelberg安全博弈模型主要包含領導者L和跟隨者F,L和F有各自的策略集合。L和F分別根據自身的策略在動作集合中選取動作a和d在環境中執行。L和F會根據環境的變化情況調整自身的策略。當L或F在執行策略時,只有一個動作,則稱為純策略,有多個動作且每個動作被選擇的概率為[0,1)時,則稱為混合策略[15]。在Stackelberg安全博弈中領導者首先確定自身的混合策略,跟隨者通過觀察得到領導者的策略信息,然后選擇能夠最大化自身收益的策略進行博弈,根據策略執行動作跳轉到下一狀態。

圖1 Stackelberg安全博弈模型

在Stackelberg安全博弈[16]中,用x={xt}表示領導者的策略,其中xt是目標t的覆蓋概率,可行策略集合是X={0 ≤xt≤1}。當跟隨者發起攻擊時,領導者沒有對目標t進行保護,則跟隨者得到獎勵為,領導者得到懲罰為。當跟隨者發起攻擊時,領導者對此目標t進行保護,則領導者得到獎勵為,跟隨者得到懲罰為。根據收益向量[17](Ra,Pa)和(Rd,Pd),得到跟隨者的預期收益(x,Ra,Pa)和領導者的預期收益(x,Rd,Pd):

Stackelberg 安全博弈是在同時考慮領導者和跟隨者策略的情況下,最大化領導者收益的策略游戲。

2.2 馬爾可夫決策過程

馬 爾 可 夫 決 策 過 程[18(]Markov Decision Process,MDP)是基于馬爾可夫理論的隨機動態系統的最優決策過程。MDP可以表示為一個五元組(S,A,T,γ,R),其中每個元素的定義如下:S為決策者在所處環境中所有可能狀態的有限集合。A為決策者能夠采取的動作集合。T(s,a,s′)∈[0,1]為當前狀態到下一狀態的轉移概率函數。γ∈[0,1)為折扣因子,可以保證無限步長的情況下回報的收斂性。R(s,a,s′)為回報函數,防御者在狀態s中采取動作a獲得回報。馬爾可夫決策過程的目標是獲得最大化期望的長期回報。為評估智能體策略,需要狀態-值函數。當智能體從狀態s開始并隨后執行策略π時,在該策略下狀態s的狀態-值函數Vπ(s)定義為預期回報。

式(3)中T(s,a,s′)表示在當前狀態s和行為a時,轉移到下一狀態s′的概率,而R(s,a,s′)為當前狀態s和行為a下在狀態s′所得到的預期直接回報。一個最優策略π*將使得智能體在所有狀態下獲得最大化的折扣未來回報,從而使得:

若智能體從狀態s開始并執行最優策略π*,則可獲得最優狀態-值函數Vπ*(s)。

動作-值函數Qπ(s,a)可定義為在狀態s選擇了特定行為a之后,并執行策略π而得到預期回報。在終止狀態時,狀態-值函數總為0,從而使得動作-值函數也總為0。動作-值函數Qπ(s,a)如下:

3 基于Stackelberg安全博弈的動態防御策略生成

本章首先對網絡模型進行形式化定義,說明模型的合理性,在給定的模型中使用Stackelberg安全博弈動態生成防御策略。

3.1 Stackelberg安全博弈模型在網絡攻防場景的適用性說明

在網絡場景中攻擊者和防御者對于網絡信息的了解程度不同。防御者首先通過部署安全策略對網絡環境進行保護,攻擊者通過探測確定網絡狀態進而實施攻擊。網絡場景信息通常包括:網絡連接情況、操作系統類型、端口信息、漏洞信息、主機上的應用和基礎設施等。

(1)防御者對于自身的端口信息、操作系統類型、網絡連接情況、主機上的應用和基礎設施等網絡信息的掌握程度有先天優勢而攻擊者只能通過掃描等操作對網絡進行探測,推斷防御方的安全部署情況。所以在網絡場景中防御者對于場景信息的掌握程度要優于攻擊者。

(2)在漏洞信息大多數是公開的情況下,由于防御者掌握著操作系統類型和主機上的應用等信息,所以相對攻擊者來說,防御者對網絡中的漏洞掌握情況要優于攻擊者。

(3)在網絡場景中,防御者部署安全策略需要花費成本,防御者的目的是使用最小的成本最大程度地保護網絡的安全。

本文為體現攻防雙方在網絡攻防過程中信息不對等特性,將防御者定義為網絡環境中的領導者,攻擊者定義為網絡環境中的跟隨者。所以Stackelberg 安全博弈領導者-跟隨者模型適用于網絡攻防過程。

3.2 Stackelberg安全博弈的模型構建

本文在模擬網絡環境時使用馬爾可夫決策過程對網絡環境進行建模。其中MDP的五元組(S,A,T,γ,R),在此模型中的定義如下:

S,在狀態集合S中,每個狀態都是攻擊者和防御者所處網絡環境中可能存在的狀態。網絡環境中的狀態為網絡實體上的特權狀態,分為無任何特權、遠程訪問特權、本地用戶特權和根特權四種。

A,網絡模型中動作集合為防御者和攻擊者的所有動作集合。攻擊者動作為網絡中存在的弱點信息。防御者動作為防御策略庫中選取的防御動作。

T(s,a,s′)∈[0,1],轉移概率函數描述了攻擊者和防御者在當前狀態s下進行動作a,到達下一個狀態s′的概率,轉移概率函數模擬了動作的隨機效應。這里的狀態轉移為網絡實體上的特權狀態變化,可以是單個節點上的權限提升也可以為網絡的橫向提升。在典型的攻防場景中,防御者在當前狀態采取防御動作跳轉到下一狀態,如果在網絡環境完全清楚的情況下則轉移到的狀態也是一定的,但在許多決策的過程中動作效果并不一定,這樣在狀態轉移的過程中就具有隨機性。狀態轉移函數具有馬氏性,可形式化描述成:

γ∈[0,1),在網絡模型中,防御者進行策略選取時,當取γ接近于1的情況下,說明了防御者在進行策略選取的時候更關注于長遠的回報。

R(s,a,s′),在網絡模型中將易被攻擊的節點設置成較大的正數。本文使用的回報值是參考漏洞的評分機制[19]來進行定義。

3.3 基于Stackelberg安全博弈的動態防御策略選取算法

在Stackelberg 安全博弈中攻擊者的目標是成功攻擊潛在主機,攻擊者完成攻擊任務后能夠得到較大收益。攻擊者在完成攻擊任務后可繼續對下一個目標進行攻擊。防御者的目的是對潛在主機進行保護,防御者在攻擊者對目標主機進行攻擊之前對于被攻擊主機進行有效防御才能夠獲得較大收益,視為防御成功,否則視為失敗。

本文中防御者的動作空間為Adef,攻擊者的動作空間為Aatt。當防御者選擇行為d∈Adef,攻擊者選擇行為a∈Aatt時,攻擊者收益的最大值定義為攻擊者的最優響應函數RF(d):

式中,為防御者與攻擊者策略組合為<a,d >時攻擊者的收益值,這里可以同上文中的動作-值函數等價。<d*,RF(d*)>為Stackelberg 的均衡策略。在Stackelberg均衡策略中,博弈雙方具有先后順序選擇策略。當領導者在進行策略選擇時,得到雙方收益最大化的策略,雙方不能夠通過單獨調整自身策略來得到更高的收益。但如果出現多個策略對于跟隨者來說沒有區別的情況,最優響應可能不唯一,這時需要在Stackelberg 均衡策略的基礎上計算Stackelberg 強均衡策略。在Stackelberg強均衡的情況下,當跟隨者有多個策略收益相同時,總是選擇對領導者最有利的策略[20]。Stackelberg 強均衡策略是所有Stackelberg 均衡策略中最大化領導者收益的策略。

在求解攻擊者最優響應集合時,式(6)中轉移概率函數T(s,a,s′)完全已知,那么最佳策略可通過動態規劃算法[18]獲得。但在本文場景應用中,智能體所處的網絡環境中T(s,a,s′)是未知的,在此情況下不能通過動態規劃算法計算最優策略。式(8)可通過式(9)迭代得到,從式(9)中可觀察到并沒有使用概率函數T(s,a,s′)。

本文需要考慮到的是多智能體的動作-值函數Q*(s,a1,a2,…,an),這里以兩個智能體為例:

式中,di表示智能體ai的對手,Qi(s,ai,di)為智能體i和對手分別選擇行為ai∈Aatt和di∈Adef時的預期回報。

通過式(10)得到攻擊者的動作-值函數Qatt*(s,ddef,aatt),其中ddef為,是防御者的行為集合,是攻擊者的行為集合。在狀態s下,計算防御者每種行為對應的攻擊者最優響應行為集合RF(ddef)。

通過式(11)從攻擊者最優響應行為集合中找到一個能夠最大化防御者收益的攻擊者行為。

式中防御者的動作-收益函數Qdef同樣是根據式(10)得到的。最后根據式(13)得到狀態s下防御者的最優策略。

最終得到結果是確定狀態s下得到的防御者最優策略,如算法1 所示。該算法在t=0 時刻,初始化每個智能體的Q值。在以后任意t時刻,防御者通過觀察周圍的環境得到最大化自身收益的動作,實現最優防御策略的選取。算法中用來表示根據每一個狀態-動作對求解均衡的過程。

算法1

該算法核心為利用狀態-動作對求解均衡策略的過程。在模型中攻防狀態集合可擴展到n,攻防策略集合同樣也可以擴展到n,說明本文的模型具有較好的通用性。將本文方法與其他文獻中的方法進行對比,本文采取動態博弈的方法,相比采用靜態博弈的方法,能夠充分地考慮到攻防雙方行動的非同時性,更加符合實際需求;Stackelberg 安全博弈相比于單階段博弈,考慮了攻防雙方在博弈中信息變化的情況,更加貼近實際攻防場景;基于Stackelberg安全博弈的策略選取方法考慮到了攻防雙方在博弈的過程中信息不對特性,規避了網絡防御策略研究中攻防博弈雙方主體地位對等的先驗假設缺陷,更加貼近攻防實際情形。

4 實驗

4.1 實驗設置

為驗證前面所提出的基于Stackelberg 安全博弈強均衡策略算法能夠生成最優防御策略,建立如圖2 所示的網絡拓撲結構來模擬網絡攻防場景。實驗采用python作為主要的開發語言,實現了控制腳本和仿真場景運行。該實驗場景中,攻擊主機位于外部網絡,目標網絡為交換網絡,其中三臺計算機分別為數據庫服務器、文件服務器和Web服務器。安全防御規則限制外部網絡對目標網絡的訪問請求。攻擊者在攻擊主機上具有root權限,攻擊者的最終目的是獲取數據庫服務器的root 權限。根據防火墻規則如表1 所示,攻擊者在Web服務器和文件服務器上都有訪問權限,但對數據庫服務器卻沒有訪問權限。Web 服務器和文件服務器在數據庫服務器上具有訪問權限,這樣攻擊者可以根據服務器之間存在的依賴關系獲取數據庫服務器的訪問權限。

圖2 實驗場景

表1 防火墻規則

攻擊策略如表2所示,主要根據攻擊復雜度和漏洞評分綜合考慮得到,攻擊策略收益如表3所示,防御策略為其對應的補丁。為簡化實驗場景單純以漏洞來說明攻擊有效性,越是高危的漏洞,危險級別越高。防御策略收益如表4 所示。防御策略收益表中的影響是根據國家信息安全漏洞共享平臺中給出的危害級別中的漏洞評分參考而來的,成本是根據攻擊的復雜度給出的。

表2 攻擊策略

表3 攻擊策略收益

表4 防御策略收益

4.2 實驗結果及分析

根據表3 和表4 的數據,如果修補手段對于攻擊手段是有效的,那么防御者獲得收益為防御者的行動影響減防御者的成本,攻擊者的收益是其攻擊手段的成本;如果修補手段對攻擊手段是無效的,那么防御者的收益為防御者的成本減攻擊者的攻擊影響,得到的收益為負數,攻擊者的收益為攻擊者的行動影響減攻擊者的攻擊成本[21]。以此得到攻防收益矩陣如表5所示。利用基于Stackelberg 安全博弈的動態防御策略選取算法,得到防御策略可見,防御者的最優防御策略為CNVD-2018-26054補丁,次優防御策略為CNVD-2018-01084補丁。在實際應用中可以根據網絡環境、網絡安全需求,以及成本等因素來進行防御策略的選取,領導者可以使用混合策略,這樣能夠加強網絡系統的安全性,達到更好的防御狀態。

表5 收益矩陣

為證明采用Stackelberg均衡策略的必要性,將本文提出的方法和其他文獻進行對比,詳見表6。與本文對比的三個文獻中包含了完全信息博弈和不完全信息兩種博弈類型,單階段和多階段博弈兩種博弈過程。選擇不完全信息靜態博弈文獻[4]與本文進行對比,發現在利用上述博弈場景的情況下,基于場景模型的不完全信息靜態防御策略選取算法,得到最優防御策略的均衡:即防御者的最優防御策略是以概率選擇CNVD-2018-01084補丁,以概率選擇 CNVD-2018-26054 補丁,以概率選擇CNVD-2019-00243 補丁。通過實驗結果的對比可以看出Stackelberg 均衡策略是以最高概率選擇CNVD-2018-26054 補丁,次高的概率選擇CNVD-2018-01084 補丁,以最小概率選擇CNVD-2019-01604 補丁。文獻[4]則是以最高的概率選擇CNVD-2018-01084 補丁,以最小概率選擇CNVD-2019-01604 補丁。與國家信息安全漏洞共享平臺[19(]CNVD)中的安全研究情況對比CNVD-2018-26054補丁相比于CNVD-2018-01084補丁對網絡場景安全維護更加有必要。在有限成本的情況下進行最優防御策略的選擇時,Stackelberg均衡策略相比于文獻[4]中的均衡策略能夠更加有效地對網絡系統進行防御,因此Stackelberg均衡策略更加符合。對比實驗結果表示采用Stackelberg 均衡策略在網絡攻防動態防御策略選取是必要的。

表6 對比實驗

5 結束語

本文首先分析在基于博弈模型的網絡安全防御技術的研究中并沒有考慮到網絡攻防雙方之間信息不對等的關系,提出了基于Stackelberg安全博弈的動態防御策略生成方法。實驗結果表明本文提出的算法能夠為網絡進行有效的防御提供參考。

本文的后續工作將圍繞以下幾個方面進行:一是擴展網絡模型,解決部分可觀測模型的構建問題;二是算法的可擴展性,提升算法的適應范圍。

猜你喜歡
動作策略信息
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
動作描寫不可少
非同一般的吃飯動作
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
Passage Four
主站蜘蛛池模板: 呦视频在线一区二区三区| 美女内射视频WWW网站午夜 | 91在线一9|永久视频在线| 久久精品娱乐亚洲领先| 国产丝袜一区二区三区视频免下载| 国产成人精品2021欧美日韩| 亚洲日本中文综合在线| 在线精品视频成人网| 青青草国产在线视频| 国产精品午夜电影| 国产成人久久综合777777麻豆| 四虎成人免费毛片| 99人妻碰碰碰久久久久禁片| 992Tv视频国产精品| 午夜综合网| 国产精品无码作爱| 国产欧美在线观看精品一区污| 婷婷六月综合网| 成人在线观看不卡| 国产精品私拍99pans大尺度| 久久77777| 亚洲最新在线| a级毛片免费在线观看| 伊人成人在线视频| 尤物午夜福利视频| 亚洲午夜福利精品无码不卡 | 国产91线观看| 国产亚洲精品在天天在线麻豆| 成人在线视频一区| 伊人天堂网| 2021亚洲精品不卡a| 国内丰满少妇猛烈精品播| 久久人人妻人人爽人人卡片av| 亚洲美女久久| 国产久操视频| 99热最新在线| 亚洲综合婷婷激情| 免费观看欧美性一级| 国产精品美女在线| 日韩欧美色综合| 视频在线观看一区二区| 丁香综合在线| 国产精品30p| 国产男人天堂| 亚洲黄色高清| 青青操视频免费观看| 国内精品久久九九国产精品| 最新日韩AV网址在线观看| 波多野结衣视频网站| 先锋资源久久| 亚洲午夜国产精品无卡| 国产精品免费p区| 一级片免费网站| 亚洲欧美不卡| jizz在线免费播放| 中文字幕 91| 日本精品中文字幕在线不卡| 欧美成人第一页| 免费一级毛片在线观看| 国产激情无码一区二区三区免费| 国产高清无码第一十页在线观看| 毛片大全免费观看| 亚洲三级电影在线播放 | 99久久亚洲综合精品TS| 又黄又爽视频好爽视频| 97久久精品人人| 人妻少妇乱子伦精品无码专区毛片| 美女潮喷出白浆在线观看视频| 亚洲成肉网| swag国产精品| 超碰91免费人妻| 午夜一区二区三区| 欧美日一级片| 亚洲精品视频免费| 亚洲欧美成人网| 亚洲香蕉伊综合在人在线| 九色视频在线免费观看| 久久免费视频6| 亚洲人成人伊人成综合网无码| 九色91在线视频| 91在线视频福利| 2021国产精品自产拍在线观看|