孫文君,蘇 旸,曹 鎮
(1.武警工程大學 網絡與信息安全武警部隊重點實驗室,西安 710086; 2.武警工程大學 信息安全研究所,西安 710086)(*通信作者電子郵箱sunwenjun94@163.com)
非對稱信息條件下APT攻防博弈模型
孫文君1*,蘇 旸1,2,曹 鎮1
(1.武警工程大學 網絡與信息安全武警部隊重點實驗室,西安 710086; 2.武警工程大學 信息安全研究所,西安 710086)(*通信作者電子郵箱sunwenjun94@163.com)
針對目前缺少對高級持續威脅(APT)攻擊理論建模分析的問題,提出了一種基于FlipIt模型的非對稱信息條件下的攻防博弈模型。首先,將網絡系統中的目標主機等資產抽象為目標資源節點,將攻防場景描述為攻防雙方對目標資源的交替控制;然后,考慮到攻防雙方在博弈中觀察到的反饋信息的不對稱性以及防御效果的不徹底性,給出了在防御者采取更新策略時攻防雙方的收益模型及最優策略的條件,同時給出并分別證明了達到同步博弈與序貫博弈均衡條件的定理;最后通過數例分析了影響達到均衡時的策略及防御收益的因素,并比較了同步博弈均衡與序貫博弈均衡。結果表明周期策略是防御者的最優策略,并且與同步博弈均衡相比,防御者通過公布其策略達到序貫博弈均衡時的收益更大。實驗結果表明所提模型能夠在理論上指導應對隱蔽性APT攻擊的防御策略。
博弈論;非對稱信息;網絡攻擊;高級持續威脅;網絡安全
近年來,針對關鍵基礎設施(Critical Infrastructure, CI)和政府、大型企業、軍事機構等信息系統的高級持續威脅(Advanced Persistent Threat, APT)[1]攻擊事件頻發,信息資產受到的安全威脅越來越嚴重。APT攻擊以其目標性強、隱蔽性高、方式多維性、不易被偵測等特點成為常用且危害巨大的攻擊方式之一。傳統的基于邊界保護的網絡防范技術往往只針對已知類型的一次性攻擊,而APT攻擊發動者往往通過社會工程學等手段非法獲取內部權限,同時攻擊者還利用零日漏洞實施攻擊,這都使得傳統網絡防護技術效果甚微[2]。如何制定合理的策略、合理地分配防御成本以使防御收益最大化已成為防御的主要目標之一。
在網絡安全領域,博弈論被廣泛地應用于成本效益分析和最優策略選擇等領域[3-4]:文獻[5]和[6]分別從靜態與動態方面給出了最優主動防御策略;陳永強等[7]設計了一種非零和攻防博弈模型,并通過分析納什均衡實現最優對策的選擇;張恒巍等[8]構建了基于信號博弈的攻防博弈模型,并通過量化計算分析了博弈均衡。然而上述研究都是面向已知攻擊或完全信息的假設,而目前針對極高隱蔽性的、攻防信息不對稱場景的博弈模型研究仍不多。針對APT攻擊,RSA實驗室的Van Dijk等[9]基于時間博弈的思想設計出了FlipIt模型,將網絡系統中的資產抽象為資源節點,并將攻擊者與防御者的博弈描述為對單個目標資源節點的交替控制的過程,雙方的收益表現為對資源的控制時間上,并且在行動(即“Flip”)前都不知道資源當前的狀態。FlipIt模型最大的特點是適用于隱蔽攻擊的場景,并且詳細分析了防御者采取不同策略的情況。但是FlipIt是一種抽象的基本模型框架,為了更貼近應用實際,后續的研究從對FlipIt模型進行改進與完善等方面展開。Bowers等[10]對FlipIt在安全場景中的實際應用展開了研究;Pham等[11]對博弈參與者的能力進行了擴展,研究了在參與者具備在行動前檢查資源狀態的能力的場景;Laszka等[12]對目標資源的數量進行了擴展提出了FlipThem模型,并分別討論了在AND與OR控制模型條件下的最優策略;Zhang等[13]則對資源限制的條件下博弈及其均衡展開了分析;Feng等[14-15]對參與者的數量進行了擴展,引入了內部威脅者組成三方博弈并給出了相應的理論分析。
在上述文獻中都假設攻擊行為是瞬時的,但是實際中從攻擊開始到完成往往需要耗費一定的時間;此外對防御者的能力也過于理想化,即使采取防御措施也不可能保證100%的效果[16],當攻擊者仍持有對資源部分的控制權時,如仍在目標主機上留有后門,依然會因此獲得攻擊收益;而考慮到APT攻擊發動者的能力,雙方對博弈信息獲取的不對稱性是完全合理的。基于此本文提出了一種攻防雙方信息非對稱條件下的APT攻防博弈理論模型,分析了模型場景的最優策略及博弈均衡策略,并給出了相應的數例分析,結論表明周期策略是防御者的最優策略,并且防御者通過公布其策略達到序貫博弈均衡時的收益更大。
1.1 FlipIt模型
Van Dijk等提出了應對APT等高隱蔽性攻擊的博弈分析模型FlipIt。如圖1所示,透明矩形表示的是資源受保護的狀態,陰影矩形表示資源被入侵的狀態,透明圓與陰影圓分別表示防御者與攻擊者采取對策,豎箭頭表示資源狀態發生了變化。在FlipIt模型中,目標資源只有兩個狀態即要么處于受保護狀態要么處于被入侵狀態,只有在未擁有控制權的一方采取行動時發生狀態的改變,而當雙方同時行動時,或者已擁有控制權的一方采取行動時其狀態保持不變。雙方在采取行動前都不知道當前資源的狀態,也不知道對方何時采取策略,并且每次行動都是有成本的,因此需要制定最優的策略。

圖1 FlipIt模型
FlipIt包含有系統安全的關鍵元素[17],但只是抽象的理想化的模型。本文在FlipIt及其相關擴展模型的基礎上,針對APT攻擊的高隱蔽性等特點,提出了一種在非對稱信息條件下的網絡攻防博弈模型,并推導出了納什均衡及序貫均衡存在的定理。
1.2 本文模型
模型中兩個參與者防御者與攻擊者,分別用D和A表示。定義雙方連續兩次行動間的時間間隔為其各自的策略,采取不同的行動間隔表明采取不同的策略。模型的建立基于以下3個假設:
假設1 信息的不對稱性,即攻擊者可以觀察到防御者執行行動,而防御者并不能觀察到攻擊者何時采取行動。
假設2 攻擊的非瞬時性,即攻擊者從展開攻擊到攻擊完成需要一定的攻擊時間a,定義a是滿足概率密度分布為fa(a)的隨機變量,即攻擊在a時間完成的概率為pa=1-e-λaa,Fa(a)為其對應的累積分布函數。
假設3 防御效果的不徹底性,即防御者采取行動后,攻擊者仍有可能控制部分資源并據此獲得收益,定義殘留部分比例為服從概率密度函數分布為fε(·)的隨機變量ε。
同時假設博弈在時間t上是連續的。如圖2所示,在t=0博弈開始時目標資源處于受保護狀態。在任意時刻,玩家A或D需要花費一定成本CA或CD實施行動。防御者采取行動的效果是即時的,并將立即獲取資源的控制權,定義變量l為連續兩次防御行動的時間間隔;但攻擊者從行動實施到攻擊完成是需要一個過程而并非是瞬時的,引入隨機變量a表示該過程的時間。當攻擊者未完成攻擊而防御者又實施了下一次行動即a 圖2 本文模型 文獻[9]將參與者采取的策略分為適應性策略及非適應性策略。適應性策略表示參與者基于從博弈過程中接收到的反饋信息執行相應的對策,而非適應性策略則指參與者不接收反饋信息而執行相應的對策。更新策略是一種典型的非適應性策略,常見的更新策略包括周期策略及指數策略。在周期策略中,參與者每次行動間隔是固定的周期,而第一次行動則從中均勻隨機選取某一相位開始;指數策略是一種常見的更新策略,參與者兩次連續行動間隔服從指數分布(泊松分布)。在本文中,由于防御者不能接收到反饋信息,因此設定其采取的是更新策略。 考慮在某個防御間隔內l的攻防雙方的平均收益。 1)a>l。 在這種情況下,攻擊者未完成攻擊控制目標資源防御者便采取了下一次的行動。此時由于假設的防御對策效果的不徹底性,攻擊者仍能由于之前的行動而擁有對目標的部分控制權ε。故此時攻擊者在[0,l]內的期望收益表示為: (1) 對防御者而言,收益包括因攻擊招致的損失和行動成本,因此期望收益表示如下: (2) 但是由于式(1)、(2)是在a>l條件之下得出的,而由式(1)可得出a>l成立的概率: (3) 綜合式(1)、(2)、(3)得出攻防雙方的條件期望收益分別為: (4) (5) 2)a≤l。 在這種情況下,攻擊者可在防御者下一次行動之前完成攻擊并且控制目標系統,則其收益函數在條件1)的基礎上還要增加控制目標后單位時間帶來的效用,期望收益表示如下: (6) 防御者則相應地增加了因攻擊者控制目標資源帶來的損失,其期望收益表示為: (7) 同樣地考慮其條件期望收益。a≤l條件成立的概率為: (8) 則由式(6)、(7)、(8)可得出攻防雙方的條件期望收益分別為: (9) (10) 綜合1)、2)兩種情況,得出最后的攻擊者與防御者的收益函數表達式分別為: (11) (12) 在實際分析中,可將具體的函數及參數值代入表達式中計算。 在得到博弈的收益模型后,需要對雙方最優應對及均衡存在的條件進行分析。由于雙方的收益是在防御者的行動間隔內完成的,因此本文對任意某個時間區間進行分析,任意區間內收益最大化時則總的收益也可達到最大化。 首先分析防御者最優應對策略。由前文假設,即使攻擊者沒有完成攻擊,由于防護行動效果的不徹底性,攻擊者仍有部分目標資源的控制權ε。為了便于分析,首先假設在整個博弈中ε是個常量。給出防御者最優應對策略的條件。 引理1 定義 (13) 則當攻擊者采取適應性策略,并且其從上一次防護行動結束到攻擊完成的時間a服從固定的條件概率分布fa(a)時,有: 1)如果不存在l使得BRD=0成立,則不采取任何行動是防御者的最優應對策略; 2)否則以滿足BRD=0的解l*為周期的周期策略是唯一的最優應對策略。 證明 當防御者采取更新策略時,其選擇的每個行動間隔都是服從某一固定分布的。為了獲取最優應對策略,需要使得每個行動間隔li內的收益最大化。由式(12)可知其收益公式為 (14) 為了獲得極值,需求GD關于l的偏導: (15) (16) 顯然BRD是關于l的單調遞增函數,故如果存在著l*使BRD=0成立,那么該l的值是唯一的。此外,當取l=l*時,GD關于l的二階偏導數 (17) 即當l取使等式(13)成立的唯一值l*時GD取得最大值,即有最大收益。因此,采取周期為l*的周期策略是此時防御者的最優應對策略。而當不存在l滿足式(13)時,若l→∞,防御者的期望收益GD→-BA,相當于是不采取任何策略時的收益;若l→0,GD→-∞。因此當不存在l滿足等式(13)時,防御者的期望收益都小于-BA,防御者的最優策略為不采取任何行動。 證畢。 接下來分析攻擊者的最優應對策略。 引理2 當防御者采取周期為l的周期策略時,令: (18) 1)若CA 2)若CA>M(l),則攻擊者的最優應對策略是不采取任何行動; 3)若CA=M(l),則無論是不采取行動或者立即實施攻擊都可視為攻擊者的最優應對策略。 證明 首先計算攻擊者的期望收益。 (19) 因此當CA 證畢。 基于引理1與引理2,得出均衡存在定理。首先考慮攻擊者與防御者的行為是同步的,得出納什均衡存在定理。 定理1 當防御者采取更新策略而攻擊者采取適用性策略時,則博弈均衡為: 1)當BRD=0存在解l*為防御者的最優策略時,則 ①如果CA≤M(l*),則存在唯一的納什均衡策略:防御者采取周期為l*的周期性策略而攻擊者在觀察到攻擊者采取行動時也立即采取攻擊行為; ②如果CA>M(l*),則不存在納什均衡。 2)當BRD=0不存在解l*作為防御者的最優策略時,則存在唯一的納什均衡策略:防御者不采取任何行動而攻擊者在博弈開始時展開一次攻擊之后便不采取任何行動。 證明 由引理1知防御者的最優應對策略是采取周期策略或者不采取任何行動。同樣地由引理2可知攻擊者最優應對策略也是兩種即在觀察到防御者的行為后立即攻擊或者不發動任何攻擊。而納什均衡策略對參與雙方來說都是其最優應對策略。 首先考慮當BRD=0不存在解的情況,此時防御者的最優策略是從博弈開始到結束都不采取任何行動,因此攻擊者只需在博弈開始的時候實施一次攻擊便能一直控制目標系統獲得最大收益,即2)成立。 其次考慮當BRD=0存在唯一解l*時,防御者的最優策略是采用參數為l*的周期策略,根據引理2可知攻擊者面臨兩種選擇:當CA≤M(l*)時,攻擊者的最優應對策略是在觀察到防御者的防御行為之后立即采取攻擊行動,即滿足條件1)中的①條件;當CA>M(l*)時,攻擊者不采取任何行動并退出博弈,此時由于沒有攻擊者的參與,防御者的最優策略是不采取任何行動以減少防御行動成本,但是如果防御者這么做的話,對于攻擊者來說在博弈一開始就采取攻擊并持續控制目標資源能夠獲得最大收益,因此這種情況下不存在納什均衡,即證明了條件1)中的②條件。證畢。 至此已經找到了攻防雙方同時博弈條件下的均衡。但在實際應用中,考慮到信息的不對稱性,防御策略可能被攻擊者提前獲知,這種情況下就需要求導序貫博弈。定理2給出了序貫均衡條件。 定理2 令l1為BRD=0的解,l2為使得CA=M(l)成立的最大值,攻擊者總是采取最優策略,那么在子博弈精煉均衡中,防御者的最優策略為不采取行動或者采取周期為{l1,l2}的周期策略。 證明 使用反證法進行驗證。假設防御者采用的是周期為l′(l′不等于l1或l2)的周期策略。 1)若l′>l2,則必有CA 2)若l′ 證畢。 為了能直觀形象地說明模型的特點,對模型進行實例化分析。設置從攻擊實施到攻擊完成需要的時間a服從的指數分布λa=1,因防御行為的效果不徹底性導致的攻擊者剩余控制比例ε=0.05。 圖3、圖4分別給出了達到同時博弈時的防御者的行動周期和收益與攻擊者單位時間內的收益BA以及當防御成本分別取CD=1.2、CD=1.0、CD=0.8時的曲線圖。 圖3 達到同步博弈均衡時的防御策略 由圖3、4可知,CD越高時,防御者將采取均衡策略的周期越也大,其相應的防御收益也越低,即因防御成本升高防御者從收益的角度考慮而不得不降低其防御速率,比如當BA=1.2時,當CD分別取0.8、1.0和1.2時的均衡策略周期為2.44、3.62和∞,而其對應的防御收益為-0.97、-1.10和-1.18。而另一方面,當BA越大,即目標資源價值越大時,防御者的防御速率越快,所需的防御成本也增加,導致相應的防御收益降低,例如當CD=1.0時,當BA分別取1.2、1.4、1.6時對應的策略周期分別為3.62、2.71、2.25,防御收益分別為-1.10、-1.25、-1.39。但是當目標資源的價值BA太低時防御者的行動周期l*→∞,表明防御者退出博弈并不采取任何的防御行為。這些結論都與實際場景中相符合。 圖4 達到同步博弈均衡時的防御收益 圖5、圖6分別給出了在CA=1.0且CD=1.0條件下達到序貫博弈均衡與同步博弈均衡時的防御周期、防御收益與攻擊者單位時間內的收益的關系曲線。 圖5 序貫博弈均衡與同步博弈均衡的防御周期比較 圖6 序貫博弈均衡與同步博弈均衡的防御收益比較 從圖5圖6中可知序貫博弈均衡下的防御周期和收益與BA的關系與同步均衡時類似。另外可看出,當BA及其他條件相同時,序貫博弈均衡下的防御周期比同步博弈均衡條件下的防御周期要短,相應的防御收益卻要更大,例如當BA=1.2時,序貫均衡與同步均衡時的防御周期分別為1.59和3.62,對應的防御收益分別為-0.63和-1.10。說明當防御者采取快速的防御速率并達到序貫均衡時會因迫使攻擊者放棄行動而獲得比同步均衡時更大的收益。 本文對FlipIt模型進行了擴展,結合攻防場景中攻擊的隱蔽性、攻防雙方信息的不對稱性等特點,并考慮到因攻擊者使用零日漏洞等未知攻擊手段而導致的防御對策的效果不徹底性,建立了面向APT攻擊的攻防博弈模型。通過建模理論分析推導與實例驗證,主要得出兩點結論:1)周期策略是防御者的最優策略,可帶來最大收益;2)面對能力強的攻擊者,防御者應當提前公布其策略以對攻擊者產生震懾,迫使其因收益為負而放棄攻擊。另外,通過分析還可知,當防御成本越高時防御者采取行動的速度也會越慢。這些結論對現實中如何改進防御措施具有一定的理論指導意義。 為了便于分析,本文提出了許多假設,例如假定ε在博弈中是固定不變的。今后的研究重點是減少假設條件,特別是對完全不知道其攻擊能力及攻擊完成時間分布fa(a)時的場景展開研究以使模型更加符合實際。 References) [1] TANKARD C. Advanced persistent threats and how to monitor and deter them [J]. Network Security, 2011, 2011(8): 16-19. [2] 付鈺,李洪成,吳曉平,等.基于大數據分析的APT攻擊檢測研究綜述[J].通信學報,2015,36(11):1-14.(FU Y, LI H C, WU X P, et al. Detecting APT attacks: a survey from the perspective of big data analysis [J]. Journal on Communications, 2015, 36(11): 1-14.) [3] RASS S, K?NIG S, SCHAUER S. Defending against advanced persistent threats using game-theory [J]. Plos One, 2017, 12(1): e0168675. [4] MANSHAEI M H, ZHU Q, ALPCAN T, et al. Game theory meets network security and privacy [J]. ACM Computing Surveys, 2013, 45(3): Article No. 25. [5] 姜偉,方濱興,田志宏,等.基于攻防博弈模型的網絡安全測評和最優主動防御[J].計算機學報,2009,32(4):817-827.(JIANG W, FANG B X, TIAN Z H, et al. Evaluating network security and optimal active defense based on attack-defense game model [J]. Chinese Journal of Computers, 2009, 32(4): 817-827.) [6] 林旺群,王慧,劉家紅,等.基于非合作動態博弈的網絡安全主動防御技術研究[J].計算機研究與發展,2011,48(2):306-316.(LIN W Q, WANG H, LIU J H, et al. Research on active defense technology in network security based on non-cooperative dynamic game theory [J]. Journal of Computer Research and Development, 2011, 48(2): 306-316.) [7] 陳永強,付鈺,吳曉平.基于非零和攻防博弈模型的主動防御策略選取方法[J].計算機應用,2013,33(5):1347-1352.(CHEN Y Q, FU Y, WU X P. Active defense strategy selection based on non-zero-sum attack-defense game model [J]. Journal of Computer Applications, 2013, 33(5): 1347-1352.) [8] 張恒巍,余定坤,韓繼紅,等.基于攻防信號博弈模型的防御策略選取方法[J].通信學報,2016,37(5):51-61.(ZHANG H W, YU D K, HAN J H, et al. Defense policies selection method based on attack-defense signaling game model [J]. Journal on Communications, 2016, 37(5): 51-61.) [9] VAN DIJK M, JUELS A, OPREA A, et al. FlipIt: the game of “stealthy takeover” [J]. Journal of Cryptology, 2013, 26(4): 655-713. [10] BOWERS K D, VAN DIJK M, GRIFFIN R, et al. Defending against the unknown enemy: applying flipIt to system security [C]// International Conference on Decision and Game Theory for Security, LNCS 7638. Berlin: Springer, 2012: 248-263. [11] PHAM V, CID C. Are we compromised? Modelling security assessment games [C]// International Conference on Decision and Game Theory for Security, LNCS 7638. Berlin: Springer, 2012: 234-247. [12] LASZKA A, HORVATH G, FELEGYHAZI M, et al. FlipThem: modeling targeted attacks with flipIt for multiple resources [C]// International Conference on Decision and Game Theory for Security, LNCS 8840. Berlin: Springer, 2014: 175-194. [13] ZHANG M, ZHENG Z Z, SHROFF N B. Stealthy attacks and observable defenses: a game theoretic model under strict resource constraints [C]// Proceedings of the 2014 IEEE Global Conference on Signal and Information Processing. Piscataway, NJ: IEEE, 2014: 813-817. [14] FENG X, ZHENG Z, HU P, et al. Stealthy attacks meets insider threats: a three-player game model [C]// Proceedings of the 2015 IEEE Military Communications Conference. Piscataway, NJ: IEEE, 2015: 25-30. [15] FENG X, ZHENG Z, CANSEVER D, et al. Stealthy attacks with insider information: a game theoretic model with asymmetric feedback [EB/OL]. [2016- 11- 22]. http://spirit.cs.ucdavis.edu/pubs/conf/xiaotao-milcom16.pdf. [16] FARHANG S, GROSSKLAGS J. FlipLeakage: a game-theoretic approach to protect against stealthy attackers in the presence of information leakage [C]// International Conference on Decision and Game Theory for Security, LNCS 9996. Berlin: Springer, 2016: 195-214. [17] 黃康宇,徐偉光.移動目標防御時間博弈相關研究介紹[J].軍事通信技術,2016,37(4):98-102.(HUANG K Y, XU W G. Games of timing in moving target defense [J]. Journal of Military Communications Technology, 2016, 37(4): 98-102.) Attack-defensegamemodelforadvancedpersistentthreatswithasymmetricinformation SUN Wenjun1*, SU Yang1,2, CAO Zhen2 (1.KeyLaboratoryofNetwork&InformationSecurity,UniversityofthePeople’sArmedPoliceForce,Xi’anShaanxi710086,China;2.InstituteofInformationSecurity,UniversityofthePeople’sArmedPoliceForce,Xi’anShaanxi710086,China) To solve the problem of the lack of modeling and analysis of Advanced Persistent Threat (APT) attacks, an attack-defense game model based on FlipIt with asymmetric information was proposed. Firstly, the assets such as targeted hosts in the network system were abstracted as the target resource nodes and the attack-defense scenarios were described as the alternating control of the target nodes. Then, considering the asymmetry of the feedback information observed by the two sides and the incomplete defensive effect, the conditions of the payoff model and the optimal strategy of the attacker and defender were proposed in the case of renewal defense strategy. Besides, theorems of simultaneous and sequential equilibrium were proposed and demonstrated. Finally, numerical illustrations were given to analyze the factors of equilibrium strategy as well as defense payoff and to compare simultaneous and sequential equilibrium. The experimental results show that period strategy is defender’s best strategy and the defender can achieve sequential equilibrium meanwhile obtaining more payoffs compared with simultaneous equilibrium by announcing her defense strategy in advance. Conclusions show that the proposed model can theoretically guide defense strategy towards stealthy APT attacks. game theory; asymmetric information; network attack; Advanced Persistent Threat (APT); cyber security 2017- 03- 17; 2017- 04- 13。 國家自然科學基金資助項目(61402531);陜西省自然科學基礎研究計劃項目(2014JQ8358, 2015JQ6231, 2014JQ8307)。 孫文君(1994—),男,江西上饒人,碩士研究生,CCF會員,主要研究方向:信息安全、網絡攻防; 蘇旸(1975—),男,陜西西安人,教授,博士,CCF會員,主要研究方向:信息安全、網絡攻防; 曹鎮(1994—),男,山東菏澤人,碩士研究生,主要研究方向:信息安全、信息隱藏。 1001- 9081(2017)09- 2557- 06 10.11772/j.issn.1001- 9081.2017.09.2557 TP393.08 A This work is partially supported by the National Natural Science Foundation of China (61402531), the Natural Science Foundation Research Project of Shaanxi Province (2014JQ8358, 2015JQ6231, 2014JQ8307). SUNWenjun, born in 1994, M. S. candidate. His research interests include information security, network attack and defense. SUYang, born in 1975, Ph. D., professor. His research interests include information security, network attack and defense. CAOZhen, born in 1994, M. S. candidate. His research interests include image security, steganography.
2 收益模型






3 理論分析














4 數例分析




5 結語