資源受限下的網(wǎng)絡(luò)安全動(dòng)態(tài)博弈模型

2020-12-29 09:29:26鄂小松石峻松

機(jī)械設(shè)計(jì)與制造工程 2020年12期

鄂小松, 石峻松

(1.樹(shù)蛙信息科技(南京)有限公司，江蘇南京 210033)(2.南京信奧弢電子科技有限公司，江蘇南京 210039)

一般情況下，網(wǎng)絡(luò)中攻防雙方的對(duì)抗過(guò)程符合博弈論各項(xiàng)特征，因而可將博弈論引入解決攻防雙方策略抉擇問(wèn)題。在實(shí)際對(duì)抗中，由于攻防雙方知之甚少，因此在網(wǎng)絡(luò)攻防沖突時(shí)會(huì)產(chǎn)生不完全信息問(wèn)題。為有效解決不完全信息下的博弈問(wèn)題，國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。Harsanyi[1]提出用貝葉斯納什均衡解來(lái)解決靜態(tài)博弈論中不完全信息問(wèn)題。針對(duì)動(dòng)態(tài)博弈論領(lǐng)域，通常的解決方法包括完美貝葉斯均衡[2]和序貫均衡[3]兩種方法。對(duì)于有限動(dòng)態(tài)不完全博弈過(guò)程，序貫均衡總能得到混合策略，然而對(duì)于完美貝葉斯均衡方法，其計(jì)算過(guò)程較為復(fù)雜。Nayyar等[4]在假設(shè)動(dòng)態(tài)隨機(jī)非零和博弈狀態(tài)和觀測(cè)方程是線性的且初始隨機(jī)變量為高斯隨機(jī)變量的前提下，利用求解線性方程組序列，提出了公共信息馬爾科夫完美均衡計(jì)算方法。該方法的關(guān)鍵是將初始不完全信息下的博弈過(guò)程轉(zhuǎn)化為一個(gè)完全信息下的虛擬博弈過(guò)程以及眾多不同的或者更大的狀態(tài)/動(dòng)作空間。然而該方法無(wú)法對(duì)攻擊者的策略集和效用函數(shù)進(jìn)行差異性分析，且建模過(guò)程復(fù)雜。此外，為提高隨機(jī)博弈過(guò)程狀態(tài)觀測(cè)及動(dòng)作策略選取效率，Cole等[5]將具有懲罰函數(shù)的第三方觀察者引入系統(tǒng)，且為每一個(gè)對(duì)抗參與者賦予私有信息觀測(cè)狀態(tài)。模型中每個(gè)參與者狀態(tài)置信度僅依賴于當(dāng)前狀態(tài)而不依賴其策略,這種假設(shè)使得每個(gè)參與者當(dāng)前策略選取受過(guò)去私有觀測(cè)狀態(tài)影響，嚴(yán)重時(shí)，策略選取將會(huì)產(chǎn)生較大偏差。

國(guó)內(nèi)也有不少學(xué)者將博弈論引入網(wǎng)絡(luò)信息安全領(lǐng)域。劉榮等[6]將信息安全中攻防沖突雙方的收益進(jìn)行量化，建立了對(duì)抗雙方的博弈矩陣，同時(shí)將演化博弈理論引入沖突模型，求解攻防雙方對(duì)抗過(guò)程中網(wǎng)絡(luò)動(dòng)態(tài)微分方程。在MATLAB中對(duì)網(wǎng)絡(luò)攻防雙方對(duì)抗過(guò)程進(jìn)行了策略穩(wěn)定性分析，通過(guò)5組均衡解驗(yàn)證了模型的準(zhǔn)確性與有效性，然而在建模過(guò)程中假設(shè)攻防雙方處于理想化背景，導(dǎo)致在計(jì)算對(duì)抗雙方博弈沖突過(guò)程時(shí)，缺乏一定的現(xiàn)實(shí)基礎(chǔ)。朱建明等[7]結(jié)合網(wǎng)絡(luò)對(duì)抗攻防雙方效能函數(shù)，基于系統(tǒng)動(dòng)力學(xué)方程建立了不完全信息下具有自主學(xué)習(xí)機(jī)制的網(wǎng)絡(luò)對(duì)抗演化博弈模型，并對(duì)模型進(jìn)行了仿真，驗(yàn)證了引入第三方動(dòng)態(tài)懲罰策略的非合作演化博弈過(guò)程納什均衡的存在性與唯一性，然而建立模型過(guò)程中沒(méi)有考慮計(jì)算資源受限情況。

綜上，為了解決獲取信息不完全以及計(jì)算資源受限情況下的網(wǎng)絡(luò)安全問(wèn)題，本文通過(guò)量化信息獲取機(jī)制及資源受限條件，建立了網(wǎng)絡(luò)安全中攻防雙方動(dòng)態(tài)博弈過(guò)程方程，并給出了納什均衡及代價(jià)函數(shù)的計(jì)算過(guò)程。

1 博弈模型分析與建立

(1)

(2)

1.1 信息及策略選取模型

控制器的控制策略可表示為gi，定義為：

(3)

1.2 控制器資源限制模型

在博弈過(guò)程中，每一個(gè)控制器的可利用資源數(shù)量都具有一定限制，控制器i在t時(shí)執(zhí)行的動(dòng)作及策略選擇不僅依賴于其他控制器的觀測(cè)和響應(yīng)動(dòng)作，還需考慮自身資源消耗情況。

令控制器集合為J，t時(shí)公共信息的增量為Zt，有Zt=Ct/Ct-1。其中，Zt為增量集合，則Zt={Z1,…,ZT}。因此，控制器i的資源限制條件可表達(dá)如下：

1.3 代價(jià)函數(shù)及納什均衡

假定每一個(gè)控制器都存在一個(gè)代價(jià)函數(shù)，策略固定情況下，所有控制器的總代價(jià)函數(shù)可表達(dá)為：

(4)

2 博弈模型計(jì)算過(guò)程

2.1 基本假設(shè)

為簡(jiǎn)化計(jì)算過(guò)程，對(duì)模型部分條件作如下假設(shè)：

假設(shè)1：假定系統(tǒng)中各個(gè)控制器獲取的公共及私有信息隨時(shí)間演化過(guò)程如下。

1)獲取的公共信息Ct隨著時(shí)間不斷增加，即?t∈T，Ct?Ct+1。令Zt+1=Ct+1/Ct為t到(t+1)時(shí)刻公共信息的增量，則Ct+1={Ct,Zt+1}。因此有：

(5)

2)私有信息的演化過(guò)程可表達(dá)為：

(6)

式(5)表明，t到(t+1)時(shí)刻，增加的新公共信息一部分為t時(shí)刻選取的動(dòng)作以及(t+1)時(shí)刻的觀測(cè)集，另一部分為t時(shí)刻部分私有信息。式(6)表明控制器1和2私有信息的演化過(guò)程受到不同觀察者及動(dòng)作的影響。

在公共信息條件已知的條件下，任意時(shí)間t，控制器狀態(tài)及私有信息的置信度的條件概率模型為：

(7)

(8)

2.2 模型求解

根據(jù)假設(shè)2可知，Πt僅依賴于公共信息Ct，且由于任意參與者都能得到公共信息，因此對(duì)于所有參與者而言，Πt為已知的。因此Πt的演化可視為一個(gè)馬爾科夫過(guò)程，記為

(9)

系統(tǒng)尋求納什均衡問(wèn)題最終簡(jiǎn)化為尋找Πt的馬爾科夫完美均衡問(wèn)題。下面將介紹貝葉斯博弈條件下一種改進(jìn)的尋找馬爾科夫完美均衡算法。

步驟1：初始T時(shí)刻，?π∈Πt，狀態(tài)xt的概率分布、動(dòng)作集及其代價(jià)函數(shù)如下：

(10)

式中：Ui為控制器i(i=1,2)的動(dòng)作集合；Zt+1為公共信息的增量；Mi為控制器的資源限制數(shù)量；j≠i，i,j=1,2。

步驟2：當(dāng)t

3 案例與分析

圖1所示為一個(gè)簡(jiǎn)化的火警網(wǎng)絡(luò)控制模型，數(shù)據(jù)中心通過(guò)網(wǎng)絡(luò)接收傳感器搜集的環(huán)境信息，如空氣濕度、煙霧濃度、溫度、光照強(qiáng)度等。如果發(fā)現(xiàn)火災(zāi)，將產(chǎn)生警報(bào)信息并發(fā)送給控制器執(zhí)行各類指令，如打開(kāi)應(yīng)急燈、關(guān)閉電梯、開(kāi)啟消防噴頭等。

圖1 簡(jiǎn)化的火警網(wǎng)絡(luò)控制模型

(11)

此外，控制器1能夠完全觀測(cè)信息，控制器2觀測(cè)誤差率為1/3，則有

(12)

令各控制器資源上限Mi=1，且在一個(gè)時(shí)間步長(zhǎng)后分享觀測(cè)與動(dòng)作集。在t時(shí)刻，公共信息與私有信息計(jì)算式如下：

(13)

(14)

式中：π(X2=1)為當(dāng)X2=1時(shí)在分布下π的概率。

同理，當(dāng)t=1時(shí)，δ1(x)=1-x，δ2(y)=1-y為博弈過(guò)程的貝葉斯納什均衡。代價(jià)為：

(15)

案例結(jié)果可為不完全信息、資源受限條件下博弈雙方策略的選取提供借鑒。

進(jìn)一步，令各控制器資源受限閾值Mi=25，系統(tǒng)噪聲服從標(biāo)準(zhǔn)正態(tài)分布，各狀態(tài)轉(zhuǎn)移(信息演化)過(guò)程服從Sigmod函數(shù)，即：

(16)

隨著控制器增多，本文方法與Markov方法下的博弈過(guò)程中納什均衡策略的最大執(zhí)行策略數(shù)如圖2所示。可以看出，隨著系統(tǒng)控制器增多，兩種方法下各控制器可獲取資源不斷增加，這種情況符合實(shí)際規(guī)律。本文方法由于考慮了資源受限情況，系統(tǒng)執(zhí)行均滿足資源受限要求，然而Markov方法存在控制器在博弈時(shí)超過(guò)可獲取的資源數(shù)量限制Mi=25。

圖2 不同算法下控制器數(shù)量與控制器最大執(zhí)行策略數(shù)關(guān)系

4 結(jié)束語(yǔ)

本文研究了網(wǎng)絡(luò)安全中攻防沖突雙方信息獲取不完整以及資源受限條件下的動(dòng)態(tài)博弈問(wèn)題，并提出了一種改進(jìn)的尋找馬爾科夫完美均衡算法。案例結(jié)果為不完全信息、資源受限條件下博弈雙方策略選取提供了一定借鑒。但是，目前的研究工作僅考慮了資源受限情況，未考慮觀測(cè)過(guò)程中干擾、時(shí)延等帶來(lái)的誤差問(wèn)題，故要真正在實(shí)踐中體現(xiàn)其價(jià)值，還需要進(jìn)行后續(xù)研究。