李方偉,李 騏,朱 江
(重慶市移動通信重點實驗室(重慶郵電大學(xué)), 重慶 400065)
改進的基于隱馬爾可夫模型的態(tài)勢評估方法
李方偉,李 騏*,朱 江
(重慶市移動通信重點實驗室(重慶郵電大學(xué)), 重慶 400065)
(*通信作者電子郵箱airforceli@vip.qq.com)
針對隱馬爾可夫模型(HMM)參數(shù)難以配置的問題,提出一種改進的基于隱馬爾可夫模型的態(tài)勢評估方法,更加準確地反映網(wǎng)絡(luò)的安全態(tài)勢。所提方法以入侵檢測系統(tǒng)的輸出作為輸入,根據(jù)Snort手冊將報警事件分類,得到觀測序列,建立HMM,將改進的模擬退火(SA)算法與Bauw_Welch(BW)算法相結(jié)合對HMM參數(shù)進行優(yōu)化,使用量化分析的方法得到網(wǎng)絡(luò)的安全態(tài)勢值。實驗結(jié)果表明,所提方法能較好地提升模型的精度與收斂速度。
網(wǎng)絡(luò)安全;隱馬爾可夫模型;參數(shù)優(yōu)化;模擬退火算法;態(tài)勢評估
根據(jù)2015年1月中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《第35次中國互聯(lián)網(wǎng)發(fā)展狀況報告》顯示,截止2014年12月底,我國總體網(wǎng)民中有46.3%的網(wǎng)民遭遇過網(wǎng)絡(luò)安全問題,我國個人互聯(lián)網(wǎng)使用的安全狀況不容樂觀。隨著網(wǎng)絡(luò)安全問題日益突出與嚴重,一些傳統(tǒng)的安全防御技術(shù)已力不從心。在這種背景下,一種能夠?qū)崟r反映網(wǎng)絡(luò)安全狀態(tài)的方法具有重要研究價值。
Endsley[1]首先提出了態(tài)勢感知的概念,Bass[2]將其運用到網(wǎng)絡(luò)安全領(lǐng)域。國內(nèi)方面陳秀真等[3]提出了層次化的網(wǎng)絡(luò)安全態(tài)勢評估模型,模型從局域網(wǎng)系統(tǒng)、主機、服務(wù)3個層次進行安全威脅態(tài)勢評估,反映安全動態(tài),管理員可以從安全動態(tài)曲線中調(diào)整相應(yīng)的防范策略,提高系統(tǒng)的安全性;李偉生等[4]根據(jù)態(tài)勢與安全事件之間的潛在關(guān)系建立貝葉斯網(wǎng)絡(luò)評估模型,并闡述了相應(yīng)的信息傳播算法,最后以一個例子介紹了貝葉斯網(wǎng)絡(luò)的計算過程;國外方面,Rahnavard等[5]將網(wǎng)絡(luò)服務(wù)異常檢測的過程轉(zhuǎn)化為隱馬爾可夫過程,并通過數(shù)據(jù)測試顯示該模型對網(wǎng)絡(luò)服務(wù)異常具有很好的識別率;Rnes等[6]提出了基于隱馬爾可夫模型(Hidden Markov Model, HMM)網(wǎng)絡(luò)風險態(tài)勢評估方法,通過入侵檢測系統(tǒng)(Intrusion Detection System, IDS)報警序列建模,得到每個主機處在不同安全狀態(tài)下的概率,從而得到每個主機的安全風險值,進而累加得到整個網(wǎng)絡(luò)的安全風險值。以上研究在網(wǎng)絡(luò)安全態(tài)勢評估方面具有各自優(yōu)勢,但也存在一些不足:一是HMM觀測矩陣規(guī)模的問題,二是HMM參數(shù)配置的問題。
為了進一步完善網(wǎng)絡(luò)安全評估模型,本文提出一種改進的基于HMM的態(tài)勢評估方法,通過將報警事件分類,解決觀測矩陣規(guī)模過大的問題;充分利用模擬退火(Simulated Annealing, SA)算法概率突跳特性,解決參數(shù)難以配置的問題。然后對主機、網(wǎng)絡(luò)進行態(tài)勢評估,繪制各個主機及整個網(wǎng)絡(luò)的安全態(tài)勢圖,直觀反映了主機、網(wǎng)絡(luò)的安全動態(tài)及變化規(guī)律,可供管理員參考,提供了決策依據(jù)。最后采用一階灰色模型GM(1,1)[7]及自回歸滑動平均(Auto-Regressive and Moving Average, ARMA)模型[8]對主機的安全態(tài)勢進行預(yù)測與實際值進行比較。
隱馬爾可夫模型是一種統(tǒng)計模型[9],用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。
隱馬爾可夫模型由5部分組成:
1)主機的狀態(tài)空間。設(shè)主機有M種不同的安全狀態(tài),對應(yīng)的集合表示為S={S1,S2,…,SM},qt表示Markov鏈在t時刻所處的狀態(tài),則qt∈(S1,S2,…,SM)。
2)觀測序列的觀測值。設(shè)有N種報警事件,則觀測值集合為O={O1,O2,…,ON},Vt表示在t時刻觀測到的觀測值,則Vt∈(O1,O2,…,ON)。
3)主機的初始狀態(tài)分布。表示主機所處的初始狀態(tài),記π=(πi)i=1,2,…,M,其中πi=P(q1=Si)(1≤i≤M),表示初始時刻系統(tǒng)處于狀態(tài)Si的概率為πi。


因此,網(wǎng)絡(luò)安全態(tài)勢評估模型可以用λ={M,N,π,A,B}來表示,簡記為λ=(π,A,B)。
2.1 改進思路

更新參數(shù)步驟如下:
(1)
(2)
(3)
2.2 模擬退火算法的改進
基于改進的模擬退火(SA)的HMM參數(shù)優(yōu)化算法(HMM_SA)具體步驟如下:
Initialization:初始化模型參數(shù)π,A,B,退火初始溫度T0,溫度冷卻系數(shù)k,終止溫度Tend。
步驟1 設(shè)置收斂條件χ(如χ=-10-3)。
步驟2 設(shè)置降溫函數(shù):Tm+1=kTm,m=m+1,k<1。

2.3 算法可行性
對于一個算法是否可行,即它是否能在有限的時間內(nèi)收斂或者達到預(yù)期的精度。
對于算法能否在有限時間收斂的問題,由于模擬退火算法具有隨機性,轉(zhuǎn)為討論其漸進收斂性,根據(jù)Mapkob理論可以證明[12]:對于優(yōu)化解,一般可以較快搜索到該鄰域的最優(yōu)解,優(yōu)化終止;對于惡化解,隨著T值的衰減,exp(-Δf/T)趨近于無窮,故T衰減到一定程度時不再接受。因此,該算法必定會在有限時間內(nèi)出現(xiàn)解在連續(xù)N個步長內(nèi)不再改變的情況,故算法從概率的角度是漸進收斂的。
2.4 安全態(tài)勢量化方法
上文定義了網(wǎng)絡(luò)中的每臺主機具有M種狀態(tài),根據(jù)主機的損害程度,定義4種狀態(tài),記為S={1,2,3,4},隨著數(shù)值的增大,主機風險程度越大。如果能夠判斷主機處于何種狀態(tài),那么就可以定量分析主機的安全態(tài)勢值。引入態(tài)勢權(quán)值向量C={C1,C2,C3,C4},與主機可能處于的4種狀態(tài)一一對應(yīng),根據(jù)不同網(wǎng)絡(luò),態(tài)勢權(quán)值向量可適當配置。
在t時刻主機處于Si的概率γt(i),公式如下:

(4)
其中:前向變量αt(i)=P(O1O2…Ot,qt=si|λ),后向變量βt(i)=P(Ot+1Ot+2…OT,qT=si|λ),則主機的安全態(tài)勢值可以按照式(5)去計算:
(5)
知道了單個主機的安全態(tài)勢值,假設(shè)網(wǎng)絡(luò)中有L臺主機,就可得到整個網(wǎng)絡(luò)的安全態(tài)勢值:
(6)
整個隱馬爾可夫模型(HMM)態(tài)勢評估模型總流程如圖1所示。
本文運用兩種優(yōu)化算法對模型進行訓(xùn)練,其計算復(fù)雜度比較結(jié)果如表1所示。其中:M為隱馬爾可夫模型的主機狀態(tài)數(shù),D為問題維度,gmax為最大迭代次數(shù)。由表可知,雖然改進后的優(yōu)化算法復(fù)雜度有所增加(這是由于引入了擾動矩陣,它可以使算法跳出局部最優(yōu),得到更好的優(yōu)化結(jié)果),但提高了模型的精度和運算效率。

圖1 改進的HMM態(tài)勢評估流程Fig. 1 Process diagram of the improved HMM situation assessment表1 各算法計算復(fù)雜度比較Tab. 1 Computational complexity of each algorithm

算法復(fù)雜度算法復(fù)雜度BW算法O(M2×D)HMM_SAO(M2×D×gmax)
3.1 數(shù)據(jù)描述
本文數(shù)據(jù)使用某安全公司的防火墻日志,總共5天,4臺主機,總共783個報警事件。選取2013年11月05日當天,3臺比較有代表性的主機,分別為IP地址為172.17.5.25、172.17.5.31、172.17.5.46的主機,共245個報警事件作為數(shù)據(jù)來研究。
如果直接將報警事件進行輸入建模,那么觀測概率矩陣B的規(guī)模太大、復(fù)雜度太大、計算量大、運行時間較長,故需要將報警事件進行分類處理。采用Snort[13-14]來檢測防火墻日志,觀測序列的種類一共有37種,按威脅程度分成3類,用數(shù)字1、2、3來表示,分別表示低、中、高3個等級的威脅程度,表2是從該手冊摘錄的一部分攻擊類型及其對應(yīng)的威脅程度。

表2 Snort手冊部分攻擊類型及威脅程度Tab. 2 Some attack types and their threat levels in Snort handbook
3.2 滑動窗口
由于Bauw_Welch(BW)算法是一個循環(huán)迭代的算法,在實際應(yīng)用時,觀測序列的長度隨時間不斷增加,如果每次訓(xùn)練都從觀測序列首部開始,會計算許多重復(fù)部分,從而浪費訓(xùn)練時間,模型也不能實時評估。引用滑動窗口機制能很好地解決以上問題,將觀測序列劃分為長度為τ的滑動窗口短序列,每訓(xùn)練一個滑動窗口短序列向后移動一位,直到將整個觀測序列訓(xùn)練完。這樣不僅降低了算法的復(fù)雜度,也提高了訓(xùn)練效率。
3.3 參數(shù)設(shè)置與優(yōu)化
2.4節(jié)中確定了系統(tǒng)的4種狀態(tài),狀態(tài)集合S={1,2,3,4},對應(yīng)的四種狀態(tài)分別為Good(良好),Probed(被刺探)、Attacked(被攻擊)、Compromised(已侵入)。實驗中:Markov鏈的狀態(tài)數(shù)M=4,觀測值類型N=3,觀測序列長度t=20,初始參數(shù)λ0={π0,A0,B0},根據(jù)專家經(jīng)驗,具體取值如下:
π0=(0.7,0.1,0.1,0.1)

選取IP地址為172.17.5.25的主機為例子分別使用BW算法和HMM_SA算法進行訓(xùn)練,結(jié)果如圖2所示。

圖2 不同算法的參數(shù)似然值變化情況Fig. 2 Parameter likelihood changes of different algorithms
如圖2可知:由于模型參數(shù)設(shè)置的問題,導(dǎo)致模型的參數(shù)似然值較低,不能通過觀測序列準確推斷主機所處的安全狀態(tài); 隨著模型經(jīng)過兩種算法訓(xùn)練后,模型的參數(shù)似然值得到顯著提升,優(yōu)化后的模型能夠更加準確描述報警事件與主機所處安全狀態(tài)的關(guān)系,使模型的評估效果更好。同時使用BW算法進行參數(shù)估計時,需經(jīng)歷94次重復(fù)迭代,參數(shù)似然值才達到收斂,而使用HMM_SA算法時,只需65次就收斂了,而且收斂時的參數(shù)似然值更大,表明訓(xùn)練完的模型更加精確。此時,HMM_SA算法的優(yōu)化能力就得以體現(xiàn)。
觀測序列長度t=25,取滑動窗口長度為τ=15,對IP地址為172.17.5.25的主機參數(shù)的優(yōu)化結(jié)果如下:
π′=(0,0,1,0)


通過優(yōu)化結(jié)果可得:優(yōu)化后的初始狀態(tài)分布π′處于被攻擊的狀態(tài)收斂于1,通過查找防火墻日志,得知11月5日的第一條日志內(nèi)容為“Web服務(wù)遠程SQL注入攻擊”,與事實相符,表明該方法有效。其余兩臺主機得到的實驗結(jié)果也與事實相符,不再依次描述。
3.4 實驗結(jié)果分析
設(shè)置態(tài)勢權(quán)值向量C=(0.1,0.4,0.7,1),分別表示處于良好、被刺探、被攻擊、已侵入狀態(tài)下的態(tài)勢權(quán)值。為了方便畫圖,網(wǎng)絡(luò)安全態(tài)勢值是以每個小時為單位計算的,每個小時內(nèi)發(fā)生的多次報警事件的網(wǎng)絡(luò)安全態(tài)勢值合并為一個值。
匯總所有24 h的態(tài)勢值之后,得到3臺主機和整個網(wǎng)絡(luò)2013年11月05日當天共245個報警事件的安全態(tài)勢走勢圖。通過該圖能夠直觀看出每個時段主機和網(wǎng)絡(luò)的安全動態(tài),可供管理員參考,提供決策依據(jù)。按小時加權(quán)后的主機安全態(tài)勢如圖3所示。

圖3 3臺主機24 h的安全態(tài)勢Fig. 3 Security situation of the 3 host in 24 hours
通過圖3可以看出,主機IP地址為172.17.5.25的主機受到攻擊的時段為中午11點~下午3點和晚上6點~晚上10點,這兩個時段相對于其他時段態(tài)勢值突增,需要引起注意,事實上中午11點~下午3點這段時間主機受到了“Web服務(wù)遠程SQL注入攻擊”,晚上6點~晚上10點這段時間主機受到了“Windows系統(tǒng)下MSSQL Slammer蠕蟲攻擊”;主機IP地址為172.17.5.25的主機受到攻擊的時段為早上6點到中午11點,該時段的態(tài)勢值明顯增加,事實上該時段主機受到了“SYN-Flood半開TCP連接淹沒拒絕服務(wù)攻擊”;主機IP地址為172.17.5.46的主機整天的態(tài)勢相對較低,曲線較為平穩(wěn),只是在下午3到晚上8點態(tài)勢值曲線有異動,事實上,該時段主機“Windows系統(tǒng)遠程管理工具PcAnywhere遠程登錄失敗”。
然后,針對主機IP地址為172.17.5.25的主機,以前14小時的數(shù)據(jù)為基礎(chǔ)對后10個小時的數(shù)據(jù)進行預(yù)測,按照引言介紹的2種預(yù)測模型,并對得到的預(yù)測結(jié)果進行繪圖,得到的主機安全態(tài)勢預(yù)測曲線如圖4所示。

圖4 主機安全態(tài)勢預(yù)測曲線Fig. 4 Host security situation prediction curre
通過圖4可以看出,2種模型的預(yù)測結(jié)果都是安全態(tài)勢先波段上升然后回落最后趨于平穩(wěn),GM(1,1)預(yù)測模型算法簡單、易于實現(xiàn),預(yù)測結(jié)果能比較平滑地反映主機安全態(tài)勢走勢,但預(yù)測精度不高,因此適用總體趨勢的預(yù)測;ARMA預(yù)測模型較為復(fù)雜,但能準確反映主機安全態(tài)勢走勢,且誤差較小,適用范圍更廣。
最后將3臺主機的態(tài)勢值相加得到整個網(wǎng)絡(luò)的安全態(tài)勢圖如圖5所示。

圖5 網(wǎng)絡(luò)24 h的安全態(tài)勢Fig. 5 Security situation of the network in 24 hours
通過圖5可以看出整個網(wǎng)絡(luò)的安全態(tài)勢走勢,在時段早上7點~早上10點、中午12點~下午2點、下午5點~晚上9點網(wǎng)絡(luò)的安全態(tài)勢值最高,需要引起注意。
綜上所述,實驗結(jié)果基本反映出主機跟整個網(wǎng)絡(luò)的安全態(tài)勢情況,證明本文提出的態(tài)勢評估方法有效。
針對隱馬爾可夫模型觀測矩陣規(guī)模過大和參數(shù)難配置的問題,本文提出一種改進的基于隱馬爾可夫模型的態(tài)勢評估方法。在傳統(tǒng)BW算法的基礎(chǔ)上結(jié)合改進的模擬退火算法,使局部最優(yōu)解能概率性地跳出并最終趨于全局最優(yōu)解,使評估模型更加精確。通過實驗數(shù)據(jù)的測試,該模型能夠較為準確地反映網(wǎng)絡(luò)的安全態(tài)勢,證明了該方法的有效性。另一方面,單一的報警數(shù)據(jù)可能存在較大誤報和漏報,這將是未來的研究方向。
References)
[1] ENDSLEY M R. Situation Awareness Global Assessment Technique (SAGAT)[C]// Proceedings of the IEEE 1988 National Aerospace and Electronics Conference. Piscataway, NJ: IEEE, 1988: 789-795.
[2] BASS T. Intrusion detection systems & multisensor data fusion: creating cyberspace situational awareness[J]. Communications of the ACM, 1999, 43(4):99-105.
[3] 陳秀真, 鄭慶華, 管曉宏,等. 層次化網(wǎng)絡(luò)安全威脅態(tài)勢量化評估方法[J]. 軟件學(xué)報, 2006, 17(4):885-897.(CHEN X Z, ZHENG Q H, GUANG X H, et al. Quantitative hierarchical threat evaluation model for network security[J]. Journal of Software, 2006, 17(4):885-897.)
[4] 李偉生, 王寶樹. 基于貝葉斯網(wǎng)絡(luò)的態(tài)勢評估[J]. 系統(tǒng)工程與電子技術(shù), 2003, 25(4):480-483.(LI W S, WANG B S. Situation assessment based on Bayesian networks[J]. Systems Engineering and Electronics,2003,25(4):480-483.)
[5] RAHNAVARD G, NAJJAR M S A, TAHERIFAR S. A method to evaluate Web services anomaly detection using hidden Markov models[C]// Proceedings of the 2010 International Conference on Computer Applications and Industrial Electronics. Piscataway, NJ: IEEE, 2010: 261-265.
[6] RNES A, VALEUR F, VIGNA G, et al. Using hidden Markov models to evaluate the risks of intrusions[C]// Proceedings of the 9th International Conference on Recent Advances in Intrusion Detection. Berlin: Springer-Verlag, 2006:145-164.
[7] 鄧聚龍. 灰預(yù)測與灰決策:灰色預(yù)測與決策[M]. 武漢: 華中科技大學(xué)出版社, 2002:173-212.(DENG J L. Gray Prediction and Gray Decision: Gray Prediction and Gray Decision[M]. Wuhan: Huazhong University of Science and Technology Press, 2002: 173-212.)
[8] BOX G E P, JENKINS G M, REINSEL G C. Time Series Analysis[M]. 4th ed. Hoboken, NJ: John Wiley & Sons, 2013:137-191.
[9] DUGAD R, DESAI U B. A tutorial on hidden Markov models[J]. Proceedings of the IEEE: Applications in Speech Recognition, 2000, 77(2):25-286.
[10] 周東清, 張海鋒, 張紹武,等. 基于HMM的分布式拒絕服務(wù)攻擊檢測方法[J]. Journal of Computer Research & Development, 2005, 42(9):1594-1599.(ZHOU D Q,ZHANG H F,ZHANG S W, et al. A DDoS attack detection method based on hidden Markov model[J]. Journal of Computer Research & Development, 2005, 42(9):1594-1599.)
[11] JUANG B H, RABINER L R. A probabilistic distance measure for hidden Markov models[J]. AT&T Technical Journal, 1985, 64(2):391-408.
[12] 康立山,謝云,尤矢勇,等. 非數(shù)值并行算法-模擬退火算法[M].北京: 科學(xué)出版社,1994:56-59.(KANG L S,XIE Y,YOU S Y, et al. Numerical Parallel Algorithm-Simulated Annealing Algorithm[M].Beijing: Science Press, 1994:56-59.)
[13] ROESCH M, GREEN C. Snort users manual [EB/OL].[2016-05-20].http://manual.snort.org/snort_manual.htlm
[14] 李曉芳, 姚遠. 入侵檢測工具Snort的研究與使用[J]. 計算機應(yīng)用與軟件, 2006, 23(3):123-124.(LI X F,YAO Y. Master and use Snort tools for intrusion detection[J]. Computer Applications and Software, 2006, 23(3): 123-124.)
This work is partially supported by the National Natural Science Foundation of China (61271260), the Natural Science Foundation of Chongqing Science and Technology Commission (cstc2015jcyjA40050).
LI Fangwei, born in 1960, Ph. D., professor. His research interests include mobile communication technology and theory, information security.
LI Qi, born in 1990, M. S. candidate. His research interests include network security situation awareness.
ZHU Jiang, born in 1977, Ph. D., associate professor. His research interests include communication theory and technology, information security.
Improved method of situation assessment method based on hidden Markov model
LI Fangwei, LI Qi*, ZHU Jiang
(ChongqingKeyLaboratoryofMobileCommunicationsTechnology(ChongqingUniversityofPostsandTelecommunications),Chongqing400065,China)
Concerning the problem that the Hidden Markov Model (HMM) parameters are difficult to configure, an improved method of situation assessment based on HMM was proposed to reflect the security of the network. The proposed method used the output of intrusion detection system as input, classified the alarm events by Snort manual to get the observation sequence, and established the HMM model, the improved Simulated Annealing (SA) algorithm combined with the Baum_Welch (BW) algorithm to optimize the HMM parameters, and used the method of quantitative analysis to get the security situational value of the network. The experimental results show that the proposed method can improve the accuracy and convergence speed of the model.
network security; Hidden Markov Model (HMM); parameter optimization; Simulated Annealing (SA) algorithm;situation assessment
2016-11-01;
2016-12-05。
國家自然科學(xué)基金資助項目(61271260);重慶市科委自然科學(xué)基金項目(cstc2015jcyjA40050)。
李方偉(1960—),男,重慶人,教授,博士,主要研究方向:移動通信技術(shù)與理論、信息安全; 李騏(1990—),男,湖北武漢人,碩士研究生,主要研究方向:網(wǎng)絡(luò)安全態(tài)勢感知; 朱江(1977—),男,湖北荊州人,副教授,博士,主要研究方向:通信理論與技術(shù)、信息安全。
1001-9081(2017)05-1331-04
10.11772/j.issn.1001-9081.2017.05.1331
TP393.08
A