向城成 吳春江 劉啟和 周世杰
(電子科技大學信息與軟件工程學院 四川 成都 610054)
大數(shù)據(jù)時代的到來使得各個行業(yè)和領域與互聯(lián)網(wǎng)緊密結合,互聯(lián)網(wǎng)思維亦成為現(xiàn)代社會必不可少的思維方式,它與各傳統(tǒng)行業(yè)相結合,為各行業(yè)的發(fā)展提供了巨大驅動力,與此同時也對網(wǎng)絡的安全性有了更嚴格的要求。無論是企業(yè)公司,還是學校公務機關都可能有自己的網(wǎng)絡結構,部署包括交換機、路由器、服務器等重要設備,相關單位會使用網(wǎng)絡傳輸各種數(shù)據(jù)、信息,一旦網(wǎng)絡的安全受到威脅,將會對整個單位的利益造成巨大的損失[1]。
互聯(lián)網(wǎng)雖然加快了各行業(yè)融合協(xié)同發(fā)展,但也使網(wǎng)絡安全面臨了更多的問題和威脅。僅2018年上半年,網(wǎng)絡攻擊相關的互聯(lián)網(wǎng)安全事件就層出不窮,如俄羅斯電網(wǎng)攻擊事件、美國300多所大學受伊朗黑客攻擊事件、美國Exactis公司數(shù)據(jù)泄露事件、安德瑪健身追蹤應用MyFitnessPal數(shù)據(jù)泄漏事件、惡意軟件VPNFilter事件等。網(wǎng)絡安全事故的頻繁發(fā)生引發(fā)了各行各業(yè)的高度重視,學界對網(wǎng)絡安全態(tài)勢(Network Security Situation,NSS)的研究越發(fā)深入,一種基于NSS智能感知、評估、預測的新型網(wǎng)絡安全防護體系應運而生。
網(wǎng)絡安全態(tài)勢預測(Network Security Situation Prediction,NSSP)首先采集一段時間中的攻擊事件,根據(jù)攻擊事件的種類、頻率等,然后關聯(lián)融合分析后得到評估的態(tài)勢值,利用過去時間的攻擊事件信息及態(tài)勢值可以對未來的NSS發(fā)展趨勢進行預測,能夠為網(wǎng)絡管理人員提供必要的數(shù)據(jù)與信息支持,使網(wǎng)絡管理人員能夠采取必要的網(wǎng)絡安全防護措施,制定合理的網(wǎng)絡安全防護方案,以做出有效的網(wǎng)絡安全防護決策。
網(wǎng)絡安全態(tài)勢通過歷史數(shù)據(jù)對未來的態(tài)勢值進行預測的方法有很多,根據(jù)數(shù)據(jù)的特性和使用方法的領域可對方法進行分類。當NSS數(shù)據(jù)具有少數(shù)據(jù)、貧信息、不確定性等特點時,可將使用的方法分類為“不確定推理理論”,當數(shù)據(jù)為其他正常完整數(shù)據(jù)時,可將預測方法按方法類型分為“機器學習人工智能方法”和“神經(jīng)網(wǎng)絡方法”。因此常見的NSSP方法通??煞譃橐韵氯箢?不確定推理理論方法、機器學習及人工智能領域方法、神經(jīng)網(wǎng)絡方法,及多種優(yōu)化調整的混合預測方法和模型。本節(jié)主要介紹三類常用的預測方法,羅列其在各行業(yè)、各領域的應用,并闡述在態(tài)勢預測領域的應用策略或方案。
在NSSP領域,進行數(shù)據(jù)預測通常會遇到NSS信息、數(shù)據(jù)不完備或缺失的情況,這種情況下可考慮使用不確定推理理論的方法,利用不完備、不確定數(shù)據(jù),對未來態(tài)勢值進行合理的預測和推斷。在NPPS領域,最常用的不確定性推理理論方法包括灰色系統(tǒng)理論和D-S證據(jù)理論。
1.1.1灰色系統(tǒng)理論
灰色系統(tǒng)理論[2]是于20世紀80年代提出的一種著重于不完備數(shù)據(jù)信息的方法,針對不完備信息(貧信息)、小數(shù)據(jù)的建模分析方法,通過生成、挖掘、提取有用的信息來處理僅部分信息已知的不確定系統(tǒng)[3],可根據(jù)僅部分已知信息正確描述演化規(guī)律或變化過程。
從灰色系統(tǒng)理論提出至今,在數(shù)據(jù)預測領域許多專家學者對其進行了深層次的研究和討論,推動灰色系統(tǒng)理論在數(shù)據(jù)預測應用層面的發(fā)展[4],通過建立灰色預測模型在各種應用場景進行預測的研究應用。比如楊文博等[5]為了驗證灰色預測模型在運營橋梁的基本狀況,運用灰色系統(tǒng)理論的原理,以某正在使用的橋梁為基礎,基于GM(1,1)進行建模與分析,并將預測數(shù)據(jù)與實測數(shù)據(jù)進行對比分析,得到較為精準的結論以證明灰色預測模型可以對橋梁狀況進行預測;Liu等[6]基于GM(1,1)對GDP指數(shù)預測,并提出終點優(yōu)化的調優(yōu)策略,使GM(1,1)性能有所提升。
而利用灰色系統(tǒng)理論對NSS的預測方面,灰色系統(tǒng)理論進行態(tài)勢預測可建立應用面較廣的GM(1,1)及精度更高的GM(1,N)[7],利用沒有規(guī)律或規(guī)律表現(xiàn)較弱的數(shù)據(jù),然后對其整理規(guī)整,得到它的變化規(guī)律,這便是產(chǎn)生灰數(shù)據(jù)序列的過程,灰數(shù)據(jù)序列可以利用生成方式削弱它的隨機性從而體現(xiàn)規(guī)律性,通常采用累加、累減、加權鄰值等方式,這樣生成較有規(guī)律的生成數(shù),建立一階微分擬合方程,然后利用一元線性回歸求得估計值以完成預測。GM(1,N)依然采用累加、累減、加權鄰值的生成方式,建立多因子數(shù)列微分方程,利用一元線性回歸方法求得估計值以完成預測。
1.1.2D-S證據(jù)理論
D-S證據(jù)理論(Dempster/Shafer Evidence Theory)是由Dempster提出,由Shafer進一步推論發(fā)展起來的不確定推理理論,與灰色系統(tǒng)理論相似,同樣也有表達不確定信息的能力,其核心思想便是采用“區(qū)間估計”的方法來對不確定信息進行描述,最終確定信任區(qū)間以獲得預測結果。
D-S證據(jù)理論同樣被廣泛用于數(shù)據(jù)預測領域,在各類預測的應用場景中發(fā)揮了至關重要的作用。比如Gao等[8]利用D-S證據(jù)理論建立了瓦斯突出數(shù)據(jù)的預測模型,有效防止瓦斯突出可能帶來的巨大破壞;Bauer[9]通過使用多個預測模型作為證據(jù),結合D-S證據(jù)理論對保健結果進行有效預測。
在NSSP領域,利用D-S證據(jù)理論,構建基于D-S證據(jù)理論的預測模型以完成預測[10]。利用D-S結合攻擊、防御及整體性的NSS數(shù)據(jù),利用該方法善于處理不確定數(shù)據(jù)的特性,并且基于D-S證據(jù)理論進行態(tài)勢評估(假設空間P)、安全狀態(tài)概率分配(Mass函數(shù))、融合計算(合成規(guī)則)等建立NSSP模型,通過攻擊態(tài)勢、防御態(tài)勢、總體態(tài)勢構建D-S證據(jù)理論的假設空間、Mass函數(shù)及合成規(guī)則,最后確定信任區(qū)間的具體過程如圖1所示[11]。

圖1 基于D-S證據(jù)理論建立的NSSP模型
在NSSP領域,進行數(shù)據(jù)預測時在數(shù)據(jù)完備的情況下,可考慮采用機器學習及人工智能領域的預測方法,通過歷史數(shù)據(jù)序列對未來時間態(tài)勢值進行預測,該類方法用在態(tài)勢預測中使用率最高的主要包括:支持向量機、隱馬爾可夫模型、卡爾曼算法等。
1.2.1支持向量機
支持向量機(Support Vector Machine,SVM)在機器學習與人工智能領域的應用較為廣泛,是一種通常用來解決二分類問題的有監(jiān)督學習的算法。
支持向量機在各種預測場景下的應用也成為近年來的熱門研究點,結合一些參數(shù)優(yōu)化算法取得表現(xiàn)不錯的SVM預測模型。比如Duan[12]利用PSO優(yōu)化的SVM模型即PSO_SVM,對一定時間內的車流量進行預測;Alam等[13]利用多階段分類的SVM用于肺癌的預測。
在NSSP領域,基于SVM建立NSSP模型可首先創(chuàng)建基于時間維度的原始NSS數(shù)據(jù)序列,然后結合SVM的調參優(yōu)化策略,利用時間數(shù)據(jù)序列及SVM參數(shù)調優(yōu)等處理,得到基于SVM的NSSP模型。SVM訓練相對容易且能夠方便地轉換為高維數(shù)據(jù),SVM也能夠直接地控制在分類時的平衡復雜性及錯誤問題,利用SVM進行NSSP的可行性和實用性較高[14]。
1.2.2隱馬爾可夫模型
隱馬爾可夫模型(Hidden Markov Model,HMM),“隱”表示其有未知參數(shù),HMM因其優(yōu)越性被廣泛應用在語音識別、數(shù)據(jù)預測、狀態(tài)評估、分類問題、入侵檢測等領域[15],并取得了不錯的效果。
隱馬爾可夫模型在數(shù)據(jù)預測方面有較廣泛的應用。比如Wang等[16]使用堆疊式集成方法從HMM譜圖預測DNA結合蛋白;Chen等[17]使用基于XGBpred的極限梯度增強和基于HMMpred的隱馬爾可夫模型。在10倍交叉驗證測試中,XGBpred和HMMpred在最先進的方法Geno2pheno和G2p_str上均達到了更高的特異性72.56%和72.09%,相同的靈敏度為93.73%。
在NSSP領域,通過HMM構建NSSP模型可表示為一個五元組[18]:(1) 隱含狀態(tài)集合:不可通過直接觀察得到的,可表示為NSS的狀態(tài)安全等級;(2) 可觀察狀態(tài)集合:可選用與隱含狀態(tài)關聯(lián)的如系統(tǒng)日志、防護設備日志等作為觀測向量集;(3) 狀態(tài)轉移概率矩陣:在隱含狀態(tài)集合下不同安全等級的轉移矩陣;(4) 可觀察狀態(tài)轉移概率矩陣:為在不同可觀測向量與隱含狀態(tài)等級的關系轉移概率矩陣;(5) 初始概率矩陣:初始時刻所處的觀測向量與隱含狀態(tài)等級。利用HMM構建NSSP模型進行高效、精準的預測[19],得到未來時刻的安全狀況以及時采取防護策略[20]。
1.2.3卡爾曼算法
卡爾曼算法,也稱卡爾曼濾波算法或線性二次估計,以產(chǎn)生更多的未知變量估計,通過估計每個時間幀變量的聯(lián)合概率分布,對系統(tǒng)狀態(tài)進行最優(yōu)估計,得到預測結果。
卡爾曼算法能夠有效對系統(tǒng)狀態(tài)進行最優(yōu)估計以求得預測結果,因此它常被應用在數(shù)據(jù)預測領域。比如Mo等[21]使用卡爾曼濾波算法對鋰離子電池的剩余壽命進行預測;Emami等[22]基于卡爾曼濾波算法建立短時間交通流量模型,對交通流量數(shù)據(jù)進行最優(yōu)估計得到預測值。
在NSSP領域,卡爾曼算法利用描述狀態(tài)方程、觀測方程[23]進行NSSP獲得相對精準的預測結果,其中狀態(tài)方程包括:狀態(tài)向量轉移、狀態(tài)轉移矩陣、狀態(tài)向量等;而觀測方程包括:觀測噪聲、觀測向量等,利用基于卡爾曼算法建立NSSP模型,獲取原始數(shù)據(jù)值,并利用算法結合數(shù)據(jù)進行預測[24];利用卡爾曼算法建立NSSP模型,卡爾曼算法的預測結果和實際結果趨勢一致,證明了卡爾曼濾波算法在NSSP中的可行性[25],且通??柭惴ǖ念A測精準性要高于單純的GM(1,1)模型等[26]。
在NSSP領域,在進行數(shù)據(jù)預測且數(shù)據(jù)完備時,神經(jīng)網(wǎng)絡方法是一種高效、精準的預測方法,同樣通過歷史數(shù)據(jù)序列對未來時間態(tài)勢值進行預測,該類方法用在態(tài)勢預測中使用率最高的主要包括BP神經(jīng)網(wǎng)絡、RBF神經(jīng)網(wǎng)絡、RNN神經(jīng)網(wǎng)絡等。
1.3.1BP神經(jīng)網(wǎng)絡
BP(Back Propagation)神經(jīng)網(wǎng)絡是20世紀80年代,Rumelhart等提出的一種信號向前傳遞、誤差向后傳遞的多層神經(jīng)網(wǎng)絡學習方法,可通過權重調整使輸出的預測結果更加接近于期望值,通常BP神經(jīng)網(wǎng)絡包含三層結構,分別是第一層輸入層、第二層隱含層、第三層輸出層。
BP神經(jīng)網(wǎng)絡在數(shù)據(jù)預測領域有良好的表現(xiàn)效果,也可用于分類問題、計算機視覺、機器人技術等領域。比如,Liu等[27]利用分段學習的雙層BP神經(jīng)網(wǎng)絡,對道路通行流量進行精準的預測取得了較好結果;Wu等[28]提出了一種基于反向傳播BP神經(jīng)網(wǎng)絡的預測工具GAIFOA-BP,用于預測在不同儲油條件下FPSO模型相關位置的應變值。
基于BP的NSSP模型首先利用現(xiàn)有的數(shù)據(jù)找到輸入、輸出的權值關系,在NSSP領域可利用BP神經(jīng)網(wǎng)絡,建立NSSP模型[29],包括原始NSS數(shù)據(jù)的輸入層、映射層、輸出層如圖2所示。架構輸入層為對應節(jié)點的NSS原始數(shù)據(jù);映射層即為BP神經(jīng)網(wǎng)絡,映射層的BP結構即獲取數(shù)據(jù)輸入并加權計算,通過BP結構的隱含層激活函數(shù)后映射成輸出,獲取數(shù)據(jù)再次通過加權、計算、映射得到輸出。

圖2 基于BP神經(jīng)網(wǎng)絡的NSSP預測架構
1.3.2RBF神經(jīng)網(wǎng)絡
RBF(Radial Basis Function)即徑向基神經(jīng)網(wǎng)絡,是使用RBF作為激活函數(shù)的人工神經(jīng)網(wǎng)絡結構,RBF結構的輸出為輸入的RBF函數(shù)與神經(jīng)元參數(shù)的線性組合。
RBF神經(jīng)網(wǎng)絡在函數(shù)近似、時間序列預測、分類等應用場景下表現(xiàn)良好,RBF神經(jīng)網(wǎng)絡也是數(shù)據(jù)預測領域一個較精確高效的方法。比如J神經(jīng)網(wǎng)絡(基于遞歸粒子濾波的基于Rbf網(wǎng)絡的測量數(shù)據(jù)時間序列預測)領域的新研究和發(fā)現(xiàn)的詳細信息[30]。Li等[31]使用了優(yōu)化后的徑向基(RBF)神經(jīng)網(wǎng)絡開發(fā)了一種通用的剩余保質期數(shù)據(jù)預測模型,該模型通常用于采摘后的可食用葡萄,以實現(xiàn)比當前保質期預測方法更準確的數(shù)據(jù)預測。
在NSSP領域,通過訓練RBF神經(jīng)網(wǎng)絡,找到前序數(shù)據(jù)與后續(xù)數(shù)據(jù)存在的映射關系,然后調整前序數(shù)據(jù)的個數(shù),探索不同的NSSP結果,態(tài)勢數(shù)據(jù)的值可以視為非線性的時間序列,RBF神經(jīng)網(wǎng)絡可以實現(xiàn)通過前序N個數(shù)據(jù)和后續(xù)M個數(shù)據(jù),找出在NSS數(shù)據(jù)的非線性映射關系,基于RBF結構進行NSSP流程如圖3所示。研究了基于RBF的NSSP預測結構,利用RBF及BP兩種網(wǎng)絡結構得到NSSP結果,證明在NSSP領域RBF的預測結果比BP網(wǎng)絡要好[32]。

圖3 RBF網(wǎng)絡結構進行NSSP流程
1.3.3RNN神經(jīng)網(wǎng)絡
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)是神經(jīng)元相互之間連接形成一個有向環(huán)的人工神經(jīng)網(wǎng)絡,它展示基于時間序列的動態(tài)行為,廣泛地應用在對序列態(tài)勢數(shù)據(jù)的處理方面。
由于循環(huán)神經(jīng)網(wǎng)絡善于處理任意長的數(shù)據(jù),它在數(shù)據(jù)預測領域有較廣泛的應用。比如Ramakrishnan等[33]通過歷史網(wǎng)絡流量及RNN預測未來流量數(shù)據(jù);Hagos等[34]通過RNN對TCP傳輸狀態(tài)進行預測。
在NSSP領域,由于NSS有以時間為序列來預測的特點,提出以RNN對NSS數(shù)據(jù)進行預測,利用RNN能夠充分利用任意長度、以時間為序列的NSS數(shù)據(jù)信息,能夠有效保證利用RNN進行NSSP的預測準確性[35],NSS數(shù)據(jù)的特點以及RNN進行數(shù)據(jù)預測的特性決定了兩者能夠完美結合以得到高精度高效率的預測結果。
經(jīng)過十余年的發(fā)展,在常見的NSSP方法取得了巨大的成就同時,學者們也發(fā)現(xiàn)了一些詬病,如需要參數(shù)優(yōu)化、模型調優(yōu)、預測精度不足等,該節(jié)橫向對比三大類預測技術,并橫向對比了具體各類別的預測技術,分別詳細闡述態(tài)勢預測方法的優(yōu)缺點及其在網(wǎng)絡安全態(tài)勢預測中表現(xiàn)的優(yōu)劣之處,如表1所示,能夠高效合理地選擇相應的預測方法完成對NSS數(shù)據(jù)的預測。
兩種方法的優(yōu)缺點橫向對比如表2所示。

表2 兩種不確定性推理理論方法優(yōu)缺點橫向對比
2.1.1灰色系統(tǒng)理論
利用灰色系統(tǒng)理論建立預測模型主要優(yōu)勢是可以利用小數(shù)據(jù)、貧信息來進行預測工作,是在數(shù)據(jù)量小、數(shù)據(jù)不完整的場景下的不二之選;GM(1,1)與GM(1,N)通常對未來短時預測的情景下表現(xiàn)最好;利用這些模型的運算過程比其他模型更為簡單。對于單調遞增或單調遞減的數(shù)據(jù)序列,能達到很好效果,但在波動變化、不規(guī)則變化、變化明顯的非線性數(shù)據(jù)序列的預測精度較低且誤差較大。
2.1.2D-S證據(jù)理論
D-S證據(jù)理論同灰色系統(tǒng)理論一樣,對于貧信息、小數(shù)據(jù)的描述直接方便,且該理論還有綜合不同數(shù)據(jù)源的特性。但其在理論論證上處于劣勢,沒有強大的理論支撐其合理有效性;而且其對證據(jù)要求獨立,但在很多時候,數(shù)據(jù)間確實存在關聯(lián)。
三種方法優(yōu)缺點橫向對比如表3所示。

表3 三種機器學習及人工智能方法優(yōu)缺點橫向對比
2.2.1支持向量機
SVM在數(shù)據(jù)預測領域有廣泛應用,其泛化能力強,在新樣本中有較強適應能力;利用有效的已知算法發(fā)現(xiàn)目標函數(shù)的全局最優(yōu)解,能夠有效解決陷入局部最優(yōu)的主要問題;當然SVM還能有效處理小樣本數(shù)據(jù)、高維度數(shù)據(jù)、非線性數(shù)據(jù)等。這些優(yōu)勢都為其在數(shù)據(jù)預測領域的發(fā)展提供了推動力。但支持向量機也有許多詬病,首先在觀測樣本過多的情況下效率較低,對大規(guī)模訓練樣本難以進行;在核函數(shù)的尋找方面,對于非線性模型無統(tǒng)一標準,較難尋找到合適的核函數(shù)取得良好的性能表現(xiàn);缺失值對于SVM的性能有至關重要的影響。
2.2.2隱馬爾可夫模型
隱馬爾可夫模型是通過轉移概率及可觀察的表現(xiàn)概率進行建模,統(tǒng)計共同出現(xiàn)概率而非采用條件概率或局部歸一化,因此不易陷入局部最優(yōu)問題。建立基于HMM的預測模型可以反映觀察狀態(tài)和實際狀態(tài)之間的轉化規(guī)律及概率關系。在預測場景下,隱馬爾可夫模型學習的通常是隱含狀態(tài)集合、可觀察狀態(tài)集合兩者的聯(lián)合分布,而在預測中需要的是條件概率分布;在一些場景下,HMM對獨立性的假設較為嚴格,會導致模型設計有局限性。
2.2.3卡爾曼算法
卡爾曼算法可對需要預測的相關系統(tǒng)狀態(tài)進行最優(yōu)估計。但它僅利用歷史數(shù)據(jù)進行預測并未考慮動態(tài)的環(huán)境外圍因素對NSS數(shù)據(jù)值的影響;卡爾曼算法還有預測精度略偏低的現(xiàn)象。
三種方法的優(yōu)缺點橫向對比如表4所示。

表4 三種神經(jīng)網(wǎng)絡方法優(yōu)缺點橫向對比

續(xù)表4
2.3.1BP神經(jīng)網(wǎng)絡
BP神經(jīng)網(wǎng)絡結構實際上實現(xiàn)的是從輸入到輸出的映射過程,網(wǎng)絡結構如前文提到的包括三個層次,一個顯著的優(yōu)勢是BP結構的非線性映射能力強;與SVM一樣,有泛化能力較好地特性,對新樣本能夠較好的適應;BP結構容錯性也較好,局部出錯不會對后續(xù)的全局預測結果產(chǎn)生大的波及。與SVM相反,BP結構容易遇到局部最優(yōu)的問題而導致訓練不成功;其優(yōu)化的目標函數(shù)通常情況下是復雜的,這樣會導致整個結構的效率低下;由于不能用步長迭代的傳統(tǒng)方法,BP神經(jīng)網(wǎng)絡需預先設定步長更新規(guī)則,這樣的操作同樣會導致BP神經(jīng)網(wǎng)絡低效;其結構還時常面臨結構不統(tǒng)一、過度依賴樣本、過擬合等問題。
2.3.2RBF神經(jīng)網(wǎng)絡
與BP網(wǎng)絡結構相似,RBF網(wǎng)絡結構實現(xiàn)也是輸入到輸出的映射過程,RBF在映射方面有能力強表現(xiàn)良好的特點。但與BP結構不同的是,學習的收斂速度明顯快于BP結構的收斂速度,且RBF結構通過唯一最佳逼近,不會存在局部最優(yōu)的問題。RBF神經(jīng)網(wǎng)絡還在分類問題中表現(xiàn)良好。RBF網(wǎng)絡結構存在最主要的問題是理論研究不足,無法合理闡述RBF的推理推導理論和過程、依據(jù)等;將特征都轉化成數(shù)字,通過數(shù)字的處理計算得到結果,這可能導致信息缺失的后果。
2.3.3RNN神經(jīng)網(wǎng)絡
RNN神經(jīng)網(wǎng)絡最大的優(yōu)勢在于處理任意長度輸入、輸出的能力,且RNN利用時間序列數(shù)據(jù),這也是適用于網(wǎng)絡安全態(tài)勢預測的重要原因;但RNN與大多數(shù)神經(jīng)網(wǎng)絡結構一樣有些缺點,如訓練難度較大且參數(shù)過多調參有難度等。
可以看出傳統(tǒng)的網(wǎng)絡安全態(tài)勢預測技術很多時候有表現(xiàn)不足的地方,如局部最優(yōu)、精度較低、依賴性大、過擬合等問題,因此許多專家學者基于不確定性推理理論、機器學習人工智能方法、神經(jīng)網(wǎng)絡方法為基礎建立混合模型或調優(yōu)。本節(jié)將介紹一些混合模型或優(yōu)化后的預測模型,能夠為預測提供精度更高、效率更高的方案。
3.1.1灰色預測模型結合Markov鏈
前文提到灰色預測模型具有小數(shù)據(jù)貧信息預測、結構簡單、短時預測效果好等特點,顧兆軍等[36]提出了將灰色預測模型與Markov相結合的NSSP模型,利用Markov模型強隨機性的特點,將Markov加入到模型中,能夠有效修正預測模型中結果值和實際值之間的誤差,作者基于此提出了一種實時NSSP流程如圖4所示。

圖4 改進的灰色模型+Markov實時NSSP流程
3.1.2灰色預測模型結合BP神經(jīng)網(wǎng)絡
鄧勇杰等[37]提出用灰色理論結合BP網(wǎng)絡結構建立效果更優(yōu)的灰色神經(jīng)網(wǎng)絡NSSP架構,其結構具有計算方便、結構簡單的特點,而BP網(wǎng)絡結構有非線性映射能力強、泛化能力強、容錯性及自學習自適應的特點,因此作者提出利用灰色預測模型的小數(shù)據(jù)貧信息特點,結合BP結構強映射能力進行殘差預測,對NSSP結果值進行殘差修正,從而獲得更精確的預測結果,建立性能優(yōu)于原始灰色模型的灰色BP網(wǎng)絡NSSP模型,改進的灰色BP神經(jīng)網(wǎng)絡NSSP模型具體步驟如圖5所示。

圖5 改進的灰色BP神經(jīng)網(wǎng)絡模型NSSP步驟
3.1.3自適應的灰色預測模型
Zhu等[38]提出了采用自適應灰色參數(shù)、等維灰色填充(Equal Dimensions Grey Filling,EDGF)來建立改進的自適應灰色分析預測模型。Verhulst模型是灰色理論中主要部分之一,作者采用自適應參數(shù)的方式來確?;疑玍erhulst模型精度;在精度得到保證后采用等維灰色填充構造EDGF-Verhulst模型來抵抗未知因素對模型精度的影響。
3.1.4D-S證據(jù)理論的組合預測
由于NSSP受諸多不確定因素的影響,胡海亮[39]利用D-S證據(jù)理論建立組合模型,作者首先確定了單項預測模型權重,然后對歷史權重進行融合以得到預測權重,并對權重的提取和權重的融合進行了細致的描述,仿真實驗證明了高精度的D-S理論組合模型進行NSSP是有效可行的。
3.2.1遺傳算法優(yōu)化的SVM模型
郭政等[40]提出以遺傳算法(GA)優(yōu)化的SVM即GA_SVM模型,GA_SVM模型同樣以NSS數(shù)據(jù)來訓練SVM網(wǎng)絡,通過遺傳算法來獲取合適的SVM預測模型參數(shù),在SVM的預測過程中,懲罰因子、核函數(shù)的選擇對SVM預測結果有著決定性的影響,利用GA的自然進化過程,以此搜索最優(yōu)解來選取懲罰因子和核函數(shù),能夠有效排除因人為選定參數(shù)帶來的精度影響。
3.2.2引力搜索算法優(yōu)化的SVM模型
陳玉鑫等[41]提出以引力搜索算法(Gravitational Search Algorithm,GSA)優(yōu)化的SVM網(wǎng)絡安全態(tài)勢預測模型GSA_SVM模型,與GA_SVM模型相似,同樣采用的是找到SVM最優(yōu)參數(shù)的策略,不同的是GSA_SVM模型采用引力搜索算法不斷變化參數(shù)以找到最優(yōu)參數(shù),然后根據(jù)GSA擇取的最優(yōu)參數(shù)來構建SVM的NSSP模型,與原生SVM相比,預測模型GSA_SVM具有高精度、高效率等特性。
3.2.3粒子群算法優(yōu)化的SVM模型
陳善學等[42]提出以粒子群算法(Particle Swarm Optimization,PSO)來對SVM預測模型進行參數(shù)尋優(yōu),建立一種累加PSO_SVM的NSSP模型,思想與GA_SVM、GSA_SVM類似都是利用算法的尋優(yōu)特性對SVM參數(shù)優(yōu)化,該模型的數(shù)據(jù)序列累加策略能夠減少不規(guī)則數(shù)據(jù)對預測結果的擾動和影響。
3.2.4模擬退火及BW算法優(yōu)化的HMM模型
李方偉等[43]利用模擬退火算法(Simulate Anneal,SA)及Bauw_Welch(BW)算法的結合來解決隱Markov預測模型參數(shù)難以配置的問題,能夠建立精度更高、收斂速度更快的HMM預測模型,利用入侵檢測數(shù)據(jù)有效對NSS數(shù)據(jù)進行預測。
3.2.5最大熵法優(yōu)化的HMM模型
詹雄等[20]提出結合最大熵算法(Maximum Entropy Method,MEM)對態(tài)勢值預測進行統(tǒng)一的判定,有效提高動態(tài)、實時的NSSP態(tài)勢數(shù)據(jù)值的準確性。
3.2.6加權優(yōu)化的HMM模型
Liang等[15]利用多尺度熵的方法,基于加權HMM構建NSSP模型,多尺度熵用于解決訓練數(shù)據(jù)的問題,并對HMM傳遞矩陣參數(shù)訓練進行了優(yōu)化,利用NSS歷史數(shù)據(jù)特征間的關聯(lián)對未來NSS數(shù)據(jù)進行預測。
3.2.7灰色關聯(lián)熵卡爾曼算法
Wang等[26]利用灰色關聯(lián)熵分析法分析影響預測結果的相關性,根據(jù)選擇的關鍵影響因素建立相應的過程方程和預測方程,通過一種改進的迭代計算方法,引入具有自適應魯棒性能的新型拼接卡爾曼濾波算法,提高鋰離子電池組的充電狀態(tài)預測精度,實驗證明了灰色關聯(lián)熵卡爾曼算法比灰色系統(tǒng)理論預測精度更高。
3.3.1改進貝葉斯正則化的BP神經(jīng)網(wǎng)絡
周顯春等[44]提出一種基于改進的貝葉斯正則化的BP網(wǎng)絡結構,模型應用了BP網(wǎng)絡結構非線性映射能力強的特點,同時作者還使用了層次化的預測思想,總結如圖6所示。

圖6 BP網(wǎng)絡結構分層NSSP思想步驟
3.3.2MEA-BP神經(jīng)網(wǎng)絡模型
思維進化算法(Mind Evolutionary Algorithm,MEA)是一種1998年被提出的通常應用于對人工神經(jīng)網(wǎng)絡結構優(yōu)化的算法。在NSSP領域,Xiao等[45]提出基于MEA-BP模型對NSS數(shù)據(jù)進行預測,NSS數(shù)據(jù)有著非線性時間序列的特點,為了解決BP網(wǎng)絡結構的局部最優(yōu)解、多次迭代、效率低下的問題,作者優(yōu)化了其權重和閾值,使用基于思維進化算法優(yōu)化的MEA-BP模型進行未來的NSS數(shù)據(jù)預測,有效提高了預測準確率和效率。
3.3.3RBF參數(shù)的改進優(yōu)化
孟錦等[46]提出一種利用混合遞階遺傳算法(Hybrid Hierarchical Genetic Algorithm,HHGA)對RBF結構進行參數(shù)選擇優(yōu)化的HHGA_RBF模型,能夠利用樣本數(shù)據(jù)確定RBF結構及參數(shù),預測精度較高。
賴智全[47]結合人工魚群算法(Artificial Fish Swarm Algorithm,AFSA)、粒子群算法(Particle Swarm Optimization,PSO),提出一種利用兩者結合來對RBF結構進行參數(shù)尋優(yōu),從而構建一個高效的NSSP模型IAFSA_PSO_RBF預測模型。
3.3.4聚類和自適應的RBF改進優(yōu)化
甘文道等[48]提出基于資源分配網(wǎng)絡(Resource Allocating Network,RAN)對網(wǎng)絡安全態(tài)勢樣本數(shù)據(jù)進行聚類,并用改進粒子群算法(Modified Particle Swarm Optimization,MPSO)來進行參數(shù)尋優(yōu)構建NSSP模型。
李方偉等[49]提出自適應聚類(Adaptive Clustering,AC)的RBF神經(jīng)網(wǎng)絡NSSP模型,在反映總體變化趨勢的同時能夠有效提高精度。李方偉等[50]又提出可使用吸引力傳播(Affinity propagation,AP)對NSS數(shù)據(jù)樣本進行聚類,使用差分進化(Differential Evolution,DE)來優(yōu)化RBF神經(jīng)網(wǎng)絡,構建一種基于APDE_RBF網(wǎng)絡結構的NSSP模型。
3.3.5小波神經(jīng)網(wǎng)絡(WNN)的定量預測
Zhang等[51]利用改進生態(tài)位遺傳算法(Improved Niche Genetic Algorithm,INGA)構建了基于小波神經(jīng)網(wǎng)絡(Wavelet Neural Network,WNN)的網(wǎng)絡安全態(tài)勢預測模型,該模型采用具有較強非線性能力和容錯性能的WNN。最終仿真結果表明,所提出的INGA-WNN預測模型具有更快的收斂速度和更高的預測精度,能夠對網(wǎng)絡安全態(tài)勢進行更精準和更快速的預測。
使用于態(tài)勢預測的網(wǎng)絡安全態(tài)勢數(shù)據(jù)通常包括(列舉數(shù)據(jù)含適用面最廣的KDD1999、CIC-IDS-2017或自行數(shù)據(jù)采集)。
(1) 以KDD1999數(shù)據(jù)集為例:TCP連接基本特征、TCP連接的內容特征、基于時間的網(wǎng)絡流量統(tǒng)計特征、基于主機的網(wǎng)絡流量統(tǒng)計特征。
(2) CIC-IDS-2017入侵檢測評估數(shù)據(jù)集為例:CICIDS2017數(shù)據(jù)集包含良性和最新的常見攻擊,類似于真實的真實數(shù)據(jù)(PCAP)。它還包括使用CICFlowMeter進行網(wǎng)絡流量分析的結果,并基于時間戳、源和目標IP、源和目標端口、協(xié)議和攻擊(CSV文件)標記流量,也可以使用提取的特征定義。
(3) 自行數(shù)據(jù)采集:通常數(shù)據(jù)采集是指從各種設備當中獲取各種與網(wǎng)絡空間安全的相關數(shù)據(jù),如系統(tǒng)日志、告警、信息、網(wǎng)絡拓撲等。
網(wǎng)絡安全態(tài)勢數(shù)據(jù)預測流程如圖7所示。

圖7 網(wǎng)絡安全態(tài)勢數(shù)據(jù)預測流程
不確定性推理理論可以使用信息部分清楚、部分不清楚并帶有不確定性現(xiàn)象的數(shù)據(jù),通常不需要大量樣本,且數(shù)據(jù)不需要有規(guī)律性分布,通常計算工作量小,預測精準度較高,對于不確定性問題的描述很靈活和方便。
由于網(wǎng)絡安全態(tài)勢數(shù)據(jù)的采集需要通過軟硬件技術的結合來產(chǎn)生和收集網(wǎng)絡安全數(shù)據(jù),可能導致網(wǎng)絡安全態(tài)勢數(shù)據(jù)信息存在不確定性,部署的態(tài)勢數(shù)據(jù)搜集工具可能存在時間、空間、部署成本等因素的局限性因而導致數(shù)據(jù)樣本數(shù)量較少,且網(wǎng)絡安全態(tài)勢數(shù)據(jù)通常呈不均勻分布。綜上所述,不確定性推理理論適用于小數(shù)據(jù)、貧信息時候的網(wǎng)絡安全態(tài)勢預測工作。
通常情況下機器學習及人工智能類方法可以解決高維特征數(shù)據(jù),機器學習及人工智能類方法可以解決小樣本問題、非線性問題、不易陷入局部極小值問題,且泛化能力比較強;其中卡爾曼算法還具有占用內存小的優(yōu)點,運行速度很快,很適合于實時問題和嵌入式系統(tǒng)。
由于網(wǎng)絡安全態(tài)勢數(shù)據(jù)通常有高維度的特征,可能由于部署的態(tài)勢數(shù)據(jù)搜集工具存在時間、空間、部署成本等因素的局限性因而導致數(shù)據(jù)樣本數(shù)量較少,所以面臨小樣本問題,通常情況下網(wǎng)絡安全態(tài)勢數(shù)據(jù)呈現(xiàn)非線性變化。綜上所述,機器學習及人工智能類方法適用于小樣本、非線性的安全態(tài)勢預測工作。
神經(jīng)網(wǎng)絡能夠自適應、自主學習,不斷地調整神經(jīng)網(wǎng)絡中的參數(shù)以達到最符合期望的輸出,并且其非線性映射能力,有強大的理論支撐,個人神經(jīng)網(wǎng)絡預測方法不易陷入局部極小問題,具有較強的輸入、輸出映射功能。
由于網(wǎng)絡安全態(tài)勢數(shù)據(jù)通常呈非線性變化,通常還是一種從輸入到輸出的映射過程,網(wǎng)絡安全態(tài)勢數(shù)據(jù)通常呈不均勻分布,但如BP神經(jīng)網(wǎng)絡擁有強大的理論支撐能夠更好地解釋態(tài)勢預測的過程及結果,RBF神經(jīng)網(wǎng)絡無局部極小問題可以有效解決控制數(shù)據(jù)呈不均勻分布帶來的影響。綜上所述,神經(jīng)網(wǎng)絡類方法適用于安全態(tài)勢預測工作。
NPPS相關技術經(jīng)過多年的發(fā)展取得了較大的進展,在多種原有的預測模型基礎上進行優(yōu)化,構建混合模型提高預測精度或效率,或是創(chuàng)新選用一些相對冷門的預測模型嘗試對NSS進行預測。
調查研究發(fā)現(xiàn)還有許多的數(shù)據(jù)預測方法沒有被嘗試使用在網(wǎng)絡安全態(tài)勢預測領域,為了適應目前網(wǎng)絡安全態(tài)勢的需求和發(fā)展,網(wǎng)絡安全態(tài)勢預測技術需要考慮以下方向的發(fā)展:
(1) 將更多其他領域發(fā)展成熟的數(shù)據(jù)預測方法嘗試在NSSP領域進行應用,取得更好的效果。
(2) 選用相應算法對模型調優(yōu)的例子多,但創(chuàng)新的混合模型仍相對較少,可嘗試創(chuàng)新更多的混合預測模型來提高精度和效率。
(3) 網(wǎng)絡安全態(tài)勢的評估和預測缺乏通用的權重和定義標準,應考慮構建詳盡的通用標準。
(4) 網(wǎng)絡安全態(tài)勢預測著眼于大規(guī)模網(wǎng)絡,由于通常情況下網(wǎng)絡的數(shù)據(jù)流量大、網(wǎng)絡節(jié)點數(shù)量眾多、網(wǎng)絡環(huán)境復雜且異構,因此網(wǎng)絡安全態(tài)勢依然面臨著難以預測的狀況。
本文梳理近五年在NSSP領域的研究成果,分為不確定推理理論預測法、機器學習與人工智能方法、神經(jīng)網(wǎng)絡法三大類來介紹NSSP技術,對各預測模型的特性及優(yōu)缺點進行闡述,并梳理時下熱門的NSSP混合預測模型及優(yōu)化模型以提高預測精度與效率,為研究人員和網(wǎng)絡安全從業(yè)人員提供有效技術方案或優(yōu)化策略參考,能夠使研究人員對各預測方法有更深入的了解,對目前NSSP的發(fā)展和面臨的挑戰(zhàn)有更為詳細的認識。