(國網思極網安科技(北京)有限公司,北京 102211)
在信息智能化不斷發展的時代,許多國家接連發生了大型網絡攻擊事件,各大型企業產業經濟遭到史無前例的重創。大量案例表明,智能網絡時代給企業的安全帶來了全新的挑戰[1]。經過實例分析,黑客對物聯網等重要設施的攻擊,通常都是從終端發起,攻擊類型復雜、終端防護受自身條件和運行環境的限制,以及復雜多源的數據類型為后續數據處理給網絡安全防范工作帶來了極大的困難[2]。因此,如何提高網絡安全風險防范效率,減少數據處理的時間開銷,提高處理速度,是后續研究工作中需要解決的主要問題[3]。
針對上述存在的問題,許多學者發表了自己研究的技術方案。文獻[4]公開了一種網絡流量數據抽樣技術,雖然在一定程度上提高了數據處理效率,但是只能處理高頻率的流量數據,而忽略了低頻率的流量數據,存在處理不平衡問題。文獻[5]提出基于交叉驗證優化貝葉斯分類法,對網絡安全檢測數據進行有效地分類處理,但是隨著交叉數目的不斷增加,數據預處理過程耗時會逐漸增加,導致效率大打折扣。
針對上述技術存在的不足,本研究設計出新型的智能化網絡安全防攻擊檢測平臺,全面分析網絡風險因素,以提高對網絡風險因素的感知、預測和防范能力。關于網絡安全防攻擊檢測平臺總體框架圖如圖1所示。

圖1 網絡安全防攻擊檢測平臺總體框架圖
從圖1可以看出,網絡安全檢測平臺主要是通過物聯網和企業的業務系統中獲取數據,利用網絡采集探針在關鍵網絡節點進行實時檢測,并將采集得到的不同結構的數據進行合理的存儲,為數據抽取模型的特征提取提供足夠的樣本信息。在分析層中進行合理的數據分析,并將分析結果傳達至上層管理,根據決策者、管理人員和運維人員不同的需求和關注重點,通過可視化分析技術,挖掘出惡意軟件或流量數據隱藏的數據信息,并進行多種態勢的多維度展示,并且支持預警通告和應急處置[6-7]。
為了解決復雜多源的網絡安全檢測數據處理工作復雜的問題,本研究構建數據抽取模型和數據分析模型兩種技術來解決該問題,下面將分別闡述。
由于網絡安全檢測數據類型多樣,且不斷地會有例如惡意軟件、漏洞以及補丁等新的數據出現,因此基于分詞的方法識別率較低。針對上述問題,本研究基于卷積神經網絡(CNN)模型結合特征模板構建出一種新型的網絡安全數據抽取模型,如圖2所示。

圖2 網絡安全檢測數據抽取模型
整個構建過程首先要根據網絡安全防攻擊檢測數據庫手工生成少量特征模板,并提取局部特征向量,然后根據把網絡安全檢測數據特征向量進行語句轉換得到初始局部向量序列;其次,通過CNN算法對每個網絡安全檢測數據樣本進行卷積和聚合,并提取其特征信息;最后,將語義特征和局部特征相結合經過條件隨機場(CRF)算法進行序列標記,并抽取最優的特征向量序列。下面將分別闡述該過程中各部分的具體內容。
2.1.1 特征模板
特征模板是根據選取大量的數據特征并建立特定的模板,在數據抽取模型中便于之后識別數據的特征提取。特征模板的建立取決于“模板窗口”,窗口過大則會出現過擬合現象,窗口過小則提取特征向量十分有限,造成網絡安全檢測數據模型的識別效率較低,因此設計特征模板的模板窗口大小要十分合理。關于特征模板的構建過程如下:
首先設網絡安全檢測數據特征一系列為w[-1,0],w[0,0],w[1,0],…,w[i,j]。其中,w表示網絡安全檢測數據信息字符,括號內的第一個數字i表示相對w的位置,第二個數字j表示特征列數。通過對特征函數f定義為:
(1)
其中:y表示當前標記的網絡安全檢測數據信息字段;k表示特征函數數目,k通常取自然數;x表示當前字段位置。在通常情況下,特征函數f得出的數值是二值函數,式(1)的含義是取在x位置每個特征函數的總和[8-9]。設賦予特征函數的權重向量Z為:
Z=(z1,z2,…,zk)T
(2)
之后,將所有當前標記的網絡安全檢測數據特征信息轉換為特征向量,得到:
F(y,w)=(f1(y,w),f2(y,w),…,fk(y,w))T
(3)
其中:F表示所有特征向量的總序列。
2.1.2 CNN算法
為了有效的提取網絡安全檢測數據字符級特征,本研究采用CNN算法模型處理那些細粒度高的字符特征。CNN算法能夠自適應地從具體到抽象地特征信息,并且可以擁有不同結構的神經網絡框架,靈活性很高[10-11]。關于基于CNN的特征提取流程圖如圖3所示。

圖3 基于CNN的字符特征提取流程圖
如圖3所示,在輸入網絡安全檢測數據字符向量后,要先設置相關參數、損失函數和優化器。相關參數依然是由迭代次數、批處理以及學習速率組成,為了減少內存消耗,通過添加神經網絡壓縮加速技術對內存進行優化。通過將模型測試和優化交替判斷處理,可以使訓練時間更快[12-13]。在構建好神經網絡模型之后,將分類交叉熵函數作為損失函數進行模型測試。
在整個特征提取過程中構建卷積神經網絡模型是最重要的步驟,其主要由卷積層、池化層、全連接層和輸出層四部分組成:
卷積層對于網絡安全檢測數據來說相當于一種濾波器,與濾波器所不同的是卷積是通過卷積核的不同對輸入進行訓練處理,提高了效率,極大地減少了參數量;池化是利用卷積核來減少數據的參數個數并依然能進行特征提取的過程。池化操作雖然丟失了一些信息,但保持了網絡安全檢測數據的平移和擴展的不變性;全連接層就是將每一層的神經元都要與下一層所有神經元相連,也是為了將池化后的網絡安全檢測數據特征信息進行學習權重系數并分類[14-16]。本研究通過固定輸入網絡安全檢測數據大小以及全連接層系數矩陣,為輸出層提供更加突出的特征信息。
2.1.3 CRF算法
由于存在不能獨立的抽取網絡安全檢測數據特征向量的問題,因此本探究通過鏈式CRF算法計算整體上特征向量標簽序列的概率并得出損失值。首先,輸入網絡安全檢測數據標簽特征序列Y為:
X=(x1,x2,…xn)
(4)
Y=(y1,y2,…yn)
(5)
其中:X表示網絡安全檢測數據特征序列,Y是X的標簽序列,括號中每個字母代表著一個特征向量。之后計算每個輸入特征向量在t時刻的標簽權重M:
(6)
其中:M1和M2分別表示經過特征模板和CNN算法得出的權重值;Z和F分別表示權重向量和特征向量的總序列;Wc和Oc分別表示CNN算法中的權重矩陣和輸出層輸出結果[17]。
計算在輸入序列X的情況下產生標簽序列Y的概率P的表達式為:
(7)
本研究采用對數最大似然來表示損失函數,最終得到:
(8)
根據公式(8)損失函數值輸出最優標簽的網絡安全檢測數據,得到結果H為:
H=argmaxM(x,y)
(9)
在網絡安全防攻擊檢測中,通過在數據抽取模型中得到網絡安全的特征向量,本研究采用邏輯回歸對攻擊檢測中的網絡安全數據進行分析,應用二元分類解決數據難處理問題[18-19]。本研究中網絡安全數據分析通過邏輯回歸模型來實現,下面說明具體構建過程:
設網絡安全檢測數據特征序列為A=[a1,a2,…,an]T,與其相對應的類集合B=[b1,b2,…,bn],設C是兩個預定類集合,通過Logit函數將特征向量a映射到兩個預定類集合中的某一個得到二分類的邏輯回歸模型[20]:
(10)
λ=k0+k1a1+k2a2+…knan
(11)
其中:k為網絡安全檢測數據特征序列的權重系數,P表示特征向量a的攻擊概率。
由于在企業網絡安全防攻擊檢測中對不同惡意軟件分析的要求,因此邏輯回歸模型得到具有概率意義的結果將更好。邏輯回歸模型在處理每個網絡安全檢測數據樣本二元分類結果,對應出的一個處于0~1之間的概率值P,可以表明分類結果的置信度,即概率P可以作為發生網絡安全風險可能大小的衡量標準[21]。但在實際應用中,網絡安全檢測數據樣本二元分類的結果會存在一定的偏差,即樣本多數類和少數類的問題。
針對這種問題,本研究采用置信傳播技術對邏輯回歸模型進行改進,增添了網絡安全防攻擊獨立特征條件概率,每當新的數據樣本被抽取時便可快速提取特征用于邏輯回歸模型進行分析,進一步獲取攻擊的置信度。而在算法模型改進的層面上,通常的方法是使算法在不平衡分類問題上表現更好。其主要方法是通過算法對決策面進行修正,使其偏向少數類,從而提高少數類的識別率,比如貝葉斯網絡模型改進的概率密度算法。
置信傳播通常是計算置信度與真實值比較來判斷網絡安全檢測數據是否判定是否處于網絡安全告警狀態。關于邏輯回歸模型中置信傳播過程如圖4所示。

圖4 置信傳播流程圖
在網絡安全防攻擊檢測過程中,條件概率由狀態可以分為攻擊屬性和良性屬性。關于置信度BEL(v)的計算中需要貝葉斯網絡中每個節點的條件概率表,其中覆蓋了每個可能狀態的邊界概率P2。通常情況下條件概率表中攻擊屬性和良性屬性的條件概率相同,這也是理想情況下網絡安全檢測數據樣本二元平衡分類的結果。在攻擊屬性下的置信度BEL(v)的計算過程為:
(12)
式(12)表示每個網絡安全檢測數據樣本攻擊條件概率之積即為攻擊節點的置信度,良性屬性下同理。
綜上所述,整個網絡安全分析方法先從數據抽取模型中得到所有數據樣本,優點在于傳遞給置信傳播模型前即可確定未知樣本的惡意攻擊概率。經過邏輯回歸模型分析出該樣本特征為攻擊屬性或良性屬性,大幅度提高了效率。置信傳播過程中使用惡意攻擊的所有條件概率的特征屬性計算置信度BEL(v),這種方法能夠使輸出的結果不受獨立條件概率的影響,提高對樣本分析的精準度[22-23]。
為了驗證本研究網絡安全防攻擊檢測平臺的可靠性和實用性,下面將進行實驗。
關于實驗環境可分為硬件環境和軟件環境,其中硬件環境為機臺為CentOS6.8(x64)操作系統,Intel(R) Xeon(R) CPU E5-2640 v2、2.00 GHz主頻、千兆網卡、8核16 G內存、512 GB硬盤。軟件的操作系統為Windows10,JDK5.0。
關于實驗設置本研究采用一主機6個服務器節點來構建網絡安全防攻擊檢測系統,在服務器節點網絡流量數據傳輸末端設置用戶服務器,評估用戶空間惡意軟件和內核級Rootkit攻擊能力。關于網絡安全防攻擊檢測過程中的惡意軟件部分類型如表1所示。

表1 網絡安全防攻擊檢測過程中的惡意軟件
在上述的模擬仿真實驗中,下面對本研究的系統進行驗證,將帶有本研究置信傳播(BP)模型和未帶有BP模型的邏輯回歸分析方法在網絡安全檢測中進行數據分析,采用的數據從表1中的網絡安全檢測惡意軟件數據隨機選取一種,評估攻擊概率與真實值在0~2 GB數據量下的對比,通過MATLAB軟件進行仿真,得出曲線圖如圖5所示。

圖5 對比曲線圖
從圖5可以看出,在不同網絡安全檢測數據量環境下,采用BP模型得到的攻擊概率P與真實值相差較小且趨于穩定,不采用BP模型得到的攻擊概率P與真實值相差較大且波動幅度明顯。從該實驗結果表明本研究采用置信傳播技術改進邏輯回歸模型能有效提高網絡安全防攻擊檢測數據分析的精準度。
為了驗證本研究所設計的數據抽取模型的優勢,本研究以文獻[5]中基于交叉驗證優化貝葉斯分類法作為對比,采用不同方法計算0~2TB網絡安全檢測數據量范圍內損失值,通過MATLAB軟件系統進行仿真對比,對比結果圖如圖6所示。

圖6 損失值對比結果圖
從圖6可以看出,本研究所采用的數據抽取模型方法比交叉驗證優化貝葉斯分類法的損失值更低,網絡安全檢測數據抽取性更加高效,這充分表明本研究的數據抽取模型更加適用。
本研究設計出新型的智能化網絡安全防攻擊檢測平臺,構建數據抽取模型提高網絡安全檢測數據特征抽取的精準度。通過分析存在的潛在威脅和惡意軟件,評估網絡受到攻擊的概率,最后通過實驗驗證了本研究的網絡安全防攻擊檢測平臺的適用性和可靠性。實驗結果表明,本研究的數據抽取模型能夠產生最優估計值,而采用基于置信傳播改進邏輯回歸模型處理數據更接近真實值。隨著技術的不斷發展,對于智能化網絡安全檢測平臺采集精準度和全面性要求會更高,本研究仍舊存在諸多不足,有待進一步的研究。