高懷鑫,陳政翰,王嘉昕,劉書榮
(蘭州中川國際機場有限公司,甘肅 蘭州 730087)
大數據、云計算等技術的快速發展促進了大數據中心等信息系統的應用和普及,例如華為云、中國移動云、百度云、阿里云以及騰訊云等大數據中心相繼成立,為中國信息系統的發展提供了強大的推動力,取得了顯著的應用成效[1]。但是,信息系統在為電子商務、電子政務、金融證券等提供便捷服務的同時,也面臨著海量的病毒攻擊、木馬攻擊等威脅[2]。傳統的信息安全防御系統采用防火墻、訪問控制規則、殺毒軟件等,一定程度上提高了信息安全保護水平,但是由于這些攻擊威脅發作速度非常快,因此需要引入更加先進的技術進一步提高安全防御能力,實現防患于未然[3]。
深度學習是一種非常先進的數據挖掘、模式識別和機器學習算法,采用的核心技術為卷積神經網絡,將單層的網絡劃分為卷積層、池化層、全連接層等,從而提高了模式識別學習和訓練的適應能力[4]。深度學習在信息安全防御中的應用可以有效提高深度神經網絡的可解釋性,降低樣本收集和計算成本,解決樣本集不均衡的問題。同時可以建立一個縱深層次的防御體系,提高信息安全管理的主動性和智能化[5]。
系統的功能主要包括數據采集、病毒或木馬識別、病毒查殺等[6]。數據采集可以針對訪問信息系統的數據流進行采集,實時抓取每一個數據包,將這些數據包發送給識別模塊。識別模塊利用深度學習算法,可以識別數據流中是否潛藏病毒或木馬。如果存在病毒或木馬,需要將其發送給病毒查殺模塊,啟動防御工具(例如360安全衛士企業版、卡巴斯基殺毒工具企業版等),從而及時消除病毒和木馬[7]。基于深度學習的信息安全防御系統運行流程如圖1所示。

圖1 基于深度學習的信息安全防御系統運行流程
基于深度學習的信息安全防御系統包括輸入層、卷積層C1、池化層S1、卷積層C2、池化層S2以及全連接層6個層次,相關結構如圖2所示。

圖2 基于深度學習的信息安全防御系統結構
輸入層可以接受訪問信息安全系統的數據,并且利用歸一化方法統一處理,實現量綱統一,也可以通過預處理清除噪聲數據[8]。卷積層可以執行窗口滑動操作和局部關聯操作,聯合完成信息系統訪問數據的特征過濾和特征提取工作,從而提高深度學習算法的準確度[9]。池化層可以進一步降低訪問信息系統的特征數據規模,從而降低深度學習分類器的復雜度,避免發生過度擬合的現象[10]。全連接層是一個完整的分類器,可以將深度學習訓練的結果保存在這一層,從而識別和發現潛在的病毒或木馬,限制攜帶病毒或木馬的數據訪問信息系統,避免信息系統受到不法侵害。全連接層可以進行動態訓練和改進,從而及時更新分類器,有效提升分類器的準確性。
為了驗證本文深度學習算法的識別準確度,構建了一個模擬測試環境,利用模擬攻擊終端生成18 000條攻擊記錄。這些攻擊含有各種網絡病毒或木馬,包括震網病毒、Duqu病毒、“火焰”病毒、Havex病毒、Sandworm病毒、格盤病毒、“方程式”組織病毒庫、黑暗能量黑客攻擊以及網絡協議漏洞攻擊等,數據集構成如表1所示。

表1 實驗數據集構成
攻擊9個模擬終端,詳細數據如表2所示。

表2 模擬終端及攻擊記錄數據
測試基于支持向量機算法的信息安全防御系統、基于AdaBoost算法的信息安全防御系統以及本文所提出的基于深度學習算法的信息安全防御系統的精確度,對比結果如表3所示。

表3 不同系統的識別精確度對比結果 (單位:%)
根據表3,基于深度學習算法的系統識別準確度最高為99.62%,支持向量機算法的系統識別準確度最高為76.24%,基于AdaBoost算法的系統識別準確度最高為81.18%,表明基于深度學習算法能夠有效識別病毒或木馬。同時,本文通過對各個模擬終端的信息安全識別精確度,發現深度學習算法的識別準確度比較穩定,其余的算法波動較大,如圖3所示。

圖3 算法識別結果的穩定性
結合深度學習開展信息安全防御工作,利用先進的數據挖掘和識別技術識別網絡中潛在的病毒和木馬,并且將識別結果發送給病毒查殺工具,從而及時清除病毒或木馬。與此同時,阻止后續同一個數據源的訪問,實現防患于未然,進一步提高網絡安全防御水平。