







摘要:本文設計了一個包含四個核心層次的安全態勢感知平臺架構,其中,數據采集層自動收集多種來源的數據,存儲與處理層實現海量數據的高效管理,數據分析層應用機器學習算法挖掘有價值信息,態勢感知與可視化層通過綜合評估模型實時監測網絡安全態勢,以直觀方式展示結果,加快升級硬件軟件配置,提升平臺性能。
關鍵詞:大數據;網絡安全;態勢感知平臺
引言
網絡已成為現代社會不可或缺的基礎設施,但是,網絡安全問題也日漸凸顯,網絡攻擊手段不斷翻新,傳統安全防護手段難以應對。大數據技術以其強大的數據處理能力為網絡安全態勢感知提供了新的可能。本文設計了一個包含四個核心層次的安全態勢感知平臺,該平臺能夠實現對網絡安全態勢的實時感知,并在檢測到異常或威脅時,及時發出預警,有助于用戶更好地理解當前的安全狀況,從而作出科學的決策。
1. 大數據技術與網絡安全態勢感知
1.1 大數據技術概述
1.1.1 數據采集、存儲與處理技術
數據采集技術從各種來源(如傳感器、日志文件、社交媒體等)自動或半自動收集數據,通過網絡爬蟲技術可以從互聯網上抓取大量信息,傳感器技術則可以從物理世界中實時捕獲數據[1]。分布式存儲技術如Hadoop Distributed File System(HDFS)成為主流,能夠將數據分散存儲在多個節點上,提高存儲效率。
1.1.2 大數據分析與挖掘技術
大數據分析與挖掘技術從海量數據中提取有價值的信息,通過聚類分析,可以將相似的數據點分組,發現隱藏的模式或關聯。數據分析常使用統計方法和機器學習算法。機器學習算法如決策樹、支持向量機(SVM)和神經網絡等,能夠從數據中學習并作出預測。機器學習中的線性回歸模型可以用公式表示為
(1)
式中,y為因變量,x1為自變量,βi為回歸系數,為誤差項。在聚類分析中,K-means算法是一種常用的方法,其目標是最小化每個數據點與其所屬類別中心點之間的距離平方和,即
(2)
式中,J為聚類的目標函數,表示所有數據點到其所屬類別中心點的距離平方和;K為聚類的數量;Ck為第k個聚類;xi是屬于第k個聚類的數據點;μk為第一個聚類的中心點。在數據分類問題中,邏輯回歸模型也常被使用,其公式可以表示為
(3)
式中,為在給定自變量x的條件下,因變量Y取值為1的概率;為邏輯回歸模型的系數。通過多樣化的數據采集技術,網絡安全態勢感知平臺能夠實時地從不同來源(如網絡流量、系統日志、用戶行為等)抓取與網絡安全相關的數據。數據收集為后續的態勢分析和預警提供了信息基礎。
1.2 網絡安全態勢感知原理
1.2.1 態勢感知模型與算法
在網絡安全態勢感知中,態勢感知模型是核心組成部分,通常基于數據融合、威脅評估、網絡行為分析等技術構建[2]。為全面評估網絡安全狀況,采用基于權重和的綜合評估模型。該模型可以表示為
(4)
式中,S為網絡安全態勢的綜合評估值;wi為第一個安全指標的權重,反映了該指標在整體安全評估中的重要性;si為第i個安全指標的得分或評估值;n為安全指標的總數。模型綜合考慮多個安全指標,能夠給出一個全面的網絡安全態勢評估。每個指標的權重可以根據實際情況進行動態調整,以適應不同的安全需求。算法可以準確地識別網絡中的異常行為和潛在威脅。
1.2.2 實時態勢監測與評估
實時態勢監測要求系統能實時監控網絡流量、系統日志、用戶行為等關鍵信息,及時發現并應對安全威脅。在實時監測過程中,采用機器學習技術來建立正常的行為基線,并據此檢測異常行為,使用基于滑動窗口的異常檢測算法來實時監測網絡流量。該算法可以計算每個時間窗口內的流量統計特征,并與歷史數據進行比較,檢測出異常流量。具體公式可以表示為
(5)
式中,為在時間t的異常得分;為在時間觀測到的流量統計特征值;和分別是到時間t為止觀測到的流量統計特征的均值和標準差。當超過某個預設的閾值時,就認為發生了異常流量。
2. 基于大數據的網絡安全態勢感知平臺設計
2.1 平臺架構設計
基于大數據的網絡安全態勢感知平臺設計包括四個核心層次:數據采集層負責從各種來源自動收集數據;數據存儲與處理層利用分布式存儲技術高效管理海量數據,并進行實時處理;數據分析層運用大數據分析與挖掘技術提取有價值信息;態勢感知與可視化層通過綜合評估模型及實時監測算法,實現網絡安全的全面態勢感知,并將結果以直觀方式展示,以便快速響應決策[3]。基于大數據的網絡安全態勢感知平臺如圖1所示。
2.2 關鍵技術分析
2.2.1 分布式數據采集技術
分布式數據采集技術是構建基于大數據的網絡安全態勢感知平臺的基礎。該技術通過在網絡環境中部署多個數據采集節點,實現對多種數據源的數據監控,不僅提高了數據采集的效率,還保證了數據的完整性。該技術采用了負載均衡、數據壓縮和加密傳輸等策略,有效解決了大規模數據采集過程中可能出現的網絡擁塞、數據丟失等問題。
2.2.2 大數據存儲與計算框架(如Hadoop、Spark)
Hadoop和Spark是當前最流行的大數據框架。Hadoop通過分布式文件系統(HDFS)實現海量數據的可靠存儲,并通過MapReduce編程模型支持大規模數據的并行處理;Spark則提供了更加高效的數據處理引擎,支持內存計算實時分析網絡數據并快速響應安全威脅。
2.2.3 數據流處理與實時分析技術(如Storm、Flink)
框架采用分布式計算架構,能夠并行處理大量數據流,同時提供低延遲和高吞吐量的數據處理能力。通過應用這些技術,網絡安全態勢感知平臺能夠在短時間內對網絡環境進行全面監控,及時發現并響應安全事件[4]。
2.2.4 機器學習算法在態勢感知中的應用
機器學習算法通過應用機器學習算法,讓網絡安全態勢感知平臺自動學習和識別網絡環境中的正常和異常行為模式。使用無監督學習算法對大量網絡數據進行聚類分析,發現異常流量和行為模式;使用監督學習算法對已知的安全威脅進行分類和識別;使用強化學習算法不斷優化態勢感知模型,提高威脅檢測的準確性。
3. 平臺應用與效果評估
3.1 平臺部署與運行環境
基于大數據的網絡安全態勢感知平臺的部署需要考慮服務器硬件、操作系統、大數據框架和網絡環境等多個方面。服務器硬件CPU核心數,≥32核;內存,≥256GB;存儲,≥10TBSSD用于HDFS,≥2TBRAM用于Spark緩存。選擇Linux發行版,如CentOS 7或Ubuntu 18.04 LTS。大數據框架基于Hadoop 3.x,選擇可高速互聯網連接的內部網絡帶寬足夠支持數據實時傳輸。部署完成后,需要配置相應的服務,如HDFS、YARN、ZooKeeper等,并安裝和配置所需的大數據框架和工具。
3.2 應用案例分析
以中國移動四川公司網絡安全態勢感知平臺為例,該平臺采用上述技術架構進行部署。網絡流量需要確定采集范圍,以及采集的具體數據內容。安全事件要定義類型和來源,數據采集環境需要部署數據采集代理或傳感器在網絡中的關鍵位置,以便捕獲所需的流量、日志和事件[5]。讓數據采集設備具有足夠的處理能力來實時捕獲數據,并且配置正確,以避免數據丟失。設置大數據處理集群(如Hadoop、Spark),配置數據流處理框架(如Storm、Flink),以便實時分析網絡流量和日志數據。
測試數據集準備包含正常和異常流量的測試數據集,準備已知的安全事件數據集,用于驗證安全事件處理的準確性。然后,確定實驗的時間周期,如連續幾天或幾周,以收集足夠的數據進行評估。將捕獲的數據導入大數據處理集群,并使用MapReduce、Spark等框架進行處理分析,使用Storm或Flink處理數據流,并計算處理延遲。應用案例數據如表1所示。
3.3 效果評估與優化建議
網絡流量的數據采集量達到每天500GB,且采集延遲不超過1秒,數據處理延遲方面,網絡流量的處理延遲在5秒以內,系統日志的處理延遲在3秒以內,安全事件的處理延遲更是低于1秒。從表中數據可見,網絡流量的異常檢測率高達98%,系統日志的異常檢測率為95%,安全事件的異常檢測率更是達到了100%,平臺異常檢測較為準確。中國移動四川公司網絡安全態勢感知平臺在數據采集效率、數據處理能力和異常檢測準確性方面均表現出色。
隨著數據量的不斷增長,平臺的數據處理能力也將面臨更大的挑戰。建議進一步升級大數據處理集群的硬件和軟件配置,提升用戶對平臺功能和操作的熟練程度,及時解決用戶在使用過程中遇到的困難。
結語
本文通過構建核心層次平臺架構,實現了對網絡安全的全面實時監控,平臺采用分布式數據采集技術,有效提高了數據采集效率與數據完整性。借助Hadoop、Spark等大數據框架,實現了海量數據的高效存儲與實時處理。通過應用機器學習算法,平臺能夠自動學習和識別網絡環境中的異常行為模式,從而大幅提高異常檢測的準確性。
參考文獻:
[1]王帥.大數據背景下網絡安全態勢感知平臺技術分析[J].軟件,2023,44(4): 172-174.
[2]李昶.基于大數據的安全態勢感知系統研究[J].移動信息,2023,45(9):132-134.
[3]李澤慧,徐沛東,鄔陽,等.基于大數據的網絡安全態勢感知平臺應用研究[J].計算機應用與軟件,2023,40(7):337-341.
[4]謝志奇.基于大數據分析的網絡安全態勢感知系統設計與應用[J].網絡安全和信息化,2023(10):115-118.
[5]王可陽.基于大數據技術的網絡安全態勢感知研究[J].科學與信息化,2023(11):46-48.
作者簡介:李靜,碩士研究生,助教,研究方向:網絡安全;通信作者:楊斌,博士研究生,教授,研究方向:醫學大數據。