黨會博


摘? ?要:當前網絡安全問題日益嚴峻,將大數據技術應用在網絡安全事件自動分析與深度挖掘中,可以提高網絡安全事件的分析效率,文章主要分析了網絡安全事件中的大數據自動分析技術、深度挖掘的相關流程及注意事項,期望提升大數據技術對網絡安全與深度挖掘的支撐能力。
關鍵詞:大數據技術;網絡安全;深度挖掘
隨著網絡技術的發展,網絡安全事件的發生日益頻繁,已經從個人蔓延到了金融、通信等多個領域,如2019年發生的澳大利亞維多利亞州政府3萬名雇員個人信息外泄事件、萬豪酒店5億客戶數據泄漏事件、10多款IOS應用被發現與安全惡意軟件有染、德國數百名政客私人信息泄漏事件、安全傳輸層(Transport Layer Security,TLS)1.2協議現漏洞,印度國有天然氣公司泄露了數百萬客戶的敏感信息、俄羅斯50多家大型企業遭到未知攻擊者勒索等,造成了嚴重的不良后果,因此,應該加強對網絡安全事件的研究,降低網絡安全事件的發生率。
當前的網絡安全事件具有趨利性、隱蔽性和廣泛性等,網絡安全問題正在成為一個大數據分析的問題,因此,應該應用大數據技術加強對網絡安全事件的分析和檢索,以快速、實時洞悉網絡安全事件的發生,及時做出響應和判斷。
1? ? 網絡安全事件大數據自動分析技術
1.1? 大數據處理技術
在對網絡安全事件進行分析時,需要應用大數據處理技術,對網絡安全數據進行批量計算和流式計算等,具體分析如下:(1)批量數據處理技術。批量數據處理技術的示意如圖1所示,計算之前先對數據進行存儲,之后進行存儲數據的集中計算,由于吞吐計算量大,通常應用在網絡安全事件中的技術包括高級持續性威脅(Advanced Persistent Threat,APT)檢測、欺詐檢測、網絡安全日志分析、網絡全流量分析等,處理過程中應用的典型的大數據處理架構為Hadoop,Apache Spark。(2)流式數據處理技術。該技術是一種實時、高效的數據處理方法,可以在內存中直接進行流式數據的實時計算,處理效率非常高,處理時間為數百毫秒到數秒。數據處理中應用的典型架構為Twitter的Storm,Storm適用于處理網絡會話流還原或流匯聚;Apache Spark中的Spark Streaming,具有一定的延時,實現數據的分批處理。(3)交互式數據查詢技術。在對網絡安全事件進行分析時,主要強調以人作為安全分析的主體和需求主體,而大數據交互查詢技術基于NoSQL類型的數據存儲構建數據索引目錄進行交互式查詢,查詢時間為數十秒到數分鐘,處理靈活,為網絡安全分析提供了技術支撐,在網絡安全事件交互查詢處理中,應用的典型系統為Google的Dremel系統、Apache Spark系統。
1.2? 大數據安全分析技術
大數據安全分析技術主要包括安全可視分析技術、安全事件關聯分析技術、用戶行為分析技術。安全可視分析技術當前為網絡安全研究的新興領域,該技術將網絡安全數據以圖像的形式表現出來,借助人的視覺能力幫助分析人員及時發現和感知網絡安全問題,分析過程中常用到大規模網絡處理與大規模圖形數據處理、多視圖協同分析技術等,但是該技術當前還不太成熟,應用較多的架構為基于Web的視覺分析應用程序NVisAware和基于Spark的網絡安全態勢可視化工具NStreamAware。安全事件關聯分析技術需要實現不同網絡安全事件的關聯,找出這些事件之間的聯系,以便及時發現入侵者的行為。主要的安全事件關聯分析方法為網絡和主機關聯分析、攻擊步驟關聯分析、安全設備報警關聯分析、不同領域安全事件關聯分析等[1]。用戶行為分析技術是當前應用的IT安全行業防止黑客攻擊的新技術,用戶在應用網絡時會留下審計跟蹤記錄、網絡流量等,通過對這些用戶信息的收集和處理,可以得到用戶行為基準線,而應用用戶行為分析技術可以更加準確地識別除了用戶以外的其他威脅網絡安全的實體,關注網絡流量異常和偏離正常操作的行為,用來保護計算機不受到內部和外部等其他威脅,用戶行為分析過程中應用的大數據技術為時序數據挖掘分析技術、聚類分析技術、關聯規則分析技術等。
2? ? 大數據對網絡安全事件的深度挖掘流程
網絡安全信息深度挖掘是對信息進行從屬關系、學科性質及層次關系的組織,實現信息分類匯總的過程,數據對網絡安全事件的深度挖掘流程包括數據采集存儲、數據清洗處理、數據分析挖掘、數據交換共享等[2]。
2.1? 數據采集存儲
網絡安全事件的數據采集分析主要采用集中式采集和分布式采集兩種方法,數據采集是數據分析和處理的基礎,存儲時需要根據大數據平臺的相關要求將數據轉換成非結構化數據,數據存儲時在滿足存儲要求的同時需要從成本角度選擇適宜的存儲架構,如采用基于“廉價PC服務器+大容量SATA硬盤”為主的分布式存儲架構。
2.2? 數據處理
網絡安全數據采集之后,在進行大數據分析之前,還需要進行處理,包括網絡安全數據導入、歸納整理等。數據導入主要有人工錄入數據、網站上的靜態數據鏈接、動態數據鏈接等,數據的歸納整理采用萃取、轉置、加載(Extract-Transform-Load,ETL)工具,根據定義好的關聯規則將目標數據抽提到數據庫。
2.3? 數據深度挖掘
網絡安全事件的數據分析包括結構化和非結構化數據的處理,需要采用相關算法對數據深度挖掘分析,包括神經網絡算法、聚類算法、Adam算法、基于內容的協同過濾算法等,本文主要分析深度神經網絡算法和基于內容的協同過濾算法[3]。
2.3.1? 深度神經網絡算法
深度神經網絡算法的具體流程如下:首先,將網絡用戶的行為特征映射為高維空間,以此作為神經網絡的輸入。其次,根據用戶的點擊行為記錄作為訓練樣本對網絡模型參數進行訓練,提取用戶信息,計算用戶與用戶正常行為的相關性,以此作為網絡異常行為的評分依據。
具體如下:假設x,y分別代表輸入向量和輸出向量,神經網絡中的隱含層用hi代表,i=1,2,...,N-1,Wi代表神經網絡中第i層的權重矩陣,bi表示第i層的偏置。則有以下公式:
其中,f(x)表示激活函數,在本文中用tanh作為隱藏層和輸出層的激活函數。其具體公式如下:
最后,計算用戶U和用戶正常行為數據集V的語義相關性大小R(U,V),計算公式如下:
其中,yU為經過分析提取后的用戶信息,yV為經過分析之后的用戶正常行為數據集的分布式向量,對二者進行相關性評分,并根據評分從大到小進行依次排列,發現異常行為反饋給網絡安全事件分析者。
2.3.2? 基于內容的協同過濾算法
基于內容的協同過濾算法可以根據用戶行為庫,確定與用戶的行為差異較大的客戶端,及時鎖定異常行為,采用基于內容的協同過濾算法,必須為每位用戶建立行為相似度矩陣。
3? ? 網絡安全事件自動分析與深度挖掘的注意事項
大數據技術在網絡安全事件自動分析與深度挖掘中的應用,還需要注意相關的問題,如建立網絡安全事件的數據資源體系、應用保密技術等,具體論述如下:(1)實時更新以大數據技術為核心的數據資源體系,為網絡事件的安全分析提供數據基礎,不斷擴大網絡安全事件數據分析的數據總量,完善數據分類,加強不同類型的網絡安全數據的收集。(2)建立構建以人為本的用戶關系管理,使得網絡安全相關數據內在關聯得以深度挖掘。利用大數據技術可以實時掌握用戶的日常行為數據,并且挖掘這些數據的內在深度關聯,實現用戶的興趣、習慣等分析,產生用戶動態鏈接列表,便于及時發現異常行為。(3)在應用大數據進行網絡事件分析時注重保護數據隱私安全,使用保護數據隱私的數據挖掘方法。(4)不斷應用新的“智慧”技術,隨著智慧服務理念的提出,大數據技術也應該與時俱進,與物聯網技術等結合,實現網絡安全信息的深度挖掘,將與網絡安全相關的各種數據進行融合匯總,利用智慧服務理念實現隱性知識的顯性化,構建網絡安全事件分析智慧空間。
4? ? 結語
隨著大數據技術的發展,它的應用范圍在不斷擴大,應用效果也在不斷提升,因此,將其應用在網絡安全自動分析和深度挖掘中將會是一種趨勢,以提高網絡安全事件的分析效率、降低網絡安全事件的發生率。同時,大數據技術的應用促進了網絡安全管理的模式轉變,可以綜合、及時地感知網絡安全信息,遏制網絡攻擊,提升大數據技術對網絡安全與深度挖掘的支撐能力。
[參考文獻]
[1]陳興蜀,曾雪梅,王文賢,等.基于大數據的網絡安全與情報分析[J].工程科學與技術,2017(3):1-12.
[2]張文元,張倩.大數據技術與檔案數據挖掘[J].檔案管理,2016(2):33-35.
[3]李玉平.大數據時代下的網絡安全問題研究[J].中國新通信,2017(2):50.