張朝陽
(中國通信建設集團設計院有限公司第四分公司,鄭州 450000)
隨著科學技術的發展,信息安全顯得尤為重要。一般的信息安全系統采用日志存儲的方式進行分析,留存數據,占用空間大,存儲量大不利于系統運行。將大數據技術運用到信息安全系統中,有利于數據分析,提高管理數據的效率,實現對數據的快速訪問。
大數據處理中“云計算”具有非常重要的地位,云計算一般分為三個層次,IaaS、PaaS、SaaS,也就是基礎設施即服務,平臺即服務,軟件即服務。各個行業巨頭都采用云計算服務,可以說大數據技術的基礎平臺就是云計算,這樣可以快速處理數據信息。
在數據挖掘、人工智能、數據分析等領域都運用大數據中的MapReduce技術。MapReduce技術是分布式并行處理技術,其主要思想是將自動分割要執行的問題拆分成map(映射)和reduce(化簡)的方式,Map、reduce是該系統中非常重要的兩個部分,MapReduce技術的思想就是分而治之,也就是需要將采集的數據進行分割數據源,然后每部分內容建立對應值,在不同map區進行處理,過程中將會具有相同值的集合發送給Reduce。數據被分割后通過Map函數的程序將數據映射成不同的區塊,分配給計算機集群中不同的處理節點并行處理,從而達到分布式運算的效果。該技術可以并行處理數據,是大數據處理的關鍵技術。
HDFS是HadoopFileSystem的簡稱,即分布式文件系統。HDFS是大數據處理的平臺,通過將多臺服務器池化,形成集群形式,統一處理海量數據。
通過信息安全系統將數據上傳到HDFS,將數據采集、數據入HDFS、數據清洗(Spark、Hive)、數據分析、分析結果。利用大數據平臺的技術進行處理分析信息安全傳輸的數據。
(1)數據入HDFS
數據收集后,進入HDFS系統。
(2)數據清洗
清洗數據,將數據整理成統一格式,方便管理。根據實際數據的時間戳(文件中的時間戳字段),將數據按機房、日、小時、5分鐘粒度分區,保存到相應的HDFS目錄。采用Spark+Hive框架。
(3)數據分析
以Spark作為計算框架,分析數據。通過對活躍資源統計,按小時和日生成活躍資源的數據,使用Spark讀取清洗后的文件統計分析。
信息安全系統分為數據采集及數據分析兩個模塊。如圖1所示:

圖1 信息安全系統結構
數據采集是將IDC數據分流經過采集服務器,對分流過程中的數據進行過濾保存。經過鏈路傳輸到大數據分析平臺,利用HDFS平臺對數據日志進行大數據處理,留存時間長達半年。通過運用大數據技術,主要解決以下問題:第一、解決信息安全系統數據存儲問題,例如用戶信息,日志,地址信息等海量數據。通過大數據結束能夠有效解決和處理數據存儲問題。建立虛擬存儲結構,定期優化冗余資源。第二、提供大數據級別算法處理,提供機器學習,數據挖掘等技術解決問題。
隨著信息安全系統的更新迭代,大數據技術的發展,越來越多的新技術會運用到信息安全系統中。信息安全存儲形式的變化,數據處理方式的改進都是未來的方向。信息安全系統對社會的發展起著重要作用,當今社會越來越注重安全保護及隱私問題,運用大數據技術,實現安全服務。