彭亞非
摘 要:隨著大數據技術在各領域中的應用,大大地減少網絡安全事情的發生率。本文將詳細闡述基于網絡流量元數據的安全大數據分析。
關鍵詞:網絡流量;元數據;大數據分析
近年來,網絡攻擊事件頻繁發生,傳統的安全防御體系難以滿足網絡需要。大數據技術具有用戶追蹤和情報收集的功能,可以通過實時監控網絡的數據歷史,以提高網絡安全,大大地避免網絡攻擊事件的發生,對網絡信息安全領域有著重要的意義。
1 網絡流量分離平臺
現階段大數據分析技術已收到界內所有人的關注,但很多人對于大數據分析的理解始終停留在表面,關于大數據的生成方式一無所知。大數據分析需要大量的數據集作為基礎條件,過小的數據集無法支持大數據分析,對于真實情況不能很好的進行反饋,而這也將失去繼續改進的機會。目前大多數的企業的IT服務對于信息安全方面的要求較高,而本文將提到的網絡流量分流平臺是在網絡交換路由設備的各特性基礎上建立起來的多性能平臺,完全可以滿足當前企業網絡的流量分析,而且由于其實分布式的部署方式,可以使流量線性分流,從而大幅度擴大流量規模,實現信息的實時分離和匯聚,從而提高海量元數據分析的穩定性。
2 元數據的定義、采集和存儲
在傳統主干網中,主要通過實時分析各主干節點路由器傳輸的信息,并挖掘與其相關的歷史信息,迅速發現導致網絡流量連接異常的安全事件,已達到安全監測的目的。例如通過獲取flow信息來源,進行預警,從而借助特定端口的網絡掃描能力,迅速查找流量放大攻擊事件。但隨著網絡攻防和安全防御方法逐漸被人了解,緊靠flow信息的收集已經逐漸不能滿足網絡的安全監測需要。無論是企業網還是校園網,其入侵監測系統主要是根據網絡流量進行信息報警的系統,報警過程產生的大量數據為元數據類型中的一種。但入侵檢測的效果與特征規則庫的更新及質量有直接關系,檢測功能很難作用在未知和新型的安全威脅,而且它具有很強的實效性,一旦沒有捕捉到安全事件,則不會再次檢測。對于商業入侵檢測系統的研究,由于詳細程度較低,且輸出類型較少,所以無法支持研究,對此,通過開源的Snort,以分布式部署的方式,同時運行多個檢測引擎,從而形成大規模的檢測系統,不僅性能較高,且能夠快速進行更新,可控性也有極大的提高[1]。
從網絡流量中可以獲取到非常豐富的各種類型元數據的信息量,而且在很多單位和企業中,就算將所有的數據進行存儲也不會付出超過自身無法承受的代價。通過Web訪問的元數據可以直接檢測不加密的HTTP請求和響應報文;通過FTP訪問的元數據可以直接檢測FTP請求和響應報文;通過域名請求和響應的元數據可以直接檢測DNS協議的Response和Query信息;通過五元組和flow元數據可以直接進行應用層協議分析。當前大多數商業流量控制產品或在審計用戶行為過程中產生的各種類型和格式的元數據都是由Socket或Syslog進行輸出而成的,但考慮到實際的性能,很多時候都是在開源庫和開源軟件的基礎上以滿足10G流量處理的需要而提取的元數據。如今10G流量可以使用分布式部署方式實現大規模流量分析,及本地文件儲存各類元數據的功能[2]。
3 大數據分析平臺
由于大數據分析是對不同的目標和對象進行分析,因而需要使用的分析平臺也就有針對性。使用Hadoop平臺的HDFS文件系統存儲從網絡流量生成的大量元數據,通過HIVE進行對安全關聯數據的挖掘,可以大幅度減少不必要的數據集。當前傳統關系型數據庫包括MySQL、PostgreSQL等,能存儲不同類型的安全事件和相關聯的信息。傳統關系型數據庫具有高實時性查詢功能,能滿足常規數據的實時查詢,Hadoop具有低實時性的查詢功能,可以用于查詢海量數據,兩者有各自的優勢,也有一定的缺點,只有進行互補提高自身的效率,以開通更優質的業務服務。此外,處理數據過程中,對Linux Shell命令組和Python腳本進行合理的運用,也可以促進系統運行效率的提高。
使用大數據分析實驗平臺Hadoop,主要因為其具有24臺物理機節點,可以極大地滿足安全分析的需求。其中存儲計算節點有21個,管理節點有2個,作業提交節點有1個,所有的節點都有配置合適的CPU、內存、SSD硬盤、SATA硬盤,并利用以太網的萬兆流量,將所有節點的網絡進行連接,最后形成大容量的HDFS[3]。
Hadoop在部署軟件過程中使用Cloudera Standard4.8.0版本進行的,且采用CDH4.6.0+IMPALA 1.3.2+SOLR 1.2.0作為系統的組件。MapReduce統計是當前查詢中最常用的軟件,其中應用程序包括SQL語句和HIVE。投入使用后,通過瀏覽器的GUI查詢可以發現其使用效果還存在不穩定的因素,而且為實現自動化的目標,最后還是在命令行界面進行實際的查詢。現階段Hadoop平臺無論是響應應用需求時間還是全部硬件性能都還可以接受,因而索引還沒有通過分區列和壓縮進行優化。當然,目前對Hadoop平臺性能的優化研究并沒有停止,直至查詢效率實現最優化為止。
4 基于挖掘和關聯的大數據分析
前期進行的統計分析是為后續安全分析提供數據,而前期的數據屬于混雜的大數據,不利于后期的分析,因此在前期時需要將大數據轉換成小數據。在這個過程中,首要目標是先要在IP的基礎上建立和形成一系列黑白名單。白名單制能夠自動對前期的網絡流量進行調整,為確保安全分析的效率,它可以提前處理掉許多無用的數據,以便后期的處理分析和存儲。黑名單制能夠根據數據所處的區域,進行鎖定操作,從而對數據的發展和變化趨勢進行跟蹤,從而有效地提高安全監測效率。
部分安全漏洞對網絡的損害極為嚴重,但其發生較為突然,而使用大數據分析后,可以對這種安全事件及時反映,并迅速對安全等級進行測定。多種WebShell和通過網站傳播的木馬在攻擊網絡時都可以從元數據中提取出明顯的特征,利用各種挖掘算法并關聯分析,就能了解投放的人、時間、地點等。網絡攻擊者在制造網絡安全事件后,都會在入侵完主機后消除各種痕跡,但這些痕跡卻早已經被基于網絡流量的元數據記錄下來。不管是哪種攻擊方式,只要入侵過主機,都會有痕跡存在,而元數據則可以將這些痕跡進行還原,了解攻擊方式、地點及時間,從而第一時間追蹤到攻擊者的IP地址。當然并非所有的攻擊都能夠進行實時阻斷,其中必然會有一些忽略,但事后會自動開啟安全應急響應措施進行補救,實用性還是比較高的,而這都是基于元數據的積累上,元數據太少,就可能無法發現攻擊,安全事件就會頻繁發生。隨著網絡安全監測被人熟知,攻擊渠道可能已經不再局限于HTTP協議,還可以用過SSL加密或其它渠道發起高持續性威脅攻擊。現階段的高校還無法完全防御這種攻擊方式,但提取應用層協議存儲和IP流量中的元數據,可以直接分析攻擊方式,就可以實現在攻擊時第一時間發現,并根據痕跡及時進行跟蹤,從而降低或避免損失[4]。
5 結語
網絡安全問題一直是全球都關注的話題,隨著信息技術的發展,網絡攻擊方式越來越多,而傳統安全防御體系也存在防御乏力的現象。大數據技術是基于這種背景下研究出來的新型防御技術,它的主要價值在于分析和跟蹤,通過分析大量的數據,還原安全事件的形成過程,并進行實時跟蹤,對網絡安全領域有著重要的意義。
參考文獻
[1]姜開達,李霄,孫強. 基于網絡流量元數據的安全大數據分析[J]. 信息網絡安全,2014,05:37-40.
[2]付鈺,李洪成,吳曉平,王甲生. 基于大數據分析的APT攻擊檢測研究綜述[J]. 通信學報,2015,11:1-14.
[3]蔡宗慧,郝帥. 基于信息保障技術框架網絡安全技術整合及應用研究[J]. 電腦編程技巧與維護,2016,13:89-90.
[4]莊懷東,杜慶偉. 一種基于SDN的數據中心網絡動態流量調度方法[J]. 計算機與現代化,2016,07:80-86.