◆尚智婕 李雨泰 董希杰
?
網絡流量元數據下的安全大數據探索
◆尚智婕 李雨泰 董希杰
(國家電網公司信息通信分公司 北京 100761)
大數據是當前社會發展的高新技術,它在網絡安全領域的應用價值也在不斷凸顯。本文將從網絡信息安全保護的角度出發,科學分析網絡流量元數據背景下網絡流量分流平臺的構建過程與元數據的處理過程。同時重點探討安全大數據分析平臺中大數據挖掘與關聯的技術應用。
大數據;元數據;網絡流量分流平臺;大數據;安全;挖掘技術
2013年,美國“棱鏡事件”轟動世界,美國政府的多個秘密情報監視項目全面曝光了英美各國通過大量網絡通信元數據實施用戶跟蹤與情報搜集的隱藏內幕。雖然美國政府聲稱這一行為主要是為了國家網絡安全及反恐現實的需要,但它也讓全世界公眾深刻了解到在大數據技術背景下網絡流量元數據的密保脆弱性。從此以后,各個國家都開始進一步強化自身的國家信息安全防護體系。
1.1網絡流量分流平臺的建設過程
大數據是當前社會發展的前衛技術,但是令人困惑的卻是大數據的主要來源,過小的大數據集合無法反應真實的網絡信息分析狀況,也無法通過信息數據驗證來獲取良好的反饋結果。以我國上海某高校為例,它的網絡信息平臺每天都要為數萬名師生提供專業IT服務內容,學校中擁有信息安全需求的用戶單位也不計其數,在這種背景下,基于網絡交換路由設備的Miroor、PBR、Multicast技術應用就成為關鍵。為此,應該為高校構建基于高性能的網絡流量分流平臺,滿足校園中校園網的大規模高流量分析需求,主要來講,就是基于分布式部署策略來展開技術操作,從原有的10G規模線性擴容到100G以上流量,實現網絡流量的有效匯聚與分流過程,即對海量元數據的大數據體系形成,為校園內部提供穩定的網絡流量支撐,保持校園網技術穩定發揮。
從專業角度來講,網絡流量分流平臺相對靈活,能夠實現交換機端口級別的一對多、多對一、多對多網絡流量復制過程,滿足不同應用業務系統操作過程,例如對病毒入侵檢測系統、緩存加速系統、應用層安全審計系統等等的網絡流量源頭監控。在網絡流量復制過程中,也基于ACL(Access Control List)訪問控制列表來實施五元組級別與簡單協議的流量過濾過程,最終降低網絡流量分流平臺的業務系統負載。如此一來,校園內就可以實現多條10G高負載鏈路流量與多條1G低負載鏈路流量的有效轉換,實現了多路負載均衡,對提高網絡流量分流平臺的數據整體處理能力具有極大促進作用。另外,像交換機堆疊技術也能夠實現上述技術操作,且同時迅速擴展斷口數量,為校園網中現有的10G鏈路與未來的100G鏈路提供更強信息處理能力[1]。
1.2元數據的處理技術分析
傳統主干網絡的安全監測系統主要圍繞主干節點路由器來提供諸如NetFlow輸出信息,監測系統會針對數據實施全時段分析與關聯歷史信息挖掘,并將網絡流量體系中所存在的異常連接篩選出來,根據數據信息統計結果來迅速發現存在于元數據中的安全問題,例如以DDoS類型為主的Flood攻擊等等。所以在元數據的存儲采集前應該特別針對特定斷口進行大范圍網絡掃描,并配合開放式遞歸DNS和NTP來查詢網絡流量分流平臺中可能存在的流量放大攻擊不良事件,配合flow信息來源進行及時預警。不過從技術嚴謹的角度來講,僅僅依靠抽樣獲取flow信息的做法對網絡流量分流平臺的安全監測還并不到位也不夠完整,需要進行進一步優化調整。
為了滿足未來100G網絡流量目標,應該試試分布式網絡架構,構建開源庫及開源軟件來實現高速網絡流量的元數據提取過程,并從中抽取預各類元數據來存儲到本地文件中。這里以HTTP類型元數據文件為例,如果從安全分析角度考量,應該為現實用戶構建以下網絡流量元數據模型,例如POST類型,它的格式應該為:
時間|域名URL(去除域名)|發送類型|發送字節|Referer|用戶IP|用戶斷口|服務器IP|服務器斷口|User-Agent。
以校園網為例,它的具體計算模型示例應該如下:
時間|welcome.sjtu.edu.cn|/jdyx/member/login.php? action=checkandlogin|
由于校園網擁有數千個Web應用信息系統,所以它應該采用基于不同院系、不同分支校區、不同實驗室和教室樓來實現分布式架構,為每一臺服務器都安裝Agent以記錄收集網站中的訪問信息日志。如此,可以考慮為校園網便捷出口單獨設立Web信息系統網絡流量分流功能,圍繞應用層展開流量分析,并還原主機上所有Web訪問日志,以達到統一校內網站HTTP訪問日志形式元數據的目的。同時,它也能避免某些校園網系統數據被入侵后導致數據日志被誤刪除或直接丟失。而對于某些少數HTTPS類型加密網絡流量,如果他們擁有網絡流量分流認證證書,就可以通過網絡流量途徑來還原相應通訊內容,或者通過主機日志系統來滿足安全審計分析需要,采集和存儲元數據。
當前高校校園網網絡流量元數據較多,如果以全部網絡流信息作為元數據,它就應該包括五元組中的所有數據,如此計算每天整個學校的網絡流量記錄都要超過5億條,每月流量可以達到百億量級,所以說這對校園元數據采集、存儲以及安全挖掘都會帶來較大壓力,以下給出基于網絡流量的基礎元數據格式,如表1[2]。
表1網絡流量的基本元數據格式范例表

為了迎合大數據技術時代的海量信息存儲與處理,應該考慮為校園、企業等建立基于網絡流量元數據背景下的安全大數據平臺,展開對大數據的挖掘與關聯技術分析,實現在前期主動調整網絡流量,選擇性清除許多對大數據安全分析毫無意義的冗余數據。
據目前來看,對某些組織結構的區域性突發性重大安全漏洞,可以采用大數據分析來給出安全預警及安全評估范圍,像校園網也基于Java框架構建了多個應用信息系統,并為校園網中所涉及的數千個網站構建Struts2開發框架,并基于HIVE查詢技術與HTTP訪問技術來對元數據中所存在的URL特殊字段(如.do、.action)配合Shell腳本分析。在這里,安全大數據平臺還運用到了Python腳本配合所對應的系統漏洞POC展開網站快速掃描,判定反饋結果中有多少會受到系統及外界影響,根據結果作出合理調整。當前擁有高持續性威脅的APT攻擊并不僅僅局限于HTTP協議,它還能通過SSL加密與其它隱藏隧道來展開通訊技術流程,從各個角度來威脅企業及高效資源數據庫,而就校園網方面來說,他們在針對這種不對稱的APT攻擊還能力有限,無法基于IP流與部分關鍵應用層協議進行針對性分析,對元數據的分析與存儲技術發揮也變得有限,但它能夠在外界病毒攻擊早期階段就發現它們,通過協調資源來降低系統損失,追蹤并還原攻擊歷史過程,對APT攻擊形成限制,非常有效[3]。
在大數據時代,互聯網被外部環境安全事件及安全風險威脅在所難免,所以無論是企業還是校園等公共組織場合都要做好基于網絡流量元數據背景下的安全大數據防護探索,合理冷靜地應對大數據安全攻防過程,通過對元數據的快速評估找出網絡安全中所存在的薄弱點,巧妙應用大數據平臺,提高自動化智能異常計算能力,完善平臺威脅的可視化呈現技術,最終實現對不同類型數據的有效挖掘與關聯性分析過程。
[1]姜開達,李霄,孫強等.基于網絡流量元數據的安全大數據分析[J].信息網絡安全,2014.
[2]張丁.試析基于網絡流量元數據的安全大數據分析[J].數字通信世界,2016.
[3]蒲以國.基于網絡數據分析的失泄密檢測[D].中國科學院大學,2013.