徐涌霞 淮北職業技術學院
高校信息化進程在快速推進,各種攻擊事件的發生,使學校的信息安全受到極大的威脅,提高校園網的入侵防護能力就顯得尤為重要。學校加強校園網的安全預警及監測能力,具體采用的安全防護機制有WAF、防火墻、防病毒軟件等,與國家信息安全等級保護要求相比還差很多。首先,對日志的采集及存儲能力不足,日志分布在不同的服務器上,黑客入侵服務器后很容易造成日志的丟失。其次,沒有對龐大的日志信息進行挖掘和系統的分析,更沒有充分發揮日志的安全價值。雖然校園網采用了Web入侵檢測系統,各個網站攻擊事件仍時有發生。對Web日志進行系統分析及挖掘可以大大提升校園網的安全防護功能。
根據校園網的實際環境設計出了校園網Web日志安全事件挖掘系統;該系統針對攻擊方式進行深入研究后,提出了基于Hadoop集群的三種安全事件挖掘方法,解決無法采用傳統方式對龐大日志進行挖掘的問題。充分展現了日志的安全價值,為提升校園網安全防護提供極其重要的參考。系統功能模塊有校園網流量采集模塊、安全事件挖掘模塊、安全事件統計模塊及可視化模塊。
很多的互聯網公司都采用分布式Agent技術來采集Web日志,由于校園網服務器眾多,且分布比較分散,采集的日志不完整,Web日志格式不統一等特殊性,對校園網日志的采集采用Agent技術并不可行。引入了一種新的流量采集方式,首先從IDC出入口采集用戶訪問IDC的流量,然后再通過對流量的解析獲取Web日志,它并不從各主機上獲取Web日志而是從IDC出入口還原出Web日志。這種采集方式從出入口流量中得到入侵者的訪問痕跡;且能避免從各臺服務器采集數據,統一獲取到校內所有網站的訪問日志;在采集過程中就可以統一格式,省去了各式轉換的步驟。
Web日志中包含了豐富的用戶訪問信息,很多的互聯網公司都是通過Web使用數據分析用戶們的愛好、及各種行為。同時Web日志也包含著很多的攻擊行為。那么從Web日志中挖掘網站掃描、目錄遍歷攻擊、SQL注入攻擊、掛馬網站及XSS攻擊。然后分析這些攻擊事件的攻擊特點,從而提出相應的挖掘方法。
校園網WAF會利用規則庫對SQL注入攻擊、目錄遍歷攻擊以及XSS攻擊等多種攻擊形式進行檢測,由于很多高校的WAF,只掃描特定端口的流量,所以無法覆蓋全部的網站和域名.對以上攻擊方式的攻擊特征進行研究,總結出XSS攻擊的主要關鍵字、SQL注入攻擊的關鍵字及目錄遍歷攻擊的主要關鍵字。根據各關鍵字本文制定了對于WAF來說較為寬松的正則表達式,使紀錄的匹配程度更高,有效防止錯過可疑的攻擊。針對以上的攻擊方式,具體的挖掘步驟為:首先對日志進行預處理,從中截取所有HTTP請求的URL字段;然后逐行讀取URL,與庫中全部正則表達式進行匹配,若匹配成功則記錄下URL與對應的攻擊類型。
掛馬網站挖掘的總體思路是特征匹配,通常會建立特征庫來與網頁木馬的請求進行匹配。本文通過截取訪問公網的HTTP日志,從中獲取URL,然后與網頁木馬特征庫進行匹配,若匹配成功,則記錄該HTTP請求的Referer字段,該字段就記錄了校園網可疑掛馬網站。
目錄掃描工具最大的特點是會按照特定的URL庫向服務器發出連續的請求,由于大量請求目標網站根本不存在的路徑,服務器就會返回很多的404狀態碼,基于以上特點,提出網站掃描的基本挖掘思路及步驟:首先統計在單位時間段內每一個IP所產生的404狀態碼及狀態碼在該Ip請求總量中所占比例。其次利用聚類算法K-Means對前面處理得到的數據進行聚類,由于數據之間存在著太大的差異,采用歐式距離是不行的,采用馬氏距離來完成聚類。最后利用聚類的結果,找出404數量大、比例高的一類IP,就是惡意掃描的IP,然后將此類IP加入黑名單。
網絡管理員要了解校園網所遭受攻擊的實際狀況,需要對校園網所遭受的攻擊類型、攻擊者的地理位置以及攻擊次數進行詳細統計。
根據前面各模塊的挖掘結果,分別設置三個變量代表三種攻擊類型的攻擊次數,從挖掘結果中逐行讀取記錄,分析攻擊類型并給對應的變量加一,最終統計出每一種攻擊類型的攻擊次數。對網站掃描模塊的挖掘結果,則會把黑名單中IP的個數設為攻擊次數,讀取掛馬網站的挖掘結果,統計可疑的掛馬網站的數量。
目前在全球企業應用較為廣泛的MaxMind GerIP2服務能較為準確識別用戶IP的特征及地理位置。所以本系統中就用MaxMind GerIP2所提供的GeoLite2版本,數據庫文件為mmdb格式。
本模塊需要利用Sqoop工具將存放Web安全事件統計及挖掘結果的HDFS中的數據導入到關系數據庫Oralce當中。然后利用Web頁面完成以下幾個模塊的設計:
本系統通過JDBC連接Hive,搭建Web頁面同時設置SQL輸入框,當有安全事件發生時,網絡管理員能快速定位到可疑日志,同時在Web頁面上方便地輸入SQL語句來對可疑日志進行查詢,分析入侵者的具體攻擊過程,就能對校園網存在的安全漏洞進行修復。
攻擊挖掘結果以Web形式展示給網絡管理員,這樣管理員可直觀從挖掘結果及時了解到校園網遭受攻擊的網站,從而對安全隱患較多的網站進行整改。
本系統利用柱狀圖展示各種攻擊對校園網的攻擊次數,利用餅形圖展示入侵者的地理位置分布,這樣網絡管理員就可以直觀了解學校所遭受的攻擊情況,并且可以隨時通過該模塊來驗證校園網實施的新防護措施的有效性。
深入研究Web日志采集分析的需求,對校園網的安全建設進行了系統的分析,設計出校園網Web日志安全事件挖掘系統,該系統包含四個主要模塊。為了解決校園網日志采集存儲能力不足的問題,針對性地提出了一種全新的流量采集方式,同時搭建Hadoop集群來完成日志的存儲,為安全事件的分析奠定了良好的基礎。