摘 要:入侵檢測系統為網絡安全檢測提供重要技術支撐,實現動態監控網絡,彌補防火墻靜態監控的不足,是網絡安全的最后一道屏障。綜述了入侵檢測方法的研究背景、研究意義、國內外研究現狀以及目前所面臨的主要問題,試圖為這個熱點研究方向勾畫出一個較為全面和清晰的路線,為網絡安全、數據挖掘、智能學習等相關領域的研究者提供有益的參考。
關鍵詞:入侵檢測;異常檢測;多尺度
中圖分類號:TP393.08 文獻標識碼:A 文章編號:1674-7712 (2014) 06-0000-01
一、網絡安全現狀
2012年,CNNIC調查發現,有84.8%的網民遇到過信息安全事件,總人數為4.56億,平均每人遇到2.4類信息安全事件。垃圾短信和手機騷擾電話發生比例最高,分別有68.3%和56.5%的網民遇到過,其它事件比例分別為:欺詐誘騙信息(38.2%)、中病毒或木馬(23.1%)、假冒網站(17.6%)、賬號或密碼被盜(13.8%)、手機惡意軟件(10.6%)、個人信息泄露(7.1%)。網絡信息安全和信任問題已經成為電子商務深層次發展的最大制約因素,互聯網向商務交易型應用的發展,急需建立更加可信、可靠的網絡環境。
分析網絡流量行為,發現隱藏的入侵異常或可疑事件具有現實意義。研究人員也針對此提出了大量入侵檢測方法。本文對近年來各類檢測方法做了總結,旨在為入侵檢測領域研究人員提供技術路線。
二、入侵檢測方法概述
入侵檢測過程通常分為兩個階段:訓練階段和測試階段。前者是通過訓練建立正常流量輪廓;后者將學習到的輪廓應用到測試數據中。對網絡入侵檢測深入研究,研究人員提出了很多的方法,將其分為時域檢測方法(temporal analysis)和空域關聯方法(spatial correlation);本文按照它們所采用的技術不同考慮分為基于統計分析的方法、基于機器學習的方法和基于數據挖掘的方法。
為了消除入侵檢測系統檢測過程中的人工干預,研究人員逐漸借助于數據挖掘技術。Grossman將數據挖掘定義為“致力于發現數據中的模式,關聯,變化,異常,統計意義下的顯著結構和事件。”數據挖掘是將數據作為輸入,從中發現隱藏的模式或者偏離現象。通過建立正常網絡行為的界限,數據挖掘能夠從網絡的流量中識別攻擊行為。
(一)基于分類的入侵檢測系統
基于一組規則,模式或者其它一些方法將審計數據分為正常和異常的系統稱為基于分類的入侵檢測系統。典型的分類過程有以下步驟:(1)標出類屬性,將訓練數據分類;(2)從訓練數據中學習一個模式;(3)用學習到的模式標識未知數據抽樣序列。
分類方法有很多,主要包括模糊邏輯,遺傳算法和神經網絡。
模糊邏輯(Fuzzy Logic)技術早在上世紀九十年代就已用于計算機和網絡安全領域。模糊邏輯用于入侵檢測主要有兩個重要原因。首先,入侵檢測系統中使用的一些量化參數,例如,CPU使用率,通聯間隔等都是一些模糊變量。其次,正如Bridges等所述,安全的概念本身就是一個模糊問題。Dickerson等開發出了模糊入侵識別引擎(Fuzzy Intrusion Recognition Engine, FIRE) 使用模糊集和模糊規則。
遺傳算法(Genetic Algorithm, GA),作為搜索技術,被廣泛應用于尋找優化和搜索問題的估計方法,已經擴展到入侵檢測領域。使用遺傳算法選擇合適的特征或確定相關函數的優化參數,再使用不同的數據挖掘技術獲得規則。Crosbie等在1995年最早將遺傳算法應用于入侵檢測中,采用分布在網絡中的多個探針收集數據。該方法的優點是采用分布式探針監控各種網絡參數,但是對內在探針通信機制和冗長的訓練過程等問題沒有解決。
神經網絡也是入侵檢測領域經常采用的技術。Ramadas等采用自組織映射(Self Organizing Maps)模型開發出了ANDSOM檢測網絡流量異常。ANDSOM是基于網絡的入侵檢測系統INBOUNDS的入侵檢測模塊,由俄亥俄州立大學開發。ANDSOM模塊對每一被監控網絡的服務產生二維SOM,并采用DNS和HTTP服務進行了性能測試。神經元在訓練階段由正常網絡流量訓練得到特征模式。當實時網絡數據輸入到訓練后的神經元時,如果輸入流量與模式的距離超過預設的門限觸發異常告警。
入侵檢測方案也采用了其它諸如支持向量機(Support Vector Machine, SVM)等其它模型的數據挖掘技術。提出了一種有監督局部決策分層支持向量機的異常檢測方法以及使用SVM技術實現的分類入侵檢測系統。
(二)基于聚類的偏離點檢測
聚類(Cluster)是發現多維數據中的未簽名模式。聚類方法是入侵檢測領域的研究人員感興趣的方向之一,其主要優點是提供了一種在無監督的情況下,從審計數據中學習并檢測異常類型的能力,不需要管理人員輸入主觀數據。因此,訓練入侵檢測系統的數據也減少了。聚類和偏離點檢測是密切相關的。從聚類算法的角度看,偏離點檢測是數據集中沒有被聚類的對象點。統計學領域對偏離點的概念研究是相當成熟的。在這些研究中,數據點被建模成隨機分布,并根據其與模型的關系判決是不是偏離點。然而,隨著維數的增加,精確估計數據點的多維分布越來越困難。部分偏離點檢測算法都是基于點之間距離和局部相鄰點的密度而展開的。
MINDS(Minnesota Intrusion Detection System)入侵檢測模塊將異常度分配給每個點,稱為局部偏離點(Local Outlier Factor,LOF)。LOF根據當前觀察點的臨近區域的點密度識別偏離點。偏離點是那些有較大LOF值的點。LOF算法的優點是能夠檢測任何形式的異常,包括那些不能被基于距離的算法檢測到的異常。
參考文獻:
[1]伍海波,陶滔.入侵檢測系統研究綜述[J].網絡安全技術與應用,2008(02).
[2]曹志峰.自組織映射網絡的應用與探討[J].太原師范學院學報(自然科學版),2007(03).