摘要:基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)由于引入了數(shù)據(jù)挖掘技術(shù),很好的解決了傳統(tǒng)入侵檢測(cè)系統(tǒng)中自適應(yīng)性和擴(kuò)展性的問(wèn)題。在數(shù)據(jù)挖掘中,聚類分析和分類分析是重要的技術(shù),該文將這兩種技術(shù)引入入侵檢測(cè)模型,提出了一種基于聚類的分類分析自適應(yīng)入侵檢測(cè)模型。
關(guān)鍵詞:數(shù)據(jù)挖掘;入侵檢測(cè);分類;聚類
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)25-7101-02
Adaptive Model of IDS with Classification Based on Clustering
LIAO Ming-xing
(Hubei University, Wuhan 430062, China)
Abstract: Intrusion detection system based on data mining solves the problems about adaptability and extensibility in traditional intrusion detection system because of the data mining technology. Clustering and classification are important technologies in data mining. This paper introduces them in IDS and presents an adaptive model of IDS with classification based on clustering.
Key words: data mining; intrusion detection; classification; clustering
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與網(wǎng)絡(luò)規(guī)模的高速發(fā)展,網(wǎng)絡(luò)應(yīng)用在人們的工作學(xué)習(xí)中顯得越來(lái)越重要,而與此同時(shí),網(wǎng)絡(luò)遭受入侵和破壞的頻率也日益增大。為了保護(hù)網(wǎng)絡(luò)上信息的完整和安全,我們必須建立健壯安全的網(wǎng)絡(luò)體系,這也是我們必須關(guān)注的一個(gè)問(wèn)題。傳統(tǒng)上,網(wǎng)絡(luò)用戶使用防火墻作為第一道防線來(lái)保護(hù)計(jì)算機(jī)網(wǎng)絡(luò)的安全,但是由于攻擊手段的多變復(fù)雜,加上防火墻的缺陷和處于網(wǎng)絡(luò)的明處,防火墻很難抵擋各式各樣的攻擊入侵,不能滿足一些對(duì)網(wǎng)絡(luò)安全有著高要求的需求。這種情況下,入侵檢測(cè)系統(tǒng)就成為了安全市場(chǎng)上的熱點(diǎn),它作為繼防火墻之后的第二道安全措施,監(jiān)控系統(tǒng)與網(wǎng)絡(luò)的狀態(tài),承擔(dān)起發(fā)現(xiàn)識(shí)別入侵行為,采取有效措施保護(hù)系統(tǒng)和網(wǎng)絡(luò)安全的重要任務(wù)。
1 入侵檢測(cè)系統(tǒng)
入侵檢測(cè)系統(tǒng)(Intrusion Detection System, IDS)是軟件與硬件相結(jié)合的系統(tǒng),它進(jìn)行主動(dòng)的安全防御,對(duì)系統(tǒng)和網(wǎng)絡(luò)的狀態(tài)進(jìn)行監(jiān)視,分析一些關(guān)鍵點(diǎn)的信息,發(fā)現(xiàn)外部攻擊者的非法入侵行跡和系統(tǒng)內(nèi)部用戶的不合理使用。目前,按照檢測(cè)方法的不同,可以分為異常檢測(cè)(Anomaly Detection)與誤用檢測(cè)(Misuse Detection)。異常檢測(cè)是總結(jié)用戶正常情況下的操作特征和對(duì)資源的使用情況,將其提取為正常模式存儲(chǔ)在知識(shí)庫(kù)中,然后將待檢查的行為與其比較,如偏差超過(guò)設(shè)定的閾值,說(shuō)明出現(xiàn)了異常。誤用檢測(cè)是總結(jié)入侵攻擊行為模式存儲(chǔ)于特征庫(kù),然后用匹配的方法將待檢測(cè)數(shù)據(jù)與特征庫(kù)中的模式匹配,若有匹配的模式出現(xiàn),則說(shuō)明有入侵。前者可檢測(cè)出各種攻擊,包含從未出現(xiàn)的攻擊,但是誤報(bào)率高。后者雖有高的檢測(cè)準(zhǔn)確率,但漏報(bào)率較高,對(duì)識(shí)別新出現(xiàn)的攻擊有欠缺。另外,按數(shù)據(jù)源不同,入侵檢測(cè)系統(tǒng)分為基于主機(jī)的IDS,基于網(wǎng)絡(luò)的IDS和混合型IDS。基于主機(jī)的IDS的數(shù)據(jù)來(lái)自本地主機(jī)的系統(tǒng)日志與審計(jì)數(shù)據(jù);基于網(wǎng)絡(luò)的IDS的數(shù)據(jù)來(lái)源于網(wǎng)段中的數(shù)據(jù)包;混合型IDS是將前兩者相結(jié)合的檢測(cè)系統(tǒng)。
2 IDS引入數(shù)據(jù)挖掘技術(shù)
一個(gè)好的入侵檢測(cè)系統(tǒng)應(yīng)該具有自適應(yīng)性,準(zhǔn)確性和可擴(kuò)展性。但是常用的IDS的入侵檢測(cè)規(guī)則是通過(guò)人工學(xué)習(xí)補(bǔ)充建立的,安全領(lǐng)域人員了解系統(tǒng)漏洞問(wèn)題和網(wǎng)絡(luò)上已經(jīng)出現(xiàn) 的攻擊手段,經(jīng)過(guò)學(xué)習(xí)總結(jié),將其放入特征庫(kù),這樣特征庫(kù)的建立完善主要是依賴人的參與。但是,由于現(xiàn)在計(jì)算機(jī)網(wǎng)絡(luò)的復(fù)雜性,網(wǎng)絡(luò)攻擊情況的多變性,還有網(wǎng)絡(luò)安全人員對(duì)攻擊的把握可能不完全準(zhǔn)確,會(huì)導(dǎo)致IDS檢測(cè)準(zhǔn)確率的有限性。另外,網(wǎng)絡(luò)數(shù)據(jù)流量非常大,建立一個(gè)完整的特征庫(kù)要求安全人員的不斷學(xué)習(xí)升級(jí),這對(duì)IDS檢測(cè)的準(zhǔn)確性帶來(lái)影響。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于入侵檢測(cè)系統(tǒng)能有效地解決這些問(wèn)題。
數(shù)據(jù)挖掘[1](DM,Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)的過(guò)程。它與人工智能、數(shù)理統(tǒng)計(jì)、并行計(jì)算、數(shù)據(jù)庫(kù)等多學(xué)科交叉。數(shù)據(jù)挖掘的方法主要有關(guān)聯(lián)分析、聚類分析、分類分析和序列模式等。本文的自適應(yīng)入侵檢測(cè)模型主要用到聚類分析和分類分析。
聚類分析:聚類是將一個(gè)數(shù)據(jù)集分成多個(gè)類的過(guò)程。聚類分析是一種沒(méi)有訓(xùn)練數(shù)據(jù)集用來(lái)學(xué)習(xí)的無(wú)指導(dǎo)的學(xué)習(xí),以一定的相似性度量方法將數(shù)據(jù)記錄分成多個(gè)類,使得經(jīng)過(guò)聚類后,同一個(gè)類中的數(shù)據(jù)有較高的相似度,不同類的數(shù)據(jù)沒(méi)有相似性或相似性很低。在進(jìn)行入侵檢測(cè)時(shí),一般認(rèn)為那些包含著大量數(shù)據(jù)的聚類是正常行為特征的聚類,而包含數(shù)據(jù)較少的聚類是異常的,因?yàn)樵趯?shí)際網(wǎng)絡(luò)中90%以上的流量都是正常的[2]。常用的聚類算法是K-均值聚類[3]。
分類分析:根據(jù)要分析的數(shù)據(jù)集的一些特征,發(fā)現(xiàn)某些數(shù)據(jù)的共同特性,將數(shù)據(jù)分成不同的類,得出類別的概念描述或分類規(guī)則,當(dāng)新的數(shù)據(jù)需要檢驗(yàn)時(shí),根據(jù)分類規(guī)則,將其分到相應(yīng)的類,常用的分類算法[1]有ID3、C4.5、CART等。
3 引入數(shù)據(jù)挖掘技術(shù)后的自適應(yīng)入侵檢測(cè)模型
數(shù)據(jù)挖掘技術(shù)用于入侵檢測(cè)系統(tǒng)后,入侵檢測(cè)系統(tǒng)可以自主的進(jìn)行學(xué)習(xí),從而將特征庫(kù)中的規(guī)則不斷自我完善,這樣的入侵檢測(cè)系統(tǒng)具有自適應(yīng)性和可擴(kuò)展性,檢測(cè)的準(zhǔn)確性也會(huì)得到提高。本文的入侵檢測(cè)模型所用到的規(guī)則庫(kù)不只是包含正常的模式或異常的模式,而是將兩者結(jié)合起來(lái),運(yùn)用一定數(shù)據(jù)挖掘算法判斷待檢測(cè)數(shù)據(jù)為正常或異常的模型。
該入侵檢測(cè)模型如圖1,分為以下幾個(gè)模塊:
1) 數(shù)據(jù)采集:負(fù)責(zé)對(duì)用戶、系統(tǒng)、網(wǎng)絡(luò)數(shù)據(jù)流等信息進(jìn)行收集;
2) 自適應(yīng)模型:積累模式,用一定的數(shù)據(jù)挖掘算法產(chǎn)生的模式規(guī)則庫(kù)(包含正常和異常);
3) 入侵檢測(cè):將數(shù)據(jù)采集器采集到的待檢測(cè)的數(shù)據(jù)進(jìn)行分析,判斷是否有異常發(fā)生;
4) 入侵響應(yīng):當(dāng)檢測(cè)到異常時(shí),采用一定措施進(jìn)行響應(yīng)的處理。
該自適應(yīng)模型產(chǎn)生和補(bǔ)充完善算法如下,基礎(chǔ)是K-均值聚類和決策樹(shù)算法,將這兩種算法進(jìn)行結(jié)合、改進(jìn),形成該自適應(yīng)模型的模式規(guī)則庫(kù)產(chǎn)生與完善的算法。
算法:
1) 在原始的網(wǎng)絡(luò)環(huán)境中收集網(wǎng)絡(luò)數(shù)據(jù)(包含正常的和異常的數(shù)據(jù))
2) 選擇其中K條數(shù)據(jù)作為初始質(zhì)心
3) repeat
4) 將每條數(shù)據(jù)指派到最近的質(zhì)心,使之形成K個(gè)簇
5) 重新計(jì)算每個(gè)簇的質(zhì)心(質(zhì)心是簇中數(shù)據(jù)的均值)
6) until質(zhì)心不發(fā)生變化
REPEAT
7) 將聚好的類分配類標(biāo)號(hào)(1,2...K),作為下面進(jìn)行分類的訓(xùn)練數(shù)據(jù)集
8) 用決策樹(shù)進(jìn)行歸納分類,產(chǎn)生分類規(guī)則
9) 按產(chǎn)生的規(guī)則,對(duì)一條新的待檢測(cè)的網(wǎng)絡(luò)數(shù)據(jù)(data_x)進(jìn)行分類(屬于某個(gè)簇),判斷該待檢測(cè)數(shù)據(jù)為正常或異常
10) repeat 重新計(jì)算每個(gè)簇的質(zhì)心(加入了data_x,重新計(jì)算)
11) 將每條網(wǎng)絡(luò)數(shù)據(jù)指派到最近的質(zhì)心,形成K個(gè)簇
12) until質(zhì)心不發(fā)生變化
該算法中,通過(guò)該自適應(yīng)入侵檢測(cè)模型,正常模式和異常模式規(guī)則庫(kù)會(huì)不斷完善,因?yàn)槊織l檢測(cè)過(guò)后的數(shù)據(jù),不論其為正常或異常,它都會(huì)作為一種對(duì)判斷標(biāo)準(zhǔn)的補(bǔ)充加入到規(guī)則庫(kù),完善自適應(yīng)入侵檢測(cè)模型中的規(guī)則庫(kù),這樣對(duì)后來(lái)待檢測(cè)數(shù)據(jù)的判斷也會(huì)更加精準(zhǔn)。同時(shí),該模型對(duì)判斷異常數(shù)據(jù)的不同類型也有一定的區(qū)分能力,因?yàn)樵贙個(gè)聚類中,異常的聚類中的數(shù)據(jù)雖然較少,但也會(huì)分散在1-N(N 4 結(jié)束語(yǔ) 由于傳統(tǒng)的防火墻技術(shù)本身的缺陷和不足,使得保護(hù)計(jì)算機(jī)網(wǎng)絡(luò)安全的入侵檢測(cè)技術(shù)越來(lái)越為人所重視。為了克服傳統(tǒng)入侵檢測(cè)系統(tǒng)的局限性,將數(shù)據(jù)挖掘技術(shù)引入到入侵檢測(cè)系統(tǒng)是一個(gè)好的選擇,能有效提高入侵檢測(cè)系統(tǒng)的自適應(yīng)性和檢測(cè)準(zhǔn)確性。該文將聚類算法與分類算法相結(jié)合引入入侵檢測(cè)模型,提出了一種基于聚類的分類分析自適應(yīng)入侵檢測(cè)模型。 參考文獻(xiàn): [1] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003,2:132-151. [2] Ertoz L, Eilertson E, Lazarevic A, Tan P, Dokas P, Srivastava J,Kumar V . Detection and summarization of novel network attacks using data mining. Technical Report[R]. University of Minnesota.2003. [3] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建,等,譯.北京:人民郵電出版社.,2006:310.