劉春娟
(陜西學前師范學院,710100)
在我國不斷普及Internet的過程中,網絡化方向也逐漸的衍生出了計算機病毒,這一病毒就是蠕動病毒的表象。其中莫里斯蠕蟲病毒就是在1988年首次出現的病毒,在2003年產生了沖擊波蠕蟲病毒和Dvldr32蠕蟲病毒,直到2004年的振蕩波蠕蟲病毒等,都對計算機用戶產生了極大的損失。所謂蠕蟲病毒所指的就是網絡病毒,顯示出越高端的信息化程度時,就會產生越強的蠕蟲病毒。若只應用傳統形式下的防御技術,不能夠解除當前的病毒威力,所以利用數據挖掘技術充分的替代存在滯后性的傳統防御技術,才能夠在病毒發生前充分抵制病毒的滋生。
數據挖掘技術具體是將覆蓋領域內的全部數據開展分析、分類和聚類。以此來判斷和查找其數據當中所具有的潛在聯系,較為全面的數據應用過程與挖掘技術,如圖1所示:
數據庫的字段項和字段項之間有著兩種關系,分別為關聯關系和函數關系。在分析的過程中基本上會使用主成分分析、相關分析、回歸分析等統計分析方法。

圖1 數據挖掘結構圖
決策樹會針對數據開展詳細的分類項目。其一,企業利用已知數據創建決策樹;其二,通過健全的決策樹預測數據。建立決策樹的過程能夠看做是生成數據規律的過程,能夠理解為對于決策樹的建立能夠滿足可視化的數據規則,在理解輸出結果方面也相對容易些。決策樹擁有著相對信息條件下較高的精準度,極為容易理解所得出的結果,具備著較高的效率,是常用的數據挖掘方法。
關聯規則具體表示的是數據庫當中的對象與對象之間,所具備的關聯關系規則,例如:在某一個對象出現時將另一個對象推斷出來,或者是將同時發生的規則推斷出來。關聯規則的挖掘主要是利用關聯分析將隱藏關聯找出,通過關聯規則能夠按照已知的狀況推測未知問題。以下通過一個例子闡述挖掘關聯規則的方式:

表1 非空項目集的支持度
通過表1能夠發現全部的頻繁項目集,在支持度方面都會≥50%的項目集。在最后需要計算并派生二維以上頻繁項目集的規則可信度,在{x,z}、{x,y}中,能夠構成相應的規則:

由以上四條規則能夠看出大于90%可信度的規則就是有效規則,即{z}→{x}與{y}→{x}。
主動掃描傳播方式是利用對Internet進行遠程主機漏洞的掃描,并通過其漏洞獲取控制權力。此外,一小部分的病毒是對可寫文件夾的搜索,同時在文件夾中復制病毒體。其獲取控制權力的手段與Email傳播方式雷同,可是也會具備著屬于自己的特點。
網絡傳播病毒最為常用的途徑就是Email。在傳送網絡郵件的過程中,會增大染毒郵件的比例。例如:在2002年由對高達20億封郵件進行了統計,從中發現了將近1000萬個病毒,在每300封郵件中就會存在1封染毒郵件,然而在2000年時只是在400封郵件有1封染毒郵件。可見,染毒郵件在計算機網絡中的傳播速度相對頻繁,直接制約到了日常的信息交換。
在傳播網絡病毒的階段,有必要掃描有關的數據信息,不管是掃描系統數據還是掃描網絡用戶方面,都能夠構成相應的操作信息,以此提供給數據挖掘技術相應的依據。由于數據挖掘技術應用在計算機網絡病毒防御當中時,會產生較為復雜的步驟,在日常應用的過程中需要根據每一步的特征,合理的劃分為若干個功能模塊之后,才能夠開展細致的研究和討論。
在決策模塊中,由數據挖掘而構成的數據庫在進行數據匹配的前提下,與規則庫密切相連。如果在數據庫當中有一些信息是與規則庫有著極高的聯系,就能夠說明決策模塊信息存在一定的病毒特征,感染病毒的可能度極高。如果規則數據和結果數據庫當中的數據不匹配,就能夠說明此數據包當中的病毒存在新型的特征,即新型的規則類,有必要把此病毒引入在規則庫中,在規則庫中形成新型的規則類別。
擁有充分的數據是實現數據挖掘的基礎,數據收集模塊的功能若想發揮出來,需要利用數據收集予以實現。數據收集模塊會收集和抓取計算機網絡中的數據包。數據信息被收集之后,會具備著一些較為重要的功能信息和數據結構。
數據挖掘模式在數據挖掘技術總體成分中是較為重要的組成部分。此模塊具體包括事件庫、數據挖掘算法兩大部分。通過數據挖掘的計算方法能夠針對由于數據的收集而構成的事件庫,開展數據歸納和數據分析,從而形成特征清晰、規則明顯的探究結果。
規則庫模塊主要是通過聚類分析、特征識別、數據挖掘出已有網絡病毒之后所獲取的規則集。此規則集當中具體對網絡病毒的特征屬性和信息做出了有關記錄,能夠用在對挖掘的指導方面,還能夠對計算機網絡中所潛在的其他病毒有所探究,有著一定的抵御作用。此外,也能夠利用聚類等操作方式來識別網絡病毒。聚類具體是用在劃分沒有標記的數據集中,會將此類數據集劃分為幾個組別,力求將分為一組的數據擁有較小差異度,不同組的數據之間擁有較大差異度。聚類分析是較為關鍵的數據挖掘技術,所以運用這一方法能夠充分的完善數據挖掘的規則庫,能夠給予計算機網絡病毒的特征分析帶來較為關鍵的依據。
數據被收集之后,需要納入到預處理模塊中開展數據變換或者分析歸類,以此為具體途徑適當的轉化為能夠處理、可以識別的數據內容。例如:根據數據包當中所具備的端口信息、目標IP地質、源IP地質等信息,開展集合、歸納、整理等處理流程。利用數據預處理模塊能夠合理的縮短數據挖掘和數據分析之間的處理實踐,能夠有效的提升挖掘的總體效果,強化數據的準確度和辨識度。
在信息化日益突出的過程中,人們的生產、生活中與計算機網絡息息相關,顯現出了計算機網絡的推動作用。可是,在發展和應用網絡技術時,其病毒的產生無時不影響著人們,促使造成了一定程度的損失和破壞。因此,分析病毒防御技術具有較為遠大的戰略意義。
[1]劉健.數據挖掘技術在計算機網絡入侵檢測中的應用[J].計算機光盤軟件與應用,2013,12(09):152-156.
[2]高峰,馬輝.IDS中的數據挖掘技術和攻擊的不確定性[J].安陽師范學院學報,2013,11(08):171-178.
[3]潘大勝.數據挖掘技術在計算機網絡入侵檢測中的應用[J].湖北科技學院學報,2013,10(07):182-190.
[4]李榮珍.淺談數據挖掘技術在計算機審計中的應用[J].科技信息:學術研究,2013,14(06):123-124.
[5]蔣敘,倪崢.計算機病毒的網絡傳播及自動化防御[J].重慶文理學院學報:自然科學版,2013,15(04):131-132.