趙志杰
(金鄉縣大數據中心 山東 濟寧 272200)
在信息技術的不斷發展中,互聯網技術已經進入生產和生活,并且出現了大量的企事業、政府部門、個人等用戶。隨著用戶數量的增加,用戶存儲在其設備上的數據和信息量也隨之增加,并且該信息成為黑客和木馬病毒竊取的目標。目前,數據挖掘技術已經取得了長足的發展,并且變得越來越適用。數據挖掘不僅會幫助各類用戶進行分析和集成所需的信息資源,而且還會挖掘并警告一些危險數據,對網絡的正常運行提供了數據支持。
在提高了信息數據傳輸的效率同時,也對信息數據獲取的安全性提出了更高的要求。多年來,傳統技術模型經常影響結構化數據庫用于存儲信息的使用[2]。此過程不僅成本高昂,而且還會導致少量數據丟失。通過使用大數據挖掘技術,可以降低丟失數據信息的風險,提高工作效率,保證了網絡的正常運行。另外,大數據挖掘技術的深度發展可以有效地加強網絡安全防御體系。因此,大數據挖掘技術的應用和研究在網絡安全中起著非常重要的作用。
數據挖掘技術的原理應分為幾個模塊:①數據源模塊:該模塊的主要功能是將數據集成到網絡中,并將集成的數據源發送到終端主機。此階段不需要處理過多,僅需要簡單的預處理,最重要的是了解某些數據的關聯結構;②預處理模塊:預處理模塊的主要任務是對數據進行分類,統一規劃數據格式并將其轉換為主機可以識別的格式。數據分類主要基于源IP和數據的端口位置,使用預處理技術可減少數據冗余,提高數據識別能力;③數據挖掘模塊:此模塊可以通過此步驟,更精確地識別數據之間的潛在關系,并為以后的進一步決策準備數據分析基礎;④規則數據庫模塊:規則數據庫模塊包括對以前病毒類型的存儲和新病毒類型的更新,存儲有關先前清除的病毒的特征并分析當前的挖掘結果。當出現新病毒時,它將被添加到存儲庫中;⑤決策模塊:是整個系統此時的最后一個模塊,決策模塊是挖掘結果的最終決策。如果病毒與庫中出現大面積吻合,則可以將其視為應直接防御,若匹配程度不高,但是挖掘結果表明風險很高時,做出進一步決策,如果確認,則將其收集在庫中[3]。
防御系統的構建包括以下步驟:①關聯原則:數據挖掘技術是關聯原則的的基礎,數據挖掘決策主要基于因果關系,時間序列以及簡單數據之間的三種類型的關聯關系;②聚類分析:在聚類分析中,必須首先將具有相同特征的數據分為幾類,以便不同的組具有不同的特征。在挖掘中,可以挖掘組之間的關系以實現疏密識別,對于總體控制非常有用;③分類分析:統計方法主要用于分類分析。通過按類別輸入預定義的分類個體,我們充分利用機器學習方法來創建模型并達到數據分析的目的;④異類分析:異類分析的本質是找到與其他數據無法分組的或有顯著差異的數據。此類數據通常是數據挖掘中的一項突破口,可以在其中獲得所需的結果[4]。
隨著大數據時代的到來,分類算法和聚類算法等數據挖掘技術已成為一項重要技術,并已發展成為一種使用可視化和遺傳算法等研究方法處理大量數據的強大方法。
傳統網絡入侵檢測方法的缺點也使犯罪分子可以容易利用,異常入侵檢測和誤用入侵檢測是網絡入侵檢測的兩種方法:①誤用入侵檢測方法:可以檢測到相關的歷史記錄,但是它無法檢測到一些新的入侵行為和警告。該檢測結果的實際影響很小,以至于在當前檢測到網絡入侵時逐漸淘汰了這一方法②異常入侵檢測方法:這種檢測方法比誤用入侵檢測方法先進得多,可用于有效執行入侵篩選的一些小型網站,它非常高效且方便。但是,如果入侵網絡的方法比較聰明且偽裝的好,或者如果識別出大型網站,則此方法似乎無能為力。隨著網絡的不斷發展,該技術的適應性越來越差。迫切需要開發專注于數據挖掘的網絡保護技術[5]。
數據挖掘是一項系統性任務,可以分為四個步驟:數據提取,預處理,挖掘和樣本評估。首先分析原始數據;然后處理數據以使其適合挖掘;然后使用適當的算法提取對應的信息;最后,以標準化方式評估和顯示生成的知識模式。大數據背景下的入侵檢測技術是網絡安全技術的重要研究課題之一。該技術是指在用戶網絡被黑客入侵之前及時檢測并阻止入侵者,但不會造成嚴重破壞的技術。它在檢測多種網絡攻擊和確保網絡安全方面起著重要作用。在實際的應用過程中,必須重復數據挖掘任務的每個步驟并進行深入研究,這就需要數據挖掘技術的不斷改進和創新。
總之,數據挖掘技術是當前用于網絡安全重要技術,用戶必須有效落實這種技術以防止黑客入侵和病毒,防止信息丟失。基于此,本文主要對該技術的主要原理、功能、研究現狀進行了相關分析,希望在網絡安全中的應用進行更深層次的的創新,從而保證網絡環境的安全性。