白軼 車宇
(中國核動力研究設計院 四川省成都市 610041)
數據挖掘技術作為一種新型技術,通過對數據的深入挖掘與分析了解網絡病毒的規律,并為計算機網絡病毒防御工作提供重要參考依據。當前人類的生活方式發生了翻天覆地的變化,生活水平在提升的同時,人們需要依靠電子數據完成交流與溝通活動,而信息技術的價值也得到了廣泛的認可,由于當前網絡病毒侵害計算機現象較多,有必要應用數據挖掘技術剖析病毒數據,幫助計算機抵御病毒威脅。
計算機病毒的隱蔽性是最為核心的特點之一,尤其是針對企業計算機群組的攻擊性病毒,由于網絡安全防護能力較高,所以病毒的隱蔽性也經過了大幅度的升級。在大數據時代,以APT攻擊為首的網絡病毒類型已經產生了多種變種,并且其具有極高的隱蔽性,潛伏期也通常較長,對于計算機網絡的破壞效果明顯。同時這類病毒也能夠獲取海量的數據,并通過建立的隱蔽信道把數據傳出,無論是對于傳統的物理防火墻還是軟件防火墻,都容易在這一攻擊手段之下無法發揮應有作用。
資源占用性體現在兩個方面,一種是以計算機硬件資源占用為目標的攻擊類病毒,另一種是以數據獲取為目標的非法侵入性病毒。前者運行過程會通過病毒的自我繁殖,在最短的時間之內導致計算機系統癱瘓,作為一種大能量破壞性病毒,當前發揮的價值較為有限,近些年這類病毒基本不再出現。后者在運行過程必然會侵占計算機系統的硬件空間,或者對原有的軟件系統造成較大的運行負擔,占用資源現象無法避免,并且在數據的傳輸層面也會占據較大的空間。
在非法侵入性方面,所有的病毒都不會冠冕堂皇的被安裝到計算機硬盤之內,而是會通過系統本身存在的硬件或軟件錯誤以及缺陷,通過某種手段存儲于硬件設備之中。非法侵入性病毒在大數據時代具有更高的隱藏效果,尤其是對于APT攻擊,通常情況下,計算機系統本身不會產生報錯,同時專業化的防火墻也難以完全阻隔針對網絡系統的攻擊,自然容易出現大范圍的數據泄露問題。
數據挖掘技術必然需要從數據源以及數據流中獲取樣本,記錄在某個時間段內的所有數據包,并且分析當前是否存在惡意攻擊行為,而在各類數據包內都含有相關的數據身份表明密文。在未遭受攻擊之時,這類密文中含有的字符具有極高的線性相關效果,但是在一些隱蔽性攻擊中,會通過對于數據包的惡意更改,讓數據包可以攜帶隱藏的信息,雖然該方法容易引發數據的丟包問題,但是造成的損失往往由計算機網絡和硬件設備的保有者承擔,攻擊者無需注重該問題的既成后果,在防御用的數據挖掘技術中,必然會通過對這類數據的采樣和使用,從中找到各類數據的分布模式,為后續的分析工作奠定基礎。
在數據的識別階段,要求已經獲得了的數據樣本要經過全面以及細致的分析,確定所有數據是否遭受了篡改,從而判斷當前是否出現了嚴重的網絡攻擊。在大數據時代,由于個人信息以及企業信息能夠為非法分子帶來更多的收益,所以這一攻擊方法成為了主流,本文也只是研究了大數據時期的多種主要攻擊手段,從實際的作用效果上來看,正是由于這類攻擊手段難以被計算機系統察覺,會導致原有的各類防范手段失效,在數據的識別階段,采用網絡數據挖掘技術,自然可以詳細的分析各類數據和字符的構成、字符的集中范圍、數據的集合模式等。
問題的查找過程需要找到在遭受攻擊之時攻擊程序的存儲節點和分布區域,以APT攻擊為例,數據挖掘技術可以在極短時間內實現對規劃范圍內節點的數據分析工作,并且把節點分配為根節點以及葉節點,當發現某節點和正常運行狀態下的數據不符,則分析以該節點為中心,周邊節點的數據產生情況,并且將存在缺陷和故障的節點記錄在案,從而合理確定當前網絡攻擊的蔓延范圍,并且可以通過生成攻擊圖的形式,讓專業人員可以找到最佳的問題處理手段。
網絡數據的傳播階段,計算機系統的硬件設備、軟件體系中都具備一定的關聯方法,包括節點之間的關聯、數據層面的關聯、數據庫中各類數據表現之間的關聯等,常用形式包括因果關聯、簡單關聯和時序關聯三種,并在最終構成關聯網絡。從最終產生的數據效果和字符含量上來看,未被攻擊的數據體系具有極高的線性相關性,即某數據的產生頻率基本相同,并不會出現突然變化狀況。數據挖掘技術的構成過程必然需要通過對關聯規則的設定和使用,根據不同的關聯方式找到各類節點之間的關聯模式,從而讓分析的數據類型和數據表現可以更好地支持應有的分析工作,以最大限度提高整個系統的運行穩定性和病毒防護的高效性。
大數據技術的一個重要表現模式是,可以在極短時間內分析獲取的數據樣本之間產生的相互關聯效果,在具體分析過程,通過對已經記錄的數據包中,大量密文字符構成狀態的分析和驗證,可以研究是否存在數據的聚類現象,并且分析數據包的本身構成狀態。當發現字符之間不存在極強的線性相關性時,可確定當前該計算機網絡已經被病毒攻擊,并且這一信道的數據包發揮了網絡攻擊中的隱蔽信道作用。通過數據的發掘,可以把數據包中被檢測的密文納入到詳細的分析模型內,才可讓檢測系統更好地研究是否遭受了攻擊。
數據的分類分析作用區域是計算機軟件中,所以有數據的模塊和節點,通過分析可以讓該系統能夠處于安全穩定的運行狀態。不同軟件在運行過程,其數據的分類和具體表現形式具有較大不同,軟件系統可以支持不同類型的功能。防護用計算機挖掘技術的建立過程,要求最終構筑的項目要能夠從根源上研究不同數據包和數據集合體的發揮功能類型,并在這一基礎上,找到各類功能的實現方式,從而讓該系統可以處于科學高效的運行狀態。
無論是當前常見的何種常見攻擊方式,只要最終目的是意圖通過攻擊手段,從計算機網絡系統中獲得數據,都會通過建立的隱蔽信道獲得各項信息,而隱蔽信道的常用作用表現形式是通過對于數據包中密文的處理、記錄和篡改,讓數據包記錄另類信息。這一攻擊手段會讓原有密文部分的數據喪失線性相關性,而在數據挖掘技術的使用過程,可以通過對于密文部分字符構成的分析,研究在不同時間段內是否出現密文的非法輸送現象,確定存在隱蔽信道之后,可以按照APT攻擊的檢測工作模式,研究當前系統中是否存在節點的被篡改問題,以此為標準落實后續的研究項目。而APT攻擊作為當前較為成熟的大數據攻擊技術,基于攻擊圖的防護方法可以選用,核心技術是數據的發掘,通過數據的歸類、分解、表現形式的驗證等,找到APT攻擊的具體影響模式。
在動態數據的統計處理中應用序列分析,可以得到有效的分析結果。該方法應用時就是將隨機數據序列規律作為研究重點,以此為基礎探究試驗庫內所有計算機網絡病毒數據序列,然后再進行數據挖掘分析,利用數據挖掘技術構建序列模式模型。這一階段需要用到數據挖掘算法,對時間序列加以搜索。關于數據挖掘序列分析算法的應用程序如下:如果事件庫D交易T和時間戳間的關系十分密切,這時交易處于(t1,t2)范圍之間,且事件庫D內包含了x、y、z,這時序列規則可以用xy-}z來表示,規則支持度和置信度分別為Support(x}JY}JZ)和support(X U Y U Z)。
數據挖掘技術在網絡病毒防御應用過程中,關聯規則是指某一類數據內會有被發現的內容,在變量取值中具有一定規律可循。這種規律的存在可以體現出數據和數據間的密切關系,且聯系十分緊密。應用數據挖掘技術可以分析數據之間的關聯規則,并將具體關聯規則劃分為時序關聯規則、簡單關聯規則、因果關聯規則等。數據挖掘技術在應用的同時應對數據庫的數據展開分析,尋找數據與數據的關聯,找出數據變化規律,以此為前提找到關聯網,明確所有數據在數據庫內的關聯規則,再對不同的關聯規則進行分類處理,最終形成數據組,方便為日后計算機網絡病毒防御提供數據參考。
數據挖掘技術中的聚類分析具體指對得到的數據包分解,分解后產生不同組別,每個組別間都有相同點和不同點。從數據之間的異同角度出發,對網絡病毒數據展開實時聚類分析,識別數據分布疏密度,觀察數據分布模式,從中總結出每一組數據的特征和數據間的關聯性。與聚類分析相對應的是異類分析,異類分析也被成為孤立點分析,結合數據庫的不同點,即與其他數據存在較大偏離差距的信息,這部分數據信息和常規數據在規模上偏差較大。根據這一特點展開數據集聚分析,尋找數據孤立點,判斷孤立點與其他數據是否有聯系,如果沒有聯系,且數據規模偏差較大,說明當前計算機網絡內部也發生了異常,這部分數據就是病毒數據,要求相關人員提高警惕意識,做好網絡病毒的防御工作。
4.3.1 檢測模塊設計
依靠數據挖掘技術創建計算機網絡病毒防御系統,對海量數據有效篩選,構建模型后尋找網絡病毒的入侵特點,將挖掘到的數據存入數據庫內,為今后的病毒防御做準備。網絡病毒防御系統已數據為中心,實時記錄并分析大量數據,應用數據挖掘技術記錄系統日志審計信息,從中找出入侵行為,解決病毒入侵問題。由于數據挖掘需要耗費較長時間,可以將研究的重點放在入侵檢測模型中,系統提取網絡病毒特征,并建立入侵檢測模型。
4.3.2 控制防御模塊設計
不同防火墻有著不同程度的防御功能,多數計算機網絡設備集成中帶有防火墻系統,比如混合式防火墻。這些防火墻可以防御惡意數據入侵,保護計算機數據。該計算機網絡病毒防御系統的設計應用了Linux系統,Iptables是系統中自帶的防火墻功能。分析Iptables防火墻在病毒防御系統內的應用,主要體現于以下兩方面:
(1)非法字符控制。字符串是最常見的病毒形式,在sql內輸入指令時如果帶有“or 1=1”,應使用防火墻控制非法字符,將數據包攔截后避免數據庫被損壞。防火墻可以在string模塊中控制非法字符,這一模塊和防火墻字符串相互匹配,并匹配數據報文,以瀏覽器的方式在sql注入。可見防火墻對字符串匹配時能夠攔截域名、限制域名,阻止域名訪問,減少木馬入侵次數。
(2)應用防火墻控制非法IP抵制,攔截惡意IP數據。應用防火墻的過濾功能丟棄IP數據報文,截斷惡意IP地址和網絡的連接,防止其向計算機發送惡意數據包,禁止用戶訪問該地址。
4.3.3 后續處理模塊設計
檢測模塊和控制防御模塊設計完成之后,應檢測入侵到計算機內網中的病毒,再進一步展開防御處理。以上模塊無法完善病毒防御系統,還應該對病毒入侵做好后續處理,將網絡入侵情況及時反饋給用戶。后續處理模塊具有監控效果,能夠將系統監控數據如實記錄,方便管理人員處理數據,且該模塊擁有通知功能和防御控制功能,發生病毒入侵時能夠及時通知管理員,向對方發送郵件,將網絡病毒的類型和等級反饋到管理員,方便管理員采取處理措施。數據反饋之后,管理員對網絡病毒類型展開分析,探究病毒原理和特點,應用Olly Debug工具分析病毒,及時更新病毒庫,將新病毒填入庫內,逐漸提升系統防御效果。
總而言之,本文應用數據挖掘技術對計算機網絡病毒的入侵情況進行在線檢測和控制,使用數據挖掘算法分析病毒,圍繞病毒入侵展開討論。根據數據挖掘技術的應用原理,結合網絡病毒的特征表現,設計出計算機網絡病毒防御系統,通過檢測模塊、控制防御模塊、后續處理模塊的優化設計,實現對病毒的科學防范。