◆楊 銘
(常熟理工學院 江蘇 215500)
在當今社會,隨著計算機技術的爆炸式發展,云計算和大數據技術被普遍應用,一方面相對于傳統網絡來講帶來了運算力和存儲空間的巨大提升,用戶可脫離本地計算機將數據在云端進行計算和存儲,大大減少了由于用戶本身由于計算機技術的不足而帶來感染病毒風險。另一方面,由于萬物聯網,網絡病毒無孔不入,一旦pc機被病毒攻擊,很可能造成不可挽回的損失。
(1)網絡病毒種類多且變化快
從20世紀第一種蠕蟲病毒由于作者的操作失誤在美國爆發后,網絡病毒的發展就一發不可控制。如今,網絡病毒無處不在,電子郵件,安裝包,不良網頁,操作系統和軟件的漏洞,這些都是網絡病毒入侵的高發區。
(2)傳播方式廣泛,擴散快
口令入侵:通過使用網絡中合法用戶的口令或賬戶登入主機主機進行破壞(首先要破譯用戶口令和賬號)。
WWW欺騙技術:黑客將網站和網頁信息進行篡改,并且將url篡改為黑客的計算機服務器,當用戶訪問這些網頁時就會被黑客攻擊。
電子郵件攻擊:通過cgi程序或者炸彈軟件來向目標用戶郵箱發送大量垃圾郵件,占用網絡流量最終導致癱瘓。根據2017年MessageLabs的統計結果顯示,平均每100封電子郵件就會有一封電子郵件包含網絡病毒。
病毒的傳播速度極快,網絡中所有客戶端都有被感染的風險。以Morris蠕蟲病毒為例,在短短12小時內導致超過6000臺客戶端癱瘓或半癱瘓。
(3)病毒的攻擊原理
第一種方式:攻擊者通過將病毒代碼替換到用戶的某個程序模塊中。此種攻擊方式由于針對性極強,往往會針對某一特定的軟件進行攻擊,所以此種攻擊方式最難防護和檢查,即使檢測出計算機被攻擊也很難徹底清除。
第二種方式:通過將病毒代碼嵌入至源代碼中,此種病毒往往可以直接進行編譯執行。形成病毒要執行的目標文件。第三種方式為攻擊者將病毒的前后嵌入病毒程序,在執行程序之前會觸發病毒程序的提前運行。最常見的一種則是對計算機的文件程序進行修改,讓計算機部分文件程序喪失原本的功能以破壞計算機的正常運行。
(4)破壞性極強
被病毒感染的計算機會造成網絡癱瘓,數據丟失,機密盜竊等一系列嚴重的后果。甚至會導致計算機完全被對方控制,進一步造成更大的不可挽回的損失。
在如今互聯網技術爆炸式發展的同時,網絡病毒不斷升級和進化,但是病毒的數據特征也較為明顯,數據挖掘技術是今年來計算機技術的熱門方向,數據挖掘則是通過對大量數據的總結和分析歸類出病毒代碼的特征與規律。相比于傳統的防火墻技術,數據挖掘在搜索隱藏在系統內部的病毒代碼更有優勢。同時在一定程度上能夠彌補防御技術總是滯后于新病毒的誕生這一無法避免的劣勢。數據挖掘能在大量信息中挖掘出計算機系統內部的病毒代碼,基于以上條件則是數據挖掘技術對病毒進行識別的基礎。決策樹算法,聚類分析,回歸分析,布爾關聯等等一系列的算法都能夠滿足快速對病毒代碼進行識別的要求。病毒的特質之一則是在計算機系統能夠無限制的繁衍和自我復制,或者數據類型的更替迭代,基于以上特征則可以快速判斷出一個計算機系統是否已經遭到病毒入侵。與此同時,數據挖掘技術也會結合規則庫和數據庫中對以往病毒的特征記錄進行總結,為主動防御病毒提供更具體的依據和參數。在計算機技術不斷發展的同時,嘗試用新技術去解決老問題是一個值得關注研究方向。而數據挖掘技術解決了一些以往難以克服的難題,所以基于數據挖掘技術的安全系統的研究是一個很重要的研究方向。
(1)數據源模塊
數據源模塊是計算機通過網絡將各種數據在計算機中保存以提供給后續模塊進行分析。
物理防治主要采用防蟲網隔離防護,黃板誘殺等措施。生物防治主要采用抗生菌治蟲,阿維菌素防治美洲班潛蠅及螨類,瀏陽霉素和華光霉素防治紅蜘蛛和茶黃螨,苦參等植物源農藥防治多種害蟲;抗生素治病,農抗120灌根可防治瓜類枯萎病,噴霧可防治瓜類白粉病、番茄早疫病等,武夷菌素防治瓜類黑星病、番茄葉霉病效果較好。黃瓜的霜霉病,番茄的灰霉病可以采用生態防治法,通過調節棚溫的方法控制病害蔓延。
(2)數據預處理模塊
數據預處理是數據挖掘進行病毒防御的關鍵時期。病毒是通過代碼的方式攻擊計算機,所以通過數據預處理,可以將大量的代碼進行篩選,并和病毒庫中的代碼進行比對分析,從而進行排除和防御。同時數據預處理還包括源ip,對病毒ip位置定位。在確定病毒傳播信息后可以對病毒進行封鎖,從而提高防御效率。
(3)規則庫模塊
規則庫模塊是數據挖掘用于病毒檢測的基礎。規則庫中所保存的是已知病毒內在關聯規律的集合,規則庫記錄下病毒攻擊終端機時的數據規律和信息規律以及軌跡規律,后期進行聚類分析,深度挖掘就可以得到這些病毒的內在規律。并且不斷擴充新病毒的規律特征,為以后的防御工作增加效率。
(4)數據挖掘模塊
此模塊是防御病毒的核心,由事件庫和數據挖掘算法組成。數據挖掘算法是檢測病毒的關鍵,計算機的防御決策通過數據挖掘算法的結果來決定。
(5)決策模塊
(1)關聯規則
關聯規則是數據挖掘中一個重要的組成,數據挖掘就是通過算法得出潛在的病毒信息,而關聯規則可以推斷出病毒之間背后的關聯,結合發現的內在關聯可以根據某個已知的對象推斷出另一個對象,或者是根據已知的信息推斷出未知信息。
(2)分類分析
分類分析可以在大量的數據集中分類提取一個數學模型,并依靠分類分析的結果將數據集中的對象進行歸類,歸結到某個已知的對象類中。從機器學習的角度來講 ,分類分析是基于有引導性的機器學習,基于每個訓練樣本被標識,通過學習就可以實現類對象與類標識之間的表達。
(3)聚類分析
聚類分析的主要功能是將各個數據按照某種算法進行分析,聚類,遵照特定的方法,特征把數據信息分為不同的類別。每個類別之間有明顯的區別,從而分出多組有代表性特征的類別。有利于引導數據庫對病毒的分類,以提供更高的防御效率。
(4)異類分析
異類分析也稱為孤立點分析,孤立點是指數據集中存在的小模式數據,執行錯誤或者固有的數據變異都可能導致孤立點的產生。在Hswkins對孤立點的定義中指出,孤立點是數據集所有數據中獨特的數據,因為它的與眾不同所以常常讓研究者認為這些孤立點的誕生并不是隨機的,而是在完全不同的機制下產生的。孤立點的挖掘具體體現在兩點,一是在確定的數據集中找出何種類型的數據可以被確定為不一致的數據;二是尋找出一個高效的方式來挖掘出孤立點。
計算機已經深入到我們生活中的每一處。計算機病毒隨著計算機的發展而越來越復雜,隨著更多新技術的誕生,擁有更強大計算力的計算機的投入使用,病毒的防御手段也得到極大發展。這場矛與盾的對決從未停止,也將會一直繼續下去。而我們應當利用技術的發展,突破傳統思維去應對挑戰。