劉宇 程學林



摘要:網絡爬蟲指的是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。但是實際上爬蟲還分為正規爬蟲和非正規爬蟲,所謂的正規爬蟲就是通過正規途徑和手段獲取網站信息和數據,非正規爬蟲又稱為惡意爬蟲,主要用于非法盜竊數據,給網站服務器增加負擔以及偷窺一些敏感信息數據等。本文將會基于決策樹算法設計一種新爬蟲檢測技術,并根據爬蟲檢測結果提供一些反爬機制,對惡意爬蟲進行進行評屏蔽等,進而實現對網站和服務器以及部分數據,信息的保護,降低互聯網資源重疊現象。
關鍵詞:網絡爬蟲;爬蟲檢測;惡意爬蟲;反爬蟲
0引言
隨著網絡的迅速發展,萬維網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。為了快速從互聯網中獲得大量目標數據,就需要編寫一些腳本程序,按照一定規律批量獲取數據,這就是所謂的爬蟲,但是在一部分通過正常途徑,即先請求網站Robot.tXt之后,再在不影響對方網站前提下,獲取相關資料的正規爬蟲之外,還有一些惡意爬蟲,它們通常表現為無論網站是的Robot.txt是否允許爬蟲爬取,都會強制性,批量性獲取網站數據,同時會在短時間內大量的發起請求,還有一部分惡意爬蟲會惡意制造虛假PV,模擬點擊付費廣告鏈接,批量檢索網站禁止爬蟲爬取信息,用于商業性質分析等。這類爬蟲在給互聯網帶來巨大的機器流量同時,也會給網站帶來極大的負擔,使得網站性能大大降低,目前互聯網內有40%-60%的流量來自爬蟲或者相關機器流量,已經嚴重妨礙核威脅互聯網相關的產業健康發展!……