基于決策樹算法的爬蟲識別技術

2018-01-24 21:58:49劉宇程學林

軟件 2017年7期

劉宇　程學林

摘要：網絡爬蟲指的是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。但是實際上爬蟲還分為正規爬蟲和非正規爬蟲，所謂的正規爬蟲就是通過正規途徑和手段獲取網站信息和數據，非正規爬蟲又稱為惡意爬蟲，主要用于非法盜竊數據，給網站服務器增加負擔以及偷窺一些敏感信息數據等。本文將會基于決策樹算法設計一種新爬蟲檢測技術，并根據爬蟲檢測結果提供一些反爬機制，對惡意爬蟲進行進行評屏蔽等，進而實現對網站和服務器以及部分數據，信息的保護，降低互聯網資源重疊現象。

關鍵詞：網絡爬蟲；爬蟲檢測；惡意爬蟲；反爬蟲

0引言

隨著網絡的迅速發展，萬維網成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰。為了快速從互聯網中獲得大量目標數據，就需要編寫一些腳本程序，按照一定規律批量獲取數據，這就是所謂的爬蟲，但是在一部分通過正常途徑，即先請求網站Robot.tXt之后，再在不影響對方網站前提下，獲取相關資料的正規爬蟲之外，還有一些惡意爬蟲，它們通常表現為無論網站是的Robot.txt是否允許爬蟲爬取，都會強制性，批量性獲取網站數據，同時會在短時間內大量的發起請求，還有一部分惡意爬蟲會惡意制造虛假PV，模擬點擊付費廣告鏈接，批量檢索網站禁止爬蟲爬取信息，用于商業性質分析等。這類爬蟲在給互聯網帶來巨大的機器流量同時，也會給網站帶來極大的負擔，使得網站性能大大降低，目前互聯網內有40%-60%的流量來自爬蟲或者相關機器流量，已經嚴重妨礙核威脅互聯網相關的產業健康發展！……

登錄APP查看全文

軟件 2017年7期

軟件的其它文章: 公安110指揮平臺UPS電源基礎設施的設計與研究; 一種基于行為特征的文件檢查點優化策略; 基于android的新生地圖綜合服務系統設計; 從預報報文獲取農氣預報程序設計淺談; 管網巡檢WebGIS設計與開發; 基于大數據背景下的多層神經網絡股票預測模型