朱延剛
(南京信息工程大學(xué),江蘇 南京 210044))
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各類互聯(lián)網(wǎng)平臺大量涌現(xiàn)。 但這些平臺在為網(wǎng)絡(luò)用戶提供豐富的媒體資源的同時,也增加了用戶直接高效獲取有用信息的難度,特別是具有行業(yè)性、專業(yè)性的信息,很容易淹沒在信息的海洋中。 僅僅通過傳統(tǒng)的搜索引擎獲取的檢索信息,已經(jīng)無法滿足更為專業(yè)的信息需求。 因此,如何對海量的信息進(jìn)行歸納和提取變得十分重要。 目前,有很多針對特定場景設(shè)計的Java 爬蟲系統(tǒng),可以滿足如圖片下載[1]、特定技術(shù)主題或新聞媒體咨詢整合等多種特定需求[2-4]。 這些爬蟲系統(tǒng)的提出,都能針對特定的業(yè)務(wù)場景設(shè)計出針對性比較強(qiáng)的解決方案。 設(shè)計一種適用性和可擴(kuò)展性更好的爬蟲信息采集系統(tǒng),不僅可以降低用戶構(gòu)建特定場景的爬蟲系統(tǒng)設(shè)計難度,還能提高設(shè)計者的開發(fā)效率。 本文基于WebMagic 框架,提出了一種適用性和可擴(kuò)展性更好的開發(fā)框架。
HttpClient 是Apache HttpComponentsTM項目負(fù)責(zé)創(chuàng)建和維護(hù)的一個基于HTTP 協(xié)議的Java 組件開發(fā)包。 HttpClient 與一般的瀏覽器不同,它不提供UI 界面,但是可以完成和瀏覽器相同的功能。 此外,還可以用來發(fā)送請求,接收服務(wù)器響應(yīng)數(shù)據(jù)。 因此,HttpClient 通常被開發(fā)人員作為API 來調(diào)用。 Jsoup是一個用于處理HTML 的Java 庫,可以提供一個非常便捷的API。 在網(wǎng)頁爬蟲中,Jsoup 主要用來從URL、文件或字符串中抓取和解析HTML,使用DOM 遍歷或CSS 選擇器查找和提取數(shù)據(jù),操作 HTML 元素、屬性和文本。 除此之外,它還能根據(jù)安全列表清理用戶提交的內(nèi)容,以防止 XSS 攻擊。……