999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網絡爬蟲技術研究

2020-07-04 12:56:58商紅宇葛蘇建
文存閱刊 2020年4期
關鍵詞:大數據

商紅宇 葛蘇建

摘要:在大數據時代,越來越多的公司企業開始注意到數據的價值,開始從自有數據或者網絡數據種提取數據,并進行數據變現,發掘數據的價值。網絡爬蟲技術在此時代得到了長足發展,但是也有大量惡意爬蟲充斥網路,導致網絡癱瘓、公司利益受損。為了了解確保高性能的同時又不給被爬取網站服務器帶來巨大壓力的網絡爬蟲的設計規范,本文研究了網絡爬蟲的工作流程,設計了一個基于Python的爬取豆瓣電影數據的網絡爬蟲。提出了現階段網絡爬蟲面臨的挑戰和惡意爬蟲的危害,同時網絡爬蟲應遵守我國相關的法律規范。

關鍵詞:爬蟲;Python;大數據

一、研究背景

在這個大數據時代,人工智能蓬勃發展的時代,不論是研究領域還是工程領域,數據已經是必不可少的一部分。現代數據挖掘、神經網絡、深度學習等尖端領域所依賴的也是數據。數據成為了大數據時代的根基,而獲取數據的途徑很大程度上是依賴網絡爬蟲。作為搜索引擎的核心組成模塊,網絡爬蟲在信息檢索過程中有著舉足輕重的地位。

HTTP協議是用于從WWW服務器傳輸超文本到本地瀏覽器的傳送協議。它可以使瀏覽器更加高效,使網絡傳輸減少。它不僅保證計算機正確快速地傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示等。

我們在瀏覽器中URL,回車之后便會在瀏覽器中觀察到頁面內容。實際上這個過程是瀏覽器向網站所在服務器發送了一個請求,網站服務器在接收到這個請求后進行解析處理,然后返回對應響應,接著響應傳回瀏覽器。響應包含頁面源代碼、數據包信息等,瀏覽器對其進行解析處理,然后將網頁呈現出來。

二、網絡爬蟲技術的研究

把互聯網看作一張大網,那么數據就是這張大網上的一個個交錯節點,而爬蟲就是在這張網上爬行的蜘蛛。網絡爬蟲還有其他的名字,比如網絡蜘蛛、網絡機器人等。本章將介紹網絡爬蟲的基本原理,并設計實現一個基于Python的網絡爬蟲,闡述網絡爬蟲面臨的挑戰。

(一)網絡爬蟲基本原理

爬蟲可以簡單概括為采集網頁并保存信息的自動化程序。互聯網用戶主要通過兩種方式來獲取網絡中的相關數據信息,一種是對瀏覽頁輸入相應請求,并下載網頁代碼,通過技術解析后形成所需信息界面;另一種是發送請求至模擬瀏覽器,請求的相關數據被提取和存放到數據庫中,爬蟲則是所有自動化獲取網絡數據的總稱。

(二)網絡爬蟲的實現

在寫爬蟲之前,我們先來看一下網站的robots.txt文件。從這份文件中,我們可以看到:User-agent: *,這是指的所有的爬蟲,它下面的Disallow后面的所有的網站目錄都不允許爬。# Crawl-delay: 5這是說的是爬蟲的延時,不能太快,不然會增加豆瓣服務器的負擔。我們在瀏覽器里用眼睛看到了我們想要的東西,電影信息,電影海報,這是我們需要的,眼睛能看到的信息都可以采集,所謂“所見即所得”。

確定了爬取目標之后就是進行網頁的下載,因為豆瓣電影是靜態頁面,所以源代碼里包含了網頁上信息,只要把源代碼下載下來就可以提取信息了。

爬蟲只需要對豆瓣網站服務器發送對應的GET請求,即可以得到頁面的源代碼。在獲取頁面時,并沒有遇到信息丟失的問題,也就是豆瓣電影并沒有使用諸如Ajax、JavaScript等技術來實現動態加載。

詳情頁鏈接在

  • 標簽內的標簽的href值的位置,對html文檔結構進行分析,實現了提取電影詳情頁的函數。這里將所有信息存在了隊列里,存在隊列里,隊列先進先出,然后用了os新建文件夾。用MySQL數據庫保存,將排名、電影名、地址存為一張數據表。用txt文件讀寫,將這些信息保存在了txt文本中。用try-except語句捕捉異常,以防突發問題,從而不影響整個程序。

    在得到了頁面的地址后,存在隊列里然后接下來處理他們。把每一部電影的詳情頁都爬取下來進行數據提取了。爬取詳情頁的方法與爬取排行榜的方法相同。網頁的結構有一定的規則,根據特殊的節點屬性、CSS選擇器、Xpath等技術手段可以精準定位信息位置,以此來提取數據。信息提取可以使數據從雜亂無章,變得條理清晰,以便后續使用和處理。

    響應獲取后,函數返回的是一個Beautiful Soup對象。詳情頁的信息提取是爬蟲中最重要也是最難的一步,這里函數利用Beautiful Soup從html中提取信息,Beautiful Soup雖然操作簡單,功能強大,但其解析速度并不算快。

    一般爬蟲會將數據保存到數據庫中。蟲除了可以下載文字信息,也可保存圖片信息,電影海報下載函數使用了urllib庫進行圖片保存。

    (三)網絡爬蟲技術的挑戰

    早期互聯網的開放性高,數據獲取難度小。隨這各大公司對數據資產的日益看重,獲取數據的難度越來越大,雖然爬蟲技術在大數據時代得到了蓬勃發展,但是依然面臨著反爬技術的水平不斷提高、爬蟲的法律限制以及用戶隱私帶來的挑戰。惡意爬蟲指的是使用技術手段,以服務器承受不住的速度達到快速爬取而導致被爬取對象利益受損、用戶隱私數據泄露和導致網絡癱瘓的爬蟲行為。

    參考文獻:

    [1]張艷,吳玉全.基于Python的網絡數據爬蟲程序設計[J].電腦編程技巧與維護,2020(04):26-27.

    [2]孫建言,馬雨欣,武文杰.基于Python的網絡爬蟲系統[J].電腦知識與技術,2019,15(26):61-63.

    [3]黎曦. 基于網絡爬蟲的論壇數據分析系統的設計與實現[D].華中科技大學,2019.

    猜你喜歡
    大數據
    大數據環境下基于移動客戶端的傳統媒體轉型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數據背景下的智慧城市建設研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數據+輿情:南方報業創新轉型提高服務能力的探索
    中國記者(2016年6期)2016-08-26 12:36:20
  • 主站蜘蛛池模板: 国产亚洲现在一区二区中文| 欧美三级不卡在线观看视频| 国产成人久久777777| 日韩毛片视频| 欧美国产日产一区二区| 国产精品美乳| 欧美国产日韩在线| 国国产a国产片免费麻豆| 欧美精品亚洲精品日韩专区va| 成人午夜久久| 亚洲不卡网| 亚洲欧美一区二区三区麻豆| 黄色网页在线播放| 中文字幕人成人乱码亚洲电影| 亚洲第一色视频| 成人毛片在线播放| 一区二区日韩国产精久久| 欧美综合区自拍亚洲综合天堂| 99re这里只有国产中文精品国产精品 | 最新国产网站| 亚洲成人精品在线| 毛片久久网站小视频| 亚洲aaa视频| 国产真实乱子伦视频播放| 中文字幕伦视频| 91精品视频在线播放| 久久精品视频一| 538国产在线| 国产成人精品一区二区| 欧美黑人欧美精品刺激| 亚洲香蕉久久| 欧美在线国产| 国产成人综合亚洲网址| 免费看av在线网站网址| 日本一本正道综合久久dvd| 九九热免费在线视频| 大香伊人久久| www.日韩三级| 色悠久久久| 88av在线看| 国产精品亚洲五月天高清| 国产不卡一级毛片视频| 片在线无码观看| 中文无码精品A∨在线观看不卡| 午夜无码一区二区三区在线app| 国产精品13页| 久久这里只有精品免费| 日本一区中文字幕最新在线| 亚洲国产精品人久久电影| 伊伊人成亚洲综合人网7777| 激情综合网址| 欧美精品另类| 超清无码熟妇人妻AV在线绿巨人| 国产综合网站| 在线观看亚洲天堂| 日韩精品毛片| 国产aⅴ无码专区亚洲av综合网| 亚洲三级影院| 高清免费毛片| 一级不卡毛片| 国产99在线观看| 国产av无码日韩av无码网站| 综合成人国产| 成人精品区| 久久精品一品道久久精品| 国产麻豆精品在线观看| 日韩区欧美区| 欧美亚洲一区二区三区在线| 午夜精品福利影院| 视频二区中文无码| 久久狠狠色噜噜狠狠狠狠97视色 | 日韩免费毛片| 少妇精品在线| 亚洲狠狠婷婷综合久久久久| 国产永久免费视频m3u8| 精品无码国产自产野外拍在线| 亚洲成人黄色在线| 91精品综合| 免费看一级毛片波多结衣| 欧美日本二区| 黄色片中文字幕| 无码丝袜人妻|