999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python 對資訊信息的網絡爬蟲設計

2020-06-03 02:21:44嚴家馨
科學技術創新 2020年5期
關鍵詞:數據庫內容語言

嚴家馨

(重慶大學經濟與工商管理學院,重慶400033)

1 相關概念

1.1 Python 語言

Python 是一種面向對象、解釋型、可移植的交互式編程語言。其語法簡單清晰,容易理解,非常適合編程初學者學習使用。且Python 語言的標準庫和第三方庫非常龐大豐富,使其功能非常強大,能夠完成數據采集、數據分析、數據挖掘、網站開發等。

1.2 網絡爬蟲

網絡爬蟲是一種按照一定的搜索規則,自動爬取web 網頁的應用程序。首先從一個初始頁面的URL 開始,通過分析頁面中的其他相關URL,抓取新的網頁鏈接,然后在這些網頁鏈接下,再繼續尋找新的網頁鏈接URL,反復循環,直到爬取和分析完所有頁面內容。

1.3 Scrapy 框架

Scrapy 是Python 技術語言開發的一個高層次,快速抓取web 網頁的框架,用于抓取Web 網頁中的內容。Scrapy 的應用非常廣泛,常被用于網絡爬蟲,且其擁有很多簡化的高級函數和中間件接口,可以靈活地完成各種需求。

1.4 MySQL

MySQL 是一個關系型數據庫管理系統,其可以將網絡爬蟲爬取的數據信息保存在不同的表中以增加儲存速度并提高靈活性。并且能夠作為一個單獨的應用程序,也可以作為一個庫嵌入到其他的軟件。被用于Navicat 數據庫軟件。

2 網絡爬蟲程序的設計

2.1 伯樂在線網絡爬蟲的流程結構圖

首先確定最新文章的種子地址為start_url,進入最新文章后便通過response.css 選擇器來得到第一頁及所有下一頁的url,選取一部分作為目標url,其余部分放入待爬取的url 隊列中等待爬取。在目標url 中同樣通過response.css 得出每篇文章特定的目標內容并解析匹配保存到navicat 數據庫中。以此再進入下一個循環,直到最新文章的資訊內容全部爬取完成。

2.2 伯樂在線網絡爬蟲的環境搭建(圖1)

開發環境:Windows 系統

開發語言:Python 語言,配置系統環境變量Path

開發工具:Pycharm

Web 抓取框架:Scrapy

數據庫管理系統:Mysql 和Navicat

圖1

2.3 伯樂在線網絡爬蟲的詳細設計

本爬蟲是以Python 語言作為腳本語言編寫,Pycharm 作為此爬蟲的工具,Scrapy 是此系統的框架。在Pycharm 中創建jobbole 項目并進行Python 語言網絡爬蟲代碼的編寫。

2.3.1 伯樂在線資訊信息的獲取

a. 進入伯樂在線的開始地址為start_url: ['http://python.jobbole.com/all-posts/']

b. 通過css 選擇器獲取最新文章中一頁的url 和目標文章post_url 并交給scrapy 下載后進行解析。

d.在parse_detail()方法中通過css 選擇器獲取文章的封面圖、標題、創建時間、收藏數、點贊數、評論數、內容等并使用正則表達式進行匹配。

e.item 類的實例化

item 類在Python 中可以指定字段,通過實例化item,網絡爬蟲爬取的數據不容易出錯。

實例化:article_item =JobboleItem()

調用article_item 類:

2.3.2 伯樂在線資訊信息的存儲

首先通過MysqlPipelines()方法建立數據庫的連接,然后將伯樂在線網站獲取的標題、封面圖、日期、內容等存入數據庫中。

3 網絡爬蟲程序的測試

3.1 最新文章中封面圖的儲存,通過pipelines()方法將封面圖存儲在images 文件中。

3.2 數據庫的存儲,在pipelines 中編寫MysqlPipelines ()方法,將獲取到的所有資訊內容存儲到Navicat 數據庫中。

結束語

本文基于Python 語言的網絡爬蟲對伯樂在線最新文章的資訊信息進行了采集設計與測試,通過借助Pycharm 工具和Scrapy 網頁抓取框架編寫Python 語言的網絡爬蟲代碼,將伯樂在線最新文章中的URL、標題、內容、封面圖、點贊數、評論數等信息抓取并保存到數據庫中。此設計大大提高了人們對目標資訊信息采集的速度和準確度,也為后續準確高效挖掘與分析數據提供了保證。

猜你喜歡
數據庫內容語言
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
數據庫
財經(2017年2期)2017-03-10 14:35:35
累積動態分析下的同聲傳譯語言壓縮
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
我有我語言
主站蜘蛛池模板: 亚洲欧美日韩久久精品| 久久a毛片| 中文字幕在线一区二区在线| 91丝袜美腿高跟国产极品老师| 亚洲有码在线播放| 国产成人你懂的在线观看| 欧美高清三区| 国产无码制服丝袜| 亚洲欧美精品日韩欧美| 免费网站成人亚洲| a毛片免费看| 日本人妻一区二区三区不卡影院| 免费中文字幕一级毛片| 黄色污网站在线观看| 无码aaa视频| 国产av剧情无码精品色午夜| 日韩福利视频导航| 又黄又爽视频好爽视频| 成人在线第一页| 精品国产一二三区| 狠狠色成人综合首页| 亚洲国产成人久久精品软件| 成人中文在线| 欧美日一级片| 欧美午夜性视频| 久久 午夜福利 张柏芝| 国内丰满少妇猛烈精品播| 亚洲最大综合网| 国产欧美日韩综合在线第一| 日本三级精品| 久久久波多野结衣av一区二区| 在线观看国产精品日本不卡网| 欧美激情二区三区| 国产成人一级| 日韩123欧美字幕| 国产成人精品一区二区三在线观看| 国产精品第一区在线观看| 99热国产这里只有精品无卡顿" | 亚洲AⅤ无码国产精品| 欧美一级99在线观看国产| 自拍偷拍欧美| 亚洲综合片| 国产福利一区在线| 免费中文字幕一级毛片| 免费可以看的无遮挡av无码| 91久久偷偷做嫩草影院| 久久午夜夜伦鲁鲁片无码免费| 免费一级毛片在线观看| 色首页AV在线| 人人看人人鲁狠狠高清| 波多野结衣一区二区三区88| 国产主播福利在线观看| 久久毛片网| 国产在线视频欧美亚综合| 欧美日本在线| 国产精品大尺度尺度视频 | 久久久噜噜噜| 中文字幕在线看视频一区二区三区| 亚洲欧美激情小说另类| 中日无码在线观看| 国产区免费| 日本免费精品| 欧美激情伊人| 国产无码在线调教| 天天综合天天综合| 久久一本日韩精品中文字幕屁孩| 天天综合网色| 欧美特级AAAAAA视频免费观看| 99热这里只有精品国产99| 国产成人8x视频一区二区| 国产婬乱a一级毛片多女| 亚洲中文字幕23页在线| 毛片在线区| 欧美精品亚洲日韩a| 一级一级一片免费| 三上悠亚一区二区| 国产激情在线视频| 91av国产在线| 91亚洲影院| 99久久精品免费观看国产| AV不卡在线永久免费观看| 亚洲无码精品在线播放|