999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)

2019-11-17 04:05:19孫建言馬雨欣武文杰
電腦知識(shí)與技術(shù) 2019年26期
關(guān)鍵詞:數(shù)據(jù)分析

孫建言 馬雨欣 武文杰

摘要:通過(guò)Python和Scrapy框架的使用,實(shí)現(xiàn)了一個(gè)對(duì)電商商品和商品評(píng)價(jià)信息的爬取系統(tǒng),文中詳細(xì)地介紹了該系統(tǒng)的設(shè)計(jì)過(guò)程,能夠完成需求中的功能,并且對(duì)所有爬取下來(lái)的數(shù)據(jù)進(jìn)行了分析,對(duì)商品的不同品牌各類信息進(jìn)行比對(duì)。

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng);Python;數(shù)據(jù)分析

中圖分類號(hào):G434? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)26-0061-03

開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

Abstract: Through the use of Python and Scrapy framework, a crawling system for commercial mobile phone products and commodity evaluation information is realized. The design process of the system is introduced in detail, which can complete the functions in demand. All the crawled data are analyzed and the information of different brands of products is compared.

Key words: network crawler; Python; data analysis

1 引言

近年來(lái),隨著電商行業(yè)的興起和物流產(chǎn)業(yè)的飛速發(fā)展,人們網(wǎng)上購(gòu)物日益普遍。電商平臺(tái)商品琳瑯滿目良莠不齊,加上商家往往夸大商品效果,甚至采用刷單手段增加商品人氣,往往造成消費(fèi)者不能理性選擇優(yōu)質(zhì)商品。

人們?cè)缫岩庾R(shí)到互聯(lián)網(wǎng)中的數(shù)據(jù)是有待開(kāi)采的巨大金礦,這些數(shù)據(jù)將會(huì)改善我們的生活,網(wǎng)絡(luò)爬蟲(chóng)的出現(xiàn)以及相應(yīng)人才的增多正是基于對(duì)數(shù)據(jù)價(jià)值的重視。目前已經(jīng)存在很多基于網(wǎng)絡(luò)爬蟲(chóng)的比貨網(wǎng)站,但大多數(shù)都只是爬取商品的參數(shù)的比較,難以站在消費(fèi)者的角度上去比較商品之間的優(yōu)劣。

本課題目的是通過(guò)爬蟲(chóng)技術(shù),使得在電商購(gòu)買商品時(shí)能從各參數(shù)和用戶體驗(yàn)方面給消費(fèi)者一個(gè)客觀、可靠、可信的購(gòu)機(jī)推薦。

2 關(guān)鍵性開(kāi)發(fā)技術(shù)

2.1 Python

Python是一種開(kāi)源的面向?qū)ο蟮哪_本語(yǔ)言。Python由于其易理解性、易讀性以及簡(jiǎn)潔性,以及對(duì)云計(jì)算、大數(shù)據(jù)與人工智能開(kāi)發(fā)有很好的支持,因此越來(lái)越受到大眾的喜歡。它的代碼重用性很高,Python的模塊庫(kù)龐大到恐怖,幾乎無(wú)所不包。因此,沒(méi)有特殊要求的網(wǎng)絡(luò)爬蟲(chóng),最好選擇使用Python。

2.2 Scrapy

Scrapy是一個(gè)使用Python語(yǔ)言編寫(xiě)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)框架,目前由Scrapinghub Ltd維護(hù)。Scrapy具有簡(jiǎn)單易用、靈活易拓展、開(kāi)發(fā)社區(qū)活躍,并且是跨平臺(tái)的等優(yōu)點(diǎn)。在Linux、MaxOS以及Windows平臺(tái)都可以使用。Scrapy是Python語(yǔ)言下最流行的網(wǎng)絡(luò)爬蟲(chóng)框架,開(kāi)發(fā)者只需要對(duì)幾個(gè)特定的模塊進(jìn)行開(kāi)發(fā)就能寫(xiě)出一個(gè)穩(wěn)定高效的網(wǎng)絡(luò)爬蟲(chóng)。所以本爬蟲(chóng)程序選擇了這個(gè)框架。

2.3 Django

Django項(xiàng)目是Python語(yǔ)言的定制框架,它源自一個(gè)在線新聞Web站點(diǎn),于2005年以開(kāi)源的形式被釋放出來(lái)。Django框架的核心組件包括用于創(chuàng)建模型的對(duì)象關(guān)系映射、為最終用戶設(shè)計(jì)完美的管理界面、一流的URL設(shè)計(jì)、設(shè)計(jì)者友好的模板語(yǔ)言、緩存系統(tǒng)。Django鼓勵(lì)快速開(kāi)發(fā),并遵循MVC設(shè)計(jì)理念。它的主要目的是簡(jiǎn)便、快速地開(kāi)發(fā)數(shù)據(jù)庫(kù)驅(qū)動(dòng)的網(wǎng)站。它強(qiáng)調(diào)代碼的復(fù)用,還有許多功能強(qiáng)大的第三方插件,甚至可以很方便地開(kāi)發(fā)出自己的工具包,這使Django具有很強(qiáng)的可拓展性。

2.4? Ajax

AJAX(Asynchronous JavaScript and XML,異步JavaScript和XML)是使用JavaScript向服務(wù)器發(fā)出請(qǐng)求,并獲取返回信息,但是AJAX技術(shù)與傳統(tǒng)方式不同的是,使用AJAX不會(huì)刷新整個(gè)頁(yè)面。這種技術(shù)拓展了Web應(yīng)用的功能,豐富了Web客戶端表現(xiàn)的能力,體現(xiàn)出了特別好的交互性。大型網(wǎng)站一般都會(huì)用這種技術(shù)。

3? 爬蟲(chóng)框架分析

在從網(wǎng)站中提取數(shù)據(jù)時(shí),沒(méi)有 "一刀切" 的方法。很多時(shí)候都會(huì)采取臨時(shí)方法,如果開(kāi)始為執(zhí)行的每個(gè)小任務(wù)編寫(xiě)代碼,那么使用Scrapy框架是最佳的選擇,因?yàn)槠涮峁┝艘幌盗蟹奖愕膽?yīng)用模板。

Scrapy 使用了Twisted異步網(wǎng)絡(luò)庫(kù)來(lái)處理網(wǎng)絡(luò)通訊,并從數(shù)據(jù)流的角度揭示了Scrapy工作原理,整體架構(gòu)大致如圖1所示。

其中,各個(gè)組件的介紹如下表所示。

4系統(tǒng)整體模塊設(shè)計(jì)

各個(gè)模塊功能簡(jiǎn)述如下:

爬蟲(chóng)模塊:主要是用來(lái)爬取數(shù)據(jù),爬取京東商城上的手機(jī)商品信息的數(shù)據(jù),包括手機(jī)的標(biāo)題、手機(jī)的品牌、手機(jī)的價(jià)格、手機(jī)的圖片鏈接、手機(jī)的參數(shù)。爬完這些信息后,接下來(lái)會(huì)對(duì)每個(gè)商品的評(píng)價(jià)的進(jìn)行爬取,這里需要說(shuō)明的是京東商品的評(píng)價(jià)只展示一百頁(yè),一百頁(yè)之后就無(wú)法獲取數(shù)據(jù)了。

數(shù)據(jù)分析模塊:主要是對(duì)爬取的評(píng)論進(jìn)行分析,采用了結(jié)巴中文分詞包,對(duì)評(píng)論進(jìn)行分詞,再通過(guò)構(gòu)造的stop字典、情感字典、程度詞字典等,對(duì)每條評(píng)論進(jìn)行情感極性判斷,最終計(jì)算出每個(gè)商品積極情感率。

數(shù)據(jù)展示模塊:主要是對(duì)爬取的商品信息以及數(shù)據(jù)分析的結(jié)果和pygal對(duì)獲取的數(shù)據(jù)進(jìn)行各種繪圖,最終通過(guò)ajax與django后端交互在網(wǎng)頁(yè)中顯示出來(lái)。

由于分析網(wǎng)頁(yè)評(píng)論加載方式,發(fā)現(xiàn)是和價(jià)格加載方式一樣,通過(guò)json接口,而各商品評(píng)論直接json接口的主要區(qū)別也在于商品的id,于是就設(shè)計(jì)了如下爬蟲(chóng)方案:

猜你喜歡
數(shù)據(jù)分析
我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
基于讀者到館行為數(shù)據(jù)分析的高校圖書(shū)館服務(wù)優(yōu)化建議
科技視界(2016年22期)2016-10-18 14:37:36
主站蜘蛛池模板: 国产精品开放后亚洲| 国产无码精品在线| 91青青草视频在线观看的| 18禁黄无遮挡网站| 亚洲高清无码久久久| 高清大学生毛片一级| 国产女主播一区| 欧美亚洲国产视频| 亚洲人成网站在线观看播放不卡| 尤物午夜福利视频| 制服丝袜亚洲| 国产精品香蕉| 亚洲国产亚洲综合在线尤物| 亚洲一级毛片| 亚洲中文字幕97久久精品少妇| 极品尤物av美乳在线观看| 四虎AV麻豆| 永久在线播放| 午夜久久影院| 欧美日韩激情在线| 女人一级毛片| 日韩在线影院| 欧美亚洲国产精品久久蜜芽| 国产亚洲高清视频| 欧美激情第一欧美在线| 国产成人免费| 国产综合精品日本亚洲777| 欧美成人亚洲综合精品欧美激情| 97一区二区在线播放| 日韩国产高清无码| 国产欧美日韩在线一区| 91精品免费高清在线| 91精品国产情侣高潮露脸| 久久永久精品免费视频| 乱码国产乱码精品精在线播放| 激情无码视频在线看| 97超爽成人免费视频在线播放 | 久久青草免费91线频观看不卡| 久久精品国产国语对白| 黄色三级网站免费| 热99re99首页精品亚洲五月天| 国产偷国产偷在线高清| 国产欧美日韩精品第二区| 日韩一区二区在线电影| 欧美专区在线观看| 综合色在线| 无遮挡一级毛片呦女视频| 亚洲AV无码精品无码久久蜜桃| 国产尤物在线播放| 欧美.成人.综合在线| 久久久精品无码一二三区| 无码高潮喷水专区久久| 成人无码区免费视频网站蜜臀| 欧美国产精品不卡在线观看 | 久精品色妇丰满人妻| 亚洲AV免费一区二区三区| 国产无码网站在线观看| 亚洲av中文无码乱人伦在线r| 亚洲欧美成人网| 欧美精品色视频| 欧美a级完整在线观看| 97一区二区在线播放| 原味小视频在线www国产| 露脸一二三区国语对白| 91精品国产91久久久久久三级| 98精品全国免费观看视频| 久久这里只有精品国产99| 亚洲视频免费播放| 国产综合另类小说色区色噜噜| 国产手机在线ΑⅤ片无码观看| 永久天堂网Av| 亚洲 日韩 激情 无码 中出| 国产青榴视频在线观看网站| 久热中文字幕在线| 亚洲欧洲日韩久久狠狠爱| 日本欧美中文字幕精品亚洲| 亚洲精品在线影院| 在线观看欧美精品二区| 中文字幕首页系列人妻| 国产美女叼嘿视频免费看| 国产精品久久自在自线观看| 日韩午夜福利在线观看|