999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Scrapy的新聞網(wǎng)頁數(shù)據(jù)抓取設(shè)計(jì)

2020-06-10 07:41:02秦亞紅普措才仁
電子技術(shù)與軟件工程 2020年4期
關(guān)鍵詞:頁面結(jié)構(gòu)

秦亞紅 普措才仁

(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 甘肅省蘭州市 730030)

中國新聞網(wǎng)每日及時(shí)發(fā)布新聞資訊、新聞事件動(dòng)向,其中蘊(yùn)含的數(shù)據(jù)信息量不言而喻[1]。加之近年來,研究人員不斷地對(duì)新聞數(shù)據(jù)進(jìn)行研究,文獻(xiàn)[2]采用網(wǎng)絡(luò)爬蟲、中文分詞、向量空間模型、文本聚類等技術(shù)設(shè)計(jì)自動(dòng)采集新聞并能聚類的系統(tǒng);本文則使用網(wǎng)絡(luò)爬蟲技術(shù)抓取中國網(wǎng)文化專題下的熱點(diǎn)新聞數(shù)據(jù)。

1 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲根據(jù)實(shí)現(xiàn)的技術(shù)和系統(tǒng)大致分為通用網(wǎng)絡(luò)爬蟲、主題網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲[3]。Scrapy是一個(gè)為提取網(wǎng)頁中結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的爬蟲框架,通過Scrapy框架可以快速搭建一個(gè)簡易的網(wǎng)站數(shù)據(jù)爬取程序,并根據(jù)自身需要對(duì)其進(jìn)行修改,以滿足數(shù)據(jù)抓取需求。其框架內(nèi)各組件工作原理如圖1所示。

由圖1可以看出Scrapy框架的工作原理以及各組件之間的協(xié)作。組件中的數(shù)據(jù)流為:Scrapy Engine(以下簡寫為SE)從Spiders中獲取初始url并請(qǐng)求Schedule調(diào)度,在獲得要爬取的url時(shí),通過Downloader Middlewares(以下簡寫為DM)轉(zhuǎn)發(fā)給Downloader,生成頁面響應(yīng)后返回給SE,此時(shí)SE將收到的響應(yīng)通過Spider Middlewares發(fā)送給Spider,Spider處理頁面響應(yīng)并將爬取到的Item數(shù)據(jù)以及新的url請(qǐng)求返送給SE,SE將Item數(shù)據(jù)傳送到Item Pipeline,url請(qǐng)求交給Schedule,如此循環(huán)往復(fù),直至Schedule中沒有滿足條件的url請(qǐng)求,程序停止。

2 網(wǎng)頁結(jié)構(gòu)分析

爬取任何一個(gè)網(wǎng)站前都需對(duì)網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,找出目標(biāo)數(shù)據(jù)在網(wǎng)頁元素中的位置、新聞詳情頁鏈接變化規(guī)律、網(wǎng)頁數(shù)據(jù)開始抓取區(qū)域等。現(xiàn)對(duì)相關(guān)網(wǎng)頁結(jié)構(gòu)分析如圖2。

圖2中顯示新聞網(wǎng)頁內(nèi)容主要分布在div class=”main2”下的left_box和right_box元素中。在爬取時(shí),根據(jù)網(wǎng)頁中所需目標(biāo)模塊,進(jìn)行鏈接過濾,以免爬取不必要目標(biāo)模塊中的新聞數(shù)據(jù)。

點(diǎn)擊進(jìn)入hot_list區(qū)域中任意鏈接進(jìn)行新聞詳情頁面結(jié)構(gòu)分析如圖3。

圖1:Scrapy框架工作原理

圖2:新聞列表頁面結(jié)構(gòu)

由圖3可分析新聞詳情頁面網(wǎng)頁結(jié)構(gòu):新聞標(biāo)題在網(wǎng)頁元素中的位置為div class=”left_box”中的h1標(biāo)簽中;新聞內(nèi)容所在位置為div class=”center_box”中的p標(biāo)簽中。使用xpath helper工具(Chrome瀏覽器插件)定位列表頁熱點(diǎn)新聞區(qū)域與詳情頁中新聞標(biāo)題、內(nèi)容等數(shù)據(jù)在網(wǎng)頁元素中的位置,程序中使用xpath語句提取新聞標(biāo)題與內(nèi)容數(shù)據(jù)。

圖3:新聞詳情頁面結(jié)構(gòu)

3 新聞數(shù)據(jù)爬取

Scrapy使用Twisted這個(gè)異步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊,結(jié)構(gòu)清晰,并且包含了各種中間件接口[4]。Scrapy框架進(jìn)行數(shù)據(jù)抓取工作主要在Spider.py中實(shí)現(xiàn):給定初始url,通過rule規(guī)則進(jìn)入特定url進(jìn)行自定義目標(biāo)數(shù)據(jù)抓取工作。Spider.py偽代碼如圖4所示。

框架中主要模塊文件Spider.py完成需編輯、修改相關(guān)模塊如:Pipeline.py文件,連接MySQL數(shù)據(jù)庫,使用SQL語句將Item中所傳遞的數(shù)據(jù)字段插入到數(shù)據(jù)表中;settings.py中設(shè)置下載延遲、修改ROBOTSTXT_OBEY為false等。此外,編寫程序啟動(dòng)文件start.py,避免調(diào)試程序時(shí)輸入命令行。

圖4

4 實(shí)驗(yàn)結(jié)果

部分實(shí)驗(yàn)數(shù)據(jù)如圖5所示。

5 總結(jié)

以上實(shí)驗(yàn)闡述了中國新聞網(wǎng)文化專題頁面數(shù)據(jù)抓取的分析、實(shí)現(xiàn)以及存儲(chǔ)方法,并成功抓取到目標(biāo)數(shù)據(jù),為新聞數(shù)據(jù)獲取提供有效、可行的方法。

圖5:部分實(shí)驗(yàn)數(shù)據(jù)

猜你喜歡
頁面結(jié)構(gòu)
微信群聊總是找不到,打開這個(gè)開關(guān)就好了
大狗熊在睡覺
刷新生活的頁面
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結(jié)構(gòu)的應(yīng)用
模具制造(2019年3期)2019-06-06 02:10:54
論《日出》的結(jié)構(gòu)
創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長
基于BIM的結(jié)構(gòu)出圖
同一Word文檔 縱橫頁面并存
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 国产激情影院| a色毛片免费视频| 91午夜福利在线观看| 色综合热无码热国产| 国产精品.com| 97国产成人无码精品久久久| 国产无码制服丝袜| 欧美一区二区人人喊爽| 久久美女精品| 国产精品伦视频观看免费| 久久精品人人做人人爽电影蜜月| 国产视频只有无码精品| 久久综合伊人 六十路| 国产熟女一级毛片| 久久这里只有精品66| 四虎AV麻豆| 在线观看国产网址你懂的| 国产精品一区二区久久精品无码| 午夜少妇精品视频小电影| 国产aaaaa一级毛片| 日韩人妻少妇一区二区| 激情午夜婷婷| 99在线视频免费观看| 四虎永久免费地址| 日韩在线播放中文字幕| 国产第一福利影院| 久久综合婷婷| 久久久久亚洲av成人网人人软件| 亚洲人成网站在线观看播放不卡| 91极品美女高潮叫床在线观看| 欧美日本一区二区三区免费| 亚洲国产理论片在线播放| 在线观看免费国产| 精品无码一区二区在线观看| 国产成人综合亚洲网址| 成年人福利视频| 五月天福利视频| 亚洲一级无毛片无码在线免费视频 | 亚洲丝袜第一页| 婷婷六月综合| 第九色区aⅴ天堂久久香| 亚洲成在线观看 | 一区二区三区国产精品视频| 国产精品人人做人人爽人人添| 自拍偷拍欧美日韩| 极品国产一区二区三区| 国产97视频在线观看| 国产黄色免费看| 一区二区三区毛片无码| 四虎精品国产AV二区| 国产极品粉嫩小泬免费看| 亚洲综合天堂网| 国产欧美视频在线| 亚洲一区波多野结衣二区三区| 亚洲色图欧美在线| 国产极品美女在线播放| 露脸真实国语乱在线观看| 在线观看视频99| 毛片免费网址| 色135综合网| 久久免费观看视频| 亚洲欧美精品在线| 国产在线观看第二页| 免费三A级毛片视频| 午夜视频www| 亚洲男人在线| 国产激情国语对白普通话| 欧美激情成人网| 国产精品综合久久久| 欧美在线观看不卡| 久久永久免费人妻精品| 亚洲最大在线观看| 亚洲女同一区二区| 日韩国产 在线| 在线另类稀缺国产呦| 国产精品一区二区国产主播| 极品国产一区二区三区| 青青草原国产av福利网站 | 国产精品区视频中文字幕| 青青国产在线| 日本欧美视频在线观看| 无码中文字幕精品推荐|