999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用分布式爬蟲對中華民間故事的資源整合

2020-06-10 07:41:06趙鵬程嚴軼軒范巡禮
電子技術與軟件工程 2020年4期
關鍵詞:可視化

趙鵬程 嚴軼軒 范巡禮

(西北大學信息科學與技術學院 陜西省西安市 710127)

1 項目背景與項目步驟

如今網上資源魚龍混雜,資源分布太廣,并且重復率十分高。一般普通用戶所采用的的搜索引擎大多為百度,必應等,如果利用傳統的搜索引擎進行民間故事的索引,會發現搜索結果繁多且雜,且網頁大多含有廣告等無關信息。普通人想要進行這方面的搜索會十分困難,而當我們的青少年兒童想要進行搜索時則更加容易受到眾多廣告以及不明網頁的誤導。

項目步驟首先從初始網頁集合開始,分析網頁布局并提取故事內容,然后設計分布式結構,將爬取內容進行分類,最后進行可視化展示。

2 分析網頁布局提取故事內容

網頁被HTML使用標記標簽來進行描述,WEB瀏覽器讀取相應HTML文檔并且最終用網頁的形式來展示給用戶。以chrome瀏覽器為例,打開某故事網站,右鍵審查元素,發現其部分網頁布局如圖1所示。

發現大部分正文包含在標簽內,我們可以借此定位全網頁的標簽,然后直接爬取其標簽內容,也有部分網頁布局更加復雜,這時候需要借助HTML中的其他屬性來進行定位(class,name等)。本項目采用python,借助scrapy這種通用的爬蟲框架,此處使用xpath在頁面中查找元素為例,提取div塊當中class名稱為ic的標簽內容存儲到lists列表變量當中:

lists = response.xpath(".//div[@class = 'ic']//@href").extract()

爬取獲得的數據還需要進行去除冗余的處理,按照上面的方法,實際上已經只提取了正文的主要部分,去除了大部分數據,然后對數據進行正則匹配等操作,主要去除空格和多余的空行。

3 分布式的設計

基于scrapy框架,首先由spider生成相應網絡的請求,通過調度器scheduler將請求發送給下載器downloader,下載器獲取相應的網絡數據之后返回消息response給spiders,最終由spiders將數據放在item容器里。其中scrapy engine負責整個框架所有組件數據流的流通,并且控制相應的動作[1],架構圖如圖2所示。

圖1

圖2

圖3

在此基礎上,我們將redis數據庫與scrapy相結合進而進一步實現分布式的思想,scrapy-redis的思路便是在原本的基礎上建立一個隊列,spiders生成請求之后直接將網絡請求發送給redis隊列,最后經過調度器scheduler將隊列中的請求提取出來。從而我們可以建立多個調度器,每個調度器都可以從redis當中提取相應的請求(同時也可以存入請求),進一步實現了利用多服務器分布爬取的目的[2],分布式爬蟲架構圖如圖3所示。

圖4

4 數據分類

我們總計爬取了42847篇民間故事,并且根據目標網站的內容分成了十三類:“歷史故事”、“短篇故事”、“民間故事”、“神話故事”、“成語故事”、“中國野史”、“黨史故事”、“歷史人物”、“野史秘聞”、“文史百科”、“戰史風云”、“歷史解密”和“風云人物”。統計出每個類別的數據如圖4所示。

并且在每個分類中,統計出頻率最高的詞源繪制成為圖譜詞云(圖5)。

圖5

圖6

5 可視化展示

租賃服務器搭建網站,建立一個簡潔的搜索系統,由于數據量較多,并且未來可能會爬取更多的數據,在存儲與搜索方面使用ElasticSearch框架檢索相關數據并且返回統計結果。其設計理念即在lucene的基礎上,通過倒排索引的方式進行快速查詢。前段技術棧采用常見的HTML、JS等語言。設計效果如圖6所示。

6 項目總結

本文敘述了分布式爬蟲的基本原理和爬取策略,展示了項目的基本流程,對數據進行了分析和可視化處理,搭建了相應的檢索工具以便用戶使用。

雖然項目總體進展良好,但是也存在一些問題,例如許多網站有校驗碼限制了爬蟲的效率,再者就是爬蟲的效率依舊需要提高,對于校驗碼問題,可以使用機器學習進行圖像識別進行自動校驗,針對爬蟲效率可以設計更加優化的算法以及增加從機的數量。

猜你喜歡
可視化
無錫市“三項舉措”探索執法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
三維可視化信息管理系統在選煤生產中的應用
選煤技術(2022年2期)2022-06-06 09:13:12
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語境下信息可視化新趨勢
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 国产中文一区二区苍井空| 午夜少妇精品视频小电影| 亚洲高清免费在线观看| 99热这里只有精品国产99| 99在线观看免费视频| 中文字幕亚洲乱码熟女1区2区| 亚洲人成在线免费观看| 激情综合图区| 日韩毛片在线播放| 伊大人香蕉久久网欧美| 综合亚洲网| 伊人91在线| 亚洲人成影院午夜网站| 亚洲AV无码一区二区三区牲色| 午夜爽爽视频| 操操操综合网| 粗大猛烈进出高潮视频无码| 无码人中文字幕| 日本日韩欧美| 77777亚洲午夜久久多人| 久久香蕉国产线看观看式| 在线毛片网站| 日韩国产黄色网站| 3344在线观看无码| 老汉色老汉首页a亚洲| 国产精品嫩草影院av| P尤物久久99国产综合精品| a级免费视频| 精品91视频| 十八禁美女裸体网站| 午夜欧美理论2019理论| 亚洲成a人片77777在线播放 | 国产成人一区| 三级视频中文字幕| 亚洲欧美自拍一区| 欧美成人亚洲综合精品欧美激情| 欧美日韩另类在线| 亚洲女同一区二区| 在线观看国产一区二区三区99| 精品剧情v国产在线观看| 国产一区二区丝袜高跟鞋| 欧美天堂在线| 亚洲AV人人澡人人双人| 国产第一福利影院| 亚洲无码精品在线播放| 欧美啪啪一区| 欧美一区福利| 在线亚洲精品福利网址导航| 国产91av在线| 亚洲AV无码久久精品色欲| 中文字幕在线播放不卡| 园内精品自拍视频在线播放| 国产va免费精品| 欧美精品v日韩精品v国产精品| 国产无码性爱一区二区三区| 亚洲第一视频区| 国产精品久久久久久久久kt| 国产尤物在线播放| 91久久国产热精品免费| 亚洲成人一区在线| 在线欧美a| 无码区日韩专区免费系列| 欧美国产日韩在线| 国产小视频免费| 精品一区二区久久久久网站| 亚洲黄色成人| 在线不卡免费视频| 2020亚洲精品无码| 亚洲中文精品久久久久久不卡| 九九热精品免费视频| 久久这里只有精品免费| 国产熟睡乱子伦视频网站| 精品久久高清| 色欲不卡无码一区二区| 欧美在线视频不卡第一页| 欧美日韩一区二区三| 999福利激情视频| 国产精品久久久精品三级| 人妻丰满熟妇αv无码| 夜夜拍夜夜爽| 精品亚洲欧美中文字幕在线看| 日本成人不卡视频|