999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息采集方法

2019-08-08 06:23:04繆治任敏敏
電腦知識(shí)與技術(shù) 2019年18期
關(guān)鍵詞:信息

繆治 任敏敏

摘要:在網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息的采集方法上,也就是說(shuō)在網(wǎng)絡(luò)的環(huán)境下對(duì)地理空間信息進(jìn)行獲取和相關(guān)資料的搜集工作,對(duì)于地理空間信息的研究具有十分重要的作用,是地理空間研究領(lǐng)域獲取信息最為重要的途徑之一。在網(wǎng)絡(luò)空間下對(duì)數(shù)據(jù)的主題信息的采集工作是進(jìn)行地理空間信息采集的重要工作內(nèi)容,是地理空間信息進(jìn)行研究最基本的根據(jù)之一。數(shù)據(jù)網(wǎng)絡(luò)中,對(duì)于地理空間信息的采集具有以下幾個(gè)特點(diǎn):一是數(shù)據(jù)采集主題的門類比較多,采集的方法各種各樣,數(shù)據(jù)的格式也是千差萬(wàn)別,對(duì)于如何快速、準(zhǔn)確、高效地獲取地理空間信息來(lái)說(shuō)是一個(gè)復(fù)雜的問(wèn)題。

關(guān)鍵詞:信息采集;網(wǎng)絡(luò)爬蟲(chóng);地理空間;采集方法

中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)18-0009-02

Abstract: In terms of the collection method of Geospatial information of web spiders, that is to say, the acquisition of Geospatial Information and the collection of relevant data in the network environment play a very important role in the research of Geospatial information, and is one of the most important ways to obtain information in the field of Geospatial Information. The collection of the subject information of the data in the network space is an important work of Geospatial information collection and is one of the most basic bases of Geospatial information research. In the data network, the collection of Geospatial information has the following characteristics: first, the subject of data collection is more categories, collection methods are various, the format of data is also varied, for how to quickly, accurately and efficiently obtain Geospatial information is a complex problem.

Key words: information collection; web spider; geographic space; collection method

隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,信息化的社會(huì)發(fā)展已經(jīng)進(jìn)入了大數(shù)據(jù)的發(fā)展時(shí)代,人們可以通過(guò)信息的采集發(fā)現(xiàn)用戶的喜好,進(jìn)而進(jìn)行精準(zhǔn)化的營(yíng)銷活動(dòng)。而在網(wǎng)絡(luò)空間上,地理信息的相關(guān)主題變得越來(lái)越多,除了谷歌以及百度地圖、高德地圖等符合標(biāo)準(zhǔn)之外,還有一些網(wǎng)絡(luò)服務(wù),例如:開(kāi)放大學(xué)的圖書(shū)館也包含了地理空間的信息。在開(kāi)放大學(xué)的地理空間信息的獲取上需要從半結(jié)構(gòu)化或者結(jié)構(gòu)化的網(wǎng)頁(yè)中抽取數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行信息上的采集和轉(zhuǎn)化才可以對(duì)數(shù)據(jù)進(jìn)行使用和挖掘,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的利用。相對(duì)于開(kāi)放大學(xué)的這種數(shù)據(jù)收集方式特性,網(wǎng)絡(luò)爬蟲(chóng)可以很好地解決這一類問(wèn)題,對(duì)數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)的信息采集,然后根據(jù)數(shù)據(jù)有關(guān)需要和要求,將數(shù)據(jù)存入到相應(yīng)的數(shù)據(jù)庫(kù)中去,為日后的采集工作提供便利,同時(shí)也為構(gòu)建地理信息的主題信息檢索提供了另一種路徑,提供數(shù)據(jù)更為深層次的數(shù)據(jù)檢索。

1 網(wǎng)絡(luò)爬蟲(chóng)的基本概念

網(wǎng)絡(luò)爬蟲(chóng)就是一個(gè)可以自動(dòng)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行提取的程序,它主要是根據(jù)搜索引擎的指示從網(wǎng)站上下載網(wǎng)頁(yè)數(shù)據(jù),從這個(gè)角度來(lái)看,網(wǎng)絡(luò)爬蟲(chóng)也是搜索引擎的關(guān)鍵組成部分,網(wǎng)絡(luò)爬蟲(chóng)的基本工作原理是從一個(gè)目標(biāo)站點(diǎn)出發(fā),舉例來(lái)說(shuō)就是在一個(gè)固定的門戶網(wǎng)站上對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)的搜集。然后通過(guò)網(wǎng)絡(luò)的協(xié)議獲取網(wǎng)頁(yè)的資源,分析頁(yè)面的內(nèi)容和及時(shí)的提取出相關(guān)數(shù)據(jù)的鏈接,以循環(huán)迭代的方式對(duì)整個(gè)數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行目標(biāo)的訪問(wèn)。網(wǎng)絡(luò)爬蟲(chóng)對(duì)于數(shù)據(jù)的采集以及訪問(wèn)是具有一定目標(biāo)的,可以精準(zhǔn)地找到內(nèi)容,同時(shí)將有關(guān)的內(nèi)容及時(shí)存入數(shù)據(jù)庫(kù)中,為地理信息空間的采集提供了一定便利,同時(shí)可以按照數(shù)據(jù)規(guī)定的格式對(duì)采取到的數(shù)據(jù)進(jìn)行分類儲(chǔ)存。

網(wǎng)絡(luò)爬蟲(chóng)工作最為基本的步驟,如圖1所示。網(wǎng)絡(luò)爬蟲(chóng)最開(kāi)始是通過(guò)最基本的搜索引擎找到預(yù)定目標(biāo)的網(wǎng)絡(luò),然后通過(guò)網(wǎng)絡(luò)加入目標(biāo)的網(wǎng)頁(yè)中去,之后網(wǎng)絡(luò)爬蟲(chóng)就開(kāi)始按照既定的流程去進(jìn)行工作了。首先對(duì)網(wǎng)站的網(wǎng)址進(jìn)行讀取,然后根據(jù)對(duì)網(wǎng)站網(wǎng)頁(yè)數(shù)據(jù)的訪問(wèn)讀取網(wǎng)頁(yè)的內(nèi)容,對(duì)于系統(tǒng)化、結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行采集以及搜集,抽取目標(biāo)化的數(shù)據(jù)內(nèi)容。之后是解析網(wǎng)頁(yè)內(nèi)容里面包含的其他的網(wǎng)址,通過(guò)一定的算法對(duì)有關(guān)的數(shù)據(jù)進(jìn)行判斷,是否已經(jīng)對(duì)數(shù)據(jù)進(jìn)行有關(guān)解讀工作。如果網(wǎng)絡(luò)中的網(wǎng)址沒(méi)有對(duì)數(shù)據(jù)進(jìn)行抓取,就將其放入這個(gè)未抓入隊(duì)列中去,如果已經(jīng)對(duì)數(shù)據(jù)進(jìn)行搜集和抓取就要計(jì)入已經(jīng)抓取的范圍中去,然后對(duì)數(shù)據(jù)的搜集以及抓取工作進(jìn)行循環(huán)的工作,直到網(wǎng)絡(luò)的隊(duì)列為空。網(wǎng)絡(luò)爬蟲(chóng)的優(yōu)點(diǎn)就是可以精準(zhǔn)的搜集網(wǎng)絡(luò)的相關(guān)的網(wǎng)頁(yè),排除很多沒(méi)有必要或者不相關(guān)的網(wǎng)頁(yè),實(shí)現(xiàn)滿足人們對(duì)于信息搜素的精確性的要求與精準(zhǔn)化搜索的目的。

2 利用網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行地理空間信息采集的工作流程

利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)地理空間信息進(jìn)行采集已經(jīng)成為網(wǎng)絡(luò)工作中的重要的途徑之一,對(duì)于采集空間信息具有重要的作用,具體的工作的流程參考圖2。

對(duì)獲取的地理空間信息進(jìn)行引擎搜索與有關(guān)的網(wǎng)頁(yè)的匹配度。

第一,通過(guò)人工的查看以及有關(guān)技術(shù)干預(yù)的方式,對(duì)網(wǎng)絡(luò)爬蟲(chóng)搜集出來(lái)的相關(guān)的網(wǎng)頁(yè)進(jìn)行提前的預(yù)判斷,進(jìn)一步提供網(wǎng)絡(luò)爬蟲(chóng)查找數(shù)據(jù)與網(wǎng)頁(yè)相關(guān)度檢索,提高與關(guān)鍵詞的相關(guān)度,最后確立需要進(jìn)行地理空間信息的采集的目標(biāo)的網(wǎng)站。

第二,利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)整個(gè)目標(biāo)地理空間信息有關(guān)的文本信息,形成一個(gè)信息搜索的信息庫(kù),進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘和處理,為數(shù)據(jù)提供最為基本的支撐。要賦予搜集的目標(biāo)網(wǎng)站較高的價(jià)值,就需要進(jìn)行持續(xù)的跟蹤,可以利用網(wǎng)絡(luò)爬蟲(chóng)定期地對(duì)搜集到的網(wǎng)站進(jìn)行信息的爬取,檢測(cè)網(wǎng)站上需要關(guān)注的地理信息,實(shí)現(xiàn)地理空間信息的價(jià)值需要對(duì)信息進(jìn)行自動(dòng)化搜索。

第三,利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)整個(gè)目標(biāo)地理空間信息有關(guān)的文本信息,形成一個(gè)信息搜索的信息庫(kù),進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘處理,為數(shù)據(jù)提供最為基本的支撐。

第四,要賦予搜集的目標(biāo)網(wǎng)站較高的價(jià)值,就需要進(jìn)行持續(xù)的跟蹤,可以利用網(wǎng)絡(luò)爬蟲(chóng)定期對(duì)搜集到的網(wǎng)站進(jìn)行信息的爬取,檢測(cè)網(wǎng)站上需要關(guān)注的地理信息,實(shí)現(xiàn)地理空間信息的價(jià)值需要對(duì)信息進(jìn)行自動(dòng)化搜索。

3 利用scrapy網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行地理空間信息的采集

把大學(xué)開(kāi)放網(wǎng)站收錄的地圖網(wǎng)頁(yè)作為目標(biāo)網(wǎng)站進(jìn)行地理信息空間的采集,通過(guò)利用網(wǎng)絡(luò)爬蟲(chóng)可以構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)的框架,從相關(guān)的數(shù)據(jù)網(wǎng)站對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)的抓取工作。在爬蟲(chóng)進(jìn)行數(shù)據(jù)采集工作的時(shí)候,首先,需要建立一個(gè)信息采集項(xiàng)目,在scrapy網(wǎng)絡(luò)爬蟲(chóng)下進(jìn)行運(yùn)行工作,這項(xiàng)工作會(huì)包括網(wǎng)絡(luò)爬蟲(chóng)的目錄,對(duì)地圖的信息進(jìn)行掃描。scrapy網(wǎng)絡(luò)爬蟲(chóng)定義了如何對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)的爬取以及如何對(duì)數(shù)據(jù)進(jìn)行搜集,包括對(duì)數(shù)據(jù)的提取以及對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)化提取的步驟。利用scrapy網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行數(shù)據(jù)的提取工作可以對(duì)目標(biāo)網(wǎng)頁(yè)進(jìn)行信息的精準(zhǔn)采集,后續(xù)如果需要對(duì)工作進(jìn)行持續(xù)的跟蹤,可以將該網(wǎng)站加入目標(biāo)的網(wǎng)址,定期對(duì)scrapy網(wǎng)絡(luò)爬蟲(chóng)的數(shù)據(jù)進(jìn)行搜集與持續(xù)的跟進(jìn)。舉例來(lái)說(shuō):如表1。通過(guò)對(duì)數(shù)據(jù)的關(guān)鍵字的提取,然后網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行數(shù)據(jù)搜索,查詢所需要的地址以及對(duì)信息進(jìn)行分類編碼。

4 結(jié)束語(yǔ)

網(wǎng)絡(luò)空間下對(duì)數(shù)據(jù)的主題信息的采集工作是進(jìn)行地理空間信息采集工作的重要的工作的內(nèi)容,是地理空間信息進(jìn)行研究的最為基本的根據(jù)之一,為此,本文對(duì)目前網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行數(shù)據(jù)采集的作業(yè)的流程以及對(duì)網(wǎng)絡(luò)爬蟲(chóng)的數(shù)據(jù)網(wǎng)站的信息的采集的工作流程進(jìn)行了詳細(xì)的探討,提出了網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行信息采集以及搜集的方法,對(duì)網(wǎng)頁(yè)的數(shù)據(jù)進(jìn)行精準(zhǔn)化的提取,使用這種方法可以對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)化的提取,提高數(shù)據(jù)的自動(dòng)化的采集程度,為我國(guó)的后續(xù)的地理空間信息的采集工作中的 主題數(shù)據(jù)庫(kù)的信息提供了一定的基礎(chǔ),為數(shù)據(jù)的繼續(xù)對(duì)挖掘提供了支撐。據(jù)采集的主題的門類比較多,對(duì)于如何快速、準(zhǔn)確、高效的獲取地理空間信息來(lái)說(shuō)是一個(gè)問(wèn)題,基于網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息的采集辦法對(duì)這類問(wèn)題進(jìn)行解決,這種方法在網(wǎng)絡(luò)信息的采集方面具有省時(shí)間、高效以及便捷的優(yōu)點(diǎn),大大地提高了地理空間信息采集的效率,促進(jìn)網(wǎng)絡(luò)數(shù)據(jù)信息采集的精準(zhǔn)化。

參考文獻(xiàn):

[1] 鞏保勝, 魏春苗. 基于網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息采集方法[J]. 甘肅科技, 2016, 32(7):17-18.

[2] 曾李陽(yáng). 基于分布式網(wǎng)絡(luò)爬蟲(chóng)的Web空間數(shù)據(jù)獲取與管理方法研究[D]. 西南交通大學(xué), 2016.

[3] 易曉峰.基于WebGIS系統(tǒng)的分布式空間數(shù)據(jù)庫(kù)的集成技術(shù)研究與應(yīng)用[D].武漢理工大學(xué), 2005.

[4] 鐘凱.基于網(wǎng)格的地理空間數(shù)據(jù)庫(kù)訪問(wèn)和操作中間件研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2009.

[5] 馬聯(lián)帥.基于Scrapy的分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 西安電子科技大學(xué), 2015.

[6] 陶興海.基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)[J]. 電子技術(shù)與軟件工程, 2017(11):23-23.

[7] 孫歆,戴樺,孔曉昀,等.基于Scrapy的工業(yè)漏洞爬蟲(chóng)設(shè)計(jì)[J]. 網(wǎng)絡(luò)空間安全, 2017,8(1):66-71.

【通聯(lián)編輯:代影】

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會(huì)信息
信息超市
展會(huì)信息
展會(huì)信息
展會(huì)信息
展會(huì)信息
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产在线啪| 国产在线高清一级毛片| 伊人91视频| 黄色在线不卡| 99久久免费精品特色大片| 免费国产高清视频| 日本不卡在线播放| 国产黑丝一区| 91在线精品免费免费播放| 国产91高跟丝袜| 国产91高清视频| 最新国语自产精品视频在| 亚洲第一国产综合| 无码福利视频| 国产69囗曝护士吞精在线视频| 一级片免费网站| 久久夜色精品| 国产制服丝袜91在线| 国产又大又粗又猛又爽的视频| 国产在线无码一区二区三区| 特级精品毛片免费观看| 超清无码一区二区三区| 亚洲区欧美区| 女人av社区男人的天堂| 久久人人妻人人爽人人卡片av| 亚洲综合中文字幕国产精品欧美| 在线不卡免费视频| 在线看免费无码av天堂的| 久久国产V一级毛多内射| 精品无码一区二区三区电影| 免费观看国产小粉嫩喷水 | 午夜不卡福利| 麻豆精品久久久久久久99蜜桃| 亚洲男人天堂网址| 成人国产精品视频频| 久久久久无码精品国产免费| 中国特黄美女一级视频| 欧美啪啪网| 久久精品人人做人人爽| 亚洲成人网在线观看| 国产在线精彩视频二区| 亚洲全网成人资源在线观看| 97色伦色在线综合视频| 人妻中文字幕无码久久一区| 亚洲一级毛片| 欧美在线网| 亚亚洲乱码一二三四区| 精品国产成人av免费| 日韩欧美中文亚洲高清在线| 亚洲综合二区| 欧美日韩午夜| 久久国产精品无码hdav| 成年av福利永久免费观看| 欧美亚洲国产日韩电影在线| 人妻丰满熟妇AV无码区| 国产在线日本| 久久国产精品影院| 国产精品免费久久久久影院无码| 在线观看免费人成视频色快速| 91麻豆精品视频| 欧美一区二区自偷自拍视频| 2048国产精品原创综合在线| 精品视频福利| 国产男女免费完整版视频| 日韩无码黄色网站| 亚洲精品国产日韩无码AV永久免费网 | 在线看片免费人成视久网下载| 欧美19综合中文字幕| 欧美日韩国产成人高清视频| 青青草原国产| 激情在线网| 久久无码高潮喷水| 欧美人人干| 亚洲一区无码在线| 一级毛片免费观看不卡视频| 色悠久久综合| 亚洲国产成人精品青青草原| 国产精品视频第一专区| 国产永久免费视频m3u8| 72种姿势欧美久久久久大黄蕉| 毛片网站在线看| 国产综合精品日本亚洲777|