999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究

2021-06-29 06:56:28三亞學(xué)院
電子世界 2021年10期
關(guān)鍵詞:頁(yè)面旅游

三亞學(xué)院 楊 月

旅游行為特征已成為目前學(xué)者們的研究重點(diǎn)。學(xué)者們?cè)谝酝穆糜涡袨檠芯恐泻芏嗖捎脝?wèn)卷調(diào)查來(lái)獲取數(shù)據(jù)。而在信息時(shí)代,人們通過(guò)博客、微博、微信朋友圈來(lái)發(fā)布自己的旅游感觸,學(xué)者們便通過(guò)游客在網(wǎng)絡(luò)發(fā)布的網(wǎng)絡(luò)游記來(lái)獲取數(shù)據(jù)。近年來(lái),部分學(xué)者展開(kāi)了對(duì)旅游方面的研究,如林毅焜在基于文本挖掘的典型旅游網(wǎng)站的旅游分享研究以陜西省為例一文中,采用文本挖掘的方法,選取攜程網(wǎng)、去哪兒網(wǎng)等旅游網(wǎng)站作為研究樣本,對(duì)旅游游記中詞出現(xiàn)的頻率、語(yǔ)言所蘊(yùn)含的意義、網(wǎng)絡(luò)情感進(jìn)行分析。呂宛青等在基于網(wǎng)絡(luò)文本分析的麗江大研古城旅游迷思演變研究一文中通過(guò)對(duì)網(wǎng)絡(luò)游記和相關(guān)文獻(xiàn)的分析,發(fā)現(xiàn)了古城多年來(lái)旅游演變的根本原因。徐柳在婺源篁嶺品牌傳播策略的優(yōu)化研究——以游客網(wǎng)絡(luò)游記為樣本一文中,從消費(fèi)者感知視角來(lái)考量婺源篁嶺的品牌傳播效果,并就其品牌傳播策略的優(yōu)化進(jìn)行探討。劉彥花等在基于網(wǎng)絡(luò)游記的游客旅游行為特征分析一文中以到訪廣西的游客為研究對(duì)象,基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究旅客行為特征。本文基于游客發(fā)布于旅游網(wǎng)站的網(wǎng)絡(luò)游記,從吃、住、行、玩等方面歸納總結(jié)到訪三亞游客旅游行為特征,從而為三亞開(kāi)展合適的旅游景點(diǎn)宣傳提供參考,也為促進(jìn)三亞旅游行業(yè)的發(fā)展做出一定的貢獻(xiàn)。

1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

1.1 網(wǎng)絡(luò)爬蟲(chóng)定義

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,網(wǎng)絡(luò)爬蟲(chóng)在互聯(lián)網(wǎng)中的地位至關(guān)重要。面對(duì)互聯(lián)網(wǎng)龐大、海量的數(shù)據(jù),如何自動(dòng)且高效地獲取互聯(lián)網(wǎng)上為人們所用的數(shù)據(jù)是非常重要的一個(gè)問(wèn)題。而爬蟲(chóng)技術(shù)就很好的解決這一問(wèn)題。網(wǎng)絡(luò)爬蟲(chóng)是依靠預(yù)先設(shè)定好的規(guī)則而進(jìn)行自動(dòng)的抓取網(wǎng)絡(luò)信息的過(guò)程。網(wǎng)絡(luò)爬蟲(chóng)也叫做網(wǎng)頁(yè)追逐者,以往人們獲取互聯(lián)網(wǎng)信息都是采用手工的方式,這樣使得搜集成本過(guò)高、效率比較低下,而網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行數(shù)據(jù)信息的采集與整理時(shí),可以依靠預(yù)先設(shè)定好的規(guī)則自動(dòng)地從互聯(lián)網(wǎng)中爬取。如今在大數(shù)據(jù)時(shí)代,信息是一個(gè)企業(yè)生存的重要命脈,因此信息的采集工作對(duì)企業(yè)來(lái)說(shuō)至關(guān)重要。

1.2 網(wǎng)絡(luò)爬蟲(chóng)種類

網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)組成結(jié)構(gòu)和技術(shù)的實(shí)現(xiàn)上分為通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)等類型。通用網(wǎng)絡(luò)爬蟲(chóng)的爬取目標(biāo)是全互聯(lián)網(wǎng)資源,目標(biāo)數(shù)據(jù)、爬行范圍都很龐大、主要應(yīng)用于大型搜索引擎中。通用網(wǎng)絡(luò)爬蟲(chóng)的工作流程是先抓取網(wǎng)頁(yè),通過(guò)搜索引擎將準(zhǔn)備爬取的地址加入到通用爬蟲(chóng)的地址隊(duì)列中,然后進(jìn)行網(wǎng)頁(yè)上內(nèi)容的爬取。爬取后要對(duì)爬下來(lái)的數(shù)據(jù)進(jìn)行存儲(chǔ)、保存到本地,在這個(gè)過(guò)程中會(huì)存在把某個(gè)網(wǎng)頁(yè)大部分重復(fù)的內(nèi)容去除的情況。然后對(duì)爬下來(lái)的數(shù)據(jù)進(jìn)行預(yù)處理提取文字、分詞、消除噪音。

聚焦網(wǎng)絡(luò)爬蟲(chóng)是有選擇地按照預(yù)先定義好的主題進(jìn)行網(wǎng)頁(yè)爬取,目標(biāo)數(shù)據(jù)、爬行范圍相對(duì)通用網(wǎng)絡(luò)爬蟲(chóng)比較小。和通用爬蟲(chóng)相比,爬取目標(biāo)為與主題相關(guān)的頁(yè)面,它能夠從海量的信息庫(kù)中選擇精準(zhǔn)有效的信息,該爬蟲(chóng)可以很大的節(jié)省爬取所需的硬件和網(wǎng)絡(luò)資源,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。

增量式網(wǎng)絡(luò)爬蟲(chóng)通過(guò)爬蟲(chóng)程序監(jiān)測(cè)某網(wǎng)站數(shù)據(jù)改變的情況,以便可以爬取到這個(gè)網(wǎng)站更新后的數(shù)據(jù)。通過(guò)增量式爬蟲(chóng)可以繼續(xù)爬取因一些原因未完全爬完的數(shù)據(jù),或者網(wǎng)站更新的數(shù)據(jù)。

Web頁(yè)面按其存在方式可劃分為深層和表層頁(yè)面。表層頁(yè)面指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,能通過(guò)靜態(tài)鏈接直接獲取,不需要提交表單;深層頁(yè)面需提交一定的關(guān)鍵詞之后才能獲取得到的頁(yè)面,它不能通過(guò)靜態(tài)鏈接直接獲取。在互聯(lián)網(wǎng)中,表層頁(yè)面比深層頁(yè)面數(shù)量少的多,因此實(shí)際爬取過(guò)程中要想辦法爬取深層頁(yè)面。

1.3 爬行策略

全互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁(yè)面組成的。從理論上說(shuō),爬蟲(chóng)從任何一個(gè)頁(yè)面出發(fā),沿著鏈接都可爬完網(wǎng)上的所有頁(yè)面。由于網(wǎng)站及頁(yè)面具有非常復(fù)雜的鏈接結(jié)構(gòu),爬蟲(chóng)需要采取一定的爬行策略才能爬完網(wǎng)上所有頁(yè)面。實(shí)現(xiàn)一個(gè)完善的爬蟲(chóng)系統(tǒng),爬行策略至關(guān)重要。爬行策略有如下幾種:深度優(yōu)先爬行策略是爬蟲(chóng)沿著發(fā)現(xiàn)的鏈接先爬取一個(gè)網(wǎng)頁(yè),然后一直往前爬行,爬行到前面再也沒(méi)有其他鏈接為止,然后在返回到第一個(gè)頁(yè)面,沿著另一個(gè)鏈接再一直往前爬行。如圖1所示,爬取的順序是A→D→E→B→C→F→G;廣度優(yōu)先爬行策略:是指爬蟲(chóng)在一個(gè)頁(yè)面上發(fā)現(xiàn)多個(gè)網(wǎng)絡(luò)鏈接時(shí),不是沿著一個(gè)網(wǎng)絡(luò)鏈接一直向前爬行,而是先把頁(yè)面上同一層次鏈接都爬一遍,然后再沿著第二層頁(yè)面上發(fā)現(xiàn)的鏈接爬向第三層頁(yè)面。爬取的順序是A→B→C→D→E→F→G;大站優(yōu)先爬行策略是對(duì)于準(zhǔn)備抓取地址隊(duì)列中的所有網(wǎng)頁(yè),把其根據(jù)所屬的網(wǎng)站進(jìn)行分類,優(yōu)先爬取網(wǎng)站的網(wǎng)頁(yè)數(shù)量比其他多的網(wǎng)站。反鏈爬行策略是指的是一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)鏈接指向的數(shù)量,當(dāng)某個(gè)網(wǎng)頁(yè)的內(nèi)容受到其他人的推薦的程度高,這種網(wǎng)頁(yè)被優(yōu)先爬取。

圖1 網(wǎng)頁(yè)層次結(jié)構(gòu)圖

1.4 網(wǎng)絡(luò)爬蟲(chóng)的三種篩選技術(shù)

(1)正則表達(dá)式

在Python 編程過(guò)程中會(huì)常使用公式中的正則表達(dá)式。正則表達(dá)式和常用的通配符類似,是用來(lái)進(jìn)行文本匹配的工具。和常用的通配符相比,正則表達(dá)式更能精確描述編程者的要求。正則表達(dá)式匹配是網(wǎng)絡(luò)內(nèi)容分析與信息處理的關(guān)鍵技術(shù),它是由美國(guó)數(shù)學(xué)家提出來(lái)的一種強(qiáng)大的工具用于字符的匹配和替換,主要的功能是用來(lái)匹配、替換和提取。同時(shí)能夠非常快速精準(zhǔn)的處理一系列比較復(fù)雜的字符串的檢索、替換和提取,具有快速匹配文本進(jìn)行信息抽取的特點(diǎn)。普通字符,非打印字符,通用字符,原子表這些字符組成了正則的基本部分。描述和分析文本內(nèi)容可以適用正則表達(dá)式進(jìn)行文本匹配,一般的文本字符都是可以通過(guò)一定的轉(zhuǎn)化為對(duì)應(yīng)的正則表達(dá)式的形式。正則表達(dá)式雖然描述能力強(qiáng),但是若要實(shí)現(xiàn)匹配功能,還要進(jìn)行等價(jià)轉(zhuǎn)化。復(fù)雜的正則語(yǔ)義邏輯會(huì)增加時(shí)間和空間的復(fù)雜度,因此,正則表示不太利于大規(guī)模集合的構(gòu)造和高速的數(shù)據(jù)流匹配。

(2)XPath路徑語(yǔ)言

XPath語(yǔ)言是一種專門在XML文檔中用于查找想要信息的語(yǔ)言, XML程序可利用XPath在XML文檔中對(duì)元素和屬性進(jìn)行導(dǎo)航。之所以需要導(dǎo)航是因?yàn)閄ML文檔是用來(lái)進(jìn)行數(shù)據(jù)存儲(chǔ)的,若需要將數(shù)據(jù)提取出來(lái)使用,要通過(guò)查找標(biāo)簽和屬性來(lái)獲取存儲(chǔ)的數(shù)據(jù)。

(3)Beautiful Soup

Python一個(gè)網(wǎng)頁(yè)解析的庫(kù)是Beautiful Soup,Beautiful Soup最主要的功能是從可以從網(wǎng)頁(yè)抓取想要的數(shù)據(jù)。它可以從HTML或XML文件中提取數(shù)據(jù)。Beautiful soup支持不同的解析器,比如對(duì)HTML、XML、HTML5解析,一般情況下,用的比較多的是lxml解析器,編寫完整的應(yīng)用程序Beautiful Soup所需要的代碼較少。

2 Python含義

Python語(yǔ)言是高級(jí)語(yǔ)言具有很強(qiáng)的可讀性,c、c++、java等編程語(yǔ)言一般使用英文關(guān)鍵字,和這些語(yǔ)言相比較,Python是一種更有特色的交互式語(yǔ)言,用戶編程時(shí)可以在Python提示符后直接執(zhí)行代碼,還能夠簡(jiǎn)單有效地面向?qū)ο缶幊獭M瑫r(shí),該語(yǔ)言語(yǔ)法結(jié)構(gòu)比較獨(dú)特、交互性好、結(jié)構(gòu)也比較簡(jiǎn)單、相對(duì)其它語(yǔ)言編碼更容易,適合非計(jì)算機(jī)專業(yè)的人員。

3 游客旅游行為特征分析

游客往往把旅游游記通過(guò)網(wǎng)絡(luò)發(fā)布在一些網(wǎng)站,本文以2020年以來(lái)游客來(lái)三亞游玩后,發(fā)布在“攜程網(wǎng)”的數(shù)據(jù)為搜索范圍,在信息采集過(guò)程中將搜索范圍的網(wǎng)址作為網(wǎng)絡(luò)爬蟲(chóng)的目標(biāo)網(wǎng)址,最后采集這些信息,信息采集完成后將其導(dǎo)出為EXCEL表格數(shù)據(jù)。本次爬蟲(chóng)共收集到2萬(wàn)余條網(wǎng)絡(luò)游記,通過(guò)爬蟲(chóng)選取了100余篇,為了確保數(shù)據(jù)的可靠性以及研究的真實(shí)性,需要對(duì)選取的樣本進(jìn)行預(yù)處理,在處理樣本時(shí)需按照以下步驟進(jìn)行:一是去噪利用結(jié)巴庫(kù)中的停用詞將中文標(biāo)點(diǎn)、英文單詞、符號(hào)等與內(nèi)容無(wú)關(guān)的部分剔除。二是利用結(jié)巴庫(kù)中的cut方法采用精確模式進(jìn)行文章的分詞。三是利用統(tǒng)計(jì)的方法將詞頻進(jìn)行統(tǒng)計(jì)排序并將前二十幾名詞頻進(jìn)行分析。

分析的結(jié)果顯示:當(dāng)前游客來(lái)三亞游玩常用的旅游交通工具有航空、鐵路等,游客從客源地到三亞的交通以飛機(jī)居多,表明大部分游客來(lái)三亞都是選擇飛機(jī)作為交通工具。游客來(lái)三亞的主要有度假、拍攝婚紗等活動(dòng),另外從游記的詞頻排名中可以看出選擇“亞龍灣”“海棠灣”住宿比較多。旅游景點(diǎn)方面“亞龍灣”、“蜈支洲島”、“天涯海角”“南山寺”出現(xiàn)頻次較多。飲食方面選擇海鮮、小吃種類比較多。

總結(jié):本文通過(guò)研究網(wǎng)絡(luò)爬蟲(chóng)技術(shù),以三亞攜程上網(wǎng)絡(luò)游記為例,深入理解網(wǎng)絡(luò)爬蟲(chóng)的概念、爬蟲(chóng)策略等各個(gè)方面。數(shù)據(jù)顯示通過(guò)詞頻分析可以得出:第一,游客在三亞的主要有度假、拍攝婚紗等活動(dòng)。第二,這些活動(dòng)所寫的游記高頻詞頻主要是吃、住、行、玩這幾個(gè)方面。因此,三亞應(yīng)從這些詞頻出現(xiàn)比較多的各個(gè)方面發(fā)力,以提高三亞旅游業(yè)的發(fā)展。

猜你喜歡
頁(yè)面旅游
微信群聊總是找不到,打開(kāi)這個(gè)開(kāi)關(guān)就好了
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
我們一起“云旅游”
少兒科技(2022年4期)2022-04-14 23:48:10
小A去旅游
旅游
旅游的最后一天
出國(guó)旅游的42個(gè)表達(dá)
同一Word文檔 縱橫頁(yè)面并存
淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
主站蜘蛛池模板: 精品一区二区久久久久网站| 四虎精品黑人视频| 中文字幕乱码二三区免费| 日本免费新一区视频| 久久国产精品无码hdav| 成人av手机在线观看| 亚洲成在人线av品善网好看| 国产成人精品视频一区视频二区| 亚洲国产清纯| 日韩国产亚洲一区二区在线观看| 91av国产在线| 国产SUV精品一区二区| 好吊色国产欧美日韩免费观看| 日韩成人在线视频| 国产成人欧美| 国产亚洲精品97在线观看| 在线色综合| 亚洲欧美不卡中文字幕| 91精品啪在线观看国产91| 尤物午夜福利视频| 操美女免费网站| 亚洲中文字幕97久久精品少妇| 久久国产精品电影| 亚洲精品第一页不卡| 99热6这里只有精品| 国产精品黄色片| 99re在线免费视频| 色亚洲激情综合精品无码视频 | 99尹人香蕉国产免费天天拍| 国内丰满少妇猛烈精品播 | 激情无码视频在线看| 99精品国产电影| 亚洲精品在线91| 精品人妻一区二区三区蜜桃AⅤ| 六月婷婷精品视频在线观看| 国产欧美成人不卡视频| 久久国产精品电影| 色九九视频| 人妻精品久久无码区| 91精品国产自产在线老师啪l| a级毛片免费看| 日韩123欧美字幕| 无码久看视频| 国产乱论视频| 狠狠色丁香婷婷综合| 国产 日韩 欧美 第二页| 久久a毛片| 国产97视频在线观看| 国产午夜无码专区喷水| 亚洲综合精品香蕉久久网| 黄片在线永久| 欧美性色综合网| 四虎精品国产AV二区| 日韩精品毛片人妻AV不卡| 中国一级毛片免费观看| 亚洲欧洲日产国产无码AV| 精品国产一二三区| 久久无码高潮喷水| 国产精品免费福利久久播放 | 久久亚洲日本不卡一区二区| 免费人成在线观看成人片| 日本不卡视频在线| 国产亚洲精品自在线| 欧美激情福利| 欧美日韩成人| 欧美a级在线| 中文纯内无码H| 午夜综合网| 一级一级一片免费| 中国国产高清免费AV片| AV不卡在线永久免费观看| 在线观看精品自拍视频| 国产精品视频猛进猛出| 国产精品视频系列专区| 四虎国产在线观看| 911亚洲精品| 99热这里只有免费国产精品| 欧美日韩国产综合视频在线观看| 爽爽影院十八禁在线观看| 思思热精品在线8| 日韩一级二级三级| 亚洲精品视频免费|