網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集技術(shù)在旅游行業(yè)中的應(yīng)用與實(shí)現(xiàn)

2021-09-08 02:02:42張鵬

中國(guó)新通信 2021年14期

張鵬

引言：

目前，我國(guó)開啟了全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家的新征程。面對(duì)國(guó)內(nèi)外環(huán)境復(fù)雜多變形勢(shì)，我國(guó)提出加快構(gòu)建以國(guó)內(nèi)大循環(huán)為主體，國(guó)際國(guó)內(nèi)雙循環(huán)相互促進(jìn)的新發(fā)展戰(zhàn)略。旅游業(yè)作為國(guó)家經(jīng)濟(jì)社會(huì)發(fā)展的重要組成部分既有新機(jī)遇，也面臨新挑戰(zhàn)。

科學(xué)技術(shù)飛速發(fā)展，為旅游業(yè)提供了新動(dòng)能，也提出了創(chuàng)新發(fā)展的新要求。大數(shù)據(jù)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等新一輪信息技術(shù)不斷突破，深刻地改變著旅游業(yè)的發(fā)展格局，用數(shù)據(jù)管理、服務(wù)、決策，對(duì)于培育繁榮國(guó)內(nèi)旅游市場(chǎng)，充分釋放內(nèi)需潛力，促進(jìn)國(guó)內(nèi)大循環(huán)，具有十分重要的支撐作用。

一、用數(shù)據(jù)支撐管理已成為政府部門迫切需要

旅游行業(yè)是多種行業(yè)服務(wù)的綜合集成，有很強(qiáng)的復(fù)雜性和綜合性，涉及旅游、交通、天氣、酒店、餐飲等多個(gè)服務(wù)行業(yè)，需要多個(gè)行業(yè)通力合作提供一盤棋服務(wù)。國(guó)內(nèi)著名景點(diǎn)景區(qū)的供給數(shù)量相對(duì)于眾多游客差距，面對(duì)大量游客的需求，再加上重要節(jié)假日時(shí)間較集中，經(jīng)常會(huì)出現(xiàn)，由于出行計(jì)劃路線沖突導(dǎo)致游客擁擠，旅游體驗(yàn)質(zhì)量不高等問題。目前，旅游行業(yè)有關(guān)管理部門，為加強(qiáng)管理，提升服務(wù)質(zhì)量，要求各地嚴(yán)格落實(shí)“限量、預(yù)約、錯(cuò)峰”措施，控制好接待游客數(shù)量，引導(dǎo)游客間隔進(jìn)入景區(qū)、錯(cuò)峰進(jìn)行游覽，將流量管控關(guān)口前置，及時(shí)發(fā)布旅游提示，為游客出行提供參考。面對(duì)以上需要，旅游行業(yè)有關(guān)管理部門可借助大數(shù)據(jù)分析，強(qiáng)化行業(yè)管理，開展業(yè)務(wù)和服務(wù)模式創(chuàng)新。

基于這樣的需求，經(jīng)過前期可行性分析和統(tǒng)一規(guī)劃，本文將采用網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集技術(shù)，對(duì)互聯(lián)網(wǎng)旅游信息進(jìn)行掃描汲取，實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)旅游信息的采集。旅游行業(yè)有關(guān)管理部門可再結(jié)合多年來建設(shè)相關(guān)信息系統(tǒng)形成的數(shù)據(jù)積累，實(shí)現(xiàn)旅游相關(guān)信息多維度采集和匯總，為實(shí)現(xiàn)數(shù)據(jù)的多維度挖掘和關(guān)聯(lián)分析，輔助相關(guān)政策出臺(tái)、旅游提示發(fā)布等提供科學(xué)數(shù)據(jù)支撐。

二、互聯(lián)網(wǎng)旅游信息采集需求

目前，我國(guó)網(wǎng)民規(guī)模為9.04億。游客通過網(wǎng)絡(luò)方式查詢制定出行計(jì)劃、定制購(gòu)買旅游產(chǎn)品、分享出行體驗(yàn)、投訴問題意愿強(qiáng)烈。借助網(wǎng)絡(luò)爬蟲等技術(shù)，對(duì)互聯(lián)網(wǎng)多維度旅游信息進(jìn)行采集，具有部署方便、運(yùn)行高效、采集穩(wěn)定等優(yōu)勢(shì)。

旅游采集數(shù)據(jù)類型多樣，涵蓋旅游產(chǎn)品資源、營(yíng)銷推廣、輿情觀點(diǎn)、游客行為等多個(gè)方面。旅游資源信息，指旅游要素的基礎(chǔ)數(shù)據(jù)項(xiàng)，主要包括旅游目的地、星級(jí)酒店、A級(jí)景區(qū)、旅行社及導(dǎo)游等要素的基礎(chǔ)信息。旅游營(yíng)銷信息，指旅游產(chǎn)品或旅游服務(wù)的生產(chǎn)商所提供的旅游服務(wù)、產(chǎn)品和項(xiàng)目。旅游輿情監(jiān)測(cè)信息，對(duì)互聯(lián)網(wǎng)上旅游者及旅游相關(guān)的言論和觀點(diǎn)進(jìn)行監(jiān)測(cè)和預(yù)測(cè)的行為。游客網(wǎng)絡(luò)行為信息，通過互聯(lián)網(wǎng)上的信息分析，研究游客的網(wǎng)絡(luò)行為，從而進(jìn)行網(wǎng)絡(luò)用戶分析，用戶消費(fèi)潛力、消費(fèi)行為和消費(fèi)動(dòng)機(jī)分析等。

旅游采集數(shù)據(jù)來源渠道廣泛，既包括景區(qū)、旅行社、酒店等網(wǎng)站的結(jié)構(gòu)化旅游要素，也包括博客、新聞、貼吧、微博等非結(jié)構(gòu)化旅游衍生數(shù)據(jù)。旅游資源信息，主要來源于省、市級(jí)旅游行政管理部門政務(wù)網(wǎng)站和資訊網(wǎng)站。旅游營(yíng)銷信息，主要來自星級(jí)酒店、A級(jí)景區(qū)、旅行社等旅游企業(yè)網(wǎng)站信息和導(dǎo)游信息。旅游輿情信息，主要來自門戶網(wǎng)站微博、國(guó)內(nèi)知名論壇、重要輿情網(wǎng)站，社交網(wǎng)絡(luò)和社區(qū)。游客網(wǎng)絡(luò)行為信息，主要來自對(duì)攜程網(wǎng)、美團(tuán)點(diǎn)評(píng)、去哪兒網(wǎng)等評(píng)價(jià)類數(shù)據(jù)。

旅游采集方式及更新頻率需全面考慮數(shù)據(jù)類型和數(shù)據(jù)渠道各自特征，可按照動(dòng)態(tài)和靜態(tài)對(duì)相關(guān)采集信息進(jìn)行分類設(shè)置。動(dòng)態(tài)信息是指交通、天氣、價(jià)格、促銷、展會(huì)等隨時(shí)或較短時(shí)間內(nèi)會(huì)發(fā)生變化的旅游信息，還包括熱點(diǎn)新聞、重大活動(dòng)、旅游市場(chǎng)動(dòng)態(tài)等信息。靜態(tài)信息是指法律法規(guī)、企業(yè)名稱地址、簡(jiǎn)介設(shè)施等隨時(shí)間變化不頻繁的信息。動(dòng)態(tài)信息需要即時(shí)更新，靜態(tài)信息可以根據(jù)實(shí)際情況設(shè)定更新周期。更新周期不同可根據(jù)信息的屬性，一般可分為實(shí)時(shí)更新、變即更新、定期更新等幾類。

三、互聯(lián)網(wǎng)旅游信息采集系統(tǒng)設(shè)計(jì)

旅游行業(yè)數(shù)據(jù)涉及行業(yè)具有綜合性和復(fù)雜性等特點(diǎn)，既要加強(qiáng)與氣象、交通、公安等政府部門橫向合作，又要加強(qiáng)與運(yùn)營(yíng)商、在線電商、搜索引擎等行業(yè)和自媒體的縱向融合?？傮w設(shè)計(jì)思路主要有三方面考慮，一是多樣性數(shù)據(jù)采集方式。旅游數(shù)據(jù)種類眾多、分布廣泛，數(shù)據(jù)采集需要綜合接口開發(fā)、網(wǎng)上抓取等多種方式。二是先進(jìn)數(shù)據(jù)整合架構(gòu)。旅游數(shù)據(jù)來源廣泛、異構(gòu)種類多，數(shù)據(jù)整合管理難度高，采用比較成熟第三方軟件是一種較好的方案。三是通過應(yīng)用提高科學(xué)管理。整合各方旅游數(shù)據(jù)形成旅游信息資源數(shù)據(jù)庫(kù)，可通過大數(shù)據(jù)分析挖掘里面蘊(yùn)藏的大量?jī)r(jià)值信息。數(shù)據(jù)采集系統(tǒng)主要實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集渠道、采集策略和采集內(nèi)容管理等三個(gè)部分。主要是通過網(wǎng)絡(luò)爬蟲等技術(shù)，對(duì)網(wǎng)絡(luò)信息采集、處理，其主要技術(shù)包括以下幾部分：

3.1主題初始化

主題初始化模塊首先要配置好旅游相關(guān)的景區(qū)、酒店、旅行社等主題詞庫(kù)，然后將把一些與主題相關(guān)度緊密度高的URL存在相關(guān)數(shù)據(jù)庫(kù)中，為爬蟲采集工作做好準(zhǔn)備。

3.2網(wǎng)絡(luò)機(jī)器人

1.網(wǎng)頁(yè)下載：爬蟲向目標(biāo)網(wǎng)頁(yè)的WEB應(yīng)用服務(wù)器請(qǐng)求頁(yè)面，根據(jù)REP協(xié)議要求下載相關(guān)頁(yè)面并存入庫(kù)中，并建立索引。

2.解析HTML：按照預(yù)先設(shè)定好的規(guī)則，提取網(wǎng)頁(yè)中有用信息，以文本格式保存用于后期分析，并將新提取出來的URL存入U(xiǎn)RL隊(duì)列，這樣就進(jìn)入了一個(gè)循環(huán)。

3.3信息過濾

在爬蟲工作前，需要預(yù)先分析網(wǎng)頁(yè)或者URL，提取與主題相關(guān)度高的網(wǎng)頁(yè)或URL鏈接。具體說來，信息過濾模塊包含如下功能：

1.頁(yè)面與主題的相關(guān)度判定：第一設(shè)定一個(gè)主題相關(guān)度閾值A(chǔ)，當(dāng)采集頁(yè)面的主題相關(guān)度小于A，則判定過濾該網(wǎng)頁(yè)，否則添加并下載該頁(yè)面，并對(duì)其建立索引。主題相關(guān)度閾值A(chǔ)的初值可以設(shè)置小一點(diǎn)，采用機(jī)器學(xué)習(xí)的方法不斷迭代更新該閾值，至其收斂。

2. URL與主題的相關(guān)度判定：為了快速提高所需信息獲取的準(zhǔn)確率和效率，需要先判斷采集的URL與預(yù)設(shè)主題是否相關(guān)，稱作鏈接過濾。本采集系統(tǒng)采用TDT（Topic Detection and Tracking）、Pagerank算法對(duì)URL與主題相關(guān)度進(jìn)行判定。

3.4分詞索引

1.中文分詞。中文分詞簡(jiǎn)單言之就是講整段話進(jìn)行加標(biāo)點(diǎn)處理，使其具備實(shí)際詞條意義。英文分詞比中文分詞更加簡(jiǎn)單，使其26個(gè)字母實(shí)現(xiàn)其實(shí)際的含義，也就是變成一個(gè)個(gè)的單詞。

目前，幾大流行的中文分詞主要有PaoDing、Imdict、Mmseg4j、IK等工具，IK分詞器以其自帶詞庫(kù)量大且速度快占用內(nèi)存小等優(yōu)勢(shì)被本系統(tǒng)而采用。旅游行業(yè)綜合性、復(fù)雜性強(qiáng)涉及信息領(lǐng)域種類多樣，需要IK分詞各類專業(yè)詞庫(kù)的支持。

2.本文在數(shù)據(jù)檢索服務(wù)方面，采用是Solr分布式全文檢索服務(wù)器。其本身具有的API接口類型與Web-service的類似。用戶通過http協(xié)議進(jìn)入所需Web頁(yè)面查找，同時(shí)提交XML文件給搜索引擎服務(wù)器，Web頁(yè)面顯示出來的結(jié)果是XML格式的結(jié)果。

由于采集系統(tǒng)需采集網(wǎng)頁(yè)規(guī)模比較大、搜索的頁(yè)面非常多，采用分布式數(shù)據(jù)采集技術(shù)，會(huì)明顯提高系統(tǒng)的性能，可以實(shí)現(xiàn)更快的采集速度和更高的采集性能。在執(zhí)行Web信息采集任務(wù)時(shí)，利用多并發(fā)信息采集節(jié)點(diǎn)協(xié)同工作，且每一個(gè)節(jié)點(diǎn)的計(jì)算資源也可獨(dú)立運(yùn)算。

采集系統(tǒng)提供了比較高效的網(wǎng)絡(luò)信息的采集工具，主要包括元搜索、定向深度搜索、網(wǎng)絡(luò)智能機(jī)器人深網(wǎng)搜索三種互補(bǔ)的策略。

四、互聯(lián)網(wǎng)旅游信息采集系統(tǒng)實(shí)現(xiàn)及應(yīng)用

為方便日常管理及使用，旅游信息采集系統(tǒng)需要實(shí)現(xiàn)對(duì)采集信息的實(shí)時(shí)、快速、靈活的瀏覽和顯示，以方便對(duì)各類信息的審核。

可對(duì)各類的旅游信息按照地域、時(shí)效、來源、類型、內(nèi)容進(jìn)行多維度篩選檢索查看，對(duì)需要的各類型的信息進(jìn)行相應(yīng)的審核處理。

以采集北京“故宮”景區(qū)信息為例，展示從爬蟲配置、采集信息管理到最后數(shù)據(jù)庫(kù)查詢等功能實(shí)現(xiàn)。

4.1配置爬蟲程序

網(wǎng)絡(luò)爬蟲工具內(nèi)置一個(gè)網(wǎng)頁(yè)瀏覽器，用戶不但可以靈活定義網(wǎng)頁(yè)中要采集的任意內(nèi)容，而且可以完全模擬瀏覽操作網(wǎng)頁(yè)的所有步驟（如輸入注冊(cè)信息、循環(huán)、翻頁(yè)等），并自動(dòng)形成一個(gè)網(wǎng)絡(luò)智能爬蟲，實(shí)現(xiàn)網(wǎng)頁(yè)信息的自動(dòng)采集。

4.2生成智能爬蟲

配置爬蟲腳本文件并設(shè)定了爬蟲的名稱和調(diào)度時(shí)間等信息。執(zhí)行腳本，爬蟲就正常工作了，并將采集到的網(wǎng)頁(yè)同步到待審頁(yè)面進(jìn)行一定的人工審核。

4.3采集系統(tǒng)采集策略定向配置

輸入“故宮”可以查到爬蟲從各個(gè)來源采集到的信息，需要人工進(jìn)行一定的合并、添、刪除等數(shù)據(jù)處理工作。

4.4數(shù)據(jù)庫(kù)查詢驗(yàn)證

在數(shù)據(jù)庫(kù)中查詢“故宮”采集信息的覆蓋范圍情況，執(zhí)行select * from travel where name like '%故宮%' and cite=858語(yǔ)句，用戶可對(duì)采集渠道進(jìn)行驗(yàn)證。

五、下一步工作展望

政府管理部門通過打破“系統(tǒng)煙囪”“數(shù)據(jù)孤島”，形成覆蓋政府各級(jí)部門的多級(jí)聯(lián)動(dòng)、共建共享的業(yè)務(wù)協(xié)同格局，并應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)政府?dāng)?shù)據(jù)和社會(huì)信息的匯聚、存儲(chǔ)和關(guān)聯(lián)分析，可以有效激活數(shù)據(jù)資源價(jià)值，從中發(fā)現(xiàn)新問題、創(chuàng)新新動(dòng)能、提升新能量，為政府政策制定科學(xué)化、行業(yè)監(jiān)管精準(zhǔn)化和社會(huì)服務(wù)高效化提供重要支撐。隨著信息技術(shù)不斷發(fā)展，大量游客行為被記錄，越來越多的數(shù)據(jù)可以被加以利用。在數(shù)據(jù)源頭，本文雖然利用一種成熟方便數(shù)據(jù)采集技術(shù)實(shí)現(xiàn)了多種數(shù)據(jù)采集。

但是由于旅游數(shù)據(jù)信息來源比較普遍，采集量巨大，爬蟲智能有限，即便增加各種采集策略，難免會(huì)出現(xiàn)漏采，缺采等情況發(fā)生，采集過程中很難保證各類旅游數(shù)據(jù)源的數(shù)據(jù)采集量和采集質(zhì)量。所以旅游數(shù)據(jù)采集在渠道覆蓋、持續(xù)采集、人工參與量大等方面還存難點(diǎn)，今后工作重點(diǎn)在以下兩方面：

1.優(yōu)化采集策略，開發(fā)更加智能的采集程序是旅游大數(shù)據(jù)分析中的一個(gè)必要突破點(diǎn)。

2.旅游數(shù)據(jù)的維度多，可分析主題廣泛，分析模型根據(jù)以往的經(jīng)驗(yàn)建立會(huì)存在局限性，不能體現(xiàn)“讓數(shù)據(jù)說話”的過程，如何有效的建立更符合實(shí)際情況的分析模型也是下一步工作中必須要考慮的問題。

參? 考? 文? 獻(xiàn)

[1]鄭鑫臻，吳韶波，基于網(wǎng)絡(luò)爬蟲技術(shù)的時(shí)令旅游信息獲取[J].物聯(lián)網(wǎng)技術(shù)，2018年05期

[2]劉煥欣，基于匿名網(wǎng)絡(luò)的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)分析[J].計(jì)算機(jī)產(chǎn)品與流通，2017年12期