張鵬
引言:
目前,我國開啟了全面建設社會主義現代化國家的新征程。面對國內外環境復雜多變形勢,我國提出加快構建以國內大循環為主體,國際國內雙循環相互促進的新發展戰略。旅游業作為國家經濟社會發展的重要組成部分既有新機遇,也面臨新挑戰。
科學技術飛速發展,為旅游業提供了新動能,也提出了創新發展的新要求。大數據、互聯網、物聯網、人工智能等新一輪信息技術不斷突破,深刻地改變著旅游業的發展格局,用數據管理、服務、決策,對于培育繁榮國內旅游市場,充分釋放內需潛力,促進國內大循環,具有十分重要的支撐作用。
一、用數據支撐管理已成為政府部門迫切需要
旅游行業是多種行業服務的綜合集成,有很強的復雜性和綜合性,涉及旅游、交通、天氣、酒店、餐飲等多個服務行業,需要多個行業通力合作提供一盤棋服務。國內著名景點景區的供給數量相對于眾多游客差距,面對大量游客的需求,再加上重要節假日時間較集中,經常會出現,由于出行計劃路線沖突導致游客擁擠,旅游體驗質量不高等問題。目前,旅游行業有關管理部門,為加強管理,提升服務質量,要求各地嚴格落實“限量、預約、錯峰”措施,控制好接待游客數量,引導游客間隔進入景區、錯峰進行游覽,將流量管控關口前置,及時發布旅游提示,為游客出行提供參考。面對以上需要,旅游行業有關管理部門可借助大數據分析,強化行業管理,開展業務和服務模式創新。
基于這樣的需求,經過前期可行性分析和統一規劃,本文將采用網絡爬蟲等數據采集技術,對互聯網旅游信息進行掃描汲取,實現對網絡旅游信息的采集。旅游行業有關管理部門可再結合多年來建設相關信息系統形成的數據積累,實現旅游相關信息多維度采集和匯總,為實現數據的多維度挖掘和關聯分析,輔助相關政策出臺、旅游提示發布等提供科學數據支撐。
二、互聯網旅游信息采集需求
目前,我國網民規模為9.04億。游客通過網絡方式查詢制定出行計劃、定制購買旅游產品、分享出行體驗、投訴問題意愿強烈。借助網絡爬蟲等技術,對互聯網多維度旅游信息進行采集,具有部署方便、運行高效、采集穩定等優勢。
旅游采集數據類型多樣,涵蓋旅游產品資源、營銷推廣、輿情觀點、游客行為等多個方面。旅游資源信息,指旅游要素的基礎數據項,主要包括旅游目的地、星級酒店、A級景區、旅行社及導游等要素的基礎信息。旅游營銷信息,指旅游產品或旅游服務的生產商所提供的旅游服務、產品和項目。旅游輿情監測信息,對互聯網上旅游者及旅游相關的言論和觀點進行監測和預測的行為。游客網絡行為信息,通過互聯網上的信息分析,研究游客的網絡行為,從而進行網絡用戶分析,用戶消費潛力、消費行為和消費動機分析等。
旅游采集數據來源渠道廣泛,既包括景區、旅行社、酒店等網站的結構化旅游要素,也包括博客、新聞、貼吧、微博等非結構化旅游衍生數據。旅游資源信息,主要來源于省、市級旅游行政管理部門政務網站和資訊網站。旅游營銷信息,主要來自星級酒店、A級景區、旅行社等旅游企業網站信息和導游信息。旅游輿情信息,主要來自門戶網站微博、國內知名論壇、重要輿情網站,社交網絡和社區。游客網絡行為信息,主要來自對攜程網、美團點評、去哪兒網等評價類數據。
旅游采集方式及更新頻率需全面考慮數據類型和數據渠道各自特征,可按照動態和靜態對相關采集信息進行分類設置。動態信息是指交通、天氣、價格、促銷、展會等隨時或較短時間內會發生變化的旅游信息,還包括熱點新聞、重大活動、旅游市場動態等信息。靜態信息是指法律法規、企業名稱地址、簡介設施等隨時間變化不頻繁的信息。動態信息需要即時更新,靜態信息可以根據實際情況設定更新周期。更新周期不同可根據信息的屬性,一般可分為實時更新、變即更新、定期更新等幾類。
三、互聯網旅游信息采集系統設計
旅游行業數據涉及行業具有綜合性和復雜性等特點,既要加強與氣象、交通、公安等政府部門橫向合作,又要加強與運營商、在線電商、搜索引擎等行業和自媒體的縱向融合。總體設計思路主要有三方面考慮,一是多樣性數據采集方式。旅游數據種類眾多、分布廣泛,數據采集需要綜合接口開發、網上抓取等多種方式。二是先進數據整合架構。旅游數據來源廣泛、異構種類多,數據整合管理難度高,采用比較成熟第三方軟件是一種較好的方案。三是通過應用提高科學管理。整合各方旅游數據形成旅游信息資源數據庫,可通過大數據分析挖掘里面蘊藏的大量價值信息。數據采集系統主要實現互聯網數據采集渠道、采集策略和采集內容管理等三個部分。主要是通過網絡爬蟲等技術,對網絡信息采集、處理,其主要技術包括以下幾部分:
3.1主題初始化
主題初始化模塊首先要配置好旅游相關的景區、酒店、旅行社等主題詞庫,然后將把一些與主題相關度緊密度高的URL存在相關數據庫中,為爬蟲采集工作做好準備。
3.2網絡機器人
1.網頁下載:爬蟲向目標網頁的WEB應用服務器請求頁面,根據REP協議要求下載相關頁面并存入庫中,并建立索引。
2.解析HTML:按照預先設定好的規則,提取網頁中有用信息,以文本格式保存用于后期分析,并將新提取出來的URL存入URL隊列,這樣就進入了一個循環。
3.3信息過濾
在爬蟲工作前,需要預先分析網頁或者URL,提取與主題相關度高的網頁或URL鏈接。具體說來,信息過濾模塊包含如下功能:
1.頁面與主題的相關度判定:第一設定一個主題相關度閾值A,當采集頁面的主題相關度小于A,則判定過濾該網頁,否則添加并下載該頁面,并對其建立索引。主題相關度閾值A的初值可以設置小一點,采用機器學習的方法不斷迭代更新該閾值,至其收斂。
2. URL與主題的相關度判定:為了快速提高所需信息獲取的準確率和效率,需要先判斷采集的URL與預設主題是否相關,稱作鏈接過濾。本采集系統采用TDT(Topic Detection and Tracking)、Pagerank算法對URL與主題相關度進行判定。
3.4分詞索引
1.中文分詞。中文分詞簡單言之就是講整段話進行加標點處理,使其具備實際詞條意義。英文分詞比中文分詞更加簡單,使其26個字母實現其實際的含義,也就是變成一個個的單詞。
目前,幾大流行的中文分詞主要有PaoDing、Imdict、Mmseg4j、IK等工具,IK分詞器以其自帶詞庫量大且速度快占用內存小等優勢被本系統而采用。旅游行業綜合性、復雜性強涉及信息領域種類多樣,需要IK分詞各類專業詞庫的支持。
2.本文在數據檢索服務方面,采用是Solr分布式全文檢索服務器。其本身具有的API接口類型與Web-service的類似。用戶通過http協議進入所需Web頁面查找,同時提交XML文件給搜索引擎服務器,Web頁面顯示出來的結果是XML格式的結果。
由于采集系統需采集網頁規模比較大、搜索的頁面非常多,采用分布式數據采集技術,會明顯提高系統的性能,可以實現更快的采集速度和更高的采集性能。在執行Web信息采集任務時,利用多并發信息采集節點協同工作,且每一個節點的計算資源也可獨立運算。
采集系統提供了比較高效的網絡信息的采集工具,主要包括元搜索、定向深度搜索、網絡智能機器人深網搜索三種互補的策略。
四、互聯網旅游信息采集系統實現及應用
為方便日常管理及使用,旅游信息采集系統需要實現對采集信息的實時、快速、靈活的瀏覽和顯示,以方便對各類信息的審核。
可對各類的旅游信息按照地域、時效、來源、類型、內容進行多維度篩選檢索查看,對需要的各類型的信息進行相應的審核處理。
以采集北京“故宮”景區信息為例,展示從爬蟲配置、采集信息管理到最后數據庫查詢等功能實現。
4.1配置爬蟲程序
網絡爬蟲工具內置一個網頁瀏覽器,用戶不但可以靈活定義網頁中要采集的任意內容,而且可以完全模擬瀏覽操作網頁的所有步驟(如輸入注冊信息、循環、翻頁等),并自動形成一個網絡智能爬蟲,實現網頁信息的自動采集。
4.2生成智能爬蟲
配置爬蟲腳本文件并設定了爬蟲的名稱和調度時間等信息。執行腳本,爬蟲就正常工作了,并將采集到的網頁同步到待審頁面進行一定的人工審核。
4.3采集系統采集策略定向配置
輸入“故宮”可以查到爬蟲從各個來源采集到的信息,需要人工進行一定的合并、添、刪除等數據處理工作。
4.4數據庫查詢驗證
在數據庫中查詢“故宮”采集信息的覆蓋范圍情況,執行select * from travel where name like '%故宮%' and cite=858語句,用戶可對采集渠道進行驗證。
五、下一步工作展望
政府管理部門通過打破“系統煙囪”“數據孤島”,形成覆蓋政府各級部門的多級聯動、共建共享的業務協同格局,并應用大數據技術實現對政府數據和社會信息的匯聚、存儲和關聯分析,可以有效激活數據資源價值,從中發現新問題、創新新動能、提升新能量,為政府政策制定科學化、行業監管精準化和社會服務高效化提供重要支撐。隨著信息技術不斷發展,大量游客行為被記錄,越來越多的數據可以被加以利用。在數據源頭,本文雖然利用一種成熟方便數據采集技術實現了多種數據采集。
但是由于旅游數據信息來源比較普遍,采集量巨大,爬蟲智能有限,即便增加各種采集策略,難免會出現漏采,缺采等情況發生,采集過程中很難保證各類旅游數據源的數據采集量和采集質量。所以旅游數據采集在渠道覆蓋、持續采集、人工參與量大等方面還存難點,今后工作重點在以下兩方面:
1.優化采集策略,開發更加智能的采集程序是旅游大數據分析中的一個必要突破點。
2.旅游數據的維度多,可分析主題廣泛,分析模型根據以往的經驗建立會存在局限性,不能體現“讓數據說話”的過程,如何有效的建立更符合實際情況的分析模型也是下一步工作中必須要考慮的問題。
參? 考? 文? 獻
[1]鄭鑫臻,吳韶波,基于網絡爬蟲技術的時令旅游信息獲取[J].物聯網技術,2018年05期
[2]劉煥欣,基于匿名網絡的網絡爬蟲設計與實現分析[J].計算機產品與流通,2017年12期