張鵬

摘要:近年來,大數據在快速把握旅游行業運行規律,輔助行業管理,創新服務模式中的作用越來越明顯。旅游行業點多線長面廣,有很強的復雜性和綜合性,需要提供從多方面多維度提升綜合集成服務能力滿足人民群眾對美好生活的需要。當前,一系列以“利用智能技術建設即時感知、準確判斷和精確執行的信息系統”、“整合旅游產品、智慧服務和管理應用的信息服務網絡”、“依托云計算,基于云架構,聚合海量旅游綜合信息的云服務”等為代表的創新性思想及舉措為旅游信息化的建設和發展賦予了全新內涵。特別是以游客為中心,把大數據的分析應用轉化為旅游服務的場景,在游客行前、行中、行后提供精準服務,對行業內景區、酒店、交通、旅行社等管理和監管,挖掘海量旅游信息中的潛在價值,是旅游行業發展創新的需求,具有重要的應用價值。
關鍵詞:關聯分析算;旅游信息化;建設;發展
一、旅游數據分析技術需求迫切
移動互聯網技術的發展,游客的消費理念、行為都不同以往,一場說走就走的旅行隨時發生,而游客出行體驗的滿足感也越來越需要得到重視,個性化的旅游定制、高端旅游服務體驗也越來越迫切需要。對于旅游從業者來說,利用互聯網和移動互聯網技術來統籌旅游行業管理、營銷、服務,是開展智慧旅游所需要考慮充分的。旅游活動本身就是一個復雜的社會活動,旅游活動中會產生、應用多行業多種類的基礎數據,這些數據對于整個行業運行情況分析,具有十分重要的意義。這些數據是輔助支撐旅游從業者及旅游政府管理部門對行業中的各項重點環節實施有效管理,是推動旅游業更加科學化、精準化的發展、建立新型旅游現代產業的有效措施。而旅游數據種類多樣,數量巨大,來源廣,如何把各種渠道數據進行整合,結合行業管理服務的需要,運用有效的數據分析算法,從而形成精細到位的管理服務數據,這是非常重要的也是非常迫切的。
二、旅游數據分析關鍵算法
聚類和關聯分析是數據分析算法中常用的兩類基礎性算法。聚類分析主要用于解決沒有明確分類映射關系的物品歸類問題。聚類分析簡言之就是物以聚類,人以群分,要把要分析的數據劃分成不同的類。關聯分析是一種用于分析物體之間關聯程度的一種方式,關聯分析常見的應用場景有:分析產品之間的關聯程度、定制化推薦、產品組合營銷推廣調整等。例如在超市貨品擺放時,可以根據用戶購買商品時的記錄,計算商品之間的關聯程度,將關聯程度高的商品擺放在一起。比如,我們常說的“啤酒、尿布”分析。旅游行業也是為游客提供旅游產品的服務行業,現詳細介紹關聯分析算法中較為基礎但應用較為廣泛的Apriori算法。
關聯分析是發現隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現概率。如旅游熱點出行分析預測就是使用的是關聯分析中的Apriori算法,這是一種發現頻繁項集的算法。算法工作流程如圖1所示,首先找出第1階頻繁項集并設定好最小的支持度閾值,可稱這個集合為L1。他的作用是為了找出第2階頻繁項集L2。如此下去,直到不能找到“K項集”。這種算法的核心是連接步和剪枝步。連接步是自連接,原則是保證前k-2項相同,并按照順序連接。剪枝步,是用來保證最終的頻繁項集的子集非空而且也必須是頻繁的。反之,如果某個候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從集合中刪除。
三、關聯分析算法應用
由于旅游數據分析維度較多,下面從黃金周出行熱點來介紹關聯分析算法分析應用。
(一)黃金周出行熱點主題概述
“五一”、國慶、春節“黃金周”已經越來越成為大眾選擇出游的高峰期。依據來自文化和旅游部數據中心綜合測算顯示,2020年國慶期間,隨著我國疫情形勢逐步好轉,全國各地文化和旅游市場復蘇明顯,全國共接待國內游客6.37億人次,實現國內旅游收入4665.6億元。本文主要通過建立游客的行為分析模型,對相關游客的歷史預約、消費等記錄數據進行統計分析,從而挖掘出黃金周期間,游客出行的熱點景區景點等信息,為旅游監管部門和景區景點、以及相關的旅游企業等提供旅游信息,便于提前做好預警應急工作,提升服務質量。
(二)黃金周出行熱點模型
基于黃金周期間游客出行目的地、景區景點以及旅游客源市場之間的數據分析等,建立相關模型。模型依據游客的旅游需求方面的影響因素分析、各類旅游目的地的特點和客源流量的周期上使得旅游監管部門和景區景點、以及相關的旅游企業,能從大體上了解和掌握旅游目的地的旅游客源市場的構成及未來發展趨勢,并以此來構建出旅游客源市場的一個輿情分析知識庫。
(三)分析報告
以2020年國慶中秋“黃金周”為例,整合各渠道有效數據,形成以下分析:
根據關聯分析中Apriori算法規則,對網友喜好的旅游目的地進行數據挖掘,可展示出旅游管理者最關心的假日哪里會出現游客高峰問題。由于整合各渠道數據形成數據庫量很大,為了能夠清楚的介紹,現僅列出一小段數據,用來描述游客出行目的地為北京、上海、深圳、武漢、成都相關數據分析。
選取游客對部分旅游目的地預約消費等記錄,ABCDE分別代表不同的旅游目的地,“廣東省”、“北京市”、“福建省”、“上海市”、“湖北省”,游客預約購買旅游目的地記錄可以是其中一個也可以是幾個的組合,計算數據庫共有4條不同類型記錄。首先對各旅游目的地進行依次掃描,例如旅游目的地A在所有4條記錄中出現3次,那么A的支持度即為3/4,計算出的支持度表明了該旅游目的地在所有預約消費記錄中出現的概率大小,顯然概率越大,支持度越高。同理,計算出BCDE的支持度分別為3/4、3/4、3/4、1/4。接下來需要設置閾值來篩選出關聯度較高的產品數據,這里假設取1/2,那么就先將E篩除,留下旅游目的地ABCD,此時便產生頻繁一項集{{A},{B},{C},{D}}。然后將頻繁一項集中的集合兩兩組合,得到候選項集{{AB},{AC},{AD},{BC},{BD},{CD}},計算每個項集的支持度。例如項集AB在所有4條記錄中出現2次,那么AB的支持度即為2/4。同理得出AC,AD,BC,BD,CD的支持度分別為3/4,2/4,2/4,2/4,3/4,2/4。在閾值為1/2的情況下只留下AC和BD。如此便可以繼續生成候選集ABCD,支持度為2/4,可以篩去。
綜上,得到AC和BD的關聯程度最高。這意味著,如果游客計劃前往廣東省旅游,那么給該游客推薦福建省旅游商品成功率更大,類似的,如果游客準備出行北京游玩,那么上海相關旅游產品可能也更受該游客戶青睞。對于行業管理者來說,當A地出現游客高峰問題時,C地就要提前組織好人力物力做好相關預警應急工作。
總結與展望
旅游相關管理部門、企業在數據驅動下,越來越重視數據的積累、整合以及分析應用,旅游大數據分析已經被證明是一個非常引人注方向。旅游數據與大數據特點極其相似,異構數據眾多,數據源眾多;數據分布不均勻;數據復雜多變等等。為了探索旅游大數據的分析,我們從數據采集,模型算法和系統建設三個層面進行了嘗試。特別是在算法模型層面,數據分析模型的建立跟采集的數據、應用的場景等息息相關,想做好模型設計,需要精心設計算法從多個來源找出與主題相關的信息,雖然取得了一些效果,應用場景也符合管理服務的需要,但是在技術上還存在一些難點,今后要在以下幾個方面進一步推進:一是解決模型算法效率不高的問題。Apriori算法每次計算時都需要返回至歷史記錄中進行掃描,處理流程復雜耗時長,下一步需進一步提升軟硬件性能,優化模型算法,提高數據分析能力。二是進一步加強行業頂層設計。本文雖按照由下至上原則,從特定需求場景出發作出一些嘗試,但要推廣至行業指導管理服務還需從上而下,全行業統籌考慮,從數據分析全流程把握,做好標準制定、架構設計、系統搭建、應用推廣等工作,真正發揮數據分析作用。