呂勤 于衛國
摘要:本文從應對國家及各地旅游局分析消費發展趨勢的需求出發,針對復雜客流情況無法分析的難點,從消費大數據出發,剖析消費數據中隱含的消費者歸屬地規律,概述了歸屬地模型行成旅游消費偏好、熱門旅游消費區域、客源分析等旅游數據模型的建立過程,闡述了旅游大數據對市場經濟的推動作用。
關鍵詞:旅游大數據;旅游消費;歸屬地;旅游數據;節假日消費
中圖分類號:TN-9 文獻標識碼:A 文章編號:1007-9416(2019)05-0087-03
隨著我國旅游市場不斷發展,近年來出游人群呈井噴式增長。為響應國家旅游局提升國家旅游發展質量的要求,我司依托海量消費數據,通過大數據技術挖掘旅游消費數據,分析旅游發展的變化。通過項目研發、制作,形成旅游大數據分析能力,定期發布包括年度、半年度、節假日(五一、國慶中秋、春節、雙十一)等報告以及各細分行業旅游分析課題、報告等。旅游大數據分析展示如圖1所示。
1 需求分析
應國家旅游局要求,同時為了滿足各地旅游局的個性化旅游消費大數據分析需求,我司需從宏觀分析入手,制作發布中國旅游消費大數據報告及各地旅游消費大數據報告。制作這些分析報告,需要提供各地的旅游人數、旅行者去過的地方、旅行者購買過的商品與服務等數據。如何獲得這些數據,是完成消費旅游大數據報告的關鍵。銀聯商務作為全國最大的第三方支付機構,具有基礎的消費數據,為了保護客戶隱私,滿足數據保護的要求,數據的處理分析結果均不針對個體,而是以消費者群體為對象,從宏觀上分析獲取有關消費地點、消費業態和消費能力等維度的數據。但困難的是消費者歸屬地以及消費喜好無法從原始數據中直接獲取,需要利用大數據技術,通過模型計算,挖掘出有關信息。
2 旅游大數據的分析模型
2.1 歸屬地分析模型
消費者歸屬地模型是旅游大數據分析的重中之重,只有知道了消費者的“原籍”,再結合消費軌跡,才能知曉消費者是不是存在旅游行為。那么如何判斷持卡人的原籍呢?原始的交易信息中并不包含交易者的個人信息,僅有卡號信息,可以通過一個卡號標識一個自然人。那么卡號又如何與自然人的歸屬地關聯呢?眾所周知,各銀行發行的銀行卡卡號長度不一樣,除了卡bin①標識以外,編碼規則完全不同,所以銀行卡卡號是沒有統一的規范的。經過進一步的分析,發現發卡行②為了便于發行卡片,往往是分批次給各地區分行發行新卡的,也就是說同一地區在某個時間段發行的卡片,序號應該是連續的。因此能否通過此假設推算出發卡地區規則呢。就此我們嘗試使用分類算法,將卡號的9位~16位編碼作為特征碼,按不同的長度分別統計召回率③和準確率⑤,當置信度高于閥值時,即將該編碼作為歸屬地特征編碼記入特征庫中。通過對百億數量級別的已知消費區域的消費記錄的計算,總共推演出數萬個卡片規則特征,覆蓋幾乎所有發卡行的卡bin,模型建立成功。
2.2 旅游消費偏好分析模型
通過行為學分析,持卡人消費地點不在歸屬地原籍的交易即可認為是旅行交易。從橫向上來說,通過對某一地區消費行業進行聚類,即可得出該地區熱門的消費行業和業態。從縱向上來說,比對持卡人歷來的旅行消費軌跡亦可得出其旅游消費偏好。通過分析旅游消費偏好可以幫助相關部門更合理的規劃各種旅游服務項目。
2.3 熱門旅游消費區域分析模型
通過分析持卡人異地消費行為,利用聚類算法k-means⑤進行消費地坐標聚類,可以獲得旅游消費者在旅游城市的消費聚集地區。通過進一步的模型計算,可以判斷指定城市熱門的旅游消費商圈,通過統計可以得出旅游對推動當地消費規模的貢獻度,為旅游消費大數據報告提供依據。
2.4 客源分析模型
客源模型也是各地旅游局比較關心的課題。通過歸屬地分析模型即可得到景點周邊商戶的客源分布情況,利用大數據技術,通過海量數據計算可以進一步得出每個景區對應的客源分布情況。游客來源分析展示如圖2所示。
3 模型構建
根據旅游大數據的業務需求,獲取持卡人的歸屬地信息是重中之重,歸屬地模型是其他幾個業務分析模型的基礎。歸屬地模型的特征相對明確,可以根據卡號來識別,但無法確定具體是卡號中的哪幾位。我們利用大數據技術的海量計算能力,通過迭代的方式進行特征推演(從卡號前9位開始迭代,直到16位為止),利用百億級別的交易數據,通過二分類算法拆分出多組訓練集和測試集,分別進行模型的計算和驗證。找到所有卡號段滿足置信度(同一地區聚集度超過閥值)的號段,并以這些號段作為號根來判斷新的卡號歸屬地。卡號歸屬地計算模型示意圖如圖3所示。
4 旅游大數據的系統架構
旅游大數據主要由后臺算法服務群和前端應用展示服務群組成。后臺算法服務群主要是基于hadoop的Hive和SparkMLlib組成,用于從數據倉庫及外部系統獲取海量交易數據用于模型訓練。Hive主要用于前期的數據清洗和特征矩陣生成,MLlib主要負責執行聚類、分類等機器學習算法。經過預設模型計算完畢的數萬歸屬地號根,通過大數據平臺同步到數據倉庫中。數據倉庫利用號根可以將節假日消費數據中卡號的歸屬地通過歸屬地匹配模型計算出來,用于后續其他旅游數據計算。數據倉庫完成旅游數據計算后,同步到應用服務器上,由應用服務器進行展示和報告生成。系統架構圖如圖4所示。
5 旅游大數據的價值
我國經濟的不斷進步,宏觀層面上需要拉動內需,從百姓生活出發也有旅游的強烈訴求。大數據應用到旅游數據分析中,使原先無序的消費數據變得有跡可循、原先無法計算的消費數據變得可見。旅游大數據的發布有利于協調區域經濟,合理化旅游產業布局,優化旅游服務業以及關聯產業。通過了解游客的行為特點,便于景區配套迎合游客需求的產業布局,通過分析客源,為各地旅游局及旅游企業提供了明確的營銷對象,直接提升了城市的旅游宣傳效能。分析旅游經濟,給國家發展旅游產業提供宏觀數據,提振發展旅游的信心和動力。
注釋
① 卡bin:Bank Identification Number發卡行識別碼,中國境內,銀聯一般是以62開頭,visa一般以4開頭,master一般以5開頭,長度一般是六位,也可能是其他長度.
② 發卡行:發行銀行卡的機構,簡稱發卡行,一般以銀行居多.發卡機構的主要職能是向持卡人發行各種銀行卡,并通過提供各類相關的銀行卡服務收取一定費用.
③ 召回率:召回率(Recall Rate,也叫查全率)是檢索出的相關文檔數與文檔庫中所有的相關文檔數的比率,衡量的是檢索系統的查全率.
④ 準確率:準確率又稱精度(Prec- ise)是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統的查準率.召回率(Recall)和精度(Precise)是廣泛用于信息檢索和統計學分類領域的兩個度量值,用來評價結果的質量。參考資料:周志華.機器學習:= Machine learning[M].清華大學出版社,2016.
⑤ K-Means:k均值聚類算法(k-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟是隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心.聚類中心以及分配給它們的對象就代表一個聚類.每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算.這個過程將不斷重復直到滿足某個終止條件.終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小.