基于網(wǎng)絡搜索數(shù)據(jù)的游客量組合預測模型①

2018-07-18 06:07:12謝天保

計算機系統(tǒng)應用 2018年7期

謝天保, 趙萌

(西安理工大學經(jīng)濟與管理學院, 西安 710054)

近年來, 伴隨旅游業(yè)蓬勃發(fā)展的同時, 游客普遍反映旅游體驗在逐漸變差. 究其根本, 主要源于在旅游高峰期, 景點接待能力與涌入的游客量不匹配. 各地著名景區(qū)在節(jié)假日期間往往游客爆棚、人滿為患, 管理難度大幅度提升導致超出了景區(qū)管理人員的可控范圍,使得游客的游玩體驗受到嚴重影響, 游客的人身財產(chǎn)安全也難以保證. 因此, 如果能實現(xiàn)對未來一段時間尤其是旅游旺季的游客量預測, 管理者就可以結合實際的承載能力提前制定有效的防范措施, 確保服務質量和景區(qū)安全, 具有極強的現(xiàn)實意義.

1 研究現(xiàn)狀分析

傳統(tǒng)的旅游人數(shù)預測研究采用的主要方法有時間序列模型[1]、灰色系統(tǒng)理論[2]以及人工神經(jīng)網(wǎng)絡[3]等,但這些研究采用的歷史數(shù)據(jù)存在較大延遲性, 時間粒度也很大, 大都集中于國家或省級層面的年度入境人數(shù)預測. 隨著大數(shù)據(jù)時代的到來以及基于網(wǎng)絡數(shù)據(jù)的經(jīng)濟社會類行為預測研究的廣泛開展, 在研究旅游行為相關問題時, 越來越多的研究人員將目光投向了網(wǎng)絡搜索數(shù)據(jù). 文獻[4]發(fā)現(xiàn)我國部分3A級旅游景區(qū)客流量與網(wǎng)絡關注度密度具有明顯呼應的關系; 文獻[5]證實網(wǎng)絡關注度和旅游人數(shù)存在長期均衡關系和Granger因果關系; 文獻[6–10]等關系研究均表明網(wǎng)絡搜索數(shù)據(jù)包含著許多有價值的行為信息, 對現(xiàn)實游客量存在前兆效應, 具有一定的預測能力. 文獻[11]基于谷歌趨勢構建了一般的ARIMA模型及加入網(wǎng)絡數(shù)據(jù)作為自變量的預測模型, 發(fā)現(xiàn)后者擬合效果和預測精度更高, 但關注的仍是全國入境人數(shù)這種大范圍預測;文獻[12]發(fā)現(xiàn)加入百度關鍵詞作為解釋變量的模型相比傳統(tǒng)的ARMA模型, 預測精度提高了14.5%, 但依然存在較大誤差; 文獻[13]采用直接取詞法選取5個關鍵詞數(shù)據(jù)作為解釋變量分別建立了向量自回歸和BP神經(jīng)網(wǎng)絡模型, 發(fā)現(xiàn)神經(jīng)網(wǎng)絡比回歸法預測精度略高, 但關鍵詞過少, 難免會因信息遺漏使模型與實際有一定偏離.

為實現(xiàn)更準確、更具有時效性、地域針對性更強的預測, 本文擬基于網(wǎng)絡搜索數(shù)據(jù), 結合多種機器學習算法建立游客量預測模型, 時間粒度選取為月度, 以提高預測的及時性和實用性, 同時考慮到組合預測法的思想, 即在諸種單一預測模型各異的情況下, 組合預測模型可能會得到比任何一個獨立預測值更好的預測值,顯著改進預測效果[14], 進一步構建組合模型以優(yōu)化預測結果.

2 網(wǎng)絡搜索關鍵詞的選取

首都北京在我國旅游城市排行中首屈一指, 本文選取北京市游客量作為研究對象, 收集了2011年1月至2016年12月期間, 每個月北京市所有旅游景區(qū)、景點接待的全部游客總量, 但模型也可推廣應用至其他地區(qū)和省市.

搜索引擎能夠幫助游客從數(shù)以億計的網(wǎng)頁中快速定位到所需要的信息, 而關鍵詞搜索是游客在線信息搜索時最常用的策略[15], 所以基于網(wǎng)絡搜索數(shù)據(jù)的預測研究的第一步就是選取相關搜索關鍵詞. 本文中所用到的關鍵詞網(wǎng)絡搜索量來源于國內應用最為官方的搜索引擎的百度指數(shù).

2.1 選定核心關鍵詞

本文采用文本挖掘的方法, 結合旅游六要素, 即食、住、行、游、購、娛, 對網(wǎng)絡上與北京旅游相關的新聞、文章、點評、分享交流等信息進行查找收集,剔除掉一些無用信息后, 再使用NLPIR漢語分詞系統(tǒng)對原始文本集合進行處理, 得到關鍵詞列表及其權重,權重越高, 越應被選為核心關鍵詞. 最終選定了6個核心關鍵詞: “北京小吃”、“北京住宿”、“北京旅游地圖”、“北京旅游”、“北京特產(chǎn)”及“北京景點”.

2.2 核心關鍵詞搜索指數(shù)的預測能力分析

顯然網(wǎng)絡搜索數(shù)據(jù)和實際游客量數(shù)據(jù)都屬于時間序列, 平穩(wěn)性是時間序列數(shù)據(jù)統(tǒng)計推斷的基礎. 檢查序列平穩(wěn)性的標準方法是各種單位根檢驗, 本文采用ADF (Augmented Dickey-Fuller Test)檢驗對6個核心關鍵詞的搜索指數(shù)序列和實際游客人數(shù)序列的平穩(wěn)性進行檢驗, 結果表明原序列中部分為非平穩(wěn)序列, 但在一階差分下所有變量均在1%的顯著性水平上拒絕原假設(原假設為序列至少有一個單位根, 即不平穩(wěn)), 即均為一階單整序列, 符合協(xié)整檢驗的前提條件.

圖1 Johansen協(xié)整檢驗結果

本文通過Johansen協(xié)整檢驗來考察變量間的協(xié)整關系, 檢驗結果如圖1所示, 可以發(fā)現(xiàn)特征根跡檢驗和最大特征值檢驗在5%的顯著性水平上都是拒絕原假設的, 說明協(xié)整關系存在, 依據(jù)現(xiàn)代協(xié)整理論, 對于非平穩(wěn)時間序列, 只要各變量之間存在協(xié)整關系, 就可以直接建立VAR模型[16].實驗收集了2011年至2016年共計72個月的月度數(shù)據(jù), 選取前5年(即前60個)數(shù)據(jù)作為樣本集用于建模, 2016年1月至12月的數(shù)據(jù)則作為測試集用于模型驗證. 建立VAR模型需要確定滯后階數(shù), 本文結合似然比LR、AIC、SC準則等多種檢驗方法, 最終確定建立VAR(3)模型. 如圖2所示, 該VAR模型所有特征根的倒數(shù)均落于單位圓內, 即均小于1, 模型穩(wěn)定. 應用該模型預測樣本集外數(shù)據(jù), 結果如圖3所示.

圖2 VAR模型特征根位置圖

總體來說, 預測值與實際值的趨勢基本保持了一致, 說明模型具有一定的預測能力, 關鍵詞指數(shù)的前期變化的確有助于解釋實際游客量的變化. 但是預測誤差明顯較大, 平均絕對百分比誤差(MAPE)高達12.24%,具體到每一個月的相對誤差基本在幾百萬人次(圖3中游客人數(shù)單位為萬人次), 顯然達不到精準預測的要求.

圖3 2016年北京市實際旅游人數(shù)和預測人數(shù)的對比圖

因此, 僅僅基于這6個核心關鍵詞對游客人數(shù)進行預測是不科學的, 選取核心關鍵詞的方法不完善或是核心關鍵詞的數(shù)量過少, 都會導致信息覆蓋不全面從而影響研究結果. 為了提高研究結果的準確性, 應該對核心關鍵詞進行大范圍拓展和進一步擇優(yōu), 才能保障模型中所加入的自變量能盡可能的涵蓋會影響到因變量變化的所有信息.

2.3 關鍵詞的拓展與擇優(yōu)

拓展的目標是圍繞少數(shù)的核心關鍵詞, 拓展出數(shù)量更多的相關關鍵詞. 拓展的依據(jù)和方法有多種, 本文綜合使用了長尾關鍵詞拓展法、百度需求圖譜以及網(wǎng)頁相關搜索推薦, 建立了一個包含79個關鍵詞的初始詞庫.

通過判定各個關鍵詞與研究對象的關聯(lián)關系, 篩選出合適數(shù)目的最優(yōu)關鍵詞是提升模型預測準確度的關鍵. 因為并不是每個關鍵詞都與實際游客量存在相關關系, 多個詞之間也可能存在共線性, 導致信息重疊,不利于模型建立. 本文首先根據(jù)Spearman秩相關檢驗篩選出相關系數(shù)大于0.6的搜索關鍵詞, 共計38個. 然后采用時差相關分析確定上一步篩選出的關鍵詞搜索指數(shù)與北京市游客量的時滯階數(shù), 并選取同行關鍵詞指標(網(wǎng)絡搜索作為一種即時性行為, 游客一般都會在出行當月搜索相關的旅游信息). 最后篩選出的同行關鍵詞及其相關系數(shù), 共計25個. 如表1所示.

表1 同行關鍵詞spearman秩相關系數(shù)

VAR模型本質就是把系統(tǒng)中每一個變量描述為系統(tǒng)中所有變量的滯后值的線性函數(shù), 當變量多達25個時, 難以保證各變量之間僅僅存在線性關系. 因此, 對于解釋變量眾多、平穩(wěn)性和協(xié)整關系難以保證、可能存在非線性關系等情況, 應用適應性更為廣泛的機器學習算法建立預測模型比傳統(tǒng)的VAR模型更為合適.

3 單一預測模型的構建

3.1 BP神經(jīng)網(wǎng)絡模型

理論上已經(jīng)證明三層神經(jīng)網(wǎng)絡可以無限逼近任意連續(xù)函數(shù), 本文建立單隱藏層的BP神經(jīng)網(wǎng)絡模型, 再對模型隱藏層的節(jié)點數(shù)目和迭代次數(shù)進行優(yōu)化, 以確定出最優(yōu)的模型誤判率.

實驗發(fā)現(xiàn), 訓練集誤差跟隨隱藏層節(jié)點數(shù)的增加而下降, 但測試集誤差先下降后面反而上升, 這是由于模型中隱藏層節(jié)點數(shù)增加而引起的模型過度擬合導致的, 考慮到預測模型應注重模型的推廣能力, 當隱藏層節(jié)點數(shù)為4時, 測試集MAE值最小且訓練集誤差也在接受范圍內, 因此確定最優(yōu)的隱藏層節(jié)點數(shù)為4. 同時,當訓練周期達到300以后, 訓練集和測試集的MAE均趨于平穩(wěn)且已經(jīng)達到了較小的值, 因此最終確定出一個隱藏層節(jié)點數(shù)為4, 訓練周期為300的單隱藏層BP神經(jīng)網(wǎng)絡模型.

3.2 支持向量回歸模型

支持向量機最初是根據(jù)分類問題發(fā)展起來的, 但也可應用于回歸問題. 建立SVR(支持向量回歸機)模型, 需要確定分類方式和核函數(shù)的組合方式, 針對數(shù)值型變量的分類方式主要有兩種(eps-regression和nuregression), 核函數(shù)則有四類(linear, polynomial,radial和sigmoid).

實驗發(fā)現(xiàn), 按照MAE值最小原則無論是測試集預測還是訓練集擬合均應選擇eps-regression和radial的組合. 在此基礎上對懲罰因子cost和gamma參數(shù)進行優(yōu)化, 同樣按照MAE值最小原則確定出測試集cost取1, gamma取0.1, 訓練集則cost取10, gamma取1.

3.3 隨機森林模型

在構建隨機森林模型的過程中有兩個重要參數(shù):一是樹節(jié)點預選的變量個數(shù)mtry, 決定著單棵決策樹的情況; 二是隨機森林中樹的個數(shù)ntree, 決定著整片森林的總體規(guī)模.

實驗發(fā)現(xiàn)當mtry= 5時, 模型對變量的解釋率最高, 為86.05%, 殘差平方均值最小, 所以節(jié)點上變量個數(shù)確定為5. 接著確定整片森林的規(guī)模, 實驗發(fā)現(xiàn)模型誤差隨決策樹數(shù)量的增多逐漸降低并趨于平穩(wěn), 當決策樹數(shù)量約大于1300之后, 模型誤差基本穩(wěn)定, 因此將ntree值確定為1300.

以上三種模型預測誤差如表2(見4.2節(jié))所示, 從MAPE值來看, 支持向量回歸最優(yōu), 隨機森林次之,BP神經(jīng)網(wǎng)絡則相對較差. 但總體來說, 這三種單一模型的預測準確度和穩(wěn)定性都優(yōu)于前述的VAR模型, 這一方面說明了關鍵詞拓展的必要性, 另一方面也說明網(wǎng)絡搜索指數(shù)與實際游客量之間存在部分非線性關系,因此機器學習在這種預測方面更具優(yōu)勢.

4 基于機器學習算法的組合預測模型

4.1 建立GBDT組合預測模型

以往研究中使用頻率較高的是簡單便捷的定權組合法(如等權平均法、方差倒數(shù)法), 但其實籠統(tǒng)的賦予定值權重, 對于提高預測準確度是不理想的, 因為不同單一模型在不同時刻的預測誤差是不一樣的, 如果按照時刻和預測誤差的變化賦予各個模型動態(tài)變化的權值, 效果會更佳, 本文提出基于GBDT的組合預測模型.

GBDT (Gradient Boosting Decision Tree)是一種梯度提升的決策樹算法, 核心思想是將損失函數(shù)的負梯度在當前模型的值作為回歸問題提升樹算法中的殘差的近似值, 擬合一個回歸數(shù). 將三種單一模型訓練集的擬合序列作為新的訓練集, 將單一模型測試集的預測序列作為新的測試集建立GBDT模型, 模型中賦予各個單一模型的權重系數(shù)應是隨時間點不同而變化的.算法流程如下文.

(b) 對rmi擬合一個回歸樹, 得到第m棵樹的葉節(jié)點區(qū)域為

Step 4. 得到回歸樹:

要對各參數(shù)進行優(yōu)化, 包括損失函數(shù)、學習速率、迭代次數(shù)等. 損失函數(shù)選擇回歸問題中最常用的Gaussian分布, 學習速率取0.05, 使用交叉驗證確定最佳迭代次數(shù)為2518. 最終根據(jù)此模型得到一組新的組合預測結果.

4.2 模型預測結果評價

為了有效和直觀的衡量不同模型的預測能力, 本文選取均方誤差(MSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)這三個指標來評估預測結果,各模型預測結果如表2.

表2 各模型預測結果比較

從表2可以看出, 無論從MSE、MAE還是MAPE來說, 組合模型的預測效果均有顯著優(yōu)勢, 相比單一模型大幅度提高了預測準確度. 各模型的預測值與實際值對比如圖4所示.

由圖4可知, 其中圖4(a)和圖4(d)清晰直觀的表現(xiàn)出了效果最差的單一模型與效果最好的組合模型在預測準確度上的明顯差異(由于游客量數(shù)據(jù)周期性很強, 每一年走勢基本一致, 因此僅展示2014～2016年的數(shù)據(jù)), BP神經(jīng)網(wǎng)絡模型通過學習訓練基本能預測出游客量一年的走勢, 但對峰值敏感度較低, 訓練集擬合效果也較差, 而GBDT組合模型的訓練集擬合效果很好,峰值敏感度和測試集預測效果也更優(yōu).

5 結束語

本文以北京市游客量為研究對象, 選定核心關鍵詞后, 對其進行數(shù)據(jù)檢驗和預測能力分析, 證明網(wǎng)絡搜索數(shù)據(jù)的確有助于預測實際游客量, 為提高預測的科學性和自變量信息的完善性, 進一步拓展核心關鍵詞并擇優(yōu)篩選, 基于同行相關關鍵詞的百度搜索指數(shù), 分別建立了三種單一預測模型, 為提高預測準確度又建立了基于GBDT的組合模型, 模型預測結果顯著體現(xiàn)出了組合預測的優(yōu)越性. 統(tǒng)計局統(tǒng)計數(shù)據(jù)的發(fā)布至少存在兩個月的滯后期, 而本文提出的基于同行網(wǎng)絡數(shù)據(jù)的組合預測模型可以即時預測當月人數(shù), 具有很強的現(xiàn)實意義. 模型的進一步推廣應用與可靠性檢驗是接下來的研究方向.

圖4 各模型預測效果圖