宋 潔,張文華
(蘇交科集團(甘肅)交通規劃設計有限公司,蘭州730030)
隨著國民經濟的發展和人民生活水平的提高,人們對精神文化的需求進一步提升,文化旅游逐漸成為一種幸福、快樂、健康、美好的生活方式。文化旅游滿足了新時期人們對美好生活和精神文化的需求。甘肅是絲綢之路的黃金路段,長達一千六百余公里的景觀長廊串起了河西四郡、嘉峪雄關、金城古渡、麥積煙云等。沿著今日的絲綢之路,甘肅走廊已經成為一條名勝薈萃、古跡璀璨、風光壯美、風情濃郁的旅游景觀長廊。預測景區游客人數,合理規劃旅游交通及景區設施,順應時代發展,實現交通與旅游融合發展。
1967 年,Cover 和Hart 提出KNN 算法(k-Nearest Neighbor),該算法是一種經典的模式識別方法,常用于分類。KNN 回歸算法則可用于預測,具有簡單易實現、計算效率高、實時性好等特點。陸利軍等提出利用EMD-BP 算法預測游客量,EMD 提升了BP神經網絡算法的預測精確度。陳濤等分別利用VAR模型和BP 神經網絡模型預測游客量,研究表明,BP神經網絡模型的預測精確度和穩定性優于VAR 模型。張澤漢等指出,由于近年來游客量的變化呈線性變化趨勢,故使用二次指數平滑預測游客量。郭鵬提出GM(1,1)模型群分段選優預測游客量,預測精確度均高于99%。曾東玲等提出,利用灰色模型預測云南旅游市場,并利用馬爾科夫進行修正,達到了預期效果。王琳提出利用Elman 神經網絡的入境游客量預測模型。研究表明,Elman 神經網絡的預測誤差較小,預測結果與實際接近。張英坤等提出將灰色系統GM與RBF 神經網絡相融合,預測混凝土碳化深度。研究表明,融合模型的預測精確度高于GM和RBF 神經網絡的預測精確度。文獻利用粒子群優化神經網絡,研究表明,優化后提高了模型的預測精確度,該融合模型具有較強的實用性和抗噪性。YU H H 等提出利用粒子群優化LSSVM,研究表明,粒子群算法提高了LSSVM 算法的預測精確度。張瑩瑩提出利用ARIMA 模型預測中國豬肉價格,預測效果較好。機器學習應用中,比較常用的時間序列預測方法有自回歸平均移動模型(ARIMA)、灰色系統預測模型(GM)和神經網絡模型等,其中ARIMA 模型多用于線性時序數據預測,GM模型多用于時間序列數量較少的時間序列,BP 神經網絡適用于非線性時序數據預測,Elman 神經網絡與BP神經網絡類似,算法都是采用基于梯度下降法,會出現訓練速度慢和容易陷入局部極小點的缺點,對神經網絡的訓練較難達到全局最優。
總結國內外相關研究可以得出,關于時間序列的預測方法是比較多的,但是沒有充分考慮時間序列數據的特點,故預測效果沒有達到最佳?,F結合樣本數據的特點,提出基于ARIMA 模型和RBF 神經網絡模型的預測方法。
每種預測模型都有其各自的優勢,ARIMA 模型適用于預測線性部分,而RBF 神經網絡模型適用于預測分析線性部分,RBF 神經網絡具有全局逼近能力,解決了BP 網絡的局部最優問題。ARIMA 模型與RBF 神經網絡模型可以相互補償,從而使得預測結果更佳精確。
1.ARIMA 原理。ARIMA 模型是由博克思(Box)和詹金斯(Jenkins)于70 年代初提出的一種時間序列預測方法。該模型的基本思想是將預測對象隨時間推移而形成的數據序列作為一個隨機序列,利用數學模型來近似描述該隨機序列,數學模型被識別后就可以從時間序列的過去值和現在值來預測未來值,ARIMA 模型的數學表達式如式(1)所示。

2.ARIMA 建模流程。一是平穩序列(差分法確定d);二是確定p 和q 階數,ACF 與PACF;三是建立ARIMA(p、d、q)。

表1 變量及解釋Tab.1 variables and interpretation
1.RBF 神經網絡原理。RBF 神經網絡是一種性能優良的前饋型神經網絡,其三層結構,包括輸入層、隱含層和輸出層。該算法的特點是從輸入層到隱含層的變換是非線性的,而從隱含層到輸出層的變換是線性的。RBF 能夠實現無限逼近,RBF 神經網絡的逼近精度要明顯高于BP 神經網絡,RBF 神經網絡原理示意圖如圖1 所示。圖1 中,‖dist‖表示求取輸入向量和權值向量的距離,神經元(radbas)的輸入為輸入向量p 和權值向量w 的距離乘以閾值b,高斯函數(radbas)是常用的徑向基函數,其表達式為f(x)=e-x2。

圖1 RBF 神經網絡原理示意圖
2.交叉驗證。交叉驗證法通常用于機器學習建立模型和驗證模型的參數,其基本思想是將樣本數據集分為兩部分,一部分為訓練集,另一部分為驗證集,經過反復訓練模型的超參數,最終得到預測模型的最優參數。常用的交叉驗證法有簡單交叉驗證法、S 折交叉驗證法和留一交叉驗證法,現采用S折交叉驗證法,該算法原理如圖2 所示。

圖2 S 折交叉驗證法原理示意圖
誤差用于度量實際值與預測值之間的差距,通過誤差分析衡量預測模型的預測性能。常用的誤差分析方法有平均絕對誤差(MAE)和均方根誤差(RMSE),其數學表達式如式(2)和式(3)所示。

其中,ot表示觀測值,pt表示預測值。
回歸分析方法的基本思想是基于自變量和因變量的一組觀測數據,找一個函數式,通過這個函數式將自變量和因變量之間的統計相關關系近似地表達出來。函數式的一般表達式如式(4)所示。

其中,y、xm為觀測值,βm為回歸系數,ε 為誤差。
隨著我國社會經濟的發展,人們生活水平不斷提高,人們對于精神需求更加注重,旅游成為滿足人們精神需求的最佳選擇,2000-2019 年甘肅省國內旅游接待人數的變動特征如圖3 所示。

圖3 2000-2019 年甘肅省國內旅游人數變動特征
由圖3 可知,2000-2019 年甘肅省國內旅游接待人數呈指數型增長,2000-2008 年甘肅省國內旅游接待人數平穩增長,隨著國民經濟的增長,2009-2019 年甘肅省國內旅游接待人數迅速增長。
1.ARIMA 預測。利用SPSS 軟件反復測試,確定ARIMA 模型的參數p、d 和q,最終建立ARIMA(1,2,1)模型,預測甘肅省國內旅游接待人數,預測結果如圖4 所示。由圖4 可知,整體而言,ARIMA 模型的預測效果是比較好的。2008 年預測值的偏差較大,其他時間節點的預測值與實際值比較接近。

圖4 ARIMA 預測效果圖
2.RBF 神經網絡預測。由于樣本數據量有限,故采用交叉驗證的方法,訓練模型的超參數,最終得到最優參數。利用MATLAB軟件建立反復訓練模型,得到最佳網絡參數,然后預測甘肅省國內旅游接待人數,最終得到的預測效果圖如圖5 所示。由圖5可知,2002-2008 年的預測誤差比較大,2009-2019年的預測誤差較小。結果表明,RBF 神經網絡模型并不適用于線性部分的預測,對于線性部分的預測誤差較大。

圖5 RBF 神經網絡預測效果圖
3.ARIMA-RBFNN 預測。利用殘差優化法將ARIMA 模型和RBF 神經網絡模型融合,預測甘肅省國內游客接待人數,ARIMA-RBFNN 的預測效果圖如圖6 所示。由圖6 可知,ARIMA-RBFNN 融合模型的預測效果是比較好的,預測值與實際值比較接近,該融合模型的預測誤差較小。

圖6 ARIMA-RBFNN 預測效果圖
利用誤差指標(MAE 和RMSE)評價預測模型的預測性能,ARIMA 模型、RBF 神經網絡模型和ARIMA-RBFNN 模型的預測誤差分析結果如表2所示。

表2 誤差分析表Tab.2 error analysis table
由表2 可知,相比較而言,ARIMA-RBFNN 模型的預測性能最好,預測誤差最小。ARIMA-RBFNN模型的預測誤差指標MAE 和RMSE 分別為0.0039和0.0069??梢缘贸?,ARIMA-RBFNN 融合模型改善了ARIMA 模型和RBFNN 模型的預測性能,使得預測結果更接近實際值。
旅游業與交通存在著密切關系,交通便利會帶動旅游業的發展,與此同時,旅游業增加了交通運輸量。利用多元回歸分析游客量與各種運輸方式之間的數量關系,結果如式(5)所示。

其中,y 表示國內游客接待人數;x1表示鐵路客運量;x2表示公路客運量;x3表示民航客運量。
由公式(5)可以得出,甘肅省國內游客接待人數與鐵路客運量、公路客運量以及民航客運量之間的數量關系分別為7.44、-0.09 和0.76。
一是利用殘差優化法,將ARIMA 和RBF 神經網絡融合,預測甘肅省國內游客接待人數。研究表明,融合算法改善了ARIMA 和RBF 神經網絡的預測性能,從而提高了預測精確度。二是RBF 神經網絡的預測精確度高于ARIMA 的預測精確度,且RBF 適用于非線性部分的預測。三是利用多元回歸分析可得,游客量與鐵路客運量、公路客運量以及民航客運量存在一定的數量關系。