(西安建筑科技大學 信息與控制工程學院,西安 710055)
近年來,隨著我國旅游人數的急劇增長,旅游景區景點飽和、游客擁擠等問題也日益突顯出來,進而影響游客的出游體驗和旅游業發展。因此,準確地預測區域旅游客流量能夠為景區管理者快速決策提供幫助,從而避免游客聚集,提高游客的安全性,進一步推動旅游業的持續發展。
目前,流量預測的方法較多,主要分為傳統方法和深度學習方法。傳統的流量預測方法,如線性回歸法[1-2]、灰色預測法[3-4]、ARIMA法[5]、人工神經網絡[6-9]等,這些方法很難準確預測波動性強、復雜非線性的區域旅游客流量,并且無法學習空間相關性。
隨著深度學習的發展,研究者將其運用在交通流量[10-12]、客流量[13-15]、燃氣負荷量[16]等流量預測上。Y.F.Li等人[17]采用長短時記憶神經網絡(LSTM)方法對旅游流量進行預測,實驗表明LSTM方法比自回歸集成移動平均(ARIMA)模型和反向傳播神經網絡(BPNN)有更好的預測效果,充分利用了旅游客流量數據的時間維度。但此方法沒有利用空間屬性,X.Zhan等人[18]提出了一種基于卷積神經網絡(CNN)的交通流預測方法,使用浮動車的GPS軌跡數據來估算全市的交通量。X.Ma 等[19]提出了一種大規模交通網絡速度預測的深度卷積神經網絡,將時空矩陣轉換為圖像作為 CNN 的輸入??梢钥闯觯瑔我坏纳窠浘W絡無法充分利用時空數據的多屬性特征。J.Zhang等人提出了一種基于深度學習的時空殘差網絡模型ST-ResNet,使用殘差網絡來模擬人群流量在時間上的相關性,將城市劃分為均勻的網格并使用ST-ResNet模型預測每個地區人群流入量和流出量[20-21]。段宗濤等人也將出租車GPS數據和天氣數據等轉化為柵格數據,結合卷積神經網絡、長短時記憶神經網絡、殘差網絡構建了出租車需求預測模型[22]。
雖然以上方法考慮到了時空數據的多屬性問題,但是,區域客流量易受季節性影響,短期相關性更強,且波動性強。針對以上問題,本文提出用于區域客流量預測的改進Quad-ResNet模型,利用殘差網絡模擬時空數據的時間與空間特征,并且利用全連接網絡模擬季節性影響。為了驗證方法的可行性,在陜西省寶雞市扶風縣法門鎮真實序列數據集上測試了Quad-ResNet模型與LSTM、CNN、ST-ResNet模型的性能,發現Quad-ResNet模型性能優于LSTM、CNN、ST-ResNet模型。
本文的其余部分組織如下。第一節介紹基于時空殘差網絡的區域客流量預測方法。第二節討論了幾種選定模型的實驗設計和性能。最后,第三部分是結論。

htm,n= |{pi∈(m,n)∧pi∈P} |
(1)
式中,P是t時刻旅游景區中行人的位置點集合;pi是集合P中的一個位置點;pi∈(m,n)表示位置點pi在網格(m×n)內;|·|表示集合的基數。
1.2.1 空間影響
根據地理學第一定律可知,任何事物都是與其他事物相關的,且鄰近事物之間的相關性可能更強,距離越近的事物關聯可能越緊密[23]。因此,旅游景區相鄰區域的客流量會因為人群的移動而相互影響,即存在空間鄰近性。距離較遠的區域之間也可能相互影響,兩個相似區域的客流量變化情況呈現出一定的相關性,即為空間的相似性。
1.2.2 時間影響
旅游景區某一時刻區域客流量會受到前幾個時刻的影響,根據時間間隔的長短可以具體分為鄰近性、相似性、周期性、趨勢性。
1.2.2.1 鄰近性
圖1為五分鐘間隔所有區域總流量折線圖,從中可以看到,0∶00~6∶00客流量較少且逐漸減少,6∶00~12∶00客流量不斷增加,12∶30左右出現當日的一個高峰,然后不斷振蕩直到20∶00,之后客流量開始逐步減少。對于一天各個時刻的客流量來說,每個時刻的客流量均會受到鄰近的前幾個時刻的影響,而且它也會影響之后幾個時刻的客流量,體現了區域客流量的鄰近性。

圖1 區域流量鄰近性
1.2.2.2 相似性
圖2將12∶00區域的客流量依次與11∶00、10∶00、9∶00區域客流量做差,差值大于10的區域用白色表示,其余區域用黑色表示。從圖2中可以看到,白色區域從整體上看屬于少數,說明大部分區域客流量相差不大,體現了時間上的相似性。

圖2 區域流量相似性
1.2.2.3 周期性
圖3顯示了連續五天的區域客流量,從圖3可以看到每天的客流量變化趨勢是大體相同的,每天同一時刻的客流量與1天前、2天前的客流量存在相似性,呈現出區域客流量的周期性。

圖3 區域流量周期性
1.2.2.4 趨勢性
圖4顯示了時長為6個月,間隔為1周,每早8∶00的客流量,隨著氣溫變暖,同一時刻客流量增多,體現了區域客流量的趨勢性。

圖4 區域流量趨勢性
1.2.3 季節性影響
在區域客流量相關的研究中經常會提到“季節性”這個概念,它反映了由于天氣因素、日歷效應和時機決策的不同,客流量在時間分布上的不均勻,最終導致旅游市場具有明顯的淡旺季。具體在區域客流量的研究上,需要考慮的因素分為天氣和法定節假日等。
基于時空殘差網絡的區域客流量預測方法Quad-ResNet模型的整體架構如圖5所示,模型主要分為5個部分,通過4個殘差網絡分別來模擬時間的鄰近性、相似性、周期性和趨勢性,一個兩層全連接網絡模擬季節性影響。殘差網絡由一個卷積層、L個殘差單元和一個卷積層組成,這種結構可以模擬空間鄰近性和相似性。4個殘差網絡的輸出op[L + 2]、oq[L + 2]、or[L + 2]、os[L + 2]通過參數矩陣融合為of,of與全連接網絡的輸出oe進行融合。最后,通過Tanh函數將融合后的輸出映射到[-1,1]。

圖5 Quad-ResNet模型整體架構
4個殘差網絡結構是相同的,以鄰近性部分為例。應用BN(Batch Normalization)[24]后殘差單元的計算如式(2)、式(3)所示:
a[l+1]=w[l+1]*g(a[l])
(2)
a[l+2]=w[l+2]*g(a[l+1])+a[l]
(3)
式中,*表示卷積操作;g表示激活函數ReLU;w[l+1]、w[l+2]是可學習參數。




鄰近性部分、相似性部分、周期性部分與趨勢性部分通過參數矩陣進行融合,融合后的輸出of如式(4)所示:
(4)
式中,*表示Hadamard積;wp、wq、wr、ws是可學習的參數,分別用來調整鄰近性、相似性、周期性、趨勢性的影響程度。

(5)
模型采用MSE(Mean Square Error,均方誤差)來計算損失,損失函數L(θ)如式(6)所示:

(6)

2.1.1 實驗數據集
原始流量數據來源騰訊位置大數據網站,爬取陜西省寶雞市扶風縣法門鎮2018年1月1日~2018年6月30日的APP定位數據,時間間隔為5分鐘,轉換為區域客流量數據后,共包含52 128個時刻。
采用扶風縣的歷史天氣數據作為法門鎮旅游景區的天氣數據,天氣數據包含日期、天氣狀況、氣溫、風力風向這四個屬性。節假日數據來源于開放API,工作日標識為0,周末休息日標識為1,法定節假日標識為2。
2.1.2 超參數設置
Quad-ResNet模型使用Adam優化算法進行訓練,batch size設置為32,學習率設置為0.0001,損失函數設置為MSE。鄰近性時間間隔的單位為1個時刻,相似性時間間隔的單位為1個小時,周期性時間間隔的單位為1天,趨勢性時間間隔的單位為1周。由于數據集的時間間隔是5分鐘,因此鄰近性時間間隔p=1,相似性時間間隔q=12,周期性時間間隔r=288,趨勢性時間間隔s=2016。
2.1.3 模型評估標準
采用RMSE(Root Mean Squared Error,均方根誤差)對模型進行評價,RMSE的計算如式(7)所示。RMSE越小則說明模型的誤差越小、精度越高。
(7)

2.1.4 參數選擇實驗
參數選擇實驗主要是對鄰近性序列長度、周期性序列長度、相似性序列長度、趨勢性序列長度與殘差單元數量進行選擇。
以鄰近性序列長度選擇實驗為例,實驗結果如圖6(a)所示。從圖中可以看到,隨著lp變大,RMSE首先減小然后平穩最后增大。lp=0時,表示不使用鄰近性部分,導致RMSE很大,說明鄰近性部分有助于提高模型的精度。lp=2時,RMSE最小,表明此時模型的精度最高。lp=6時RMSE反而比之前更大,說明較長的鄰近性序列不但無法提升模型的精度反而可能導致模型的精度下降。因此,最終選取鄰近性序列長度lp=2,此時模型的誤差最小,精度最高。根據圖6(b)~6(e)所示,最終選取周期性序列長度lr=3,相似性序列長度lq=4,趨勢性序列長度ls=1,殘差單元數量為4。

圖6 參數選擇實驗結果圖
2.2.1 實驗設計
為了驗證模型的有效性,本文選取了3個模型ST-ResNet,LSTM,CNN與Quad-ResNet做性能比較,其中深度學習模型ST-ResNet,LSTM,CNN設置的參數值與Quad-ResNet中的保持一致。
2.2.2 實驗結果分析
各個模型的預測結果如表1示,從表可以看出Quad-ResNet模型的RMSE最小,說明該模型的預測精度最高。LSTM-3、LSTM-6、LSTM-12模型的RMSE只比Quad-ResNet模型的RMSE稍大一些,說明LSTM模型能夠有效地捕獲短期的時間相關性,并且得到較好的預測結果,但是空間相關性對于預測結果也有著重要的影響,不能只考慮時間相關性,否則無法進一步地提升精度。

表1 實驗結果對比表
LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型的RMSE比較接近,明顯小于LSTM-2016模型,同時,隨著lookback的增加,模型的RMSE先減小后增大,說明LSTM模型可能很難捕獲非常長期的時間相關性(例如,一天、一周)。
CNN模型的RMSE明顯比Quad-ResNet、LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型大,僅僅略小于LSTM-2016模型,說明淺層的CNN可能很難捕獲到足夠的空間相關性,導致模型的預測精度不佳。
ST-ResNet模型的RMSE大于Quad-ResNet模型,這是由于ST-ResNet模型只考慮了時間的鄰近性、周期性、趨勢性,沒有考慮時間的相似性,導致模型的精度無法進一步地提升,說明短期的時間相關性對區域客流量預測精度的影響明顯大于長期的時間相關性。鄰近性、相似性屬于短期的時間相關性,周期性、趨勢性屬于長期的時間相關性。Quad-ResNet模型考慮了時間的相似性,因此實驗結果好于ST-ResNet模型。
綜合以上各個結論可以得出,本文提出的針對區域客流量預測的Quad-ResNet模型的預測結果較好,該模型對時間相關性和空間相關性的考慮比較周全,具有一定的泛化能力,同時該模型在訓練和預測上的操作明顯比LSTM模型更簡單方便,證明Quad-ResNet模型是一個優秀高效的模型,適用于區域客流量的預測。
本文提出了一種基于時空殘差網絡的區域客流量預測方法,即根據行人定位數據、天氣和節假日數據預測每個地區的客流量,從而找到旅游景區的客流量熱點區域。本文選取了3個模型與 Quad-ResNet模型做性能比較,證明Quad-ResNe模型更適合區域客流量的預測。但是還有一些方面需要完善,本文的區域流量是通過行人數據得到的,如果可以融合更多的交通流量,比如自行車軌跡數據、出租車軌跡數據等其他數據,在此基礎上預測的結果應該更符合真實情況。本文考慮的影響因素也并不代表所有影響,未考慮到突發事件或一些未知的原因,如果可以挖掘出其他影響因素進行分析,從而增強預測模型的實際意義,進一步提高模型的精確性。