馬玉倩 王佳瑤 潘錫燦 葉聰 劉洋
(長安大學信息工程學院,陜西 西安 710021)
隨著網絡技術的發展和智能終端的普及,網約車憑借其快速、便捷和優質的服務逐漸成為人們出行的首選方式,它的普及為乘客難以打到車以及司機難以及時發現乘客提供了有效的解決方案。然而,網約車司機,特別是新司機,缺乏旅行需求信息,沒有經驗,接單尋客過程和路徑選擇具有盲目性,難以較快的找到乘客,進而影響司機的接單量和收入。并且在交通高峰期,大量公共交通擁擠,網約車打車難,乘客出行需求無法得到有效滿足。系統可以預測特定區域未來短時出行需求來為司機提供參考,以有效緩解現狀。
目前基于網約車需求預測的分析與研究已有很多,但大多數都是基于小波分析方法[1]、混沌理論等非線性理論的預測模型,通過挖掘短時間內交通流的非線性特點,體現城市交通運行的隨機性。從建模的角度看,大多數預測模型只考慮了單一的時間因素,而對動態時空特性對乘客出行行為的影響較少涉及[2]。為了規避這些缺陷,保證網約車需求預測的準確性,系統采用了CNN_LSTM_ARIMA 綜合預測模型,選用收斂性更好的Selu 作為激活函數,綜合考慮多維度的數據作為參數,所有維度的數值被限制在0-1 的范圍內,以避免出現偏向訓練期的某個維度。在原始數據的采集方面,不同于現有研究的傳統問卷調查方法[3],系統的數據來源于**打車所推出的蓋亞數據開放計劃,依托于**領先的大數據和技術優勢,使得軌跡數據具有更強的權威性和真實性。
本文以西安市二環以內的蓋亞開放數據為基礎,對數據進行一系列處理和城市交通小區劃分,分析城市不同區域內需求特征,構建具有時間視圖、空間視圖和修正視圖的CNN_LSTM_ARIMA 綜合預測模型準確預測特定區域未來出行需求。
基于蓋亞開放數據的網約車需求預測系統根據各部分功能的不同,可分為數據處理、數據分析、CNN_LSTM_ARIMA 預測模型建構和系統可視化設計。數據處理部分分為數據清洗、坐標系轉換、上下車地點提取和OD 矩陣生成,為數據分析和模型建構提供數據集支持;數據分析對來自數據處理環節的數據集進行時間和空間特性分析,反映居民出行需求時空分布規律;CNN_LSTM_ARIMA 預測模型建構的主要功能是根據時間和空間雙重特性對乘客未來出行需求進行預測并對預測結果進行修正;系統可視化設計分為整體架構設計、數據庫設計和主界面設計,主要實現需求的可視化顯示。系統的整體架構圖如圖1 所示。
本研究數據均自于蓋亞數據開放計劃平臺,原始數據由五個部分組成:司機ID,訂單ID,時間戳,以及經度緯度數據,具體字段信息見表1。由**專車平臺提供的蓋亞開放數據為訂單司機軌跡數據,軌跡點每2-4 秒采樣一次,且經過了綁路的處理即將數據與實際路段相對應,保證了數據都能夠對應到實際的道路信息。并且司機以及訂單信息都進行了加密和匿名脫敏化處理,保證了用戶的安全。
GPS 數據采集和傳輸過程過程中受到大氣層、隧道以及高大建筑物等障礙物、設備故障及人為因素等多種因素的干擾[4],不可避免會出現漏傳或是數據丟失的情況,進而出現臟數據。同時,GPS 數據的經緯度均采用GCJ-02 坐標系,這和所使用的可視化地圖的坐標系不一致,因此在數據清洗之后需要進行坐標系的轉換。然后對轉換后的數據集進行處理,為預測模型提供數據集。
蓋亞軌跡數據包含了大量網約車在運營過程中的軌跡點具體信息,系統可以對這些具體信息加以處理以進行相關研究。系統計劃以此作為研究數據,并對該數據做以下處理,其基本流程如圖2 所示。

圖2 數據處理流程圖
將不符合條件約束(即錯誤的)數據、重復數據、異常數據、記錄不全數據篩選出來不作為分析的依據[5]。
原始數據是在GCJ-02 坐標系下的,但是分析時所使用的在線地圖為WGS-84 坐標系,因此需要將坐標系從CGJ-02 轉換到WGS-84。具體轉換公式[6]如下:
式(1)、(2)中:
longcj——原始數據集中GCJ-02 坐標系下的經度數據。
latgcj——原始數據集中GCJ-02 坐標系下的緯度數據。


式(6)、(7)中:
a 的值為6378245.0,表示地球長半軸。
e 的值為0.00669342162296594323,表示為地球扁率。
lonwgs——坐標轉換后WGS-84 坐標系下的經度數據。
latwgs——坐標轉換后WGS-84 坐標系下的緯度數據。
系統根據所獲取的數據集中的時間戳進行上下車地點的獲取,司機ID 和訂單ID 一致時即為同一個訂單。因此,對司機ID 和訂單ID 一致的多條記錄進行比較,將時間戳值最小的記錄的經緯度作為上車地點,時間戳最大的記錄經緯度作為乘客下車地點。
OD 矩陣將全部交通分區按起點區與終點區排序,以任意兩分區之間的車輛或居民出行量(OD 量)為元素的矩陣。在前文已經提取OD 點的基礎上,并通過FME 轉換器[7]對OD 矩陣進行推算,OD 推算流程如圖3 所示。

圖3 OD 推算流程圖
以西安市蓋亞開放軌跡數據為例,在對蓋亞軌跡數據進行處理的基礎上,研究西安市居民在出行時間及出行空間上的特點。首先對生成的OD 出行矩陣進行了分析,之后從時間與空間的角度對居民出行分布進行研究,通過對OD 矩陣中各個交通小區間的交通流量的分析,可以得出交通小區的出行流量。在出行需求的空間特性上,通過對不同時間段內拉客區域及乘客出行需求區域空間分布的研究,可以得到乘客出行需求空間的熱力圖,從圖中我們可以直觀的感受到出行需求。同時,我們可以通過固定一個時間段從而比較在一個固定時間段內的居民出行的時間特性。總而言之,對蓋亞軌跡數據的分析不僅反映了乘客出行需求時空分布規律,同時也反映了城市交通規律。
在前面我們已經對數據進行了相關的處理并且用實驗數據證實了網約車的需求量具有較高的時空特性,為了捕捉到時間和空間的雙重屬性,在綜合考慮需求量的影響因素前提下,構建CNN_LSTM_ARIMA 組合預測模型來模擬空間和時間關系,本文提出的模型具有三個視圖:時間視圖(通過LSTM 建模未來需求值與近時間點的相關性)、空間視圖(通過CNN 建模局部空間性)[8]和修正視圖(預測值與真實值的波動誤差ARIMA模型[9])。給定一段時間內的輸入,輸出是下一個時間片的需求量。不同于傳統的CNN 或LSTM架構,CNN_LSTM_ARIMA 的第一部分是CNN,由用于空間特征的提取的3 個卷積層組成。中間部分是LSTM,對第一部分的時序規律進行分析,進而估計下一個時間片的網約車需求量。第三部分是ARIMA,對前兩部分的預測結果進行修正。
目前,在該領域的研究實驗大多選擇RectifiedLinearUnit(ReLU)作為激活函數。但是,與Relu 函數相比,Selu 函數具有較好的收斂性并且可以有效避免梯度的消失,因此本實驗選擇Selu 作為激活函數。輸出結果由LSTM的輸出通過全連接層與sigmod 激活函數結合獲得。結果為預測的下一時間片的需求量。

CNN_LSTM_ARIMA 的系統流程圖如圖4 所示。在數據處理時,對原始數據進行歸一化處理,即把所有維度的數值控制在0-1 的范圍內,以避免出現某種極端結果。歸一化數據由兩部分組成:訓練數據和測試數據。在訓練期間同時使用訓練數據和測試數據,每次將訓練數據輸入到模型中時,都會生成一個損失值。根據該值來調整模型參數。隨著迭代次數的增加,預測結果的準確度越來越高。完成訓練后,將測試結果和實際值作比較,評估CNN_LSTM_ARIMA 的預測精度。
ARIMA 模型是采用差分運算或對數運算后將非平穩時間序列轉換成平穩時間序列后,用自相關和偏自相關函數建立的一種時間序列預測方法。ARIMA 模型較為簡單,只需要內生變量而不需要依賴其它外生變量。根據原始序列是否平穩以及回歸中所含部分的差異,可分為四個過程:移動平均過程(MA)、自回歸過程(AR)、自回歸移動平均過程(ARMA)和ARIMA 過程。輸入變量為前一段時間內同一時刻的出租車需求量實際值與歷史時刻的觀測值。
針對非平穩序列的Xt的ARIMA(m,d,n)模型表達式為

式(10)中,d 為差分次數;B 為滯后算子;Xt為經過d 次差分后的平穩時間序列;m 和m 分別為自回歸階數和滑動平均階數;φ1,φ2,…φm為自回歸系數;w1,w2,…wm為滑動平均系數,εt,εt+1,…εm為零均值白噪聲序列。
系統采用B/S 框架(瀏覽器/服務器架構)來實現系統可視化。該架構使用web 瀏覽器替代傳統的客戶端軟件作為應用層的用戶端。用戶通過在瀏覽器地址欄輸入特定的URL 即可快速訪問一個web 應用或者使用某個web 服務。對于用戶而言不再需要單獨下載軟件客戶端,只需要安裝任意一款瀏覽器即可。B/S 架構極大地縮減了軟件開發周期,并使得系統的開發維護乃至功能擴展都變得十分簡單。其實現框架如圖5 所示。
本設計采用對象- 關系型數據庫PostgreSQL 10 來存儲和管理路網數據以及網約車GPS 軌跡數據。PostgreSQL 是特性十分齊全的對象- 關系型數據庫,在web 應用架構中,服務器端負責處理前端發送的請求。為了完成相關的計算任務,服務器通常需要數據庫執行查詢和操作語句并返回結果。PostgreSQL在處理空間幾何數據方面具有獨特優勢,它完美支持Postgis 空間數據庫拓展;而路網數據和軌跡數據都屬于空間幾何對象,使用PostgreSQL 數據庫其及拓展使得對空間幾何對象的操作與一般類型數據的操作無異。

圖5 B/S 架構及其運行原理

圖6 系統主界面設計
主界面如圖6 所示。用戶通過查看系統,自行避開需求量較高的熱點區域或者錯峰出行,進而減少等待時間;司機登錄系統,通過調整時間,即可查看未來一段時間全城不同地區網約車需求量,并自行前往網約車需求量較高的地區進行接客;交通管理者可以將該系統作為交通控制和管理的重要參考,從而達到緩解交通阻塞,提高城市路網運行效率的目的。
系統通過對蓋亞開放數據處理分析,結合時間和空間特征對網約車需求進行預測。一方面可以指導網約車運營,網約車司機可以提前預知區域出租車的變化情況,自行去往需求量較高區域,從而降低網約車空載率,大大方便乘客出行。另一方面幫助平臺實現網約車合理調度,優化供求關系,減少空車數量,提高司機收入,實現乘客、司機、平臺、等多方面共贏。