楊超,王建兵,黃暕
(安徽港口物流有限公司,安徽銅陵 244000)
近年來,物流行業(yè)開啟了數(shù)字化轉型之路,全面邁進網(wǎng)絡貨運時代[1]。在物流信息化平臺中,運力庫將所有車輛所在地按照行政區(qū)域劃分為多個流向,對于各個流向承運貨物的車輛統(tǒng)稱為運力[2]。在現(xiàn)代大規(guī)模物流系統(tǒng)中,準確預測區(qū)域運力具有很強的經(jīng)濟意義和社會意義。準確的區(qū)域運力預測不僅能夠預防爆倉、訂單延誤等風險,還可以在日常的運營中減少運力浪費,提高運營效率。
當前,面向不同應用場景的運力預測已獲得學術界廣泛關注[3-5]。時間序列模型雖然能夠從歷史數(shù)據(jù)中提取出一些時間序列的特征,由于模型復雜度較為有限,所能表征的特征種類也比較單一,導致預測結果準確性較低。為克服現(xiàn)有研究成果應用在區(qū)域物流運力預測上的缺陷,本文提出了一種基于熵權法的區(qū)域車輛運力預測模型。該模型根據(jù)熵權法計算得到車輛運力得分來計算整個區(qū)域運力得分,并融合XGBoost 和長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)模型的預測結果作為區(qū)域運力的預測結果。
GPS 軌跡數(shù)據(jù)是基于時間和空間對車輛的移動過程進行采用并記錄獲得的數(shù)據(jù),包含了車輛移動的經(jīng)緯度、時間、車速、方向等信息。GPS軌跡數(shù)據(jù)蘊含了豐富的運力特征,對這些特征進行分析提取,對后續(xù)區(qū)域運力預測具有重要作用。
本文GPS 數(shù)據(jù)來自安徽港口物流有限公司運營管理過程中所形成的真實數(shù)據(jù)。由于GPS數(shù)據(jù)龐大,因此需要對其進行數(shù)據(jù)質量評價。本文根據(jù)《GB/T 36344-2018 信息技術數(shù)據(jù)質量評價指標》[6],選取完整性、準確性、冗余性和一致性來評價安徽港口物流有限公司物流車輛GPS 數(shù)據(jù),評價指標計算方法如下:
1)完整性
完整性是按照數(shù)據(jù)規(guī)則要求,用于描述數(shù)據(jù)集中所有元素非空的程度。完整性分為數(shù)據(jù)元素完整性和數(shù)據(jù)記錄完整性。計算公式如下:
100% -(B/A) × 100%
其中,B 為缺失值數(shù)據(jù)量,A 為所有字段總數(shù)據(jù)量。如果只有一條日志記錄,則默認100%。
2)準確性
準確性是指待評價數(shù)據(jù)元素與期望的數(shù)據(jù)元素之間的真實程度,即待評價數(shù)據(jù)元素是否錯誤或異常。準確性指的是數(shù)據(jù)格式合規(guī)性、數(shù)據(jù)重復率和數(shù)據(jù)唯一性。計算公式如下:
其中,Ai為第i個待檢測字段符合準確性檢測函數(shù)的行數(shù),待檢測字段數(shù)為n,B為待測表的行數(shù)。
3)冗余性
冗余性主要評價數(shù)據(jù)集中無意義的冗余記錄占整個數(shù)據(jù)集中記錄的程度。冗余性分數(shù)由去重后數(shù)據(jù)集的數(shù)據(jù)量與總數(shù)據(jù)量的比例構成,計算公式如下:
其中,A為對數(shù)據(jù)集進行去重后的總數(shù)據(jù)量,B為待評價數(shù)據(jù)集的總數(shù)據(jù)量。
4)一致性
一致性是指用于描述數(shù)據(jù)與數(shù)據(jù)之間在某一特定條件下滿足某一相同的條件或狀態(tài)。一致性指標包括相同數(shù)據(jù)一致性和關聯(lián)數(shù)據(jù)一致性。計算公式如下:
其中,Ai為待評價數(shù)據(jù)集中符合一致性評價要求的行數(shù),待檢測字段數(shù)為n,B為待評價數(shù)據(jù)集中所有數(shù)據(jù)元素個數(shù)。
本文對GPS軌跡信息相關的6個數(shù)據(jù)項(設備號、時間、經(jīng)度、緯度、速度、方向)所產生的811 402 條實體數(shù)據(jù)進行質量評價的結果如表1所示。

表1 GPS數(shù)據(jù)質量評價結果
從表1可以看出:GPS數(shù)據(jù)總體準確性得分較好,數(shù)據(jù)缺失較少,有較高的利用價值,利用GPS 數(shù)據(jù)可以挖掘運力特征。
對于一些影響運力的因素(如運營里程、運營天數(shù)、運營時長),需要計算相鄰經(jīng)緯度之間的距離差,結合時間戳以統(tǒng)計駕駛員在指定范圍內的駕駛情況和停車情況。由于GPS軌跡數(shù)據(jù)的量級非常龐大,并且存在冗余和異常,因此本文通過對GPS經(jīng)緯度數(shù)據(jù)進行數(shù)據(jù)降采樣,剔除GPS 軌跡數(shù)據(jù)中的冗余數(shù)據(jù),從原始數(shù)據(jù)中提煉出有價值的數(shù)據(jù)。在保證數(shù)據(jù)準確性的情況下,減少冗余數(shù)據(jù)對特征挖掘的影響,同時提高特征提取的效率。
GPS 軌跡數(shù)據(jù)降采樣的主要過程是:首先,對選取的30天內的GPS數(shù)據(jù)進行處理,剔除GPS數(shù)據(jù)中的錯誤數(shù)據(jù),同時對各數(shù)據(jù)字段進行數(shù)據(jù)整合,包括數(shù)據(jù)類型統(tǒng)一和數(shù)據(jù)格式的確定,從而為下一步的數(shù)據(jù)降采樣提供可靠的GPS 基礎數(shù)據(jù);其次,針對多來源GPS數(shù)據(jù)頻率不一致的情況,使用按時間間隔等距抽樣的方法降低高頻率數(shù)據(jù),實現(xiàn)不同來源數(shù)據(jù)的頻率一致化;最后,選取最優(yōu)的降采樣參數(shù),使用Douglas-Peucker 算法[7]對處理后的GPS 基礎數(shù)據(jù)進行降采樣操作,進而實現(xiàn)在保證GPS 數(shù)據(jù)準確性的情況下,提高數(shù)據(jù)降采樣的精度。
2021 年12 月,福田汽車集團發(fā)布了商用車行業(yè)首個物流景氣指數(shù)“智科物流指數(shù)”,該指數(shù)通過對車輛的運營里程、運營天數(shù)、運營時長、運價和貨運周轉量5個因子進行整合分析,通過設置不同的系數(shù)權重,以前一年度數(shù)據(jù)均值為基準來計算商用車行業(yè)景氣度值[8]。然而,該指數(shù)的計算細節(jié)并未公開披露。本文借鑒該指數(shù)的5個因子來衡量區(qū)域運力,并利用熵權法計算區(qū)域運力值。
熵權法充分考慮了系統(tǒng)中各指標的變化程度,根據(jù)各指標的差異程度來對其賦予不同的權重[12]。通常來說,一個指標的信息熵越小,說明它在綜合評價中所提供的信息量越多,相應的權重也就越高。假設某區(qū)域擁有n0輛車,選取m個指標(m=5,分別代表30天內的運營里程、運營天數(shù)、運營時長、運價和貨運周轉量),剔除空值和異常值后隨機選取n輛車作為熵權法的輸入,假定第i個車輛的第j個指標數(shù)值表示為xij(i=1,2,...,n;j=1,2,...,m)。因為m個指標的計量單位存在差異,可能會對最終結果產生影響。因此,需要對這些指標進行標準化處理,將它們的絕對值轉化成相對值。指標歸一化的方法如下所示:
第j項指標的熵值計算方法如下所示:
其中,k=>0,ln為自然對數(shù),且滿足ej>=0。
信息熵冗余度(即各指標的差異化系數(shù))計算方式如下所示:
根據(jù)信息熵冗余度計算運力評估指標體系中各項指標的權重,如下所示:
在獲得各指標的權重后,各車輛的運力綜合得分計算方法如下所示:
因此,該區(qū)域所擁有的n0輛車的運力綜合得分sall的計算方法如下所示:
可見,基于熵權法可以計算出該區(qū)域30天的綜合運力得分,也可以計算出該區(qū)域歷史各個月份的綜合運力得分。以該區(qū)域歷史的綜合運力得分作為標簽來構建該區(qū)域運力得分數(shù)據(jù)集,并以此作為區(qū)域運力預測模型的訓練數(shù)據(jù)。
天氣因素(降雨、氣溫、氣壓、風速等)會影響車輛運輸?shù)臅r間、油耗等,從而影響運力值的變化,因此天氣因素也需要納入運力預測模型。由于在模型訓練階段采用的是歷史已知數(shù)據(jù),故此可以直接應用天氣數(shù)據(jù)進行訓練。然而在預測階段,由于未來天氣是未知的,只能使用天氣預報數(shù)據(jù)來進行預測,這會導致天氣預報的準確性對運力預測模型的準確性產生影響。同時,天氣預報的準確性也會隨時間衰減,因此本文采用了基于時間衰減的天氣因素提取算法來提取天氣相關因素。天氣因素提取包含訓練階段的天氣數(shù)據(jù)嵌入和預測階段的基于時間衰減的天氣預報數(shù)據(jù)嵌入。
在模型訓練階段,根據(jù)歷史30天的降雨、氣溫、氣壓、風速的氣象數(shù)據(jù)構建4個天氣因素的特征向量,生成30m維向量,m為天氣因素個數(shù)(本文m取值為4)。這30m 維向量作為區(qū)域車輛運力預測模型訓練時的天氣因素輸入特征。在模型預測階段,本文選取中國氣象數(shù)據(jù)網(wǎng)對評估區(qū)域未來30天的天氣預報數(shù)據(jù)(降雨、氣溫、氣壓、風速)作為初始數(shù)據(jù),并采用時間衰減算法來修正天氣預報數(shù)據(jù)以作為區(qū)域車輛運力預測模型的天氣因素輸入特征。具體算法流程如下:
Step4:如圖1 所示,由于預測的是未來30 天的數(shù)據(jù),僅需要對30天天氣預報數(shù)據(jù)進行修正,因此采用權值集合的平均數(shù)作為修正權值,如下所示:

圖1 天氣因素提取
根據(jù)上式可以計算得到未來30 天的天氣預報修正結果W={wj},j=1,2,..,30,其中wj=[rj,tj,pj,sj]包含降雨、氣溫、氣壓、風速4 個維度數(shù)據(jù),共生產成30×4維的輸出向量,作為后續(xù)區(qū)域運力預測模型的入模特征。
為了進一步提升模型的預測準確率,本文將天氣變化因素作為特征變量嵌入到預測模型中。給出針對區(qū)域所有車輛的運力得分集合D={{xi,yi}}(|D|=n,xi∈Rm,yi∈R),其中xi為車輛運力得分對應的計算指標,yi為對應的車輛運力得分(i∈N表示運力得分集合所覆蓋的時間長度,以月為單位)。通過熵權法計算得到區(qū)域所有車輛每30天的運力值后,使用大小為Sw步長為Ls的滑動窗口選取數(shù)據(jù)作為輸入數(shù)據(jù),滑動窗口的下一個位置為模型label。
如圖2所示,選取前1~6個30天的多因素特征ti作為模型的輸入數(shù)據(jù),以第7個30天運力得分yi為模型label,其中多因素特征ti為第i個30 天的運力值數(shù)據(jù)和第i個30 天多因素向量融合得到的向量。使用窗口大小為6步長為l的滑動窗口沿時序方向進行滑動,得到一系列數(shù)據(jù)來構建數(shù)據(jù)集。將構建的數(shù)據(jù)集劃分為訓練集、驗證集、測試集對模型進行訓練和預測,并采用相應的評價指標進行模型評估。在完成訓練集構建后,分別訓練XGBoost 模型和LSTM模型,并進行調參,選取最優(yōu)的模型結果使用投票法進行加權融合,從而得到對區(qū)域所有車輛在未來一段時間內的運力趨勢預測。

圖2 數(shù)據(jù)分割處理
本文使用基于CUDA 11.0 的深度學習框架Py-Torch 1.7.1 構建BERT 和LSTM 網(wǎng)絡模型,使用scikitlearn工具包進行數(shù)據(jù)標準化等處理,使用XGBoost 工具包構建XGBoost 模型,實驗平臺為內存64G,顯存24G的Ubuntu 18.04 LTS系統(tǒng)。
本文選取了安徽港口物流有限公司銅陵區(qū)域2019年6月—2022年5月期間的貨運車輛GPS數(shù)據(jù)和天氣數(shù)據(jù)構建了實驗數(shù)據(jù)集。數(shù)據(jù)集描述如表2所示。

表2 數(shù)據(jù)集描述
XGBoost模型和LSTM模型的超參數(shù)如表3和表4所示。

表3 XGBoost超參數(shù)設置

表4 LSTM超參數(shù)設置
本文采用常用的回歸模型評價指標:平均絕對誤差(MAE)、平方根誤差(RMSE)和平均絕對百分誤差(MAPE)作為模型性能的評價指標。為驗證本文提出的區(qū)域運力預測模型方法的性能,與多種基線方法進行了對比:
1)SVM(支持向量機):對于構建的數(shù)據(jù)集去除天氣因素,使用運力分和其他數(shù)據(jù)作為模型入模特征,使用SVM模型進行回歸預測。
2)XGBoost:對于構建的數(shù)據(jù)集去除天氣因素,使用運力分和其他數(shù)據(jù)作為模型入模特征,使用XGBoost模型進行回歸預測。
3)LSTM:對于構建的數(shù)據(jù)集去除天氣因素,使用運力分作為模型入模特征,使用LSTM 網(wǎng)絡提取輸入特征并結合全連接網(wǎng)絡實現(xiàn)運力分預測。
對比實驗結果如表5 所示。從表5 可以看出,本文提出的預測模型在各項指標上均優(yōu)于其他基線模型。由于本文是序列預測型任務,而LSTM 模型對于序列預測型任務非常適配,因此取得了較好的效果。本文方法在融合了XGBoost 和LSTM模型效果的同時還加入天氣因素,因此取得了最優(yōu)的預測效果。

表5 基線對比結果
為提升物流公司應對區(qū)域運力變化的預判能力,本文提出了一種區(qū)域運力預測方法。該方法利用熵權法獲取區(qū)域歷史運力得分,使用基于權值修正的天氣因素生成方法,根據(jù)歷史天氣數(shù)據(jù)構建修正權值對天氣預報數(shù)據(jù)進行修正,獲取天氣因素特征并生成對應的向量化特征表示。最后使用XGBoost 和LSTM模型分別進行序列預測,并融合兩個模型的預測結果作為區(qū)域運力的預測結果。