隨著經濟的高速發展,人們的消費需求不斷升級,快遞業也日益發展壯大。根據《中國快遞業社會貢獻報告2021》的報道,我國快遞業已經連續8年穩居世界前列,全年快遞業務量和業務收入達到1 083億件和10 332.3億元,快遞業已經成為拉動國民經濟發展的重要力量。
江蘇位于長江三角洲地區,是我國綜合發展水平最高的省份,省域經濟綜合競爭力居全國前列,人均GDP自2009年起連續13年全國領先,是我國經濟最活躍的省份之一。作為我國經濟強省,江蘇省的快遞業務量位居全國第三,十年內增長了13倍。截止到2022年11月,江蘇省郵政快遞業務量累計78.8億件,同比增長3.4%,快遞業務收入累計740.7億元,同比增長1.1%。可以說,快遞業務已經成為江蘇經濟發展的重要領域之一。但是,經濟下行使得我國各省市經濟和居民生活受到影響,許多居民從線下購物轉為線上購物。這些不確定因素給快遞行業帶來了更大風險,除了季節性因素帶來的周期性快遞業務量波動之外,快遞業務量數據出現暴跌和驟增都暴露了我國在快遞行業還存在許多問題[1]。區域快遞量預測不僅能為快遞行業提供更多的數據支持,還能相應地提高快遞行業對風險的事前預測和事后評估能力,更好地助力物流和快遞行業的發展[2]。SARIMA模型在金融、交通、醫學、電力等領域都有廣泛應用,是統計模型中常見的時間序列預測模型。由于快遞量時間序列數據存在明顯的季節性特征,故本文采用SARIMA模型。
Python是一門免費開源、簡單、高效的面向對象的編程語言。Anaconda為Python發行版本,其中包含180個科學包及其依賴項。本文將采用其中的Numpy,pandas,matplotlib,Scikit-learn,statsmodels,pmdarima等Python庫進行數據分析及可視化、統計分析、模型建模等[3]。
同時,在人工智能、大數據分析等技術飛速發展的環境下,智能化的信息搜索和收集方式更受人們歡迎。網絡爬蟲技術可以模擬人類的上網行為,在互聯網上“爬取”信息,并且對網頁信息進行提取,自動保存。本文采用了爬蟲技術,完成了數據的采集、處理、儲存[4]。
季節性差分自回歸滑動平均模型(Seasonal Autoregressive Integrated Moving Average,簡稱SARIMA),是常用的時間序列預測模型,其在自回歸移動平均模型(Autoregressive Integrated Moving Average,簡稱ARIMA)的基礎上考慮了季節性因素。SARIMA模型在金融、交通、醫學、電力等領域都有廣泛的運用。由于快遞業存在明顯的季節性特征,故本文采用SARIMA模型。
1.3.1 數據處理
在獲取到原始時間序列之后,通過Python的pandas庫導入數據,并將原始數據拆分為測試集和訓練集。使用訓練集完成對模型的訓練,將測試集作為模型測試的數據,評估模型的準確性。
1.3.2 數據檢驗
在分析時間序列數據之前,需要對相關原始數據進行檢驗。首先,要判斷時間序列數據是否具有平穩性,即通過ADF單位根檢驗,若數據是穩定的,那么可以直接使用SARIMA模型進行建模分析,否則需要進行d階差分和D階差分處理,直到數據通過平穩性檢驗。
1.3.3 白噪聲檢驗
白噪聲檢驗,即判斷經過處理的穩定時間序列數據是否是隨機序列,因為隨機序列不具有分析意義。圖1為SARIMA模型建立過程。

圖1 SARIMA模型建立過程
1.3.4 確定參數
確定時間序列數據是穩定、非隨機的,那么要對SARIMA(p,d,q)(P,D,Q)m模型參數進行選擇,即通過自相關分析和偏自相關分析的大小來分析時間序列是否拖尾,確定趨勢自回歸階數p、趨勢移動平均階數q、季節性自回歸階數P、季節性移動平均階數Q;也可通過遍歷AIC(最小化信息量準則)和BIC(貝葉斯信息準則)的方式找到最佳參數。
1.3.5 判斷檢驗
確定模型的殘差序列是否為白噪聲,即是否屬于隨機序列,若是則檢驗通過,說明原始時間序列中的信息已經被提取,不用再進一步分析了,否則需要重新進行參數的調整和確定。此外,還要觀察殘差圖是否符合正態分布[5]。
1.3.6 預測及評價
將測試集和SARIMA(p,d,q)(P,D,Q)m模型的預測數據進行比對,若誤差較小,則說明模型可行,否則說明模型的誤差較大,預測的性能較差。若預測誤差小,則使用該模型對未來數據進行預測。
由圖2可知,江蘇省快遞量呈逐漸上升趨勢。

圖2 江蘇省2016年1月—2022年11月快遞業務量
將原始數據進行分解,得到趨勢圖、季節性圖和殘差圖(見圖3)。結果顯示,江蘇省快遞業務量的季節性明顯。一年中的11月左右達到物流量的最高峰,2—3月份為物流量的最低谷。其主要原因為:由于春節導致快遞停運使物流量下降;每年的“雙11”等線上促銷活動使得物流量達到高峰。物流量趨勢在2016年1月—2021年6月明顯上升、2021年7月—2021年12月開始趨于平穩。其主要原因為:國內面臨經濟下行的困難局面,經濟增長變緩;“雙11”期間消費者的購物需求明顯降低,商家擔心庫存積壓、減少參與活動等。

圖3 原始時間序列分解圖
將2016年1月—2021年6月的數據進行劃分,2016年1月—2021年12月的前72個數據作為訓練集,2022年1月—2022年12月的11個數據作為測試集。
Augmented Dickey-Fuller test(增項DF單位根檢驗,簡稱ADF)是時間序列分析中常用的檢驗方法,表1是對2016年1月—2021年12月江蘇省快遞業務量進行ADF檢驗的結果。對原始數據進行檢驗,p值大于0.05,說明原始數據是不平穩的。在經過一階差分處理后,p值小于0.05且t值小于顯著性水平,說明一階差分后的數據是平穩的。從原始數據分解圖(見圖3)可知,原始數據存在明顯的季節性,其周期為12,對一階差分后的數據進行季節性差分,p值小于0.05,且t值小于顯著性水平,說明在一階差分和季節性差分之后得到了平穩序列,可以進行下一步分析。同時,從表中可以得知差分階層d、季節性差分階層D均為1。根據上述分析,可以確定模型為SARIMA(p,1,q)(P,1,Q)12。

表1 對2016年1月—2021年12月江蘇省快遞業務量進行ADF檢驗的結果
Ljung-Box檢驗,用來檢驗m階滯后范圍內序列是否為隨機序列[6];在statsmodels庫中可以使用acorr_ljungbox函數進行分析。差分后的時間序列經檢驗,p<0.001,為非白噪聲即非隨機序列,可以繼續分析。
自相關階數p、滑動平均階數q和季節性參數P、Q可以根據ACF圖(自相關圖)、PACF圖(偏自相關圖)來確定,也可以通過遍歷AIC(最小化信息量準則)和BIC(貝葉斯信息準則)最小參數組合來確定。從圖4可以看出,原序列在經過一階差分和季節性差分之后得到了平穩序列,可以開始進行模型的建立。通過網格搜索得到模型的最佳參數為SARIMA(1,1,1)(0,1,2)12。經過白噪聲測試,模型的殘差為隨機序列,說明信息已經被提取。

圖4 自相關系數圖和偏自相關系數圖
從表2中可以得知采用SARIMA(1,1,1)(0,1,2)12模型對2022年1月—2022年11月的數據進行預測,相對誤差的范圍在-0.22%~0.71%,結果顯示模型的預測效果良好。圖5為SARIMA(1,1,1)(0,1,2)12模型測試集的擬合。

表2 測試集真實數據和預測數據的比較

圖5 測試集SARIMA (1, 1, 1)(0, 1, 2)12的擬合圖
SARIMA模型對于短期時間內的預測是比較準確的,隨著預測時間的延長,誤差便越來越大。所以選擇未來半年的數據預測未來目標。在模型評估后對2022年12月—2023年5月的江蘇省快遞業務量數據進行預測,見表3。

表3 江蘇省2022年12月—2023年5月快遞量預測
通過對2016—2022年的快遞業務量進行分析,結果表明,SARIMA模型在短期時間內的預測效果較好,可以將預測數據作為未來短期物流需求量的參考指標。雖然由于經濟下行等原因造成快遞量的波動和近期快遞需求量變緩,但從長期來看,這些因素對快遞行業的影響會逐漸減小。從原始快遞量數據的季節、趨勢分離結果來看,每年11月是快遞業務量的高峰期,快遞行業會面臨一年中最大的機會和挑戰,在保證物品配送、運輸、搬運效率的同時,也要確保安全性,提升服務質量。對于商家來說,應提前制訂好庫存計劃、配置好資源、人員等,以面對可能出現的風險和機遇。在“雙11”“雙12”等線上促銷活動中應當搶抓商機,制訂更加合理的營銷方案;對于電商平臺來說,要為消費者和商家建立合理的購物平臺,提高消費者的消費體驗,保障消費者權益等;對于快遞服務商來說,應該提高服務水平,確保商品運輸的質量安全性,合理制訂計劃,避免庫存積壓等問題的出現。春節前后是快遞量的低潮期,在面臨可能需要減少資源投入時,物流和快遞服務商應制定好相應的措施。在此過程中,區域快遞量預測和需求預測是必要的。
文章只考慮了包括季節性時間序列的單個因素,如果能夠考慮多種因素的組合實現區域快遞需求量預測將會使得該模型更加完善,影響快遞業的因素有許多,例如宏觀因素有區域經濟、信息化程度、工業化程度、全球化程度、運輸化程度等;微觀因素有從業人員數量、基礎設施等[6],除此之外還要考慮一些突發情況。