








摘 要:物流需求預測是物流管理中的關鍵環節,但是在現實生活中,物流需求可能受到諸如天氣、經濟狀況、特殊事件等多方面因素的影響,這使得問題呈現出多維度、長序列的特征。隨著深度學習和神經網絡的發展,越來越多的研究開始嘗試使用神經網絡模型進行物流需求預測,但是單一的神經網絡模型在處理多維度、長時間序列的預測任務時常常表現欠佳。由此文章提出了一種基于CNN-LSTM-AM的神經網絡模型,用于多維長序列物流需求預測。通過消融實驗與其他模型的對比,結果表明,其平均絕對誤差(MAE)、均方根誤差(RMSE)、決定系數(R2)均值分別為1.56、1.63和0.981,均優于其他6種神經網絡模型,為物流企業提供了一個有效的參考來更好地規劃資源和降低成本。
關鍵詞:多維物流需求預測;長時間序列;LSTM(長短時記憶)網絡;CNN(卷積神經網絡);注意力機制
中圖分類號:F259 文獻標志碼:A DOI:10.13714/j.cnki.1002-3100.2024.18.010
Abstract: Logistics demand forecasting is a critical component of logistics management, but in real life, logistics demand can be influenced by a variety of factors such as weather, economic conditions, and special events, presenting characteristics of multi-dimensionality and long sequences. With the development of deep learning and neural networks, more and more studies have begun to use neural network models for logistics demand forecasting. However, single neural network model often underperforms in handling multi-dimensional, long-time series forecasting tasks. Therefore, this study proposes a CNN-LSTM-AM based neural network model for multi-dimensional long sequence logistics demand forecasting. Compared with other models through ablation experiments, the results show that its Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and Coefficient of Determination (R2) values are 1.56, 1.63 and 0.981, respectively, all superior to six other neural network models. This provides an effective reference for logistics enterprises to better plan resources and reduce costs.
Key words: multi-dimensional logistics demand forecasting; long time series; LSTM (Long Short-Term Memory) network; CNN (Convolutional Neural Network); Attention mechanism
0 引 言
在過去的幾十年中,關于時間序列分析和預測方法的研究大致可以分為數理統計模型和神經網絡模型。數理統計模型以統計學為基礎,形式簡單易于建立和解釋各變量之間關系,有利反映需求變化的趨勢性、周期性等規律。代表方法有:回歸分析模型[1]、指數平滑模型[2]、ARIMA 模型、灰色預測(grey model,GM)、狀態空間模型(SSMs)等。程元棟等[3] 以我國 1990—2021 年月度貨運周轉量為物流需求數據來源,采用ARIMA模型7m5yZa/QwTwGKSImxEMJcW0CMSIhmnXISQMMGirMN98=建立具有線性關系的時間序列。王寶英等[4]利用傳統灰色預測模型和灰色殘差馬爾科夫模型設計擬合分組試驗,結果表明,灰色殘差馬爾科夫模型的預測結果相比于傳統灰色預測模型更加精準。Svetunkov等[5]提出了一種新的狀態空間模型,有效解決了間歇性需求的庫存決策問題,為庫存管理和需求預測提供了新的視角和工具。但是,這類模型在捕獲協變量和目標序列之間的關系方面存在不足,限制了對復雜時間序列的預測能力。其次,線性關系的假設過于簡化,難以模擬復雜關系,不能有效處理多變量互相制約的情況。
神經網絡模型具有強大的擬合能力,具有端到端的學習特征,代表方法有:邏輯回歸模型[6]、聚類算法[7]、支持向量機(SVM)、K近鄰、BP神經網絡、多層感知機(MLP)、卷積神經網絡(CNN)、長短時記憶網絡(LSTM)、注意力機制(Attention)等。Yu等[8]采用了一種結合蟻群算法和支持向量機的方法進行預測,并用優化后的支持向量機模型預測青島的物流需求。肖赟等[9]提出了一種基于改進的K近鄰算法的預測方法,成功地重建了與當前需求狀態相似的歷史時間序列。Huang等[10]
的研究使用了BP神經網絡方法,針對廣東地區進行了物流需求預測。Li等[11]采用LSTM長短時記憶網絡,考慮了電子商務的增長等對全球物流行業的影響。Pek?z[12]的研究就使用了CNN-LSTM神經網絡來預測區域物流需求,結果表明,CNN-LSTM神經網絡在預測準確性上超過了其他神經網絡模型。在時間序列預測中,長短時記憶網絡(LSTM)卷積神經網絡(CNN)的模型注意力(Attention)的模型已經得到了廣泛使用[13]。然而,盡管這些模型相較于數理統計模型在預測精度上有所提升,但單一使用神經網絡模型容易在預測階段產生曝露偏差,導致模型在預測過程中累積錯誤。另外,長時間序列中復雜的時間模式使得單一模型難以挖掘出可靠的時間依賴關系。在多維長序列任務中,需要處理的時間序列數據通常具有較長的時間跨度和復雜的模式,這對模型的處理能力提出了更高的要求。
1 問題描述
準確的需求預測可以幫助企業更好地規劃資源,提高運營效率。但是,在現實生活中物流需求受到多種因素的影響,如季節性、天氣、經濟狀況、節假日、特殊事件等影響,這使得需求預測變得非常復雜。傳統的預測方法,如移動平均法、指數平滑法或數理統計模型等,多是以年份為尺度的宏觀層面,輸入數據特征多為單一向量的輸入,多維需求預測要求輸入數據特征為矩陣。輸入格式的不匹配導致傳統預測模型方法尚不能有效處理在微觀層面呈現多特征多維度的需求預測問題。
此外,針對多維的數據特征,相關研究多采用機器學習模型,特別是深度學習模型,如卷積神經網絡(CNN)、雙向長短時記憶(LSTM)和注意力機制(AM)等,這類模型可以處理大量的數據,識別復雜的非線性模式,從而提高預測的準確性。但是單一的神經網絡模型在處理多維長序列問題時,往往不能捕捉到多維長序列數據復雜的模式和關系,且不能很好地處理這些復雜性,可能表現欠佳,造成對模型的欠擬合問題,導致預測結果的準確性不高。
基于上述背景,本研究提出一種使用多種神經網絡模型的模型,即CNN-LSTM-AM,來探討如何利用CNN-LSTM-AM神經網絡進行多維物流需求預測。本研究希望通過這種方法,更準確地預測物流需求,從而幫助企業更好地管理資源,提高運營效率,降低成本。
2 CNN-LSTM-AM模型構建
2.1 基本架構
本文提出了一種新型的用于物流需求預測的網絡模型,稱為CNN-LSTM-AM神經網絡模型,并改進了CNN-LSTM-AM模型使之更適合處理物流需求預測問題。在本研究所處理的任務中“SO”的含義為物流訂單量,是預測的目標標簽。此外采集了對物流訂單影響較大的九大因素作為輸入特征,其中輸入數據九大特征含義分別為“SO_c”代表物流訂單量修正值,“INV”代表庫存水平,“INV_c”代表庫存水平修正值,“ITO”代表庫存周轉率,“Return rate”代表退貨率,“NC2OCOratio”代表新客戶與老客戶訂單比,“IOC”代表友商訂單水平,“IOC_c”代表友商訂單水平修正值,“Special events”代表促銷節假日等特殊事件。
根據CNN、LSTM和AM的特點以及輸入數據的特點,建立了基于CNN-LSTM-AM的預測模型。模型結構圖如圖1所示。該模型的主要結構包括CNN、LSTM和AM,涵蓋了輸入層、CNN層(一維卷積層、池化層)、LSTM層、AM層、全連接層以及輸出層。
2.2 模型構建 (11)
3 實驗部分
本實驗采集了武漢市某具有越庫模式的物流企業2020年1月—2023年4月的物流訂單作為預測的原始樣本集,由于原始數據中離散性的數據較多,以及數據特征分布稀疏,本文選擇每間隔6h對數據集進行統計,將6h以來產生的物流需求進行加總為一條數據,統計后12h的短時物流數據為4 800條。每條數據包含十個特征,部分樣本數據顯示在表1中。本實驗將前3 000個數據作為訓練集,后1 800個數據作為測試集。圖2為輸入數據樣式。本研究所有方法都是在基于TensorFlow的開源學習庫Keras中使用Python實現的。本研究所有實驗都在Intel?i5-10400F 4.00GHz CPU,6G NVIDIA RTX 3070Ti GPU 32GB RAM的PC服務器上進行的。
3.1 模型訓練過程
用于該實驗的CNN-LSTM-AM模型的部分超參數設置見表2。在本實驗中,Epoch為100,損失函數為MAE,優化器選擇Adam,批量大小為64,時間步長為10,學習率為0.001。圖3 為CNN-LSTM-AM模型訓練過程中的收斂情況。
判斷是否滿足預測處理的結束條件:成功結束的條件是完成預定數量的循環,權重低于某個閾值,預測的錯誤率低于某個閾值。如果滿足至少一個結束條件,則完成培訓。否則,培訓將繼續。
誤差反向傳播:計算的誤差在相反方向上傳播,更新每層的權重和偏置,然后過程返回到CNN層計算以繼續網絡訓練。
3.2 預測流程
4 結 果
4.1 預測結果展示
完成預測的CNN-LSTM-AM模型的預測值與真實值的擬合情況見圖6。為了使趨勢對比更加直觀明顯,同時為了縮略表格節約空間,此處的對比圖沒有對數據進行反歸一化,Y軸選擇的是歸一化之后的數據,數據特征與趨勢與原樣本完全相同。從圖片的表現可以直觀地看出CNN-LSTM-AM模型的擬合情況優秀。
4.2 模型性能對比
為了更加客觀地評估CNN-LSTM-AM的預測效果,本研究在相同的操作環境下使用相同的訓練集和測試集數據將此方法與MLP、CNN、RNN、LSTM、CNN-LSTM和LSTM-AM這6種神經網絡模型進行比較。針對模型性能的評估,本研究使用平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(R2)作為評估模型的指標。表示模型輸出的預測值,表示測試集中的實際標簽,是測試集中的樣本數。MAE計算公式如下。其中是預測值,是真實值。MAE越小,則預測越準確。
根據每種方法的預測值和真實值的對比,可以計算出每種方法的評價誤差指標,7種模型的比較結果見表3。從表3中可知,CNN的MAE和RMSE最大,R2最小。另一方面,CNN-LSTM-AM的MAE和RMSE最小,R2最大,最接近1。7種方法的預測性能從高到低依次為CNN-LSTM-AM、CNN-LSTM、LSTM-AM、LSTM、RNN、MLP、CNN。單一的神經網絡模型中LSTM的表現最好,其MAE為4.58,RMSE為4.25,R2為0.750。CNN-LSTM與LSTM相比,比LSTM模型的MAE和RMSE更小,R2更大;其MAE減少了76%;其RMSE下降了64%;其R2上升了85%,這表明LSTM加入CNN層之后CNN-LSTM相比LSTM在預測精度上有一定的提高。由此可見,在處理具有較長的時間跨度和復雜模式的多維長序列預測任務中,復合的神經網絡模型的性能普遍優于單一的神經網絡模型。
復合模型在此任務中相較于單一模型更有優勢,為了更加直觀地將CNN-LSTM-AM與CNN-LSTM、LSTM-AM對比,本研究采用層次消融的消融實驗方法,有選擇地移除神經網絡中的卷積層(CNN)和注意力機制層(AM),探究它們對模型性能和功能的影響,如圖13所示在LSTM中加入CNN和AM對提升模型性能至關重要。從表3中可知,CNN-LSTM-AM與CNN-LSTM相比,即CNN-LSTM引入AM(注意力機制層)時,其預測精度有明顯提高。MAE降低44%,RMSE降低59%,R2提升90%。
綜上所述,在7種方法中,CNN-LSTM-AM的性能最好。其MAE為1.56,RMSE為1.63,R2為0.981,本文提出的CNN-LSTM-AM方法能夠最好地預測未來冷鏈物流企業的物流需求,為企業管理者物流運營商做出正確的投資決策提供參考。
4.3 CNN-LSTM-AM模型預測
將訓練好的CNN-LSTM-AM神經網絡模型進行保存,并輸入該物流企業的歷史物流需求數據,利用CNN-LSTM-AM神經網絡模型對該物流企業下個月的物流需求進行預測,其五月物流需求走勢如圖14 所示。
圖14 五月物流需求走勢圖
5 結 論
根據多維物流需求數據的特性,本文提出了一個CNN-LSTM-AM神經網絡模型來預測冷鏈物流企業未來的訂單量。該方法使用十個特征作為輸入,它充分利用了物流需求數據的時間序列特性。在該模型中CNN用于提取輸入數據的特征,LSTM用于學習和預測提取的特征數據,最后AM用來捕獲時間序列數據在不同時間的特征狀態對預測結果的影響,CNN-LSTM-AM的架構提高預測準確性和性能。
與已有研究相比,本文研究對象不同。目前大部分文獻針對物流需求的研究主要集中于宏觀區域內的物流需求,缺乏對于微觀物流企業物流需求特別是訂單量的預測,本文的研究對象是以6h為單位進行統計的企業物流需求,長度為4 800的序列。數據特征不同,目前研究以年為單位的序列數據量不足預測精度不高,此外,本文研究數據呈現一定非平穩性、隨機性等特征,單一的神經網絡模型難以捕捉到數據潛在特征。 模型架構不同,區別于以往的模型和算法,通過分析數據的時間序列和相關性,在CNN-LSTM模型中引入分層結構和注意力機制(AM),有效地解決了在預測階段產生的曝露偏差問題,使得模型能夠高效地處理長時間序列;解決模型預測結果誤差大的問題,提升了模型的預測精確度,使模型更適合多維度多特征的復雜模式。
實驗結果表明,與MLP、CNN、RNN、LSTM、CNN-LSTM和LSTM-AM相比,CNN-LSTM-AM具有最高的預測準確性和最佳的性能。CNN-LSTM-AM的MAE和RMSE是所有方法中最小的,R2最接近1。 CNN-LSTM-AM適用于物流需求預測,并可以為企業管理者提供相關參考,以更好幫助企業實現降本增效。CNN-LSTM-AM的提出也為學者們對物流需求更深入的研究提供了借鑒。未來的研究工作將主要調整模型中的參數,使結果更加準確,此外還將研究該模型是否可以應用于時間序列預測的更多應用領域,如黃金價格預測、股票價格的預測、油價預測、天氣預測、地震預測等。
參考文獻:
[1] 李雋波,孫麗娜.基于多元線性回歸分析的冷鏈物流需求預測[J].安徽農業科學,2011,39(11):6519-6520,6523.
[2] 于博,孫安國,陳麗萍,等.基于指數平滑法的云南省物流需求預測[J].物流工程與管理,2018,40(12):39-40,38.
[3] 程元棟,喻可欣,李先洋.基于加權馬爾科夫-ARIMA修正模型的區域物流需求預測[J].山東交通學院學報,2023,31(3):22-28.
[4] 王寶英,張嘉琪.基于灰色殘差馬爾科夫模型的山西省農產品冷鏈物流需求預測[J].數學的實踐與認識,2023,53(4):92-99.
[5] SVETUNKOV I,BOYLAN J E.iETS:State space model for intermittent demand forecasting[J/OL].International Journal ofProduction Economics,2023,265:109013.[2023-10-13].https://doi.org/10.1016/j.ijpe.2023.109013.
[6] KHASANZODA N,ZICMANE I,BERYOZKINA S,et al.Regression model for predicting the speed of wind flows forenergy needs based on fuzzy logic[J].Renewable Energy,2022,191:723-731.
[7] LYU Dongmei.Multi-region logistics distribution demand forecasting method based on big data analysis[C]//MOHAMMED A,NEIL Yen,ZHENG Xu.Big Data Analystics for Cyber-Physical Systems in Smart City.BDCPS 2019,28-29 December,2019,Shengyang,China,2019:1313-1321.
[8] YU Nan,XU Wei,YU Kaili.Research on regional logistics demand forecast based on improved support vector machine:A casestudy of Qingdao City under the New Free Trade Zone Strategy[J].IEEE Access,2020,8:9551-9564.
[9] 肖赟,劉洋,裴愛暉,等.城市配送需求預測方法研究[J].公路交通科技,2023,40(3):254-262.
[10] HUANG Lijuan,XIE Guojie,ZHAO Wende,et al.Regional logistics demand forecasting:A BP neural network approach[J].Complex & Intelligent Systems,2023,9(3):2297-2312.
[11] LI Ya,WEI Zhanguo.Regional logistics demand prediction:A long short-term memory network method[J/OL].Sustainability,2022,14(20):13478.[2023-10-15].https://doi.org/10.3390/su142013478.
[12] PEK?Z A.Deep learning approaches for demand forecasting in A third-party logistics platform[D].Bursa:BursaUludag University(Turkey),2021.
[13] TONG Junlong,XIE Liping,YANG Wankou,et al.Enhancing time series forecasting:A hierarchical transformer withprobabilistic decomposition representation[J/OL].Information Sciences,2023,647:119410.[2023-10-17].https://doi.org/10.1016/j.ins.2023.119410.
[14] SHI Mingjiang,YANG Bohan,CHEN Rui,et al.Logging curve prediction method based on CNN-LSTM-attention[J]. EarthScience Informatics,2022,10(15):2119-2131.
[15] REN Chuangxiang,CHAI Chunxu,YIN Changchang,et al.Short-term traffic flow prediction:A method of combined deeplearnings[J].Journal of Advanced Transportation,2021(722):1-15.
[16] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceeding of theIEEE,1998,86(11):2278-2324.
[17] HOCHREITER S,SCHMIDHUBER J.Long Short-Term Memory[J].Neural Computation,1997,9(8):1735-1780.
[18] TREISMAN A M,GELADE G.A feature-integration theory of attention[J].Cognitive Psychology,1980,12(1):97-146.
[19] 冉茂亮,陳彥如,楊新彪.基于EEMD-LMD-LSTM-LEC深度學習模型的短時物流需求預測[J].控制與決策,2022,37(10):2513-2523.
[20] 岳偉,袁媛.基于Shapley組合模型的冷鏈物流需求預測研究[J].赤峰學院學報(自然科學版),2023,39(8):27-33.