曹 慧,秦江濤
(上海理工大學 管理學院,上海 200093)
鐵路貨運量在我國運輸行業的發展中扮演著重要角色,能夠反映出我國交通運輸行業現狀及國民經濟發展情況,同時也存在因運輸設備不足而不能滿足貨運需求等問題,面臨著公路、水路等其他運輸方式的競爭。鐵路相關部門需要制定靈活的運輸計劃,優化鐵路運輸問題改善競爭局面,這就需要通過對貨運量進行預測,掌握一定時期的貨運量以判斷我國鐵路貨運發展趨勢和未來經濟發展,制定相關計劃以解決問題。
常用的貨運量預測方法有很多,比如時間序列分析、神經網絡方法、灰色預測等。時間序列分析是最常用的分析方法,其中ARIMA 最具代表性,對線性的數據具有較高的擬合度,而對于非線性的數據信息不能進行很好的預測。通常情況下,時間序列數據包含線性和非線性部分,因此僅通過ARIMA 模型對數據進行線性預測,得到的結果往往不能滿足人的需求。BP、RNN、LSTM等神經網絡方法中應用較為廣泛的為BP 神經網絡,廣泛應用于股票、二手房、碳市場等領域,對于解決非線性時間序列問題具有很好的效果,同時也具有過擬合、梯度消失、隱含層的選擇等問題。灰色預測計算工作量小、預測精度高,但過于依賴初始值和背景值。
在上述預測方法中,大多數學者采用單一模型對數據進行預測,比如孫斌等使用ARIMA 模型對極端事件下貨運量進行線性預測,發現ARIMA 模型貨運量的線性部分具有較高的擬合;譚雪針對貨運量具有高度非線性和不確定性的特點,運用GRU 模型對數據進行單步和多步預測,結果表明GRU 可較好擬合貨運量的非線性特征,但忽略了數據的線性特征。傳統單一模型主要是對于因果關系和時間序列模型分析無法提取較為全面的數據信息。隨著研究的深入,學者們開始對組合模型進行研究,例如梁寧等分析貨運量與影響因素的非線性關系,使用GRA確定影響因素的權重,采用FOA 選擇SVM-mixed 的最優參數,提高結果精確度;耿立艷等提出使用(FOA)算法優化選擇混合核LSSVM 參數并應用于貨運量預測,相比使用單一LSSVM,精度得到了提高。在這些組合模型中,常見的是引進一種算法優化另一種算法的參數以提高精度,但參數過多可能會導致參數組合數量過多,同時忽略數據本身的線性和非線性的結構特點,導致信息提取不全面、結果不理想。通過分析可知,鐵路貨運量包含線性和非線性部分,本文選取對線性部分具有較高擬合度的ARIMA 模型和對非線性部分解決效果較好的BP 模型,并將其組合提出ARIMA -BP 加權組合模型和ARIMA -BP 殘差優化組合模型,將貨運量中線性與非線性部分進行細化,充分提取數據信息,并應用于鐵路貨運量研究,進行模型對比分析以探究方法的可行性。
ARIMA(p,d,q)模型即差分自回歸移動平均模型,是時間序列分析方法中常用模型之一。AR 是自回歸,p 為自回歸項;MA 為移動平均,q 為移動平均項,d 為時間序列平穩時所做的差分次數。此模型是根據歷史數據預測未來數據,對數據的線性部分進行較好擬合,但對于非線性部分的擬合效果欠佳。一般形式可表示為:

其中,X為當前值,μ 為常數項,p 為自回歸項,γ是自相關系數,{ε}是殘差序列,q 是移動平均項,θ是移動平均項系數。
使用此模型對鐵路貨運量進行預測的基本程序為:①判斷貨運量數據的平穩性,通過對數據作散點圖,自相關(ACF)和偏自相關(PACF)函數圖以及ADF 單位根檢驗,可知原始數據是否平穩,若原始數據不平穩,對其進行差分;②模型定階,對ARIMA(p,d,q)模型定階,確定p、d、q 3個參數的值,對貨運量的自相關(ACF)和偏自相關(PACF)圖進行分析,初步判定參數,再根據信息準則函數法AIC 準則判定最優的階數組合;③進行模型擬合,得到模型參數,作殘差檢驗,判斷是否為白噪聲,進行模型預測。
上述步驟使用ARIMA 模型對鐵路貨運量進行線性部分建模分析,但忽略了貨運量非線性部分,對數據信息提取不充分。
BP 神經網絡是一種前饋網絡,BP 神經網絡包括三層,即輸入層、隱含層、輸出層。BP 神經網絡的傳遞過程主要分為正向傳播和反向傳播,正向傳播是從輸入層開始經過隱含層,最后到輸出層;如果輸出結果沒有達到預期,則進行反向傳播,從輸出層開始經過隱含層,最后到輸入層,在此過程中主要使用梯度下降方法,依次調節隱含層到輸出層的權值,以及輸入層到隱含層的權值,使得預測值不斷逼近真實值。
BP 神經網絡的一般形式如下:

ω
(i
=1,2…N
;j
=1,2…N
)為輸入層和隱含層之間的權值,ω
(k
=1,2…N
)為隱含層和輸出層的權值,f和f為神經網絡的激活函數。BP 神經網絡可以很好地解決數據的非線性問題,對于具有線性和非線性特點的鐵路貨運量,BP 神經網絡可以彌補ARIMA 建模過程中所忽略數據的非線性信息。
ARIMA 模型和BP 神經網絡都具有各自優勢,但應用單一模型得到的結果無法達到人們預期。因此,本文提出利用ARIMA-BP 組合模型對中國鐵路貨運量進行預測,使兩者優勢互補。分別對數據的線性部分和非線性部分進行建模分析,從加權優化和殘差優化的角度進行組合模型預測,并應用于鐵路貨運量預測研究。
1.3.1 ARIMA-BP 加權組合模型
利用ARIMA 和BP 分別對原始數據進行預測,分別得到預測值,通過簡單加權法對單一模型的預測值進行加權處理。基本思想為單一模型預測結果誤差的方差越小,說明該模型的預測精度越高,反之就越低。加權法的基本過程為:Y為實際的時間數據序列,ARIMA 模型得到預測值F,BP 模型得到預測值F,通過簡單加權預測得到的貨運量預測值F,ω和ω分別為ARIMA 和BP 模型在組合預測中的權重。因此,ARIMA-BP 加權組合模型的預測值可表示為:

1.3.2 ARIMA-BP 殘差優化組合模型
殘差優化是一種“誤差補償”的思想,第一種模型得到的預測值與真實值的誤差輸入到第二種模型進行殘差優化,使兩種單一模型充分發揮各自優勢,實現優勢互補。本文將其應用于鐵路貨運量研究中,假設鐵路貨運量時間序列為Y,由線性部分與非線性兩部分組成,則ARIMA-BP 殘差優化組合模型構建步驟如下:

評價指標使用平均絕對誤差MAE、平均絕對百分比誤差MAPE 和均方根誤差RMSE,為衡量模型精度的常用指標,MAE、MAPE 和RMSE 越小,即誤差越小,模型預測精度就越高。每個指標計算公式如下:


本文選取中國鐵路貨運量1980-2020 年的數據進行建模分析,數據來源為國家統計局中國統計年鑒。
2.1.1 數據平穩性判斷
判斷數據平穩性,對鐵路貨運量原始數據做序列圖,原始序列圖數據波動較大,是不平穩序列。本文選取差分的方法對其進行平穩化處理,得到一階差分序列圖P>0.05序列不平穩,因此進行二階差分,序列在零上下波動,并且進行單位根檢驗可得t 統計量的值均小于3個顯著水平的單位根檢驗的臨界值,p 值為0.000 0<0.05,說明不存在單位根,是平穩序列。

Table 1 Second-order difference ADF test results表1 二階差分ADF 檢驗結果
2.1.2 模型定階
從上文可知,二階差分后序列平穩,因此d=2。通過對序列二階差分的自相關(ACF)和偏自相關(PACF)圖進行分析可以看出,自相關和偏自相關系數都在二階之后落入置信區間,因此判定所建模型為ARIMA(2,2,2)。
2.1.3 模型擬合
基于模型ARIMA(2,2,2)對數據進行擬合得到模型參數,并且都通過了顯著性檢驗,結果如表2 所示,由此可得ARIMA(2,2,2)模型。


Fig.1 First-order difference ACF and PACF diagrams圖1 一階差分ACF 圖及PACF 圖

Table 2 Parameter estimation results of ARIMA(2,2,2)model表2 ARIMA(2,2,2)模型參數估計結果
2.1.4 殘差檢驗
模型可行性判斷還需要進行殘差檢驗,通過對殘差的自相關和偏自相關檢驗發現,p 值都大于0.05,說明殘差部分不相關,模型擬合度較好,檢驗通過模型可用于預測。



BP 殘差優化與上文通過BP 對鐵路貨運量原始數據進行建模訓練過程一樣,通過ARIMA 模型預測,得到鐵路貨運量真實值與預測值的殘差,通過BP 神經網絡進行訓練,得到殘差的預測值,將得到的殘差預測值與ARIMA 模型預測值相加,得到組合模型的預測結果。
4 種模型的預測結果如圖2—圖5 所示。從單一模型看,ARIMA 和BP 神經網絡的預測值與實際值的變化趨勢總體保持一致,在2010 年以前預測結果和真實值擬合精度較高,而在2010 年以后,雖然變化趨勢一致,但預測結果和真實值相差較大。圖3 為ARIMA-BP 加權組合模型的預測結果,其結果比單一模型更接近真實值,2010 年以后的預測值與真實值的波動程度也較小。從圖4 可以看出,ARIMA-BP 殘差優化組合模型相比其他3 種模型整體精度更高,并且2016 年以后的預測值和真實值的曲線幾乎重合。

Fig.2 ARIMA prediction results圖2 ARIMA 預測結果

Fig.3 Prediction results of BP neural network圖3 BP 神經網絡預測結果

Fig.4 ARIMA-BP weighted prediction results圖4 ARIMA -BP 加權預測結果

Fig.5 Optimized prediction results of ARIMA-BP residuals圖5 ARIMA -BP 殘差優化預測結果
根據表3 比較4 種模型的評價指標,兩種單一模型相比,預測結果相似,但ARIMA 比BP 的3 種評價指標低224.33、0.05%、500.08;兩個組合模型和兩個單一模型相比,組合模型的表現效果都比單一模型的表現效果好;兩個組合模型相比,ARIMA-BP 殘差優化模型預測精度最高、誤差較小,MAE MAPE RMSE分別為5135.90、0.0209、8462.49,比另一種加權組合模型的3 種評價指標低1 286.04、0.23%、812.77。
整體來看,4 種模型在鐵路貨運量預測方面的表現都較好,MAPE 的值都保持在5%以內,而殘差優化的組合模型精度最高、誤差最小。

Table 3 Evaluation indexes of the model表3 模型的評價指標
本文針對鐵路貨運量的年度歷史數據及其本身特點,使用時間序列及神經網絡方法,將ARIMA 模型和BP 神經網絡通過不同的方式進行組合,得到ARIMA-BP 加權模型和ARIMA-BP 殘差優化模型,分別對鐵路貨運量數據的線性和非線性部分進行建模并與ARIMA 模型和BP 神經網絡傳統單一模型進行對比。試驗結果表明,組合模型結果優于單一模型,并且ARIMA-BP 殘差優化模型的預測精度最高。
本文重點關注的是貨運量數據本身的線性和非線性關系,但鐵路貨運量受到很多因素的影響,比如節假日、貨運價格等,下一步將相關影響因素納入模型中,完善模型,進一步提高預測精度。同時,本文構建的模型在鐵路貨運量預測方面有效,但是對于其他領域數據預測的有效性還有待驗證。此外,本文設計的組合模型由兩個單一模型構成,可以考慮引入其他模型建立新的組合模型,以豐富理論模型,使結果更加準確。