徐延軍
(河南君友數字科技有限公司,河南 鄭州 450008)
2023年以來,各地政府將恢復和擴大消費作為優先任務,相繼出臺了一系列促進消費的政策。然而,目前經濟恢復仍然面臨需求不足、結構性矛盾與周期性問題相互交織以及消費市場恢復基礎不夠鞏固等挑戰。為了推動消費增長回歸正軌,充分利用和發揮促消費政策作用,提高政府決策的科學性、針對性和精準性,及時進行消費運行預測顯得尤為重要和緊迫。社會消費品零售總額(以下簡稱“社消零總額”)是反映國內消費市場狀況的重要指標,準確預測社消零總額對了解消費市場趨勢、加強政府市場調控、促進經濟增長具有重要的實際意義。
目前,國內學者已經采用多種方法對社消零總額進行預測。羅藝和肖李春(2022)使用多元線性回歸方法分析了地方財政支出、居民消費價格指數、年末常住人口數和居民人均可支配收入等因素對社消零總額的影響。蔣翠清和喬晗(2022)則結合股市數據建立了累計增幅預測模型,發現長短期記憶神經網絡在預測效果上表現最好。李方一和肖夕林等(2016)將百度搜索指數與傳統經濟指標結合,建立多元回歸模型驗證了網絡搜索數據與社消零總額之間的相關性。總體而言,國內學者在選擇指標和構建模型時雖考慮了社消零總額的影響因素,但存在以下局限:一是缺乏將政府統計數據和網絡大數據結合的研究;二是指標的時效性較差,多為歷史數據驗證分析,實際應用的可操作性有限;三是缺乏對比分析和統一的評價標準,無法科學系統地評估最優模型。
本文借助大數據技術獲取與社消零總額高度相關的同趨勢觀測變量,并基于這些變量構建深度機器學習模型。同時,與傳統計量經濟學模型進行對比分析,以直觀展現機器學習模型在經濟運行預測應用方面的優越性。通過這種方式,可以更準確地預測社消零總額,提升預測精度,更好地應對經濟運行中的不確定性和復雜性。
本文以大數據技術為基礎,結合計量經濟學模型和機器學習算法,旨在探索實現消費運行可預測性變革。具體而言,選取2018年1月至2022年12月的河南省月度社消零總額數據,分別構建ARIMA、SARIMA、SARIMAX模型。
研究分為以下幾步:
(1)數據準備。多渠道獲取河南省月度社消零總額數據,通過相關性分析篩選若干影響社消零總額的觀測指標。采用差分法,對非平穩月度社消零總額數據進行平穩操作。
(2)構建模型。確定訓練集和測試集,調試模型參數,分別構建ARIMA、SARIMA、SARIMAX預測模型。
(3)評估模型。采用MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對值誤差)和MAPE(平均絕對百分比誤差)指標對三種模型預測結果進行評估,選取最優模型。
(4)實施預測。選取最優模型,預測2023年1—11月河南省月度社消零總額。
按照全面性、可靠性、可獲取性和時效性原則,選取解釋變量。解釋變量分為歷史數據和觀測數據。其中,歷史數據來自商務部門重點企業監測數據、統計部門年度統計公報及《統計年鑒》等。觀測數據來自現有數據合成、百度搜索引擎、專項統計調查、平臺實時監測、網站定期發布。具體如下:
現有數據合成。提取不同平臺反映網絡零售發展情況的一系列指標,形成時間序列數據,構建網絡零售發展指標體系,進行指數合成。
百度搜索引擎。百度提供關鍵詞搜索指數,反映與該關鍵詞相對應的某類商品的熱門程度和被關注度。
平臺實時監測。運用大數據抓取技術,實時監測淘寶、天貓、京東、拼多多、抖音、當當、唯品會、國美、蘇寧等平臺商品零售額、城鄉商品交易量占比數據。
網站定期發布。乘聯會每周公布當周乘用車日均銷量;國家發展和改革委每月發布油價調整通知;國家統計局發布采購經理人指數、消費者信心指數;郵政管理局發布當月快遞件數。
結合已有研究和統計實踐,通過分析社消零總額構成,引入與社消零總額具有高度相關性的同趨勢觀測指標,見表1。運用相關性分析,確定社消零總額預測的歷史數據與觀測數據。

表1 社消零總額預測指標體系
國內學者多基于ARIMA模型預測社消零總額,未考慮預測模型的季節性因素,也未引入同趨勢觀測變量參與預測,短期內模型預測誤差相對較小,隨著時間跨度增加預測誤差逐步增大。時間序列數據是長期趨勢、季節變動、循環波動、不規則波動等變化形式的疊加或耦合,結合時間序列數據特點,本文分別構建ARIMA、SARIMA、SARIMAX模型進行社消零總額預測,并對比三種模型擬合情況,選取最優模型進行預測分析。
ARIMA模型(Auto-Regressive Integrated Moving Average Model)也被稱為“自回歸移動平均模型”,即ARIMA(p,d,q)模型。其中,p、d、q分別代表模型中自回歸階數、差分階數、移動平均階數。該模型先將非平穩時間序列轉化為平穩時間序列,然后對因變量的滯后值以及隨機誤差項的現值和滯后值進行回歸預測。模型考慮數據時間特性和相關性,能夠捕捉到數據趨勢變化,為決策者提供準確預測和相應決策依據。模型表示為:
其中,Yt為t時刻的預測量,B為后移算子,et、c分別為殘差序列、常數項。
SARIMA模型(Seasonal Auto-Regressive Integrated Moving AverageModel)也被稱為“季節性差分自回歸滑動平均模型”,即在ARIMA模型基礎上引入季節性因素,轉化為SARIMA(p,d,q)(P,D,Q)s模型。SARIMA共有7個參數,其中,p為非季節自回歸最大滯后階數,d為非季節差分次數,q為非季節移動平均算子的最大滯后階數,P為季節自回歸算子的最大滯后階數,D為季節性差分次數,Q為季節移動平均算子的最大滯后階數,s為季節長度或周期大小。SARIMA模型通過考慮社消零總額的季節性特征,能夠更準確地捕捉到季節性變動對社消零總額的影響。模型表示為:
其中,Φp(B)=1-Φ1B-Φ2B2-…-ΦpBp為相鄰時刻之間的p階自回歸算子,p為自回歸階數;θq(B)=1+θ1B+θ2B2+…+θqBq為相鄰時刻之間q階自回歸算子,q為移動平均階數;ΦP(BS)=1-Φ1B-Φ2B2-…-ΦPBP為相鄰時刻之間P階自回歸算子,P為季節性自回歸階數;θQ(BS)=1+θ1B+θ2B2+…+θQBQ為相鄰時刻之間的Q階自回歸算子,Q為季節性移動平均階數。
SARIMAX模型(Seasonal Auto-Regressive Integrated Moving Averagewith eXogenous factors Model),也被稱為“季節性自回歸綜合移動平均外生模型”,即SARIMAX(p,d,q)(P,D,Q)s(X)模型,在ARIMA模型基礎上考慮季節性因素(S,Seasonal),引入外生觀測變量(X,eXogenous)輔助預測。SARIMAX模型通過結合季節性因素和外生觀測變量,能夠更好地捕捉和解釋時間序列數據中的復雜性和潛在規律,進而提高模型預測能力。實際應用中,SARIMAX模型常用于對經濟指標和市場趨勢進行預測。模型表示為:
其中,Xi,t-k為t-k時刻的第i外部因素,i為外部因素個數,k為第i個影響預測變量的外部因素的回歸階數,αik為第i個外部因素k時刻的回歸系數,其他參數同式(1)和式(2)。
評價模型預測效果的常用指標包括MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對誤差)和MAPE(平均絕對百分比誤差)。核心思想為度量預測值與真實值之間的差異程度,指標數值越小,預測模型效果越好。反之,則預測誤差較大。上述評價指標僅為度量預測誤差,不能單獨作為判斷模型好壞的唯一依據。計算公式為:
其中,yi是第i個測試樣本的實際值,是第i個測試樣本的預測值,n代表測試樣本數量。本文選取上述四個指標比較不同模型的預測準確性,綜合分析各模型的預測效果。
運用SPSS軟件構建ARIMA模型與SARIMA模型,基于Python語言建立SARIMAX模型,選取2018年1月至2021年12月數據作為訓練集,2022年1月至2022年12月數據作為測試集進行測試,分別預測河南省月度社消零總額。其中,ARIMA模型僅考慮社消零總額時間序列特征;SARIMA模型引入影響社消零總額的季節性功能;SARIMAX模型引入影響社消零總額的季節性功能以及同趨勢觀測變量。
先對河南省月度社消零總額數據進行平穩性檢驗,通過1階差分運算,轉化為平穩時間序列。然后對平穩時間序列分別計算自相關系數ACF和偏自相關系數PACF,得到最佳階層和階數,確定模型d、p、q的取值范圍。最終確定ARIMA(3,1,13)為最優預測模型,平穩R方值為0.671,BIC①AIC(赤池信息量)、BIC(貝葉斯信息量)為在訓練模型中選擇更好模型時的判斷準則。AIC、BIC越小,模型越好,通常選擇AIC或BIC最小的模型。值為12.248。預測結果如表2所示,ARIMA模型存在預測準確性不穩定的問題,表現為2月社消零總額誤差率達到28.6%,12月社消零總額誤差率僅為0.3%,極差超過20%,有較大的改善空間。

表2 基于ARIMA模型的2022年1—12月社消零總額實際值與預測值
結合社消零總額數據特點,確定SARIMA模型季節性周期值S為12。先對河南省月度社消零總額數據進行平穩性判斷分析,將其轉化為平穩時間序列。然后分別確定季節性與非季節性差分階數,即D和d。再運用PCA和FPCA定階,確定季節性與非季節性階數,即p、q和P、Q。通過對模型參數進行殘差檢驗,確定擬合度最優模型SARIMA(1,1,6)(1,0,1)12,平穩R方值為0.804,BIC值為11.157。預測結果如表3所示,SARIMA模型整體預測相對穩定,但1月、2月、4月、6月、10月和11月這6個月誤差率均超過5.0%,模型預測精度有待提升,仍有一定的改善空間。

表3 基于SARIMA模型的2022年1—12月社消零總額實際值與預測值
先對數據進行預處理,選取預測模型觀測變量,使用網格搜索進行超參數調優,擬合出729種模型,按照AIC準則進行甄選,最終選定最優模型SARIMAX(1,1,0)(0,2,2,12),AIC的值為2.111。預測結果見表4,SARIMAX模型具有較強預測能力,預測準確性比較穩定,除2月和8月誤差率超過5.0%外,其他月份誤差率則穩定在3.0%左右,能夠實現對社消零總額的有效預測。

表4 基于SARIMAX模型的2022年1—12月社消零總額實際值與預測值
圖1顯示出三種模型測試集的擬合效果。可以看出,三種模型預測值與社消零總額實際值走勢大致趨同,但SARIMAX模型的預測效果更貼近實際值,可以有效預測實際變動趨勢。相比之下,ARIMA模型和SARIMA模型的預測效果不太穩定,在個別月份出現較大的誤差波動。具體看,在2022年5月和8月,社消零總額均呈現小幅上升態勢,而ARIMA模型的預測結果卻是大幅上升和小幅下降。在2022年10月和11月,社消零總額呈現小幅上升和小幅下降態勢,而SARIMA模型的預測結果卻是大幅上升和小幅微升。需要注意的是,由于統計局未公布2022年1月和2月單月社消零總額,本文根據統計經驗,將1—2月社消零總額累計數據換算成月度數據,造成三種模型1月和2月預測值與實際值走勢偏差較大,誤差率普遍較高。整體看,SARIMAX模型在預測中表現相對較好,其擬合效果整體優于其他兩種模型。

圖1 三種模型預測值對比
為進一步分析比較ARIMA、SARIMA和SARIMAX模型,引入模型評價指標,計算結果如表5所示。具體看,ARIMA模型預測中出現較高誤差,MSE為24446,RMSE為156.4,MAE為106.8,MAPE為5.8,表明ARIMA模型預測結果與實際值之間存在較大差距,預測誤差率較高,需進一步調整模型參數或改進模型結構以提高預測準確性。SARIMA模型相對ARIMA模型顯示出更好的性能,具有較低的MSE(11430)、RMSE(106.9)、MAE(92.0)和MAPE(4.6)值,該預測結果與實際值間誤差相對較小。SARIMAX模型MSE(4304)、RMSE(65.6)、MAE(54.8)和MAPE(2.8),預測誤差進一步減小,是三種模型中的最佳模型,在各評估指標中均顯示出最優性能,預測優勢明顯。

表5 ARIMA、SARIMA、SARIMAX模型評估指標對比
綜上所述,三種模型預測準確性從高到低依次為SARIMAX模型、SARIMA模型、ARIMA模型。多變量SARIMAX模型在精準性和穩定性上優于單變量的ARIMA和SARIMA模型,而SARIMA模型因考慮季節性因素,預測效果優于ARIMA模型。機器學習算法相對于傳統的統計預測方法,具有一定優越性,與已有研究相吻合。
結合模型預測結果對比分析,選取SARIMAX模型預測2023年1—11月河南省社消零總額,預測結果見表6。

表6 2023年1—11月河南省社消零總額實際值與預測值比較
從2023年1—11月預測結果看,6月河南省社消零總額預測誤差率達6.8%,預測值與實際值出現明顯誤差,可能與統計數據季節性調整相關;3月、8月和9月社消零總額預測效果最為理想,誤差率不足1.0%;其他月份預測誤差率均控制在3.0%左右。整體而言,SARIMAX模型能夠較為精準反映社消零總額月度走勢情況,模型預測具有較高精準度與較好時效性,能夠更好地為河南省消費品市場進行宏觀調控和分類指導服務,高效統籌布局河南省經濟發展,實現宏觀經濟運行逆周期調節。
本文利用2018—2022年河南省的月度社消零總額數據,分別構建了ARIMA、SARIMA和SARIMAX模型,并利用這些模型對2022年河南省月度社消零總額進行預測。通過引入預測模型評價指標進行評估,確定SARIMAX模型為最優模型。隨后利用該模型對2023年1—11月的河南省月度社消零總額進行了預測,預測結果誤差率在0.3%—6.8%之間,預測效果較好。
根據研究結果,得出以下結論:首先,網絡零售指標和快遞規模指標與月度社消零總額之間存在較強相關性,為SARIMAX模型中的主要觀測變量。其次,引入季節性因素的SARIMA模型在預測效果上明顯優于ARIMA模型,預測精度提高了20.7%,改善效果明顯。再次,引入外部變量的SARIMAX模型在預測效果上明顯優于SARIMA模型,預測精度提高了39.1%,提升效果最為顯著。最后,機器學習模型在模型參數確定和預測精度方面具有明顯優勢,預測效果優于傳統的統計分析模型。
本文在研究方法和模型設計方面還存在一些不足之處,需要進一步深入和完善。首先,本文僅利用機器學習模型SARIMAX與傳統統計分析模型ARIMA、SARIMA進行了對比分析,未來研究可以引入更多的機器學習模型,如支持向量機、隨機森林、LSTM等來進行對比分析,以進一步驗證SARIMAX模型預測的科學性和準確性。其次,受限于現實條件,本文引入的SARIMAX模型觀測變量較少,不能涵蓋影響社消零總額的所有影響因素。未來研究可以結合消費的新業態和新模式,引入更多高頻指標,如線下消費活躍度、企業活躍度等,以提升對消費行為的預測和分析能力。
對社消零總額預測,具有以下意義:一是精準施策,靠前發力。先行掌握全省消費數據,有效解決數據滯后或無數據的現實痛點、難點,輔助政府及時掌握經濟運行情況,為出臺政策措施提供數據支撐和決策依據。二是針對重點領域、重要節點、重點企業,建立預警機制,對異常波動進行情況核實、原因分析、影響評估,從政策支持、融資協調等方面扶持引導,助力企業紓困解難。三是互聯互通,數據共享。建立跨部門跨區域協同聯動機制,將社消零數據與保供數據統一分析處理,打造多源融合數據底層架構,使消費分析更為精準,流通保供更加高效。