李海洋



摘要:為提高CPI建模精度,本文使用SARIMA、SARIMA-LSTM、LSTM三個模型對河南省月度CPI進(jìn)行建模預(yù)測。研究發(fā)現(xiàn)SARIMA-LSTM模型效果最優(yōu),可以反映河南省居民消費(fèi)價(jià)格指數(shù)的真實(shí)狀況,用于CPI實(shí)際預(yù)測。
關(guān)鍵詞:SARIMA;SARIMA-LSTM;LSTM
中圖分類號:F23文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2020.25.047
對于CPI,建立合適的模型,提高其預(yù)測精度,對政府制定宏觀經(jīng)濟(jì)政策具有極大現(xiàn)實(shí)意義。現(xiàn)在,對于CPI預(yù)測,不同學(xué)者進(jìn)行了許多研究。研究方法主要分為兩種:
(1)單一模型法,如ARIMA、SARIMA、灰色模型法等。袁志強(qiáng)、陳銳使用ARIMA模型利用R軟件對國內(nèi)CPI進(jìn)行了短期預(yù)測,倪穎、年靖宇對重慶市CPI進(jìn)行了預(yù)測;張?zhí)鹑饘﹃兾魇PI建立了SARIMA模型;李志超、劉升對上海市CPI建模,發(fā)現(xiàn)ARIMA和灰色模型效果相當(dāng),回歸模型較差。
(2)組合模型法,如ARIMA-SVM、ARIMA-BP等。梁曉瑩基于ARIMA和SVM根據(jù)整體誤差最小化原則對鄭州市CPI進(jìn)行組合預(yù)測,比單一模型效果好。吳曉峰、楊穎梅和陳垚彤利用BP擬合ARIMA殘差,整體效果較優(yōu)。
深度學(xué)習(xí)中長短期記憶網(wǎng)絡(luò)(LSTM),對于非線性數(shù)據(jù)擬合較好,并且在金融、醫(yī)學(xué)、水文等時(shí)間序列預(yù)測領(lǐng)域已取得不少進(jìn)展。歐陽紅兵、黃亢和閆洪舉使用LSTM對道瓊斯工業(yè)指數(shù)日收盤價(jià)進(jìn)行預(yù)測,發(fā)現(xiàn)LSTM能捕獲序列的短期和長期態(tài)勢,效果較優(yōu)。李琳等將LSTM用于新疆地區(qū)慢性阻塞性肺病的月門診量進(jìn)行預(yù)測,并與ARIMA比較,發(fā)現(xiàn)LSTM精度較高。胡慶芳等將LSTM用于漢江上游安康站日徑流預(yù)測,發(fā)現(xiàn)多因素條件下效果較好。
綜上所述,關(guān)于CPI預(yù)測并未有統(tǒng)一的方法。并且,較少有學(xué)者結(jié)合SARIMA對線性擬合和LSTM對非線性擬合的優(yōu)勢對CPI進(jìn)行建模預(yù)測。本文以河南省月度同比CPI為研究對象,嘗試使用SARIMA-LSTM對其建模,以探究其在CPI預(yù)測中的效果。
1模型簡介
1.1SARIMA模型
對于隨機(jī)時(shí)間序列yt,季節(jié)性移動平均差分自回歸SARIMA(p,d,q)(P,D,Q)s,公式如下:
ΦpLAPLs(ΔdΔDsyt)=ΘqLBQLsvt(1)
其中,Δd表示非季節(jié)性差分算子,Δd=1-Ld;ΔDs表示季節(jié)性差分算子,ΔDs=1-LDs;Φp(L)為非季節(jié)性自回歸算子,Φp(L)=1-φ1L-φ2L2-…-φpLp;APLs為季節(jié)性自回歸算子,APLs=1-α1Ls-α2L2s-…-αPLPs;ΘqL為非季節(jié)性移動平均算子,ΘqL=1+θ1L+θ2L2+…+θqLq;BQLs為季節(jié)性移動平均算子,BQLs=1+β1Ls+β2L2s+…+βQLQs;vt為白噪聲。
1.2LSTM
長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM),解決了計(jì)算過程中梯度消失的問題。對于輸入xt,LSTM隱層輸出表示為ht,具體計(jì)算過程如下:
it=σWiht-1,xt+bi(2)
ft=σWfht-1,xt+bf(3)
c~t=tanhWcht-1,xt+bc(4)
ct=ft⊙ct-1+it⊙ct(5)
ot=σWoht-1,xt+bo(6)
ht=ot⊙tanhct(7)
其中,W為權(quán)重矩陣,b為偏移列向量。LSTM將信息存放在門控單元中,f是遺忘門,表示對于當(dāng)前時(shí)刻的輸入xt,決定了從上一時(shí)刻傳來的信息要丟棄的部分。i表示輸入門,決定在t時(shí)刻應(yīng)該更新哪些值,c~是一個候選值的向量,將i和c~組合起來得到c對神經(jīng)元狀態(tài)進(jìn)行更新。o是輸出層,決定神經(jīng)元狀態(tài)需要輸出的部分。h是網(wǎng)絡(luò)的輸出。
2實(shí)證分析
2.1數(shù)據(jù)來源
本研究以河南省為研究對象,選取其1995年1月-2020年4月月度同比CPI數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)來源于瑞思數(shù)據(jù)庫。CPI走勢如圖1,從中可以看出,2004年、2008年CPI較高,2012年之后較為平穩(wěn)。近來,受豬肉價(jià)格影響,CPI較高。
2.2SARIMA模型構(gòu)建
(1)平穩(wěn)性檢驗(yàn)。使用R軟件中adf.test函數(shù)進(jìn)行單位根檢驗(yàn),結(jié)果如下:
Augmented Dickey-Fuller Test
data:CPI
Dickey-Fuller = -4.164, Lag order = 6, p-value = 0.01
alternative hypothesis: stationary
p值為0.01,在5%的顯著性水平下拒絕原假設(shè)“序列不平穩(wěn)”,由此可知,數(shù)據(jù)平穩(wěn)。
(2)模型識別。加載R語言forecast包,使用函數(shù)auto.arima根據(jù)AICc最小準(zhǔn)則對1995年1月-2020年4月CPI進(jìn)行模型構(gòu)建,模型為SARIMA(2,0,1)(1,0,0)12,系數(shù)估計(jì)見表1。其中,殘差方差估計(jì)值為0.4822,對數(shù)似然估計(jì)值為-322.05,赤池信息準(zhǔn)則AIC為656.11,AICc為656.39,貝葉斯信息準(zhǔn)則BIC為678.41。
使用confint函數(shù)對模型系數(shù)進(jìn)行檢驗(yàn),結(jié)果見表2。由表2可知,在95%的置信區(qū)間下,參數(shù)取值范圍均不含0,即系數(shù)顯著。
(3)模型診斷。使用Box.test函數(shù)對殘差進(jìn)行檢驗(yàn),得
X-squared = 7.6586, df = 6, p-value = 0.2642
從Box檢驗(yàn)得知?dú)埐罘险龖B(tài)性假設(shè)且不相關(guān),認(rèn)為模型擬合比較充分。
對2019年11月-2020年4月CPI進(jìn)行預(yù)測,結(jié)果見表3。其均方根誤差為0.8227,建模精度較高,基本可以描述2019年11月到2020年4月CPI月度同比數(shù)據(jù)。
2.3SARIMA-LSTM模型構(gòu)建
針對SARIMA模型對非線性數(shù)據(jù)擬合不好的問題,本文使用LSTM對其殘差進(jìn)行建模。使用1995年1月-2019年10月的殘差進(jìn)行訓(xùn)練模型,對2019年11月-2020年4月的殘差進(jìn)行測試。經(jīng)對比,數(shù)據(jù)平滑期設(shè)置為8,隱藏層節(jié)點(diǎn)數(shù)為100,訓(xùn)練次數(shù)為150。測試集的均方根誤差為0.6316,相比SARIMA模型減少了23%。殘差預(yù)測值加上SARIMA模型預(yù)測值即為SARIMA-LSTM預(yù)測值,結(jié)果見表3。
2.4LSTM模型構(gòu)建
本文同時(shí)使用LSTM模型對1995年1月-2019年10月CPI數(shù)據(jù)直接建模,并對2019年11月-2020年4月數(shù)據(jù)預(yù)測,預(yù)測均方根誤差為1.0651,比SARIMA、SARIMA-LSTM均要高。CPI預(yù)測值見表3。
3結(jié)語
本文利用模型SARIMA、SARIMA-LSTM、LSTM對河南省1995年1月-2020年4月月度同比CPI進(jìn)行對比建模,SARIMA-LSTM建模精度最高,SARIMA次之,LSTM效果最差。由此可知,模型SARIMA-LSTM可以較好地對河南省CPI進(jìn)行建模,以預(yù)測河南省CPI的狀況。對于本文數(shù)據(jù),LSTM效果較差,其它數(shù)據(jù)中LSTM效果可能更優(yōu),針對不同數(shù)據(jù),需做具體分析。下一步研究可以使用更多因素利用LSTM對CPI進(jìn)行對比建模,以提高預(yù)測準(zhǔn)確度。
參考文獻(xiàn)
[1]袁志強(qiáng),陳銳.基于ARMA模型的CPI短期預(yù)測研究[J].中國集體經(jīng)濟(jì),2018,(03):6465.
[2]倪穎,年靖宇.基于ARIMA模型的居民消費(fèi)價(jià)格指數(shù)走勢實(shí)證分析與預(yù)測——以重慶市為例[J].貴州商學(xué)院學(xué)報(bào),2018,(02):1423.
[3]張?zhí)鹑?陜西省居民消費(fèi)價(jià)格指數(shù)預(yù)測[J].合作經(jīng)濟(jì)與科技,2020,(07):6769.
[4]李志超,劉升.基于ARIMA模型、灰色模型和回歸模型的預(yù)測比較[J].統(tǒng)計(jì)與決策,2019,(23):3841.
[5]梁曉瑩.基于ARIMA-SVM模型的鄭州市CPI預(yù)測研究[J].洛陽理工學(xué)院學(xué)報(bào)(社會科學(xué)版),2019,(04):2631.
[6]吳曉峰,楊穎梅,陳垚彤,等.基于BP神經(jīng)網(wǎng)絡(luò)誤差校正的ARIMA組合預(yù)測模型[J].統(tǒng)計(jì)與決策,2019,(15):6568.
[7]歐陽紅兵,黃亢,閆洪舉,等.基于LSTM神經(jīng)網(wǎng)絡(luò)的金融時(shí)間序列預(yù)測[J].中國管理科學(xué),2020,(04):2735.
[8]李琳,王哲,張學(xué)良,等.基于LSTM深度神經(jīng)網(wǎng)絡(luò)的月門診量預(yù)測精度研究[J].中國數(shù)字醫(yī)學(xué),2019,(01):1417.
[9]胡慶芳,曹士圯,楊輝斌,等.漢江流域安康站日徑流預(yù)測的LSTM模型初步研究[J].地理科學(xué)進(jìn)展,2020,(04):636642.
[10]HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,(8):17351780.