徐衛(wèi)澤


摘 要:預(yù)測時(shí)間序列數(shù)據(jù)是經(jīng)濟(jì)學(xué)、商業(yè)和金融學(xué)中的一個(gè)重要主題。ARIMA模型在預(yù)測下一個(gè)時(shí)間序列滯后的精度和準(zhǔn)確性方面表現(xiàn)出色。隨著計(jì)算機(jī)計(jì)算能力的發(fā)展,產(chǎn)生了基于深度學(xué)習(xí)的新算法來預(yù)測時(shí)間序列數(shù)據(jù),如長短期記憶(LSTM)。通過實(shí)證研究,基于深度學(xué)習(xí)的算法(如LSTM)優(yōu)于傳統(tǒng)算法,與ARIMA相比,LSTM獲得的錯(cuò)誤率平均降低在84%~87%之間,表明了LSTM對(duì)ARIMA的優(yōu)越性。
關(guān)鍵詞:時(shí)間序列數(shù)據(jù);深度學(xué)習(xí);長短期記憶(LSTM);自回歸綜合移動(dòng)平均線(ARIMA)
文章編號(hào):1004-7026(2020)03-0036-02 ? ? ? ? 中國圖書分類號(hào):O211 ? ? ? ?文獻(xiàn)標(biāo)志碼:A
1 ?研究背景
經(jīng)濟(jì)和金融時(shí)間序列數(shù)據(jù)在數(shù)據(jù)化時(shí)代越來越受重視,然而由于經(jīng)濟(jì)趨勢(shì)和條件的變化、信息不完整、市場波動(dòng)給經(jīng)濟(jì)和金融時(shí)間序列預(yù)測帶來了嚴(yán)重問題。最著名的預(yù)測方法是單變量“自回歸移動(dòng)平均(ARMA)”,其組合了自回歸(AR)和移動(dòng)平均(MA)模型。單變量“自回歸整合移動(dòng)平均線(ARIMA)”是一種特殊類型的ARMA,多變量ARIMA模型和向量自回歸(VAR)模型,通過允許多個(gè)不斷變化的變量來推廣單變量ARIMA模型和單變量自回歸(AR)模型[1]。
基于機(jī)器學(xué)習(xí)的技術(shù),如遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長期短期記憶(LSTM),多年來在包括金融在內(nèi)的許多學(xué)科都有應(yīng)用。深度學(xué)習(xí)方法能夠識(shí)別數(shù)據(jù)的結(jié)構(gòu)和模式,例如時(shí)間序列預(yù)測中的非線性和復(fù)雜性。特別是,LSTM已被用于許多應(yīng)用領(lǐng)域,如自然語言處理(Tarwani和Edem,2017)、手寫識(shí)別(Gravesetal,2009)、語音識(shí)別(Robinson,2002;Eyben,2009;格雷夫斯等,2013;Sak等,2014)、時(shí)間序列預(yù)測(Hochreiter和Schmidhuber,1997)及在經(jīng)濟(jì)和金融數(shù)據(jù)中的應(yīng)用,例如預(yù)測標(biāo)準(zhǔn)普爾500指數(shù)的波動(dòng)性(Xiong,2015)[2]。
與基于深度學(xué)習(xí)的預(yù)測算法相比,傳統(tǒng)預(yù)測技術(shù)的準(zhǔn)確性和精確性是一個(gè)重要的研究問題。
本文比較了ARIMA和LSTM模型在降低預(yù)測錯(cuò)誤率方面的表現(xiàn)。作為傳統(tǒng)預(yù)測建模的代表,由于數(shù)據(jù)的非平穩(wěn)特性,選擇ARIMA模型處理時(shí)間序列經(jīng)濟(jì)變量。作為基于深度學(xué)習(xí)的算法的代表,使用LSTM方法是因?yàn)槠溆糜谠诟L時(shí)間段內(nèi)保存數(shù)據(jù)的特征。用一組經(jīng)濟(jì)和金融時(shí)間序列數(shù)據(jù),區(qū)別ARIMA和LSTM模型進(jìn)行數(shù)據(jù)處理和訓(xùn)練,特別是比較不同數(shù)據(jù)集中的損失率表現(xiàn)。對(duì)文獻(xiàn)的貢獻(xiàn)是使用ARIMA和LSTM模型預(yù)測各種經(jīng)濟(jì)和金融時(shí)間序列。研究目的:①進(jìn)行實(shí)證研究和分析,調(diào)查傳統(tǒng)預(yù)測技術(shù)和基于深度學(xué)習(xí)的算法性能。②比較LSTM和ARIMA在預(yù)測誤差率中實(shí)現(xiàn)的最小化方面的性能。
2 ?時(shí)間序列預(yù)測
時(shí)間序列分析的目的是研究時(shí)間序列的路徑觀察,并建立一個(gè)模型來描述數(shù)據(jù)結(jié)構(gòu)并預(yù)測時(shí)間序列的未來值,在商業(yè)、經(jīng)濟(jì)、金融和計(jì)算機(jī)科學(xué)中有大量的應(yīng)用。時(shí)間序列預(yù)測傳統(tǒng)上是使用ARIMA模型在計(jì)量經(jīng)濟(jì)學(xué)中進(jìn)行的。盡管ARIMA模型在經(jīng)濟(jì)和金融時(shí)間序列建模方面非常普遍。但實(shí)際上,在簡單的ARIMA模型中,很難對(duì)變量之間的非線性關(guān)系進(jìn)行建模[3]。
LSTM(長短期記憶)是回歸神經(jīng)網(wǎng)絡(luò)(RNN)方法的一個(gè)特例,Lee和Yoo介紹了一種基于RNN的方法來預(yù)測股票收益。比較了ARIMA模型與LSTM模型在經(jīng)濟(jì)學(xué)和金融時(shí)間序列預(yù)測中的表現(xiàn),以便在典型的預(yù)測模型中對(duì)所涉及變量的最優(yōu)質(zhì)量進(jìn)行評(píng)估。
3 ?模型背景
自回歸集成移動(dòng)平均(ARIMA)和基于深度學(xué)習(xí)的技術(shù),長短期記憶(LSTM)的背景知識(shí)[4]。
ARIMA(Pesaran,2015)是自回歸滑動(dòng)平均(ARMA)的廣義模型,結(jié)合了自回歸(AR)過程和移動(dòng)平均(MA)過程,并構(gòu)建了時(shí)間序列的復(fù)合模型。
可以將AR和MA過程組合在一起,組成一個(gè)ARMA模型(p,q):
其中:c是常數(shù)項(xiàng);?著i被假設(shè)為平均數(shù)等于0,標(biāo)準(zhǔn)差等于?滓的隨機(jī)誤差值;?滓被假設(shè)為對(duì)于任何的t都不變;?滋是常數(shù)項(xiàng);Xt均值為0。
參數(shù)p和q分別稱為AR和MA過程。ARIMA模型的一般形式表示為ARIMA(p,d,q)。季節(jié)性ARIMA模型的一般形式表示為ARIMA(p,d,q)·(P,D,Q)S。其中p 是非季節(jié)性AR順序,d是非季節(jié)性差分,q是非季節(jié)性MA順序,P是季節(jié)性AR順序,D是季節(jié)性差異,Q是季節(jié)性MA順序,S是分別重復(fù)季節(jié)性模式的時(shí)間跨度。
ARIMA預(yù)測,將非平穩(wěn)問題,通過多次差分,轉(zhuǎn)化為平穩(wěn)問題,因此對(duì)數(shù)據(jù)有一定要求,并且由于差分過程的存在,時(shí)間數(shù)據(jù)的離散程度變大,ARIMA模型的擬合度往往不高。
4 ?長短期記憶(LSTM)
基于LSTM神經(jīng)網(wǎng)絡(luò)的模型建立長短期記憶網(wǎng)絡(luò),由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出并加以完善與普及。LSTM神經(jīng)網(wǎng)絡(luò)是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)改進(jìn)的一種算法[5-6]。
LSTM是一種特殊的RNN,具有記憶數(shù)據(jù)序列的附加功能。RNN存在的問題在于,當(dāng)時(shí)間間隔不斷增大時(shí),RNN會(huì)喪失學(xué)習(xí)過去較久遠(yuǎn)信息的能力,即梯度消失。
LSTM通過設(shè)定一組單元,訓(xùn)練存儲(chǔ)數(shù)據(jù)流。每個(gè)LSTM涉及3種類型的門,目的是控制每個(gè)單元的狀態(tài):①遺忘門輸出0~1之間的數(shù)字。②存儲(chǔ)器門選擇需要在單元中存儲(chǔ)哪些新數(shù)據(jù)。③輸出門決定每個(gè)單元的輸出量。產(chǎn)生的值將基于單元狀態(tài)以及過濾和新添加的數(shù)據(jù)。
5 ?ARIMA與LSTM比較
為了比較ARIMA和LSTM的性能,對(duì)一些選定的經(jīng)濟(jì)和金融時(shí)間序列數(shù)據(jù)進(jìn)行了一系列實(shí)驗(yàn)。通過這項(xiàng)工作調(diào)查的主要研究問題如下:①哪種算法ARIMA或LSTM能夠更準(zhǔn)確地預(yù)測時(shí)間序列數(shù)據(jù)?②數(shù)據(jù)量和數(shù)據(jù)的性質(zhì)對(duì)模型的影響有多大?
5.1 ?數(shù)據(jù)來源
準(zhǔn)備兩組不同的數(shù)據(jù),對(duì)兩組人為設(shè)定數(shù)據(jù),分別是線性和非線性周期數(shù)據(jù)。兩組自然數(shù)據(jù),分別是較小數(shù)據(jù)量和較大數(shù)據(jù)量的時(shí)間序列數(shù)據(jù),并且根據(jù)數(shù)據(jù)的不同,將其分為數(shù)據(jù)1~數(shù)據(jù)4。數(shù)據(jù)3和數(shù)據(jù)4是來自美國電力能源消耗的實(shí)際數(shù)據(jù),本數(shù)據(jù)在真實(shí)數(shù)據(jù)的基礎(chǔ)上,將原來每小時(shí)采集的數(shù)據(jù)整合為每月,選取不同數(shù)據(jù)量。
5.2 ?結(jié)果展示
通過均方根誤差(RMSE)來評(píng)估模型獲得的預(yù)測精度的度量。表1是經(jīng)過ARIMA和LSTM訓(xùn)練之后獲得的結(jié)果參數(shù)。
6 ?結(jié)果分析
通過修正LSTM的訓(xùn)練次數(shù),經(jīng)多次迭代,發(fā)現(xiàn)模型在經(jīng)過多次訓(xùn)練之后,損失率穩(wěn)定在固定值范圍內(nèi),即0.064。結(jié)果報(bào)告在表1中。處理時(shí)間序列相關(guān)的數(shù)據(jù)顯示,使用ARIMA和LSTM模型的平均均方根誤差(RMSE)分別為511.481和64.213,平均減少87.445。LSTM實(shí)現(xiàn)的擬合度更高[7-8]。經(jīng)濟(jì)相關(guān)數(shù)據(jù)顯示RMSE減少了84.394,其中ARIMA和LSTM的平均RMSE值分別計(jì)算為5.999和0.936。RMSE值清楚地表明基于LSTM的模型優(yōu)于基于ARIMA的模型,具有高擬合度(即錯(cuò)誤率降低84%~87%)。
7 ?結(jié)束語
比較了ARIMA和LSTM的準(zhǔn)確性,作為預(yù)測時(shí)間序列數(shù)據(jù)的代表性技術(shù),這兩種技術(shù)并應(yīng)用于時(shí)間序列數(shù)據(jù),與ARIMA相比,基于LSTM的算法平均將預(yù)測提高了85%。此外,LSTM最為強(qiáng)大的地方在于,此模型在應(yīng)用于處理多元回歸時(shí),對(duì)變量之間的相關(guān)性、共線性、變量的非線性等方面有著強(qiáng)大的適應(yīng)力。
參考文獻(xiàn):
[1]Ayodele Ariyo Adebiyi,Aderemi Oluyinka Adewumi,Charles Korede Ayo.Stock price prediction using the ARIMA model[C].//2014 UKSim-AMSS 16th International Conference on Computer Modelling and Simulation,2014.
[2]A.Fernández-Manso,C.Quintano,O.Fernández-Manso.Forecast of NDVI in coniferous areas using temporal ARIMA analysis and climatic data at a regional scale[J].International Journal of Remote Sensing, 2011,32(6):1595-1617.
[3]王成國,鄧仲元,陳海文,等.基于ARIMA模型的金融品種走勢(shì)預(yù)測技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015(7):11-14.
[4]陳瑤,余信豐,黃宏.基于ARIMA模型的金融專業(yè)人才需求預(yù)測[J].商場現(xiàn)代化,2009(14):297-298.
[5]于連敏.ARIMA模型在我國GDP預(yù)測中的應(yīng)用[J].時(shí)代金融,2017(21):180.
[6]肖曼君,夏榮堯.中國的通貨膨脹預(yù)測:基于ARIMA模型的實(shí)證分析[J].上海金融,2008(8):38-42.
[7]張蜀林,趙雄飛.LSTM模型在中國A股市場的應(yīng)用[J].全國流通經(jīng)濟(jì),2018(35):94-95.
[8]于水玲.基于深度學(xué)習(xí)的金融市場波動(dòng)率預(yù)測和風(fēng)險(xiǎn)值計(jì)算[D].長春:長春理工大學(xué),2018.