999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維高頻數(shù)據(jù)和LSTM模型的滬深300股指期貨價(jià)格預(yù)測(cè)

2022-04-12 04:05:58邱冬陽(yáng)
關(guān)鍵詞:因素模型

邱冬陽(yáng),丁 玲

(重慶理工大學(xué) 經(jīng)濟(jì)金融學(xué)院, 重慶 400054)

一、引言

金融時(shí)間序列的預(yù)測(cè)是擁有悠久歷史且被學(xué)者們持續(xù)關(guān)注的經(jīng)典問(wèn)題,方興未艾的金融科技和量化投資都在尋求有效的預(yù)測(cè)方法作為突破口。在人工智能、區(qū)塊鏈、云計(jì)算、大數(shù)據(jù)時(shí)代背景下,信息的獲取、傳播與規(guī)模達(dá)到了前所未有的水平,大數(shù)據(jù)正潛移默化地改變著金融市場(chǎng)中每位投資者的日常交易方式。早期投資者們獲取信息的渠道單一,只能通過(guò)證券交易所現(xiàn)場(chǎng)交易,后來(lái)可以坐在計(jì)算機(jī)前觀察價(jià)格走勢(shì),再發(fā)展到隨時(shí)隨地通過(guò)移動(dòng)終端借助應(yīng)用軟件實(shí)時(shí)獲取行情信息。重要性日益凸顯的金融信息數(shù)據(jù)正逐漸商品化,催生了大量的金融信息數(shù)據(jù)公司。以信息數(shù)據(jù)為底層邏輯的量化投資、智能投顧等新興的投資手段應(yīng)運(yùn)而生并不斷擴(kuò)散。顯然,信息獲取、交易方式、投資模式的改變意味著股票市場(chǎng)、期貨市場(chǎng)乃至整個(gè)金融市場(chǎng)的價(jià)格波動(dòng)有新特點(diǎn)、新規(guī)律,需要用升級(jí)換代的新方法來(lái)刻畫這種變化。

與此同時(shí),從神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)發(fā)展到深度學(xué)習(xí)的建模、算法伴隨著計(jì)算機(jī)科學(xué)和人工智能的發(fā)展而廣泛應(yīng)用在工程領(lǐng)域、語(yǔ)音識(shí)別、圖形處理和金融市場(chǎng)中,其中,深度學(xué)習(xí)中的眾多具體方法在處理非線性海量數(shù)據(jù)時(shí)的優(yōu)勢(shì)明顯,拓展了經(jīng)典金融計(jì)量學(xué)的理論框架。同行研究表明[1]:深度學(xué)習(xí)方法能夠有效刻畫、恰當(dāng)擬合和預(yù)測(cè)人工智能時(shí)代金融市場(chǎng)價(jià)格波動(dòng)的新特征。期貨市場(chǎng)屬于分散風(fēng)險(xiǎn)的金融衍生品市場(chǎng),其風(fēng)險(xiǎn)遠(yuǎn)遠(yuǎn)高于股票市場(chǎng),因此對(duì)期貨市場(chǎng)價(jià)格波動(dòng)的預(yù)測(cè)、預(yù)警更有必要。本文選取滬深300股指期貨(簡(jiǎn)稱:CSIF 300)作為樣本,采用深度學(xué)習(xí)的長(zhǎng)短期記憶(Long Short-Term Memory,簡(jiǎn)稱LSTM)模型,重點(diǎn)放在變量維度、數(shù)據(jù)頻率處理方面,擬解決如何有效提高期貨市場(chǎng)價(jià)格及波動(dòng)性預(yù)測(cè)精度的問(wèn)題。后續(xù)結(jié)構(gòu)安排如下:第二部分為文獻(xiàn)綜述,第三部分為研究設(shè)計(jì),第四部分為數(shù)據(jù)處理,第五部分為實(shí)證研究,第六部分為結(jié)論及啟示。

二、文獻(xiàn)綜述

(一)文獻(xiàn)回顧

金融資產(chǎn)價(jià)格與波動(dòng)率的預(yù)測(cè)是學(xué)術(shù)界持續(xù)探討的問(wèn)題之一。多年以來(lái),國(guó)內(nèi)外學(xué)者們從不同角度對(duì)金融時(shí)間序列的預(yù)測(cè)與分析開(kāi)展了相關(guān)研究。

在研究對(duì)象上,現(xiàn)有文獻(xiàn)集中于股票價(jià)格與波動(dòng)性的預(yù)測(cè),其中不乏以股票市場(chǎng)多只股票、個(gè)股為對(duì)象進(jìn)行的研究,如李斌等[2]、史建楠等[3];一些文獻(xiàn)選取股指作為樣本對(duì)象,如劉曉倩等[4]、陳黎明等[5];不少學(xué)者從多種角度也對(duì)期貨市場(chǎng)價(jià)格變動(dòng)及其波動(dòng)率開(kāi)展了相關(guān)研究,但研究角度主要集中在跨市場(chǎng)行為的信息傳導(dǎo)[6]、期現(xiàn)貨市場(chǎng)之間的價(jià)格相依性[7]。對(duì)于期貨價(jià)格與波動(dòng)率預(yù)測(cè)的關(guān)注度顯然低于股票,研究成果甚至不到股票的一半。

在預(yù)測(cè)方法上,當(dāng)前文獻(xiàn)多集中于運(yùn)用統(tǒng)計(jì)預(yù)測(cè)方法如移動(dòng)平均、指數(shù)平滑、線性回歸、ARMA模型、ARCH模型、GARCH模型、Monte Carlo方法、隨機(jī)波動(dòng)(SV)等對(duì)金融時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測(cè),并伴隨著信息獲取、交易方式、投資模式的變化仍在不斷迭代更新。而股指期貨預(yù)測(cè)的研究文獻(xiàn)早期集中于基礎(chǔ)統(tǒng)計(jì)模型、經(jīng)典的GARCH及其衍生模型。Baillie等[8]利用GARCH分別計(jì)算了期現(xiàn)貨市場(chǎng)條件方差的比率。魏宇等[9]通過(guò)比較OLS、VAR、VECM和MVGARCH等傳統(tǒng)避險(xiǎn)模型研究日內(nèi)高頻的避險(xiǎn)效率。邱冬陽(yáng)等[10]運(yùn)用馬爾科夫鏈進(jìn)行預(yù)測(cè)。近年來(lái),學(xué)者不斷嘗試運(yùn)用非參數(shù)模型和其他算法模型,發(fā)現(xiàn)算法模型的預(yù)測(cè)能力往往優(yōu)于數(shù)據(jù)模型,計(jì)算機(jī)軟硬件條件的提升和大數(shù)據(jù)時(shí)代的到來(lái),助其在理論和實(shí)踐中脫穎而出。近段時(shí)間,利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)金融資產(chǎn)價(jià)格波動(dòng)性的研究文獻(xiàn)越來(lái)越多。王宣承[11]以CSIF 300為樣本構(gòu)建了基于LASSO和神經(jīng)網(wǎng)絡(luò)的量化交易系統(tǒng),而王國(guó)長(zhǎng)等[12]提出LASSO主要是用來(lái)懲罰變量選擇,做預(yù)測(cè)時(shí)需要結(jié)合ANN模型進(jìn)行優(yōu)化;陳標(biāo)金等[13]構(gòu)建了隨機(jī)森林算法機(jī)器學(xué)習(xí)預(yù)測(cè)模型。但已有文獻(xiàn)中所采用的多為常見(jiàn)的方法,只有部分文獻(xiàn)開(kāi)始引入深度學(xué)習(xí)的方法對(duì)金融資產(chǎn)進(jìn)行預(yù)測(cè),預(yù)測(cè)效果有所提升,這些文獻(xiàn)多集中于國(guó)外,國(guó)內(nèi)僅有少數(shù)學(xué)者[1]對(duì)這方面開(kāi)展過(guò)相關(guān)研究。

在樣本數(shù)據(jù)上,股指期貨交易頻率極高,交易速度極快,交易量極大,高峰期甚至更大,低頻數(shù)據(jù)并不能準(zhǔn)確刻畫股指期貨日內(nèi)風(fēng)險(xiǎn)特征。但國(guó)內(nèi)部分文獻(xiàn)主要采用低頻數(shù)據(jù)進(jìn)行研究,基本都是選取日度行情數(shù)據(jù),邵振文等[14]研究了日數(shù)據(jù)和月數(shù)據(jù),魏宇[15]是采用分鐘級(jí)別的分時(shí)金融市場(chǎng)價(jià)格數(shù)據(jù),即高頻數(shù)據(jù)。

在影響因素上,傳統(tǒng)的計(jì)量模型難以挖掘復(fù)雜的輸入特征,景楠等[16]僅對(duì)收盤價(jià)、成交量等單一指標(biāo)進(jìn)行研究,卻忽略了很多外因,比如宏觀經(jīng)濟(jì)政策、經(jīng)濟(jì)發(fā)展?fàn)顩r、投資者情緒等市場(chǎng)相關(guān)因素,而尚玉皇等[17]證實(shí)了對(duì)這些深層因素的考量會(huì)大幅增加發(fā)現(xiàn)金融市場(chǎng)隱藏的波動(dòng)規(guī)律的能力。

在精度評(píng)價(jià)上,Cochrane[18]通過(guò)實(shí)證研究確定資產(chǎn)收益是可預(yù)測(cè)的。一直以來(lái),不少文獻(xiàn)致力于提高資產(chǎn)收益的預(yù)測(cè)精度,但關(guān)于影響預(yù)測(cè)精度的原因卻說(shuō)法不一。陳標(biāo)金等[13]將預(yù)測(cè)精度不高的原因歸于因素選取不夠充分, Stoll等[19]提出預(yù)測(cè)頻率升高或降低使得精度產(chǎn)生變化,景楠等[16]認(rèn)為預(yù)測(cè)方法無(wú)法適應(yīng)金融市場(chǎng)的結(jié)構(gòu)突變。研究者關(guān)于模型預(yù)測(cè)精度比較的評(píng)價(jià)指標(biāo)選取也不盡相同,大多數(shù)選用的評(píng)價(jià)指標(biāo)為均方誤差(MSE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)等。

(二)簡(jiǎn)單述評(píng)

受限于當(dāng)時(shí)的技術(shù)條件,信息數(shù)據(jù)獲取方式單一,已有文獻(xiàn)多是運(yùn)用統(tǒng)計(jì)預(yù)測(cè)方法描述低維度、低頻率的金融數(shù)據(jù)特征,影響因素的選取也有限。大數(shù)據(jù)時(shí)代下的金融數(shù)據(jù)特征更為復(fù)雜多變,經(jīng)典的計(jì)量方法預(yù)測(cè)精度不夠理想,對(duì)諸多非線性和不確定性因素更是無(wú)所適從,而且多數(shù)文獻(xiàn)主要關(guān)注股票價(jià)格與波動(dòng)率預(yù)測(cè),而以股指期貨為研究對(duì)象進(jìn)行分析的文獻(xiàn)則很少,僅有的以股指期貨為對(duì)象的研究結(jié)果精度也不夠。深度學(xué)習(xí)的LSTM模型有強(qiáng)大的時(shí)序數(shù)據(jù)處理能力,對(duì)于處理多維度與高頻率數(shù)據(jù)信息的學(xué)習(xí)效率與速度、預(yù)測(cè)精度更優(yōu),并且在處理非線性數(shù)據(jù)時(shí)可以提取更為復(fù)雜的特征,對(duì)于兼?zhèn)浯笠?guī)模、多維度、高頻率等數(shù)據(jù)特征的股指期貨市場(chǎng)及其波動(dòng)性具有高度適用性。

因此,本文選取LSTM模型對(duì)CSIF 300的價(jià)格波動(dòng)性進(jìn)行預(yù)測(cè),可能的創(chuàng)新之處有:

(1) 將深度學(xué)習(xí)中處理時(shí)序數(shù)據(jù)表現(xiàn)出色的LSTM模型引入到期貨市場(chǎng)進(jìn)行價(jià)格預(yù)測(cè),可以對(duì)新的決策范式下金融數(shù)據(jù)呈現(xiàn)的新規(guī)律和新特征有良好的擬合效果。

(2) 同時(shí)選用多維度與高頻率兩類樣本,從空間和時(shí)間兩個(gè)角度全方位挖掘數(shù)據(jù)特征。一是采用CSIF 300期貨日收盤價(jià)低頻數(shù)據(jù),全面考慮造成其價(jià)格波動(dòng)的影響因素,囊括五大維度,對(duì)應(yīng)89個(gè)具體指標(biāo),突破了同類研究的最高水平;二是采用CSIF 300日內(nèi)5分鐘收盤價(jià)高頻數(shù)據(jù),選取影響更為直接的兩個(gè)維度、25個(gè)具體指標(biāo)。并將多維度與高頻率相結(jié)合,提升了預(yù)測(cè)精度。

(3) 使用維度逐層刪減方法組合成多個(gè)預(yù)測(cè)模型,分析各類型指標(biāo)對(duì)CSIF 300的預(yù)測(cè)能力。對(duì)多維度數(shù)據(jù)集劃分成高、中、低不同維度數(shù)據(jù),設(shè)計(jì)多個(gè)模型進(jìn)行預(yù)測(cè);將高頻率數(shù)據(jù)進(jìn)行不同頻率抽樣,劃分成不同頻率的等時(shí)間間隔數(shù)據(jù)再次對(duì)模型做預(yù)測(cè)。

三、研究設(shè)計(jì)

(一)理論模型

根據(jù)持有成本模型,股指期現(xiàn)貨價(jià)格之間的關(guān)系式可以使用持有成本描述。通常會(huì)將股指看成支付股息的投資資產(chǎn),定義股指提供收益率為q的中間收入,無(wú)風(fēng)險(xiǎn)利率為r,則持有成本c就可以表示成:

c=r-q

(1)

股指期貨的遠(yuǎn)期價(jià)格F0與當(dāng)前價(jià)格S0的關(guān)系式為:

F0=S0ecT

(2)

綜合考慮同CSIF 300價(jià)格有關(guān)的影響因素,根據(jù)各因素由內(nèi)而外的相關(guān)性依次確定為CSIF 300的自身行情、影響CSIF 300的內(nèi)在因素、宏觀經(jīng)濟(jì)形勢(shì)、關(guān)聯(lián)金融市場(chǎng)和偶發(fā)事件5個(gè)維度,選擇具體的指標(biāo)進(jìn)一步細(xì)化5個(gè)維度。

(二)LSTM模型

統(tǒng)計(jì)預(yù)測(cè)模型往往依賴于歷史交易數(shù)據(jù),需要滿足一定的前提假設(shè),還受到數(shù)據(jù)維度和頻率的多重限制。機(jī)器學(xué)習(xí)對(duì)于金融時(shí)序數(shù)據(jù)在維度和頻率的要求上有所放寬,但是CSIF 300價(jià)格的預(yù)測(cè)屬于監(jiān)督學(xué)習(xí)的回歸,受到不同因素的影響面臨巨大不確定性,而深度學(xué)習(xí)對(duì)于該類回歸任務(wù)具有優(yōu)勢(shì)。CSIF 300收盤價(jià)的時(shí)序問(wèn)題,深度學(xué)習(xí)模型中的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)均能夠處理,但由于RNN同樣面臨著梯度消失和梯度爆炸的問(wèn)題,即無(wú)法很好地發(fā)現(xiàn)其長(zhǎng)期依賴關(guān)系,因此引入LSTM模型預(yù)測(cè)CSIF 300的價(jià)格。

在LSTM模型構(gòu)建上,綜合金融大數(shù)據(jù)與互聯(lián)網(wǎng)交易高并發(fā)、多頻次、大流量等特征,展開(kāi)了充分全面的考慮。第一,LSTM模型解決了循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)存在的梯度消失和梯度爆炸問(wèn)題,能夠更好地適應(yīng)CSIF 300價(jià)格非平穩(wěn)的數(shù)據(jù)特征;第二,CSIF 300價(jià)格具有長(zhǎng)期依賴性,即先前的價(jià)格和指標(biāo)均會(huì)對(duì)之后產(chǎn)生影響,而具備長(zhǎng)短記憶性的LSTM模型在處理時(shí)間間隔較長(zhǎng)或作用效果有延遲的數(shù)據(jù)上存在明顯優(yōu)勢(shì);第三,LSTM模型可以很好地總結(jié)非線性期貨價(jià)格的內(nèi)在規(guī)律,并準(zhǔn)確預(yù)測(cè)未來(lái)期貨價(jià)格的變動(dòng)情況。

(三)樣本選取

CSIF 300合約最具代表性,流動(dòng)性也比較強(qiáng),因此樣本對(duì)象確定為中國(guó)金融期貨交易所CSIF 300合約。由于交割日規(guī)定比較特殊,相較下月及隨后兩個(gè)季月的合約價(jià)格來(lái)講,當(dāng)月代表性更強(qiáng),同時(shí)保證數(shù)據(jù)連貫性,確定采用CSIF 300主力連續(xù)合約價(jià)格。

樣本數(shù)據(jù)分為低頻和高頻數(shù)據(jù)兩類:上市首日漲跌幅無(wú)法計(jì)算,確定低頻數(shù)據(jù)的樣本時(shí)間區(qū)間為2010年4月19日,截至2018年12月28日,共計(jì)2 118個(gè)交易日;高頻數(shù)據(jù)樣本時(shí)間區(qū)間為2019年1月2日9時(shí)35分,截至2019年12月31日13時(shí),共244個(gè)交易日,以5分鐘為抽樣頻率,每日4個(gè)小時(shí)交易時(shí)間,有48個(gè)5分鐘收益率,最終形成的樣本量為48×244 = 11 712。

(四)指標(biāo)選擇

根據(jù)股指期貨理論定價(jià)和CSIF 300市場(chǎng)運(yùn)行的實(shí)際,選取了CSIF 300的自身行情(27個(gè)),影響滬深300股指的內(nèi)在因素(16個(gè)),宏觀經(jīng)濟(jì)因素(26個(gè)),關(guān)聯(lián)金融市場(chǎng),偶發(fā)事件因素(1個(gè))5個(gè)維度共89個(gè)指標(biāo)。

1.CSIF 300的自身行情因素(27個(gè))

反映期貨市場(chǎng)自身行情的變動(dòng)又分為基本交易指標(biāo)、市場(chǎng)指標(biāo)與技術(shù)指標(biāo)三類。

(1)基本交易指標(biāo),包括開(kāi)盤價(jià)、最高價(jià)、最低價(jià)、成交量、成交額、均價(jià)、價(jià)差、結(jié)算價(jià)、持倉(cāng)量、未平倉(cāng)量和剩余交易日共11個(gè)指標(biāo)。需要特別說(shuō)明的是,為使研究更為充分,設(shè)計(jì)了剩余交易日指標(biāo)。期貨價(jià)格不僅會(huì)受到標(biāo)的資產(chǎn)價(jià)格、交易量、未平倉(cāng)合約數(shù)量等的影響,也會(huì)隨著期貨合約交割月份的逼近,逐漸收斂到標(biāo)的資產(chǎn)的即期價(jià)格。事實(shí)上,處于交割月份中的期貨價(jià)格波動(dòng)更為劇烈。

(2)市場(chǎng)指標(biāo)選取滬深兩市的融資余額與融券余額2個(gè)指標(biāo)。

(3)技術(shù)指標(biāo)則選取K、D、J、OBV、CCI、DIF、DEA、MACD、RSI1(6日)、RSI2(12日)、RSI3(24日)、MA1(5日)、MA2(10日)、MA3(20日)14個(gè)關(guān)注度較高的技術(shù)指標(biāo)。

2.影響滬深300股指的內(nèi)在因素(16個(gè))

(1) 根據(jù)理論公式,內(nèi)在因素首選CSIF 300的標(biāo)的資產(chǎn)為滬深300股指收盤價(jià)。

(2) 從外部看,滬深300股指會(huì)受滬深兩市的大盤漲跌影響,借助上證綜指和深證成指的收盤價(jià)2個(gè)指標(biāo)反映股票市場(chǎng)的一般走勢(shì)。

(3) 從內(nèi)部看,滬深300股指各樣本股的價(jià)格波動(dòng)會(huì)對(duì)股指本身產(chǎn)生影響,進(jìn)而影響股指期貨價(jià)格,因此考慮滬深兩市發(fā)行300只股票的上市公司的經(jīng)營(yíng)情況衡量CSI 300內(nèi)在價(jià)值,這是影響CSIF 300的間接因素。包括①財(cái)務(wù)指標(biāo),最能反映標(biāo)的資產(chǎn)估值,主要包括資產(chǎn)負(fù)債率、流動(dòng)比率、凈資產(chǎn)收益率(ROE)、開(kāi)發(fā)支出、每股稅后現(xiàn)金股利、股利分配率、主營(yíng)業(yè)務(wù)收入、總股本數(shù)、在外流通股本數(shù)、平均市盈率、平均市凈率共計(jì)11個(gè)財(cái)務(wù)指標(biāo);②公司治理結(jié)構(gòu)指標(biāo),包括前10股東占比和董、監(jiān)、高比例2個(gè)指標(biāo)。

3.宏觀經(jīng)濟(jì)形勢(shì)因素(26個(gè))

(1)主要選取經(jīng)濟(jì)增長(zhǎng)、物價(jià)水平和國(guó)際收支3個(gè)方面。其中,① 衡量經(jīng)濟(jì)增長(zhǎng)的指標(biāo)包括GDP總量、GDP增長(zhǎng)率、城鎮(zhèn)固定資產(chǎn)投資額、外商直接投資額、新增信貸額、制造業(yè)采購(gòu)經(jīng)理指數(shù)、非制造業(yè)采購(gòu)經(jīng)理指數(shù)共7個(gè)指標(biāo);② 度量物價(jià)水平的指標(biāo)可以直接選取價(jià)格指數(shù),包括CPI、PPI、新建房?jī)r(jià)指數(shù)、二手房?jī)r(jià)指數(shù)、企業(yè)商品價(jià)格指數(shù),同時(shí)選取間接運(yùn)行物價(jià)水平的指標(biāo),包括 M0、M1、M2、Shibor(隔夜)、存款準(zhǔn)備金率、財(cái)政收入、稅收等12個(gè)指標(biāo);③ 國(guó)際收支平衡選用海關(guān)出口額和海關(guān)進(jìn)口額2個(gè)指標(biāo)。

(2) 度量宏觀走勢(shì)的預(yù)期指標(biāo),選用消費(fèi)者信心指數(shù)、消費(fèi)者滿意指數(shù)、消費(fèi)者預(yù)期指數(shù)、企業(yè)景氣指數(shù)、企業(yè)家信心指數(shù)5個(gè)指標(biāo)。

4.關(guān)聯(lián)金融市場(chǎng)因素(19個(gè))

(1) 國(guó)內(nèi)金融市場(chǎng)主要考慮債券和期貨市場(chǎng):① 債券市場(chǎng)類指標(biāo)選取政府債券發(fā)行量和金融債券發(fā)行量;② 期貨市場(chǎng)選用資金量相對(duì)充足的國(guó)債期貨和其他股指期貨收盤價(jià),包括5年期國(guó)債期貨主連、10年期國(guó)債期貨主連、上證50股指期貨主連、中證500股指期貨主連共6個(gè)國(guó)內(nèi)關(guān)聯(lián)金融市場(chǎng)指標(biāo)。

(2) 海外金融市場(chǎng)中,涵蓋股票、期貨和外匯3個(gè)市場(chǎng)類型,具體包括:① 香港恒生指數(shù)、日經(jīng)225指數(shù)、道瓊斯工業(yè)指數(shù)、COMEX黃金庫(kù)存量和COMEX白銀庫(kù)存量5個(gè)指標(biāo);② 迷你道瓊斯指數(shù)期貨、迷你納斯達(dá)克指數(shù)期貨、迷你標(biāo)準(zhǔn)普爾指數(shù)期貨3個(gè)股指期貨市場(chǎng)指標(biāo);③ COMEX黃金6月期貨合約、COMEX黃金期貨、NYME原油期貨和WTI原油期貨4個(gè)其他期貨市場(chǎng)指標(biāo);④ 人民幣對(duì)美元匯率這一外匯市場(chǎng)指標(biāo)。各個(gè)期貨市場(chǎng)指標(biāo)均選取主連合約的收盤價(jià)。

5.偶發(fā)事件因素(1個(gè))

基于APT套利定價(jià)模型,期貨市場(chǎng)價(jià)格會(huì)受到突發(fā)事件或“黑天鵝”事件帶來(lái)的不確定性沖擊,市場(chǎng)參與者面對(duì)其做出的即時(shí)反應(yīng)又會(huì)造成期貨市場(chǎng)的波動(dòng)程度加劇,因此引入偶發(fā)事件作為一大類別因素輸入模型。筆者總結(jié)了自2010年4月至2018年12月期間發(fā)生的可能影響期貨市場(chǎng)的網(wǎng)絡(luò)熱點(diǎn)輿論事件41個(gè),并根據(jù)偶發(fā)事件影響程度的大小進(jìn)行了定量分析。基于次強(qiáng)式有效市場(chǎng)假說(shuō),對(duì)足以對(duì)整個(gè)經(jīng)濟(jì)運(yùn)行狀況產(chǎn)生影響的重大事件偶發(fā)當(dāng)天,判斷其正面或負(fù)面效應(yīng)時(shí)分別給予+3和-3的賦值;而對(duì)于單個(gè)公司、某一領(lǐng)域有相對(duì)較小影響的事件則在偶發(fā)事件當(dāng)天分別給予+1和-1的賦值(1)因篇幅所限,總結(jié)的2010—2018年41個(gè)偶發(fā)事件此處未詳列,如感興趣可聯(lián)系作者郵箱。。

四、數(shù)據(jù)處理

(一)數(shù)據(jù)來(lái)源及選擇

選取的數(shù)據(jù)來(lái)源于10個(gè)統(tǒng)計(jì)網(wǎng)站或數(shù)據(jù)庫(kù),包括wind數(shù)據(jù)庫(kù)、雅虎財(cái)經(jīng)、國(guó)泰安數(shù)據(jù)庫(kù)等(2)因篇幅所限,收集的原始數(shù)據(jù)此處省略,如需了解,可與作者聯(lián)系。。

輸出特征選取了中金所公開(kāi)的2010年4月19日至2018年12月28日近9年CSIF 300日收盤價(jià)以及2019年1月2日至2019年12月31日一年間的CSIF 300日內(nèi)5分鐘的收盤價(jià)作為原始數(shù)據(jù)。

輸入特征中,低頻日數(shù)據(jù)對(duì)應(yīng)選取89個(gè)輸入指標(biāo), 5分鐘高頻數(shù)據(jù)對(duì)應(yīng)選取25個(gè)輸入指標(biāo)。此外,基于高頻數(shù)據(jù)的可獲得性、輸入特征的選取考慮3個(gè)方面原因:其一,影響CSI 300內(nèi)在因素對(duì)于高頻數(shù)據(jù)的波動(dòng)影響并不大。一天之內(nèi),上市公司的經(jīng)營(yíng)狀況、管理結(jié)構(gòu)等并不會(huì)發(fā)生頻繁巨烈波動(dòng),往往是與經(jīng)理人的長(zhǎng)期經(jīng)營(yíng)決策相關(guān)。其二,宏觀因素指標(biāo)一年內(nèi)的變動(dòng)已經(jīng)不夠明顯,一天之內(nèi)更是微乎其微,其影響主要是長(zhǎng)期的。其三,偶發(fā)事件發(fā)生的具體日期可知但確切時(shí)間點(diǎn)難以界定,對(duì)日內(nèi)分時(shí)價(jià)格的影響程度也無(wú)法合理判斷。基于此,高頻數(shù)據(jù)選取的25個(gè)輸入指標(biāo)主要為日常交易數(shù)據(jù)、技術(shù)指標(biāo)以及關(guān)聯(lián)金融市場(chǎng),包括開(kāi)盤價(jià)、最高價(jià)、最低價(jià)、成交量、成交額、未平倉(cāng)量、K、D、J、OBV、CCI、DIF、DEA、MACD、RSI-1、RSI-2、RSI-3、MA5、MA10、MA20、WTI原油期貨主連、COMEX黃金期貨主連、迷你標(biāo)普指數(shù)期貨主連、迷你道瓊斯指數(shù)期貨主連、迷你納斯達(dá)克指數(shù)期貨主連。

(二)數(shù)據(jù)預(yù)處理

訓(xùn)練過(guò)程中,輸入數(shù)據(jù)的質(zhì)量與預(yù)測(cè)精度息息相關(guān)。根據(jù)LSTM模型對(duì)輸入數(shù)據(jù)的要求,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)的缺失值、標(biāo)準(zhǔn)化、混頻數(shù)據(jù)等都按常規(guī)方法處理(3)因篇幅所限,刪減的數(shù)據(jù)預(yù)處理內(nèi)容未列舉,如有興趣可與作者聯(lián)系。。采集數(shù)據(jù)出現(xiàn)混頻是常見(jiàn)現(xiàn)象,處理需要分多種情況進(jìn)行,比如:原始數(shù)據(jù)采集的時(shí)間間隔不一致、國(guó)內(nèi)國(guó)外交易時(shí)間不同等等,往往需要結(jié)合經(jīng)驗(yàn)綜合判斷。

(1) 對(duì)于高頻數(shù)據(jù),由于國(guó)內(nèi)外存在時(shí)差,而且國(guó)內(nèi)外期貨市場(chǎng)交易時(shí)間也不同,因此進(jìn)行了超前滯后處理。海外市場(chǎng)前一日的交易情況往往會(huì)與國(guó)內(nèi)市場(chǎng)當(dāng)日的價(jià)格走勢(shì)有關(guān)聯(lián),因此在高頻數(shù)據(jù)中對(duì)海外市場(chǎng)數(shù)據(jù)進(jìn)行了超前處理,即使用前一日的開(kāi)盤時(shí)間對(duì)應(yīng)當(dāng)日國(guó)內(nèi)的開(kāi)盤時(shí)間,而且海外市場(chǎng)一天的交易時(shí)間與國(guó)內(nèi)不一致,因此對(duì)海外市場(chǎng)的數(shù)據(jù)進(jìn)行了截取。

(2) 為提高模型的泛化能力和實(shí)用性,克服深度學(xué)習(xí)模型過(guò)擬合現(xiàn)象,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。在調(diào)試超參數(shù)階段,為保證模型精度足夠高,適當(dāng)提高了驗(yàn)證集的占比,將原始數(shù)據(jù)集劃分為8∶1.5∶0.5的訓(xùn)練集、驗(yàn)證集、測(cè)試集;在預(yù)測(cè)階段,對(duì)多維度數(shù)據(jù)和高頻率數(shù)據(jù)進(jìn)行了不同處理,由于多維度數(shù)據(jù)不到10年,樣本個(gè)數(shù)僅有2 118個(gè),因此取95%的數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練,即將驗(yàn)證集納入訓(xùn)練集,剩余5%用來(lái)預(yù)測(cè);而對(duì)于5分鐘的高頻率數(shù)據(jù),數(shù)據(jù)量充足,一年的樣本個(gè)數(shù)已經(jīng)達(dá)到11 712,因此取90%的數(shù)據(jù)輸入模型,剩余10%用來(lái)做測(cè)試集進(jìn)行預(yù)測(cè)。

(三)橫縱向數(shù)據(jù)的遞階處理

1.多維度數(shù)據(jù)

多維度數(shù)據(jù)分別從五大類別的影響因素出發(fā),共選取了89個(gè)具體指標(biāo),數(shù)據(jù)信息量豐富。為比較數(shù)據(jù)維度的不同是否會(huì)對(duì)模型預(yù)測(cè)結(jié)果的準(zhǔn)確程度造成影響,分析不同類別的影響因素描述CSIF 300價(jià)格波動(dòng)特征的優(yōu)劣差異,使用逐層剝離的方法將日數(shù)據(jù)的數(shù)據(jù)維度不同程度地減少,設(shè)計(jì)成不同維度的數(shù)據(jù)分別構(gòu)建9種CSIF 300預(yù)測(cè)模型,對(duì)LSTM模型的泛化能力進(jìn)行檢驗(yàn)以便做進(jìn)一步的比較分析。

模型1選取全部89個(gè)指標(biāo);模型2去除影響CSI 300的內(nèi)在因素,保留74個(gè)指標(biāo)包括自身行情、宏觀經(jīng)濟(jì)、關(guān)聯(lián)市場(chǎng)及偶發(fā)事件四大類影響因素;模型3去除關(guān)聯(lián)金融市場(chǎng)因素,保留70個(gè)指標(biāo)即其余四大類影響因素;模型4去除宏觀經(jīng)濟(jì)形勢(shì)因素指標(biāo),保留63個(gè)指標(biāo);模型5去除影響CSI 300的內(nèi)在因素和關(guān)聯(lián)金融市場(chǎng)因素,保留55個(gè)指標(biāo)包括自身行情、宏觀經(jīng)濟(jì)及偶發(fā)事件三大類影響因素;模型6去除影響CSI 300的內(nèi)在因素和宏觀經(jīng)濟(jì)形勢(shì)因素,保留48個(gè)指標(biāo)包括自身行情、關(guān)聯(lián)市場(chǎng)及偶發(fā)事件三大類影響因素;模型7去除宏觀經(jīng)濟(jì)形勢(shì)因素和關(guān)聯(lián)金融市場(chǎng)因素,保留44個(gè)指標(biāo)包括自身行情、股指本身及偶發(fā)事件三大類影響因素;模型8去除三大類別的影響因素,僅保留29個(gè)指標(biāo)包括自身行情以及偶發(fā)事件因素兩大類;模型9僅剩余15個(gè)指標(biāo)包括自身行情中的基本交易指標(biāo)和偶發(fā)事件因素。

2.高頻率數(shù)據(jù)

高頻率數(shù)據(jù)選用的25個(gè)指標(biāo)屬于自身行情和關(guān)聯(lián)市場(chǎng)兩個(gè)類別影響因素。對(duì)于CSIF 300日內(nèi)5分鐘高頻數(shù)據(jù)進(jìn)行等間隔抽樣,設(shè)計(jì)成5、10、15、20、30、60分鐘多種不同頻率的分時(shí)數(shù)據(jù)分別輸入預(yù)測(cè)模型,再次比較數(shù)據(jù)頻率的不同是否會(huì)對(duì)LSTM模型預(yù)測(cè)精度產(chǎn)生影響。各個(gè)不同頻率分時(shí)數(shù)據(jù)的樣本個(gè)數(shù)分別為11 712、5 856、3 904、2 928、1 952、976個(gè)。

五、實(shí)證研究

(一)實(shí)證過(guò)程

1.LSTM模型搭建

實(shí)證部分運(yùn)用Tensorflow 2.0開(kāi)源平臺(tái),采用Python 3.7編寫程序,使用Keras搭建網(wǎng)絡(luò)結(jié)構(gòu),確定的深度學(xué)習(xí)模型結(jié)構(gòu)由輸入層、LSTM隱藏層、輸出層組成。

損失函數(shù)使用均方誤差(MSE),訓(xùn)練過(guò)程選Adam優(yōu)化器進(jìn)行優(yōu)化。超參數(shù)設(shè)置為訓(xùn)練時(shí)間步長(zhǎng)t、批處理大小batch size,訓(xùn)練次數(shù)epochs、隱藏層神經(jīng)元個(gè)數(shù)n。通過(guò)反復(fù)訓(xùn)練,最終確定超參數(shù)取值范圍分別為:多維度數(shù)據(jù)的步長(zhǎng)t在1~120,高頻率數(shù)據(jù)的步長(zhǎng)t在1~60; batch size為64;多維度數(shù)據(jù)的epochs為2 000次,高頻率數(shù)據(jù)的epochs為1 000次,n均為256個(gè),激活函數(shù)均為tanh函數(shù)。另外,多次訓(xùn)練確定隱藏層數(shù),對(duì)于多維度的日數(shù)據(jù),在t<15時(shí),隱藏層選2層LSTM模型,在t≥15時(shí),隱藏層選1層LSTM模型;對(duì)于高頻率數(shù)據(jù),均選2層LSTM模型。

2.LSTM模型預(yù)測(cè)精度的評(píng)價(jià)

為便于和同類研究的模型預(yù)測(cè)效果比較,選取常用的3個(gè)預(yù)測(cè)精度評(píng)價(jià)指標(biāo),分別為均方誤差(MSE)、平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)誤差(MAE)。這3個(gè)定量評(píng)價(jià)指標(biāo)的數(shù)值越小,則預(yù)測(cè)值與真實(shí)值偏離程度越低,即預(yù)測(cè)效果越理想。

(二)多維數(shù)據(jù)實(shí)證結(jié)果與分析

1.預(yù)測(cè)結(jié)果

使用LSTM模型分別對(duì)89、74、70、63、55、48、44、29、15個(gè)變量的2 118條日數(shù)據(jù)進(jìn)行擬合。現(xiàn)有研究大多為追求更高的精度構(gòu)建各種LSTM復(fù)合模型,注重各模型之間的比較,預(yù)測(cè)效果在不斷更新。與以往研究不同的是,針對(duì)不同維度的影響因素構(gòu)建9種LSTM預(yù)測(cè)模型,并分別選擇步長(zhǎng)為1、2、3、5、10、15、20、40、60、120個(gè)交易日構(gòu)造訓(xùn)練數(shù)據(jù),輸入模型進(jìn)行訓(xùn)練,分析訓(xùn)練時(shí)間步長(zhǎng)對(duì)預(yù)測(cè)效果的影響。為了進(jìn)一步比較不同維度的預(yù)測(cè)變量對(duì)預(yù)測(cè)的影響,將訓(xùn)練時(shí)間步長(zhǎng)為10~20細(xì)化至每一日,共形成9×18=162次不同的估計(jì),然后預(yù)測(cè)未來(lái)一個(gè)交易日的收盤價(jià),同時(shí)計(jì)算不同模型的預(yù)測(cè)精度,對(duì)比分析因素維度對(duì)模型預(yù)測(cè)效果產(chǎn)生的影響。模型的預(yù)測(cè)結(jié)果見(jiàn)表1。

表1 不同維度對(duì)應(yīng)的9種模型預(yù)測(cè)精度(MAPE)比較

從預(yù)測(cè)精度的結(jié)果來(lái)看,模型1~模型9的MAPE均在1.0左右,表現(xiàn)出良好的預(yù)測(cè)效果。從整體來(lái)看,不同維度的變量之間存在的多重共線性,并不會(huì)對(duì)模型的預(yù)測(cè)精度造成較大影響,反而考慮的影響因素越全面,如模型1有89個(gè)特征變量,當(dāng)步長(zhǎng)為17個(gè)交易日時(shí),MAPE值達(dá)到了最小,低至0.933 8。模型2有74個(gè)變量,僅僅是對(duì)影響滬深300股指的內(nèi)在因素指標(biāo)直接進(jìn)行刪減,當(dāng)步長(zhǎng)為13個(gè)交易日時(shí),預(yù)測(cè)的MAPE達(dá)到最小,但最小值反而高于模型1, MAPE值為0.965 6。觀察模型6的預(yù)測(cè)結(jié)果可以發(fā)現(xiàn),當(dāng)刪除影響CSI 300的內(nèi)在因素指標(biāo)和宏觀經(jīng)濟(jì)形勢(shì)指標(biāo)時(shí),相對(duì)于模型1產(chǎn)生更高的預(yù)測(cè)精度,達(dá)到全局最小值,可能是數(shù)據(jù)集自身屬性對(duì)預(yù)測(cè)效果產(chǎn)生的影響,這有待進(jìn)一步驗(yàn)證。維度刪減最多的模型9僅有15個(gè)特征變量,當(dāng)步長(zhǎng)為16個(gè)交易日時(shí)出現(xiàn)MAPE最小值1.070 7,顯然模型1的預(yù)測(cè)精度要高于模型9。各模型的預(yù)測(cè)精度最小值集中在步長(zhǎng)10至20個(gè)交易日之間,說(shuō)明半個(gè)月到1個(gè)月的歷史交易日數(shù)據(jù)參考價(jià)值是最大的。

2.預(yù)測(cè)效果對(duì)比圖

選取各模型MAPE值最小的訓(xùn)練時(shí)間步長(zhǎng)進(jìn)行了60個(gè)交易日的預(yù)測(cè)值與真實(shí)值的比較,并進(jìn)行可視化,預(yù)測(cè)結(jié)果如圖1~圖9所示(4)為滿足清晰作圖要求,在預(yù)測(cè)值上手動(dòng)添加500展示,特此說(shuō)明。。

圖1 89個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖2 74個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖3 70個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖4 63個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖5 55個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖6 48個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖7 44個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖8 29個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

圖9 15個(gè)變量LSTM模型預(yù)測(cè)結(jié)果

3.結(jié)果解讀

(1) 從因素維度看,因素多少對(duì)預(yù)測(cè)精度有間接影響,但影響并不明顯。依賴短期數(shù)據(jù)預(yù)測(cè)時(shí),影響因素維度越多,預(yù)測(cè)精度越高,基本面分析和技術(shù)分析相結(jié)合對(duì)提高LSTM模型的預(yù)測(cè)精度確實(shí)有效;依賴中長(zhǎng)期數(shù)據(jù)預(yù)測(cè)時(shí),因素維度的作用有所減弱。

① 使用短期數(shù)據(jù)即在步長(zhǎng)處于10個(gè)交易日內(nèi)時(shí),模型1即五大類的89維的預(yù)測(cè)效果顯著優(yōu)于另外8個(gè)模型。通過(guò)計(jì)算步長(zhǎng)1~5的MAPE平均值可以發(fā)現(xiàn),模型1的預(yù)測(cè)效果是最好的,MAPE均值為1.183 1,模型4次之。結(jié)果表明,短期數(shù)據(jù)支撐預(yù)測(cè)時(shí)納入的影響因素越全面,預(yù)測(cè)越精準(zhǔn)。這說(shuō)明基本分析與技術(shù)分析相結(jié)合在期貨價(jià)格預(yù)測(cè)比較有效,基本分析會(huì)提高期貨價(jià)格的預(yù)測(cè)效果,與陳標(biāo)金等[12]的研究結(jié)論一致。影響滬深300股指的內(nèi)在因素、宏觀經(jīng)濟(jì)形勢(shì)因素、關(guān)聯(lián)金融市場(chǎng)因素同其價(jià)格在近5個(gè)交易日之內(nèi)存在一定的關(guān)聯(lián)性,雖然這些因素對(duì)于價(jià)格的影響存在滯后期,但大數(shù)據(jù)時(shí)代的到來(lái)使投資者獲取信息的時(shí)效性明顯增強(qiáng),應(yīng)對(duì)更及時(shí),滯后效果的反映等待期不超過(guò)5個(gè)交易日,各個(gè)方面的影響因素均會(huì)在5日內(nèi)反映完全。

② 使用中期數(shù)據(jù)即達(dá)到1個(gè)月的歷史數(shù)據(jù)量時(shí),通過(guò)計(jì)算步長(zhǎng)10~20的MAPE平均值發(fā)現(xiàn),除模型9,其他預(yù)測(cè)效果均明顯提升,相對(duì)較好的預(yù)測(cè)效果集中在模型1和模型6,這說(shuō)明投資者考慮多個(gè)方面的因素與只考慮CSIF 300自身行情、關(guān)聯(lián)市場(chǎng)以及偶發(fā)事件三類因素得到的效果差不多,甚至后者表現(xiàn)更優(yōu),因素維度的作用不再像短期數(shù)據(jù)那么明顯。這與實(shí)際股指期貨交易、理論上的噪聲交易是相符的。歷史數(shù)據(jù)信息充足時(shí),可以只考慮自身的交易行情與關(guān)聯(lián)市場(chǎng)的行情指標(biāo),不需要考慮過(guò)多龐雜因素,考慮過(guò)多反而可能由于信息冗雜對(duì)預(yù)測(cè)效果產(chǎn)生不利影響。模型9僅考慮了基本交易信息和偶發(fā)事件因素,雖然基本交易信息一定程度上可以反映價(jià)格波動(dòng),但想達(dá)到精準(zhǔn)預(yù)測(cè)是遠(yuǎn)遠(yuǎn)不夠的,還需要將CSIF 300自身行情中的技術(shù)指標(biāo)和關(guān)聯(lián)市場(chǎng)行情等方面考慮進(jìn)去。原因有兩點(diǎn):一是技術(shù)指標(biāo)的計(jì)算本身就存在特定的周期性,忽視它就直接損失了其在中期數(shù)據(jù)預(yù)測(cè)時(shí)的有效性;二是半個(gè)月甚至1個(gè)月內(nèi)關(guān)聯(lián)金融市場(chǎng)行情已經(jīng)完全反映到股指期貨價(jià)格的變動(dòng)上,過(guò)久的歷史數(shù)據(jù)反而會(huì)帶來(lái)負(fù)效應(yīng),使同股指期貨價(jià)格的關(guān)聯(lián)性出現(xiàn)明顯下降。

③ 使用長(zhǎng)期數(shù)據(jù)即在訓(xùn)練時(shí)間窗口逐漸拉長(zhǎng)至120個(gè)交易日即半年時(shí),除了模型4出現(xiàn)了輕微提升外,其他模型的預(yù)測(cè)精度均有所下降,這說(shuō)明宏觀經(jīng)濟(jì)形勢(shì)會(huì)對(duì)期貨價(jià)格產(chǎn)生持續(xù)性的影響,與Altavilla等[21]的研究結(jié)論存在一致性。但太早期的歷史數(shù)據(jù)無(wú)論是哪個(gè)類別對(duì)于分析價(jià)格波動(dòng)規(guī)律都不起顯著作用,交易信息具有時(shí)效性。模型9的預(yù)測(cè)結(jié)果是最差的,說(shuō)明長(zhǎng)期數(shù)據(jù)預(yù)測(cè)僅考慮期貨市場(chǎng)的基本交易行情遠(yuǎn)遠(yuǎn)不夠,數(shù)據(jù)蘊(yùn)含的信息量過(guò)少,數(shù)據(jù)深度不夠,深度學(xué)習(xí)無(wú)法有效挖掘到數(shù)據(jù)特征。

(2) 從訓(xùn)練時(shí)間步長(zhǎng)看,近期(舉個(gè)例子,預(yù)測(cè)4月1日應(yīng)該用3月21日至3月31日的數(shù)據(jù))10至20個(gè)交易日的歷史數(shù)據(jù)達(dá)到的預(yù)測(cè)效果最為理想。分析表1可知, MAPE最小值均出現(xiàn)在10~20個(gè)交易日。

① 使用短期數(shù)據(jù)即步長(zhǎng)在10個(gè)交易日以內(nèi)時(shí), MAPE值較大,說(shuō)明LSTM處理短期數(shù)據(jù)的表現(xiàn)略遜于中長(zhǎng)期數(shù)據(jù)。

② 使用長(zhǎng)期數(shù)據(jù)即步長(zhǎng)超過(guò)20個(gè)交易日時(shí),各模型的預(yù)測(cè)效果整體來(lái)看均出現(xiàn)了顯著下降,只有模型4出現(xiàn)了輕微提升。預(yù)測(cè)效果雖然受損,但并未出現(xiàn)嚴(yán)重偏離,只是存在信息冗余現(xiàn)象。這和經(jīng)濟(jì)計(jì)量方法得出的結(jié)論是一致的。一般來(lái)講,數(shù)據(jù)越多,預(yù)測(cè)的精度會(huì)越高,但Hull[22]提出太老的歷史數(shù)據(jù)對(duì)于預(yù)測(cè)未來(lái)價(jià)格的波動(dòng)性可能不太相干,一個(gè)折中的辦法是采用最近90~180天的日收盤價(jià)數(shù)據(jù)。

事實(shí)上,港人對(duì)此是不信任的,甚至是恐慌和無(wú)奈的,“浮城”的身份和夾縫的位置使得這座城市早早地喪失了發(fā)言權(quán),香港無(wú)法自主表達(dá)內(nèi)心的想法,它就像白粉圈里的小壽郎,雖是“當(dāng)事人”卻也是最大的“旁觀者”。

③ 使用中期數(shù)據(jù)時(shí),擬合歷史數(shù)據(jù)的步長(zhǎng)甚至可以拉近至更短,使用最近10~20交易日的數(shù)據(jù)預(yù)測(cè)精度是最高的。這與尚玉皇等[17]的結(jié)論基本一致。具體來(lái)看,在步長(zhǎng)為17時(shí)的模型1和6的預(yù)測(cè)精度提升得更為明顯,此時(shí)模型6的預(yù)測(cè)效果達(dá)到全局最優(yōu)。這符合預(yù)期和期貨市場(chǎng)的實(shí)際投資情況,CSIF 300合約的交割日期在每個(gè)月第三周的周五,能夠?qū)艿臍v史數(shù)據(jù)最為有效這一結(jié)論做出合理解釋。

(3) 整體看,模型1~模型9的預(yù)測(cè)精度均在1.0左右波動(dòng),總體表現(xiàn)穩(wěn)定。比較模型1和模型9在各步長(zhǎng)的表現(xiàn),模型1的預(yù)測(cè)精度要明顯高于模型9,證實(shí)了深度學(xué)習(xí)在處理多維度共線性的海量數(shù)據(jù)存在優(yōu)勢(shì),維度的增加會(huì)使得預(yù)測(cè)帶來(lái)一定提升,但提升程度相對(duì)有限,指標(biāo)納入需要有一個(gè)合適的度。LSTM模型確實(shí)能夠避免長(zhǎng)時(shí)依賴問(wèn)題,對(duì)于短期和長(zhǎng)期數(shù)據(jù)信息均適用,但效果略微有差別。

(三)高頻數(shù)據(jù)實(shí)證結(jié)果與分析

1.預(yù)測(cè)結(jié)果

使用2019年1月2日至2019年12月31日的CSIF 300 5分鐘高頻數(shù)據(jù),將其進(jìn)行等時(shí)間間隔抽樣成不同頻率的數(shù)據(jù),分別選擇步長(zhǎng)為1、2、3、6、12、18、24、30、36、42、60個(gè)時(shí)間間隔構(gòu)造訓(xùn)練數(shù)據(jù),輸入LSTM模型進(jìn)行訓(xùn)練,分析步長(zhǎng)對(duì)預(yù)測(cè)效果的影響,然后預(yù)測(cè)下一時(shí)間間隔的收盤價(jià),預(yù)測(cè)結(jié)果見(jiàn)表2。步長(zhǎng)的設(shè)計(jì)與數(shù)據(jù)采樣頻率相關(guān),對(duì)于5分鐘的數(shù)據(jù)而言,不同步長(zhǎng)分別對(duì)應(yīng)的時(shí)間窗口是5分鐘、10分鐘、15分鐘、半小時(shí)、1小時(shí)、1個(gè)半小時(shí)、2小時(shí)、2個(gè)半小時(shí)、3小時(shí)、3個(gè)半小時(shí)、5小時(shí)。

從表2來(lái)看,對(duì)于不同頻率的數(shù)據(jù), MAPE存在數(shù)量級(jí)差別,但相對(duì)日數(shù)據(jù),其預(yù)測(cè)精度明顯更高。對(duì)于5分鐘數(shù)據(jù),MAPE均在0.15左右,最小值0.138 2;10分鐘MAPE為0.2左右,最小值0.186 6;15分鐘MAPE為0.25左右,最小值0.222 1;20分鐘MAPE為0.3左右,最小值0.257 1; 30分鐘MAPE為0.4左右,最小值0.364 1;1小時(shí)MAPE為0.6左右,最小值0.493 7。不同頻率數(shù)據(jù)的模型MAPE最小值均出現(xiàn)在步長(zhǎng)為24個(gè)時(shí)間間隔。

表2 不同頻率對(duì)應(yīng)的模型預(yù)測(cè)精度(MAPE)比較

2.預(yù)測(cè)效果對(duì)比圖

同樣為了更為直觀地展示不同頻率數(shù)據(jù)的預(yù)測(cè)效果,類比日數(shù)據(jù)進(jìn)行預(yù)測(cè)值與真實(shí)值的比較,并進(jìn)行數(shù)據(jù)的可視化,預(yù)測(cè)結(jié)果如圖10~圖15所示(5)為滿足清晰作圖要求,在預(yù)測(cè)值上手動(dòng)添加500展示,特此說(shuō)明。。

圖10 5分鐘數(shù)據(jù)的預(yù)測(cè)結(jié)果

圖11 10分鐘數(shù)據(jù)的預(yù)測(cè)結(jié)果

圖12 15分鐘數(shù)據(jù)的預(yù)測(cè)結(jié)果

圖13 20分鐘數(shù)據(jù)的預(yù)測(cè)結(jié)果

圖14 30分鐘數(shù)據(jù)的預(yù)測(cè)結(jié)果

圖15 1小時(shí)數(shù)據(jù)的預(yù)測(cè)結(jié)果

圖10~圖15進(jìn)行了不同頻率數(shù)據(jù)預(yù)測(cè)效果比較,通過(guò)對(duì)比數(shù)據(jù)量和變量維度個(gè)數(shù)相近的圖8和14可以看出,高頻數(shù)據(jù)的預(yù)測(cè)效果是明顯優(yōu)于低頻數(shù)據(jù)的。

3.結(jié)果解讀

(1) 從數(shù)據(jù)頻率看,不同數(shù)據(jù)頻率的對(duì)模型預(yù)測(cè)效果產(chǎn)生了直接影響。由表2可以看出,數(shù)據(jù)頻率越高,預(yù)測(cè)精度越高。對(duì)于5分鐘數(shù)據(jù)的預(yù)測(cè)精度在0.15左右,間隔10分鐘的在0.2左右,間隔15分鐘的在0.25左右,間隔20分鐘的在0.3左右,間隔30分鐘的在0.4左右,間隔1小時(shí)的在0.6左右上下浮動(dòng),相較而言波動(dòng)程度略大,可能是由于數(shù)據(jù)量過(guò)小導(dǎo)致預(yù)測(cè)不夠準(zhǔn)確,部分原因是時(shí)間間隔過(guò)寬損失了交易數(shù)據(jù)中大量的有效信息。由此可見(jiàn),數(shù)據(jù)深度與預(yù)測(cè)能力存在明顯關(guān)聯(lián),數(shù)據(jù)頻率越高,LSTM模型對(duì)數(shù)據(jù)的挖掘越深層,就越能夠提取更多有用信息。鑒于此,高頻數(shù)據(jù)對(duì)于期貨市場(chǎng)預(yù)測(cè)更有效,且作用程度明顯。可能的原因是交易信息本身存在時(shí)效性,況且股指期貨是T+0交易機(jī)制,頻率較低的數(shù)據(jù)信息無(wú)法及時(shí)反映市場(chǎng)行情的變化。這與Silva等[23]觀點(diǎn)保持一致。早期Stoll等[19]也得出與之相吻合的研究結(jié)論,證實(shí)利用5分鐘的股指期貨高頻數(shù)據(jù)預(yù)測(cè)效果要優(yōu)于10分鐘。

(2) 從模型的訓(xùn)練時(shí)間步長(zhǎng)看,考慮近期24個(gè)步長(zhǎng)達(dá)到的預(yù)測(cè)效果最為理想。由表2可以看出,無(wú)論是高頻數(shù)據(jù)的頻率如何,模型均在24個(gè)步長(zhǎng)表現(xiàn)最佳。對(duì)于5分鐘數(shù)據(jù),投資者應(yīng)考慮2個(gè)小時(shí)內(nèi)或是接近2個(gè)小時(shí)(即半個(gè)交易日)的交易情況,半個(gè)交易日以外的數(shù)據(jù)對(duì)于當(dāng)前的預(yù)測(cè)效果并不理想;對(duì)于間隔為10分鐘的數(shù)據(jù),投資者應(yīng)參考近一個(gè)交易日的數(shù)據(jù),這樣信息的有用程度達(dá)到最大化,前一日的海外市場(chǎng)也會(huì)產(chǎn)生影響;對(duì)于間隔為15分鐘的數(shù)據(jù),投資者考慮近1個(gè)半交易日的市場(chǎng)信息最為有效;對(duì)于間隔半小時(shí)的數(shù)據(jù),投資者應(yīng)考慮近3天的交易信息;對(duì)于間隔1小時(shí)的數(shù)據(jù),近6天的數(shù)據(jù)為有效信息,而不同頻率的數(shù)據(jù)如果參考的范圍過(guò)小或過(guò)大,準(zhǔn)確程度均會(huì)大大降低。尤其是間隔為1小時(shí)的數(shù)據(jù),倘若考慮3個(gè)月的歷史信息反而會(huì)使得模型的預(yù)測(cè)效果呈斷崖式下降,這或許因?yàn)槊總€(gè)交易日CSIF 300的合約有4份,合約月份為當(dāng)月、下月及隨后兩個(gè)季月,因此交易周期為1個(gè)季度,選取當(dāng)季的信息預(yù)測(cè)是更為有效的。

(3) 總體看,對(duì)于不同頻率的數(shù)據(jù),一方面,高頻數(shù)據(jù)相較于日交易數(shù)據(jù),維度對(duì)模型預(yù)測(cè)的作用就相對(duì)較弱,主要是數(shù)據(jù)信息量不同導(dǎo)致預(yù)測(cè)結(jié)果有明顯差異,頻率越高,數(shù)據(jù)信息量越大,模型的預(yù)測(cè)精度越高,這也是深度學(xué)習(xí)對(duì)于海量數(shù)據(jù)處理存在優(yōu)越性的具體體現(xiàn);另一方面,結(jié)合表1與表2分析,可以得出模型預(yù)測(cè)效果的差異并不僅僅是因?yàn)閿?shù)據(jù)量,時(shí)間間隔為30分鐘的收盤價(jià)數(shù)據(jù)與近10年的日收盤價(jià)數(shù)據(jù)同為2 000左右的樣本個(gè)數(shù),選用表2中30分鐘的預(yù)測(cè)結(jié)果與表1中模型8的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比時(shí),特征變量同為25維左右,MAPE數(shù)量級(jí)也存在顯著差別。30分鐘的數(shù)據(jù)MAPE在0.4上下浮動(dòng),而日收盤價(jià)MAPE在1.0上下浮動(dòng),這足以表明頻率對(duì)模型預(yù)測(cè)效果產(chǎn)生了影響,因?yàn)楦哳l部分影響因素的選取均為自身市場(chǎng)行情及關(guān)聯(lián)市場(chǎng)行情,排除了不同類別因素的性質(zhì)對(duì)預(yù)測(cè)結(jié)果帶來(lái)的影響。此外,由于30分鐘數(shù)據(jù)和日數(shù)據(jù)的數(shù)據(jù)量差距并不大,也可以排除單單是LSTM模型自身特征發(fā)揮作用的原因。結(jié)果表明,30分鐘的數(shù)據(jù)頻率高于日收盤價(jià)數(shù)據(jù),模型的預(yù)測(cè)精度得到了大幅度提高。

4.穩(wěn)健性檢驗(yàn)

為了提升實(shí)證結(jié)果的可靠程度,增強(qiáng)結(jié)果分析的說(shuō)服力,通過(guò)把MAPE替換為MSE、MAE后,對(duì)LSTM模型預(yù)測(cè)結(jié)果的穩(wěn)健性進(jìn)行檢驗(yàn)。檢驗(yàn)結(jié)果(6)因篇幅所限,穩(wěn)健性檢驗(yàn)結(jié)果此處省略,如需了解,可與作者聯(lián)系。與前文的研究結(jié)論一致[24]。

六、結(jié)論及啟示

(一)主要結(jié)論

結(jié)合大數(shù)據(jù)和深度學(xué)習(xí)二者的優(yōu)勢(shì),利用CSIF 300自正式上市以來(lái)不同頻率的交易數(shù)據(jù),通過(guò)構(gòu)建LSTM模型重點(diǎn)研究了人工智能時(shí)代CSIF 300價(jià)格的新波動(dòng)特征,進(jìn)行科學(xué)有效的預(yù)測(cè)。結(jié)合實(shí)際情況篩選出89個(gè)預(yù)測(cè)變量,全面涵蓋CSIF 300的自身行情、影響滬深300股指的內(nèi)在因素、宏觀經(jīng)濟(jì)形勢(shì)、關(guān)聯(lián)金融市場(chǎng)行情及偶發(fā)事件因素五大類別,層層滲透,逐步深入對(duì)CSIF 300價(jià)格的波動(dòng)特征進(jìn)行挖掘,從變量維度和數(shù)據(jù)頻率兩個(gè)方面探究影響股指期貨價(jià)格預(yù)測(cè)精度的深層原因。主要結(jié)論如下:

第一,運(yùn)用多維高頻數(shù)據(jù)與LSTM模型的有機(jī)融合建立金融預(yù)測(cè)模型,可以很好地刻畫、擬合和預(yù)測(cè)CSI 300價(jià)格波動(dòng)的新特征,變量維度和數(shù)據(jù)頻率均會(huì)對(duì)LSTM模型的預(yù)測(cè)精度產(chǎn)生影響。

第二,因素的納入會(huì)對(duì)CSIF 300價(jià)格的預(yù)測(cè)產(chǎn)生間接影響。使用短期數(shù)據(jù)預(yù)測(cè)時(shí),變量維度越多,預(yù)測(cè)精度越高;使用中長(zhǎng)期數(shù)據(jù)預(yù)測(cè)時(shí),變量維度的影響減弱,此時(shí)并非納入的因素越全面,預(yù)測(cè)精度越高。

第三,數(shù)據(jù)頻率的差別會(huì)對(duì)CSIF 300價(jià)格的預(yù)測(cè)產(chǎn)生直接影響。數(shù)據(jù)頻率越高,預(yù)測(cè)精度就越高。高頻數(shù)據(jù)信息包含的信息更為豐富,而頻率越低損失的有用信息越多,因此深度學(xué)習(xí)對(duì)于高頻數(shù)據(jù)中隱藏的深層信息可以提取出來(lái),預(yù)測(cè)結(jié)果表現(xiàn)更為優(yōu)良。

第四,變量維度的增加會(huì)使得LSTM模型的預(yù)測(cè)精度帶來(lái)一定程度的提升,但變量指標(biāo)納入量需要有一個(gè)合適的度,數(shù)據(jù)頻率的提高對(duì)LSTM模型的預(yù)測(cè)精度提升效果十分明顯。

第五,LSTM模型的預(yù)測(cè)精度也會(huì)受到訓(xùn)練時(shí)間窗口大小的影響。對(duì)于低頻的日交易數(shù)據(jù),考慮近10個(gè)交易日至20個(gè)交易日的數(shù)據(jù)信息已經(jīng)可以做出準(zhǔn)確預(yù)測(cè);對(duì)于高頻的分時(shí)交易數(shù)據(jù),需要針對(duì)不同時(shí)間間隔數(shù)據(jù)損失的信息程度調(diào)整分析的時(shí)間范圍。

(二)政策啟示

基于實(shí)證研究結(jié)論,對(duì)CSIF 300市場(chǎng)參與各方的啟示如下:

就期貨交易所和監(jiān)管部門而言,精準(zhǔn)預(yù)測(cè)CSIF 300的波動(dòng)特征有助于科學(xué)把握市場(chǎng)資金流向,進(jìn)而精準(zhǔn)監(jiān)管整個(gè)期貨市場(chǎng),細(xì)化市場(chǎng)交易規(guī)則,遏制倒填日期等違規(guī)交易行為。同時(shí),可以構(gòu)建地方金融數(shù)據(jù)中心,公布更多的期貨市場(chǎng)、金融市場(chǎng)的連續(xù)數(shù)據(jù),充分發(fā)揮期貨市場(chǎng)價(jià)格發(fā)現(xiàn)功能。

就金融期貨產(chǎn)品的設(shè)計(jì)而言,股指期貨的標(biāo)的資產(chǎn)在對(duì)波動(dòng)性比較大或者退市的股票做定期樣本清理時(shí),可以將頻率提高到半個(gè)月至1個(gè)月清理一次,使股指期貨的流通性進(jìn)一步增強(qiáng)。在設(shè)計(jì)交割月份時(shí),要綜合考慮標(biāo)的公司經(jīng)營(yíng)狀況、宏觀經(jīng)濟(jì)形勢(shì)等多個(gè)類別的影響因素,具體到第一交割通知日和最后交割日之間的時(shí)長(zhǎng)是否可以考慮延長(zhǎng)至1周左右,縮小投機(jī)者的套利空間。也可以引進(jìn)迷你合約吸引小額度投資者,并適當(dāng)縮小頭寸限額防止投機(jī)者給期貨市場(chǎng)造成不利影響。

就套期保值者及投資者而言,全面考慮大數(shù)據(jù)時(shí)代的各種可獲得數(shù)據(jù)信息來(lái)分析股指期貨是必要的,但過(guò)度的數(shù)據(jù)、過(guò)期的信息不利于其精準(zhǔn)預(yù)測(cè)分析,尤其是套期保值者要關(guān)注期貨標(biāo)的資產(chǎn)及宏觀經(jīng)濟(jì)等綜合因素,以便達(dá)到優(yōu)化資產(chǎn)配置規(guī)避風(fēng)險(xiǎn)的目的。

需要指出的是,本文雖然充分發(fā)揮了深度學(xué)習(xí)智能算法處理非線性、非平穩(wěn)、大容量時(shí)序數(shù)據(jù)方面的優(yōu)勢(shì),也引入偶發(fā)事件這一具有非結(jié)構(gòu)化特征的大數(shù)據(jù)源,但異構(gòu)可變的數(shù)據(jù)在實(shí)際量化處理時(shí)仍是帶有主觀性和經(jīng)驗(yàn)判斷。此外,受到經(jīng)典計(jì)量模型處理共線性海量數(shù)據(jù)的局限,數(shù)據(jù)的統(tǒng)計(jì)口徑和智能算法存在客觀差別,CSIF 300價(jià)格的預(yù)測(cè)結(jié)果并未和經(jīng)典計(jì)量模型進(jìn)行比較分析。相應(yīng)地,這些不足提供了金融期貨價(jià)格波動(dòng)問(wèn)題的后續(xù)研究思路:將文本挖掘技術(shù)應(yīng)用到偶發(fā)事件因素、宏觀經(jīng)濟(jì)政策、投資者情緒等沒(méi)有量化的指標(biāo)選取與量化上,進(jìn)一步提高金融市場(chǎng)預(yù)測(cè)分析能力。

猜你喜歡
因素模型
一半模型
腹部脹氣的飲食因素
中老年保健(2022年5期)2022-08-24 02:36:04
四大因素致牛肉價(jià)小幅回落
食品安全的影響因素與保障措施探討
群眾路線是百年大黨成功之內(nèi)核性制度因素的外在表達(dá)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
短道速滑運(yùn)動(dòng)員非智力因素的培養(yǎng)
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 久久精品日日躁夜夜躁欧美| jizz在线观看| 一级毛片在线播放免费| 中文字幕日韩视频欧美一区| 国产精品午夜福利麻豆| 日本三区视频| 欧美日韩va| 亚洲综合18p| 成年人国产视频| 日韩第一页在线| 色偷偷av男人的天堂不卡| 亚洲精品男人天堂| 无码精油按摩潮喷在线播放| 国产夜色视频| 精品国产美女福到在线不卡f| 波多野结衣一级毛片| 性做久久久久久久免费看| 亚洲视频四区| 国模沟沟一区二区三区| 热99精品视频| 欧美α片免费观看| 国产福利小视频在线播放观看| 91欧洲国产日韩在线人成| 88av在线| 国内黄色精品| 国产精品网址你懂的| 国产女人在线观看| 久久国产毛片| 美女一区二区在线观看| 日韩毛片基地| 欧美yw精品日本国产精品| 欧美天堂在线| 国产白浆一区二区三区视频在线| 国产男女免费完整版视频| 久久99久久无码毛片一区二区| 精品综合久久久久久97超人| 最新国产在线| 色综合中文字幕| 91网在线| 国产又大又粗又猛又爽的视频| 欧美亚洲激情| 亚洲天堂视频网站| 亚洲第一香蕉视频| 第一页亚洲| 久久免费精品琪琪| 久久久久人妻一区精品色奶水 | 国产一级小视频| 精品一区二区三区中文字幕| a级毛片网| 亚洲国产午夜精华无码福利| 日韩欧美国产另类| 国产成人无码久久久久毛片| 久久公开视频| 亚洲视频免| 一级成人a毛片免费播放| 亚洲午夜国产精品无卡| 欧美第一页在线| 午夜啪啪网| 欧洲欧美人成免费全部视频 | 国产在线视频欧美亚综合| 日本尹人综合香蕉在线观看| 久久久精品无码一二三区| 污网站免费在线观看| 香港一级毛片免费看| 中文无码日韩精品| 亚洲人成色77777在线观看| 国产网站免费| 狠狠色成人综合首页| 久久黄色一级视频| 国产真实乱人视频| 凹凸精品免费精品视频| 国产不卡一级毛片视频| 国产精品分类视频分类一区| 欧美天天干| 久久国产精品麻豆系列| 亚洲美女视频一区| AV网站中文| 色香蕉影院| 国产理论精品| 99在线观看精品视频| 九色在线观看视频| 亚洲天堂.com|