宋睿
(上海海事大學(xué)信息工程學(xué)院 上海市 201306)
曾安提出使用LSTM網(wǎng)絡(luò)對股票進(jìn)行短期價(jià)格擬合,但預(yù)測周期的變長使效果極具變差[1],Kim使用CNN對股票數(shù)據(jù)生成圖片進(jìn)行特征提取[2],但是無法有效的提取股票結(jié)構(gòu)特征。黃志輝研究了CNN不同結(jié)構(gòu)對股票短期擬合的影響[3],發(fā)現(xiàn)小卷積核深層網(wǎng)絡(luò)具有更好的效果,但對稍長周期效果較差,本文提出基于CNNLSTM的股票長期趨勢預(yù)測算法,同時(shí)利用CNN和LSTM網(wǎng)絡(luò)的對結(jié)構(gòu)和時(shí)序特征提取的優(yōu)勢,對股票中長期趨勢進(jìn)行分類預(yù)測,并可以由分類評分依照歷史樣本反推新股票樣本的預(yù)期漲跌幅和趨勢。
現(xiàn)有的股票數(shù)據(jù)的特征提取大多只使用簡單的收盤價(jià)和MACD指標(biāo)。這種特征提取方法沒有考慮到特征的特點(diǎn)。本文為完成股票中長期趨勢預(yù)測任務(wù),根據(jù)文獻(xiàn)和市場經(jīng)驗(yàn),選擇價(jià)格、成交量、乖離率[4]、波動(dòng)率[5]四大類指標(biāo)并結(jié)合MACD計(jì)算方法對四大類指標(biāo)進(jìn)行長期趨勢特征提取。特征提取流程圖如圖1所示。
本文提出的CNN-LSTM股票分類網(wǎng)絡(luò)模型是基于CNN和LSTM網(wǎng)絡(luò)構(gòu)建的分類網(wǎng)絡(luò)。CNN網(wǎng)絡(luò)具有較好的空間具有局部視野和共享權(quán)值的特點(diǎn)。股價(jià)數(shù)據(jù)的局部形態(tài)特征符合局部視野和權(quán)值共享的思想因此CNN網(wǎng)絡(luò)可以提取單一LSTM網(wǎng)絡(luò)無法提取的股價(jià)形態(tài)等高度抽象的特征;股票數(shù)據(jù)是金融時(shí)間序列。LSTM網(wǎng)絡(luò)具有時(shí)序信息保留和長期記憶的能力,對于超長時(shí)間跨度的股票數(shù)據(jù)在經(jīng)過CNN處理后,時(shí)間序列變短,將CNN網(wǎng)絡(luò)的輸出作為LSTM網(wǎng)絡(luò)的輸入可以同時(shí)發(fā)揮CNN和LSTM的優(yōu)勢。softmax對多分類問題具有優(yōu)異表現(xiàn)的特性,使用 softmax分類器對股票漲跌幅進(jìn)行分類預(yù)測,不同的分類結(jié)果對應(yīng)不同的漲跌形態(tài)。網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
本文將提取2.1中提到的全部特征,應(yīng)用2.2中的CNN-LSTM網(wǎng)絡(luò),并采用平均池化的方法進(jìn)行模型訓(xùn)練。最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析。

圖1:特征提取流程圖

圖2:CNN-LSTM股票分類網(wǎng)絡(luò)結(jié)構(gòu)圖
本文選取分類準(zhǔn)確率CA(Classification Accuracy)、平均絕對誤差MAE(Mean Absolute Error)、0.96MR(Mean Ratio評分大于0.96的樣本比例)、DM(最大回撤率Drawdown Max)以及MRR(Mean Rate Of Return平均收益率)來定量的評價(jià)CNN-LSTM網(wǎng)絡(luò)模型的預(yù)測性能
分類準(zhǔn)確率CA:

平均絕對誤差MAE:

MMR(其中rise代表分類評分大于0.96樣本的真實(shí)漲跌幅):

表1:模型訓(xùn)練過程及正確率

表2:不同排序的指標(biāo)分析

表3:回推驗(yàn)證結(jié)果分析表

依照模型流程將訓(xùn)練集數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練,結(jié)果如表1:在60個(gè)epoch時(shí)模型達(dá)到最大測試集正確率86.5%。
本文將測試集樣本交由神經(jīng)網(wǎng)絡(luò)進(jìn)行分類打分。按照上漲評分,下跌評分,橫盤震蕩評分對訓(xùn)練樣本數(shù)據(jù)進(jìn)行排序,并計(jì)算每樣本的真實(shí)漲跌幅。上漲、下跌、震蕩展示圖如圖3至圖5所示: 黃線:評分;粗黑線:真實(shí)漲跌幅均線;藍(lán)點(diǎn):樣本點(diǎn);中間細(xì)黑線:漲幅為0。
觀察上漲下跌評分排序展示圖和下跌評分排序展示圖,分類評分與股票漲跌具有極強(qiáng)的相關(guān)性。如表2所示。
本文將評分大于0.96的股價(jià)樣本提取出來,按照時(shí)間順序與深證成指相對應(yīng),結(jié)果如表3所示。表格說明,高評分個(gè)股的比例對市場環(huán)境也有極強(qiáng)的表現(xiàn)能力。

圖3:上漲評分排序展示圖

圖4:下跌評分排序展示圖

圖5:震蕩評分排序展示圖
基于CNN-LSTM的股票長期趨勢預(yù)測算法可以較為準(zhǔn)確地預(yù)測到股價(jià)中期的漲跌趨勢情況,并且利用高上漲評分的股票占比可以較好地估計(jì)此時(shí)市場環(huán)境的好壞和牛熊市運(yùn)行階段,可以很好為中長線投資者提供參考。本文提出的CNN-LSTM模型對于輸入數(shù)據(jù)數(shù)量有較高要求,無法涵蓋交易日小于850日(特征抽取會(huì)剔除250個(gè)交易日的數(shù)據(jù))的新股,同時(shí)不能預(yù)測短期趨勢,無法滿足短線投資者的需求。本文會(huì)繼續(xù)改進(jìn)算法,嘗試對短期趨勢和漲跌幅進(jìn)行預(yù)測。