毛月月,張秋悅
(1.貴州師范大學(xué)大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴陽(yáng)550025;2.貴州師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,貴陽(yáng)550025)
股票市場(chǎng)是國(guó)家經(jīng)濟(jì)和金融活動(dòng)的重要體現(xiàn),在各國(guó)的經(jīng)濟(jì)發(fā)展中發(fā)揮著重要的作用,同時(shí)對(duì)于國(guó)家、企業(yè)、個(gè)人都有著重要的影響。如果能夠提前掌握股市的動(dòng)向,將會(huì)給投資機(jī)構(gòu)和投資者帶來(lái)收益。但是由于股票市場(chǎng)的不確定性和波動(dòng)性,如果股民盲目投資,將會(huì)帶來(lái)不可計(jì)量的損失。因此,股票的預(yù)測(cè)一直是一項(xiàng)具有挑戰(zhàn)性和重要意義的任務(wù)。
股票預(yù)測(cè),作為一個(gè)交叉的研究方向,數(shù)學(xué)家、經(jīng)濟(jì)學(xué)家、計(jì)算機(jī)領(lǐng)域的研究者們都在這個(gè)領(lǐng)域做了相當(dāng)多的工作。這些工作主要分為兩類,第一類方法是僅使用股票的歷史數(shù)據(jù)[1-6]去預(yù)測(cè)股市,其忽略了影響股市的關(guān)鍵來(lái)源:金融新聞和社交平臺(tái)的股民評(píng)論。近年來(lái),大數(shù)據(jù)的計(jì)算技術(shù)、人工智能等技術(shù)的發(fā)展,促使人們不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),對(duì)于非結(jié)構(gòu)化的文本數(shù)據(jù)也能很好的處理。深度學(xué)習(xí)技術(shù)的廣泛使用,使得自然語(yǔ)言處理的能力逐漸提升。越來(lái)越多的研究者開(kāi)始使用數(shù)據(jù)挖掘技術(shù)從大量金融新聞、社交媒體中挖掘重要信息,研究其和股票歷史數(shù)據(jù)的相關(guān)性,通過(guò)結(jié)合兩者一起預(yù)測(cè)股市的波動(dòng)情況,從而為股民們提供建議。下面從以上兩種方法對(duì)相關(guān)的工作進(jìn)行介紹。
金融領(lǐng)域的許多分析和假設(shè)表明,股票市場(chǎng)是可預(yù)測(cè)的。研究者們通過(guò)對(duì)過(guò)去股票市場(chǎng)的數(shù)據(jù)進(jìn)行研究來(lái)預(yù)測(cè)股市,下面介紹其預(yù)測(cè)使用的方法。
Tang C 等人[1-2]都使用分段線性表示(PLR)來(lái)確定歷史數(shù)據(jù)的波谷或波峰。前者結(jié)合高斯過(guò)程分類來(lái)預(yù)測(cè)股票價(jià)格的轉(zhuǎn)折點(diǎn)。后者結(jié)合隨機(jī)森林去分類和預(yù)測(cè)轉(zhuǎn)折點(diǎn),最后使用深度遞歸神經(jīng)網(wǎng)絡(luò)(DRNN)設(shè)計(jì)投資決策模型。
傳統(tǒng)的模型都是基于歷史數(shù)據(jù)的統(tǒng)計(jì)特征和圖像特征來(lái)分析數(shù)據(jù),其只通過(guò)默認(rèn)值固定每一個(gè)時(shí)間窗口來(lái)獲取股票數(shù)據(jù)中不同指標(biāo)的特征,這樣預(yù)測(cè)的結(jié)果精度不高。RIT Ritzmann Junior 等人[3]提出使用遺傳算法來(lái)最優(yōu)化時(shí)間窗口的值,然后使用支持向量機(jī)(SVM)來(lái)決定未來(lái)交易是購(gòu)買、持有還是出售。
傳統(tǒng)的方法大多數(shù)使用線性模型來(lái)預(yù)測(cè)股票,例如支持向量機(jī)、決策樹(shù)、隨機(jī)森林等。這種方法的優(yōu)點(diǎn)是僅使用結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)的處理比較簡(jiǎn)單且運(yùn)算速度快。這種線性統(tǒng)計(jì)模型的主要缺點(diǎn)是無(wú)法解釋各種公司股票價(jià)格之間存在的潛在動(dòng)態(tài)和關(guān)系,而且股票數(shù)據(jù)是帶時(shí)間屬性的,這種方法也不能捕獲其時(shí)序特征。
CHEN Y 等人[4]提出深度學(xué)習(xí)的方法去預(yù)測(cè)股票的變化趨勢(shì)和持續(xù)時(shí)間。使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)去提取短期的特征,使用PLR 對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分割,提取長(zhǎng)期的特征,最后通過(guò)雙重注意力機(jī)制去關(guān)注長(zhǎng)短期特征對(duì)股票預(yù)測(cè)的影響。
ZHANG K 等人[5]提出使用生成對(duì)抗網(wǎng)絡(luò)來(lái)預(yù)測(cè)股票市場(chǎng),其以多層感知機(jī)(MLP)為鑒別器,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)為生成器來(lái)預(yù)測(cè)收盤(pán)價(jià),這是一種新方法的突破,但是其僅僅和基準(zhǔn)的方法做了對(duì)比,值得繼續(xù)深入和改進(jìn)。
這種方法的優(yōu)點(diǎn)是能夠捕獲到股票數(shù)據(jù)的時(shí)序特征,缺點(diǎn)是由于僅使用單一的歷史股票數(shù)據(jù),其預(yù)測(cè)結(jié)果精度不高,忽略了突發(fā)事件對(duì)股市造成的即時(shí)影響。
股票市場(chǎng)中,股市的波動(dòng)受國(guó)家宏觀經(jīng)濟(jì)發(fā)展、法律法規(guī),以及股民的情緒等因素的影響。因此,結(jié)合歷史股票數(shù)據(jù)以及相應(yīng)的金融新聞和股民的評(píng)論進(jìn)行分析具有重要意義。基于對(duì)新聞文本的特征提取方式進(jìn)行劃分,使用的方法分為如下三個(gè)類型。
Xiao Ding 等人[6]證明了使用結(jié)構(gòu)化的事件去預(yù)測(cè)股票的有效性。其總結(jié)了前任的不足,即以前關(guān)于新聞驅(qū)動(dòng)的股票市場(chǎng)預(yù)測(cè)的工作通過(guò)詞袋模型、命名實(shí)體識(shí)別和名詞短語(yǔ)的方式提取文本特征,得到的僅是文本淺層的特征,這些特征不能捕獲結(jié)構(gòu)化的實(shí)體關(guān)系信息。其提出采用事件的結(jié)構(gòu)化表示即:E=(O1,P,O2,T),其中O1代表參與者,P 代表行動(dòng),O2代表執(zhí)行動(dòng)作的對(duì)象,T 代表時(shí)間戳,用于將股票數(shù)據(jù)與新聞數(shù)據(jù)對(duì)齊。以此來(lái)實(shí)現(xiàn)股票漲、跌的預(yù)測(cè)。
Xiao Ding 等人[7]在2015 年提出一個(gè)基于深度學(xué)習(xí)方法的事件驅(qū)動(dòng)型股票預(yù)測(cè)模型。首先,將大型的財(cái)經(jīng)新聞?wù)Z料轉(zhuǎn)換為詞向量的形式。其次,不同于文獻(xiàn)[6],這里使用神經(jīng)張量網(wǎng)絡(luò)去獲取新聞的事件表示,然后將提取到的具有時(shí)間順序的向量表示作為輸入,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)去提取長(zhǎng)、中、短期的特征,長(zhǎng)期使用30 天的數(shù)據(jù),一天的事件通過(guò)取平均值獲得。將其按照時(shí)間順序排列,設(shè)置一個(gè)滑動(dòng)窗口,同一個(gè)窗口內(nèi)的事件進(jìn)行卷積操作。之后,將所有卷積層輸出的向量進(jìn)行最大池化(獲得局部的最大特征),得到最終的長(zhǎng)期事件向量。中期時(shí)間定義為過(guò)去的一周,方法和上面類似,短期事件使直接將前一天的所有事件求平均。最終得到長(zhǎng)、中、短期的三個(gè)事件向量,將三者拼接為一個(gè)向量表示,聯(lián)系這個(gè)特征向量和股票價(jià)格,得到最后的分類結(jié)果即股票價(jià)格的漲跌。
Dev Shah 等人[8-12]都提出基于詞典的新聞情緒分析模型來(lái)研究新聞文章中情感表達(dá)對(duì)股票的影響。首先需要建立一個(gè)情感詞典,然后對(duì)新聞文本進(jìn)行情感極性分析,最后結(jié)合新聞的情感極性、股票歷史數(shù)據(jù)以及相鄰日收盤(pán)價(jià)的方差來(lái)進(jìn)行股市的預(yù)測(cè)。
Manoj S Hegde 等人[13]提出利用公司歷史股價(jià)和金融新聞及社交媒體內(nèi)容的情緒得分進(jìn)行預(yù)測(cè)。與上述方法不同的是,其使用了LSTM 模型去捕獲數(shù)據(jù)中的時(shí)間序列信息,同時(shí)還提出了基于CNN 分類器的推薦模塊,最后采用背包投資模型來(lái)使投資者收益最大化,投資最小化。
Luca Cagliero 等人[14]提出了一種將新聞信息、歷史股票價(jià)格相結(jié)合的趨勢(shì)逆轉(zhuǎn)方法來(lái)量化股票交易。文章中主要研究三個(gè)問(wèn)題,在基于分類的趨勢(shì)逆轉(zhuǎn)方法中新聞信息是否值得考慮?新聞信息對(duì)于股票預(yù)測(cè)有什么影響?什么特征應(yīng)該結(jié)合新聞情感分析去最大化趨勢(shì)逆轉(zhuǎn)的平均回報(bào)率?其使用方法也是對(duì)新聞進(jìn)行情感分析,不同的是其提出了基于股票預(yù)測(cè)分類的趨勢(shì)反轉(zhuǎn)策略。其監(jiān)控每只股票的每日收盤(pán)價(jià)格變化,以檢測(cè)用戶在持續(xù)時(shí)間的上升趨勢(shì)或下降趨勢(shì),最后針對(duì)上一步檢測(cè)到的每一個(gè)趨勢(shì),訓(xùn)練分類器以便于預(yù)測(cè)未來(lái)五天的收盤(pán)價(jià)格變化。
Ryo Akita 等人[15]提出將每一篇新聞文檔表示成一個(gè)固定長(zhǎng)度的向量,然后將所有文章的向量表示連接起來(lái),同時(shí)與經(jīng)過(guò)標(biāo)準(zhǔn)化處理的股票價(jià)格一同送入長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)中捕獲文本和股票的時(shí)序信息,最后通過(guò)回歸輸出預(yù)測(cè)值。LSTM 捕獲文本和股票的時(shí)序信息時(shí),LSTM 的輸入是文本序列和股票價(jià)格序列的連接,其存在一個(gè)問(wèn)題,即文本信息的表示維度遠(yuǎn)大于股票數(shù)值表示的維度,其容易造成文本信息對(duì)于預(yù)測(cè)的影響更大,導(dǎo)致預(yù)測(cè)精度的不平衡。為了解決這個(gè)問(wèn)題,文章提出對(duì)向量的大小進(jìn)行縮放,以使每個(gè)向量具有相同的維數(shù)。
Che-Yu Lee 等人[16]提出基于遞歸神經(jīng)網(wǎng)絡(luò)的股票預(yù)測(cè)模型,采用Word2Vec 將新聞標(biāo)題轉(zhuǎn)化為詞向量的形式,然后使用CNN 提取文本的局部特征,將提取的文本特征向量和過(guò)去的股票價(jià)格送入到LSTM 中,其可以捕獲金融新聞和價(jià)格的長(zhǎng)期時(shí)間依賴性,最后預(yù)測(cè)輸出股票類別,分別是上升、下降、持平。
結(jié)合非結(jié)構(gòu)化的文本數(shù)據(jù)(金融新聞、社交媒體數(shù)據(jù))和結(jié)構(gòu)化的歷史數(shù)據(jù)(股票數(shù)值數(shù)據(jù))來(lái)對(duì)股市進(jìn)行預(yù)測(cè)時(shí),如何從眾多文本數(shù)據(jù)中挖掘出對(duì)于股票價(jià)格影響的信息十分重要。同時(shí),如何把非結(jié)構(gòu)化的文本數(shù)據(jù)表示成輕量、精簡(jiǎn)而不失其語(yǔ)義信息的抽象特征十分重要。
以上就是對(duì)近年來(lái)股票預(yù)測(cè)方法的總結(jié),我們可以看出使用股票的歷史數(shù)據(jù)去預(yù)測(cè)股市,其忽略了市場(chǎng)波動(dòng)中金融新聞和公眾評(píng)論所造成的影響。結(jié)合歷史數(shù)據(jù)和金融新聞和公眾評(píng)論去預(yù)測(cè)股票時(shí),如何準(zhǔn)確、快速地從文本中挖掘出關(guān)鍵信息十分重要。基于深度學(xué)習(xí)的預(yù)測(cè)方法能更好地提取文本和股票數(shù)據(jù)的特征,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)其能夠捕獲數(shù)據(jù)的時(shí)序特征。
股票預(yù)測(cè)領(lǐng)域大多數(shù)是確定并跟蹤持續(xù)的價(jià)格趨勢(shì),這個(gè)趨勢(shì)在未來(lái)幾天將會(huì)持續(xù)。相反,利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)股市趨勢(shì)的逆轉(zhuǎn)的研究相對(duì)較少,未來(lái)可以在這個(gè)方向上深入研究。