[摘 要]金融風(fēng)險(xiǎn)的防控一直是國家重點(diǎn)聚焦的戰(zhàn)略對象,股市作為金融市場的子市場,其風(fēng)險(xiǎn)也不容忽視。在對股市的研究中,傳統(tǒng)的金融理論往往基于有效市場理論,認(rèn)為投資者都是理性人,但實(shí)際上投資者由于認(rèn)知偏差,個人風(fēng)險(xiǎn)偏好等原因,往往會作出非理性的決策。同時,由于近年來網(wǎng)絡(luò)迅速發(fā)展,大量投資者在股票論壇等發(fā)表自己的投資意見,這些網(wǎng)絡(luò)文本中蘊(yùn)含著豐富的金融市場信息。結(jié)合以上兩點(diǎn),文章采用自然語言處理中的情緒分析方法,通過分析一段時間內(nèi)的投資者評論得出對應(yīng)的情緒指標(biāo),將投資者情緒指標(biāo)與傳統(tǒng)的股票市場指標(biāo)相結(jié)合,基于LSTM構(gòu)建改進(jìn)的股價(jià)預(yù)測模型,以供參考。
[關(guān)鍵詞]股價(jià)預(yù)測;投資者情緒;LSTM
中圖分類號:F224 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-1722(2024)16-0082-03
★基金項(xiàng)目:2023年東南大學(xué)國家級SRTP項(xiàng)目《企業(yè)公告情感挖掘與股票價(jià)格預(yù)測研究——基于機(jī)器學(xué)習(xí)算法》(202310286076Z)
股票市場作為我國金融市場的重要組成部分,充當(dāng)著國民經(jīng)濟(jì)“晴雨表”的角色。對股票市場的研究可使人們更加了解宏觀經(jīng)濟(jì)情況及市場變化情況。股票數(shù)據(jù)是十分典型的時序數(shù)據(jù),關(guān)于其預(yù)測問題已有大量的學(xué)者進(jìn)行研究。近年來,有學(xué)者發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)作為復(fù)雜的非線性模型,在處理隨機(jī)且高噪聲的數(shù)據(jù)時表現(xiàn)出較好的效果。同時,隨著互聯(lián)網(wǎng)的飛速發(fā)展,大量投資者開始積極在互聯(lián)網(wǎng)分享投資意見,形成了蘊(yùn)含著豐富金融信息的自然語言資源,通過對其進(jìn)行分析,可以掌握投資者情緒的變化情況,從而為股價(jià)預(yù)測提供有效的新型指標(biāo)。
Jonathan L.Ticknor在2013年提出了一種貝葉斯正則化人工神經(jīng)網(wǎng)絡(luò)作為預(yù)測金融市場行為的新方法。市場價(jià)格和金融技術(shù)指標(biāo)被用作預(yù)測個股收盤價(jià)的輸入。貝葉斯正則化網(wǎng)絡(luò)為網(wǎng)絡(luò)權(quán)重分配了概率性質(zhì),提高了網(wǎng)絡(luò)的預(yù)測質(zhì)量和泛化性。Ha Young Kim等人在2018年提出了一種新的混合長短期記憶(LSTM)模型預(yù)測股票價(jià)格波動,該模型將LSTM模型與各種自回歸條件異方差型模型相結(jié)合,顯著提高了預(yù)測的準(zhǔn)確率。彭燕、劉宇紅、張榮芬在2018年基于LSTM模型對股價(jià)進(jìn)行建模預(yù)測與分析,對比不同神經(jīng)元個數(shù)與LSTM層數(shù)的模型的準(zhǔn)確率,找到了一種復(fù)雜度與準(zhǔn)確率適中的預(yù)測模型[ 1 ]。近年來,有學(xué)者將LSTM模型與其他神經(jīng)網(wǎng)絡(luò)模型結(jié)合,利用不同神經(jīng)網(wǎng)絡(luò)的特點(diǎn)處理股價(jià)數(shù)據(jù)[ 2 ]。趙紅蕊、薛雷在2019年提出了一種在結(jié)合LSTM和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上引入注意力機(jī)制的股票預(yù)測混合模型,該模型使用LSTM提取數(shù)據(jù)中的時序特征,利用CNN挖掘數(shù)據(jù)中的深層特征,有效提升網(wǎng)絡(luò)的特征提取能力[ 3 ]。
(一)無監(jiān)督的學(xué)習(xí)方法
無監(jiān)督的學(xué)習(xí)方法以詞典法為典型代表,該種學(xué)習(xí)方法需要預(yù)先構(gòu)建一個詞典,再統(tǒng)計(jì)所分析文本中各個詞出現(xiàn)的次數(shù),通過對不同詞語的情感進(jìn)行加權(quán),獲取情緒指標(biāo)。但是由于互聯(lián)網(wǎng)快速發(fā)展,股市評論中新詞不斷涌現(xiàn),詞典很難及時更新這些新詞,所以詞典法的預(yù)測效果欠佳[ 4 ]。
(二)有監(jiān)督的學(xué)習(xí)方法
有監(jiān)督的學(xué)習(xí)方法又可分為機(jī)器學(xué)習(xí)方法及深度學(xué)習(xí)方法,常見的機(jī)器學(xué)習(xí)方法包括SVM(支持向量機(jī))、樸素貝葉斯方法等。常見的深度學(xué)習(xí)方法包括RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、LSTM(長短期記憶模型)。有監(jiān)督的學(xué)習(xí)方法原理相似,一般都是對文本進(jìn)行分詞,再將每一句話的分詞結(jié)果轉(zhuǎn)化成向量,對該向量進(jìn)行處理。例如SVM模型會將產(chǎn)生的向量投影到高緯度,然后對其進(jìn)行劃分[ 5 ]。
(三)基于AI的分析方法
近年來,AI技術(shù)迅速發(fā)展,以ChatGPT為代表的大模型迅速崛起,AI大模型得益于其驚人的特征維度,模型規(guī)模與訓(xùn)練語料庫,在情感分析領(lǐng)域的準(zhǔn)確率遠(yuǎn)高于只有若干個層數(shù)、且訓(xùn)練數(shù)據(jù)很少的LSTM等模型。文章采用了百度智能云中的自然語言處理模型進(jìn)行情感分析,達(dá)到了很高的準(zhǔn)確率。

(一)輸入特征的選擇
股價(jià)的影響因素有很多種,常見的主要影響因素包括開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、成交量、換手率六大因素[ 6 ],由于換手率在一定程度上代表了投資者信心,會對文章構(gòu)建的情緒指標(biāo)產(chǎn)生交叉影響,所以不選用該指標(biāo)。
(二)模型結(jié)構(gòu)及參數(shù)
LSTM模型包括輸入層、輸出層、隱藏層、全連接層等,主要參數(shù)為輸入維度、輸出維度、LSTM堆疊層數(shù)、隱藏層節(jié)點(diǎn)數(shù)、時間步長、訓(xùn)練次數(shù)等。本模型選取輸入維度為5,選取輸出維度為1,輸出收盤價(jià)這一預(yù)測值。

(一)基于普通股價(jià)指標(biāo)的預(yù)測模型
文章選取了格力電器從2024年2月1日到2024年4月30日的股價(jià)數(shù)據(jù),每行數(shù)據(jù)都包含上文提到的六個特征,同時,為了對比文章構(gòu)建的融合了情緒指標(biāo)的LSTM模型,文章用前兩天的數(shù)據(jù)的均值代替停盤日的數(shù)據(jù),最終構(gòu)建出90天的股價(jià)數(shù)據(jù)。文章采用Max-Min方法對數(shù)據(jù)進(jìn)行歸一化處理。同時將數(shù)據(jù)集的80%劃分為訓(xùn)練集,20%劃分為測試集,輸入模型進(jìn)行實(shí)證檢驗(yàn),最終得到的實(shí)驗(yàn)結(jié)果如圖1所示。實(shí)驗(yàn)證明,該模型在時序數(shù)據(jù)預(yù)測方面效果較好,可以應(yīng)用在股價(jià)預(yù)測中。
(二)融合情緒指標(biāo)的股價(jià)預(yù)測模型
目前常見的投資者情緒指標(biāo)是由Antweile和Frank提出的指標(biāo),公式如下所示。

其中,Mt代表在某時間段內(nèi)所有正負(fù)觀點(diǎn)的帖子的加和,該指標(biāo)不僅考慮投資者的看漲看跌程度,而且包括投資者關(guān)注度,融合情感指標(biāo)的預(yù)測模型結(jié)構(gòu)圖如圖2所示。
在股吧選取的股票評論數(shù)據(jù)中進(jìn)行AI模型情感分析,得出投資者情緒指標(biāo),將其與五個常規(guī)股價(jià)指標(biāo)以日期為索引進(jìn)行結(jié)合,再輸入LSTM預(yù)測模型,得出預(yù)測結(jié)果如圖3所示。
對比得出,在其他參數(shù)不變的情況下,加入情感指數(shù)能夠有效提升模型的準(zhǔn)確率,這也證實(shí)了文章構(gòu)建的情緒指標(biāo)的有效性。
文章旨在通過分析股票市場論壇的評論來提取投資者情緒指標(biāo),驗(yàn)證該指標(biāo)在股價(jià)預(yù)測領(lǐng)域中的有效性。文章首先選取了格力電器吧的9000余條評論,選用百度智能云進(jìn)行情感分析,其預(yù)測準(zhǔn)確率能達(dá)到90%左右,證明了該方法的有效性與便捷性。在預(yù)測模型改進(jìn)方面,文章構(gòu)建了傳統(tǒng)的LSTM模型,以開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、成交量五個特征作為輸入數(shù)據(jù),預(yù)測收盤價(jià)。實(shí)驗(yàn)結(jié)果顯示,模型的決定系數(shù)約在0.62左右。然后,文章構(gòu)建了情緒指標(biāo),將此指標(biāo)作為特征輸入LSTM模型,結(jié)果顯示,加入情緒指標(biāo)后,模型的決定系數(shù)從0.62提高到0.74,證明了投資者情緒指標(biāo)的加入確實(shí)有利于模型預(yù)測能力的提高。但是需要說明的是,文章對模型輸入特征量的說明較少,沒有探討加入其他特征是否會提高模型準(zhǔn)確率,這一方面需要進(jìn)一步改進(jìn)。

[1]彭燕,劉宇紅,張榮芬.基于LSTM的股票價(jià)格預(yù)測建模與分析[J].計(jì)算機(jī)工程與應(yīng)用,2019(11):209-212.
[2]Babu,C.N.,& Reddy, B. E.A moving-average filter based hybrid ARIMA-ANN model for forecasting time series data. APPLIED SOFT COMPUTING,2014.
[3]趙紅蕊,薛雷.基于LSTM-CNN-CBAM模型的股票預(yù)測研究[J].計(jì)算機(jī)工程與應(yīng)用,2021(03):203-207.
[4]Cao,L.J.,& Tay, F. E. H.Support vector machine with adaptive parameters in financial time series forecasting. IEEE TRANSACTIONS ON NEURAL NETWORKS, 2003.
[5]Enke,D.,& Thawornwong, S.The use of data mining and neural networks for forecasting stock market returns.EXPERT SYSTEMS WITH APPLICATIONS,2005.
[6]許興軍,顏鋼鋒.基于BP神經(jīng)網(wǎng)絡(luò)的股價(jià)趨勢分析[J].浙江金融,2011(11):57-59+64.