999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合文本情感、主題、社交特征和深度學習的股價預測方法

2020-01-04 07:08:04陳媛先
管理學家 2020年19期

陳媛先

[摘 要] 文章旨在提出一種結合文本數據情感值、文本主題、社交數據,并基于深度學習算法LSTM模型(Long-Short Term Memory,長短期記憶網絡)的股價預測方法。文章通過將情感測量值豐富到6種,特別是測量了情感分歧值(情感值標準差),為情感參與股價預測提供了新的特征值。同時,將社交數據(文本的閱讀數、點贊數)納入模型中,考慮到了社交影響因素。在此基礎上,文章將文本的主題因素納入股價預測中,最終形成情感、主題、社交相結合的豐富文本特征集。基于OLS回歸,首先驗證了情感、主題、社交等特征和股價的相關性,然后,使用LSTM算法對特征與預測值進行了模型訓練,最后基于訓練好的模型對樣本進行了回測。從回測結果看,增加了情感和主題后,模型具有良好的預測能力,對下一天收盤價的預測誤差控制在0.5元以內。

[關鍵詞] 文本情感;文本主題;LSTM;社交特征;股價預測

中圖分類號:TP391.1 文獻標識碼:A

使用文本信息進行股票走勢預測的研究越來越常見,在使用到的文本信息中,個股新聞和財報(徐偉, 李韻喆. 2015; 張夢吉, 杜婉鈺, 鄭楠. 2019; 楊陽. 2015)是比較常用到的一種文本信息[1-3]。此外,社交文本也成為重要的分析信息來源,比如,微博文本(朱夢珺, 蔣洪迅, 許偉. 2016; 張棟凱, 齊佳音. 2015)[4-5]。

在使用文本信息進行股價預測的時候,主要的分析方向有甄別市場情緒、分析主題、分析文本的傳播效果等。大部分的研究通過其中1種或者2種方向來對股市做分析和預測。其中,情感、情緒結合股價分析是最常見的一種文本信息挖掘和使用的思路。盡管當前已經有不少研究成果,但是,我們認為當前的研究仍然存在不足,在本文中,我們將提出一種更深度利用文本信息預測股價的方式。

我們認為,現有結合情感、主題的預測方法主要不足在于:1、情感值參與預測時候僅考慮情感方向、情感強度,沒有體現情感的波動。而在同一個文本中(如一個討論特定話題的帖子),參與者不同,情感有差異,這種差異在傳統的情感使用中被抹殺了,只考慮整體的情感方向和數值,本文增加考慮同一個文本中,不同情感表達的差異性,以正向方差、負向方差的方式進行體現。2、當前情感和主題參與預測時候,不考慮社交因素,本文將文本獲得的關注度或者影響面加入了考慮,以文本被閱讀、被點贊的數據參加模型預測。3、LDA和情感結合使用的時候,目前技術主要是使用LDA來提升對情感分類的準確性,在本文中,我們將情感和主題都當作獨立的特征值,參與到LSTM算法模型的預測中。4、當前技術在結合情感進行股價預測的時候,主要使用SVM等傳統分類方法進行,本文在算法選擇上主要選擇LSTM算法。

在文章中,我們將針對如上提到的不足進行優化,主要創新在于,第一、豐富了情感的測量。在納入到股價預測中的情感指標中,不僅僅考慮了情感值的正負向、情感值的大小,還考慮了情感的波動(每個討論的情感波動,包括正向情感標準差,負向情感標準差);第二、考慮了社交特征,將文本的閱讀數、點贊數加入到預測模型中,將文本的影響面考慮到,并納入估計預測模型中;第三、對股吧本文信息進行了主題挖掘,將發現的主題以新的特征加入到預測模型中。

我們的重要發現包括:基于OLS回歸,我們發現:情感值的多少(評論內容)和價格、交易量、交易金額不相關。相對來說,當天積極方向的情感平均值意味著10天后股價的下降。 積極方向的情感值標準差往往意味著股價在未來的上漲。而消極方向的情感值得標準差往往意味著股價在5-10天會下降。消極情感標準差值還和未來10天內的成交股數、成交金額負相關。社交帖子瀏覽數(Read)和未來成交股數、成交金額呈現顯著正相關關系,而和未來股票價格存在顯著負相關關系,意味著投資者多瀏覽帖子和后續的交易選擇存在相關性,更大的可能性是在在決定是否買入的環節多瀏覽帖子會促進購買,而在出售環節,如果多參考網友意見,也會加快出售。即,投資者在買入新股和售出股票環節,都會受到網友的影響。而主題4和主題5的匹配會促進成交股數和成交金額,但是,和股價的顯著下降也相關,因此,可以看到主題4和主題5的匹配主要影響股票出售策略。即,討論如果圍繞實業經營、產業周期等,意味著未來交易放量、成交活躍相關但是股價下降。主題1促進促進成交股數、交易金額和股價同步下降,即,交易萎縮、價格下降。主題3和收盤價上漲相關。主題2主要和未來10天的開盤價下跌有關。而在我們挖掘的股吧內容中,主題4和主題5主要涉及實業經營、產業更相關,而主題1、主題2和主題3主要和股票的技術走勢相關。

在OLS驗證了特征與未來股票交易存在相關性后,我們將特征引入到深度學習中,使用LSTM算法,對特征進行學習,訓練合適的模型。我們發現,在LSTM預測股價的模型中引入情感、主題特征后,不管是在預測短期1天的股價,還是相對更長時間,比如10天的股價方面,模型的預測精準度都顯著提高,這有效證明豐富的情感特征、文本主題特征對股價預測具有有效的作用。

一、文獻綜述

情緒結合股價進行分析和預測的方法已成為一種重要的股票分析方法。常見的分析思路如:分析投資者情緒和回報率之間的關系(Baker M , Wurgler J. 2004;Wurgler J A , Baker M P. 2006;Gregory, W, Brown,et la. 2004. Sun L , Zhang L . 2017)[6-10]。隨著自然語言處理技術(NLP)的發展,國內學者在這個領域的研究也在快速推進當中,利用金融文本進行情感和股價關聯分析的文章近些年也開始增多(王鴻睿, 朱青. 2010; 馬馳宇2016) [11-12] 。

在文本和股價的研究中,投資者情緒的分析是一種常見的文本分析思路。一般來說,用于挖掘的文本有三類:第一類是泛文本數據,如微博論壇的社交評論文本數據。第二類是財經相關社交評論文本數據,如股吧文本數據。孟志青, 鄭國杰, 趙韻雯(2018)采用東方財富股吧文本進行研究。他們結合詞典,分析投資者情緒,然后基于AKMA-GARCH方法進行個股收益率預測,發現情緒對收益有短期影響,而收益率對情緒具有長期影響[13]。第三類是財報類數據,這是最正式的一種文本數據。孫伯維(2020)就通過挖掘年報文本,提煉相關特征用于進行股價預測[14]。

文本主題是通過構建文檔、主題、詞語三級概率分布的模式來對文本進行描述,這種方法已經廣泛應用到金融分析中。徐翔, 靳菁, 呂偉欣(2018)基于LDA的方法來挖掘網絡輿情,并且將分析到的網絡輿情作為社會的傳感器,用于預測股指走向(漲跌)。在他們的分析中,使用了支持向量機(SVM)的方法進行分類。該篇文章主要是單獨使用主題分析方法來預測股市的研究[15]。涂帥(2018)在他的博士論文中將網絡輿情和股票信息進行量化結合,構建了股票價格變化率的預測模型,這是利用文本信息進行股票價格預測的嘗試。主題分析的思路除了在股票應用外,在其他領域的研究也開始有所研究,證明這種分析方法的廣泛可行性[16]。花樹雯(2019)在她的博士論文中,使用LDA主題模型的方法分析患者情感。她使用的文本信息主要來自患者留言本,在對文本信息做出情感極性分析的基礎上,進行主題分析。在她的方法中,結合了LSTM的機器學習方法[17]。

在投資者情緒分析方面,情感結合文本主題的方法逐漸得到大家的認可。何永繼(2016)在他的博士論文中研究了基于文本信息進行股票預測的方法。他基于微博內容,對財經類微博用戶的情感進行分析,同時結合關鍵詞和主題分析方法,構建股票的預測方法[18]。延豐,杜騰飛, 毛建華(2017)提出了基于情感詞典和主題預測股價的方法。在他們的方法中,使用了情感詞典來分析文本情感,包括情感的傾向、程度和相關度。在方法上,他們主要采用基于機器學習的算法,包括SVM和K-mean算法。同時,他們對文本計算了主題概率分布,最后通過結合情感+主題的方法來預測股市[19]。

LSTM(Long Short Term Memory networks)是深度學習的一種算法,在處理時序性數據上獨具優勢。LSTM的優勢在于在它的算法中通過sigmoid函數對信息進行了特殊的控制,即“門”的機制。在LSTM算法中,一共有三種特殊的控制“門”,分別為:遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。其中,遺忘門決定在運算中拋棄哪些信息;輸入門用于決定保存的信息,而輸出門決定輸出的隱函數。

LSTM原理如下圖1:

如圖1所示,LSTM算法最上層C線用于控制信息的增刪,它是一個核心。模型中涉及到的參數如下:

h:神經元細胞的計算結果

X:輸入向量

C:細胞狀態

H:神經原細胞輸出的隱向量

f:遺忘門

i:門

o:輸出門

LDA(Latent Dirichlet Allocation)是機器學習領域重要的算法模型。Blei, David M.、Ng, Andrew Y.、Jordan, et al. (2012)提出LDA的文本分析方法后[6],該方法迅速成為重要的文本分析方法,結合經濟的很多相關分析也開始嘗試使用該方法進行使用。

LDA分類的對象是文本-詞-主題,通過LDA的算法,可以對海量文本構建文本-主題-詞的概率分布,示意圖如圖2:

如圖2所示,在計算文本-主題-詞概率分布的時候,有兩個基本的步驟,從α到θ的過程為構建文檔-主題的概率過程(Z,其中m和n分別代表文檔編號和主題編號),得到p(topic|doc)。而β到Ψ為構建主題-詞的過程(w),得到詞匯信息,得到p(word|topic)。通過不斷迭代、收斂,可以得到最優的θ和Ψ組合。計算公式如下:

二、理論構建和技術處理

盡管有文章已經嘗試通過情感和主題的方法來進行股價預測,但是普遍有不足在于:

首先,在情感上沒有測量上,普遍測量的情感值只包括情感方向(正向、反向),部分研究考慮了情感的極性(比如,-7代表極強的負向情感,0代表中性,而+7代表極強的正向情感)。但是,我們認為情感的波動率體現了大眾對特定事情的看法差異性,這種差異性如果沒有納入到考慮中,而只是采用一種平均的方向或者強度來替代,可能會抹殺意見分歧帶來的未來變動可能。此外,分析的文本也大部分是基于微博等大眾社交平臺,而不是專業的股票社交平臺文本。

此外,在情感值得計算上,一般按天將所有內容進行合并,然后得到得是一個綜合的,并不考慮每個具體內容對應的社交影響力。我們認為,如果拋棄了社交信息建模,實際是漏掉了關鍵的信息,可能會導致模型誤差更大,因為即使2個文本情感值一樣,但是觀看和點贊的人數不一樣,代表這2個文本塊的社會影響力是存在差異的,這種差異性如果不考慮,就會可能出現中重要特征的遺漏。

基于此,我們想構建一個完整的基于文本情感、主題、社交的股票預測模型,并且采用LSTM的方法來進行計算和預測。在構建模型前,我們需要考慮的問題有:

問題一,股吧文本很多,如何處理不同的文本,合并還是單個帖子處理?在同一個社交帖子中,不同的人針對同一個帖子的討論主題可能具有不同的情感傾向,集合起來,一個帖子里面,整體的情感波動如何測量?哪些情感特征對股價具有預測意義?

問題二,在不同的社交文本中,即使情感值是類似的,但是文本指向的主題不同,可能對股價影響的權重是有差異的。比如,一個文本涉及的是公司財務做假,一個涉及的是公司銷售客服質量,兩個即使情感相似,但是因為主題差異很大,在影響股價方面可能是有差異的。因此,如何將文本涉及的主題結合到股價預測中?

問題三,文本在社交方面的實際覆蓋程度,可能會導致在同樣情感和主題下,文本對股價的預測能力有差異。比如,一段文本只有1個人觀看,另一段文本可能有100個人觀看,那么即使這兩個文本的情感值和涉及到的主題一樣,那么對股價的預測影響也是不一樣的。如何將這種差異性考慮到股價預測模型中?

問題四,采用何種機器學習的算法進行預測?因為股票的價格具有一定的時序性質,因此,考慮時序性的算法可能會更具有優勢。

實際上,在情感處理上,我們將同一個討論主題下的所有文本內容進行匯總,然后基于自有的情感詞典進行情感測量。在我們的情感詞典結構如下圖4所示:

積極詞匯如好、美、不錯等,而消極詞匯為糟糕、郁悶等。否定詞如:不,非、無、勿等。程度詞為極端、非常、特別、絕對等表達程度的詞匯。在計算帖子情感詞邏輯中,我們的處理邏輯如下圖4所示:

通過如上處理,我們可以在文字中得到積極情感詞和消極情感詞的數字序列,將序列進行計算,得到加總值(Pos,Neg)、平均值(AvePos,AveNeg)和標準差(StdPos,StdNeg)。

在文本主題處理上,我們做了取舍,只考慮前5個主題和前10個詞語。即,將所有文本中(單個帖子的匯總文字)涉及到得最重要得主題進行挖掘,得到文本的主題和每個主題下的重要詞語。

在社交特征方面,我們將帖子對應的的點贊、閱讀數據作為單獨的字段加入預測模型的特征值序列中。

在模型算法上,我們選擇LSMT(Long-Short Term Memory)作為支撐算法。LSTM(長短期記憶網絡),是一種時間循環神經網絡。LSTM通過輸入門、遺忘門、輸出門的設置,在處理和預測時間序列中間隔和延遲非常長的重要事件方面具有獨特的優勢。考慮到涉及不同情感和不同主題的討論文本在真實的環境中可能延續不同的時間,LSTM是一個比較好的選擇。最終完整的預測流程如下圖5:

三、實證分析

(一)數據和處理過程

我們從tushare拉取了東方雨虹(股票代碼為:002271)歷史股價數據,數據格式為天, 數據字段包括時間(天)、開盤價(open)、收盤價(close)、最高價(high)、最低價(low)、股價變動(change)、股價漲跌幅(pct_change)、前一天收盤價(pre_ close)、成交手數(vol)、成交量(amount)。

我們的文本數據來自某股吧論壇。我們爬取了東方雨虹(股票代碼為:002271)股吧的討論帖子,一共9076多個帖子。爬取關于東方雨虹股票歷年社交評論的文本數據,包括:文本內容、對應社交文本當前最新的閱讀數量、被點贊數量,每類數據為1列,分別設置字段為Text、Read、UP_vote。每個文本數據賦予獨立ID,ID按照時間(天)順序,從1開始編號,為1,2,….,依次編號。

我們首先對文本數據(帖子內容)進行處理,處理過程為:分詞(結巴工具)、進行主題分析(基于LDA,分析的參數設置為:主題5個,每個主題10個詞語),得到前5個主題和對應詞,如下:

主題1對應詞匯:”大宗”“解禁”“拋出”“吸回”“誘多”“下車”“崩盤”。

主題2對應詞匯:“見底”“腰斬”“老股民”“納斯達克”“領先”“不同”“相似”“意味著“。

主題3對應詞匯:“飛天”“下車”“邏輯”“倉位”“崩盤”“一半”“后市”“前天”“優秀“。

主題4對應詞匯:“科技”“5g”“產業”“周期”“中長期”“進軍”“世界”“資本”“安全”“現金流”“裁員“。

主題5對應詞匯:“頂背離”“臥倒”“安全”“研究”“智能”“背離”“理論”“邊緣”“工程”“護盤”“macd”。

可以看到,主題4和主題5討論話題和實業經營、產業更相關,而主題1、主題2和主題3主要和股票的技術走勢相關。

在此基礎上,我們創建了5個新的字段:Topic1,Topic2,Topic3,Topic4和Topic5,然后分別賦值,賦值邏輯如下:

如果當前文本(Text)涉及主題1中任何一個詞語,則Topic1賦值為1,否則為0;

如果當前文本(Text)涉及主題2中任何一個詞語,則Topic2賦值為1,否則為0;

如果當前文本(Text)涉及主題3中任何一個詞語,則Topic3賦值為1,否則為0;

如果當前文本(Text)涉及主題4中任何一個詞語,則Topic4賦值為1,否則為0;

如果當前文本(Text)涉及主題5中任何一個詞語,則Topic5賦值為1,否則為0;

接著,我們將文本數據(帖子內容)進行情感分析,處理過程為:分詞(結巴工具)、情感分析。在處理帖子的時候,首先將單個帖子的所有評論匯總,然后分析帖子內容的情感值。在情感值分析上,對內容進行了如下情感值處理:

首先識別分詞后詞向量中有的情感詞,是積極詞匯還是消極詞匯,如果是積極詞匯,則賦值1,消極詞匯賦值-1。情感詞匯的識別按照詞典方式進行管理。然后識別是否情感詞詞有反轉,如果在情感詞前面有強化助詞,如非常、太等,會對情感詞進行加權,加權分四級,如非常、很、更、通常,加權分數為4,3,2,1。四級強度詞依據詞典進行加權。

通過以上處理,在一個帖子內容中,我們可以得到多個情感詞和對應分值。我們將情感數值按帖子內容處理得到如下情感指標:正向情感值累加值、負向情感值累加值、正向情感標準差、負向情感標準差、正向情感平均值、負向情感累加值, 分別對應字段為:Pos、Neg、AvePos、AveNeg、StdPos、StdNeg。

最后我們合并股價數據、主題數據、情感數據、社交數據依據ID進行匯總,得到包含如下字段的文件。

至此,我們的數據處理部分完成。樣本總量為9076,單個帖子積極情值最高為2980000,消極情感值為1850000。所有帖子的平均積極情感值為442.655,消極情感值為251.143。因此,在所有帖子中,積極的情感詞比消極的情感值要高。情感波動方面,積極情感值的波動率為251.143,而消極情感值波動率為152.332,即,在積極情感方面看法差異較大。帖子的平均閱讀數量為2127.626,因此股吧帖子的瀏覽還是比較大的。點贊平均值為1.29,大部分的帖子是沒點贊。涉及到主題1的帖子占77.1%,涉及到主題2的帖子為68.1%,涉及主題3的帖子為37.4%,涉及主題4的為24.4%,涉及主題5的為38.7%。因此,大部分的帖子討論的還是技術走勢,涉及主題4和5,即實業和長遠經營的帖子占比較低。開盤價平均為26.502,收盤價平均為27.061,收盤價平均為26.526。日成交量平均204000,日股價漲跌幅在-2.17%和3.28%之間,日價格最高波動為跌-7.987和漲10.025元,平均變動了18.2%。

(二)特征相關性驗證-基于OLS回歸

在實證部分,我們驗證情感指標、主題指標和社交指標與未來股價、交易量和交易金額的相關性。我們主要在控制了前一天交易數據基礎上進行分析,前一天交易數據的變量包括開盤價(open)、最高價(high)、最低價(low)、收盤價(close)、成交股數(vol)、交易金額(amount)、漲跌幅(change)和股價變動(pct_ chg)。

驗證情感指標、主題指標和社交指標與未來股價(收盤價)的相關性采用簡單OLS回歸,回歸結果見表1。

從表2可以看到,情感值的總和(logPos, logNeg)對未來1天(next1day_close)、未來5天(next5day_ close)和未來10天(next10day_close)的收盤價無顯著相關性。當天的情感波動是標準差是正的,和未來1天的收盤價無顯著相關關系,但是和未來5天及10天的股價是顯著正相關的。當天的情感波動是標準差是負的,和未來1天的收盤價無顯著相關關系,但是和未來5天及10天的股價是顯著負相關的。

當天社交帖子的閱讀數顯著增多,和未來1天的收盤價是顯著正相關關系,而和未來5天、10天的股價顯著負相關。當天社交帖子的點贊數顯著增多,則和未來1天的收盤價顯著負相關,但是和未來5天和10天的股價無任何相關關系。

當天的社交帖子內容如果匹配到Topic1,則和未來5天股價顯著負相關。當天的社交帖子內容如果匹配到Topic2,和未來1天、5天、10天收盤價無顯著相關性。當天的社交帖子內容如果匹配到Topic3,和未來5天收盤價顯著正相關。當天的社交帖子內容如果匹配到Topic4,和未來5天、10天收盤價顯著負相關。當天的社交帖子內容如果匹配到Topic5,和未來5天收盤價顯著負相關。

從表2可以看到,情感值的總和(logPos, logNeg)對未來1天(next1day_open)、未來5天(next5day_open)和未來10天(next10day_open)的開盤價影響都是不顯著的。情感值平均值 logAvePos, logAveNeg總,積極的情感平均值和未來10天的開盤價是負相關的,但是消極的情感平均值和未來開盤價不相關。當天的情感波動是標準差是正的,和未來1天、未來5天及10天的開盤價是顯著正相關的。當天的情感波動是標準差是負的,和10天的開盤價是顯著負相關的。

當天社交帖子的閱讀數顯著增多,和未來1天、未來5天、10天的開盤價顯著負相關。當天社交帖子的點贊數顯著增多,則和未來1天、未來5天和10天的開盤價無任何相關關系。

當天的社交帖子內容如果匹配到Topic1,則和未來1天、5天開盤價顯著負相關,但是和未來10天開盤價無顯著相關性。當天的社交帖子內容如果匹配到Topic2,和未來10天開盤價顯著負相關,但是和1天、5天的開盤價無顯著相關性。當天的社交帖子內容如果匹配到Topic3,和未來1天、5天開盤價顯著正相關,但是和未來10天開盤價不相關。當天的社交帖子內容如果匹配到Topic4,和未來5天、10天開盤價顯著負相關,和未來1天不相關。當天的社交帖子內容如果匹配到Topic5,和未來5天開盤價顯著負相關。

從下表3可以看到,當天的情感波動是標準差是負的,和10天的成交股數VOL是顯著負相關的, 情感的其他指標和未來1天(next1day_vol)、5天(next5day_ vol)和10天(next10day_vol)的成交股數VOL均無顯著相關性。

當天社交帖子的閱讀數顯著增多,和未來1天、未來5天的成交股數VOL顯著正相關。當天社交帖子的點贊數和未來1天、未來5天、未來10天的成交股數VOL無顯著相關性。

當天的社交帖子內容如果匹配到Topic1,則和未來1天、5天、10天成交股數VOL顯著負相關。當天的社交帖子內容如果匹配到Topic4,和未來0天成交股數VOL顯著正相關,和未來1天、5天無顯著相關性。當天的社交帖子內容如果匹配到Topic5,和未來5天、10天的成交股數VOL顯著正相關。當天的社交帖子內容如果匹配到Topic2和Topic3,則和未來1天、5天和10天的當天成交股數VOL無顯著相關性。

從下表4可以看到,當天的情感波動是標準差是負的,和未來5天、10天的成交金額Amount是顯著負相關的, 情感的其他指標和未來1天、5天和10天的成交金額Amount均無顯著相關性。

當天社交帖子的閱讀數顯著增多,和未來1天的成交金額Amount顯著正相關。和未來5天的成交金額Amount顯著負相關。當天社交帖子的點贊數和未來10天的成交金額Amount顯著正相關。

當天的社交帖子內容如果匹配到Topic1,則和未來5天、10天成交金額Amount顯著負相關。當天的社交帖子內容如果匹配到Topic5,和未來5天、10天的成交金額Amount顯著正相關。當天的社交帖子內容如果匹配到主題,則和未來1天、5天和10天的當天成交金額Amount無顯著相關性。

注:顯著性標準為*** p<0.01, ** p<0.05, * p<0.1

從以上分析,我們可以觀察到一個現象,情感值的多少(評論內容)和價格、交易量、交易金額不相關。相對來說,當天積極方向的情感平均值意味著10天后股價的下降。積極方向的情感值標準差往往意味著股價在未來的上漲。而消極方向的情感值得標準差往往意味著股價在5-10天會下降。我們認為情感標準差體現的是意見的差異,意見差異大,意味著分歧多,而積極和消極兩個方向的標準差體現的是哪個方向的合理更大些,因此,和股價的趨勢存在一定的相關性。消極情感標準差值還和未來10天內的成交股數、成交金額負相關。

社交帖子瀏覽數(Read)和未來成交股數、成交金額呈現顯著正相關關系,而和未來股票價格存在顯著負相關關系。意味著投資者多瀏覽帖子和后續的交易選擇存在相關性,更大的可能性是在在決定是否買入的環節多瀏覽帖子會促進購買,而在出售環節,如果多參考網友意見,也會加快出售。即,投資者在買入新股和售出股票環節,都會受到網友的影響。

Topic4和topic5的匹配會促進成交股數和成交金額,但是,和股價的顯著下降也相關,因此,可以看到topic4和topic5的匹配主要影響股票出售策略。即,討論如果圍繞實業經營、產業周期等,意味著未來交易放量、成交活躍相關但是股價下降。Topic1促進促進成交股數、交易金額和股價同步下降,即,交易萎縮、價格下降。Topic3和收盤價上漲相關。Topic2主要和未來10天的開盤價下跌有關。

(三)基于深度學習LSTM算法的模型訓練和預測結果

我們采用Pytorch框架進行機器學習,選擇的算法是LSTM。因為樣本量較少(處理為天后,樣本量只有367個),我們將樣本劃分為訓練集和預測集,各自比例為0.94和0.06。作為特征進行學習的字段包括:Pos、Neg、AvePos、AveNeg、StdPos、StdNeg、Read、UP_vote、Topic1,Topic2,Topic3,Topic4, Topic5,開盤價(open),最高價(high)、最低價(low)和收盤價(close),交易量(vol)、成交額(amount)、前一天收盤價(pre_ close)、漲跌幅(change)、股價變動(pct_chg)。我們需要預測的值為下一天的收盤價(next1day_close)。我們的目標是預測未來1天收盤價,在訓練好模型后調用,得到預測值,然后將預測值和真實值進行對比。在LSTM預測上,我們將數據處理為均值,即對特征指標和預測指標均按天計算均值。

Train loss是訓練數據上的損失,衡量模型在訓練集上的擬合能力。Valid loss是在驗證集上的損失,衡量的是在未見過數據上的擬合能力,也可以說是泛化能力。模型的真正效果應該用valid loss來衡量。損失函數定義為:Loss=(真實值-預測值)2的均值

我們設置迭代20次,可以看到,隨著迭代次數增多,損失下降很快,在迭代到20次的時候,訓練損失和驗證損失趨平(圖6)。

將訓練好的模型進行回測,回測價格和真實價格的對比如下圖7。 圖中藍色為真實價格,紅色為預測價格。可以看到,預測價格和真實價格之間差距在0.5元以內,模型具有較好的預測效果(圖7)。

四、結語

本文旨在提出一種結合文本數據情感值、文本主題、社交數據和LSTM(Long-Short Term Memory,長短期記憶網絡)算法的股價預測模型。本文通過將情感分類從簡單的正負向豐富為情感波動,包括6種情感值,為情感參與基于深度學習的股價預測提供了新的特征值。同時,將文本的社交數據(文本的閱讀數、點贊數)納入模型中,考慮到了文本本身產生的影響面因素。更為重要的是,本文在此基礎上,將文本所重要表達的主題加入的股價預測模型中。

本文通過對股吧的帖子文本進行分析,在帖子的維度將情感值、主題、社交等特征進行提取,然后和股價信息合并。一共采用了9076多條帖子內容,時間跨度從2018/8/2到2020/5/26(共367個交易日)。首先通過OLS回歸,驗證了情感、主題、社交等特征變量和股票交易存在相關性,然后基于深度學習模型(LSTM)對進行數據訓練,最后基于訓練好的模型對數據進行了回測。從回測結果看,預測值和真實值的差距在0.5元左右,模型具有較好的預測能力。

本文的不足在只在單只股票上進行了測試,尚未完成將單只股票方法推廣到其他股票,因此,這種方法是否在其他股票上也會存在很好的預測能力,尚需要進一步研究。其次,本文在處理主題的時候,選擇的是5個主題和10個詞語的方法,這種方法是否是一種最優的方案也存在質疑,也需要進一步研究。

參考文獻:

[1]徐偉,李韻喆.行業與個股新聞對股票價格影響的定量分析[J].財經界,2015(020):31-32.

[2]張夢吉,杜婉鈺,鄭楠.引入新聞短文本的個股走勢預測模型[J].數據分析與知識發現,2019(5):11-18.

[3]楊陽.上市公司新聞情感傾向對股價的影響分析[D].北京:北京理工大學,2015.

[4]朱夢珺,蔣洪迅,許偉.基于金融微博情感與傳播效果的股票價格預測[J].山東大學學報 (理學版),2016(11):13-25.

[5]張棟凱,齊佳音.基于微博的企業突發危機事件網絡輿情的股價沖擊效應[J].情報雜志, 2015(003):132-137.

[6]Blei, David M.、Ng, Andrew Y.、Jordan, et al. Latent Dirichlet Allocation[J]. J. Mach. Learn. Res,2012(3):

993-1022.

[7]Wurgler J A , Baker M P . Investor Sentiment and the Cross-Section of Stock Returns[J]. Economic Management Journal, 2006,61(4):1645-1680.

[8]Baker M,Wurgler J . Investor Sentiment and the Cross-Section of Stock Returns[J]. NBER Working Papers,2004.

[9]Gregory, W, Brown,et la. Investor sentiment and the near-term stock market[J]. Journal of Empirical Finance,

2004.

[10]Sun L , Zhang L . Optimal consumption and investment under irrational beliefs[J]. Journal of Industrial and Management Optimization, 2017,7(1):139-156.

[11]馬馳宇.網絡金融信息情感分析及其與股票市場波動關聯關系研究[D].合肥:合肥工業大學,2016.

[12]王鴻睿,朱青.基于金融文本情感的股價關聯挖掘模型[J].企業技術開發,2010(21):78-79.

[13]孟志青,鄭國杰,趙韻雯.網絡投資者情緒與股票市場價格關系研究——基于文本挖掘技術分析[J].價格理論與實踐,2018(008):127-130.

[14]孫伯維.年報文本與數據分析及可視化的設計與實現[D].大連:大連理工大學,2020.

[15]徐翔,靳菁,呂偉欣.網絡輿情作為社會傳感器對股票指數的影響——基于LDA主題模型的挖掘分析[J].財務與金融,

2018,176(06):5-13.

[16]涂帥.基于網絡輿情的股票信息分析與建模[D].蘭州:蘭州理工大學,2018.

[17]花樹雯.基于LSTM和LDA模型的患者情感分析研究[D].杭州:浙江理工大學,2018.

[18]何永繼.基于微博情感分析的股市預測方法研究[D].南京:南京大學,2016.

[19]延豐,杜騰飛,毛建華,等.基于情感詞典與LDA模型的股市文本情感分析[J].電子測量技術,2017(12):82-87.

主站蜘蛛池模板: 喷潮白浆直流在线播放| 亚洲人成网站日本片| 欧美人与牲动交a欧美精品| 国产视频大全| 亚洲免费播放| 亚洲日产2021三区在线| 亚国产欧美在线人成| 国产久操视频| 亚洲a级毛片| 欧美a级在线| 亚洲成人一区二区| 欧美午夜在线视频| 国产成+人+综合+亚洲欧美| 国产福利免费在线观看| 99久久精品视香蕉蕉| 国产网站免费看| 亚洲欧美自拍视频| 中文字幕有乳无码| 精品久久久久久久久久久| 强奷白丝美女在线观看 | 国产成人欧美| 日韩成人在线视频| 在线观看欧美精品二区| 这里只有精品在线| 国产XXXX做受性欧美88| 欧美综合中文字幕久久| 亚洲视频四区| 日韩福利在线观看| 伊人色综合久久天天| 国产av剧情无码精品色午夜| 91小视频在线播放| 久久香蕉国产线看精品| 国产成人禁片在线观看| 国产精品视频系列专区 | 成人在线不卡| 亚洲开心婷婷中文字幕| 成年看免费观看视频拍拍| 亚洲狼网站狼狼鲁亚洲下载| 就去色综合| 国产美女自慰在线观看| 99热这里只有精品在线观看| 91福利一区二区三区| 国产拍揄自揄精品视频网站| 色欲色欲久久综合网| 久久久精品国产SM调教网站| 四虎在线观看视频高清无码| 亚洲女同一区二区| 国产精品亚洲αv天堂无码| 亚洲av无码牛牛影视在线二区| 国产女人在线| www.亚洲色图.com| 97久久超碰极品视觉盛宴| 日韩精品欧美国产在线| 久久动漫精品| 国产黄在线观看| 国产色伊人| 日a本亚洲中文在线观看| 国产永久在线观看| 欧美性色综合网| 视频一区视频二区中文精品| 国产女人水多毛片18| 欧美成人二区| 日韩麻豆小视频| a亚洲天堂| 四虎成人精品在永久免费| 日本免费a视频| 国产精品无码AⅤ在线观看播放| 国产一级无码不卡视频| 在线观看网站国产| 亚洲国产欧美国产综合久久| 国产成人三级| 久久久受www免费人成| 99在线视频精品| 国产无码高清视频不卡| 真实国产乱子伦高清| 婷婷综合缴情亚洲五月伊| 久久国产拍爱| 精品久久久久成人码免费动漫 | 欧美精品v| 第一页亚洲| 国内嫩模私拍精品视频| 午夜福利在线观看入口|