999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP和深度森林的金融輿情抓取與分析

2020-08-17 19:19:33王子敏周杰梁佳雯何加豪
電子商務(wù) 2020年8期

王子敏 周杰 梁佳雯 何加豪

摘要:采用自然語言處理技術(shù)對爬取的文本數(shù)據(jù)進行分詞、去停用詞處理,利用TextRank、TF-IDF算法提取關(guān)鍵字,構(gòu)建適用于單篇文章的詞重要性指數(shù)模型,從中提取重要變量建立適用于滬深300指數(shù)的投資者情緒預(yù)測模型,借助深度森林算法預(yù)測交易信號構(gòu)建交易策略。結(jié)果表明,在樣本期基于自然語言處理與深度森林算法對股票交易信號的預(yù)測準確率達72.23%,且收益也超過傳統(tǒng)策略收益,具備重要的投資指導(dǎo)意義。

關(guān)鍵詞:自然語言處理;深度森林;投資者情緒指標;量化交易策略

★基金項目:江蘇省大學生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃國家級立項——“基于NPL的A股市場輿情監(jiān)控及其量化投資策略研究”(項目編號:SZDG2019039)成果之一。

引言

自然語言處理技術(shù)作為人工智能領(lǐng)域的重要分支,始終被放在科研領(lǐng)域的最前沿。如今,隨著新型算法的誕生以及新思想、新技術(shù)的提出,人類在自然語言處理領(lǐng)域已經(jīng)實現(xiàn)了重大突破。尤其在英文方面,科研人員已經(jīng)建立了一套相當完備的研究方法。英語文本由于其書寫格式的獨特性,對自然語言處理解決了分詞處理上的困難。正因此,自然語言處理也被國外投資公司、交易人員大量的運用到量化交易中,并取得了不錯的效果。本文緊跟金融前沿領(lǐng)域的研究熱點,通過對中文文本的深度挖掘,并結(jié)合機器學習技術(shù),探索自然語言處理技術(shù)在國內(nèi)股票市場的實用性與可行性。

1、文獻綜述

對于投資者情緒的度量主要受限于數(shù)據(jù)的獲取以及情緒指標的載體上,眾多研究人員多用經(jīng)濟指標作為投資者情緒的代理指標。例如,彭益(2012)[1]采用概率統(tǒng)計的方法對指數(shù)漲跌的概率進行預(yù)測,Backer & Wurgler(2001)[2]選取了封閉式基金的折價率作為度量投資者情緒的指標,而鹿坪和冷軍(2017)[3]則選取了消費者信心指數(shù)作為度量投資者情緒的指標。

在直接挖取投資者情緒指數(shù)方面,Danbolt(2015)[4]利用從Twitter上獲取的海量投資者評論信息,從中直接提取情緒指標。石善沖等(2018)[5]提出了針對用戶素質(zhì)較高的微信平臺的投資者情緒構(gòu)建方法,但由于微信平臺屬于社交平臺,在金融領(lǐng)域的專業(yè)度不夠高,因此所獲取的數(shù)據(jù)針對性有所減弱。孟雪井等(2016)[6]則通過篩選詞匯出現(xiàn)的頻率高低作為研究投資者情緒的特征,這也在一定程度上忽略了詞匯的頻繁出現(xiàn)會導(dǎo)致其代表性的泛化,最終會影響到模型精確度。

基于前人的研究基礎(chǔ)和存在的問題,在數(shù)據(jù)來源方面,精選了“同花順”平臺的分析師評論,并結(jié)合詞語的逆文檔頻率對重要詞匯進行二次篩選,以期獲得更具代表性的特征,最后使用機器學習算法,構(gòu)建情緒指標。

2、數(shù)據(jù)獲取

本研究爬取了2016年6月14日至2019年6月14日的11105篇金融研究評論,并在此數(shù)據(jù)的基礎(chǔ)上通過TextRank、TF-IDF算法選取重要詞匯共計124個建立金融語料庫,并以這些詞匯作為后續(xù)特征工程的輸入變量。此外,本研究還爬取了百度指數(shù),共計10萬條左右。針對滬深300指數(shù)數(shù)據(jù),本研究從wind中獲取了2016年6月14日至2019年6月14日共計731個交易日的日內(nèi)交易數(shù)據(jù)。

3、情緒指標建立

3.1 算法原理介紹

(1)TextRank算法

(2)TF-IDF算法過濾關(guān)鍵詞

利用TF-IDF算法,將TextRank算法得到的793個詞匯在進行一次重要性排序,提取出重要性更高的詞匯,其中關(guān)鍵詞過濾算法如下:

(3)投資者情緒指標建立

① 特征選擇:

在進行數(shù)據(jù)預(yù)處理是,通常需要對已有特征做進一步的篩選以獲得更加適合機器學習算法的特征。經(jīng)過篩選后發(fā)現(xiàn),隨著詞匯的推移,詞匯的方差越來越小,最終趨向于0,因而這些詞匯的發(fā)散性不強,對于目標的預(yù)測不具有很好的解釋性,為了避免因特征選擇過多而造成的過度擬合,我們選取“半導(dǎo)體”前22個詞匯作為特征。

② 文本特征量化處理:

本文通過特征是否發(fā)散的標準已經(jīng)篩選出了更為合適的22個詞匯,并以此作為特征。之后,我們利用百度指數(shù)作為詞匯量化的標準。此處我們選用百度指數(shù)的環(huán)比增長率作為百度指數(shù)的衡量指標

③ 建立指標模型:

將2016年6月14日至2018年6月14日的數(shù)據(jù)作為訓(xùn)練集,將2018年6月14日至2019年6月14日的數(shù)據(jù)作為測試集。訓(xùn)練集數(shù)據(jù)主要用于對機器學習模型參數(shù)的尋優(yōu)工作,而本文使用的深度森林算法則是通過建立深度隨機樹模型,采取多次迭代尋優(yōu)的方式尋找出特征最適合的權(quán)重。測試集數(shù)據(jù)主要用于對模型的檢驗,通過對預(yù)測精確度、召回率等指標的比較,判定模型是否具有使用價值。

4、模型對比

4.1 模型多角度對比

(1)模型策略與自然增長率的比較

觀察圖2,當執(zhí)行買入并持有策略時,最終的收益率11.35%;而當執(zhí)行模型發(fā)出的信號進行交易時,最終受益是29.84%。

(2)模型策略與移動雙均線比較

觀察圖2,移動雙均線獲得了17.01%的收益率且最大回撤為-12.39%。移動雙均線的回報率和最大回撤的表現(xiàn)比自然收益率的表現(xiàn)更加優(yōu)越,這可能取決于移動雙均線模型對于上漲和下跌的趨勢把握的較好。但相較于本文建立的模型來說,移動雙均線的表現(xiàn)在多指標上都要劣與本文建立的投資者情感指標模型,因而,本文建立的模型相較于傳統(tǒng)技術(shù)指標具有較好表現(xiàn)。

結(jié)論

本文通過將建立的基于投資者情緒交易策略與買入并持有一年策略、傳統(tǒng)技術(shù)指標策略進行對比后發(fā)現(xiàn),基于投資者情緒的交易策略最終獲得了29.84%的收益,明顯高于買入并持有策略的11.35%和雙均線策略的17.01%。與此同時,在深度森林算法的基礎(chǔ)上對股市未來走勢加以預(yù)測,精確度為72.23%。相比前人,精確度更高,更具有使用價值。

參考文獻

[1] 彭益. 基于數(shù)據(jù)挖掘的股票指數(shù)漲跌概率推斷[J]. 統(tǒng)計與決策, 2012(16): 159-161.

[2] Loewenstein G F, Weber E U, Hsee C K,et al. Risk as feelings[J]. Psychological Bulletin, 2001,127(2): 267

[3] 鹿坪,冷軍. 投資者情緒與盈利管理——基于應(yīng)計盈余管理與真實盈余管理的實證研究[J]. 管理科學學報,2017(2): 88-96

[4] Danbolt J, Siganos A, Vagenas-Nanos E. Investor sentiment and bidder announcement abnormal returns[J]. Journal of Corporate Finance,2015,33(3): 164-179.

[5] 石善沖, 朱穎楠, 趙志剛. 基于微信文本挖掘的投資者情緒與股票市場表現(xiàn)[J]. 系統(tǒng)工程理論與實踐, 2018, 38(6): 1404-1412.

[6] 孟雪井,楊亞飛,趙新泉.財經(jīng)新聞與股市投資策略研究——基于財經(jīng)網(wǎng)站的文本挖掘[J].投資研究,2016, 35(8): 29-37.

[7] Barrios F , López, Federico, et al. Variations of the Similarity Function of TextRank for Automated Summarization[J]. 2016.

[8] Cong Y , Chan Y B , Ragan M A . A novel alignment-free method for detection of lateral genetic transfer based on TF-IDF[J]. Scientific Reports, 2016, 6: 30308.

[9] Zhou Z H , Feng J. Deep Forest: Towards An Alternative to Deep Neural Networks[J]. 2017.

[10] 命士汶,朱學鋒,耿立波.自然語言處理技術(shù)與語言深度計算[J].中國社會科學,2015(3): 127-135.

[11] 黃潤鵬, 左文明, 畢凌燕. 基于微博情緒信息的股票市場預(yù)測[J].管理工程學報, 2015, 29(1): 47-52.

作者簡介:

王子敏,博士,南京郵電大學副教授,碩士生導(dǎo)師,研究方向為信息產(chǎn)業(yè)經(jīng)濟與管理;

周杰,梁佳雯,何加豪,南京郵電大學。

主站蜘蛛池模板: 在线日韩日本国产亚洲| 国产欧美日韩专区发布| 中文字幕在线不卡视频| 亚洲国产午夜精华无码福利| 免费人成在线观看成人片 | 国产91九色在线播放| 99资源在线| 国内精品九九久久久精品| 蜜臀AVWWW国产天堂| 久久人午夜亚洲精品无码区| 国产人免费人成免费视频| 国产欧美日韩精品第二区| 亚洲一本大道在线| 国产一区二区三区精品欧美日韩| 国产青榴视频| 国产激情无码一区二区APP| 538国产视频| 亚洲天堂日本| 免费观看成人久久网免费观看| 成人福利在线视频| 国产嫖妓91东北老熟女久久一| 精品乱码久久久久久久| 日本高清免费不卡视频| 亚洲国产精品VA在线看黑人| 亚洲电影天堂在线国语对白| 无码内射在线| 久久semm亚洲国产| 日本免费高清一区| 999精品视频在线| 亚洲日韩每日更新| 亚洲综合一区国产精品| 2024av在线无码中文最新| 亚洲国产在一区二区三区| 国产微拍一区二区三区四区| 动漫精品中文字幕无码| 国产最新无码专区在线| 国产浮力第一页永久地址| 国产一区在线观看无码| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美特黄一免在线观看| 亚洲精品国产精品乱码不卞| 久久人体视频| 男人天堂伊人网| www.亚洲国产| 国产高清在线精品一区二区三区| 五月婷婷激情四射| 亚洲VA中文字幕| 精品一区二区三区四区五区| 日韩A∨精品日韩精品无码| 成人免费视频一区| 国产欧美日韩另类精彩视频| 成年看免费观看视频拍拍| 欧美日韩资源| 色成人综合| 91精品人妻一区二区| 久草青青在线视频| 又粗又硬又大又爽免费视频播放| 美女扒开下面流白浆在线试听 | 波多野结衣无码AV在线| 亚洲一区免费看| 日韩欧美国产另类| 青青操国产| 国产91精品调教在线播放| 国产一二三区在线| 欧美色视频网站| 在线观看精品自拍视频| 污污网站在线观看| 日韩亚洲综合在线| 国产成人永久免费视频| 国产亚洲成AⅤ人片在线观看| 91黄色在线观看| 亚洲综合第一页| 免费a级毛片视频| 色综合手机在线| 亚洲综合色区在线播放2019| 免费一级成人毛片| 日韩成人在线一区二区| 亚洲第一成年人网站| 亚洲精品在线91| 特级毛片8级毛片免费观看| 青草国产在线视频| 国产精品毛片在线直播完整版|