999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

行業(yè)與個(gè)股新聞對股票價(jià)格影響的定量分析

2015-03-04 09:11:22南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院徐偉李韻喆
財(cái)經(jīng)界(學(xué)術(shù)版) 2015年13期
關(guān)鍵詞:文本方法模型

南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院 徐偉 李韻喆

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)新聞中包含了越來越多的財(cái)經(jīng)資訊。財(cái)經(jīng)網(wǎng)站已經(jīng)演變成投資者用來交換想法與新聞媒體傳播的主流載體,行業(yè)新聞與個(gè)股新聞在證券市場上對投資者的投資決策起到關(guān)鍵性作用。但是,投資者從海量的財(cái)經(jīng)新聞中分離出有效的信息仍然存在著較大困難。因此,提供一種科學(xué)有效的方法來幫助投資者判斷新聞的影響力是至關(guān)重要的。

目前,探索互聯(lián)網(wǎng)媒體與股市關(guān)系的傳統(tǒng)研究較少,大多數(shù)學(xué)者在有限理性假說的基礎(chǔ)上,對投資者心理、投資行為、市場信息非對稱性、政府對新聞媒體的控制以及財(cái)經(jīng)新聞?wù)Z義分析等方面進(jìn)行研究,其研究結(jié)果偏理論性和概括性。而近幾年,隨著大數(shù)據(jù)的不斷成熟,數(shù)據(jù)挖掘技術(shù)在證券市場預(yù)測上的運(yùn)用也逐漸增加。

互聯(lián)網(wǎng)財(cái)經(jīng)新聞所蘊(yùn)含的數(shù)據(jù)是非結(jié)構(gòu)化的,所以將新聞量化成可視化的時(shí)間序列數(shù)據(jù)具有一定的挑戰(zhàn)性。國內(nèi)學(xué)者運(yùn)用文本分類的基本方法對新聞標(biāo)題或者板塊個(gè)股的新聞進(jìn)行情感分類,構(gòu)建中文分詞詞典和情感詞典。分詞方面,羅海飛等在不斷改進(jìn)貝葉斯算法的基礎(chǔ)上進(jìn)一步提高文本分類的正確率。西南財(cái)經(jīng)大學(xué)趙麗麗等主要應(yīng)用文本挖掘技術(shù)和多元線性回歸分析方法,結(jié)合股票主要技術(shù)主表就互聯(lián)網(wǎng)財(cái)經(jīng)新聞對股市影響進(jìn)行了實(shí)證分析與定量研究。國外機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)者以互聯(lián)網(wǎng)社交媒體為主要研究對象,根據(jù)用戶表達(dá)的投資意愿來分析其與股價(jià)之間的聯(lián)系,運(yùn)用支持向量回歸模型、多核學(xué)習(xí)方法等建立股價(jià)預(yù)測模型。歷史研究表明,智能方法與傳統(tǒng)的CAPM和Fama四因素股價(jià)預(yù)測模型相比具有更高的準(zhǔn)確性。

本文將運(yùn)用數(shù)據(jù)挖掘技術(shù)分別預(yù)測個(gè)股新聞與行業(yè)新聞對股價(jià)的影響,建立智能方法模型,比較股價(jià)預(yù)測模型的準(zhǔn)確性,在國內(nèi)研究中具有創(chuàng)新意義。

一、方法

(一)系統(tǒng)概述

圖一闡述了我們預(yù)測系統(tǒng)的全面流程。首先,我們需要搜集數(shù)據(jù)。在這過程中,我們運(yùn)用文本挖掘技術(shù)抓爬財(cái)經(jīng)網(wǎng)站上的數(shù)據(jù),并建立相關(guān)股票新聞數(shù)據(jù)庫。其次,我們在這些無結(jié)構(gòu)數(shù)據(jù)中分離出有用的信息。我們?nèi)コ鼿TML的標(biāo)簽,并且分離出有用的新聞特征,例如時(shí)間、新聞文本等,對新聞進(jìn)行文本情感分類,將無結(jié)構(gòu)數(shù)據(jù)量化。最后,我們的系統(tǒng)能夠通過運(yùn)用支持向量機(jī)(SVM)、貝葉斯算法、粗糙集模型對證券價(jià)值分別進(jìn)行預(yù)測。

(二)數(shù)據(jù)搜集

我們選擇證券行業(yè)為主要研究對象,在新浪財(cái)經(jīng)網(wǎng)站(http://fi?nance.sina.com.cn/stock/)上搜集了證券行業(yè)18家股票的個(gè)股新聞和行業(yè)新聞。本研究抓取了2012年12月至2014年9月期間的行業(yè)新聞5063條,個(gè)股新聞10309條。其中,將2012年12月至2014年7月作為訓(xùn)練集時(shí)間段,選取2014年8月至9月作為預(yù)測集時(shí)間段,采用訓(xùn)練好的模型預(yù)測2014年8至9月期間每一則新聞報(bào)道對股票收益所產(chǎn)生的影響。本文以前一天15點(diǎn)到次日15點(diǎn)為T日,建立2012年12月4日至2014年9月26日期間的新聞文本資料庫。

(三)情感分類

對于情感分類引入評價(jià)理論,通過從文本中提取形容詞及修飾語構(gòu)成的短語作為特征,進(jìn)行語義傾向分析。本文將股票新聞的情感特征詞劃分為情感詞和行為詞兩類,并進(jìn)一步分為5個(gè)維度(正、負(fù)、程度、否定詞、不確定詞),利用ICTCLAS程序接口以及C++對所有新聞文本進(jìn)行了分詞,建立金融特征詞庫。

(四)文本結(jié)構(gòu)化處理

在處理數(shù)據(jù)的過程中,本文基于金融特征詞庫,進(jìn)行特征選擇,利用向量空間模型(Vector Space Model,簡稱VSM)將無結(jié)構(gòu)數(shù)據(jù)的新聞文本轉(zhuǎn)換成計(jì)算機(jī)可以處理的結(jié)構(gòu)化向量。通過TFIDF方法評估每個(gè)特征詞在整個(gè)文檔集中的重要程度。

(五)學(xué)習(xí)模型

1、SVM模型

圖一 系統(tǒng)流程概述

SVM模型由Vapnik首先提出,主要思想是建立一個(gè)超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。本文選用的是SVM模型中的C-SVC的分類器,其過程如下:

基于libsvm工具箱,本文選用多項(xiàng)式核函數(shù),以結(jié)構(gòu)化的文本向量及股票收益率為模型的輸入。其中,每日股票收益率采用的是新聞當(dāng)天數(shù)據(jù),周末新聞算為下周一數(shù)據(jù),對應(yīng)下周一股票收益率,以此類推。同時(shí),將停牌股的股票收益與當(dāng)日新聞?dòng)枰匀コT谶M(jìn)行預(yù)測時(shí),由于特征歸一化對預(yù)測結(jié)果有影響,本文考慮分別保留未歸一化和歸一化的兩類預(yù)測數(shù)據(jù),模型分別用SVM1,SVM2表示。

2、樸素貝葉斯分類

貝葉斯分類原理是通過選取適當(dāng)?shù)哪P偷南闰?yàn)分布,利用貝葉斯公式計(jì)算出其后驗(yàn)概率。本文樸素貝葉斯分類器所選擇的訓(xùn)練集和預(yù)測集與SVM的所選擇數(shù)據(jù)相同,模型用Bayes表示。

3、粗糙集預(yù)測

由于分類器與新聞因素的差異對預(yù)測的數(shù)據(jù)都有影響,本文構(gòu)建了一種基于粗糙集的組合預(yù)測方法,進(jìn)而比較分類數(shù)據(jù)預(yù)測的準(zhǔn)確性。

本文將SVM1,SVM2,Bayes三種模型求解的行業(yè)新聞與公司新聞的預(yù)測值作為條件屬性集C的元素,將預(yù)測真實(shí)值y視為決策屬性D{y}。論域?yàn)楦鞴绢A(yù)測集內(nèi)各日數(shù)據(jù)的集合,該論域中對象的屬性即為對應(yīng)日的屬性集C。考慮粗糙集理論中屬性集等價(jià)類的概率分布[X;p]、[Y;p],引入信息論中信息熵,構(gòu)建如下公式:

經(jīng)過運(yùn)算:

得出C各元素重要性,即各公司不同預(yù)測方法,不同新聞因素的重要性。在此基礎(chǔ)上,加權(quán)不同的預(yù)測方法的預(yù)測值,可以得出新的預(yù)測值;加權(quán)不同方法對新聞因素的影響,可以得出兩新聞因素影響的重要性。

二、實(shí)驗(yàn)與結(jié)果

(一)組合預(yù)測與其他預(yù)測結(jié)果比較

本文分別研究了互聯(lián)網(wǎng)行業(yè)與個(gè)股新聞對證券行業(yè)股票影響強(qiáng)度,比較SVM、貝葉斯以及粗糙集三種模型的預(yù)測結(jié)果,得出結(jié)果如表1所示。

表1 組合預(yù)測與其他預(yù)測結(jié)果的比較

從表1中可以看出,基于粗糙集組合預(yù)測結(jié)果的準(zhǔn)確率總體而言相對于其他兩種方法較高。由于粗糙集組合預(yù)測需要在預(yù)測期間內(nèi)相同時(shí)間段內(nèi)同時(shí)存在行業(yè)與個(gè)股新聞,其可采用的新聞數(shù)據(jù)數(shù)量比其他兩種預(yù)測方法會(huì)有所減少,影響了結(jié)果。所以在綜合考慮行業(yè)與個(gè)股新聞時(shí),同時(shí)考慮公司新聞因素和行業(yè)因素準(zhǔn)確性并不見得會(huì)比單獨(dú)考慮高,反而會(huì)出現(xiàn)更低的準(zhǔn)確度,具體表現(xiàn)以中信、西南、招商、國金、光大、東吳為例。

但對于整個(gè)證券行業(yè)而言,粗糙集組合預(yù)測綜合了各個(gè)模型的優(yōu)缺點(diǎn)以及各新聞因素對各公司的影響程度大小,較大的提升了預(yù)測準(zhǔn)確率。

(二)公司新聞和行業(yè)新聞對各公司影響結(jié)果分析

表2 行業(yè)新聞與公司新聞?dòng)绊懸蛩乇容^

根據(jù)表2可以得知,公司新聞因素為股票價(jià)格的主導(dǎo)因素。當(dāng)我們?nèi)コA(yù)測率較低的個(gè)股后,這一現(xiàn)象表現(xiàn)的更為顯著,這是因?yàn)楣拘侣勚兴挠袃r(jià)值信息超過行業(yè)新聞中的有價(jià)值信息。

三、結(jié)束語

本文采用文本挖掘技術(shù)和向量空間模型,引入了機(jī)器學(xué)習(xí)方法,結(jié)合股票技術(shù)指標(biāo),就證券行業(yè)與個(gè)股新聞對股市的影響進(jìn)行了分析研究。在研究過程中,本文發(fā)現(xiàn),互聯(lián)網(wǎng)新聞對股票收益率存在一定的影響,并且個(gè)股新聞對股票收益率的影響高于行業(yè)新聞。互聯(lián)網(wǎng)新聞的樣本數(shù)量和質(zhì)量也會(huì)影響預(yù)測的準(zhǔn)確性,樣本新聞信息處理的越好,預(yù)測則更加精準(zhǔn)。

由于股票新聞存在不完整、不確定的特性,考慮到這個(gè)因素,本文在運(yùn)用SVM模型和貝葉斯分類方法的基礎(chǔ)上,創(chuàng)新運(yùn)用粗糙集模型組合不同預(yù)測模型,得到了更加精確的預(yù)測結(jié)果。由此可以看出,運(yùn)用數(shù)據(jù)挖掘預(yù)測股票收益具有較大的前景。

然而,互聯(lián)網(wǎng)財(cái)經(jīng)新聞不是一直可信賴的,投資決策還應(yīng)該結(jié)合更多的技術(shù)指標(biāo)和信息來進(jìn)行分析。在未來的研究中,作者將進(jìn)一步結(jié)合影響股票價(jià)格收益率的更多因素綜合預(yù)測價(jià)格的波動(dòng)。

[1]鄒亞寶.媒體對有限理性投資者投資行為的影響研究[J].金融教育研究.2012.第25卷第5期

[2]譚華.不確定時(shí)態(tài)數(shù)據(jù)挖掘方法及其在證券行情預(yù)測中的應(yīng)用[D].長沙:湖南大學(xué).2008

[3]高旸,周莉,張勇,邢春曉,孫一鋼,朱先忠.面向股票新聞的情感分類方法[J].軟件學(xué)報(bào).2010.Vol.21.P349-642

[4]陳華,梁循.互聯(lián)網(wǎng)股票新聞歸類和板塊分析的方法[J].電腦開發(fā)與應(yīng)用,2006,11:2-3+6.

[5]李丹.基于樸素貝葉斯方法的中文文本分類研究[D].河北大學(xué),2011

[6]趙麗麗.互聯(lián)網(wǎng)財(cái)經(jīng)新聞對股市影響的定量分析[D].成都:西南財(cái)經(jīng)大學(xué).2012:1-49

[7]Yang Yu,WenjingDuan,Qing Cao.The impact of social and conven?tional media on firm equity value:A sentiment analysis approach.Decision Support Systems 55(2013)919–926

[8]VivekSehgal,Charles Song.SOPS:Stock Prediction using Web Senti?ment[J].Seventh IEEE International Conference on Data Mining.2007

[9]ShangkunDENG,TakashiMITSUBUCHI,KeiSHIODA,TatsuroSHI ?MADA,AkitoSAKURAI.Multiple Kernel Learning on Time Series Data and?Social Networks for Stock Price Prediction.10th International Conference on Machine Learning and Applications.2011

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成人一区在线| 色屁屁一区二区三区视频国产| 国产欧美综合在线观看第七页| 伊人91视频| 国产SUV精品一区二区6| 色亚洲激情综合精品无码视频 | 亚洲成在线观看| av一区二区三区高清久久| 国产成人8x视频一区二区| 19国产精品麻豆免费观看| 国产在线拍偷自揄观看视频网站| 欧美亚洲中文精品三区| 92午夜福利影院一区二区三区| 国产亚洲精品91| 91精品免费高清在线| 午夜精品久久久久久久2023| 亚洲成年人片| 久久77777| 伊人精品视频免费在线| 色综合网址| 国产黄色免费看| 亚洲香蕉久久| 毛片大全免费观看| 欧美翘臀一区二区三区| 国产18在线| 亚洲国产中文综合专区在| 国产成人超碰无码| 色久综合在线| 中文字幕佐山爱一区二区免费| 亚洲天堂网在线播放| 99热这里只有精品免费国产| 日韩高清一区 | 午夜视频www| 久久国产乱子| 女人18一级毛片免费观看| 欧美a在线视频| 国产主播一区二区三区| 日本www色视频| 欧美精品亚洲精品日韩专区va| 亚洲欧美在线综合图区| 人妻21p大胆| 亚洲丝袜第一页| 国产精品综合久久久| 亚洲天堂网在线观看视频| 国产成+人+综合+亚洲欧美| 老色鬼久久亚洲AV综合| 中字无码精油按摩中出视频| 欧美日本在线一区二区三区| 日韩毛片基地| 欧美一区精品| 高清乱码精品福利在线视频| 天天综合网在线| 任我操在线视频| 久久一级电影| 国产伦精品一区二区三区视频优播| 欧美中文字幕在线播放| 日韩黄色精品| 久久不卡精品| 精品国产成人三级在线观看| 亚洲成aⅴ人片在线影院八| 区国产精品搜索视频| 日韩不卡免费视频| 日本午夜影院| 扒开粉嫩的小缝隙喷白浆视频| 国产精品久久久久久久久| 久久精品视频一| 欧美亚洲一区二区三区在线| 日韩人妻无码制服丝袜视频| 国产综合精品一区二区| 91精品国产一区| 久久这里只精品国产99热8| jizz在线观看| 欧美日韩午夜视频在线观看| 亚洲成a人片在线观看88| 国产精品人成在线播放| 亚洲乱码视频| 中文天堂在线视频| 日韩专区欧美| 成人国产免费| 台湾AV国片精品女同性| 无遮挡国产高潮视频免费观看| 国产美女精品在线|