999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘和機器學習的股指預測與決策研究

2019-05-22 00:53:48戴德寶蘭玉森范體軍
中國軟科學 2019年4期
關(guān)鍵詞:情緒文本

戴德寶,蘭玉森,范體軍,趙 敏

(1.上海大學 管理學院,上海 200444;2.華東理工大學 商學院,上海 200237;3.上海大學悉尼工商學院,上海 201800)

一、引言

《世界互聯(lián)網(wǎng)發(fā)展報告2018》和《中國互聯(lián)網(wǎng)發(fā)展報告2018》藍皮書數(shù)據(jù)顯示:2017年,中國數(shù)字經(jīng)濟總量達27.2萬億元,對GDP增長貢獻率達55%,全球數(shù)字經(jīng)濟規(guī)模達12.9萬億美元,中國位居全球第二。以互聯(lián)網(wǎng)為代表的信息技術(shù)和人類生產(chǎn)生活深度融合,引領(lǐng)創(chuàng)新,驅(qū)動轉(zhuǎn)型。社交平臺作為數(shù)字經(jīng)濟呈現(xiàn)形式之一,現(xiàn)已是消費者或投資者交換觀點、情感和知識的重要渠道。與調(diào)查問卷、檔案數(shù)據(jù)和訪談記錄等信息源相比,社交平臺數(shù)據(jù)能夠規(guī)避傳統(tǒng)信息收集方式的滯后、缺失和高投入等弊端,具有用戶基數(shù)大、社交性強、涉入性高、響應速度快等優(yōu)勢。借助博客、微博和論壇等不同社交平臺在線文本,利用文本挖掘和情感分析技術(shù)可以研究許多相關(guān)主題[1]:使用在線評論分析結(jié)果減少網(wǎng)絡(luò)購物不確定性和風險[2],使用社交平臺用戶的產(chǎn)品感知和意見挖掘結(jié)果優(yōu)化產(chǎn)品品質(zhì)和提高品牌價值[3],發(fā)現(xiàn)學習社區(qū)對學習效果的影響與促進作用[4],檢驗在線投資者情緒與資本市場的關(guān)聯(lián)狀況[5-6]。網(wǎng)絡(luò)社交平臺已成為在線商品和服務(wù)交易數(shù)據(jù)觀察利用空間。黨和政府給予高度評價、期望和要求,十九大報告提出“貫徹新發(fā)展理念,建設(shè)現(xiàn)代化經(jīng)濟體系”。“互聯(lián)網(wǎng)+金融”促進金融體制改革,允許優(yōu)質(zhì)企業(yè)申辦網(wǎng)絡(luò)銀行[7-8],開放小額貸款平臺,允許互聯(lián)網(wǎng)企業(yè)施行消費貸款,利用用戶原創(chuàng)內(nèi)容(user generated content,UGC)分析用戶行為和預測市場趨勢。

金融市場規(guī)律研究或趨勢分析有助于金融機構(gòu)和投資者防范金融風險、增強現(xiàn)代金融監(jiān)管并促進金融體系良性運轉(zhuǎn)。股市分析技術(shù)證明資本市場有后驗規(guī)律但難以把握未來,股價是否能夠預測莫衷一是。由于新信息隨機性和不可預知性,股票價格處于無規(guī)則行走模式,未來價格根本賭注是現(xiàn)在價格,預測準確率將不超過50%。然而許多研究結(jié)果表明股價不遵循隨機漫步理論,而是受公司財務(wù)情況、宏觀經(jīng)濟指標和歷史交易數(shù)據(jù)等眾多因素影響,可以使用多維度的數(shù)據(jù)預測[9],股票走勢預測準確率到達56%即為滿意[10]。金融學、心理學和行為學等結(jié)合派生的行為金融學[11]認為股票價格并非只由企業(yè)內(nèi)在價值決定,很大程度上受投資者心理和行為影響。基于投資者情緒的股價預測研究框架主要涵蓋以下三個方面。

(1)情緒資源。一是網(wǎng)上新聞:金融新聞否定句與股價相關(guān)關(guān)系[12]以及紐約時報和40個世界金融指數(shù)聯(lián)系研究有力支持行為金融學新經(jīng)濟范式作用[13]。二是社交媒體資源:社交平臺的投資者文本情緒影響股價[14]。由于微博推文內(nèi)容無法聚焦和用戶地理位置無法確定等缺陷[15],近期研究選擇股民聚集度高、話題專業(yè)性強、情緒傳遞性快的財經(jīng)論壇(如StockTwits[16]、Yahoo財經(jīng)網(wǎng)[10,17]和東方財富網(wǎng)[18-20])挖掘投資者情緒。

(2)情緒指標。一是與數(shù)量相關(guān)指標:Google搜索量(Search Volume Index,SVI)的增長能夠預示未來兩周股價上漲[21],股吧社區(qū)發(fā)帖量影響股價[20];二是與情緒相關(guān)指標:各類社交媒體整體情緒與股票回報和投資風險有關(guān),且優(yōu)越于傳統(tǒng)媒體[22]。影響股價的情緒可分為六個維度:Calm、Alert、Sure, Vital、Kind和Happy等[6],或者五個維度:強烈買入、買入、中性、賣出和強烈賣出等[18]。

(3)預測對象。一是個股股價走勢:多家公司Twitter情緒和異常股票回報相關(guān)[5],投資者瀏覽行為及情緒變化能夠有效預測股票[23],投資者情緒通過網(wǎng)絡(luò)自媒體傳播會影響多只股票收益[20];二是股票價格指數(shù)(即股指)預測:滬深300指數(shù)探究投資者情緒與股價存在因果關(guān)系[15,19]。常見預測股指包括道瓊斯指數(shù)(DJIA)[6]、標準普爾指數(shù)(S&P500)[14]、上證指數(shù)(SSEC)[24]等。

金融市場預測方法包含經(jīng)典統(tǒng)計學的多元回歸模型[18,22]、自向量回歸模型[25]以及支持向量機(support vector machine, SVM)[10,14,24]、神經(jīng)網(wǎng)絡(luò)[6,14,25]、隨機森林[14]等現(xiàn)代機器學習方法,SVM和BP神經(jīng)網(wǎng)絡(luò)應用最多。傳統(tǒng)回歸分析以嚴格假設(shè)和充足先驗為前提,難以構(gòu)建有效金融預測模型,機器學習能夠自主學習反復改善和優(yōu)化算法,結(jié)果滿意[26]。其他如Adaboost、LinearSVC等方法遜于SVM和BP神經(jīng)網(wǎng)絡(luò)對復雜非線性問題的處理。

許多基于文本挖掘的金融市場關(guān)聯(lián)或預測文獻研究直接將單一維度情緒變量(積極情緒或消極情緒)直接加入模型,而且少有對非線性和高噪音情緒數(shù)據(jù)進行處理,容易驗證是否與金融市場關(guān)聯(lián),難以取得較好的預測效果。本文通過抓取東方財富股票論壇數(shù)據(jù),借鑒天氣或事件的金融關(guān)聯(lián)分析過程[27],不僅剔除中性或噪音數(shù)據(jù),而且選取相關(guān)性強的情緒數(shù)據(jù)參與投資者情緒指數(shù)設(shè)計,基于情緒數(shù)據(jù)和股指數(shù)據(jù)非線性特征,利用SVM和BP神經(jīng)網(wǎng)絡(luò)兩類模型進行股指預測,證明投資者情緒與股指存在內(nèi)在聯(lián)系,并且預測高效,以期為投資者、上市公司和政府監(jiān)管部門的決策支持提供良好參考價值。

二、基于文本挖掘和機器學習的股指預測

基于文本挖掘和機器學習的股指預測內(nèi)容包括股指和情緒兩種數(shù)據(jù)的預處理和平穩(wěn)性檢驗、預測組合指數(shù)構(gòu)建及數(shù)據(jù)生成、常用兩種股指預測的機器學習算法檢驗等四個部分。

(一)股指數(shù)據(jù)獲取與情緒數(shù)據(jù)預處理

(1)情緒數(shù)據(jù)獲取與預處理。投資者情緒文本數(shù)據(jù)源于東方財富網(wǎng)股吧論壇實戰(zhàn)吧,使用Python共抓取帖子368586條,跨度:2016年7月19日至2017年12月29日。通過編寫帖子清洗規(guī)則剔除不能表達投資者情緒的主題帖,共保留帖子217445條。清洗規(guī)則包括圖片(無文字)、鏈接(無文字)、亂符(無意思)和實盤組合(系統(tǒng)自動生成)等四種相關(guān)類型;文本情緒分類方面,利用基于詞典的中文情感分析方法[28]對帖子情感打分。詞典由情感詞、程度副詞和否定詞三類詞匯組成,根據(jù)式(1)計算帖子綜合情感得分。情感詞包括通用情感詞典和專用情感詞(陰跌、利好、誘多、狗莊和割肉等)。

PostScore=Wr·

(1)

其中,PostScore為情感綜合得分,m為一個帖子標題的情感詞數(shù)目,n和nn分別為第i個情感詞前面程度副詞數(shù)量和否定副詞數(shù)量;Ws、Wm和Wr分別為對應帖子標題的各情感詞分值、各標點符號分值和反問詞分值;Wd和Wn分別為對應情感詞前面的程度副詞分值和否定副詞分值。

本實驗主要研究積極與消極情緒參與的股指預測,將不同情緒帖子數(shù)量按天歸類處理,得到一般積極、中度積極、高度積極、一般消極、中度消極、高度消極六個具有情緒傾向的時間序列數(shù)據(jù)[24],分別計入變量PI、PII、PIII、NI、NII、NIII。

(2)股市交易數(shù)據(jù)獲取。上證指數(shù)(000001)交易數(shù)據(jù)導出自通達信金融終端,時段自2016年7月19日至2017年12月29日356個交易日的歷史信息:收盤價(CLOSE)、開盤價(OPEN)、最高價(HIGH)、最低價(LOW)、成交量(VOL)和成交額(AMO),綜合考慮相關(guān)系數(shù)矩陣結(jié)果及變量實際意義,選取收盤價表示上證指數(shù)數(shù)據(jù)(SSEC)。

(二)股指數(shù)據(jù)與情緒數(shù)據(jù)平穩(wěn)性檢驗

(1)數(shù)據(jù)標準化。為消除股票交易數(shù)據(jù)和投資者論壇情緒數(shù)據(jù)間的量綱關(guān)系,提高數(shù)據(jù)可比性,需對兩類數(shù)據(jù)按照式(2)進行標準化(Z-Score)處理,μ為樣本數(shù)據(jù)均值,σ為樣本數(shù)據(jù)標準差。

z=(x-μ)/σ

(2)

(2)單位根檢驗。是通過對時間序列矩的隨機游走檢驗排除統(tǒng)計數(shù)據(jù)的偏誤及模型的偽回歸,保證預測模型的穩(wěn)定性,不存在單位根則時間序列平穩(wěn)。本文選用ERS(Eiliot, Rothenberg and Sock Point Optimal Test)檢驗單位根,避免檢驗包含常數(shù)項和趨勢變量項。

檢驗結(jié)果(見表1)表明:SSEC、OPEN、HIGH、LOW四個時間序列變量的ERS檢驗統(tǒng)計值大于在10%置信度下的臨界值,這些時間序列變量包含單位根,是非平穩(wěn)的。

注:表1和表2中,當顯著性水平為1%、5%和10%時,檢驗臨界值分別為1.972、3.240和4.447。

(3)差分時間序列單位根檢驗。將所有變量按照式(3)進行一階差分運算后得到新的序列變量,分別記作:DSSEC、DOPEN、DHIGH、DLOW、DVOL、DAMO、DPI、DPII、DPIII、DNI、DNII、DNIII,Xt和Xt-1分別為t和t-1時段變量值。

D(X)=Xt-Xt-1

(3)

對一階差分后各時間序列進行單位根檢驗(見表2)發(fā)現(xiàn):ERS統(tǒng)計值均小于在1%置信度下的臨界值,最大ERS值為0.233,各時間序列趨于平穩(wěn)狀態(tài)。

(三)選取相關(guān)數(shù)據(jù)生成組合指數(shù)數(shù)據(jù)

(1)相關(guān)性分析。上證指數(shù)歷史交易數(shù)據(jù)變量差分后采用Pearson相關(guān)分析法發(fā)現(xiàn)各變量相互影響且存在相關(guān)性(見表3),可進行有效的股指預測。本文將選取DOPEN、DHIGH、DLOW、DVOL、DAMO五個變量構(gòu)造上證交易組合指數(shù)。

表2 差分時間序列的單位根檢驗

表3 各變量間的相關(guān)系數(shù)矩陣

注:**表示在1%水平(雙側(cè))上顯著相關(guān)。

(2)Granger因果關(guān)系檢驗。假設(shè)投資者易受其他投資者情緒影響而選擇非理性投資,需要對上證指數(shù)和六組投資者情緒時間序列進行Granger因果關(guān)系檢驗,分析和驗證投資者情緒變化是否關(guān)乎市場波動,是否能夠預測股指信息[6]。Granger因果關(guān)系檢驗解釋是:變量x是否為變量y的產(chǎn)生原因可以觀察當前y在多大程度上能被過去x解釋。如果x滯后值能提高y解釋程度,說明x有助于y的預測,y是由x的Granger因果引起[29]。盡管Granger因果關(guān)系檢驗結(jié)果不等于實際因果關(guān)系,但本文目的不是測試實際因果關(guān)系,而是測試投資者情緒時間序列是否存在上證指數(shù)時間序列的預測信息。

除去雙休日和法定節(jié)假日,股票實際交易日為一周5天,滯后期可分別選取為1天到5天。Granger因果關(guān)系檢驗結(jié)果(見表4)表明:一般積極情緒(DPI)在滯后1天到滯后3天與上證指數(shù)存在較為顯著的Granger因果關(guān)系(p值<0.04)。圖1為DPI(t-3)和DSSEC(t)兩個時間序列對比圖,陰影部分表示DSSEC與滯后3天的DPI時間序列存在重疊或者有相同趨勢。無論是Granger因果關(guān)系檢驗結(jié)果還是時間序列圖,都可從中得出一般積極情緒與上證指數(shù)存在顯著相關(guān)關(guān)系,即DPI可用于預測上證指數(shù)。

表4 Granger因果關(guān)系檢驗結(jié)果

注:表格中的數(shù)值為p值,表示“檢驗行名稱不是SSEC因果關(guān)系”,其中*表示在顯著性水平為5%下顯著。

圖1 上證指數(shù)與一般積極時間序列情緒對比圖注:灰色背景部分為上證指數(shù)和滯后3天的一般積極情緒走勢相同區(qū)域。

(3)因子分析和指數(shù)構(gòu)建。本文選用多維度指標方法避免投資者情緒使用單一指標代理變量的代理有偏和信息不足問題,通過對六個變量(DOPEN、DHIGH、DLOW、DVOL、DAMO、DPI)因子分析得出上證投資者情緒綜合指數(shù)(SSECInvestor Sentiment Index,SSECISI)。為驗證投資者情緒對股指預測的高效性,從SSECISI中剔除DPI,僅利用DOPEN、DHIGH、DLOW、DVOL、DAMO五個變量構(gòu)建上證交易組合指數(shù)(SSECPortfolio Index,SSECPI)。使用主成分分析法先對因子載荷矩陣進行方差最大正交變換求得因子得分(式4)和方差貢獻率(見表5),然后根據(jù)因子得分和方差貢獻率的加權(quán)平均(式5)獲得SSECPI和SSECISI數(shù)據(jù)[29]。

Fj=βj1X1+βj2X2+…+βjpXp,j=1,2,…,m

(4)

其中,F(xiàn)j為因子j的因子得分,βjp為成份Xp的因子得分系數(shù)。

(5)

其中,F(xiàn)為綜合得分,即本文構(gòu)造的指數(shù),Vj為因子j的貢獻率。

(四) 兩種預測方法股指預測檢驗

(1)建模預測。Granger因果關(guān)系檢驗表明情緒數(shù)據(jù)含有股指走勢信息,可以選取預測方法構(gòu)建預測模型。基于情緒數(shù)據(jù)和股指數(shù)據(jù)的非線性特征以及機器學習模型的良好非線性數(shù)據(jù)處理能力[26],本文選取構(gòu)建機器學習預測模型,希望能很好解釋投資者情緒與股指趨勢的非線性關(guān)系。因為SVM和BP神經(jīng)網(wǎng)絡(luò)都能處理非線性數(shù)據(jù)而又各有所長,本文則采用SVM和BP兩種方法對比驗證,避免隨機和偶然,以發(fā)現(xiàn)更好的適用方法。

建模前先將356個交易日的上證指數(shù)和投資者情緒數(shù)據(jù)作為樣本,根據(jù)不同時長分為三組:第1組時長18個月,起始日期為2016/07/19,樣本量、訓練集、測試集分別為365、267、89天;第2組時長9個月,起始日期為2017/04/05,樣本量、訓練集、測試集分別為185、136、49天;第3組時長4.5個月,起始日期為2017/08/16,樣本量、訓練集、測試集分別為93、72、21天。為檢驗上證投資者情緒綜合指數(shù)對上證指數(shù)收盤價預測結(jié)果的影響,特設(shè)計3組不同排列的輸入變量:P0,PSSECPI和PSSECISI。P0選取上證指數(shù)交易日t前3天的收盤價(SSECt-3,2,1),PSSECPI和PSSECISI是在P0基礎(chǔ)上分別加入滯后1天至3天的交易組合指數(shù)(SSECPIt-3,2,1)和投資者情緒綜合指數(shù)(SSECISIt-3,2,1),如式(6)所示:

(6)

本實驗使用BP神經(jīng)網(wǎng)絡(luò)和SVM兩種方法對三組輸入向量分別實驗。實驗前通過歸一化處理消除變量量綱,將數(shù)據(jù)歸于[0,1]之間,如式(7)所示:

X*=(X-Xmin)/(Xmax-Xmin)

(7)

其中,Xmax和Xmin分別為測試集中各變量的最大和最小值。

運行環(huán)境與參數(shù)設(shè)置方面,BP神經(jīng)網(wǎng)絡(luò):Kosmogorov定理證明合理結(jié)構(gòu)和恰當權(quán)值的三層前饋網(wǎng)絡(luò)具備逼近任意連續(xù)函數(shù)能力,故隱含層層數(shù)皆設(shè)置為1;根據(jù)反復實驗和擇優(yōu)原則,設(shè)置隱含層神經(jīng)元個數(shù)為6;學習速率為0.01,最小訓練誤差目標為0.001,最大迭代次數(shù)為100。SVM:數(shù)值型變量分類方式采用∈類支持向量回歸機(EPS-SVR),Kernel非線性映射函數(shù)(核函數(shù))選取雙曲正切函數(shù)(Tanhdot),核參數(shù)為1/k(k為特征向量的個數(shù)),懲罰參數(shù)C為1。

表5 SSECPI與SSECISI因子分析結(jié)果

采用走勢準確率(Direction,向上或向下)對SVM和BP神經(jīng)網(wǎng)絡(luò)的預測精度進行評價。其定義如下:

(8)

(2)算法準確率檢驗。本文分別采用BP神經(jīng)網(wǎng)絡(luò)和SVM方法對P0、PSSECPI、PSSECISI三組樣本進行實驗得股指走勢準確率對比結(jié)果(見表6):SVM預測準確率普遍優(yōu)于BP神經(jīng)網(wǎng)絡(luò);SVM-PSSECISI模型預測準確率在59%-70%,大于股指預測準確率滿意值56%[12],具有有效性;兩種預測方法的平均預測準確率發(fā)現(xiàn)PSSECISI>PSSECPI>P0,說明上證交易組合指數(shù)模型比純股指預測模型的預測準確率高,而上證投資者情緒綜合指數(shù)模型又比上證交易組合指數(shù)模型的預測準確率更高。綜合結(jié)果表明使用機器學習進行股指預測,SVM方法下的投資者情緒數(shù)據(jù)參與的綜合預測模型最優(yōu)。

表6 BP神經(jīng)網(wǎng)絡(luò)與SVM模型走勢準確率(%)

(五)預測效果與技術(shù)分析

(1)預測效果分析。本實驗中SVM預測效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò),可能原因是BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)的欠擬合和過擬合問題,而SVM核函數(shù)能將復雜非線性問題轉(zhuǎn)變?yōu)榫€性問題,增強魯棒性;PSSECPI>P0的原因在于市場交易的收盤價不由單一歷史收盤價決定,而是歷史多期多指標(開盤價、最高價、最低價、成交量、成交額)的共同作用,類似于量價技術(shù)分析模型(Trade Amount Per Index,TAPI)效果;PSSECISI>PSSECPI的原因是多指標數(shù)據(jù)綜合效應依然不能完全準確決定市場趨勢,不能全面反映投資者的主客觀決策依據(jù)。資本市場投資決策的復雜性說明需要補充更多的信息來源(如投資者情緒數(shù)據(jù))才能盡量準確預判市場趨勢;時長對比結(jié)果并不全是第3組>第2組>第1組,但第3組最優(yōu),第2組在所有BP神經(jīng)網(wǎng)絡(luò)算法下低于第1組,在SVM算法下PSSECPI效果低于第1組,說明時長在預測中的重要性,第3組單季度范圍數(shù)據(jù)預測效果可能因為無周期成分擾動而好于另外兩組,年度數(shù)據(jù)與三個季度數(shù)據(jù)則出現(xiàn)預測準確率排序不確定現(xiàn)象;另外,預測準確度還與數(shù)據(jù)采集和預處理相關(guān),清洗規(guī)則、標準化方法和情感詞典完備性都會影響在線情緒數(shù)據(jù)質(zhì)量。

(2)文本挖掘技術(shù)。以文本格式為主導的網(wǎng)絡(luò)非結(jié)構(gòu)化數(shù)據(jù)據(jù)稱占據(jù)全球全部數(shù)據(jù)量80%以上,包括電子郵件、文件、報告、表格、通話記錄、新聞稿、博客、微博、微信、問答、論壇、評論等,而純數(shù)字化數(shù)據(jù)占比較少。文本挖掘成為新型商業(yè)分析需求技術(shù),用以觀察各類商業(yè)行為及其效果。本文預測效果分析先決條件就是文本挖掘系列技術(shù):文本數(shù)據(jù)采集和清洗、文本數(shù)據(jù)分詞、文本情感詞典構(gòu)建、文本數(shù)據(jù)情感打分、情感數(shù)據(jù)標準化等。如輿情和評價等其他文本數(shù)據(jù)一樣,一方面,金融論壇情緒數(shù)據(jù)獲取與加工過程雖然沒有太大的技術(shù)難度,但會遇到前所未有的相應領(lǐng)域數(shù)據(jù)處理規(guī)則問題:數(shù)據(jù)采集規(guī)則、數(shù)據(jù)清洗規(guī)則、情感詞判分規(guī)則、情感語句判分規(guī)則等。這些已有的文本數(shù)據(jù)加工規(guī)則都稱不上完善或標準,目前還需要根據(jù)具體場景生成相關(guān)參數(shù)。另一方面,預測只能利用部分數(shù)據(jù)成分,而且是參與預測。獲取文本時序數(shù)據(jù)后,再進行標準化后就可以參與分析和預測。本文在預測前還做對數(shù)據(jù)進行平穩(wěn)性檢驗和相關(guān)分析,發(fā)現(xiàn)股指數(shù)據(jù)和加工所得的情緒數(shù)據(jù)都存在較大波動(非平穩(wěn)性),轉(zhuǎn)而思考使用差分數(shù)據(jù),檢驗合規(guī)后進行相關(guān)分析,結(jié)果是一般積極情緒與股指有明顯的相關(guān)。然后使用相關(guān)文本數(shù)據(jù)成分與股指其他指標組合構(gòu)建新預測指數(shù)數(shù)據(jù),而不是直接使用文本數(shù)據(jù)預測股指趨勢。

(3)機器學習預測技術(shù)。機器學習技術(shù)用于解決常規(guī)非線性問題,本文股指與文本兩樣數(shù)據(jù)都是非線性數(shù)據(jù),不宜使用平滑類預測模型,而是選取BP神經(jīng)網(wǎng)路和SVM兩種常用機器學習模型進行股指預測,并發(fā)現(xiàn)更為適用的模型,結(jié)果是SVM算法優(yōu)于BP神經(jīng)網(wǎng)絡(luò),其他應用場景也可能相反。為觀察時長影響,在預測過程分別使用三組時長不等數(shù)據(jù)對比試驗,結(jié)果是短時預測效果更好。這說明基于文本非線性數(shù)據(jù)的預測研究需要考察方法、模型和時長等多維情形,更為復雜的數(shù)據(jù)可以采用機器學習與小波分析相結(jié)合預測。針對復雜的非線性數(shù)據(jù)源,預測的科學化、嚴謹性還需要更好的基準數(shù)據(jù)庫和算法才能實現(xiàn)。科大訊飛人為參與機器同傳事件說明機器學習目前還不具備理想的算法,要求機器實時隨機同傳翻譯則忽視個性化語音和專業(yè)化詞匯訓練過程。如無大量語料庫作用,機器學習難以勝任無規(guī)律的隨機問題(未加訓練的方言、術(shù)語和外來詞等)。如果允許預先降噪和優(yōu)化原始數(shù)據(jù),滯后機器學習就會更好。另外,機器學習今天被廣泛地應用于人工智能,實現(xiàn)途徑就是完善地專業(yè)數(shù)據(jù)庫和場景適用算法,諸如可接受的網(wǎng)絡(luò)翻譯和語音識別等普適性業(yè)務(wù)以及多數(shù)據(jù)源的投資理財服務(wù)等。

三、結(jié)論

通過抓取網(wǎng)絡(luò)論壇情緒文本,提取金融專業(yè)詞匯進行文本挖掘,實現(xiàn)文本挖掘數(shù)據(jù)的專業(yè)化和精準化;應用關(guān)聯(lián)分析方法構(gòu)建投資者情緒綜合指數(shù),消除直接使用情緒數(shù)據(jù)進行預測的有偏性;利用機器學習方法設(shè)計良好的股指預測模型,提升股指走勢預測準確性,證明基于SVM的上證投資者情緒綜合指數(shù)模型進行股指預測更加有效。

在線情緒數(shù)據(jù)可不可用?怎么利用?怎樣用得更好?“可不可用”其實還是認識問題:主觀性、隨意性和主體差異性綜合形成在線情緒數(shù)據(jù)的復雜性,情感詞匯量化精準性影響在線情緒數(shù)據(jù)測度的科學性。在線情緒數(shù)據(jù)為現(xiàn)代研究接受與采用的主要原因是規(guī)模上超越局部復雜性和科學性的大數(shù)據(jù)宏觀統(tǒng)計規(guī)律;“怎么利用”問題是要超越傳統(tǒng)科學的因果律以大數(shù)據(jù)思維發(fā)現(xiàn)事物內(nèi)在或外在關(guān)聯(lián)性。在線情緒數(shù)據(jù)已被研究者用于數(shù)據(jù)挖掘,發(fā)現(xiàn)和驗證市場規(guī)律,預測市場走勢。專業(yè)數(shù)據(jù)公司和數(shù)據(jù)擁有者已開始使用在線大數(shù)據(jù)對用戶開展跟蹤畫像、精準推薦、輔助產(chǎn)品和服務(wù)設(shè)計、市場定價等諸多行為決策;在線情緒數(shù)據(jù)要“用得更好”前提是:建構(gòu)包容網(wǎng)絡(luò)語言的數(shù)據(jù)化、科學化和動態(tài)化專業(yè)詞庫,使用結(jié)構(gòu)化界面設(shè)計記錄網(wǎng)絡(luò)用戶結(jié)構(gòu)化數(shù)據(jù)(星級、關(guān)鍵詞、摘要、數(shù)據(jù)圖片),通過文本分析算法自動生成關(guān)鍵詞,應對現(xiàn)階段人工智能技術(shù)還未完全成熟的情況。

四、面向不同主體的決策支持建議

數(shù)據(jù)分析和決策支持離不開國內(nèi)外經(jīng)濟形勢研判,中美貿(mào)易摩擦逐漸深入和激烈,科技和金融是中美最大差距領(lǐng)域,也是增強我國經(jīng)濟驅(qū)動力的兩個方向:硬策略和軟策略。互聯(lián)網(wǎng)技術(shù)學習與應用最為成功,主要歸因于我國政府對此因勢而謀、應勢而動和順勢而為的默許、鼓勵、支持和管控。金融市場雖與市場經(jīng)濟同時開啟,但未在經(jīng)濟總量大幅攀升中獲取經(jīng)驗,歷經(jīng)多次股災,投資者、上市公司和監(jiān)管部門依然存在非理性行為。十九大報告強調(diào)我國當前三大攻堅戰(zhàn):防范和化解重大風險、精準脫貧、污染防治,以解決經(jīng)濟快速發(fā)展引致的潛在和顯性的宏觀大問題。后兩項解決三農(nóng)和環(huán)境問題,消除貧困和增加消費,改善環(huán)境和提高生活品質(zhì)。重中之重的是重大風險問題,包括金融失控風險、結(jié)構(gòu)失衡風險、生產(chǎn)過剩風險以及多種風險組合形成的整體系統(tǒng)風險。因此,資本市場各個主體和服務(wù)支持者(在線平臺和專業(yè)數(shù)據(jù)企業(yè))要充分利用各類大數(shù)據(jù),順應國家和社會需求,積極穩(wěn)定地投資該投資的,支持該支持的,管制該管制的。積極收集網(wǎng)絡(luò)用戶的聲音和挖掘網(wǎng)絡(luò)用戶需求,汲取經(jīng)驗,預判未來,理性決策,防范各類金融風險。

第一,分析和利用在線投資者情緒數(shù)據(jù),防范社會金融系統(tǒng)風險,保障市場健康發(fā)展。歷次金融危機說明資本市場有其自身的周期律,經(jīng)濟過熱、流動失控、技術(shù)瓶頸、國家競爭和資本操控等復雜成因的單一或綜合作用會導致一國或多國金融系統(tǒng)風險,監(jiān)管部門需要將在線投資者情緒數(shù)據(jù)和行為金融學研究成果納入市場監(jiān)管新依據(jù)。僅采用交易數(shù)據(jù)甄別擾亂市場的違法違規(guī)操作不具備普遍監(jiān)管效果。監(jiān)管部門分析和利用在線投資者情緒數(shù)據(jù):了解廣大投資者對于資本市場整體態(tài)度和輿情態(tài)勢以及對于監(jiān)管措施的意見和建議,追蹤金融事件和極端問題,及時調(diào)整監(jiān)管方向并快速切入監(jiān)管相關(guān)市場主體。監(jiān)管部門還能夠從數(shù)據(jù)分析在線投資者情緒,監(jiān)管和防范股市劇烈波動,杜絕個人或機構(gòu)發(fā)表批量輿論操控股價。

第二,完善面向大數(shù)據(jù)的技術(shù)能力,防范平臺技術(shù)安全風險,增加平臺數(shù)據(jù)收益。如電商平臺一樣,社交平臺正常運營需要設(shè)備和技術(shù)保證。阿里、百度、京東、騰訊、當當?shù)葒鴥?nèi)著名互聯(lián)網(wǎng)公司都發(fā)生過宕機事件,折射出因用戶量、數(shù)據(jù)量和峰值要求的技術(shù)安全問題。目前用戶消費、溝通交流和娛樂等生活習慣都已經(jīng)網(wǎng)絡(luò)化,勢必增加了平臺數(shù)據(jù)流量,同時也挑戰(zhàn)平臺承載能力。在軟硬件技術(shù)保障的前提下,除了收割廣告和流量收益外,平臺企業(yè)利用在線投資者情緒數(shù)據(jù)還可以:在法律允許范圍內(nèi)售賣用戶行為數(shù)據(jù)獲利,采用外包或自行分析方式獲得數(shù)據(jù)分析中間成果或最終成果并進行售賣獲利。平臺企業(yè)進行數(shù)據(jù)分析的優(yōu)越性在于數(shù)據(jù)的完備性,有利于個股、單個投資者、板塊和整體股指的深入和精準分析,趨勢預測和薦股結(jié)果會更加讓人信服。平臺競爭本質(zhì)上就是技術(shù)、服務(wù)和用戶的競爭,繼而是服務(wù)器群、數(shù)據(jù)量和數(shù)據(jù)分析與挖掘的競爭,保障安全,攫取數(shù)據(jù)收益。

第三,成立大數(shù)據(jù)分析部門,助力上市公司研判市場趨勢,精準投融資決策。資本市場行情影響上市公司財務(wù)戰(zhàn)略決策,利好行情會有更多資本進入,方便增發(fā)股票和加大融資,也方便購買股票和加大投資。在線情緒數(shù)據(jù)能夠幫助上市公司判斷投資者對資本市場行情的主觀評價與投資愿望,相關(guān)研究結(jié)果有助于上市公司判斷資本市場行情,及時做好融資和投資決策。新建大型或小型社交網(wǎng)站或在著名社交網(wǎng)站平臺開設(shè)企業(yè)專欄用于發(fā)現(xiàn)投資者的情緒信息和評價細節(jié),并做好公司運營層面的管理與控制,通過積極的經(jīng)營戰(zhàn)略和積極的在線承諾防止相關(guān)負面情緒擴大化,保持良好聲譽和品牌價值;有條件的上市公司建議成立大數(shù)據(jù)部門,招聘數(shù)據(jù)分析與挖掘人才,實現(xiàn)多源數(shù)據(jù)分析和利用的專業(yè)化和科學化,形成更為精準的投融資決策;小型上市公司可通過多種渠道購買在線情緒數(shù)據(jù)或者數(shù)據(jù)分析結(jié)果,觀察市場,了解自己,把握先機。

第四,關(guān)注在線情緒數(shù)據(jù)和相關(guān)成果,增強個體投資合理性和穩(wěn)健性,避免盲從風險。投資成為人們?nèi)粘I铌P(guān)鍵訴求,然而普遍存在一種“賭徒式”投機心理和“傳銷式”操作模式,無視交易數(shù)據(jù)、基本面數(shù)據(jù)和資本市場規(guī)律,缺乏對在線情緒數(shù)據(jù)的觀察、分析與思考。非法股評專家、薦股師和金融衍生品的推銷者利用微信群或QQ群誘導盲目的投資者。大量股民的非理性為個人或機構(gòu)提供操縱股票的信心而導致股市劇烈波動,形成監(jiān)管難度和散戶損失。因此,個體投資者需要關(guān)注網(wǎng)絡(luò)上其他投資者情緒數(shù)據(jù)和相關(guān)研究成果,輔助其他投資技術(shù)方法,參照基本面數(shù)據(jù)和交易走勢數(shù)據(jù),利用在線情緒數(shù)據(jù)的共識性投資態(tài)度和傾向,進行合理投資決策,避免投資過熱和消極投資。

第五,理性對待人工智能熱,優(yōu)化資本布局,遵循技術(shù)與商業(yè)協(xié)同發(fā)展規(guī)律。資本布局首要追求是高回報,也易在經(jīng)濟熱度上迷信“高風險”。普華永道預測:2030年,中國GDP將達38萬億美金,有7 萬億美金為人工智能(AI)驅(qū)動。高盛預測:2025年,全球AI金融服務(wù)規(guī)模達340-430億美元,AI零售業(yè)規(guī)模將會高達540億美元。國際權(quán)威機構(gòu)CB Insights統(tǒng)計:2017年,全球范圍內(nèi)有152億美元投資進入AI領(lǐng)域,中國公司為73億美元,占比48%,位列第一。2017年被稱為AI商業(yè)化元年。與之相反的數(shù)據(jù)是騰訊研究院的AI研究報告:中美倒閉AI企業(yè)總數(shù)已超過50家,AI企業(yè)將迎來“倒閉潮”。原因是一些急功近利的資本誤入商業(yè)上的“偽創(chuàng)新”和“偽概念”,無視或不清楚“自動”、“智能”與“智慧”的區(qū)別。投資主體和支持平臺都需要理性認識技術(shù)演進和拓展規(guī)律,保障AI技術(shù)與商業(yè)協(xié)同發(fā)展,重實干、重過程和重階段,承擔機會風險而不是技術(shù)瓶頸風險。技術(shù)瓶頸的突破可由研究機構(gòu)和部門借助政府基金和高風險研發(fā)資本先行攻關(guān)實現(xiàn)。

第六,共享服務(wù)平臺與大數(shù)據(jù)信息,實現(xiàn)城市發(fā)展的智慧化、特色化和均衡化。全國范圍內(nèi),應該拆除各類公路收費站、取消各類通信區(qū)域限制(長途電話)、升級通信技術(shù)服務(wù)(5G技術(shù))、完善各級政府辦公及政策信息和各類企業(yè)生產(chǎn)與服務(wù)信息。城市群范圍內(nèi),在交通、住房和相關(guān)配套服務(wù)都已逐步完備的條件下,需要通過現(xiàn)代通信和大數(shù)據(jù)技術(shù)獲取各類在線市民聲音,改進各類民生服務(wù),逐步實現(xiàn)城市群內(nèi)的各類信息智慧化共享。在此基礎(chǔ)上實現(xiàn)城市發(fā)展的特色化和均衡化:供應鏈上,大型城市發(fā)展企業(yè)集團總部,中型城市發(fā)展企業(yè)分部,小型城市發(fā)展零部件生產(chǎn)基地;產(chǎn)業(yè)升級上,相對發(fā)達的城市可以傾向于發(fā)展芯片、新材料、精密加工等高端研發(fā)和制造產(chǎn)業(yè),相對落后的城市可以優(yōu)先發(fā)展人工智能應用、大數(shù)據(jù)分析、軟件外包等輕、快、高產(chǎn)業(yè)。

猜你喜歡
情緒文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小情緒
小情緒
小情緒
小情緒
小情緒
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 一级毛片免费播放视频| 亚洲精品视频网| 国内自拍久第一页| 国产精品黑色丝袜的老师| 一区二区在线视频免费观看| 久热这里只有精品6| 在线观看无码av免费不卡网站 | 国产91小视频| 国产哺乳奶水91在线播放| 找国产毛片看| 91热爆在线| 狠狠做深爱婷婷久久一区| 国产日本欧美在线观看| 色播五月婷婷| 欧美成人精品一区二区| AⅤ色综合久久天堂AV色综合| 中文字幕2区| 青青青亚洲精品国产| 欧美A级V片在线观看| 国产jizzjizz视频| 91成人在线免费观看| 2021无码专区人妻系列日韩| 538国产视频| 国产后式a一视频| 亚洲AV无码乱码在线观看代蜜桃| 国产天天射| 亚洲色无码专线精品观看| 国产精品手机在线播放| P尤物久久99国产综合精品| 色妞www精品视频一级下载| 欧美成人免费一区在线播放| 香蕉eeww99国产在线观看| av在线手机播放| 色综合成人| 亚洲第一网站男人都懂| 日韩精品久久无码中文字幕色欲| JIZZ亚洲国产| 亚洲色精品国产一区二区三区| 久久超级碰| 97综合久久| 亚洲精品桃花岛av在线| 免费毛片a| 久久美女精品国产精品亚洲| 国产精品自拍露脸视频 | 亚洲v日韩v欧美在线观看| 草逼视频国产| 国产精品视频白浆免费视频| 国产特一级毛片| 2019国产在线| 欧美日韩亚洲国产| 国产欧美视频综合二区| 国产亚洲欧美在线专区| 欧美亚洲另类在线观看| 久久久久无码国产精品不卡| 国产黑人在线| 婷婷亚洲综合五月天在线| 亚洲精品无码成人片在线观看| 国产一区二区三区免费观看| 亚洲AV色香蕉一区二区| 男女男免费视频网站国产| 国产精品播放| 国产福利在线免费观看| 久久久久青草线综合超碰| 四虎在线观看视频高清无码| 久操线在视频在线观看| 91精品国产91久久久久久三级| 国产成人无码播放| 中文字幕永久视频| 国产99在线| 国产一在线观看| 国产人免费人成免费视频| 欧美午夜视频在线| 狠狠五月天中文字幕| 亚洲国产精品国自产拍A| 亚洲欧美另类日本| 全部无卡免费的毛片在线看| 综合成人国产| 欧美午夜小视频| 国产性生大片免费观看性欧美| 欧美在线精品怡红院| 欧美综合区自拍亚洲综合绿色| 国产精品无码AV片在线观看播放|