999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在股票財務指標中的應用

2015-05-30 18:48:08蔡麗
數學學習與研究 2015年7期
關鍵詞:數據挖掘

蔡麗

【摘要】本文利用數據挖掘中的分類方法,選取了部分上市公司的財務比率數據,用R軟件進行分析,為投資者提供決策依據.

【關鍵詞】 數據挖掘;財務指標;分類方法

【基金項目】北京市教委科研計劃項目(KM201410011006)

一、引 言

數據挖掘是從大量不完全、有噪聲、隨機的實際應用數據中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識的過程.目前已經用于客戶關系管理、銀行風險項目評估和金融市場等多個領域,用于財務指標分析的還不多見.本文旨在通過數據挖掘方法分析上市公司的財務指標數據,建立模型,輔助投資者深入認識公司的財務狀況,為多數股民,特別是散戶進行相關問題的正確決策提供數據支持.

二、分類算法

分類在數據挖掘中是一類很重要的方法,在商業上的應用最多.其目的是學會一個分類函數或分類模型,能把數據庫中的數據項映射到給定的某一個類別.本論文主要側重數據挖掘中分類算法在股票財務指標方面的應用.其中用到決策樹、隨機森林、支持向量機(SVM)三種算法.

三、分類模型的建立

1.數據理解

本文的數據來源于銳思金融數據庫,所選的數據為2012年10月8日前上市的公司信息.屬性包括:每股指標中的每股收益和每股凈資產,盈利能力中的銷售凈利率,成長能力指標中的凈資產收益率、凈資產增長率和凈利潤增長率等12個屬性,包括了公司不同能力方面的財務比率數據.因變量是根據2012年10月8日和2013年10月8日的收盤價與這兩天大盤的收盤價變化率相比,若比大盤的收盤價的變化率高,則標記為“好”,反之標記為“差”.

2.數據處理

(1)決策樹

本文建立決策樹[3]的過程中,用到的是rpart.Control函數,其中,最小樣本量minsplit為20,進行交叉驗證剪枝的交叉折數xval為10,最大樹深度maxdepth為5,最小代價復雜度剪枝中的復雜度參數CP值為0.01.

劃分特征空間時,用到的是gini指標,它用來度量數據劃分或者數據集的不純度,數據集D的gini指標公式為:Gini(D).其中,pi是D中樣本屬于Ci類的概率,并用Cj,D[]D

估計.

同時構建決策樹過程中用到的重要變量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.

根據最后形成的決策樹得到分類規則,比如:NAPS≥4.9,NOCF≥2.3e+9則預測為bad.

(2)隨機森林

本文中,隨機森林共建立了500棵決策樹,每個節點的候選輸入變量個數為3.基于袋外觀測的預測誤判率為42.76%.由袋外觀測的混淆矩陣來看,單個模型對兩個類別的預測精度均不理想.隨機森林對所有觀測進行預測,預測誤差為0.

在評價各輸入變量的重要性時,要用到importance函數,其中MeanDecreas

e Accuracy表示預測精度的平均減少量,MeanDecreaseGini表示給出節點異質性指標的平均減少量.為了更全面直觀地評價各輸入變量的重要性,用varImpPlot函數進行作圖,見圖1:

輸入變量重要性測度散點圖圖1 輸入變量重要性測度散點圖

從對輸出變量預測精度的影響看,每股凈資產、銷售凈利率、流動比率、經營現金凈流量比較重要.從對輸出變量異質性下降程度的影響看,同樣是這幾個變量較為重要,即每股凈資產、銷售凈利率、流動比率、經營現金凈流量不同的上市公司,對是否優于大盤有較大的影響.

(3)SVM

在對數據處理的過程中,文中利用網格搜索法10折交叉驗證尋找較優參數,確定cost和gamma值,構建SVM模型.

根據最后SVM對測試集的預測結果,可以得到ROC曲線,見圖2:

在圖2中,橫坐標代表錯誤的正例率(FPR),縱坐標代表正確的正例率(TPR).希望TPR盡量的大,FPR盡量的小即圖中的曲線越靠左上方說明預測得越好.而從圖中的曲線來看,預測效果還有較大的差距.

四、分析與總結

經過比較,隨機森林給出了最高的預測率60%,決策樹其次,支持向量機排在最后.見表1:

分析 表1可以看出: 從三種方法對測試集的分類正確率來看,隨機森林最高,但它們在處理其他行業數據時,精確度達到90%以上[6-8],可見,數據本身對模型的結果還是有很大的影響.因此,股市想要通過分析財務比率來達到很好的預測效果還是很困難的,雖然與所構建的模型有關,但最大的原因還在于股市本身的波動性[9].

【參考文獻】

[1]趙選民,薛建樓.利用數據挖掘技術分析上市公司財務狀況[J].中國管理信息化.2009,12(3):30-32.

[2]李航.統計學方法[M].北京:清華大學出版社,2012.

[3]John Durkin,蔡競峰,蔡自興.決策樹技術及其當前研究方向[J].控制工程,2005,12(1):15-18.

[4]馬景義,吳喜之,謝邦昌.擬自適應分類隨機森林算法[J].數理統計與管理,2010,29(5):806-811.

[5]薛薇.基于R的統計分析與數據挖掘[M].中國人民大學出版社,2014.

[6]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預測中的應用[J].中國衛生統計,2013,30 (3): 422-423.

[7]袁敏,胡秀珍.隨機森林方法預測膠原蛋白類型[J].生物物理學報,2009,25 (5): 349-354.

[8]張華,曾杰.基于支持向量機的風速預測模型研究[J].太陽能學報,2010,31 (7): 928-931.

[9]張彥來.數據挖掘在股票投資中的應用[D].北京:首都經濟貿易大學,2010.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 色婷婷丁香| 国产精品网址你懂的| 中文字幕在线不卡视频| 制服丝袜 91视频| 亚洲第一极品精品无码| 国产精品蜜臀| 欧日韩在线不卡视频| 国产成人精品高清不卡在线| 日韩av手机在线| 欧美成人看片一区二区三区 | 国产三级成人| 婷婷六月综合网| 精品久久久久久中文字幕女| 综合成人国产| 18禁高潮出水呻吟娇喘蜜芽| 18禁不卡免费网站| 亚洲欧美日韩色图| 久久99热66这里只有精品一| 国模沟沟一区二区三区| 91精品日韩人妻无码久久| 亚洲精品爱草草视频在线| 57pao国产成视频免费播放| 国产精品偷伦视频免费观看国产| 日韩无码真实干出血视频| 精品无码一区二区三区在线视频| 亚洲国产综合第一精品小说| 国产乱人免费视频| 老司机aⅴ在线精品导航| 欧美日本在线播放| 欧美人与牲动交a欧美精品| 国产精品人成在线播放| 国产精品99在线观看| 国产精品福利尤物youwu| 色老二精品视频在线观看| 亚洲爱婷婷色69堂| 嫩草影院在线观看精品视频| 精品视频一区在线观看| 日韩欧美网址| 亚洲精品少妇熟女| 日韩国产高清无码| 国产一区亚洲一区| 99视频精品在线观看| 为你提供最新久久精品久久综合| 亚洲欧美h| 日韩A级毛片一区二区三区| a级毛片免费网站| 亚洲成人精品在线| 亚洲精品男人天堂| 免费一极毛片| 人人澡人人爽欧美一区| 一区二区理伦视频| 久草视频一区| 免费欧美一级| 99久久国产综合精品2020| www.91中文字幕| 小说 亚洲 无码 精品| 久久这里只精品热免费99| 亚洲女人在线| 亚洲一欧洲中文字幕在线| 亚洲AV电影不卡在线观看| 亚洲第一成网站| 亚洲欧洲日韩综合色天使| 免费视频在线2021入口| 2021国产精品自拍| 久久一日本道色综合久久| 日韩在线影院| 无码AV动漫| 免费激情网址| 92精品国产自产在线观看| 欧美日韩精品在线播放| 亚洲熟女中文字幕男人总站| 在线国产毛片手机小视频| 激情影院内射美女| 亚洲av无码牛牛影视在线二区| 国产毛片高清一级国语| 国产自产视频一区二区三区| 人妻精品久久久无码区色视| 91亚洲视频下载| 一级一毛片a级毛片| 久久精品国产精品一区二区| 亚洲精品无码抽插日韩| 多人乱p欧美在线观看|