蔡麗


【摘要】本文利用數據挖掘中的分類方法,選取了部分上市公司的財務比率數據,用R軟件進行分析,為投資者提供決策依據.
【關鍵詞】 數據挖掘;財務指標;分類方法
【基金項目】北京市教委科研計劃項目(KM201410011006)
一、引 言
數據挖掘是從大量不完全、有噪聲、隨機的實際應用數據中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識的過程.目前已經用于客戶關系管理、銀行風險項目評估和金融市場等多個領域,用于財務指標分析的還不多見.本文旨在通過數據挖掘方法分析上市公司的財務指標數據,建立模型,輔助投資者深入認識公司的財務狀況,為多數股民,特別是散戶進行相關問題的正確決策提供數據支持.
二、分類算法
分類在數據挖掘中是一類很重要的方法,在商業上的應用最多.其目的是學會一個分類函數或分類模型,能把數據庫中的數據項映射到給定的某一個類別.本論文主要側重數據挖掘中分類算法在股票財務指標方面的應用.其中用到決策樹、隨機森林、支持向量機(SVM)三種算法.
三、分類模型的建立
1.數據理解
本文的數據來源于銳思金融數據庫,所選的數據為2012年10月8日前上市的公司信息.屬性包括:每股指標中的每股收益和每股凈資產,盈利能力中的銷售凈利率,成長能力指標中的凈資產收益率、凈資產增長率和凈利潤增長率等12個屬性,包括了公司不同能力方面的財務比率數據.因變量是根據2012年10月8日和2013年10月8日的收盤價與這兩天大盤的收盤價變化率相比,若比大盤的收盤價的變化率高,則標記為“好”,反之標記為“差”.
2.數據處理
(1)決策樹
本文建立決策樹[3]的過程中,用到的是rpart.Control函數,其中,最小樣本量minsplit為20,進行交叉驗證剪枝的交叉折數xval為10,最大樹深度maxdepth為5,最小代價復雜度剪枝中的復雜度參數CP值為0.01.
劃分特征空間時,用到的是gini指標,它用來度量數據劃分或者數據集的不純度,數據集D的gini指標公式為:Gini(D).其中,pi是D中樣本屬于Ci類的概率,并用Cj,D[]D
估計.
同時構建決策樹過程中用到的重要變量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.
根據最后形成的決策樹得到分類規則,比如:NAPS≥4.9,NOCF≥2.3e+9則預測為bad.
(2)隨機森林
本文中,隨機森林共建立了500棵決策樹,每個節點的候選輸入變量個數為3.基于袋外觀測的預測誤判率為42.76%.由袋外觀測的混淆矩陣來看,單個模型對兩個類別的預測精度均不理想.隨機森林對所有觀測進行預測,預測誤差為0.
在評價各輸入變量的重要性時,要用到importance函數,其中MeanDecreas
e Accuracy表示預測精度的平均減少量,MeanDecreaseGini表示給出節點異質性指標的平均減少量.為了更全面直觀地評價各輸入變量的重要性,用varImpPlot函數進行作圖,見圖1:
輸入變量重要性測度散點圖圖1 輸入變量重要性測度散點圖
從對輸出變量預測精度的影響看,每股凈資產、銷售凈利率、流動比率、經營現金凈流量比較重要.從對輸出變量異質性下降程度的影響看,同樣是這幾個變量較為重要,即每股凈資產、銷售凈利率、流動比率、經營現金凈流量不同的上市公司,對是否優于大盤有較大的影響.
(3)SVM
在對數據處理的過程中,文中利用網格搜索法10折交叉驗證尋找較優參數,確定cost和gamma值,構建SVM模型.
根據最后SVM對測試集的預測結果,可以得到ROC曲線,見圖2:
在圖2中,橫坐標代表錯誤的正例率(FPR),縱坐標代表正確的正例率(TPR).希望TPR盡量的大,FPR盡量的小即圖中的曲線越靠左上方說明預測得越好.而從圖中的曲線來看,預測效果還有較大的差距.
四、分析與總結
經過比較,隨機森林給出了最高的預測率60%,決策樹其次,支持向量機排在最后.見表1:
分析 表1可以看出: 從三種方法對測試集的分類正確率來看,隨機森林最高,但它們在處理其他行業數據時,精確度達到90%以上[6-8],可見,數據本身對模型的結果還是有很大的影響.因此,股市想要通過分析財務比率來達到很好的預測效果還是很困難的,雖然與所構建的模型有關,但最大的原因還在于股市本身的波動性[9].
【參考文獻】
[1]趙選民,薛建樓.利用數據挖掘技術分析上市公司財務狀況[J].中國管理信息化.2009,12(3):30-32.
[2]李航.統計學方法[M].北京:清華大學出版社,2012.
[3]John Durkin,蔡競峰,蔡自興.決策樹技術及其當前研究方向[J].控制工程,2005,12(1):15-18.
[4]馬景義,吳喜之,謝邦昌.擬自適應分類隨機森林算法[J].數理統計與管理,2010,29(5):806-811.
[5]薛薇.基于R的統計分析與數據挖掘[M].中國人民大學出版社,2014.
[6]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預測中的應用[J].中國衛生統計,2013,30 (3): 422-423.
[7]袁敏,胡秀珍.隨機森林方法預測膠原蛋白類型[J].生物物理學報,2009,25 (5): 349-354.
[8]張華,曾杰.基于支持向量機的風速預測模型研究[J].太陽能學報,2010,31 (7): 928-931.
[9]張彥來.數據挖掘在股票投資中的應用[D].北京:首都經濟貿易大學,2010.