(山西財經大學 山西 太原 030000)
數據挖掘技術在股價分析中的應用
張夢嬌童盼
(山西財經大學山西太原030000)
隨著我國經濟體制改革的不斷深化,資產證券化的步伐不斷的加快,股票市場在資本市場中的重要性日益的突出,社會投資的模式也日益的增多,例如基金投資等等,人們的投資理念日益增強。從荷蘭誕生最早的股份有限公司開始,人們就沒有停止過對股票市場的探究,而探究的最終目的都是在降低風險的同時保證可觀的收益,因此股票數據的分析預測具有很大的現實意義。隨著經濟理論以及數理模型的不斷改革,各種預測方式和分析模型應運而生,投資者可以有更多的選擇去運用自己熟悉的分析手段。近年來,隨著數據挖掘理論的發展,大數據時代的爆發,證券市場的交易行為開始逐漸被納入了大數據挖掘研究的領域。
數據挖掘;股價分析;決策樹
我國的股票市場起步較晚,但是發展迅速,電子信息化程度與國際接軌,積累了大量的金融數據。目前,我國股票市場發展良好,在三十多年的探索中不斷地成熟起來,不斷地改革,不斷地創新。為了解決高度發達的金融市場和滯后的數據處理能力,有必要把數據挖掘技術引入到證券市場上來,把證券市場做大做強,使金融結構更加合理,市場更加智能化。數據挖掘技術的飛速發展,能夠給股價的發展趨勢預測插上飛翔的翅膀,它足以應付不斷發展,不斷產生大量數據的股市,能夠解決投資者在投資過程中所面臨的兩大問題:買賣什么股票以及何時買進何時賣出。
從同花順炒股軟件中隨機選取20只股票,對它們從2015年11月19日到2015年12月30日這一段時間內的34個交易日的數據進行區間統計處理,作為樣本,進行決策樹算法分析。
各個屬性取值為:成交總量為(大,小)、換手%為(高,低)、成交方向(買入,賣出)、凈大單量(多,少);股票價格的漲跌情況分為兩大類:上漲幅度大于10%(Up)、下跌幅度大于-10%(Dn),其余的漲跌幅介于[10%,-10%]的設置為震蕩類(Zd);成交總量分為兩類:成交總量資金占總股本市值大于20%的為成交量大,小于20%的為成交量小;換手%分為兩類:換手率大于50%的為高,小于50%的為低;成交方向分兩類:凈買入大于凈賣出的標記為買入和凈賣出大于凈買入標記為賣出;凈大單量分為兩類:凈大單總額占總市值大于20%的為多,少于20%的為少。隨機抽取的20只股票訓練樣本集見下表1:

表1 訓練樣本集

所以各分類對應信息熵的值為:
I(Up,Dn,Zd)=I(4,3,13)=-(0.2×log20.2+0.15log20.15+0.65×log20.65)=1.279
如此遞歸下去,最終可以得到一棵決策樹,如圖1所示:

圖1 得到的決策樹
由生成的ID3決策樹來看,在某段時間,如果某只股票換手%比較高,同時主力成交方向為“買入”的話,那么這只股票的價格會上漲;反之,如果在換手%比較高,主力成交方向為“賣出”,而且凈大單量小的話,這只股票的價格會下跌或者震蕩。
隨著經濟的發展和人們投資意識的轉變,資產證券化將是未來投資的趨勢,現如今股票投資己成為大部分人投資的一種重要手段,因此,股價走勢預測方法的研究具有重要價值和理論意義。證券市場是一個非常復雜的系統,股票價格趨勢的分析是一個極具難度和挑戰性的課題。隨著信息技術和數據挖掘技術的發展,越來越多的新算法及模型被應用于股市數據的分析,這些方法對降低股票投資分析的難度和增加股票投資的收益具有一定的參考價值。
[1]孫文高,劉劍橋.證券投資組合的風險與收益權衡[J].中國經貿,2014(14):131-131.
[2]王靜紅,李筆.基于決策樹的一種改進算法[J].電訊技術,2004,44(5):175-178.
[3]張璐璐.基于關聯規則的離群挖掘的研究[D].安徽大學,2007.
[4]張勝權.基于數據挖掘的股價走勢預測[D].華中科技大學,2009.
[5]封俊國,嚴蜻,劉洪生.“大金融”戰略下的金融學科建設研究[J].金融教學與研究,2013(5):62-64.
張夢嬌,女,漢族,內蒙古烏蘭察布市,碩士研究生在讀,山西財經大學,風險管理。