龐帥
(中南財經政法大學 湖北省武漢市 430073)
摘 要:隨著證券市場的迅猛發展,股票數據信息爆炸式增長,如何從龐大的敷據中找到有用的信息來指導投資者的投資行為成為一個重要的學術研究方向.從數據挖掘技術入手,在關聯規則分析的處理算法基礎上,引入股票成交量數據項以及二雛時間模式對股票敷據進行數據挖掘,并對比試驗的結果.試驗證明,該改進時投資者提供了更為有效的決策支持. 本文介紹了在數據挖掘中關聯規則的基本概念和屬性 ,進一步討論了關聯規則在股票信息數據挖掘中的應用 .
1.關聯規則。
數據挖掘又被稱之為知識發現,具體是指從大量的數據中提取一些比較可信的、新穎的且有效的模式處理過程。它通過系統的應用機器靴子以及統計分析等計算機科學技術老分析和表示存在于一個大型數據庫中的知識。
1.1關聯分析的定義。
關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。或者說,關聯分析是發現交易數據庫中不同商品(項)之間的聯系。
關聯分析是一種簡單、實用的分析技術,就是發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。
關聯分析是從大量數據中發現項集之間有趣的關聯和相關聯系。關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放人其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。
可從數據庫中關聯分析出形如“由于某些事件的發生而引起另外一些事件的發生”之類的規則。如“67%的顧客在購買啤酒的同時也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務質量和效益。又如“‘C語言課程優秀的同學,在學習‘數據結構時為優秀的可能性達88%”,那么就可以通過強化“C語言”的學習來提高教學效果。
1.2關聯分析的方法。
關聯分析主要包括兩種分析方法:
第一是,Apriori算法
Apriori算法是挖掘產生布爾關聯規則所需頻繁項集的基本算法,也是最著名的關聯規則挖掘算法之一。Apriori算法就是根據有關頻繁項集特性的先驗知識而命名的。它使用一種稱作逐層搜索的迭代方法,k—項集用于探索(k+1)—項集。首先,找出頻繁1—項集的集合.記做L1,L1用于找出頻繁2—項集的集合L2,再用于找出L3,如此下去,直到不能找到頻繁k—項集。找每個Lk需要掃描一次數據庫。
Apriori性質:一個頻繁項集的任一子集也應該是頻繁項集。
雖然Apriori算法仍存在著一定的缺陷,但是研究者們已經分析和研究出了一些相關的優化Apriori算法的方式:
1)基于劃分的方法。該算法先把數據庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻繁項集,然后把產生的頻繁項集合并,用來生成所有可能的頻繁項集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻繁項集至少在某一個分塊中是頻繁項集保證的。
2)基于Hash的方法。Park等人提出了一個高效地產生頻繁項集的基于雜湊(Hash)的算法。通過實驗可以發現,尋找頻繁項集的主要計算是在生成頻繁2—項集Lk上,Park等就是利用這個性質引入雜湊技術來改進產生頻繁2—項集的方法。
3)基于采樣的方法。基于前一遍掃描得到的信息,對它詳細地做組合分析,可以得到一個改進的算法,其基本思想是:先使用從數據庫中抽取出來的采樣得到一些在整個數據庫中可能成立的規則,然后對數據庫的剩余部分驗證這個結果。這個算法相當簡單并顯著地減少了FO代價,但是一個很大的缺點就是產生的結果不精確,即存在所謂的數據扭曲(Dataskew)。分布在同一頁面上的數據時常是高度相關的,不能表示整個數據庫中模式的分布,由此而導致的是采樣5%的交易數據所花費的代價同掃描一遍數據庫相近。
4)減少交易個數。減少用于未來掃描事務集的大小,基本原理就是當一個事務不包含長度為志的大項集時,則必然不包含長度為走k+1的大項集。從而可以將這些事務刪除,在下一遍掃描中就可以減少要進行掃描的事務集的個數。這就是AprioriTid的基本思想。
第二是,FP-growth算法。
雖然算法已經在不斷的研究和分析中提出了相關的優化方法,但是其效率仍不能使人十分滿意。因此,2000年,Han Jiawei等人提出了基于頻繁模式樹(Frequent Pattern Tree,簡稱為FP-tree)的發現頻繁模式的算法FP-growth。在FP-growth算法中,通過兩次掃描事務數據庫,把每個事務所包含的頻繁項目按其支持度降序壓縮存儲到FP—tree中。在以后發現頻繁模式的過程中,不需要再掃描事務數據庫,而僅在FP-Tree中進行查找即可,并通過遞歸調用FP-growth的方法來直接產生頻繁模式,因此在整個發現過程中也不需產生候選模式。該算法克服了Apriori算法中存在的問題.在執行效率上也明顯好于Apriori算法。
2.關聯模式下的股票分析
有些數據并不能像售貨數據一個比較容易的看出一個事物是多種事物的集合,但是經過一定的預處理后,仍然可以像售貨數據一樣進行關聯規則的分析。比例股票交易行情。
2.1股票數據的分析
在股票價交易的事物處理中,每天有以交易為主的大量書庫匯入數據庫,由于上市公司之間存在著一定的合作和競爭關系,因此某些股票的價格在一定時間內會出現一些相似或者相反的趨勢。分析這些數據和股票之前的關聯能夠有利于投資者了解和分析股票的一定時期內的走勢以及股票走勢與股票之前的關系,從而進一步分析上市公司的各種政策和方案,從而做出最為正確的投資。
在具體的股票數據分析中可以通過記錄股票發展過程中的多個即時行情,其中包括時間、開盤價、收盤價、最高價、最低價以及漲幅、成交了等一些相關內容來進行股票數據的分析。通過進一步分析股票代碼、交易時間以及漲跌幅等信息可以得出類似的關聯規則,例如:在一定時間內,當A股票的價格上漲時,B股票的價格也會隨之上漲。
2.2挖掘關聯規則。
如果項集的出現頻率大于或則等于最小支持度與事務總數的乘積,則該項集滿足最小支持度,稱它為頻繁項集。
在挖掘關聯規則的過程中主要包括兩個步驟:
第一,通過頻繁項集的定義找出所有的頻繁項集。
第二,利用頻繁項集生成所需要的關聯規則。
簡單的統計所有含一個元素的項目集出現的頻率,并從中找到不小于最小支持度的項目集是分析和挖掘關聯規則過程中最為核心的問題。由于股票代碼屬于布爾型變量。即股票代碼相當于售貨數據庫中的某個商品,這樣我們就可以直接運用Apriori算法來進行分析和挖掘。
此外,在分析和挖掘股票行情的過程中,可以在首次挖掘的基礎上進行二次挖掘,從容進一步分析和研究各股票之間的趨勢和變化的周期性以及多維相似性,從而得到更多有用的結果。
3.結語
本文簡單的介紹了關聯分析的定義以及關聯分析的具體方法,通過關聯分析的規則分析了其在挖掘股票市場有效信息的應用。通過股票行情的變化分析得到相應的大家比較感興趣的規則,從而幫助大家能夠更好、更加理智的進行投資和選擇。但是在具體的分析過程中由于沒有充分的考慮到成交量的因素,因此在挖掘和分析的過程中存在著一定的局限性。股票的價格往往是政治、價格以及社會等因素的綜合反映,因此在分析和挖掘股票關聯規則的同時最好結合證券市場的基本信息進行分析和研究,從而提高其有效性。
參考文獻:
[1]數據挖掘中關聯規則的改進算法及其實現[J]. 楊健兵.微計算機信息. 2006(21)
[2]關聯規則挖掘Apriori算法的改進與實現[J]. 陳文慶,許棠.微機發展. 2005(08)
[3]滬深股市股票價格與交易量關系的實證研究[J]. 童明,余董,景榮.重慶師范大學學報(哲學社會科學版). 2005(04)endprint