趙艷琪,茍 剛
(貴州大學 計算機科學與技術學院,貴州 貴陽 550025)
?
關聯規則在藝術品股票預測方面的應用
趙艷琪,茍 剛
(貴州大學 計算機科學與技術學院,貴州 貴陽 550025)
股票市場瞬息萬變,每天產生大量的交易數據。隨著藝術品股票市場的興起,越來越多的人投資于藝術品股票。由于藝術品股票價格受多方面的影響,需要尋求更為有效的方法來對藝術品交易市場進行預測。利用Apriori算法的改進算法對藝術品股票進行關聯規則挖掘,得到藝術品股票之間的關聯關系,進而對投資者做出正確決策有一定的輔助作用,防止投資者盲目投資,降低藝術品股票市場交易風險。
數據挖掘;關聯規則;藝術品股票
近年來,隨著中國藏品熱和我國政府關于藝術品交易政策的改變,中國已經取代美國成為世界第一大藝術品交易市場。2010年7月,深圳文化產權交易所推出了“深圳文化產權交易所1號藝術品資產包”,這是國內外首次出現的“權益拆分”投資模式,即藝術品股票。自此藝術品股票作為一種新型的金融產品越來越受到人們的關注[1]。
由于藝術品股票價格受多方面的影響,尤其是藝術品交易市場相對于股票市場來說莊家的影響更大,所以需要尋求更為有效的方法來對藝術品交易市場進行預測。在藝術品股票市場,每天都會產生海量的交易數據,這些數據雖然存儲在數據倉庫中,但是并沒有得到有效的利用。通過數據挖掘技術分析股票市場數據,投資者可以從中得出有效的投資信息,并綜合分析利弊以后做出投資決策,提高投資收益率。
一般來說,數據挖掘是指從數據庫或數據倉庫中發現隱藏的、預先未知的、有趣的信息的過程[2]。在國內,臺灣義守大學陳慶翰開發了MIAT仿生物智慧股票預測系統,該系統是一個可以建立自我學習、自我組織、自我調節、自我改善的高度自主性智慧型系統[3]。國內還有許多著名的學者在股票預測方面做過大量的工作。國際方面,Morgan、Stannlog等人已經開發了AI(Automated Investor)系統,該系統通過采用聚類、可視化和預測技術來尋求最佳投資時機[4]。
本文致力于通過關聯規則算法獲得藝術品股票之間的關聯關系,如“在某個時間段X范圍內,藝術品股票A和B價格上漲時,有80%的情況下,股票C的價格也會隨之上漲”。這樣,就可以對投資者有一定的借鑒意義,防止被套牢。
1.1 算法思想
假設有多個購物籃,每個購物籃是由多個項組成的集合(即為項集itemset),那么一個在多個購物籃中出現的項集稱為“頻繁”項集。
定義1 支持度:如果I是一個項集,I的支持度(support)指包含I的購物籃的數目,此時定義一個支持度閾值(support threshold)s,如果I的支持度不小于s,則I為頻繁項集。
定義2 置信度:I→j的置信度即為集合I∪{j}的支持度與I的支持度的比值。顧名思義,置信度即為得到的規則的可信任程度。
AGRAWAL R和SRIKANT R于1994年提出了Apriori算法,該算法是關聯規則挖掘的最有影響的迭代算法[5]。設Cm為大小為m的候選項集集合,Ln為大小為n的真正頻繁項集集合。Apriori算法是將候選項集不斷過濾,得到頻繁項集,再將頻繁項集進一步過濾,得到新的頻繁項集,如:首先找到“1項集”的集合,再將其支持度與支持度閾值相比較,過濾得到頻繁“1項集”,記作L1,再將其進行組合,得到“2項集”,再將其支持度與支持度閾值相比較,過濾得到頻繁“2項集”,記作L2,以此類推,直到找到最終的頻繁項集。具體步驟如圖1。

圖1 Apriori算法找到真正頻繁項集過程示意圖
1.2 算法實例

表1 商品購買情況
表1為某商場9天內的商品交易情況,設定支持度為2,置信度為80%。利用Apriori算法尋找所有滿足條件的關聯規則的過程如圖2所示。

圖2 Apriori算法實例流程圖
接下來四項集只有{I1,I2,I3,I4},且其支持度為1,小于支持度閾值,故{I1,I2,I3,I4}不是頻繁項集。由以上步驟可得:最大的頻繁項集為{I1,I2,I3}、{I1,I2,I4}。關聯規則產生步驟如下:
(1) 對于每個頻繁項集l,產生其所有非空真子集;
(2) 對于每個非空真子集s,如果其置信度不小于最小置信度閾值,則為強關聯規則。
經計算,強關聯規則為I4→I2和I1&&I4→I2,置信度均為100%。
在關聯規則挖掘算法中,經典的Apriori挖掘算法是通過項目集數目不斷增長來得到所有的頻繁項目集的,即先產生頻繁“1項集”,再產生頻繁“2項集”,直到頻繁項目集中的元素不能擴增為止。傳統的Apriori算法有兩個瓶頸:(1)需要多次掃描數據庫,對于候選項集Ck,需要掃描k次數據庫來確定其是否為頻繁項集,是否可加入Lk;(2)由于頻繁“k-1項集”產生候選“k-1項集”是將頻繁項集中的元素進行組合得到,呈指數增長,這將產生大量的頻繁項集,從而產生大量的關聯規則[6]。這兩個瓶頸明顯降低了算法的效率。
因此,在傳統關聯規則算法的基礎上,本文提出Apriori算法的改進算法,即Partition算法。由于Apriori算法需要對數據庫進行多次掃描,這個過程非常繁瑣,可以將數據庫邏輯性地分成幾個互不相交的塊,即分而治之。Partition算法步驟如下:(1)每次都只針對單獨一個分塊,其中分塊的大小要保證可以放入主存,每個階段秩序被掃描一次,而算法的正確性是由每一個可能的頻集至少在該分塊中是頻集保證的。利用Apriori算法產生它的頻繁項集。(2)把所有分區產生的頻繁項集合并,生成候選項集,掃描整個數據庫,計算這些項集的支持度,最終得到全局的支持度不小于支持度閾值的頻繁項集。該算法流程如圖3。

圖3 Partitioni算法流程圖
Partition算法共掃描數據庫兩次。第一次掃描是對數據庫進行分塊,找出各塊的頻繁項集,即局部頻繁項集;第二次掃描數據庫是求候選集的支持度,用以計算全局頻繁項集。相對于傳統Apriori算法,Partition算法全程只掃描兩次數據庫,大大減少了I/O操作。由于Partition算法是并行計算,同時對各個分區進行求頻繁項集的操作,大大提高了算法的效率。
Partition算法是高度并行的,即把各個分塊的處理分配給不同的處理器來產生頻繁項集,在每一個循環結束之后,各個處理器之間會進行通信,以產生全局候選項集。
3關聯規則在股票方面的應用
在文化藝術品交易市場,每天都會產生大量的交易數據,利用數據挖據技術對股票市場的股票價格以及股票的走勢進行預測,通過運用關聯規則技術對藝術品股票市場進行分析,為投資人提供較為準確的預測結果,防止投資者盲目投資[7]。
本文選擇了某藝術品股票交易市場2016年1月~5月幾個月的交易數據,以此為依據進行股票關聯規則挖掘。選取其中6只股票并分別記為A、B、C、D、E、F。然后對股票進行預處理,如果某天A股票上漲,則記為A0,若下跌則記為A1,其他股票同理。部分股票數據如表2所示。

表2 部分股票數據
運用Apriori算法的改進算法——Partition算法進行關聯規則挖掘,在實驗中,設定支持度為60,置信度為70%,得到如表3所示挖掘結果。

表3 部分實驗結果
由規則1可知,當A和D藝術品股票價格均上漲時,C藝術品股票價格上漲的概率為85%。投資者根據這一信息,在藝術品股票A和D均上漲時,可以考慮購買一定的C藝術品股票,因為很有可能過段時間C藝術品股票價格就上漲了。
由規則2可知,當D藝術品股票價格下跌,同時F藝術品股票價格上漲時,C藝術品股票價格下跌的概率為88%。因此,在D藝術品股票價格下跌,同時F藝術品股票價格上漲時,投資者如果手中持有C藝術品股票,可以趁C藝術品股票價格未下跌時及早拋售,如果手中未持有C藝術品股票,可等過段時間C藝術品股票價格下跌時低價購買。其他幾個藝術品股票關聯規則同理。
本文將關聯規則的Apriori算法的改進算法應用到藝術品股票交易市場的預測上,得出如“當A和D藝術品股票價格均上漲時,C藝術品股票價格上漲的概率為85%”這樣的關聯規則,投資機構和普通股民可以根據挖掘出的關聯規則快速得到各個藝術品股票之間的關聯關系,進而決定買入或者賣出哪只股票,以使自己的投資收益最大化。對藝術品股票進行關聯規則挖掘可為投資者提供較為準確和有效的投資信息,對藝術品股票投資有一定的指導意義,可促進中國文化藝術品交易市場更好的發展。
[1] 王洋.藝術品的股票交易[N].中華工商時報,2011-3-11(21).
[2] 朱明. 數據挖掘[M].合肥:中國科學技術大學出版社,2002.
[3] HAND D, MANNILA H, SMYTH P.Principles of data mining[M].MA: The MIT press,2001.
[4] RAMASUBBAREDDY B. Mining positive and negative association rules[C]. International Conference on Computer Science and Education,2010:1403-1406.
[5] 鄭朝霞,劉廷建.關聯規則在股票分析中的應用[J].成都大學學報,2002,11(4):46-50.
[6] 周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.
[7] 孫媌. 基于數據挖掘的股票分析和預測模型的設計與應用[D].北京:北京郵電大學,2011.
The application of association rules in the prediction of art stocks
Zhao Yanqi,Gou Gang
(College of Computer Science & Technology,Guizhou University ,Guiyang 550025, China)
The stock market is constantly changing , resulting in a lot of transaction data every day.With the rise of the art stock market, more and more people invest in the art stock. Because of the influence of many aspects of the art stock price, it need to seek a more effective method to forecast the art market. Using the improved algorithm of Apriori algorithm to proceed association rules mining to get the relationship between the artstocs. It can help to make the right decision for investors , to prevent investors blind investment, reduce the risk of stock market transactions.
data mining;association rules; art stock
TP399
A
10.19358/j.issn.1674- 7720.2016.23.026
趙艷琪,茍剛. 關聯規則在藝術品股票預測方面的應用[J].微型機與應用,2016,35(23):90-92.
2016-08-15)
趙艷琪(1993-),女,碩士研究生,主要研究方向:數據庫技術與應用系統。
茍剛(1976-),男,副教授,主要研究方向:地理信息系統,智慧城市,大數據與移動互聯網應用技術。