摘 要:該文主要介紹了關聯規則挖掘的FP-tree算法。并基于對FP-tree算法的研究,在Microsoft 2010中用C#語言實現FP-tree算法,并將應用程序應用到某汽車銷售企業的汽車銷售數據進行關聯規則挖掘。根據程序所得到的結果,由lift值判斷,證明了所得規則的有效性。
關鍵詞:數據挖掘 關聯規則 FP-tree算法 汽車銷售 lift
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-098X(2013)01(a)-000-03
數據挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的數據中,提取隱含在其中的、人們事先不知道的但又是潛在的可理解、可接受、可應用的有用信息和知識的過程,并最終利用其來進行重要的商業決策[1-2]。該文重點研究關聯規則中的FP-Tree算法。根據對這種算法的研究,并運用其對某公司的汽車銷售數據進行挖掘,運用關聯規則分析銷售數據,找出影響汽車銷量的因素,為汽車銷售提供決策支持。
1 關聯規則算法
1.1 關聯規則概述
關聯規則是美國IBM Almaden Research Center的RakeshAgrawal等人于1993年首先提出來的知識發現(KDD:Knowledge Discovery in Databases)研究的一個重要課題[3]。由于關聯規則挖掘形式簡潔、思路清楚、易于理解,并可以有效的捕捉數據間的重要關系,因此從大型數據庫中挖掘關聯規則的問題己經成為近年來數據挖掘研究領域的一個熱點。
1.2 關聯規則算法
在目前的許多算法中,以1994年RakeshAgrawal等人提出了的Apriori算法最有影響力[4],其他大多數算法也是以Apriori算法為核心的。Apriori算法是使用一種稱作逐層搜索的迭代方法。首先,產生1-頻繁項集,記作L1。然后用L1找出2-頻繁項集L2,直到不能找到更多的頻繁項集為止。在k次循環中,過程先產生k-候選項集的集合Ck。……