摘要:關聯規則挖掘是一種重要的數據挖掘技術,緣自“啤酒與尿布”問題出現這項技術以來,已有許多學者提出了多種關聯規則挖掘算法。這些關聯規則挖掘算法主要分為以Apriori為代表的“產生一測試”范型和以FP-growth為代表的采用復雜數據結構壓縮存儲空間的范型。文章將這兩種代表算法進行了對比分析。
關鍵詞:數據挖掘;關聯規則;數據庫;支持度;可信度
0 引言
關聯規則挖掘就是通過計算大型事務數據集中單個項或者多個項組成的項集出現的頻率和各個項集出現的條件概率,找出數據集中存在的頻繁模式和隱含的關聯規則,從而預測事物的發展趨勢。關聯規則挖掘本身不是預測過程,挖掘出來的規則有預測作用。
自從1993年Rakesh Agrawal研究零售交易數據而提出關聯規則挖掘以來,這種以研究數據庫中各屬性之間關系為主的數據挖掘方法已經逐步被應用于零售、保險、銀行等商業領域,同時正在或即將被應用于其他所有需要分析大量數據的領域。
1 基本概念
關聯規則挖掘主要關注頻繁模式研究,所以本文中也只討論針對頻繁模式的關聯規則挖掘。
設I={i1,i2,…im}是項集,其中ik(k=1,2,…,m)可以是購物籃中的物品,也可以是保險公司的顧客。設任務相關的數據D是事務集,其中每個事務T是項集,使得TCI。設A是一個項集,且ACT。
關聯規則是如下形式的邏輯蘊涵:A→B,ACI,BcI,且AnB=φ。關聯規則具有如下兩個重要的屬性:
支持度:P(AUB),即A和B這兩個項集在事務集D中同時出現的概率。
置信度:P(B I A),即在出現項集A的事務集D中,項集B也同時出現的概率?!?br>