999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談Apriori算法

2012-04-29 00:00:00羅剛
企業導報 2012年10期

【摘要】隨著大量數據不斷收集和存儲,許多業界人士對于從他們的數據庫中挖掘關聯規則越來越感興趣。Apriori算法就是經典的關聯挖掘算法,文章分析了Apriori的算法思想、算法具體方法及其不足。

【關鍵詞】數據;關聯規則;Apriori算法

一、Apriori算法概述

Apriori算法是一種最有影響力的挖掘布爾關聯規則的頻繁項集的算法,它是由Rakesh Agrawal和Ramakrishnan Skrikant提出的。它使用一種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。L1用于找頻繁2-項集的集合L2,而L2用于找L2,如此下去,直到不能找到k-項集。每找一個Lk需要一次數據庫掃描。為提高頻繁項集逐層產生的效率,一種稱作Apriori性質的重要性質用于壓縮搜索空間。其運行定理在于一是頻繁項集的所有非空子集都必須也是頻繁的,二是非頻繁項集的所有父集都是非頻繁的。

二、Apriori算法思想

Apriori中提出了一個基于兩階段頻集思想的方法,其核心思想如下:(1)連接步:為找Lk,通過Lk-ι與自己連接產生候選k-項集的集合。該候選項集的集合記作Ck。設I1和I2是Lk-1中的項集。記號Li[j]表示Li的第j項。為方便計,假定事物或項集中的項按字典次序排序。如果它們前(k-2)個項相同,則它們是可連接的。如果:(L■1)=L■1∧(2)=L■2∧…(L■K-2=(L■K-2)∧(L■K-1<L■k-1),條件L■K-1<L■k-1是保證不產生重復,則Lk-1中的元素I1和I2是可連接的,結果項集是I11I12…I1k-1I2k-1。(2)剪枝步:Ck是Lk的超集;即,Ck的成員可能是或可能不是大項集,但所有k-大項集都包含在Ck中。掃描數據庫,確定每個侯選集的計數,計數值不小于最小支持度的所有侯選集為大項集,從而確定Lk。然而Ck,可能很大,因此要確定侯選計數的量可能很大。為壓縮Ck,可由性質:任何非頻繁(k-1)項集都不可能是k-項集的子集。因此,如果一個侯選k-項集的(k-1)項子集不在Lk-1中,則該侯選項集也不是頻繁的,從而可從Ck中刪除。

三、Apriori算法具體方法

Apriori算法在于Apriori使用根據候選生成的逐層迭代找出頻繁項集。輸入事物數據庫D,最小支持度閡值min_supp;輸出D中的頻繁項集L。方法如下:={large1-itemsets};for(k=2;Lk-1≠¢;k++){ Ck=Apriori_gen(Lk-1,min_supp);//產生侯選集for each transaction t∈D { Ct=subset(Ck,t);//交易t中包含的侯選集for each candidate c∈Ct c.count++;}//end for t Lk={c∈Ck|c.count≥min_supp}}//end for k ReturnL=∪kLk;Procedure Apriori_gen(Lk-1;frequent(k-1)-itemsets;min_supp){ for each itemset L1∈Lk-1 for each itemset L2∈Lk-1 if(L■1)=L■1∧(2)=L■2∧…(L■K-2=(L■K-2)∧(L■K-1<L■k-1){ c=L1×L2;//連接步 產生侯選集 if has_infrequent_subset(c,) Delete c;//剪枝步 刪除不頻繁侯選else add c to Ck;} RenturenCk } Procedure has_infrequent_subset(c:candidate;k-itemset;Lk-1) { for each(k-1)-sebset s of c if s∈Lk-1 Return True;else Return False;}

四、Apriori算法的不足之處

Apriori首先產生頻繁1-項集L1,然后是頻繁2-項集L2,直到有某個r值使得Lr為空,這時算法停止。這里在第k次循環中,過程先產生候選k-項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk-1的頻集做連接來產生的。Ck中的項集是用來產生頻集的候選集,最后的頻集Lk必須是Ck的一個子集。Ck中的每個元素需在交易數據庫中進行驗證來決定其是否加入Lk,這里的驗證過程是算法性能的一個瓶頸。這個方法要求多次掃描可能很大的交易數據庫,即如果頻集最多包含10個項,那么就需要掃描交易數據庫10遍,這需要很大的I/O負載,因而挖掘效率很低。其次,該算法使用起來不方便,因為它只讓用戶提供最小支持度和最小可信度,然后將所有滿足條件的關聯規則都挖掘出來,導致結果集很大,用戶難以理解,需要進行大量的篩選才能抽取有用的規則。由此可見,關聯規則所采用的算法應注重用戶的參與性,因為不可能簡單的通過把許多數據輸入一個“黑匣子”以期望得到有用的知識。同時用戶必須了解所屬領域的背景知識,然后才可選擇感興趣的數據集合和模式。因此,關聯規則的任務應該是一個交互式工具而非僅僅是自動分析。

參 考 文獻

[1]朱其祥,徐勇,張林.基于改進Apriori算法的關聯規則挖掘研究[J].計算機技術與發展.2006(7)

[2]李曉虹,尚晉.一種改進的新Apriori算法[J].計算機科學.2007(4)

[3]文蓉,李仁發.一種優化的Apriori算法[J].計算機系統應用.2008(1)

[4]頓毅杰.關聯規則挖掘中的Apriori算法淺析[J].中國科技信息.2009(22)

[5]況莉莉.Apriori算法與FP-tree算法的探討[J].淮北煤炭師范學院學報(自然科學版).2010(2)

主站蜘蛛池模板: 免费在线播放毛片| 欧美中文字幕在线播放| 欧美怡红院视频一区二区三区| 成人精品免费视频| 国产精品无码一二三视频| 亚洲午夜久久久精品电影院| 萌白酱国产一区二区| 日韩东京热无码人妻| 毛片网站免费在线观看| 四虎永久在线| 日韩 欧美 小说 综合网 另类| 国产永久在线视频| 欧美a在线看| 9cao视频精品| 国产自在线拍| 无码av免费不卡在线观看| 91探花国产综合在线精品| 试看120秒男女啪啪免费| 亚洲国产成人久久精品软件| 女人18毛片一级毛片在线| 亚洲视频三级| 久久久精品久久久久三级| 成人综合在线观看| 亚洲欧美色中文字幕| 原味小视频在线www国产| 亚洲第一中文字幕| 91久久国产成人免费观看| 亚洲综合极品香蕉久久网| 亚洲日本精品一区二区| 美女一区二区在线观看| 麻豆AV网站免费进入| 漂亮人妻被中出中文字幕久久| 91青青草视频在线观看的| 奇米精品一区二区三区在线观看| 久久久久久国产精品mv| 国产在线日本| 全部免费毛片免费播放| 欧美国产三级| 中国美女**毛片录像在线| 呦女精品网站| 中文字幕第1页在线播| 国产传媒一区二区三区四区五区| 国产一级在线观看www色| 色偷偷男人的天堂亚洲av| 久久国产免费观看| 欧类av怡春院| 国产99视频精品免费观看9e| 国产乱子伦视频三区| 亚洲欧美不卡| 欧美日韩亚洲综合在线观看| 亚洲AV无码乱码在线观看代蜜桃| 日本在线国产| 三上悠亚精品二区在线观看| 欧洲日本亚洲中文字幕| 99久久精品无码专区免费| 欧美成人精品高清在线下载| 99视频精品全国免费品| 欧美亚洲国产一区| 玖玖免费视频在线观看| 亚洲αv毛片| 国产在线一二三区| 欧美午夜在线观看| 四虎影视永久在线精品| 国产原创第一页在线观看| 精品一区二区三区自慰喷水| 乱人伦视频中文字幕在线| 久久久久青草线综合超碰| 午夜国产精品视频| 欧美色香蕉| 欧美伦理一区| 亚洲天堂2014| 综合亚洲色图| 欧美成人看片一区二区三区| 精品国产免费观看| 全裸无码专区| 婷婷色狠狠干| 丁香六月激情婷婷| 午夜三级在线| 久久成人国产精品免费软件 | 午夜视频免费试看| 欧美成人午夜影院| 强乱中文字幕在线播放不卡|