999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進(jìn)的Apriori算法的研究

2015-05-04 09:10:42王平
關(guān)鍵詞:數(shù)據(jù)挖掘

王平

摘要:本文對關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘經(jīng)典算法Apriori算法需要重復(fù)掃描數(shù)據(jù)庫的不足提出了一種新算法。該算法在連接兩個頻繁(k-1)-項集時,對其事務(wù)標(biāo)識符進(jìn)行交計算,得到新的候選k-項集。避免了對數(shù)據(jù)庫的頻繁掃描,大大提高了算法效率。

關(guān)鍵詞:Apriori 關(guān)聯(lián)規(guī)則 數(shù)據(jù)挖掘

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2014)12-0132-02

1 Apriori算法簡介

在已經(jīng)提出的所有關(guān)聯(lián)規(guī)則的算法中,最經(jīng)典的算法是Agrawal和Srikant的Apriori算法(1993)[1]。Apriori算法的具體執(zhí)行步驟如下:

先產(chǎn)生頻繁1-項集L1。首先掃描數(shù)據(jù)庫,識別所有單個項(1-項集),記為C1。統(tǒng)計數(shù)據(jù)庫中有多少個事務(wù)包含該項,這些事務(wù)的計數(shù)叫做1-項集的支持度。刪除支持度低于用戶所規(guī)定的最小支持度的1-項集,得到頻繁1-項集,記為L1。

對于k=2,3,…,產(chǎn)生過程按如下方法由頻繁(k-1)-項集得到頻繁k-項集。在頻繁(k-1)-項集列表上進(jìn)行(k-1)-項集對的連接運算,創(chuàng)建候選k-項集列表。當(dāng)且僅當(dāng)兩個項集的前(k-2)項相同,一對(k-1)-項集被連接在一起。如果條件滿足,則該對能連接成一個k-項集,它包括前(k-2)個公共項和兩個非公共項,兩個非公項分別來自兩個(k-1)-項的成員。

根據(jù)Apriori的性質(zhì),一個項集是頻繁的,則它的所有非空子集都必須頻繁的。換句話說,如果一個項集不是頻繁的,則它的所有超集都不可能是頻繁的。

推廣到一般情況,在Lk-1中通過與自身項集的連接得到候選k-項集。為壓縮Ck,結(jié)合Apriori性質(zhì),若一個候選k-項集Ck的(k-1)項子集不在Lk中,則該候選也不可能是頻繁的,從而將其從Ck中刪除。選擇不小于最小支持度的候選項集,得到Lk。重復(fù)以上過程,直到不再有候選(或頻繁)項集為止。

2 Apriori算法缺陷分析

(1)對于每次生成的候選項集Ck的每一個候選項集,都必須掃描數(shù)據(jù)庫進(jìn)行其支持度計數(shù)。掃描過程需要數(shù)據(jù)頻繁地進(jìn)出,因此算法效率很低。

(2)產(chǎn)生了大量的候選項集,候選2-項集尤為多。Ck是Lk的超集,呈指數(shù)級增長。

3 Apriori算法的改進(jìn)

針對Apriori算法的兩個致命的缺陷,國內(nèi)外專家學(xué)者提出以Apriori算法為基礎(chǔ)的一些改進(jìn)算法。Savasere等[2]提出了基于數(shù)據(jù)分割的算法,將數(shù)據(jù)庫中的事務(wù)劃分成多個互不相交的塊,在不同的塊上產(chǎn)生局部頻繁項集,通過對原數(shù)據(jù)庫的兩次掃描完成頻繁項集的挖掘。Brin等[3]提出了基于動態(tài)項集計數(shù)的DIC算法,其與Apriori算法的區(qū)別在于,將事務(wù)數(shù)據(jù)庫劃分成多個區(qū)段,在搜索數(shù)據(jù)庫時,利用各區(qū)段的特性,動態(tài)產(chǎn)生候選集的同時也能計算出其支持度。

對各種算法進(jìn)行了分析與研究,發(fā)現(xiàn)影響算法效率的主要缺陷是頻繁地掃描數(shù)據(jù)庫,為減少掃描次數(shù)而提出了一種新的算法。算法步驟如下:

(1)掃描所有事務(wù),對每個項計數(shù),產(chǎn)生候選項集C1。C1不只是數(shù)據(jù)項集和計數(shù)的集合,而同時為產(chǎn)生的每個候選項集添加一個屬性:事務(wù)標(biāo)識符。將小于最小支持度計數(shù)的候選項刪除,得到頻繁1-項集L1。

(2)Lk-1自身進(jìn)行連接操作,生成k-項集Ck。此過程需生成Ck的事務(wù)標(biāo)識符,即把兩個滿足連接條件的Lk-1標(biāo)識符進(jìn)行求交計算。再統(tǒng)計Ck各項集中事務(wù)標(biāo)識符的計數(shù),即Ck各項集的計數(shù)(如表1)。

具體執(zhí)行過程:

(1)掃描數(shù)據(jù)庫,產(chǎn)生候選集C1,如表2所示。

(2)由C1確定頻繁項集L1(如表3)。

(3)對L1進(jìn)行連接,生成C2。每生成一個新的候選項集,通過計算兩個項的事務(wù)標(biāo)識符的交,然后統(tǒng)計新的事務(wù)標(biāo)識個數(shù),并與最小支持度進(jìn)行比較,如果新的事務(wù)標(biāo)識符的計數(shù)小于最小支持度,則將該項從C2中刪除。

{A,B}.LIST=A.list∩B.list={S1,S4,S8,S9}≥min_sup

{A,C}.LIST=A.list∩C.list={S5,S7,S8,S9}≥min_sup

{A,D}.LIST=A.list∩D.list={S4}≤min_sup(刪除)

{A,E}.LIST=A.list∩E.list={S1,S8}≥min_sup

{B,C}.LIST=B.list∩C.list={S3,S6,S8,S9}≥min_sup

{B,D}.LIST=B.list∩D.list={S2,S4}≥min_sup

{B,E}.LIST=B.list∩E.list={S1,S8}≥min_sup

{C,D}.LIST=C.list∩D.list=≤min_sup(刪除)

{C,E}.LIST=C.list∩E.list={S8}≥min_sup

{D,E}.LIST=D.list∩E.list=≤min_sup(刪除)

通過以上計算得出帶有事務(wù)標(biāo)識符屬性的候選項集C2,如表4所示。

(4)根據(jù)上表生成頻繁2-項集L2,如表5所示。

(5)重復(fù)步驟3,生成C3。

根據(jù)其Apriori性質(zhì)可得,{A,C,E},{B,C,D},{B,C,E},{B,D,E}均被剪枝。

只剩項集{A,B,C}.list={S8,S9}

{A,B,E}.list={S1,S8}

由此結(jié)果生成候選項集C3,如表6所示。

(6)生成頻繁項集L3,如表7所示。

(7)生成C4。

{A,B,C,E}.list={S8}≤min_sup,因此L4=。

至此不再產(chǎn)生新的候選項集,算法終止,找到了全部的頻繁項集。

從以上可以看出,Apriori改進(jìn)算法相比未改進(jìn)的Apriori算法的優(yōu)勢在于:在整個數(shù)據(jù)挖掘過程只對數(shù)據(jù)庫掃描一次。改進(jìn)算法只在第一步產(chǎn)生1-候選項集C1時需要對數(shù)據(jù)庫掃描一次,以便獲取當(dāng)前所有項集的事務(wù)標(biāo)識符。之后不需要掃描事務(wù)數(shù)據(jù)庫去確定每個項集的支持度,只需統(tǒng)計Ck中事務(wù)標(biāo)識符的個數(shù)。新算法在時間上具有明顯優(yōu)勢,尤其數(shù)據(jù)量比較龐大時,這種優(yōu)勢更加顯著。

參考文獻(xiàn)

[1](印度)K.P.Soman Shyam Diwakar.數(shù)據(jù)挖掘基礎(chǔ)教程[M].范明,牛常勇譯.北京:機械工業(yè)出版社,2012.120-129.

[2]Savasere A,Omiecinski E,Navathe S.An efficient algorithm for mining association rules inlarge databases[C].Morgan Kaufmann Publisher,1995.432-443.

[3]Brin S,Motwani R,Ullman J D,et al. Dynamic itemset counting and implication rules for market basket data[C].ACM Publisher Press 1997.255-264.endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 久久久精品国产亚洲AV日韩| 日韩a在线观看免费观看| 欧美无遮挡国产欧美另类| 99精品国产自在现线观看| 97在线视频免费观看| 国产美女91视频| 亚洲AⅤ波多系列中文字幕| 亚洲国产精品人久久电影| 精品色综合| 国产自产视频一区二区三区| 亚洲免费毛片| 亚洲欧美日韩成人高清在线一区| 91色在线观看| 无码一区二区三区视频在线播放| 欧美特黄一免在线观看| 精品视频第一页| 97超级碰碰碰碰精品| 欧美全免费aaaaaa特黄在线| 亚洲国产日韩欧美在线| 久久9966精品国产免费| 狂欢视频在线观看不卡| 一级爱做片免费观看久久 | 久热精品免费| 亚洲中文字幕日产无码2021| 日韩欧美国产综合| 日本成人一区| 九九九精品成人免费视频7| 国产在线八区| 97视频在线观看免费视频| 99爱视频精品免视看| 国产天天射| 天天摸夜夜操| 在线观看视频99| 国产精品色婷婷在线观看| 18黑白丝水手服自慰喷水网站| 欧亚日韩Av| 999国产精品永久免费视频精品久久| 高清不卡一区二区三区香蕉| 欧美国产日韩在线| 亚洲第一色视频| 无码高潮喷水在线观看| 亚洲男人在线| 国产欧美日韩在线一区| 亚洲性网站| 爆乳熟妇一区二区三区| 久久99精品久久久久纯品| 国产精品久久久精品三级| 91丨九色丨首页在线播放| a级毛片免费看| 国产免费a级片| 国产无人区一区二区三区| 亚洲中字无码AV电影在线观看| 亚洲一区二区在线无码| 99热最新网址| 9久久伊人精品综合| 国产一级二级三级毛片| 亚洲无线国产观看| 日韩成人高清无码| 婷婷六月综合网| 国产老女人精品免费视频| 韩国自拍偷自拍亚洲精品| 97久久人人超碰国产精品| 亚洲欧美精品日韩欧美| 亚洲av片在线免费观看| 114级毛片免费观看| 尤物在线观看乱码| 国产精品入口麻豆| 欧美a在线| 九九九精品成人免费视频7| 911亚洲精品| 亚洲天堂自拍| 亚洲一区二区日韩欧美gif| 免费av一区二区三区在线| 国产成人在线小视频| 性喷潮久久久久久久久| 小说区 亚洲 自拍 另类| 欧美精品不卡| 88av在线看| 香蕉国产精品视频| 2020精品极品国产色在线观看 | 国产91小视频在线观看| 国产自在自线午夜精品视频|