999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Apriori算法的數(shù)據(jù)挖掘算法研究

2014-03-05 07:21:52李晉芳
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

李晉芳

(晉城廣播電視大學(xué),山西晉城 048026)

一、引言

關(guān)聯(lián)規(guī)則挖掘是一項最有影響的數(shù)據(jù)挖掘技術(shù),尤其在針對交易數(shù)據(jù)的分析上,更是發(fā)揮了重要的作用。關(guān)聯(lián)規(guī)則廣泛應(yīng)用在各個領(lǐng)域中,除了電信網(wǎng)絡(luò)、商品市場、電子商務(wù)風(fēng)險管理及庫存控制之外,也涉及到商業(yè)情報和市場營銷領(lǐng)域。關(guān)聯(lián)規(guī)則挖掘技術(shù)的重點就在于頻繁項目集的挖掘。經(jīng)過大量文獻(xiàn)的調(diào)查顯示,關(guān)聯(lián)規(guī)則挖掘中要花費巨大的處理時間去計算發(fā)現(xiàn)頻繁項目集。我們注意到,大部分的算法發(fā)現(xiàn)頻繁模式需要多次遍歷數(shù)據(jù)庫,導(dǎo)致大量的磁盤讀取,造成了巨大的I/O負(fù)載。Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,它采用自下而上的方式,搜索枚舉出所有的頻繁項集。本文提出的Apriori算法的改進(jìn)版本,則采用自上而下的方式,避免生成不必要的模式規(guī)則,從而大大減少了數(shù)據(jù)庫掃描的次數(shù)。

二、相關(guān)工作

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。其中最有名的、最流行的數(shù)據(jù)挖掘技術(shù)是關(guān)聯(lián)規(guī)則和頻繁項集挖掘算法。該算法最初是由Agrawal等人提出的購物籃分析。由于該算法顯著的實用性,關(guān)聯(lián)規(guī)則挖掘已成為大家都熱衷于研究的課題。

繼Apriori算法之后,不同的學(xué)者針對此算法的弱點提出了很多種改進(jìn)算法,其中J.Han等提出了不產(chǎn)生候選挖掘頻繁項集的方法—FP-樹頻集算法。此算法采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提高。它是關(guān)聯(lián)規(guī)則挖掘發(fā)展的又一個里程碑。

盡管FP樹算法對Apriori算法進(jìn)行了改進(jìn),但它仍然繼承了Apriori算法掃描多遍數(shù)據(jù)庫的缺點。需要注意的是,為了減少數(shù)據(jù)庫掃描的次數(shù),同時用較少的執(zhí)行速度,以減少內(nèi)存空間,就導(dǎo)致了需要進(jìn)行大量的磁盤讀取工作,由此給I/O子系統(tǒng)造成了巨大的負(fù)擔(dān)。這些相關(guān)問題促使我們繼續(xù)進(jìn)行這方面的研究工作。由此,我們提出了一種新的改進(jìn)的Apriori算法,從而減少了程序運行的時間和空間。

三、頻繁項集和關(guān)聯(lián)規(guī)則

設(shè)I={i1,i2…,in}為所有項目的集合,設(shè)A是一個由項目構(gòu)成的集合,稱為項集。事務(wù)T是一個項目子集,每一個事務(wù)具有唯一的事務(wù)標(biāo)識Tid。事務(wù)T包含項集A,當(dāng)且僅當(dāng)AT。如果項集A中包含k個項目,則稱其為k項集。S為事務(wù)數(shù)據(jù)庫,項集A在事務(wù)數(shù)據(jù)庫S中出現(xiàn)的次數(shù)占S中總事務(wù)的百分比叫做項集的支持度(support)。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集。

Apriori算法用來進(jìn)行頻繁項集的挖掘,算法中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)分解成兩個步驟:

1、查找所有大項集(一個大項目集是一組超過最小支持度的項目)。

2、從大項目集中生成關(guān)聯(lián)規(guī)則。

只有同時滿足最小支持度和最小置信度閾值的項目才會被關(guān)聯(lián)規(guī)則考慮。

四、提出的工作

現(xiàn)在有許多算法通過訪問路徑來生成頻繁訪問模式。但他們在執(zhí)行時間和內(nèi)存需求方面的效率較低。本文提出的算法是FP-樹算法的改進(jìn)版本,該算法不會使用遞歸來生成頻繁模式。它保持了數(shù)據(jù)庫的頻繁模式樹,這是一個擴(kuò)展的前綴樹結(jié)構(gòu),其中存儲了頻繁模式關(guān)鍵的信息。該算法不同于FP-樹算法,它不使用遞歸。該算法在掃描一次數(shù)據(jù)庫的基礎(chǔ)上生成一個頁表,該表存儲了一些相關(guān)信息,有關(guān)用戶訪問網(wǎng)頁的次數(shù)和存儲該網(wǎng)頁模式樹的指針字段。頁表節(jié)點根據(jù)頁數(shù)進(jìn)行排序。樹節(jié)點就是頻繁項目。頁表節(jié)點用于生成頻繁訪問模式。從存儲樹節(jié)點的頁表seqptr開始,然后從底部到根節(jié)點來遍歷整個樹。在遍歷時,若滿足條件總頁數(shù)>min_sup則將此節(jié)點添加到頻繁樹中。如果不滿足這個條件,則將其移到樹的下一個路徑中。最終,利用反向遍歷樹來為用戶生成所有的頻繁模式。

該算法分為兩步:

步驟1:根據(jù)來自用戶文件中的訪問路徑來構(gòu)建頻繁訪問模式樹,并記錄每個頁面的訪問次數(shù)。

該算法的第一步和FP樹算法一樣,但在第二步算法中采用向后遍歷來尋找頻繁訪問模式,因此,遍歷這些樹的執(zhí)行時間就會減少。

五、運算結(jié)果

該算法使用的是AMD處理器,主內(nèi)存256 MB,虛擬內(nèi)存756 MB,本地磁盤空間40 GB操作系統(tǒng)是微軟的Windows XP。該算法采用的是JAVA1.4.2實現(xiàn)的。

下圖顯示了比較結(jié)果。

比較1:Apriori算法和改進(jìn)算法時間結(jié)果比較

圖1 Apriori算法和改進(jìn)算法時間結(jié)果的比較

比較2:Apriori算法和改進(jìn)算法內(nèi)存使用情況的比較

圖2 Apriori算法和改進(jìn)算法內(nèi)存使用情況的比較

六、結(jié)論

本文基于Apriori算法的缺點,開發(fā)了一個改進(jìn)的版本,此算法是采用無候選集來生成頻繁模式的方法,不需要使用遞歸來生成頻繁模式,采用自上而下的方式,避免生成不必要的模式規(guī)則,從而大大減少了數(shù)據(jù)庫掃描的次數(shù),以此來提高程序運行的時間和空間。

[1]岳鵬宇.Apriori算法的探討[J].山西經(jīng)濟(jì)管理干部學(xué)院學(xué)報,2012(4).

[2]丁一琦.基于Apriori算法的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代計算機,2012(36).

[3]張琪.基于 Apriori算法的數(shù)據(jù)挖掘系統(tǒng)設(shè)計[J].計算機光盤軟件與應(yīng)用,2013(15).

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 第一页亚洲| 国产精品成人AⅤ在线一二三四| 日本不卡在线播放| 99ri精品视频在线观看播放| 欧美日韩一区二区在线免费观看| 亚洲国产欧美目韩成人综合| 男女性午夜福利网站| 亚洲区一区| 日韩在线播放欧美字幕| a级高清毛片| 亚洲男人天堂网址| 波多野结衣无码中文字幕在线观看一区二区| 亚洲成a人在线播放www| 少妇精品网站| а∨天堂一区中文字幕| 新SSS无码手机在线观看| 在线观看视频一区二区| 99在线小视频| 日本色综合网| 99热国产在线精品99| 四虎在线高清无码| 亚洲一区国色天香| 正在播放久久| 四虎永久在线| 国产成年女人特黄特色大片免费| 日韩精品资源| 午夜视频在线观看免费网站| 一本色道久久88| 中文字幕佐山爱一区二区免费| 欧美人人干| 婷婷色在线视频| 中文字幕乱妇无码AV在线 | 88av在线看| 欧美日韩中文国产va另类| 国产毛片高清一级国语| 伊人久综合| 欧美性精品不卡在线观看| 亚洲第一色视频| 久久婷婷六月| 青青草久久伊人| 高h视频在线| 免费不卡视频| 久操线在视频在线观看| 久久99蜜桃精品久久久久小说| 成人福利在线观看| 亚洲欧美日韩动漫| 92午夜福利影院一区二区三区| 国产在线精品99一区不卡| 欧美无专区| 久久久久无码精品国产免费| 国产91九色在线播放| 国产高潮视频在线观看| 2048国产精品原创综合在线| 欧美日韩中文字幕在线| 九九视频在线免费观看| 国产午夜无码片在线观看网站| 国产一级视频久久| 亚洲欧美不卡| 亚洲视频免费在线看| 国产精品美女免费视频大全| 91人妻日韩人妻无码专区精品| 久久人人97超碰人人澡爱香蕉| 免费观看成人久久网免费观看| 无码中字出轨中文人妻中文中| 国产无码高清视频不卡| 婷婷亚洲天堂| 久久久久人妻一区精品色奶水| 国产电话自拍伊人| 亚洲另类国产欧美一区二区| 精品视频一区二区三区在线播| 亚洲91在线精品| 97视频在线精品国自产拍| 国外欧美一区另类中文字幕| 波多野结衣一区二区三视频| 四虎在线观看视频高清无码| 国产麻豆精品久久一二三| 精品国产女同疯狂摩擦2| 色综合天天综合中文网| 91精品国产自产在线老师啪l| 国产99免费视频| 亚洲区一区| 久久精品亚洲中文字幕乱码|