999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Apriori算法研究與應(yīng)用

2014-09-11 16:08:44侯博宇
中國新通信 2014年11期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

侯博宇

【摘要】Apriori算法是數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則中一種算法,其應(yīng)用比較廣泛,本論文主要介紹Apriori算法的基本思想、操作主要步驟、算法的描述、改進(jìn)的Apriori算法及其的具體應(yīng)用。

【關(guān)鍵詞】Apriori算法關(guān)聯(lián)研究與應(yīng)用

Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其算法應(yīng)用比較廣泛,尤其在商業(yè)領(lǐng)域。關(guān)聯(lián)規(guī)則的一個經(jīng)典的例子就是在超市對顧客購買物品的分析。通過顧客購買各種商品總結(jié)發(fā)現(xiàn)物品與物品之間的關(guān)系,分析顧客在購買過程中的習(xí)慣與心理。什么樣的商品被顧客頻繁地同時購買,這樣就可以有助于商家制定營銷策略。關(guān)聯(lián)規(guī)則的計算依賴于發(fā)現(xiàn)相關(guān)數(shù)據(jù)中頻繁出現(xiàn)的數(shù)據(jù)項,尋找數(shù)據(jù)子集間的關(guān)聯(lián)關(guān)系或者一些數(shù)據(jù)與其他數(shù)據(jù)之間的派生關(guān)系。

一、Apriori算法的基本思想

1994年,Agrawal等提出了Apriori算法用于發(fā)現(xiàn)數(shù)據(jù)庫中的頻繁項集,主要使用逐層搜索的迭代算法,通過掃描數(shù)據(jù)庫得出頻繁項集,一般來說,約定第n次掃描得頻繁k-項集,記為Lk,首先對事務(wù)數(shù)據(jù)庫進(jìn)行第一次掃描,找出候選頻繁1-項集,記為L1,然后利用L1來產(chǎn)生候選項集C2,對C2中的項進(jìn)行挖掘出L2,即頻繁2-項集,一直重復(fù)循環(huán),直到無法發(fā)現(xiàn)更多的頻繁k-項集為止。Apriori算法每挖掘一層Lk就需要對整個數(shù)據(jù)庫進(jìn)行掃描。如果在求解過程中某次計算Lk為空時,那么整個算法的求解過程自然結(jié)束。

二、Apriori算法的主要步驟

1.對所有數(shù)據(jù)進(jìn)行第一次掃描,生成候選1-項集合C1,計算項集的支持?jǐn)?shù),得到頻繁1-項集L1。

2.由Apriori-gen(L1)函數(shù)中的連接和剪枝兩步生成候選2-項集C2,然后進(jìn)行第二次掃描數(shù)據(jù)庫,計算項集的支持?jǐn)?shù),得到頻繁2-項集L2。

3.按以上重復(fù),LK進(jìn)行自連接,生成候選K一項集CK,刪除CK中所有的非頻繁子集,生成K一頻繁項集LK。

4.重復(fù)3直到候選項集為空,不再產(chǎn)生頻繁項集,算法終止。

三、Apriori算法描述

Apriori具體的算法如下所示:

該算法的第一次遍歷計算第1個項集的支持度,以確定頻繁1-項集。然后的第k次遍歷包括兩個階段。

首先,除第1次掃描為單元素項目集構(gòu)成的,使用Apriori-gen函數(shù)產(chǎn)生在第(k-1)次遍歷中找到頻繁項集Lk-1和候選項集Ck。繼續(xù)掃描整個數(shù)據(jù)庫,計算Ck中候選的支持度。并且用函數(shù)subset來幫助尋找己成為候選項集的子集,同時記錄每個候選項集的支持頻度,連接滿足最小支持度的候選集,最終得到頻繁集L。

四、改進(jìn)Apriori算法

通過對算法的分析,我們能夠得出結(jié)論,Apriori算法存在著兩個弊端,一是每次找到頻繁項集和候選項集時都要掃描數(shù)據(jù)庫。二是事務(wù)數(shù)據(jù)庫D事務(wù)量較大時,產(chǎn)生的頻繁項集和候選項集數(shù)量也會很龐大。為了提高Apriori算法的效率,當(dāng)前Apriori算法的改進(jìn)有基于散列(Hash)的方法、AprioriTid 算法、基于數(shù)據(jù)分割(Partition)的方法、基于采樣(Sampling)的方法以及事務(wù)壓縮技術(shù)等,下面介紹幾種改進(jìn)算法,并在此基礎(chǔ)上得到自己的改進(jìn)算法。

經(jīng)典 Apriori 算法對候選集進(jìn)行整理,主要是對其大小進(jìn)行了壓縮,但是Ck的生成過程中還是需要對整個事務(wù)數(shù)據(jù)庫進(jìn)行k 次掃描。所以,在海量的數(shù)據(jù)庫中,經(jīng)典 Apriori 算法的效率就會大大降低,占用系統(tǒng)的開銷也很大。AprioriTid 算法在候選頻繁項目集 Ck 的生成過程中,掃描事務(wù)時刪除其中不需要的,進(jìn)行壓縮和整理事務(wù)數(shù)據(jù)庫,這樣掃描的效率得到了提高,占用系統(tǒng)的開銷也很小。掃描第一次數(shù)據(jù)庫后,候選集將不再使用事務(wù)數(shù)據(jù)庫D計算支持度,從第二步開始循環(huán)處理生成Tk,直到再沒有頻繁項集。生成集合Tk的每個成員形式為(TID,{Xk}),該集合與數(shù)據(jù)庫中事務(wù)相關(guān),TID是事務(wù)標(biāo)識,其中每個XK都是一個潛在的頻繁k-項目集。

參考文獻(xiàn)

[1]劉曉霞. 數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理系統(tǒng)中的應(yīng)用研究. 中國海洋大學(xué)碩士論文,2010,8~16

[2]吳青,傅秀芬. 水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘. 計算機技術(shù)與發(fā)展,2011,(6):113~117

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 欧美色伊人| 国产成人精品午夜视频'| 成人精品免费视频| 色综合久久久久8天国| 99热这里都是国产精品| 美女裸体18禁网站| 99青青青精品视频在线| 老司机精品99在线播放| 久久黄色视频影| 亚洲第一黄色网址| 青草精品视频| 日韩欧美中文字幕在线精品| 午夜免费视频网站| 欧美视频在线播放观看免费福利资源| 亚洲天堂视频在线免费观看| 久久国语对白| 就去色综合| 国产嫩草在线观看| 国产一二视频| 国产无码精品在线播放 | 欧美亚洲国产精品久久蜜芽| 91在线视频福利| 无码中文字幕加勒比高清| 国产在线一区视频| 青青青国产视频手机| 欧美成人A视频| 免费看黄片一区二区三区| 98超碰在线观看| 国产精品私拍在线爆乳| 亚洲欧洲日韩综合| 五月天丁香婷婷综合久久| 熟女日韩精品2区| 午夜激情婷婷| 经典三级久久| 欧美午夜网| 国产精品爆乳99久久| 亚洲aⅴ天堂| 国产综合在线观看视频| 538国产在线| 欧美精品啪啪一区二区三区| 欧美一区二区人人喊爽| 亚洲欧洲自拍拍偷午夜色无码| 亚洲色偷偷偷鲁综合| 亚洲一区二区约美女探花| 欧美日韩国产成人高清视频 | 国产精品污污在线观看网站| 亚洲精品不卡午夜精品| 亚洲无码一区在线观看| 国产污视频在线观看| 中文字幕一区二区人妻电影| 亚洲欧美成人网| 欧美精品高清| 亚洲国内精品自在自线官| 欧美另类第一页| 天天干天天色综合网| 日韩欧美国产三级| 亚洲天堂2014| 国产一在线| 国产成人91精品免费网址在线| 亚洲国产成人精品无码区性色| 波多野衣结在线精品二区| 97超级碰碰碰碰精品| 女同国产精品一区二区| 国产网站一区二区三区| 日韩精品久久久久久久电影蜜臀| 麻豆国产在线观看一区二区| 亚洲天堂网站在线| 国产福利观看| 扒开粉嫩的小缝隙喷白浆视频| 免费人成网站在线观看欧美| 免费无码又爽又黄又刺激网站| 亚洲精品777| 国产成人成人一区二区| 欧美在线国产| 无码aaa视频| 国产乱人视频免费观看| 国产精品人成在线播放| 久久五月视频| 深爱婷婷激情网| 国产福利不卡视频| 亚洲第一成网站| 国产欧美亚洲精品第3页在线|