999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于頻繁模式樹(shù)的正負(fù)關(guān)聯(lián)規(guī)則挖掘算法

2008-04-12 00:00:00屈百達(dá)陳莉平
現(xiàn)代電子技術(shù) 2008年8期

摘 要:當(dāng)前關(guān)聯(lián)規(guī)則挖掘主要著眼于正關(guān)聯(lián)規(guī)則,如A→B的關(guān)聯(lián)規(guī)則的挖掘,這種單一的只對(duì)正關(guān)聯(lián)規(guī)則的挖掘方式存在嚴(yán)重的弊端,他掩蓋了數(shù)據(jù)之間存在的隱含負(fù)關(guān)聯(lián)規(guī)則,進(jìn)而無(wú)法得出一些正關(guān)聯(lián)規(guī)則中某些項(xiàng)目間相互制約的負(fù)關(guān)聯(lián)關(guān)系。在關(guān)聯(lián)規(guī)則概念和性質(zhì)的基礎(chǔ)上提出了基于頻繁模式樹(shù)的拓展式的正、負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則挖掘算法,通過(guò)對(duì)數(shù)據(jù)庫(kù)的遍歷形成前綴鏈表,不僅挖掘包含所有正項(xiàng)目的關(guān)聯(lián)規(guī)則,而且還能夠挖掘出所有包含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則,不會(huì)造成負(fù)關(guān)聯(lián)規(guī)則的淹沒(méi)。并對(duì)算法的效率和可行性進(jìn)行分析,該算法在描述關(guān)聯(lián)規(guī)則項(xiàng)目間的相互獨(dú)立程度上比已有的單一挖掘負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則算法更具優(yōu)勢(shì)。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;正關(guān)聯(lián)規(guī)則;負(fù)關(guān)聯(lián)規(guī)則;頻繁模式樹(shù)

中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:B

文章編號(hào):1004-373X(2008)08-090-04

Positive and Negative Association Rules Mining Algorithm Based on FPNtree

QU Baida,CHEN Liping

(Communication and Control Engineering College,Southern Yangtze University,Wuxi,214122,China)

Abstract:In current,association rules mining mainly focuses on positive association rules,as A→B,which has serious disadvantages only to mine positive association rules.It conceals connotative negative association rules among datas,so as not to explain certain items′ restriction relation in positive association rules.Positive and negative association rules mining algorithm based on FPNtree is proposed built on association rules conception and qualities of association rules.Traversing its prefix linked lists which can mine association rules comprising positive items as well as association rules with negative items,not causing negative association rules′ losses.Efficiency and feasibility of algorithm is analysed and has predominance over single algorithm only mining negative association rules in describing indeendence among association rules items.

Keywords:association rules;positive association rules;negative association rules;FPNtree

關(guān)聯(lián)規(guī)則是從大量的數(shù)據(jù)中挖掘出有隱含關(guān)系的一種方法,自從文獻(xiàn)[1]提出關(guān)聯(lián)規(guī)則的問(wèn)題以后,大量的學(xué)者對(duì)其進(jìn)行了深入的研究和探討。關(guān)聯(lián)規(guī)則為:設(shè)有事件A和B,正關(guān)聯(lián)規(guī)則類(lèi)似與事件A導(dǎo)致事件B,形如A→B這樣的表達(dá)式,他只能使交易數(shù)據(jù)庫(kù)出現(xiàn)的項(xiàng)集發(fā)生正面關(guān)聯(lián),無(wú)法發(fā)現(xiàn)數(shù)據(jù)中隱藏的另一種關(guān)系:負(fù)關(guān)聯(lián)關(guān)系,事件A導(dǎo)致事件B不發(fā)生,即某數(shù)據(jù)項(xiàng)集A的出現(xiàn)會(huì)減少另一數(shù)據(jù)項(xiàng)集B的出現(xiàn)機(jī)會(huì),甚至使得B不出現(xiàn)。但在實(shí)際中對(duì)負(fù)關(guān)聯(lián)規(guī)則的研究卻比較少,然而負(fù)關(guān)聯(lián)規(guī)則依然能帶來(lái)有價(jià)值的規(guī)則,這對(duì)于決策的作用也是不可忽視的。在商業(yè)領(lǐng)域,負(fù)關(guān)聯(lián)規(guī)則可以幫助決策者犧牲自身小的利益為代價(jià)消弱某些大的商業(yè)欺騙以換取更大的利益;在醫(yī)療領(lǐng)域中,可以根據(jù)某些癥狀的存在與另外一些癥狀的不存在得到某一診斷結(jié)果;企業(yè)、市場(chǎng)可以通過(guò)綜合考慮正、負(fù)關(guān)聯(lián)關(guān)系,在銷(xiāo)售、投資時(shí)同時(shí)考慮一些有利因素和不利因素,迎接更大的挑戰(zhàn)。

盡管在應(yīng)用中負(fù)關(guān)聯(lián)規(guī)則非常重要,但由于研究起步晚且難度較大,負(fù)關(guān)聯(lián)規(guī)則的挖掘還沒(méi)有能夠出現(xiàn)一種像Apriori[2]那樣成熟,XinDong Wu在文獻(xiàn)\\[35\\]中正式提出負(fù)關(guān)聯(lián)規(guī)則的同時(shí)還提出一種能同時(shí)挖掘正、負(fù)關(guān)聯(lián)規(guī)則的算法,在挖掘出正頻繁項(xiàng)集的基礎(chǔ)上考察他們的支持度和興趣度,當(dāng)他們不滿(mǎn)足閾值要求時(shí)再考慮對(duì)應(yīng)的負(fù)項(xiàng)集的支持度和興趣度,如果負(fù)項(xiàng)集滿(mǎn)足要求,就從中挖掘出包含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則。這種算法思想無(wú)法挖掘出所有包含負(fù)項(xiàng)目的頻繁項(xiàng)集,該算法在生成頻繁項(xiàng)目集時(shí)會(huì)造成丟失。針對(duì)以上問(wèn)題,在包含正、負(fù)項(xiàng)目的一般化關(guān)聯(lián)規(guī)則進(jìn)行了比較深入地研究上,提出一種基于頻繁模式樹(shù)混合正、負(fù)項(xiàng)目的一般化關(guān)聯(lián)規(guī)則挖掘算法,該算法不僅挖掘包含所有正項(xiàng)目的關(guān)聯(lián)規(guī)則,而且還能夠挖掘出所有包含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則。

1 負(fù)關(guān)聯(lián)規(guī)則挖掘

1.1 單一正關(guān)聯(lián)規(guī)則缺陷

[HTH]例1:[HTSS]假設(shè)有5 000個(gè)數(shù)據(jù)集,其中包含事件A和B,同時(shí)包含事件A和B記為A∪B,包含A的有3 000項(xiàng),包含B的有2 500項(xiàng),minsup=0.2,minconf=0.3,supp(A∪B)=0.25>0.2,conf(A→B)=0.42>0.3,得到A→B是強(qiáng)關(guān)聯(lián)規(guī)則,再考慮A→B,supp(A∪B)=0.35>0.2,conf(A→B)=0.58>0.3,A→B也是強(qiáng)關(guān)聯(lián)規(guī)則,說(shuō)明由于A的發(fā)生B發(fā)生的概率反而下降了,因此A和B應(yīng)該是相互削弱的關(guān)系。這與A→B相矛盾。由于conf(A→B)>conf(A→B),A→B應(yīng)該更可靠,因此A和B應(yīng)該是負(fù)相關(guān)的的關(guān)系。

文獻(xiàn)[35]提出首先考慮正項(xiàng)集,當(dāng)正項(xiàng)集無(wú)法滿(mǎn)足最小支持度和最小信度時(shí)再考慮負(fù)項(xiàng)集時(shí),然而在例1中按照這種先挖掘正關(guān)聯(lián)規(guī)則再挖掘負(fù)關(guān)聯(lián)規(guī)則的做法將會(huì)淹沒(méi)有效的負(fù)關(guān)聯(lián)規(guī)則,進(jìn)而造成某些潛在負(fù)關(guān)聯(lián)規(guī)則的丟失,本文提出基于頻繁模式樹(shù)的正負(fù)關(guān)聯(lián)規(guī)則平行挖掘算法,同時(shí)考慮正項(xiàng)集和負(fù)項(xiàng)集。

1.2 負(fù)項(xiàng)目

設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合中有項(xiàng)集A和項(xiàng)集B。形如A→B,A→B,A→B的關(guān)聯(lián)規(guī)則稱(chēng)為負(fù)關(guān)聯(lián)規(guī)則,負(fù)的關(guān)聯(lián)規(guī)則的支持度和置信度的定義和正關(guān)聯(lián)規(guī)則相同,只是分別用A和B分別代替了原來(lái)的A和B。

首先介紹一個(gè)計(jì)算支持度計(jì)數(shù)的定理。

[HTH]定理1 [HTSS] |DB|為事務(wù)數(shù)據(jù)庫(kù)中事務(wù)的總個(gè)數(shù),對(duì)任意的負(fù)項(xiàng)目A,設(shè)他對(duì)應(yīng)的正項(xiàng)目A支持度計(jì)數(shù)(即在數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù))為A.count,那么A的支持度為:

A.count=|DB|-A.count(1)

證明:因?yàn)锳.count+A.count=|DB|;所以A.count=|DB|-A.count,這是顯然成立的。

應(yīng)用該定理,掃描原始數(shù)據(jù)庫(kù),利用式(1)可以計(jì)算出所有負(fù)項(xiàng)目的支持度計(jì)數(shù),然后將所有支持度計(jì)數(shù)不小于最小支持度計(jì)數(shù)minCount的正、負(fù)項(xiàng)目合并成一個(gè)集合,作為頻繁1項(xiàng)集L1;用正整數(shù)記錄正項(xiàng)目,用負(fù)整數(shù)記錄負(fù)項(xiàng)目,并且在頻繁1項(xiàng)集中,將各項(xiàng)按照絕對(duì)值的升序排列,如果同時(shí)含有絕對(duì)值相等的一對(duì)正、負(fù)項(xiàng)目,按照負(fù)項(xiàng)目在對(duì)應(yīng)正項(xiàng)目前一位的原則,形成一個(gè)有序序列。

2 含負(fù)項(xiàng)目的頻繁模式樹(shù)FPN_tree的構(gòu)造

2.1 基本概念

J.Han等提出一種用頻繁模式樹(shù)FP_Tree產(chǎn)生頻繁集的fp_Tree算法,借助與定義對(duì)含負(fù)項(xiàng)目的頻繁模式樹(shù)(frequent pattern tree with negations,F(xiàn)P_Tree)進(jìn)行如下的定義:

(1) 他由一個(gè)根(值為1)、項(xiàng)目前綴子樹(shù)(作為根的子女)和一個(gè)頻繁項(xiàng)頭表組成。

(2) 每個(gè)項(xiàng)目前綴子樹(shù)中的節(jié)點(diǎn)包括3個(gè)域:item,count和first其中item記錄節(jié)點(diǎn)表示的項(xiàng)目,他可以是正項(xiàng)目也可以是負(fù)項(xiàng)目:count表示該項(xiàng)目出現(xiàn)的頻度;first用于連接樹(shù)中同名節(jié)點(diǎn),如果不存在同名節(jié)點(diǎn),則值為“1”。Current表示項(xiàng)目指針,child,parent,Sibling分別表示節(jié)點(diǎn)的子,父,和兄結(jié)構(gòu)的指針。

(3) 頻繁項(xiàng)頭表的表項(xiàng)包括2個(gè)域:頻繁項(xiàng)目名HEADS:HEADS[i].item=S[i].item; HEADS[i].count=S[i].count; HEADS[i].first=NULL。

2.2 算法思想及其方法描述

前綴鏈表遍歷算法的基本思想是將事務(wù)數(shù)據(jù)庫(kù)中滿(mǎn)足最小支持度的所有項(xiàng)目看成是鏈表中的各個(gè)結(jié)點(diǎn)。每條事務(wù)看成是從某個(gè)結(jié)點(diǎn)經(jīng)若干中間結(jié)點(diǎn)到達(dá)終結(jié)點(diǎn)的路徑。從中找出滿(mǎn)足最小置信度的路徑即為所要發(fā)現(xiàn)的正負(fù)關(guān)聯(lián)規(guī)則。下面給出了頻繁模式樹(shù)FPN_tree構(gòu)造過(guò)程的具體算法:

(1) 第一次遍歷事務(wù)數(shù)據(jù)庫(kù)TID,用正整數(shù)記錄正項(xiàng)目,用負(fù)整數(shù)記錄負(fù)項(xiàng)目,利用式(1)統(tǒng)計(jì)各正項(xiàng)目及其負(fù)項(xiàng)目的出現(xiàn)頻率,并計(jì)算所有正負(fù)項(xiàng)目的支持度。

(2) 將所有支持度計(jì)數(shù)不小于最小支持度計(jì)數(shù)minCount的正、負(fù)項(xiàng)目合并成一個(gè)集合。

(3) 對(duì)上述集合的順序進(jìn)行調(diào)整,將各項(xiàng)按照絕對(duì)值的升序排列,如果同時(shí)含有絕對(duì)值相等的一對(duì)正、負(fù)項(xiàng)目,按照負(fù)項(xiàng)目在對(duì)應(yīng)正項(xiàng)目前一位的原則,形成一個(gè)有序序列,作為頻繁1項(xiàng)集S1。

(4) 初始化表頭數(shù)組HEADS:HEADS[i].item=S[i].iten;HEADS[i].count=S[i].count;HEADS[i].first=NULL;

(5) 將重排后各事務(wù)T調(diào)用函數(shù)insert(PL,T,parent)(首次調(diào)用時(shí)parent為NULL)插至前綴鏈表中。

FPNtree中由于引入了負(fù)項(xiàng)目,其構(gòu)造方法與FPTree有所不同。對(duì)于數(shù)據(jù)庫(kù)中的每個(gè)事務(wù)T,如果某個(gè)正頻繁項(xiàng)出現(xiàn)在T中,說(shuō)明T含有該正頻繁項(xiàng):如果某個(gè)負(fù)頻繁項(xiàng)對(duì)應(yīng)的正項(xiàng)目不出現(xiàn)在T中,說(shuō)明T中隱含有該負(fù)頻繁項(xiàng)。構(gòu)造FPN_tree的主要思想就是將每個(gè)事務(wù)中包含的正頻繁項(xiàng)和隱含的負(fù)頻繁項(xiàng)按照S1的順序插入到FPN_tree。

insert(PL,T,parent)

{c=getfirstitem(T);if(c=′’′)return;

If(PL=NULL)

{new(PL);PL>item=c;PL>count=1;PL>child=NULL;PL>parent=parent;

PL>sibling=NUILL:

i=location(c);new(q);q>current=PL;q>next=HEADS[i].first;HEADS[i].first=q;

insert(PL>child,T=delete(T,c),PL)}

else

if(PL>item==c){PL>count++;insert(PL>child,T=delete(T,c),PL);}

if(PL>sibling==NULL)

{new(P);P>item=c;P>count=1;P>child=NULL;P>parent=parent;

p>sibling=PL>sibling;

PL>sibling=P;i=location(c);new(q);q>current=P;

q>next=HEADS[i].first;HEADS[i].first=q;insert(P>child,T=delete(T,c).P);}

else insert(PL>sibling,T,parent);}

2.3 應(yīng)用舉例

假設(shè)有表1所示的數(shù)據(jù)庫(kù)DB,最小支持度為3,構(gòu)造含負(fù)項(xiàng)目的頻繁模式樹(shù)。

表1 各項(xiàng)目支持度計(jì)算[HT6K]

項(xiàng)目abcde-a-b-c-d-e

支持度4311423552[HJ0]

掃描DB,統(tǒng)計(jì)各正項(xiàng)的支持度計(jì)數(shù),并由式(1)計(jì)算負(fù)項(xiàng)的支持度計(jì)數(shù),結(jié)果如表1所示,選出F中支持度大于3的項(xiàng),選出頻繁項(xiàng)集Ll { a:4,-b:3,b:3-c:5,-d:5 ,e:4}。同時(shí)計(jì)算所有事務(wù)的正負(fù)頻繁項(xiàng)1項(xiàng)集,如表2所示。(各節(jié)點(diǎn)以item,name,count形式記錄)并依次將各事務(wù)中的正、負(fù)頻繁項(xiàng)插入到FPN_tree中,如最終得到含負(fù)項(xiàng)目的頻繁模式樹(shù)如圖1所示。

表2 事務(wù)數(shù)據(jù)庫(kù)1及頻繁項(xiàng)[HT6K]

事務(wù)TIDTID1TID2TID3TID4TID5TID6

項(xiàng)目a,b,eb,da,ca,eea,b,e[HJ0]

頻繁項(xiàng)a,b,-c,-d,eb,-ca,-b,-da,-b,-c,-d,-e-b,-c,-d,ea,b,-c,-d,e

圖1 正負(fù)頻繁模式樹(shù)

3 從FPN_tree中挖掘包含正、負(fù)項(xiàng)目的頻繁項(xiàng)集

一般從頻繁模式樹(shù)中挖掘關(guān)聯(lián)規(guī)則只需遍歷事務(wù)數(shù)據(jù)庫(kù)2次,第一次形成前綴鏈表,第二次確定某條事務(wù)是否與前綴鏈表的一條路徑重合或者部分重合,從而發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。第二次遍歷事務(wù)數(shù)據(jù)庫(kù)TID,對(duì)重排后的每條事務(wù)T,若當(dāng)前事務(wù)T完全或部分重合了前綴鏈表的某一路徑,且滿(mǎn)足大于小于minconf約束,就得到關(guān)聯(lián)規(guī)則,本文采用在上述頻繁模式樹(shù)的基礎(chǔ)上產(chǎn)生一個(gè)條件FP樹(shù),從而挖掘出所有的正負(fù)關(guān)聯(lián)規(guī)則。

[HTH]算法2:[HTSS]

算法2建立在算法1所產(chǎn)生的FPNtree上面。他會(huì)遞歸調(diào)用自己,并且反復(fù)調(diào)用算法2產(chǎn)生新的FPtree。

輸入:一棵用算法一建立的樹(shù)Tree;

輸出:所有的頻繁集。

步驟:

調(diào)用FPN_tree (Tree,1)下面是對(duì)過(guò)程FPgrowth的偽碼描述。

ProcedureFPN_tree (Tree,a)

ifTree只有一條路徑P

then對(duì)P中的節(jié)點(diǎn)的每一個(gè)組合(記為β)做(1)

(1) 產(chǎn)生頻繁集α∪β,并且把他的支持度指定為β中節(jié)點(diǎn)的最小支持度。

else對(duì)Tree的頭表從表尾到表頭的每一個(gè)表項(xiàng)(記為a)做(2)~(5)。

(2) 產(chǎn)生頻繁集β=a∪α,并且支持度為a的支持度。

(3) 建立β的條件模式庫(kù)(conditional pattern base)和β的條件樹(shù)(conditionalFPtree)Tree2

(4)if Tree2!=。

(5)then調(diào)用FPgrowth(Tree2,β)。

從圖1中的表項(xiàng)b出發(fā),首先可以得到一個(gè)頻繁集(b:3)。進(jìn)而得到包含b的所有模式。順著b表項(xiàng)的nodelink域,找到所有b的路徑,對(duì)第一條路徑,雖然a出現(xiàn)4次,但他們同b在一起只出2次,所以把他們的計(jì)數(shù)改為2,得到。第二條路徑中,得到,把這2條路徑中的b項(xiàng)去掉,就得到b的條件模式庫(kù),{( a:2},這是下一步遞歸的依據(jù)。把這個(gè)條件模式庫(kù)看作一個(gè)數(shù)據(jù)庫(kù),在上面運(yùn)用算法一產(chǎn)生一個(gè)空的FPtree。

接著考慮-b,先得到(-b:3),順著他的nodelink得到2條路徑,,<-b:1>,但在有序的頻繁項(xiàng)中,a與-b在一起只出現(xiàn)2次,所以把他們的計(jì)數(shù)改為2,得到,第二條路徑中,得到<-b:3>,把這2條路徑中的-b項(xiàng)去掉,就得到-b的條件模式庫(kù){( a:2},運(yùn)用算法1產(chǎn)生一個(gè)空的FPtree。

其次從表項(xiàng)e出發(fā),先可以得到一個(gè)頻繁集(e:4)。然后,得到包含e的所有模式。順著e表項(xiàng)的nodeink域,找出所有e的路徑,和<-b:1,-c:1,-d:1,e:1>,對(duì)第一條路徑,雖然a出現(xiàn)了4次,b,-c,-d,e各出現(xiàn)2次,但他們同e在一起只出現(xiàn)了2次,所以把他們的計(jì)數(shù)改為2,得到。第二條路徑中,得到,對(duì)第3條路徑,得到<-b:2,-c:2,-d:2,e:2>。把這3條路徑中的e項(xiàng)去掉,就得到e的條件模式庫(kù),{( a:2,b:2,-c:2,-d:2),( a:1,-b:1,-c:1,-d:1),( -b:2,-c:2,-d:2)},這是下一步遞歸的依據(jù)。把這個(gè)條件模式庫(kù)看作一個(gè)數(shù)據(jù)庫(kù),在上面運(yùn)用算法1產(chǎn)生一個(gè)新的FPtree,這個(gè)新樹(shù)中有2個(gè)節(jié)點(diǎn)a:3,-b:3,-c:5,和-d:5,對(duì)這個(gè)路徑中所有的節(jié)點(diǎn)組合產(chǎn)生頻繁集,得到{(ae:3,e (-b):3,a(-b)e:3,e(-c):4,e(-d):4,e(-c)(-d):4,a(-b)(-c)(-d):3)}.,類(lèi)似的考慮a:4,和-d:5最終得到兩個(gè)空的FPtree。

最后考慮-c,先還是得到(-c:5),順著他的nodelink得到4條路徑,,< a:4,-b:2,-c:1,> ,< b:1,-c:1,> 和<-b:1,-c:1,>得到一個(gè)新的節(jié)點(diǎn)b:3,對(duì)這個(gè)路徑中該節(jié)點(diǎn)組合產(chǎn)生頻繁集,得到{(b(-c):3}。最終得到條件模式庫(kù)和條件FP樹(shù)如表3所示。

表3 條件模式庫(kù)和FP樹(shù)

項(xiàng)條件模式庫(kù)條件FP樹(shù)

b{(}

-b{} [HJ0]

e{,,<-b:1,-c:1,-d:1>}{(ae:3;e(-b):3;a(-b)e:3;e(-c):4;e(-d):4;e(-c)(-d):4;a(-b)(-c)(-d):3)}

a 

-d{,, <-b:1,-c:1>}

-c{,,< b:1,-c:1> ,<-b:1,-c:1>}{(b(-c):3}

4 算法性能分析

FPN_tree算法與現(xiàn)有的挖掘負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則的算法相比,在性能上主要有以下優(yōu)點(diǎn):

(1) 能夠挖掘出所有的負(fù)關(guān)聯(lián)規(guī)則:目前大多數(shù)含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則挖掘算法主要通過(guò)考慮頻繁正項(xiàng)集的支持度和置信度,當(dāng)他們不滿(mǎn)足要求時(shí),才考慮對(duì)應(yīng)的負(fù)項(xiàng)集。但是對(duì)于非正頻繁項(xiàng)而其對(duì)應(yīng)負(fù)項(xiàng)頻繁的項(xiàng)集就不能被挖掘出來(lái),因此不能挖掘出所有含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則。FPN_tree算法將所有的正、負(fù)頻繁項(xiàng)壓縮到頻繁模式樹(shù)中,從中挖掘所有長(zhǎng)度的頻繁項(xiàng)集,所以能挖掘出所有包含正、負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則。

(2) 不會(huì)使原始數(shù)據(jù)庫(kù)增大:算法[6,7]為了挖掘出所有含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則,將所有項(xiàng)目的對(duì)應(yīng)負(fù)項(xiàng)目都擴(kuò)展到原始數(shù)據(jù)集中,再?gòu)闹姓页鲱l繁項(xiàng)集,這樣使得本來(lái)就龐大的數(shù)據(jù)庫(kù)又?jǐn)U大了1倍。本文提出的FPN_tree算法只是將頻繁的正、負(fù)項(xiàng)目壓縮的頻繁模式樹(shù)中,采用這種壓縮結(jié)[LL]構(gòu)存儲(chǔ)負(fù)項(xiàng)目以及正項(xiàng)目,有利于使得原始數(shù)據(jù)庫(kù)減小。

(3) 很多挖掘含負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則挖掘算法都是基于Apriori算法,這需要多次掃描數(shù)據(jù)庫(kù)產(chǎn)生大量的候選項(xiàng)集,通過(guò)反復(fù)掃描數(shù)據(jù)庫(kù)模式匹配來(lái)檢查一個(gè)很大的候選項(xiàng)集。FPN_tree算法將頻繁項(xiàng)集壓縮到一顆頻繁模式樹(shù),使用模式增長(zhǎng)方法挖掘出所有的頻繁項(xiàng)集,從而減少了時(shí)間和空間的占用,最終產(chǎn)生出所有滿(mǎn)足條件的正負(fù)關(guān)聯(lián)規(guī)則。另外,F(xiàn)PN_tree算法進(jìn)一步提高了算法的效率,即使會(huì)生成矛盾規(guī)則,通過(guò)規(guī)則的致信度的比較,就能夠得出滿(mǎn)足要求的關(guān)聯(lián)規(guī)則。

5 結(jié) 語(yǔ)

本文對(duì)包含正、負(fù)項(xiàng)目的一般化關(guān)聯(lián)規(guī)則進(jìn)行比較深入地研究,提出一種基于頻繁模式樹(shù)的混合正、負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則的FPN_tree算法。該算法將事務(wù)數(shù)據(jù)庫(kù)中出現(xiàn)的正項(xiàng)目和隱含的負(fù)項(xiàng)目信息映射到內(nèi)存中進(jìn)行處理,平行挖掘正負(fù)關(guān)聯(lián)規(guī)則。該算法打破了先挖掘正關(guān)聯(lián)規(guī)則,其次再挖掘負(fù)關(guān)聯(lián)規(guī)則這種單一的挖掘模式,從而造成重要負(fù)關(guān)聯(lián)規(guī)則的丟失。同時(shí)該算法在描述關(guān)聯(lián)規(guī)則項(xiàng)目間的相互獨(dú)立程度上比已有的單一挖掘負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則算法更具優(yōu)勢(shì)。

參 考 文 獻(xiàn)

[1]Agrawa1 R,Imielinski T,Swami A.Mining Association Rules between Sets of Items in Large Database[A].Proceedings of the 1993 ACMSIGMOD Internatlona1 Conference on Management of Data[C].Washington DC,USA,1993:207216.

[2]Agrawal R,Srikant R.Fast Algorithm for Mining Association rules[A].In:Proceedings of the 20th International Conference on VIDB[C].Santiago,Chile:1994:487499.

[3]Wu X,Zhang C,Zhang S.Mining both Positive and Negative Association Rules\\[J\\].In:Proc.of ICML,2002:658665.

[4]Savasere A,Omiecinski E,Navathe S.Mining for Strong Negative Associations in a Large Database of Customer Transactions[C].Proceedings of IEEE 14th Intl.Conference on Data Engineering,1998.

[5]WeiGuang Teng,MingJyh Hsieh,MingSyan Chen.On the Mining of Substitution Rules for Statistically Dependent Items[C].Data Mining,ICDM,Proceedings 2002IEEE International Conference,2002.

[6]JeanFranqois Baulicaut,Artur Bykowski,Baptiste Jeud.Towards the Tractable Discovery of Association Rules with Negations [C].FQAS′00,2000:425434.

[7]左萬(wàn)利,劉居紅.包含正負(fù)屬性的關(guān)聯(lián)規(guī)則及其挖掘[J].蘭州大學(xué)學(xué)報(bào):自然科學(xué)版,1999,33(8):288292.

作者簡(jiǎn)介 屈百達(dá) 男,1956年出生,博士研究生,教授。研究方向?yàn)楝F(xiàn)代控制技術(shù)與應(yīng)用、模式識(shí)別與數(shù)據(jù)處理、運(yùn)籌與決策。

陳莉平 女,1981年出生,陜西漢中人,江南大學(xué)在讀碩士研究生。研究方向?yàn)閿?shù)據(jù)挖掘、決策支持。

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文

主站蜘蛛池模板: 国模视频一区二区| 欧美色香蕉| 亚洲区第一页| 999国内精品视频免费| 久久一色本道亚洲| 欧洲av毛片| 欧美一区日韩一区中文字幕页| 99精品久久精品| 久久久久无码精品国产免费| 日韩色图在线观看| 无码'专区第一页| 无码在线激情片| 麻豆精品在线| 国产真实乱了在线播放| 色呦呦手机在线精品| 国产女人喷水视频| 99re精彩视频| 欧美日本在线| 久久黄色小视频| 国内精自视频品线一二区| 亚洲不卡网| 试看120秒男女啪啪免费| 国产成人高清精品免费软件 | 伊人AV天堂| 欧美在线观看不卡| 欧美日韩精品一区二区在线线| 亚洲AV成人一区国产精品| 亚洲美女一区| 91色在线观看| 成人福利在线免费观看| 欧美日韩高清| 欧美亚洲另类在线观看| 看你懂的巨臀中文字幕一区二区| 日韩不卡免费视频| 国产成人一区在线播放| 亚洲三级视频在线观看| 蜜桃视频一区二区三区| 亚洲无码91视频| 国产一区二区三区在线精品专区| 欧美精品成人| 久久人搡人人玩人妻精品一| 一级福利视频| 在线一级毛片| 专干老肥熟女视频网站| 欧美性精品不卡在线观看| 婷婷激情亚洲| 国外欧美一区另类中文字幕| 激情综合婷婷丁香五月尤物| 免费一看一级毛片| 亚洲欧美人成人让影院| 伊人久久久大香线蕉综合直播| 国产第一福利影院| 性色一区| 国产精品自在线天天看片| 无码国产伊人| 国产欧美日韩va另类在线播放| 亚洲欧美成人在线视频| 狠狠色香婷婷久久亚洲精品| 国产麻豆精品在线观看| 看你懂的巨臀中文字幕一区二区| 黄色a一级视频| 久久精品91麻豆| 亚洲天堂高清| 国产视频一二三区| 亚洲成人一区二区三区| 国产精品美女免费视频大全 | 国产欧美综合在线观看第七页| 久久综合成人| 欧亚日韩Av| 中文字幕日韩欧美| 亚洲乱伦视频| 久久久久国产精品免费免费不卡| 国产精品无码翘臀在线看纯欲| 亚洲精品大秀视频| 欧美日韩中文国产| 国产免费福利网站| 国产AV无码专区亚洲精品网站| 国产国语一级毛片在线视频| 狠狠色噜噜狠狠狠狠色综合久| 国产精品开放后亚洲| 狠狠色丁香婷婷综合| 亚洲国产精品一区二区第一页免 |