李成嚴(yán) 李鑫宇 張磊 王廣澤



摘要:關(guān)聯(lián)規(guī)則挖掘主要用于發(fā)現(xiàn)隱藏在數(shù)據(jù)中的知識(shí)。加權(quán)關(guān)聯(lián)規(guī)則挖掘能更有效地挖掘出項(xiàng)目重要性不同的規(guī)則。針對(duì)人工賦權(quán)的方法存在一定的主觀隨意性,沒有充分利用數(shù)據(jù)本身特征且串行算法無法處理大數(shù)據(jù)集的問題。提出了獨(dú)立概率完全加權(quán)關(guān)聯(lián)規(guī)則的并行挖掘算法,該算法以項(xiàng)在當(dāng)前數(shù)據(jù)集中出現(xiàn)概率為依據(jù)進(jìn)行完全加權(quán)模型構(gòu)建,以挖掘出更多用戶所期待的關(guān)聯(lián)規(guī)則。采用前綴劃分、位圖存儲(chǔ)等技術(shù)分別解決加權(quán)頻繁項(xiàng)集篩選、候選加權(quán)頻繁項(xiàng)集生成所造成時(shí)間代價(jià)高的問題。引入分布式并行計(jì)算思想,并在Spark框架下編程實(shí)現(xiàn),使算法可以在大數(shù)據(jù)環(huán)境下對(duì)加權(quán)關(guān)聯(lián)規(guī)則進(jìn)行高效挖掘。利用數(shù)值實(shí)例對(duì)該模型和算法進(jìn)行了驗(yàn)證,結(jié)果表明此算法可在保證算法時(shí)間效率優(yōu)越的同時(shí)獲得更多隱藏信息。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則挖掘;完全加權(quán);獨(dú)立概率;并行計(jì)算