【摘要】 本文針對云計算提出了增量更新和協(xié)同工作的一種較為新型的數(shù)據(jù)挖掘更新方式,文章著重介紹了增量更新中基于網(wǎng)絡(luò)的表格化數(shù)據(jù)存儲和更新方式,以及對一般協(xié)同工作算法的稍加修改,通過這種新的數(shù)據(jù)方式實現(xiàn)避免掃描原始數(shù)據(jù)庫,來實現(xiàn)數(shù)據(jù)的快速挖掘和更新。
【關(guān)鍵字】 網(wǎng)絡(luò)遍歷 數(shù)據(jù)挖據(jù) 最小閾值 協(xié)同工作
一、問題的提出
近年來,隨著網(wǎng)絡(luò)的快速發(fā)展以及信息技術(shù)的廣泛植入,提出了對信息處理能力更高的要求。在這種背景下,數(shù)據(jù)挖掘領(lǐng)域中的增量網(wǎng)絡(luò)遍歷技術(shù)應(yīng)運而生,網(wǎng)絡(luò)遍歷挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用。網(wǎng)絡(luò)遍歷挖掘是從大量訓(xùn)練樣本的基礎(chǔ)上得到數(shù)據(jù)對象間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息提取。但是以上的研究都是以假設(shè)數(shù)據(jù)庫為靜態(tài)的前提的。而事實上,在網(wǎng)絡(luò)中基本上所有類型的數(shù)據(jù)庫都處在不斷的更新(增加、刪除、修改)中,所有的支持度閾值也會不斷改變,并且動態(tài)數(shù)據(jù)胡往往要求對用戶的查詢指令做出快速的反應(yīng)。因此,在網(wǎng)絡(luò)中,如何提高動態(tài)數(shù)據(jù)庫的關(guān)聯(lián)規(guī)則,和其遍歷的效率成了個重要的問題。
二、關(guān)鍵技術(shù)
2.1增量查找技術(shù)---網(wǎng)絡(luò)表格遍歷
為了增量的交互的挖掘 Web 訪問序列模式,我們通過利用先前的挖掘結(jié)果發(fā)現(xiàn)新的模式來達(dá)到節(jié)省挖掘時間的目的,選擇一個好的存儲結(jié)構(gòu)來儲存先前的 挖掘結(jié)果很重要。于是我們選擇用網(wǎng)格結(jié)構(gòu)來保存先前挖掘結(jié)果。……