999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘技術(shù)方法的研究

2011-12-31 08:49:13郭佳
中國新技術(shù)新產(chǎn)品 2011年23期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

郭佳

(蘭州石化職業(yè)技術(shù)學(xué)院信息處理與控制工程系,甘肅 蘭州 730060)

數(shù)據(jù)挖掘作為近年來新興的一種數(shù)據(jù)處理技術(shù),不僅被許多研究人員看作是數(shù)據(jù)庫系統(tǒng)和機(jī)器學(xué)習(xí)方面一個(gè)重要的研究課題,而且已經(jīng)被工商界人士看作是一個(gè)能帶來巨大回報(bào)的重要領(lǐng)域。

1 數(shù)據(jù)挖掘的定義

目前有關(guān)數(shù)據(jù)挖掘的定義有很多,一種比較公認(rèn)的定義如下:

數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中抽取隱含的、不為人知的、有用的信息。數(shù)據(jù)挖掘被描述為從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。試圖創(chuàng)建一個(gè)數(shù)據(jù)庫中描述的復(fù)雜世界的簡(jiǎn)單模型,因而我們也可以說數(shù)據(jù)挖掘是處理大量信息的方法,并且它有助于以比人更快的速度發(fā)現(xiàn)有用的信息。

2 數(shù)據(jù)挖掘的任務(wù)

數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種,按功能可分為兩大類:預(yù)測(cè)型(Predictive)模式和描述型(Descriptive)模式。具體任務(wù)主要有以下幾種:

2.1 分類:用于預(yù)測(cè)事件所屬的類別,其中樣本數(shù)據(jù)中包含標(biāo)識(shí)樣本事件所屬類別的數(shù)據(jù)項(xiàng),類別是已知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對(duì)這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量,將其映射入已知類別中。

2.2 聚類:用于描述和發(fā)現(xiàn)數(shù)據(jù)庫中以前未知的數(shù)據(jù)類型,其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔?shì)和模式的數(shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程度最高,類間差異最大。

2.3 關(guān)聯(lián)規(guī)則:用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項(xiàng)目,由此推斷事件間潛在的關(guān)聯(lián),識(shí)別有可能重復(fù)發(fā)生的模式。

2.4 序列模式:與關(guān)聯(lián)分析相似,只是擴(kuò)展為一段時(shí)間的項(xiàng)目集間的關(guān)系。常把序列模式看作由時(shí)間變量連接起來的關(guān)聯(lián)。序列分析可分析長時(shí)間的相關(guān)紀(jì)錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式。

3 數(shù)據(jù)挖掘的方法

數(shù)據(jù)挖掘中采用的方法綜合了數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等領(lǐng)域的研究成果。下面我們給出主要數(shù)據(jù)挖掘方法:

3.1 決策樹方法

決策樹的每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分支表示一個(gè)測(cè)試的輸出,每個(gè)樹葉節(jié)點(diǎn)表示類和類的分布。構(gòu)造一個(gè)決策樹分類器通常分為兩步:樹的生成和剪枝。樹的生成采用自上而下的遞歸分治法。剪枝就是使用統(tǒng)計(jì)度量,剪去那些不可靠的分枝。ID3及其后續(xù)版本C4.5,C5是使用最為廣泛的決策樹方法,采用信息嫡增益及其改進(jìn)增益率進(jìn)行屬性選擇。

3.2 關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則挖掘需要找出的是支持率和置信度分別大于或等于用戶指定的臨界值的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘過程分為兩步:首先找出所有的頻繁項(xiàng)目集及其支持率;然后根據(jù)找到的頻繁項(xiàng)目集導(dǎo)出所有的置信度大于或等于用戶指定的最小置信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的研究一般都在尋找頻繁項(xiàng)目集上。

3.3 聚類分析

聚類是按照某個(gè)特定標(biāo)準(zhǔn) (通常是某種距離)把一個(gè)數(shù)據(jù)集分割成不同的類,使得類內(nèi)相似性盡可能的大;同時(shí),類間的區(qū)別性也盡可能的大。聚類方法可以劃分為以下幾類:①劃分方法;②層次方法;③基于密度的方法;④基于網(wǎng)格的方法;⑤基于模型的方法等。

3.4 遺傳算法

遺傳算法是Holland于1967年提出的[1],模擬生物進(jìn)化過程的計(jì)算模型,是自然遺傳學(xué)和計(jì)算機(jī)科學(xué)相互結(jié)合滲透而形成的新的計(jì)算方法。遺傳算法由3個(gè)基本算子組成:繁殖、交叉和變異。遺傳算法已在優(yōu)化計(jì)算和分類機(jī)器學(xué)習(xí)方面顯示了明顯的優(yōu)勢(shì)。

3.5 粗糙集方法

粗糙集理論是上世紀(jì)八十年代初Z.Pawlak針對(duì)G.Firege的邊界域思想提出的[2],基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類,用上、下近似集合來逼近數(shù)據(jù)庫中的不精確概念。用于分類,可以發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系;用于屬性約簡(jiǎn),可以識(shí)別和刪除無助于給定訓(xùn)練數(shù)據(jù)分類的屬性;用于相關(guān)分析,可以根據(jù)分類任務(wù)評(píng)估每個(gè)屬性的貢獻(xiàn)或意義。其主要思想是在保持分類能力不變的前提下,通過知識(shí)約簡(jiǎn),導(dǎo)出問題的決策或分類規(guī)則。

3.6 支持向量機(jī)方法

支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的一種新的學(xué)習(xí)方法,是根據(jù)有限的樣本信息在模型復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的泛化能力。它是Vapnik于1995年提出的,近年受到國際學(xué)術(shù)界的高度重視。

數(shù)據(jù)挖掘算法是對(duì)數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn),其好壞將直接影響到所發(fā)現(xiàn)知識(shí)的好壞,因此選取適當(dāng)?shù)乃惴ɑ蛩惴ńM合至關(guān)重要,目前對(duì)數(shù)據(jù)挖掘的研究也主要集中在算法及其應(yīng)用方面。一般來說,不存在一個(gè)普遍適用的算法,一個(gè)算法在某個(gè)領(lǐng)域非常有效,但在另一個(gè)領(lǐng)域卻可能不太合適。因此,在實(shí)際應(yīng)用中要針對(duì)具體應(yīng)用的目標(biāo)和情況,精心選擇有效的數(shù)據(jù)挖掘算法。

4 數(shù)據(jù)挖掘的步驟

數(shù)據(jù)挖掘的實(shí)施大體可分為以下三步:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋,其中數(shù)據(jù)準(zhǔn)備又可以劃分為數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)處理三個(gè)階段,結(jié)果表達(dá)和解釋包含模式評(píng)估和知識(shí)表示的內(nèi)容。

4.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備的過程是整理原始數(shù)據(jù),給數(shù)據(jù)挖掘過程提供可供挖掘的材料。數(shù)據(jù)準(zhǔn)備過程按照數(shù)據(jù)的處理順序可以細(xì)分為若干個(gè)階段,數(shù)據(jù)集成是將多種數(shù)據(jù)源組合在一起,開始著手提供發(fā)現(xiàn)任務(wù)的操作對(duì)象,這個(gè)過程中也進(jìn)行數(shù)據(jù)清理工作,對(duì)各個(gè)數(shù)據(jù)源中的噪音數(shù)據(jù)和不一致數(shù)據(jù)進(jìn)行處理,可能包括補(bǔ)充殘缺值、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等內(nèi)容。數(shù)據(jù)選擇從完成數(shù)據(jù)集成后的數(shù)據(jù)庫中檢索和分析任務(wù)相關(guān)的數(shù)據(jù)作為發(fā)現(xiàn)任務(wù)的操作對(duì)象,形成目標(biāo)數(shù)據(jù)。數(shù)據(jù)預(yù)處理將數(shù)據(jù)變換為適合挖掘的形式,如匯總或聚集操作、屬性量化或數(shù)據(jù)降維等。

4.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘階段首先要確定挖掘任務(wù)中要找的模式類型,也就是要確定挖掘的任務(wù)和目的,數(shù)據(jù)挖掘任務(wù)一般可以分為兩類:描述和預(yù)測(cè)。描述性任務(wù)刻劃數(shù)據(jù)集中數(shù)據(jù)的一般特征,預(yù)測(cè)性任務(wù)在當(dāng)前數(shù)據(jù)集上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。其次還要考慮采用什么樣的挖掘算法,對(duì)于同樣的任務(wù)類型可能存在多種算法實(shí)現(xiàn),此時(shí)要考慮數(shù)據(jù)集的具體特點(diǎn)和表現(xiàn)形式,對(duì)比各種挖掘算法,對(duì)各種算法的要求和前提假設(shè)要有充分的理解,然后最終確定合適的算法類型。

4.3 結(jié)果表達(dá)與解釋

數(shù)據(jù)挖掘系統(tǒng)具有產(chǎn)生數(shù)以千計(jì)、甚至上萬的模式或規(guī)則的潛在能力。在這些模式中,用戶只對(duì)其中的一小部分模式感興趣,這就需要數(shù)據(jù)挖掘系統(tǒng)能提供對(duì)各種模式的評(píng)估能力,依據(jù)用戶對(duì)模式的興趣度進(jìn)行評(píng)估,剔除掉大多數(shù)無關(guān)模式,把能夠表示知識(shí)的有趣模式提交給用戶。知識(shí)發(fā)現(xiàn)由于最終是面向人類用戶的,因此可能要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或把結(jié)果轉(zhuǎn)換為用戶易于理解的另一種表示方式。

[1]Holland J H.Adaptation in natural and artificialsystems [M].Univ of Michigan Press,Ann Arbor Mich,1975

[2]Pawlak Z.Rough sets[J].International journal of computer & information sciences.1982,11(5):341-356

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對(duì)我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 久操中文在线| 欧美特级AAAAAA视频免费观看| 亚洲日本精品一区二区| 欧美一区精品| 国产精品一区在线观看你懂的| 一本大道香蕉久中文在线播放 | 成人在线观看一区| 乱色熟女综合一区二区| 国产91av在线| 欧美精品二区| 欧美五月婷婷| 伊人久久大香线蕉影院| 亚洲精品波多野结衣| av在线无码浏览| 日本免费a视频| 一级爱做片免费观看久久 | 亚洲无码熟妇人妻AV在线| 午夜不卡视频| 国产精品一线天| 国产精品成人免费视频99| 国精品91人妻无码一区二区三区| 亚洲天堂视频网站| 国产精品美乳| 国产亚洲欧美另类一区二区| 成人韩免费网站| 九九热精品视频在线| 99热国产这里只有精品9九| 自拍欧美亚洲| 国产亚洲视频播放9000| 草草影院国产第一页| 国产青青操| 国产一级一级毛片永久| 国产福利一区视频| 91亚洲精品国产自在现线| 网友自拍视频精品区| 日韩精品亚洲人旧成在线| 欧美一级视频免费| 久久精品aⅴ无码中文字幕 | 日本精品视频| 一级不卡毛片| 国产高清自拍视频| 人妻丰满熟妇AV无码区| 国产成人精品一区二区免费看京| 97视频免费在线观看| 亚洲成a人在线播放www| 欧美yw精品日本国产精品| 亚洲乱码在线视频| 小13箩利洗澡无码视频免费网站| 波多野结衣视频网站| 国产亚洲精品97在线观看| 欧美日韩理论| 制服丝袜亚洲| 最新国产在线| 亚洲日韩国产精品综合在线观看| 欧美a在线| 免费一级无码在线网站| 国产极品美女在线播放| 操美女免费网站| 波多野结衣一区二区三区88| 国产精品伦视频观看免费| 亚洲区欧美区| 在线欧美日韩| 亚洲福利视频网址| 中文字幕无码制服中字| 综合五月天网| 欧美成人在线免费| 91九色最新地址| 精品亚洲国产成人AV| 无码AV动漫| 精品欧美日韩国产日漫一区不卡| 91久久国产成人免费观看| 永久免费无码日韩视频| 色噜噜在线观看| 无码aⅴ精品一区二区三区| 日本不卡在线| 欧美成人一区午夜福利在线| 91色综合综合热五月激情| 日本不卡在线| 成人午夜亚洲影视在线观看| 四虎永久在线精品国产免费| 亚洲国产在一区二区三区| 在线视频亚洲欧美|