999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘技術(shù)研究

2009-07-29 07:11:36
中國新技術(shù)新產(chǎn)品 2009年12期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)數(shù)據(jù)庫

趙 穎

摘要:隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,如何從中發(fā)現(xiàn)有價(jià)值的信息或知識(shí),成為一項(xiàng)非常艱巨的任務(wù)。一種去粗存精、去偽存真,能夠從海量的數(shù)據(jù)中提取知識(shí)和信息的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù),使傳統(tǒng)分析方法遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)的需求。面對海量數(shù)據(jù),如何從中發(fā)現(xiàn)有價(jià)值的信息或知識(shí),成為一項(xiàng)非常艱巨的任務(wù)。人們急切的需要一種去粗存精、去偽存真的技術(shù),能夠從海量的數(shù)據(jù)中提取知識(shí)和信息的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。于是,人們結(jié)合統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等技術(shù),提出數(shù)據(jù)挖掘來解決這一難題。

1數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計(jì)技術(shù)和人工智能以及知識(shí)工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是一個(gè)交叉學(xué)科領(lǐng)域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等技術(shù)。

2 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘綜合了各個(gè)學(xué)科技術(shù),數(shù)據(jù)挖掘的功能主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時(shí)序模式和偏差分析等。

2.1 關(guān)聯(lián)分析(association analysis)

兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。

2.2 聚類分析(clustering)

聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。

2.3 時(shí)序模式(time-series pattern)

時(shí)序模式是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。

2.4 分類(classification)

分類就是找出一個(gè)類別的概念描述,按照分析對象的屬性、特征,建立不同的組類來描述事物。它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。

2.5 預(yù)測(predication)

預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常用預(yù)測方差來度量。

2.6 偏差分析(deviation)

在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別,對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。

3 數(shù)據(jù)挖掘的方法

傳統(tǒng)統(tǒng)計(jì)方法。① 抽樣技術(shù):我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進(jìn)行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進(jìn)行合理的抽樣。② 多元統(tǒng)計(jì)分析:因子分析,聚類分析等。③ 統(tǒng)計(jì)預(yù)測方法,如回歸分析,時(shí)間序列分析等。

決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對實(shí)例的某個(gè)屬性的測試,該結(jié)點(diǎn)的每一個(gè)后繼分支對應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

神經(jīng)網(wǎng)絡(luò)。模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進(jìn)行調(diào)整,計(jì)算,最后得到結(jié)果,用于分類和回歸。神經(jīng)網(wǎng)絡(luò)方法具有處理非線性數(shù)據(jù)和含噪聲數(shù)據(jù)的能力。神經(jīng)網(wǎng)絡(luò)的常用算法包括前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。

遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。

關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對這些規(guī)則要進(jìn)行有效的評價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法、凝聚算法、劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià),此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。

粗糙集。粗集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡化輸入信息的表達(dá)空間;算法簡單,易于操作。目前成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

4數(shù)據(jù)挖掘的主要步驟

數(shù)據(jù)挖掘是一個(gè)復(fù)雜的過程,它的一般步驟是:

分析問題。 在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問題,在這個(gè)基礎(chǔ)之上提出問題,對目標(biāo)有明確的定義。

提取、清洗和校驗(yàn)數(shù)據(jù)。獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,提取的數(shù)據(jù)放在一個(gè)結(jié)構(gòu)上與數(shù)據(jù)模型兼容的數(shù)據(jù)庫中。一旦提取和清理數(shù)據(jù)后,瀏覽所創(chuàng)建的模型,以確保所有的數(shù)據(jù)都已經(jīng)存在并且完整。

創(chuàng)建和調(diào)試模型。將算法應(yīng)用于模型后產(chǎn)生一個(gè)結(jié)構(gòu),確認(rèn)它對于源數(shù)據(jù)中"事實(shí)"的準(zhǔn)確代表性,這是很重要的一點(diǎn)。雖然可能無法對每一個(gè)細(xì)節(jié)做到這一點(diǎn),但是通過查看生成的模型,就可能發(fā)現(xiàn)重要的特征。

查詢數(shù)據(jù)挖掘模型的數(shù)據(jù)。一旦建立模型,該數(shù)據(jù)就可用于決策支持了。

維護(hù)數(shù)據(jù)挖掘模型。數(shù)據(jù)模型建立好后,初始數(shù)據(jù)的特征,如有效性,可能發(fā)生改變。一些信息的改變會(huì)對精度產(chǎn)生很大的影響,因?yàn)樗淖兓绊懽鳛榛A(chǔ)的原始模型的性質(zhì)。因而,維護(hù)數(shù)據(jù)挖掘模型是非常重要的環(huán)節(jié)。

結(jié)束語

數(shù)據(jù)挖掘技術(shù)是一個(gè)充滿希望的研究領(lǐng)域,越來越多人們已經(jīng)認(rèn)識(shí)到數(shù)據(jù)挖掘技術(shù)能將原始數(shù)據(jù)轉(zhuǎn)換為有意義的形式,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。隨著數(shù)據(jù)挖掘技術(shù)不斷被應(yīng)用到新的領(lǐng)域和各種算法不斷被應(yīng)用到數(shù)據(jù)挖掘領(lǐng)域中,將更大激發(fā)數(shù)據(jù)挖掘技術(shù)的潛力,進(jìn)一步推進(jìn)數(shù)挖掘技術(shù)的發(fā)展和普及。

參考文獻(xiàn)

[1]安淑芝等. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘. 北京:清華大學(xué)出版社. 2005-06-01.

[2]Jiawei Han. 數(shù)據(jù)挖掘概念與技術(shù). 機(jī)械工業(yè)出版社. 2002. 9 .

[3]徐菁,劉保旭,許榕生. 基于數(shù)據(jù)挖掘技術(shù)的入侵檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程.

作者簡介:趙穎(1976-),女,黑龍江鶴崗人,講師。

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)數(shù)據(jù)庫
“苦”的關(guān)聯(lián)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫
智趣
讀者(2017年5期)2017-02-15 18:04:18
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 亚洲黄网在线| 国产一线在线| 一级片一区| 欧美成人日韩| 欧美在线综合视频| 伊人色天堂| 午夜福利免费视频| 国产va免费精品| 五月丁香伊人啪啪手机免费观看| 国内精品视频| 四虎国产成人免费观看| 国产va在线观看免费| 色婷婷成人| 成人在线视频一区| 国产精品吹潮在线观看中文| 精品91视频| 亚洲色图狠狠干| 亚洲最大综合网| 亚洲精品视频免费| 毛片一区二区在线看| 91娇喘视频| 国产精品一区二区不卡的视频| 国产欧美日韩在线一区| 中文无码精品a∨在线观看| 国产无吗一区二区三区在线欢| 国产主播在线观看| 99国产精品国产高清一区二区| 精品一区二区无码av| 欧美第一页在线| 国产精品久久久久久搜索| 一本一道波多野结衣一区二区 | 无码aaa视频| 亚洲色图欧美在线| 国产在线一二三区| 欧美国产综合视频| 久久综合色播五月男人的天堂| 精品人妻无码中字系列| 午夜国产不卡在线观看视频| 欧美成人亚洲综合精品欧美激情| 成人毛片在线播放| 露脸一二三区国语对白| 婷婷六月在线| 四虎永久免费地址在线网站| 亚洲三级影院| 国产资源免费观看| 青青青国产视频| 亚洲成综合人影院在院播放| 极品国产一区二区三区| 免费国产福利| 一级全黄毛片| 国产午夜一级毛片| 久久久黄色片| 无码网站免费观看| 韩国福利一区| 亚洲欧美一级一级a| 99久久精品国产自免费| 欧美性天天| 99精品在线视频观看| 国产亚洲精| 精品色综合| 亚洲乱伦视频| 精品国产女同疯狂摩擦2| 成年人午夜免费视频| 亚洲成人动漫在线| 国模私拍一区二区三区| 国产精品九九视频| 国产成人高清在线精品| 亚洲中文字幕无码爆乳| 亚洲国产日韩在线观看| 精品伊人久久久香线蕉| 亚洲第一精品福利| 波多野结衣一区二区三区88| 日韩欧美中文| 韩国福利一区| 久久国产亚洲欧美日韩精品| 黄色网站在线观看无码| 亚洲色成人www在线观看| 香蕉色综合| 黄色福利在线| 欧美激情视频二区三区| 久久精品最新免费国产成人| 亚洲第一极品精品无码|