999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析數(shù)據(jù)挖掘技術

2009-10-22 08:13:22陳文捷
商情 2009年23期
關鍵詞:提取數(shù)據(jù)挖掘

王 曉 陳文捷

【摘 要】數(shù)據(jù)挖掘技術為應對信息爆炸,海量信息的處理提供了科學和有效的手段。本文介紹了數(shù)據(jù)挖掘的概念、對象、任務、過程、方法和應用領域。

【關鍵詞】數(shù)據(jù)挖掘 信息分析 提取 知識

社會的發(fā)展進入了網(wǎng)絡信息時代,各種形式的數(shù)據(jù)海量產(chǎn)生,在這些數(shù)據(jù)的背后隱藏著許多重要的信息,如何從這些數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)有用信息,越來越受到關注。為了適應信息處理新需求和社會發(fā)展各方面的迫切需要而發(fā)展起來一種新的信息分析技術,這種技術稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

一、數(shù)據(jù)挖掘的對象

數(shù)據(jù)挖掘可以在任何類型的數(shù)據(jù)上進行,即可以來自社會科學,又可以來自自然科學產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結構也各不相同,可以是傳統(tǒng)的關系數(shù)據(jù)庫,可以是面向對象的高級數(shù)據(jù)庫系統(tǒng),也可以是面向特殊應用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是Web數(shù)據(jù)信息。

二、數(shù)據(jù)挖掘的任務

數(shù)據(jù)挖掘的目標是從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的知識。它的任務主要是分類、預測、時間序列模式、聚類分析、關聯(lián)分析預測和偏差分析等。

1.分類。分類就是按照一定的標準把數(shù)據(jù)對象劃歸成不同類別的過程。

2.預測。預測就是通過對歷史數(shù)據(jù)的分析找出規(guī)律,并建立模型,通過模型對未來數(shù)據(jù)的種類和特征進行分析。

3.時間序列模式。時間序列模式就是根據(jù)數(shù)據(jù)對象隨時間變化的規(guī)律或趨勢來預測將來的值。

4.聚類分析。聚類分析是在沒有給定劃分類的情況下,根據(jù)數(shù)據(jù)信息的相似度進行數(shù)據(jù)聚集的一種方法。

5.關聯(lián)分析預測。關聯(lián)分析就是對大量的數(shù)據(jù)進行分析,從中發(fā)現(xiàn)滿足一定支持度和可信度的數(shù)據(jù)項之間的聯(lián)系規(guī)則。

6.偏差分析。偏差分析就是通過對數(shù)據(jù)庫中的孤立點數(shù)據(jù)進行分析,尋找有價值和意義的信息。

三、數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘使用一定的算法從實際應用數(shù)據(jù)中挖掘出未知、有價值的模式或規(guī)律等知識,整個過程由數(shù)據(jù)準備、數(shù)據(jù)挖掘、模式評估、鞏固知識和運用知識等步驟組成。

1.數(shù)據(jù)準備。數(shù)據(jù)挖掘的處理對象是數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結果。但往往不適合直接在這些數(shù)據(jù)上進行知識挖掘,首先要清除數(shù)據(jù)噪聲和與挖掘主題明顯無關的數(shù)據(jù);其次將來自多數(shù)據(jù)源中的相關數(shù)據(jù)組合并;然后將數(shù)據(jù)轉換為易于進行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式,這就是數(shù)據(jù)準備。

2.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標,選取相應算法及參數(shù),分析準備好的數(shù)據(jù),產(chǎn)生一個特定的模式或數(shù)據(jù)集,從而得到可能形成知識的模式模型。

3.模式評估。由挖掘算法產(chǎn)生的模式規(guī)律,存在無實際意義或無實用價值的情況,也存在不能準確反映數(shù)據(jù)的真實意義的情況,甚至在某些情況下與事實相反,因此需要對其進行評估,從挖掘結果中篩選出有意義的模式規(guī)律。在此過程中,為了取得更為有效的知識,可能會返回前面的某一處理步驟中以反復提取,從而提取出更有效的知識。

四、數(shù)據(jù)挖掘的常用方法

1.決策樹方法。決策樹是一種常用于預測模型的算法,它通過一系列規(guī)則將大量數(shù)據(jù)有目的分類,從中找到一些有價值的、潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,易于理解、精度較高,特別適合大規(guī)模的數(shù)據(jù)處理,在知識發(fā)現(xiàn)系統(tǒng)中應用較廣。它的主要缺點是很難基于多個變量組合發(fā)現(xiàn)規(guī)則。在數(shù)據(jù)挖掘中,決策樹方法主要用于分類。

2.神經(jīng)網(wǎng)絡方法。神經(jīng)網(wǎng)絡是模擬人類的形象直覺思維,在生物神經(jīng)網(wǎng)絡研究的基礎上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡的特點,通過簡化、歸納、提煉總結出來的一類并行處理網(wǎng)絡,利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡本身結構來表達輸入和輸出的關聯(lián)知識。

3.粗糙集方法。粗糙集理論是一種研究不精確、不確定知識的數(shù)學工具。粗糙集處理的對象是類似二維關系表的信息表。目前成熟的關系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗糙集的數(shù)據(jù)挖掘奠定了堅實的基礎。粗糙集理論能夠在缺少先驗知識的情況下,對數(shù)據(jù)進行分類處理。在該方法中知識是以信息系統(tǒng)的形式表示的,先對信息系統(tǒng)進行歸約,再從經(jīng)過歸約后的知識庫抽取得到更有價值、更準確的一系列規(guī)則。因此,基于粗糙集的數(shù)據(jù)挖掘算法實際上就是對大量數(shù)據(jù)構成的信息系統(tǒng)進行約簡,得到一種屬性歸約集的過程,最后抽取規(guī)則。

4.遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的信息。因此,許多數(shù)據(jù)挖掘問題可以看成是搜索問題,數(shù)據(jù)庫或者數(shù)據(jù)倉庫為搜索空間,挖掘算法是搜索策略。應用遺傳算法在數(shù)據(jù)庫中進行搜索,對隨機產(chǎn)生的一組規(guī)則進行進化,直到數(shù)據(jù)庫能被該組規(guī)則覆蓋,就可以挖掘出隱含在數(shù)據(jù)庫中的規(guī)則。

五、數(shù)據(jù)挖掘的應用

數(shù)據(jù)挖掘技術在各個需要進行信息分析的領域得到十分廣泛的應用。它可以帶來顯著的經(jīng)濟效益,不僅可以控制成本,也可以給企業(yè)帶來更多效益。在金融業(yè),可以通過信用卡歷史數(shù)據(jù)的分析,判斷哪些人有風險,哪些人沒有;在超市,可以通過對超市交易信息的分析,安排貨價貨物擺設,以提高銷售收入;在保險業(yè),可以通過對保險公司客戶記錄的分析,來判定哪些客戶是花費昂貴的對象;在學校,可以通過分析學校學生課程及成績等信息,來判斷課程之間的關系。此外,在醫(yī)學中,可以利用數(shù)據(jù)挖掘技術對疾病發(fā)作前后癥狀的分析,來對病癥進行診斷;在體育運動中,利用數(shù)據(jù)挖掘技術對對抗性強的積極運動進行分析,發(fā)現(xiàn)對方弱點,制定有效的戰(zhàn)術。

六、結束語

數(shù)據(jù)挖掘技術作為一個多學科交叉的新興學科,在研究領域和商業(yè)領域得到了越來越多的應用,尤其是在市場營銷中取得了成功。企業(yè)每天都有海量數(shù)據(jù)產(chǎn)生,利用數(shù)據(jù)挖掘技術可以從這些數(shù)據(jù)信息中發(fā)現(xiàn)對企業(yè)有益的知識,給企業(yè)帶來經(jīng)濟效益,這也將促使數(shù)據(jù)挖掘技術不停的發(fā)展進步。

參考文獻:

[1]蘇新寧,楊建林,江念南,栗湘.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學出版社,2006.

[2]Jiawei Han,Micheline Kamber著,范明,孟小峰等譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2001.

[3]鄭緯民,黃剛.數(shù)據(jù)挖掘縱覽[EB/OL].http://www2.ccw.com.cn/99/9920/9920c01.asp,1999.

猜你喜歡
提取數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
現(xiàn)場勘查中物證的提取及應用
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
土壤樣品中農(nóng)藥殘留前處理方法的研究進展
中學生開展DNA“細”提取的實踐初探
淺析城市老街巷景觀本土設計元素的提取與置換
蝦蛄殼中甲殼素的提取工藝探究
科技視界(2016年22期)2016-10-18 17:02:00
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
環(huán)保新型緩蝕劑發(fā)展狀況與展望
科技視界(2015年25期)2015-09-01 15:33:38
主站蜘蛛池模板: 一区二区午夜| 国产亚洲成AⅤ人片在线观看| 亚洲啪啪网| 在线观看国产精品一区| 亚洲精品无码AV电影在线播放| 免费AV在线播放观看18禁强制| 精品一区二区三区水蜜桃| 国产特级毛片aaaaaa| 欧美视频免费一区二区三区| 成年片色大黄全免费网站久久| 亚洲一区二区日韩欧美gif| 亚洲无码电影| 日本伊人色综合网| 无码电影在线观看| 1769国产精品视频免费观看| 高清无码手机在线观看| 国产免费高清无需播放器| 精品乱码久久久久久久| 伊人久综合| 国产美女91视频| 亚洲熟女偷拍| 国产成人在线无码免费视频| 在线免费观看a视频| 一级高清毛片免费a级高清毛片| 国产精品jizz在线观看软件| 波多野结衣视频一区二区| 国产剧情无码视频在线观看| 国产区人妖精品人妖精品视频| 成人字幕网视频在线观看| 亚洲人成网站观看在线观看| 精品三级在线| 热思思久久免费视频| 国产区人妖精品人妖精品视频| 狠狠做深爱婷婷久久一区| 久久香蕉国产线| 日韩a级片视频| 国产精鲁鲁网在线视频| 久久综合色视频| 日本午夜影院| 久久精品国产免费观看频道| 2019国产在线| 国产麻豆91网在线看| 国产丝袜91| 久久美女精品| 国产色图在线观看| 国产青榴视频| 亚洲色图欧美在线| 亚洲精品亚洲人成在线| 亚洲an第二区国产精品| 欧美精品v欧洲精品| 欧美在线网| 91毛片网| 色135综合网| 91久久国产综合精品女同我| 成人日韩视频| 91在线丝袜| 午夜无码一区二区三区| 亚洲成人高清在线观看| 精品久久久久无码| 欧美伦理一区| 亚洲欧美一区二区三区图片| 国产成人1024精品| 久久免费视频播放| 欧美日韩午夜| 欧美h在线观看| 国内精品视频在线| 熟妇人妻无乱码中文字幕真矢织江 | 欧美成人午夜视频| 性色生活片在线观看| 国产成人综合亚洲欧美在| 日本国产在线| 日韩在线视频网| 国产精品.com| 日本高清视频在线www色| 91精品啪在线观看国产60岁| 四虎亚洲国产成人久久精品| a级毛片免费网站| 国产无码高清视频不卡| 欧美在线网| 91久久精品国产| 久久青草免费91观看| 国产主播福利在线观看|