999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

通過比較認識數據挖掘

2007-01-01 00:00:00何滿輝趙宏霞
現代管理科學 2007年5期

摘要:文章通過將數據挖掘與機器學習、數據庫查詢、統計學、OLAP以及數據倉庫等技術的比較,達到清晰認識數據挖掘的目的。

關鍵詞:數據挖掘;機器學習;數據庫查詢;統計學;OLAP;數據倉庫

一、 數據挖掘的定義

目前,對于數據挖掘沒有一個一致的定義。有的人認為數據挖掘就是知識發現;有的認為數據挖掘是知識發現中的一個特定步驟,且是關鍵的一步;有的認為數據挖掘就是發現數據中隱藏的關系和模式的過程。

這里,對數據挖掘從技術角度和商業角度進行定義。

從技術角度來講,數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中, 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

從商業角度來講,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。簡而言之,數據挖掘其實是一類深層次的數據分析方法。

數據分析本身已經有很多年的歷史,只不過在過去數據收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數據量進行分析的復雜數據分析方法受到很大限制。現在,由于各行業業務自動化的實現,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是由于純粹的商業運作而產生。分析這些數據也不再是單純為了研究的需要,更主要是為商業決策提供真正有價值的信息,進而獲得利潤。但所有企業面臨的一個共同問題是:企業數據量非常大,而其中真正有價值的信息卻很少,因此從大量的數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也因此而得名。

二、 數據挖掘與機器學習的比較

機器學習是研究使計算機模擬或實現人類的學習行為,以獲取新的知識、技能,即用計算機自動獲取知識。

數據挖掘與機器學習都是從數據中獲取知識,但兩者之間存在著一定的差別:

機器學習主要針對特定模式的數據進行學習,數據挖掘則是從實際的海量數據源中抽取知識,這些海量數據源通常是一些大型數據庫。

數據挖掘可以在關系數據庫、事務數據庫、數據倉庫和高級數據庫(如面向對象數據庫、對象——關系數據庫、空間數據庫、時間數據庫和時間序列數據庫、文本數據庫和多媒體數據庫、異種數據庫等等)上進行挖掘,它們構成了數據挖掘的數據源,這些數據源中的數據具有一定的模糊性、隨機性、大量性、不完全性等特性。

三、 數據挖掘與傳統的數據庫查詢的比較

數據挖掘是查詢大量數據,從數據中發現隱藏的關系和模式;數據庫查詢也是要從數據中進行查詢,找出滿足查詢者要求的信息。

但與傳統的數據庫查詢系統相比較,數據挖掘技術存在著顯著的不同。

首先,傳統的數據庫查詢一般都具有嚴格的查詢表達式,可以用SQL語句描述。而數據挖掘則不一定具有嚴格的要求,常常表現出即時、隨機的特點,查詢要求也不確定。整個挖掘過程也無法僅用SQL語言就能完整表達。實際上,數據挖掘常常用一種類SQL語言來描述。

其次,傳統的數據庫查詢一般生成嚴格的結果集,但數據挖掘可能并不生成嚴格的結果集。挖掘過程往往基于統計規律,產生的規則并不要求對所有的數據項總是成立,而是只要達到一定的事先給定的閾值就可以了。

再次,通常情況下,數據庫查詢只對數據庫的原始字段進行;而數據挖掘則可能在數據庫的不同層次上發掘知識規則。

四、 數據挖掘與統計學的比較

統計學是一門具有悠久歷史的學科,開始于17世紀、18世紀。近代統計學比較重視社會調查,通過全面調查,為制定計劃和決策提供依據。如果比較清楚總體的分布規律,則可以不必進行全面調查,只進行部分調查,即抽樣調查。概率論和數理統計在統計學中起著非常重要的作用。

現代統計學已經具有較完備的理論和方法。許多統計軟件包如SAS、SPSS等已經普及,統計工作基本上可用計算機來完成了。

統計學中的許多理論和方法,如相關分析、回歸分析、聚類分析、判別分析、主成分分析、假設檢驗以及常用統計方法(如求最大最小值、求平均值、求和等)都已應用于數據挖掘中。

數據挖掘與統計學之間存在著一定的區別,如下:

1.在傳統的統計理論中并不存在諸如決策樹這樣的方法,但這種方法卻是數據挖掘中的一種比較廣泛使用的方法,該方法使挖掘得到的結果比較清晰,易于被理解。

2. 數據挖掘與統計學中都有相似的方法,但采用的標準不一樣。如統計學中的聚類與數據挖掘中的聚類比較類似,但采用的標準不一樣,如對距離的定義不同。

3. 數據挖掘與統計學處理的數據類型不同。統計學主要是針對連續值數據(如工資、年齡)進行定量分析,而數據挖掘主要是針對離散數據(如病癥、職稱)進行定性分析。

4. 數據挖掘注重知識發現的整個過程,包括數據的如何存儲與訪問,算法如何擴展以有效適合大數據量,結果如何被解釋與可視化,如何支持人機交互;而統計關心的是統計模型有效性的數學理論依據。

總之,數據挖掘技術中應用了統計學中的許多方法和理論,但它不會因此而替代傳統的統計學,相反,它是傳統統計方法學的延伸和擴展。統計學仍然是一門獨立的學科。

五、 數據挖掘與OLAP的比較

聯機分析處理(On—Line Analytical Processing),簡寫為OLAP,是一種軟件技術,它比一般的查詢和報表提供的決策支持能力更強。它專門設計用于支持復雜的分析操作,能夠快速、靈活地對大數據量進行復雜處理,并將結果以一種直觀易懂的形式提供給決策者,便于他們掌握企業和市場的狀況,制定正確方案、增加效益。

OLAP可使企業的決策者能靈活地從多個方面和多個角度并以一種多維的方式對企業進行觀察,了解企業的狀態和所發生的變化。

OLAP與數據挖掘的主要區別如下:

1. OLAP是在多維結構上進行數據分析的,它可以對帶層次的維進行分析,也可以跨越維進行多維數據分析。它的分析方式有切片、切塊、旋轉、鉆取等。

數據挖掘是通過研究數據庫中屬性和元組進行數據分析的。

2. OLAP要適應大量用戶同時使用同一批數據,適應于不同地理位置的分散化的決策。OLAP的功能和算法包括聚合、分配、比率、乘積等描述性的建模功能。

數據挖掘任務在于聚類(如神經網絡聚類)、分類(如決策樹分類)、預測等。這些是帶有探索性的建模功能。

3. OLAP需要查詢大量信息,尤其是變化的信息,經過追蹤查詢,找到問題出現的原因,進行決策支持。

數據挖掘是通過研究變量來尋找規律的。數據挖掘需要對大量的歷史數據和詳細數據進行查詢,從中找出隱含的、不容易為人所理解的、人們不知道但又是潛在有用的信息和知識。

六、 數據挖掘與數據倉庫的比較

數據倉庫是面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。

數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含的有價值的信息,為企業決策提供支持。

數據倉庫與數據挖掘的區別如下:

1. 數據倉庫是在數據庫的基礎上發展起來的,是一種存儲技術,以統一的格式存儲多個數據源中的數據,存儲的數據量大,包含歷史數據、詳細數據和綜合數據。數據倉庫能適應不同用戶對不同決策的需求,提供決策所需的數據和信息。

數據挖掘是從機器學習中發展起來的,它通過研究大量的方法和技術,從大量的數據中發現有價值的信息,以輔助決策。

2. 數據倉庫與數據挖掘都可以輔助決策,但方式不同。

數據倉庫中存儲著大量輔助決策的數據,為不同的用戶隨時提供各種輔助決策的隨機查詢、綜合信息或趨勢分析信息。數據挖掘是利用一系列算法挖掘數據中隱含的信息和知識,讓用戶在進行決策中使用。

但數據倉庫和數據挖掘可以結合起來。

首先,進行數據挖掘需要數據源,在挖掘之前,需要對數據源進行數據預處理,以提高挖掘的質量,但數據倉庫可以為數據挖掘提供挖掘所需的數據源,大大減少了準備數據的工作量。

其次,數據挖掘完全可以使用數據倉庫中已經建好的數據處理與分析工具。

再次,數據倉庫中的OLAP技術可以為數據挖掘提供支持,如對數據切片、切塊、鉆取等操作。

最后,在數據倉庫中使用數據挖掘技術,不但可以彌補數據倉庫只提供數據而無法進行深層次信息分析的缺陷,還可以增加數據挖掘的聯機挖掘功能。

七、 結束語

數據挖掘是一門新興的技術,受多個學科影響,包括數據庫技術、統計學、機器學習、可視化技術和信息科學等。雖然有許多文章對這種技術進行了探討,但都不是很全面。本文通過對數據挖掘技術與機器學習、傳統的數據庫查詢、統計學、OLAP以及數據倉庫的比較,系統的闡釋數據挖掘技術,以使讀者對該技術有個較清楚的認識。

參考文獻:

1.夏火松.數據倉庫與數據挖掘技術.北京:科學出版社,2004:26-29.

2.喬永生.數據挖掘的探討.科技情報開發與經濟,2006,16(10):247-249.

3.翟立波.數據挖掘與知識發現.濰坊學院學報,2005,5(2):29-31.

4.陳文偉.數據倉庫與數據挖掘教程.北京:清華大學出版社,2006:7-10.

作者簡介:何滿輝,遼寧工程技術大學副教授、博士生;趙宏霞,遼寧工程技術大學工商管理學院講師、博士生。

收稿日期:2007-03-21。

主站蜘蛛池模板: 国产呦精品一区二区三区下载| 18禁高潮出水呻吟娇喘蜜芽| 亚洲人在线| 国产jizzjizz视频| 亚洲美女一区二区三区| 成年人免费国产视频| 2021国产乱人伦在线播放| 日本高清免费不卡视频| 91福利在线看| 亚洲欧美一区二区三区蜜芽| 国产在线一二三区| 亚洲AV一二三区无码AV蜜桃| 日本黄色不卡视频| 久久久久国产精品熟女影院| 亚洲国产综合第一精品小说| 久久亚洲黄色视频| 青青草91视频| 91久久国产成人免费观看| 久久这里只有精品免费| 婷婷六月综合| 欧美a级在线| 国产高清在线观看| 四虎综合网| 青青草原国产av福利网站| 伊人精品成人久久综合| 亚洲无码A视频在线| 日韩AV无码一区| 人妻21p大胆| 日本欧美一二三区色视频| 亚洲国产清纯| 久久青草免费91线频观看不卡| 日本AⅤ精品一区二区三区日| 色综合久久久久8天国| 久久久久无码精品国产免费| 国产一区二区丝袜高跟鞋| 国产欧美视频在线观看| 日韩精品亚洲一区中文字幕| av色爱 天堂网| 国产国语一级毛片| 久久香蕉国产线看精品| 亚洲色婷婷一区二区| 老司机午夜精品视频你懂的| 一本久道久久综合多人| 91精品国产无线乱码在线| 亚洲码一区二区三区| 中文字幕不卡免费高清视频| 天天躁狠狠躁| 无码专区第一页| 国产在线观看91精品亚瑟| 亚洲欧美日韩精品专区| 國產尤物AV尤物在線觀看| 色婷婷成人| 欧美影院久久| 无码粉嫩虎白一线天在线观看| 午夜性刺激在线观看免费| 亚洲精品手机在线| 天天综合亚洲| www.精品国产| 在线国产资源| 99视频在线免费| 国产成人一区| 亚洲精品制服丝袜二区| 久操线在视频在线观看| 国产性猛交XXXX免费看| 欧洲av毛片| 国产一级二级在线观看| 亚洲一级毛片在线观播放| 国产91九色在线播放| 无码精油按摩潮喷在线播放| 久久99国产精品成人欧美| a天堂视频| 国产激爽大片在线播放| 狠狠色婷婷丁香综合久久韩国| 91久久天天躁狠狠躁夜夜| 欧美精品亚洲二区| 日韩久草视频| 国产不卡国语在线| 欧美视频在线第一页| 91精品福利自产拍在线观看| 91精品最新国内在线播放| 在线观看视频99| 国产欧美日韩va|