摘 要:近年來,數據挖掘引起了社會各界特別是信息產業界的極大關注,其主要原因是在統計學和數據庫知識高速發展的今天,以前積累了大量數據,迫切需要將這些數據轉換成有用的信息和知識。通過數據挖掘技術獲取的信息和知識可以廣泛用于各個領域,包括商務管理、生產控制、市場分析、工程設計和科學探索等。
關鍵詞:數據挖掘;數據倉庫;直接數據挖掘;間接數據挖掘
一、數據挖掘的定義
數據挖掘,在人工智能領域,習慣上又稱為數據庫中知識發現(Knowledge Discovery in Database,簡稱為KDD),也有人把數據挖掘視為數據庫中知識發現過程的一個基本步驟。換言之,就是從存放在數據庫、數據倉庫或其他信息庫中大量的數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
二、數據挖掘的關鍵步驟
1.挖掘
把潛在的不明確數據關系的數據提取并轉化為數學問題。這一步的結果只是表明數據之間有關系,但是具體是什么關系仍然不明確。
2.建模
把不明確的數據關系通過數學建模過程轉化為明顯的數據關系,即把數據之間的內在變化規律由數學符號與數學結構表示出來。
三、數據挖掘分類
1.直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩余的數據,即一個特定的變量進行描述。
2.間接數據挖掘
目標中沒有選出某一具體的變量,而是在所有的變量中建立起某種關系。
四、數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1.數據的抽取
就是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。
2.數據的存儲和管理
數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優化查詢等。
3.數據的展現
主要的方式有:查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的識。
五、數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性;另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,具有廣泛的應用空間和豐富的學術價值。簡而言之,掌握數據挖掘和數據倉庫技術可以使我們從數據庫的“奴隸”變成數據庫的“主人”。
六、數據挖掘在各領域中的應用及發展前景
當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面。專家也指出,數據挖掘會成為未來十年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業學科。
具體發展趨勢和應用方向主要有:對知識發現方法的研究進一步發展,如對Bayes和Boosting方法的研究和提高;商業工具軟件不斷產生和完善,注重建立解決問題的整體系統。
數據挖掘的發展應是挖掘工具在先進理論指導下的改進,而就現有情況而言,還有至少二十年的發展空間。
參考文獻:
[1]廖芹,郝志峰,陳志宏.數據挖掘與數學建模[M].北京:國防工業出版社,2010.
[2]希賽IT發展研究中心.SQLSEVER數據庫系統開發[M].北京:電子工業出版社,2009.
[3]邵維忠,楊芙清.面向對象的系統分析[M].北京:清華大學出版社,1998.
[4]朱耀明,宗剛.財政與金融[M].北京:高等教育出版社,2002.
[5]吳偉民.數據結構[M].北京:清華大學出版社,1999.
作者簡介:
林文淵,工程師,就職于廈門軟件職業技術學院,主要從事計算機與游戲開發方面的教學工作。
(作者單位 上海同濟大學軟件工程學院)