對于“數據挖掘”,有多種文字不同但含義接近的定義,簡單來說,可以歸納為“試圖從海量數據中找出有用的知識”。在學術界,有時也將“數據挖掘(DM)”稱為“數據庫中的知識發現(KDD)”。而“機器學習”是人工智能的核心研究領域之一,目前被廣泛采用的機器學習的定義是“利用經驗來改善計算機系統自身的性能”。
南京大學的周志華教授曾專門撰文論述了數據挖掘和機器學習以及數據庫之間的關系,他提出:數據挖掘可以視為機器學習和數據庫的交叉,主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。
組成數據挖掘的三大支柱包括統計學、機器學習和數據庫領域內的研究成果,其他還包含了可視化、信息科學等內容。不同的教材從不同的方面結合其基礎學科知識講述數據挖掘技術,不同專業和技術背景的學生或數據挖掘研究人員和應用人員可以根據自身的專業方向選擇不同的數據挖掘切入點。下面簡單歸納目前比較主流的數據挖掘和機器學習方面的教材。
※ 數據挖掘:概念與技術
原書名:Data Mining:Concepts and techniques
作者:Jiawei Han
本書主要從數據庫的角度(數據管理和數據計算的角度)講解數據挖掘,作者Jiawei Han現任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎上進行了更新和改進,并增添了新的重要課題,例如挖掘流數據、挖掘社會網絡和挖掘空間、多媒體和其他復雜數據。本書對數據挖掘基本概念、算法及其相關技術有比較全面的闡述,是國內大多數高校指定教材,它不要求太高的數學基礎,非常適合數學功底一般的學生使用。
※ 數據挖掘:實用機器學習技術(原書第2版)
原書名:Data Mining: Practical Machine Learning Tools and Techniques
作者:Ian H. Witten, Eibe Frank
本書主要從機器學習的角度,也有稱從數據挖掘的應用實現角度來講解數據挖掘,描述了各種算法、模型及其Java實現,重點是以應用的觀點利用案例來說明數據挖掘的算法模型,對于具體算法的原理介紹不是非常詳細。它對數據挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數據進行分析和應用,本書以及相關的Weka工具包是一個絕佳的起步。
※ 數據挖掘原理
原書名:Principles of Data Mining
作者:David J. Hand
很多學科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數據集,并用模型來描述和理解它們。這些問題使得人們對數據挖掘技術的興趣不斷增強。長期以來,很多相互獨立的不同學科分別致力于數據挖掘的各個方面。本書把信息科學、計算科學和統計學在數據挖掘方面的應用融合在一起,是第一本真正跨學科的教材。主要從統計學的角度來解析數據挖掘以及其與統計的關系。其中如建模、測量、評分函數、模型等術語都是從統計者的角度出發。書中并沒有具體說明KDD與DM之間的關系,比較適于統計系和數學系的學生采用。
※ 機器學習
原書名:Machine Learning
作者:Tom Mitchell
本書是CMU等許多國際知名大學機器學習課程的教材。目前發表的各種機器學習專著或論文基本都會引用這本書的內容。作者Tom Mitchell是CMU的教授,美國人工智能協會的主席,《機器學習》雜志和“國際機器學習”年度會議的創始人,他在ML領域久負盛名。本書也是最經典和采用率最高的機器學習教材。本書需要的數學基礎也很少,但對必要的背景介紹相當豐富,非常適合初學者。
※ 模式分類(原書第2版)
原書名:Pattern classification
作者:Richard O. Duda, Peter E. Hart, David G. Stork
本書關注分類而不是回歸,難度比較大,不適合初學者學習,也要求讀者具有相當的數學基礎和工程背景。本書的第1版《模式分類與場景分析》出版于1973年,是模式識別和場景分析領域奠基性的經典名著。在第2版中,除了保留了第1版的關于統計模式識別和結構模式識別的主要內容以外,讀者會發現該書新增了近25年來眾多新理論和新方法,其中包括神經網絡、機器學習、數據挖掘、進化計算、不變量理論、隱馬爾可夫模型、統計學習理論和支持向量機等。作者還為未來25年的模式識別的發展指明了方向。書中包含許多實例、各種不同方法的對比、豐富的圖表以及大量的課后習題和計算機練習。