蔡鑫輝
摘 要:數據挖掘已經引起了社會各界特別是信息產業界的極大關注,其主要原因是在統計學和數據庫知識高速發展的今天,以前積累了大量數據,迫切需要將這些數據轉換成有用的信息和知識。通過數據挖掘技術獲取的信息和知識可以廣泛用于各個領域,包括商務管理、生產控制、市場分析、工程設計和科學探索等。
關鍵詞:數據挖掘;直接數據挖掘;間接數據挖掘
一、數據挖掘的定義
數據挖掘,數據挖掘的含義。數據挖掘又稱為數據庫中的知識發現,就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數據挖掘就是從大量數據中提取或“挖掘”知識。數據的分析是數據挖掘的一項技術,數據的分析有頻數統計分析、領悟式分析、聚類分析、相關關系分析、人工神經網絡原理分析等方法。數據挖掘中聚類分析是其中重要的分析方法之一。數據挖掘是數據庫內信息的知識發現,是從數據庫的海量資料中提取或挖掘用戶需要的知識信息,而這些知識信息有規則、概念、模式和規律等多種表現形式.在數據研究的過程中,聚類分析方法能夠有效剔除在分類的過程中所混入的主觀因素,準確而客觀的將研究對象的信息表現在用戶面前,并完成信息內部客觀規律的發掘任務。在人工智能領域,習慣上又稱為數據庫中知識發現(Knowledge Discovery in Database,簡稱為KDD),也有人把數據挖掘視為數據庫中知識發現過程的一個基本步驟。換言之,就是從存放在數據庫、數據倉庫或其他信息庫中大量的數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
二、數據挖掘的關鍵步驟
1.挖掘
把潛在的不明確數據關系的數據提取并轉化為數學問題。這一步的結果只是表明數據之間有關系,但是具體是什么關系仍然不明確。
2.建模
把不明確的數據關系通過數學建模過程轉化為明顯的數據關系,即把數據之間的內在變化規律由數學符號與數學結構表示出來。
三、數據挖掘分類
1.直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩余的數據,即一個特定的變量進行描述。
2.間接數據挖掘
目標中沒有選出某一具體的變量,而是在所有的變量中建立起某種關系。
四、數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1.數據的抽取
就是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。
2.數據的存儲和管理
數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優化查詢等。
3.數據的展現
主要的方式有:查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的識。
五、數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性;另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,具有廣泛的應用空間和豐富的學術價值。簡而言之,掌握數據挖掘和數據倉庫技術可以使我們從數據庫的“奴隸”變成數據庫的“主人”。
六、數據挖掘在各領域中的應用及發展前景
當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面。專家也指出,數據挖掘會成為未來十年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業學科。
具體發展趨勢和應用方向主要有:對知識發現方法的研究進一步發展,如對Bayes和Boosting方法的研究和提高;商業工具軟件不斷產生和完善,注重建立解決問題的整體系統。
數據挖掘的發展應是挖掘工具在先進理論指導下的改進,而就現有情況而言,還有至少二十年的發展空間。
目前,聯機處理技術與數據挖掘是信息系統領域內的研究重點,OLAP作為一種多維分析的工具,可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問題進行假設,分析,并將呈現給用戶。
數據挖掘是在海量的數據集合中尋找模式的決策支持過程,它從大量數據中發現潛在的模式并作出預測性分析,是現有的最新的技術和統計學等成熟技術在特定系統中的具體的應用。
同時,數據挖掘與OLAP都屬于分析型工具,從某種角度上說OLAP聯機分析方法也是一種數據挖掘方法。但二者之間有著明顯的區別,數據挖掘的分析過程是全自動的,用戶可以不必提出確切的問題,只需工具去挖掘隱藏的模式并預測將來的趨勢,這樣有利于發現未知的事實;而OLAP更多地依靠用戶輸入問題和假設,由于用戶先入為主的參與問題和假設的范圍,從而會影響最后的結論。從對數據分析的深度角度來講,它比較淺顯,數據挖掘則可以發現OLAP 所不能發現的更為復雜的信息。
數據挖掘存在的主要問題是實現很困難,因為數據庫或數據倉庫中存在大量數據和每個數據又有很多屬性,由于挖掘分析過程是全自動的,用戶僅僅指定挖掘的任務,而不提供搜索線索,這樣導致搜索的空間過大,生成相當多的外模式,其中絕大部分有可能是無意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度、不同抽象級別的視圖,但是由于對用戶的需求了解調研的不夠全面,視圖中缺乏所應包含的維度,從不同的視圖得到的結果可能并不相同,容易產生錯誤引導,用戶需做大量的數據打撈工作才能夠猜出正確的結果。
實際上數據挖掘的各個方法之間,數據挖掘和聯機分析處理之間都有著密不可分的關系,有些是可以由OLAP 來展現或分析的,而數據挖掘的結果又可以指導生成OLAP多維模型。
從上述分析可以看出,數據挖掘技術由于內在技術方面和適用范圍的不同,在實際決策分析中必須協調配合使用才能發揮最好的作用。
參考文獻
[1]廖芹,郝志峰,陳志宏.數據挖掘與數學建模[M].北京:國防工業出版社,2010.
[2]希賽IT發展研究中心.SQLSEVER數據庫系統開發[M].北京:電子工業出版社,2009.
[3]廖里 數據挖掘和數據倉庫及其在電信業中的應用 2000年 《重慶郵電學院學報》
[4]石磊 OLAP與數據挖掘一體化模型的分析與討論 2000年 《小型微型計算機系統》
[5]豎 苧 數據倉庫的建設與數據挖掘技術淺析 2003年第3期《現代信息技術》
[6]宋中山 數據倉庫技術研究與應用 2003年 《計算機工程與應用》