[摘 要] 文章在給出數據挖掘概念的基礎上,指出數據挖掘的三個主要階段,提出了數據挖掘的典型統計分析方法與常用的技術,并指出其在商業領域中的應用。
[關鍵詞] 數據挖掘;過程;分析方法;商業應用
[中圖分類號] F270.7[文獻標識碼] A[文章編號] 1673-0194(2006)01-0008-02
1引言
目前,數據挖掘是國際上數據庫和信息決策領域的最前沿研究方向之一。越來越多的企業開始利用數據挖掘技術來分析公司的數據,以輔助決策。數據挖掘正逐漸成為他們在市場競爭中立于不敗之地的法寶。
數據挖掘是從大量的數據中抽取出有效的、新穎的和潛在有用的知識的過程。其目的是提高市場決策能力、檢測異常模式、在過去的經驗基礎上預言未來趨勢等。在傳統的決策支持系統中,知識庫中的知識和規則是由專家或程序人員建立的,是由外部輸入的,而數據挖掘的任務是從大量數據中發現尚未被發現的知識,是從系統內部自動獲取知識的過程。對于那些決策者明確了解的信息,可以用查詢、聯機分析處理或其他工具直接獲取。而另外一些隱藏在大量數據中的關系、趨勢等信息,就需要數據挖掘技術來完成。
2數據挖掘的過程
數據挖掘過程一般由三個主要的階段組成:數據準備、挖掘操作、結果表達和解釋。知識的發現可以描述為這三個階段的反復過程。
2.1數據準備
這個階段又可進一步分成三個子步驟:數據集成、數據選擇、數據預處理。數據集成將文件或多數據庫運行環境中的數據進行合并處理,解決語義模糊性、處理數據中的遺漏和清洗臟數據等。……