梁金蘭 崔志鵬
摘 要: 數(shù)據(jù)挖掘是近年來新興的一門計算機邊緣學科,在我國也逐漸引起了越來越多人的關注,并且隨著數(shù)據(jù)挖掘技術的不斷改進和數(shù)據(jù)挖掘工具的不斷完善,數(shù)據(jù)挖掘必將在各行各業(yè)中得到廣泛的應用。
關鍵詞:數(shù)據(jù)挖掘;應用現(xiàn)狀;應用前景
1 數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關系性(屬于Association rule learning)的信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
1.2 數(shù)據(jù)挖掘的發(fā)展背景
近幾年,隨著IT技術的發(fā)展,尤其數(shù)據(jù)庫技術的發(fā)展,數(shù)據(jù)挖掘工作與理論研究工作成為必要的現(xiàn)實,也越來越引起學術界和企業(yè)的關注。究其原因,有以下三個方面:
①“激增的市場交易使得各企業(yè)所需儲存與處理的資料量越來越龐大,企業(yè)的焦點已從以往的資料整理與收集,轉(zhuǎn)變成如何有效且快速地從資料庫中取得有用的信息,以滿足消費者的需要,擴大市場”(張堯庭、謝邦昌、朱世武《數(shù)據(jù)挖掘入門及應用——從統(tǒng)計技術看數(shù)據(jù)挖掘》)。
②數(shù)據(jù)挖掘是一種結合多種專業(yè)技術的應用,它所運用的方法和技術包括 : 計算機技術,統(tǒng)計分析方法,各類算法,協(xié)作代理和分布式目標管理技術等,因此,數(shù)據(jù)挖掘方法和技術的拓展、開發(fā)和應用是數(shù)據(jù)挖掘研究的主要領域。
③數(shù)據(jù)挖掘功能的拓展和深化也是學術界關注的重要方面。顯然,數(shù)據(jù)挖掘工作將成為近時期企業(yè)關注和學術研究的熱門領域。
2 數(shù)據(jù)挖掘的應用及其前景
數(shù)據(jù)挖掘所包含的功能領域應當相當廣泛,其具體內(nèi)容尚處于進一步的探討中。當然,數(shù)據(jù)挖掘的功能分類有所不同,比較普遍的分類把它分為五項:分類、估計與預測、聚類、關聯(lián)和序列發(fā)現(xiàn)、描述等。實現(xiàn)數(shù)據(jù)挖掘的上述功能(任務)的方法(算法)包括諸如回歸分析、時間序列、判別分析、因子分析和聚類分析等一些統(tǒng)計分析方法,也有粗集、模糊邏輯、人工神經(jīng)網(wǎng)絡、決策樹理論以及規(guī)則歸納法為基礎的方法。對于統(tǒng)計分析方法,數(shù)據(jù)挖掘的應用主要體現(xiàn)在高級多元統(tǒng)計方法的應用,當然這些方法有的已經(jīng)比較成熟,但數(shù)據(jù)挖掘的應用是對這些方法的拓展和深化。粗集、模糊邏輯、人工神經(jīng)網(wǎng)絡、決策樹理論以及規(guī)則歸納法等方法在數(shù)據(jù)挖掘中主要體現(xiàn)在工具開發(fā)和應用研究。這些方法(算法)在數(shù)據(jù)挖掘工作中的理論研究是學術界對數(shù)據(jù)挖掘的主要研究領域。
數(shù)據(jù)挖掘的應用領域隨著IT技術的發(fā)展和市場交易量的擴大也愈來愈廣泛。目前,數(shù)據(jù)挖掘的研究領域已遍及的行業(yè)包括金融業(yè)、電信業(yè)、網(wǎng)絡相關行業(yè)、零售商、制造業(yè)、醫(yī)療保健及制藥業(yè)等。比如,在財務金融方面,預測市場動向,防范犯罪詐欺和顧客吸引等;在電信行業(yè)針對用戶資費進行資費改革,以提高經(jīng)營效益等;在企業(yè)直銷行銷方面用于識別客戶和客戶行為分析;在體育方面識別運動員的特長和缺點;在天文上進行星體分類等。盡管數(shù)據(jù)挖掘的應用領域相當廣泛,就我國當前的應用來看,尚處于萌芽階段,企業(yè)大規(guī)模地運用數(shù)據(jù)挖掘技術尚不普遍,個別企業(yè)或部門僅零星地運用數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘的工具已大量出現(xiàn),一類是基于統(tǒng)計分析的軟件,如: SAS、SPSS 等;另一類是應用與新技術如模糊邏輯、人工神經(jīng)網(wǎng)絡、決策樹理論的工具如: CBR Express、Esteen、Kate-CBR、FuzzyTECH for business、Aria、Neural network Browser等軟件, 但這些軟件并不是包羅萬象地應用于任何數(shù)據(jù)挖掘技術的軟件,而是有所側(cè)重。實際上,數(shù)據(jù)挖掘工具與實際應用的問題緊密聯(lián)系,實踐中要根據(jù)實際運用去開發(fā)適用于實際需要的數(shù)據(jù)挖掘工具。我們國家數(shù)據(jù)挖掘的軟件運用和開發(fā)也未全面展開,尤其模糊邏輯、人工神經(jīng)網(wǎng)絡、決策樹中對數(shù)據(jù)挖掘工具的開發(fā)不足。因此,開拓數(shù)據(jù)挖掘工具的應用和實踐是未來數(shù)據(jù)挖掘工作中亟待解決的問題。
3 數(shù)據(jù)挖掘的局限性
當然,數(shù)據(jù)挖掘不是萬能的,而只是一個工具。它不會坐在你的數(shù)據(jù)庫上一直監(jiān)視著數(shù)據(jù)庫,然后當它發(fā)現(xiàn)有意義的模型時給你發(fā)一封電子郵件。它仍然需要了解你的業(yè)務,理解你的數(shù)據(jù),弄清分析方法。數(shù)據(jù)挖掘只是幫助商業(yè)人士更深入、更容易的分析數(shù)據(jù),它無法告訴你某個模型對你的企業(yè)的實際價值。而且數(shù)據(jù)挖掘中得到的模型必須要在現(xiàn)實生活中進行驗證。
數(shù)據(jù)挖掘中得到的預言模型并不會告訴你一個人為什么會做一件事、采取某個行動,它只會告訴你他會這樣做,為什么則需要人去考慮。比如,數(shù)據(jù)挖掘可能會告訴你,如果這個人是男的、年收入在5萬到6萬之間,那么他可能會買你的商品和服務。你可能會利用這條規(guī)則,集中向這類人推銷你的商品而從中獲益,但是數(shù)據(jù)挖掘工具不會告訴你他們?yōu)槭裁磿I你的東西,也不能保證所有符合這條規(guī)則的人都會買。
為了保證數(shù)據(jù)挖掘結果的價值,用戶必須了解自己的數(shù)據(jù),這一點至關重要。輸入數(shù)據(jù)庫中的異常數(shù)據(jù)、不相關的字段或互相沖突的字段(比如年齡和生日不一致)、數(shù)據(jù)的編碼方式等都會對數(shù)據(jù)挖掘輸出結果的質(zhì)量產(chǎn)生影響。雖然一些算法自身會對上面提到的這些問題做一些考慮,但讓算法自己做所有這些決定是不明智的。
數(shù)據(jù)挖掘不會在缺乏指導的情況下自動地發(fā)現(xiàn)模型。用戶不能這樣對數(shù)據(jù)挖掘工具說,“幫我提高直接郵件推銷的響應率”,用戶應該讓數(shù)據(jù)挖掘工具找:(1)對用戶的推銷回應的人,(2)回應又做了大量訂單的人的特征。在數(shù)據(jù)挖掘中尋找這兩種模型是很不相同的。
雖然數(shù)據(jù)挖掘工具使用戶不必再掌握艱深的統(tǒng)計分析技術,但用戶仍然需要知道所選用的數(shù)據(jù)挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術和優(yōu)化方法會對模型的準確度和生成速度產(chǎn)生很大影響。
數(shù)據(jù)挖掘永遠不會替代有經(jīng)驗的商業(yè)分析師或者管理人員所起的作用,它只是提供一個強大的工具。每個成熟的、了解市場的公司都已經(jīng)具有一些重要的、能產(chǎn)生高回報的模型,這些模型可能是管理人員花了很長時間,作了很多調(diào)查,甚至是經(jīng)過很多失誤之后得來的。數(shù)據(jù)挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據(jù)。
4 結語
數(shù)據(jù)挖掘技術是一新興的研究領域,商業(yè)利益的驅(qū)動將會促使其不停地發(fā)展,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入,其商業(yè)價值也日益突顯。盡管對數(shù)據(jù)挖掘的研究仍面臨著諸多問題和挑戰(zhàn),還存在很多問題值我們?nèi)ヌ剿餮芯浚覀冇欣碛上嘈旁诓痪脤頂?shù)據(jù)挖掘發(fā)揮的作用和價值會越來越大。
參考文獻
[1]吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術及其應用[J].南京師范大學學報(自然科學版),2000,23(2):25-27.
[2]Han Jiawei,Micheline Kanmber.數(shù)據(jù)挖掘:概念與技術[M].范明,孟小峰,譯,北京:機械工業(yè)出版社,2001.149-175.
[3]Mehmed Kantardzic.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,等譯,北京:清華大學出版社,2003.144-169.
[4]湯宇松.數(shù)據(jù)挖掘系統(tǒng)設計[J].系統(tǒng)工程理論與實踐,2000,(9):57-63.
作者簡介
梁金蘭,女,漢族,河南周口人,鄭州大學環(huán)境工程2012級本科生。
崔志鵬,男,漢族,河南安陽人,鄭州大學環(huán)境工程2012級本科生。