于慧凝
摘 要:數據采掘是數據庫技術、人工智能、機器學習、統計分析、模糊邏輯、模式識別、人工神經網絡等多個學科相結合的產物。最后探討了數據挖掘的發展趨勢,這對我國的數據挖掘研究具有一定的參考價值。
關鍵詞:數據挖掘;發展前景
一、引 言
數據挖掘(DataMining),又稱數據庫中的知識發現(KnowledgeDiscovery in Database), 數據挖掘從一個新的視角將數據庫技術、統計學、機器學習、信息檢索技術、數據可視化和模式識別與人工智能等領域有機結合起來,它能組合各個領域的優點,從而能從數據中挖掘到其他傳統方法不能發現的有用知識。在最近幾年里已被數據庫界所廣泛研究,隨著計算機應用的越來越廣泛,每年都要積累大量的數據,運用數據挖掘技術,在這些數據當中我們可以找出“金子”來。
二、數據挖掘應用
數據挖掘是面向實際應用的技術,現在已經廣泛應用于金融、銀行、農業、制造業、零售業、電信、醫療衛生、教育和生物科學等領域。在信息技術方面,將數據挖掘技術應用到搜索引擎領域,從而產生智能搜索引擎,將會給用戶提供一個高效、準確的Web檢索工具。在醫療衛生方面,探討了各種數據挖掘方法在生物醫學研究領域中的應用,可以用分類方法對疾病進行診斷,用神經網絡、支持向量機等數據挖掘方法對某些疾病進行預測,研究表明,預測效果良好。在研究MRI乳腺非腫塊樣強化病灶對乳腺癌的診斷時,發現決策樹模型的靈敏度、特異性和準確率等性能均優于傳統統計學中的 logistic 回歸模型。
三、數據挖掘發展趨勢
目前數據挖掘技術的研究已成為國內外研究的熱點,最近幾年在國內發展迅速,今后該領域發展的趨勢可能主要表現在以下幾方面:
(1)隨著互聯網技術的發展,網絡上的資源越來越多,如何通過數據挖掘技術對互聯網上的資源進行挖掘,并從中發現有用的信息,將成為一個熱點問題。Web 數據挖掘目前的研究雖然比較多,但是還有很多不足,需要進一步研究完善。
(2)數據挖掘算法的改進和數據挖掘可視化。數據挖掘算法一般要處理海量的數據,如何在算法效率和算法準確度之間尋找平衡點,是一個值得研究的課題。另外,數據挖掘結果的友好可視化展現也是一個重要的研究課題。
(3)多媒體數據挖掘。多媒體包含視頻、音頻、圖像等,這些數據的結構往往比較復雜,傳統的數據挖掘算法處理多媒體數據效果比較差。為了挖掘多媒體資源,需要設計和開發更好的數據挖掘算法。
(4)數據挖掘和隱私保護。數據挖掘的個人隱私與信息安全問題備受人們關注。誤用和濫用數據挖掘可能導致用戶數據特別是敏感信息的泄露,越來越多的人對此表示擔憂,如何在不暴露用戶隱私的前提下進行數據挖掘,將成為非常值得關注的研究課題。
(5)數據挖掘技術與其他系統的集成。數據挖掘應該是一個完整的過程,不單單是一個算法,為了將數據挖掘技術更好地應用于現實生活中,需要研究如何將數據挖掘與其他系統有機地集成,從而最大化地發揮數據挖掘的優勢。
(6)空間和時序數據挖掘。空間數據庫與關系數據庫不同,空間數據庫具有豐富的數據類型,帶有拓撲、距離信息,空間數據有很強的局部相關性等特點。挖掘空間數據庫需要特殊的數據挖掘方法。另外,有一類數據集的數據之間存在著時間上的關系,這類數據被稱為時序數據。在對時列數據進行挖掘的過程中,必須考慮數據集數據間存在時間上的關系,如何高效地處理空間和時序數據,仍有大量問題需要解決。
(7) 適合中小企業使用的數據挖掘系統。目前國外著名的數據挖掘軟件有:SAS Enterprise Min-er、SPSS Clementine(現被IBM收購并改名為IBMSPSS Modeler)和RapidMiner(開源)等 。除開源軟件外,數據挖掘軟件一般價格昂貴,中小企業往往望而卻步。針對我國中小企業的特點,開發一套適合我國國情的數據挖掘軟件具有重要的現實意義。
四、結束語
總之,數據挖掘只是一個工具,但不是萬能的,它可以發現一些潛在的用戶,但是不會告訴你為什么,也不能保證這些潛在的用戶成為現實。數據挖掘的成功要求對期望解決問題的領域有深刻的了解,理解數據,了解其過程,才能對數據挖掘的結果找出合理的解釋。例如曾經用數據挖掘找出的啤酒和尿布的例子,如何去解釋這種現象,是應該將兩者放在一起還是分開銷售,這還需要對消費心理學有所研究才能做出決定,而不是數據挖掘能力所及的了。
參考文獻:
[1]朱明.數據挖挖掘[M].合肥:中國科學技術大學出版社,2003.
[2]邵峰晶、于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[3]范明.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[4]夏火松主編.數據倉庫與數據挖掘技術[M].北京:科學出版社.