摘 要:近幾年來,數據挖掘逐漸成為智能化信息系統的重要研究內容,得到信息行業的廣泛關注。這篇文章將在簡要論述數據挖掘概念的基礎上,對其未來發展的優化措施進行探討。
關鍵詞:數據挖掘;特點;應用;優化;
中圖分類號:C37 文獻標識碼:A
二十一世紀是信息科學技術迅猛發展的時代,各行各業中有效數據的飛速增長,使人們處于海量的信息海洋中,為了進一步提高工作效率和市場競爭力,人們需要想盡一切辦法對信息進行科學、準確的分析,并從中提煉出對未來發展或目前運營有利的信息資源;但是傳統意義上的信息儲存也好、信息檢索也好既費時又費力,很難滿足現代化經濟發展的要求,而數據挖掘就是在這種經濟環境中應運而生。
一、數據挖掘的基本概念
就目前來看,數據挖掘已經成為信息領域創新發展的重要內容,簡單來看,數據挖掘就是從海量的數據信息中選擇出對企業經營決策有關的直接信息或者潛在信息;之前出現的機器學習也好、統計學及模式識別也好,雖然在一定程度上能夠幫助人們發現有效信息,但是其應用的范圍很狹窄,大多是在科研領域,很難實現大面積的傳播,數據挖掘的出現充分結合了上述幾種方法的優勢,實現了對信息進行精確、有效的整合。
從根本上來看,數據挖掘的本質目的就是從數據庫模糊的、海量的、隨機的的數據中檢索出有使用價值的潛在信息資源;雖然數據挖據并沒有明確搜索條件,但是它能夠自動發現數據庫中隱藏的預測趨勢以及關聯網,還具有類聚、時許模式和檢測偏差的作用。很多通過數據挖掘得到的信息都是出人意料的,但是往往是這些意想不到的信息將會開拓思維空間,對決策帶來巨大幫助。
二、數據挖掘的廣泛應用
數據挖掘在很多領域中廣泛應用,特別是在市場經濟的商業發展中已經相當成熟,它在很大程度上提高了企業的綜合競爭力,到目前為止已經擴展到工業、醫藥業、電子商務行業等等。
1、數據挖掘在商業中的應用
數據挖掘在商業發展中扮演著重要角色,數據挖據相當于一個智能化篩選過程,它能夠實現與信息技術的完美結合,為商業的發展提供重要幫助;例如在金融行業中,數據資料相對完整、精確,如今金融業中的數據挖掘技術已經十分成熟,企業能夠充分利用該項技術,對市場的波動以及波動原因進行準確的分析,也能夠通過數據挖掘形成科學、有效的預測機制,對企業的經營決策提供可靠依據;除此之外,金融企業還能夠通過數據挖掘找出市場中的有效信息,對未來可能出現的風險進行評估,將企業的損失降到最低。又比如說在零售行業,數據挖掘能夠為客戶的劃分提供準確的信息資料,并依據分類方法,對顧客的購買傾向和模式進行預測,這對于銷售行業來說是至關重要的,同樣根據相關信息,可以了解到顧客對商品價格和擺放的滿意度通過不斷調整,提高服務質量,滿足消費者的不同要求。
1、數據挖掘在工業中的應用
數據挖掘在工業中的應用基本上可以分為以下幾個方面,分別是在故障預測上、生產優化中以及豐富知識庫中;首先,對于故障預測來說,數據挖掘是非常重要的一項環節,通過數據信息提供的資料,對故障發生的可能性進行準確預測,對于提高運行安全性,減少故障損失有至關重要的作用。其次對于生產優化來講,數據挖掘能夠為生產工藝的改進提供有效的信息,對于日后的生產工作有莫大的幫助。最后豐富知識庫,數據挖掘本身就是一個信息收集、儲存、調取的過程,企業能夠從中獲得任一有效的數據資料并加以保存,形成自身獨特的文化底蘊,為決策的準確性、科學性貢獻一份力量。
2、數據挖掘在醫藥業的應用
數據挖掘在醫藥行業的應用主要表現在科研方面,通過數據之間的聯系研究,促進醫學的快速發展;例如數據分析能夠幫助醫生找到病源,核定不同藥物的不同療效,實現藥物的合理搭配,由于醫學數據相對穩定,可以重復利用,因此對其準確性要求很大,通過數據分析找到最有效的治療方案,對于醫藥界來講是一大福音。
3、數據挖掘在電子商務業的應用
隨著網絡信息技術的發展,電子商務逐漸崛起成為后起之秀,同時很多網站也引入了數據挖掘技術,并從中開發出無限的商業價值。數據挖掘能夠幫助商家提高用戶體驗的服務質量,對未來的消費趨勢和市場走向進行合理預測,促使商家獲得豐厚的經濟效益。
三、數據挖掘的優化措施
1、決策樹
這里所說的決策樹是指利用信息論里包含的信息找出數據庫中具有最大信息量的屬性字段,建立一個結點,并根據這個屬性字段的取值確定樹的分支,并再各個分支中建立下層結點和分支,這種方法的最大優勢在于,結果直觀、清晰明了,容易理解;但是其缺點在于如果數據處理對象較為繁雜,就需要多重分支,使挖掘過程難于管理,極易出現錯誤。
2、遺傳算法
這種方法以生物的進化過程為前提,這是生物學與計算機原理的完美結合,根據遺傳學的相關知識,得出最合理的數據模型并加以優化;這種方法非常適用于數據類聚,充分利用時間類比和空間類比,可以將大量繁雜的數據資料轉變成井然有條的數據資源,并從中探測數據之間緊密聯系,最后得到有實用價值的模式;遺傳算法具有高效性和靈活性的特點,它對數據的信息量要求不高,因此在數據挖掘中,它還適用于評定其他算法的適合度。
3、關聯分析
關聯分析就是從大量的數據庫中搜索到對自己有用的關聯信息,使依據數據之間的關聯性開展的,目前,人們對關聯分析的研究已經逐步深化,并提出了多種關聯法則,比如說DHP、STEM等等,關聯分析的最終目的是利用形成的數據關聯網,為決策者提供有效的信息。
4、聚類分析
聚類分析是將一部分沒有標定的記錄作為輸入集,以輸入記錄作為原始數據,暗戰一定的規則,將記錄進行合理的劃分,并通過隱式或者顯式的方式對劃分類別加以具體描述。
四、結束語:科學技術的日新月異,使數據挖掘應用的領域越來越廣泛,特別是在上文中所提到的幾個行業中,數據挖掘扮演著舉足輕重的角色;在未來的發展中數據挖掘依舊將會作為信息來源的重要渠道,幫助企業在激烈的市場競爭中獲得有利地位。同時,數據挖掘也在發展中面臨著些許挑戰,本文中我們重點敘述了四種優化措施,分別是決策樹、遺傳算法、關聯分析以及聚類分析,希望能夠為數據挖掘的進一步發展帶來幫助。
參考文獻:
[1] 吳昉,宋培義. 數據挖掘的應用[J]. 貴州科學. 2012(03)
[2] 劉小華,胡學鋼. 數據挖掘的應用綜述[J]. 信息技術. 2009(09)
[3] 李江平,畢育學,顏虹. 數據挖掘技術在現場流行病學調查資料中的應用[J]. 中國初級衛生保健. 2011(08)
[4] 劉靖. 復雜數據類型的離群檢測方法研究[D]. 華南理工大學 2014