【摘要】:由于數(shù)據(jù)挖掘在各行業(yè)中的廣泛應(yīng)用,因而該技術(shù)引起了人們的普遍關(guān)注,介紹了數(shù)據(jù)挖掘的分類方法和目前采用較普遍的一些數(shù)據(jù)挖掘方法,分析、總結(jié)了數(shù)據(jù)挖掘技術(shù)在商業(yè)、Web挖掘、科學(xué)研究等幾個(gè)主要領(lǐng)域的應(yīng)用情況,綜合論述了數(shù)據(jù)挖掘未來的發(fā)展趨勢(shì)。
【關(guān)鍵詞】:數(shù)據(jù)挖掘;Web挖掘;應(yīng)用
1.數(shù)據(jù)挖掘技術(shù)概述
1.1數(shù)據(jù)挖掘的定義
隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫(kù)應(yīng)用的規(guī)模、范圍和深度空前發(fā)展,人們迫切需要一種自動(dòng)地和智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識(shí)的方法,從而達(dá)到為決策服務(wù)的目的。在這種情況下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘是一個(gè)從大量有噪聲、不完整數(shù)據(jù)中提取出有意義模式知識(shí)的過程。所提取、挖掘的數(shù)據(jù)對(duì)象可以是數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容,也可以是其它數(shù)據(jù)源內(nèi)容。數(shù)據(jù)挖掘是一個(gè)新興的多學(xué)科交叉領(lǐng)域,這其中主要涉及:數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息檢索和高性能計(jì)算等。數(shù)據(jù)挖掘是一個(gè)包含多處理步驟的知識(shí)發(fā)現(xiàn)過程,這其中主要包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表達(dá)輸出。
1.2數(shù)據(jù)挖掘的現(xiàn)狀
KDD(Knowledge Discovery in Database)是指從數(shù)據(jù)庫(kù)中獲取正確、新穎、有潛在應(yīng)用價(jià)值和最終可理解模式的非平凡過程,此概念首次出現(xiàn)在1989年8月舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。迄今為止,由美國(guó)人工智能協(xié)會(huì)主辦的KDD國(guó)際研討會(huì)已經(jīng)召開了7次。數(shù)據(jù)挖掘界于1995年召開了第一屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議,于1998年建立起一個(gè)新的學(xué)術(shù)組織ACM-SIGKDD(Special Interested Group on Knowledge Dis-covery in Databases),并于1999年組織了第五屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議。數(shù)據(jù)挖掘研究還發(fā)表在書籍、會(huì)議以及有關(guān)數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化的雜志上,這些都促成了數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展。
1.3數(shù)據(jù)挖掘具有以下特點(diǎn):
(1)處理的是存貯在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)市場(chǎng)中的經(jīng)過預(yù)處理的結(jié)構(gòu)化、數(shù)值型數(shù)據(jù)。(2)以定性和定量的邏輯和數(shù)學(xué)運(yùn)算為技術(shù)基礎(chǔ),利用算法揭示尚未發(fā)現(xiàn)的數(shù)值型信息之間的關(guān)系。(3)在揭示用戶行為和建立模型過程中重要作用。
2.數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘可按數(shù)據(jù)庫(kù)類型、挖掘?qū)ο蟆⑼诰蛉蝿?wù)、挖掘方法與技術(shù)以及應(yīng)用等幾個(gè)方面進(jìn)行分類。數(shù)據(jù)挖掘最開始是從關(guān)系數(shù)據(jù)庫(kù)中挖掘知識(shí)發(fā)展起來的,隨著數(shù)據(jù)庫(kù)類型的不斷增加,現(xiàn)有:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘類型按數(shù)據(jù)挖掘的對(duì)象分,除了數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘外,還有文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘,Web數(shù)據(jù)挖掘。按挖掘任務(wù)分類有:關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類數(shù)據(jù)挖掘、分類數(shù)據(jù)挖掘、偏差數(shù)據(jù)挖掘和預(yù)測(cè)數(shù)據(jù)挖掘等類型。各類數(shù)據(jù)挖掘任務(wù)不同,采用的方法和技術(shù)也守會(huì)不同。
3.數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般分為描述式和預(yù)測(cè)式兩類,描述性挖掘任務(wù)用來刻劃數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性,而預(yù)測(cè)性挖掘任務(wù)則是根據(jù)當(dāng)前數(shù)據(jù)進(jìn)行推斷,以預(yù)測(cè)新數(shù)據(jù)。
3.1自動(dòng)預(yù)測(cè)趨勢(shì)和行為
數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)淪一個(gè)典型的例子是市場(chǎng)預(yù)測(cè)問題,數(shù)據(jù)挖掘使用過有關(guān)促銷的數(shù)據(jù)來尋找未來投資中同報(bào)最大的用戶,其它可預(yù)測(cè)的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對(duì)指定事件最可能作出反應(yīng)的群體。
3.2關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal等人首先提出的。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱含的關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。
3.3聚類分析
聚類分析實(shí)際上就是根據(jù)最大化同類間的相似性、最小化不同類之間的相似性的原則,通過一定的訓(xùn)練算法將數(shù)據(jù)集中的數(shù)據(jù)按相似性聚集到不同的團(tuán)簇或分到不同組的過程。使用各種聚類算法進(jìn)行分析的聚類結(jié)果可以建立宏觀的概念,以發(fā)現(xiàn)數(shù)據(jù)的分布模式及可能的數(shù)據(jù)屬性之間的相互關(guān)系:也可用于進(jìn)一步的關(guān)聯(lián)分析或是孤立點(diǎn)挖掘。
4.數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用前景,因?yàn)閿?shù)據(jù)挖掘產(chǎn)生的知識(shí)可以用于決策支持、信息管理、科學(xué)研究等許多領(lǐng)域數(shù)據(jù)挖掘技術(shù)與各個(gè)行業(yè)的有機(jī)結(jié)合體現(xiàn)了其蓬勃的生命力,而這種趨勢(shì)正在以前所未有的速度繼續(xù)向前發(fā)展。
4.1在金融領(lǐng)域中的應(yīng)用
通過特征選擇和屬性相關(guān)性計(jì)算,識(shí)別關(guān)鍵因素,進(jìn)行貸款償付預(yù)測(cè)和客戶信用分析,使銀行優(yōu)化調(diào)整貸款發(fā)放政策;利用分類和聚集的方法進(jìn)行用戶群體識(shí)別和目標(biāo)市場(chǎng)分析;把與偵破工作有關(guān)的多個(gè)數(shù)據(jù)庫(kù)的信息集成起來,使用數(shù)據(jù)可視化、分類、聚類分析等工具偵破洗錢和其他金融犯罪行為。
4.2在科學(xué)研究領(lǐng)域中的應(yīng)用
在信息量極為龐大的天文、氣象、生物技術(shù)、社會(huì)學(xué)等領(lǐng)域中,所獲得的大量實(shí)驗(yàn)和觀察數(shù)據(jù)靠傳統(tǒng)的數(shù)據(jù)分析工具難以應(yīng)付,因此對(duì)功能強(qiáng)大的智能化自動(dòng)分析工具要求迫切,這種需求推動(dòng)了DM技術(shù)在科學(xué)研究領(lǐng)域的應(yīng)用發(fā)展。目前己獲得了一些重要的研究成果,如Jet Propulsion實(shí)驗(yàn)室利用決策樹方法對(duì)上百萬天體數(shù)據(jù)進(jìn)行分析,幫助天文學(xué)家發(fā)現(xiàn)了16個(gè)新的星體,效果要比人工更快、更準(zhǔn)確。
4.3在醫(yī)學(xué)上的應(yīng)用
利用數(shù)據(jù)挖掘技術(shù)在DNA數(shù)據(jù)的分析研究中可以進(jìn)行DNA序列間的相似搜索和比較、同時(shí)出現(xiàn)的基因序列的相關(guān)分析、致病基因的發(fā)現(xiàn)和遺傳數(shù)據(jù)分析等。
5.結(jié)語
數(shù)據(jù)挖掘技術(shù)是一個(gè)年輕且充滿希望的研究領(lǐng)域,商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會(huì)不停地促進(jìn)它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法問世,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對(duì)它的研究正日益廣泛和深入。隨著數(shù)據(jù)挖掘的進(jìn)一步發(fā)展,它必然會(huì)帶給用戶更大的利益。
參考文獻(xiàn):
[1]畢雪華,吳淼,吳晶. 淺析數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域內(nèi)的應(yīng)用[J]. 電腦知識(shí)與技術(shù),2012,8(10):2175-2176. [2017-09-22].
[2]趙芳,馬玉磊. 淺析數(shù)據(jù)挖掘技術(shù)的發(fā)展及應(yīng)用[J]. 黑龍江科技信息,2010,(09):64. [2017-09-22].
[3]吳春瓊. 淺析數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用[J]. 黑龍江科技信息,2009,(30):90. [2017-09-22].
[4]張曉丹. 數(shù)據(jù)挖掘技術(shù)淺析[J]. 中國(guó)西部科技,2009,8(17):23-24. [2017-09-22].
[5]趙紅艷,劉弘. 淺析數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J]. 信息技術(shù)與信息化,2007,(02):47-48+51. [2017-09-22].