[摘要] 數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助商業(yè)企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價(jià)值的信息。因此,數(shù)據(jù)挖掘被引入到商業(yè)市場(chǎng)研究領(lǐng)域,并日益受到重視。本文從數(shù)據(jù)挖掘技術(shù)入手,分析了數(shù)據(jù)挖掘在商業(yè)活動(dòng)中的應(yīng)用。提出了數(shù)據(jù)挖掘的典型統(tǒng)計(jì)分析方法與常用的技術(shù),并指出其在商業(yè)領(lǐng)域中的典型應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 關(guān)聯(lián) 分類(lèi)
一、概述
隨著全球經(jīng)濟(jì)的日益發(fā)展,市場(chǎng)競(jìng)爭(zhēng)也越來(lái)越激烈,商業(yè)環(huán)境中的信息越來(lái)越密集,企業(yè)必須能從大量的業(yè)務(wù)數(shù)據(jù)中經(jīng)過(guò)深入的分析,獲得有利于商業(yè)運(yùn)作的信息,提高企業(yè)的決策能力,20世紀(jì)70年代所出現(xiàn)的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)被廣泛地應(yīng)用于企業(yè)管理、產(chǎn)品銷(xiāo)售等領(lǐng)域,并獲得巨大成功,但是對(duì)于管理人員的決策分析要求卻無(wú)法滿足。所以急需的計(jì)算技術(shù)和工具,能夠智能化地從大量的數(shù)據(jù)中提取出有用的信息和知識(shí),為企業(yè)提供決策支持,于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生了。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取隱含、潛在、有用的信息的方法和過(guò)程,最終目的是發(fā)現(xiàn)和推導(dǎo)出有價(jià)值的知識(shí),包括概念、規(guī)則、模式和模型等,為管理和決策提供參考和支持。數(shù)據(jù)挖掘是一種從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱藏的預(yù)測(cè)性信息的技術(shù)。將其應(yīng)用到商品銷(xiāo)售領(lǐng)域的主要作用是對(duì)商業(yè)數(shù)據(jù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商品銷(xiāo)售決策的關(guān)鍵性數(shù)據(jù),為科學(xué)的商業(yè)決策提供幫助。
二、數(shù)據(jù)挖掘所采用的主要技術(shù)
數(shù)據(jù)挖掘是一種很好的知識(shí)提取方法。數(shù)據(jù)挖掘能通過(guò)預(yù)先設(shè)定的算法自動(dòng)處理數(shù)據(jù)庫(kù)中大量的原始數(shù)據(jù),應(yīng)用各種方法和手段從大量數(shù)據(jù)中抽取出具有必然性、富有意義的模式,挖掘出對(duì)象間的特定關(guān)系,找出人們對(duì)所需問(wèn)題的解答,為決策服務(wù)。數(shù)據(jù)挖掘過(guò)程所形成的知識(shí)主要有概念、規(guī)則、規(guī)律、模式和約束等。取得這些結(jié)果采用的主要方法和技術(shù)包括統(tǒng)計(jì)學(xué)、聚類(lèi)分析和模式識(shí)別、決策樹(shù)分類(lèi)、人工神經(jīng)網(wǎng)絡(luò)和遺傳算法、規(guī)則歸納,以及可視化技術(shù)等。
三、數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的典型分析方法
在實(shí)際的商業(yè)應(yīng)用中,數(shù)據(jù)挖掘的方法和技術(shù)越多,得出的結(jié)果精確性就越高。因?yàn)?,?duì)于某一種方法或者技術(shù)不適用的問(wèn)題,其他方法很可能奏效,這主要取決于問(wèn)題的類(lèi)型及數(shù)據(jù)的類(lèi)型和規(guī)模。數(shù)據(jù)挖掘方法有很多種,其中比較典型的有關(guān)聯(lián)分析、序列分析等。
1.關(guān)聯(lián)分析
在數(shù)據(jù)挖掘領(lǐng)域,采用關(guān)聯(lián)規(guī)則在大型數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)挖掘是一個(gè)重要的研究?jī)?nèi)容。關(guān)聯(lián)規(guī)則挖掘的一般對(duì)象是事務(wù)數(shù)據(jù)庫(kù),這種數(shù)據(jù)庫(kù)的主要應(yīng)用在零售業(yè),比如超級(jí)市場(chǎng)的銷(xiāo)售管理。關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)中不同商品(比如面包、牛奶等都是項(xiàng)目)之間是否存在某種關(guān)聯(lián)關(guān)系。通過(guò)這些規(guī)則找出顧客購(gòu)買(mǎi)行為模式,如購(gòu)買(mǎi)了某一商品對(duì)購(gòu)買(mǎi)其他商品的影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架設(shè)計(jì)、貨存安排,以及根據(jù)購(gòu)買(mǎi)模式對(duì)用戶(hù)進(jìn)行分類(lèi)。譬如在商場(chǎng)中,許多決策只停留在管理人員的經(jīng)驗(yàn)判斷層次上,缺乏深層次的分析,也往往跟不上客觀環(huán)境的變化,所以就需要對(duì)客觀實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,找到它們的內(nèi)在聯(lián)系,從而獲得有關(guān) 指導(dǎo)商家進(jìn)貨,方便顧客購(gòu)物等一些有價(jià)值的知識(shí)。關(guān)聯(lián)規(guī)則的一個(gè)典型例子是購(gòu)物籃分析。該過(guò)程通過(guò)發(fā)現(xiàn)顧客放入其購(gòu)物籃中不同商品之間的聯(lián)系,分 析顧客的購(gòu)買(mǎi)習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買(mǎi),這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助超市經(jīng)營(yíng)者制定營(yíng)銷(xiāo)策略。
關(guān)聯(lián)分析是為了尋找在同一事件中出現(xiàn)的不同項(xiàng)的關(guān)聯(lián)性。比如,超市中70%的客戶(hù)在購(gòu)買(mǎi)商品A的同時(shí),有90%會(huì)購(gòu)買(mǎi)B,即關(guān)聯(lián)規(guī)則是A>:B。若超市將商品A和B放在一起銷(xiāo)售,將會(huì)提高它們的銷(xiāo)售量。
在大型數(shù)據(jù)庫(kù)中,這種關(guān)聯(lián)規(guī)則是很多的,需要進(jìn)行篩選,一般用“支持度”和“可信度”兩個(gè)閾值來(lái)淘汰那些無(wú)用的關(guān)聯(lián)規(guī)則。
在本例中,設(shè)關(guān)聯(lián)規(guī)則A>=B的可信度為C,支持度 為S。則:
C:同時(shí)購(gòu)買(mǎi)商品A和B的交易數(shù)/購(gòu)買(mǎi)了商品A的交易數(shù)S:同時(shí)購(gòu)買(mǎi)商品A和B的交易數(shù)/總交易數(shù)本例的關(guān)聯(lián)規(guī)則A=>B的可信度為C=90%,支持度S=70%。
因此,找出這樣的數(shù)據(jù)信息對(duì)于確定市場(chǎng)策略是很有價(jià)值的。尋找這種信息的過(guò)程即是挖掘關(guān)聯(lián)規(guī)則的過(guò)程。關(guān)聯(lián)規(guī)則還可以應(yīng)用到附加郵遞、目錄設(shè)計(jì)、追加銷(xiāo)售、倉(cāng)儲(chǔ)規(guī)劃,以及基于購(gòu)買(mǎi)模式對(duì)顧客進(jìn)行劃分等方面。
2.序列分析
序列分析與關(guān)聯(lián)規(guī)則類(lèi)似,但它尋找的是事件之間時(shí)間上的關(guān)聯(lián)性。比如,超市中60%的客戶(hù)在購(gòu)買(mǎi)商品A后隔一段時(shí)間,其中有80%會(huì)再購(gòu)買(mǎi)B,即序列模式是A>=B。顯然,通過(guò)序列模式分析,超市可以發(fā)現(xiàn)客戶(hù)潛在的購(gòu)買(mǎi)模式。
在序列模式分析中,同樣需要用“支持度”和“可信度”兩個(gè)閾值來(lái)淘汰那些無(wú)用的序列模式。在本例中.設(shè)序列A>=B的可信度為C,支持度為S,則C=先購(gòu)買(mǎi)商品A再購(gòu)買(mǎi)商品B的客戶(hù)數(shù)/先購(gòu)買(mǎi)了商品A的客戶(hù)數(shù)S=先購(gòu)買(mǎi)商品A再購(gòu)買(mǎi)商品B的客戶(hù)數(shù)/總客戶(hù)數(shù)本例的序列模式A=>B的可信度為C=80%,支持度S=60%。
四、結(jié)束語(yǔ)
在信息經(jīng)濟(jì)時(shí)代,數(shù)據(jù)挖掘技術(shù)的應(yīng)用正在不可思議的改變著我們的生活。但數(shù)據(jù)挖掘永遠(yuǎn)都不會(huì)替代有經(jīng)驗(yàn)的商業(yè)分析師或管理人員的作用,它只是提供了一個(gè)強(qiáng)大的工具,它所起到的作用是幫助企、業(yè)更容易地得到一些重要的,能產(chǎn)生高回報(bào)的模型。而企業(yè)根據(jù)這些模型可以更好的提高商業(yè)運(yùn)行、商業(yè)效率。目前,數(shù)據(jù)挖掘工具正以前所未有的速度發(fā)展,在信息技術(shù)應(yīng)用最為廣泛的商業(yè)活動(dòng)中,它更是推動(dòng)了整個(gè)行業(yè)的發(fā)展。在未來(lái)越加激烈的市場(chǎng)競(jìng)爭(zhēng)中,擁有數(shù)據(jù)挖掘技術(shù)必將比別人獲得更快速的反應(yīng),贏得更多的商業(yè)機(jī)會(huì)。
參考文獻(xiàn):
[1]王珊:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與聯(lián)機(jī)分析處理[M].北京科學(xué)出版社,1998
[2]邵峰晶:數(shù)據(jù)挖掘一原理與算法[M].北京:中國(guó)水利水電出版社,2003
[3]崔云龍:商場(chǎng)現(xiàn)代化[J],數(shù)據(jù)挖掘在商業(yè)經(jīng)營(yíng)中的應(yīng)用,2006(10)