摘要:電子商務(wù)的產(chǎn)生,改變了企業(yè)的經(jīng)營(yíng)理念,給社會(huì)的各個(gè)行業(yè)帶來(lái)了巨大的變化,將成為引導(dǎo)經(jīng)濟(jì)發(fā)展的新潮流。Web數(shù)據(jù)挖掘從Web文檔和Web活動(dòng)中抽取用戶(hù)感興趣的潛在的有用模式和隱藏信息,本文主要從Web挖掘技術(shù)出發(fā),著眼于在電子商務(wù)中的應(yīng)用研究,對(duì)這一應(yīng)用的理論和具體實(shí)現(xiàn)技術(shù)進(jìn)行了探討。
關(guān)鍵詞:Web數(shù)據(jù)挖掘;電子商務(wù);挖掘技術(shù)
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文獻(xiàn)編碼:1009-3044(2008)12-10000-00
Web Mining and Its Applications in Electronic Commerce
TAO Qing, LIU Feng
(1.College of Computer Science and Technology, Anhui University, Hefei 230039, China;2.Department of Computer Engineering, Wuhu Vocational College of Information and Technology, Wuhu 241000, China)
Abstract: The company's business philosophy has been changed and tremendous changes have been brought in the various sectors of society by Electronic Commerce. Electronic Commerce will guide the economic development of a new trend. Web data mining extracts the useful model and the hidden information of the interested and potential users from Web documents and the Web activities. This paper starts from the Web mining technology, focusing on the application of e-commerce research and discusses the application of the theory and concrete realization of technology.
Key words: web mining; electronic commerce; mining technology
1 引言
電子商務(wù)就是指交易者之間依托計(jì)算機(jī)網(wǎng)絡(luò),按照一定的規(guī)則或標(biāo)準(zhǔn)進(jìn)行包括商務(wù)信息、商務(wù)管理和商品交易在內(nèi)的全部商務(wù)活動(dòng)。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,電子商務(wù)正顯示越來(lái)越強(qiáng)大的生命力,加速了社會(huì)經(jīng)濟(jì)電子化的進(jìn)程。
2 Web數(shù)據(jù)挖掘簡(jiǎn)介
2.1 Web數(shù)據(jù)挖掘概念
Web數(shù)據(jù)挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),都是在分析大量數(shù)據(jù)的基礎(chǔ)上,做出歸納性的推理,預(yù)測(cè)客戶(hù)的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略、減少風(fēng)險(xiǎn)并做出正確決策的過(guò)程。Web數(shù)據(jù)挖掘可以在很多方面發(fā)揮作用,如對(duì)搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁(yè)面,Web文檔分類(lèi)、Web log挖掘、智能查詢(xún)、建立MetaWeb數(shù)據(jù)倉(cāng)庫(kù)等。
Web數(shù)據(jù)挖掘的基本原理的處理過(guò)程如圖1所示。圖1中,資源發(fā)現(xiàn)(Resource Finding)是指從Web獲取并返回文本資源的過(guò)程。文本資源最常見(jiàn)的是HTM文檔,其他的還有電子郵件、新聞組、BBS等。信息的選擇和預(yù)處理(Information Selection and Pre processing)是對(duì)第一步返回的資源進(jìn)行各種形式的處理過(guò)程,如去掉HT ML文檔中的標(biāo)簽(tags)。模式提取是從各個(gè)站點(diǎn)或站點(diǎn)間獲取通用模式,他常用機(jī)器學(xué)習(xí)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)。最后一步模式的分析驗(yàn)證(Analysis)是對(duì)獲取模式的解釋。從以上4步的處理過(guò)程可以看出:Web數(shù)據(jù)挖掘是從Web數(shù)據(jù)中發(fā)現(xiàn)獲取潛在有用信息的整個(gè)過(guò)程,他包含了傳統(tǒng)的知識(shí)發(fā)現(xiàn)(KDD)處理過(guò)程,可以將Web數(shù)據(jù)挖掘看成是KDD技術(shù)在Web數(shù)據(jù)上的應(yīng)用與擴(kuò)展。

2.2 Web數(shù)據(jù)挖掘的類(lèi)型
根據(jù)Web上的數(shù)據(jù)類(lèi)型,把Web數(shù)據(jù)挖掘分為三類(lèi):Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。所謂內(nèi)容挖掘是指在人為組織的Web上,從文件內(nèi)容及其描述中獲取有用信息的過(guò)程;結(jié)構(gòu)挖掘則是從人為的鏈接結(jié)構(gòu)、文檔的內(nèi)部結(jié)構(gòu)和文檔URL中的路徑結(jié)構(gòu)中獲取有用知識(shí)的過(guò)程;使用挖掘是通過(guò)挖掘相應(yīng)站點(diǎn)的日志文件和相關(guān)數(shù)據(jù)來(lái)發(fā)現(xiàn)該站點(diǎn)上的瀏覽者和顧客的行為模式。
2.3 常用的Web數(shù)據(jù)挖掘技術(shù)
(1)路徑分析技術(shù)
用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖。因?yàn)閃eb可用一個(gè)有向圖來(lái)表示,G=(V,E),其中,V是頁(yè)面的集合,E是頁(yè)面之間的超鏈接集合,頁(yè)面定義為圖中的頂點(diǎn),而頁(yè)面間的超鏈接定義為圖中的有向邊。頂點(diǎn)v的入邊表示對(duì)v的引用,出邊表示v引用了其他的頁(yè)面,這樣形成網(wǎng)站結(jié)構(gòu)圖,從圖中確定最頻繁的訪(fǎng)問(wèn)路徑。
(2)關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶(hù)訪(fǎng)問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶(hù)在一個(gè)訪(fǎng)問(wèn)期間(Session),從服務(wù)器上訪(fǎng)問(wèn)的頁(yè)面文件之間的聯(lián)系,這些頁(yè)面之間并不存在直接的參引(Reference)關(guān)系。
(3)序列模式挖掘技術(shù)
序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時(shí)間序列關(guān)系的模式。他與關(guān)聯(lián)挖掘技術(shù)都是從用戶(hù)訪(fǎng)問(wèn)下的日志中尋找用戶(hù)普遍訪(fǎng)問(wèn)的規(guī)律,關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系,而序列模式技術(shù)則注重事務(wù)間的關(guān)系。
(4)聚類(lèi)分類(lèi)技術(shù)
分類(lèi)規(guī)則可挖掘出某些共同的特性,而這一特性可對(duì)新添到數(shù)據(jù)庫(kù)里的數(shù)據(jù)項(xiàng)進(jìn)行分類(lèi)。在Web數(shù)據(jù)挖掘中,分類(lèi)技術(shù)可根據(jù)訪(fǎng)問(wèn)用戶(hù)而得到個(gè)人信息、共同的訪(fǎng)問(wèn)模式以及訪(fǎng)問(wèn)某一服務(wù)器文件的用戶(hù)特征。而聚類(lèi)技術(shù)則是對(duì)符合某一訪(fǎng)問(wèn)規(guī)律特征的用戶(hù)進(jìn)行用戶(hù)特征挖掘。
3 電子商務(wù)中的web數(shù)據(jù)挖掘技術(shù)
運(yùn)用Web數(shù)據(jù)挖掘技術(shù)對(duì)站點(diǎn)上的各種數(shù)據(jù)源進(jìn)行挖掘,找到相關(guān)的一些知識(shí)模式,以指導(dǎo)站點(diǎn)人員更好地運(yùn)作站點(diǎn)和向客戶(hù)提供更好的服務(wù)。W e b挖掘在電子商務(wù)中的應(yīng)用主要表現(xiàn)在找到潛在客戶(hù)、客戶(hù)分類(lèi)聚類(lèi)、客戶(hù)駐留三個(gè)方面。應(yīng)用Web數(shù)據(jù)挖掘技術(shù)能夠從Web服務(wù)器記錄的日志數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式信息,了解客戶(hù)的訪(fǎng)問(wèn)模式和行為模式,從而做出預(yù)測(cè)性分析;對(duì)客戶(hù)進(jìn)行分類(lèi)分析和聚類(lèi)分析,將客戶(hù)分組,并分析組中客戶(hù)的共同特征,從而更好地了解客戶(hù),為客戶(hù)提供更有針對(duì)性的服務(wù)。
3.1 找到潛在客戶(hù)
在對(duì)Web的客戶(hù)訪(fǎng)問(wèn)信息的挖掘中,利用分類(lèi)技術(shù)可以在Internet上找到未來(lái)的潛在客戶(hù),獲得這些潛在的客戶(hù)市場(chǎng)。通常的策略是先對(duì)已經(jīng)存在的訪(fǎng)問(wèn)者進(jìn)行分類(lèi),一般分為三種:“no customer”、“visitor once”和“visitor regular”。對(duì)于一個(gè)新的訪(fǎng)問(wèn)者,通過(guò)在Web上的分類(lèi)發(fā)現(xiàn),識(shí)別出這個(gè)客戶(hù)與己經(jīng)分類(lèi)的老客戶(hù)的一些公共的描述,從而對(duì)這個(gè)新客戶(hù)進(jìn)行正確的分類(lèi)。然后從它的分類(lèi)判斷這個(gè)新客戶(hù)是屬于有利可圖的客戶(hù)群,還是屬于無(wú)利可圖的客戶(hù)群,決定是否要把這個(gè)新客戶(hù)作為潛在的客戶(hù)來(lái)對(duì)待??蛻?hù)的類(lèi)型確定后,就可以對(duì)客戶(hù)動(dòng)態(tài)地展示W(wǎng)eb頁(yè)面,頁(yè)面的內(nèi)容取決于客戶(hù)與銷(xiāo)售商提供的產(chǎn)品和服務(wù)之間的關(guān)聯(lián)。
3.2 分類(lèi)聚類(lèi)客戶(hù)
在電子商務(wù)中客戶(hù)聚類(lèi)是一個(gè)重要的方面。通過(guò)分組具有相似瀏覽行為的客戶(hù)并分析組中客戶(hù)的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶(hù),向客戶(hù)提供更適合、更面向客戶(hù)的服務(wù)。如有一些客戶(hù)都花了一段時(shí)間瀏覽“BabyToys”,“Baby Furniture”頁(yè)面,經(jīng)過(guò)分析這些客戶(hù)被聚類(lèi)成為一組。銷(xiāo)售商根據(jù)分析出來(lái)的聚類(lèi)信息,就可以知道這是一組“Expecting Parents”客戶(hù),對(duì)他們所進(jìn)行的業(yè)務(wù)活動(dòng)當(dāng)然也就不可能等同于其他被聚類(lèi)了的客戶(hù)如“college Students”,“Officeladies”,應(yīng)及時(shí)調(diào)整頁(yè)面及頁(yè)面內(nèi)容使商務(wù)活動(dòng)能夠在一定程度上滿(mǎn)足客戶(hù)的要求,使商務(wù)活動(dòng)對(duì)客戶(hù)和銷(xiāo)售商來(lái)說(shuō)更具意義。
3.3 客戶(hù)駐留
對(duì)于客戶(hù)而言,傳統(tǒng)客戶(hù)與銷(xiāo)售商之間的空間距離在電子商務(wù)中已經(jīng)不復(fù)存在,在網(wǎng)上,每個(gè)銷(xiāo)售商對(duì)于客戶(hù)來(lái)說(shuō)都是一樣的。那么,銷(xiāo)售商就要盡量使客戶(hù)在自己的網(wǎng)站上駐留更長(zhǎng)的時(shí)間。利用Web挖掘,就可以知道客戶(hù)的行為模式,了解客戶(hù)的興趣及需要,從而根據(jù)客戶(hù)的興趣及需要?jiǎng)討B(tài)調(diào)整Web頁(yè)面,以更好地滿(mǎn)足客戶(hù)。因?yàn)檎军c(diǎn)上的頁(yè)面內(nèi)容的安排和連接如同傳統(tǒng)商店中物品在貨架上的擺設(shè)一樣,可以利用Web挖掘,找出具有一定支持度和信任度的相關(guān)聯(lián)的物品,并且針對(duì)客戶(hù)的動(dòng)態(tài)變化調(diào)整站點(diǎn)的結(jié)構(gòu),使客戶(hù)訪(fǎng)問(wèn)關(guān)聯(lián)信息的連接更直接。
4 結(jié)束語(yǔ)
電子商務(wù)是現(xiàn)代信息技術(shù)迅速發(fā)展的必然產(chǎn)物,也是未來(lái)企業(yè)模式的必然選擇。將數(shù)據(jù)挖掘引入電子商務(wù),增強(qiáng)企業(yè)的商務(wù)智能,使能向客戶(hù)提供個(gè)性化的服務(wù),將是使電子商務(wù)取得更多成就的必然方向。如何更有效地利用數(shù)據(jù)挖掘解決電子商務(wù)中的問(wèn)題,是電子商務(wù)急需解決的重要方面。
參考文獻(xiàn):
[1] 萬(wàn)軍,耿東輝.淺說(shuō)電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,25(增刊2):194-196.
[2] Linoff G S,Berry M J A.Web數(shù)據(jù)挖掘:將客戶(hù)數(shù)據(jù)轉(zhuǎn)化為客戶(hù)價(jià)值[M].沈鈞毅,等譯.北京:電子工業(yè)出版社,2004.
[3] 高巖胡靜濤:Web數(shù)據(jù)挖掘的原理、方法及用途[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2002,(3):l5-20.
[4] 黃解軍,萬(wàn)幼川.基于數(shù)據(jù)挖掘的電子商務(wù)策略[J].計(jì)算機(jī)應(yīng)用與軟件,2004,21(7):12-13.
收稿日期:2008-03-09
作者簡(jiǎn)介:陶慶(1980-),女,安徽蕪湖人,教師,在讀安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士;劉峰(1962-),男,安徽宿縣人,博士研究生,系主任,教授,碩士生導(dǎo)師。