基于電子商務(wù)網(wǎng)站的ＷＥＢ內(nèi)容挖掘

2008-01-01 00:00:00陳美榮楊莉

商場(chǎng)現(xiàn)代化 2008年5期

[摘要] 隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展，電子商務(wù)行業(yè)正處以一個(gè)高速發(fā)展的時(shí)期，各類商務(wù)網(wǎng)站也應(yīng)運(yùn)而生。如何從繁多的商務(wù)網(wǎng)站數(shù)據(jù)中獲得有用的信息就成了一件亟需解決的問(wèn)題。本文分析了Web內(nèi)容挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用以及如何獲得數(shù)據(jù)源。

[關(guān)鍵詞] 電子商務(wù)網(wǎng)站 Web內(nèi)容挖掘數(shù)據(jù)源

一、引言

對(duì)于電子商務(wù)網(wǎng)站來(lái)說(shuō)，Internet上儲(chǔ)存了大量的文檔、圖像、聲音等非結(jié)構(gòu)化的數(shù)據(jù)及信息，并且用戶群體也顯示出多樣性，也就是說(shuō)每個(gè)瀏覽網(wǎng)站的人，他們的需求、興趣以及瀏覽目的各不相同。一個(gè)稍具規(guī)模的電子商務(wù)網(wǎng)站每天處理的業(yè)務(wù)成千上萬(wàn)，那么如何從這些數(shù)據(jù)中找到有用的信息，幫助電子商務(wù)的經(jīng)營(yíng)者和研究者從海量的Web數(shù)據(jù)中得到真正有價(jià)值的信息，以指導(dǎo)他們做出管理上的決策。就是一個(gè)非常重要而有意義的事情。

二、爬蟲(chóng)和Web內(nèi)容挖掘

1.Web挖掘的典型分類

在目前的研究中， Web數(shù)據(jù)挖掘分為:Web內(nèi)容挖掘（Web content mining）、Web使用(訪問(wèn)信息)挖掘（Web usage mining）、Web結(jié)構(gòu)挖掘(Web structure mining）三種典型的類型。

(1)Web內(nèi)容挖掘主要是對(duì)站點(diǎn)的Web頁(yè)面內(nèi)容進(jìn)行挖掘。目前，大多數(shù)研究主要集中在如何對(duì)網(wǎng)站上的文本以及多媒體數(shù)據(jù)進(jìn)行分類以提高數(shù)據(jù)挖掘的有效性，很少涉及到如何從網(wǎng)站上進(jìn)行數(shù)據(jù)的采集以及分析。

(2)Web結(jié)構(gòu)挖掘主要是對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘，通過(guò)一定的算法來(lái)發(fā)現(xiàn)給定的Web文檔之間的鏈接情況，從而得到比較重要的頁(yè)面，以向?yàn)g覽網(wǎng)站的用戶提供權(quán)威頁(yè)面。

(3)Web使用(訪問(wèn)信息)挖掘主要是對(duì)用戶訪問(wèn)Web時(shí)在服務(wù)器方留下的訪問(wèn)記錄，也就是用戶訪問(wèn)Web站點(diǎn)的存取方式進(jìn)行挖掘。它通過(guò)挖掘相關(guān)的Web日志記錄，來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式。目前流行的挖掘手段主要包括:路徑分析、關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)、聚類和分類等。

2.Web挖掘的數(shù)據(jù)源

在Web數(shù)據(jù)挖掘中存在幾種代表性的數(shù)據(jù)源：

（1)服務(wù)器日志數(shù)據(jù)。個(gè)人瀏覽Web服務(wù)器時(shí)，在服務(wù)器那方就會(huì)產(chǎn)生3種類型的日志文件:Server logs，Error logs和Cookie logs，這些日志文件主要是用來(lái)保存用戶訪問(wèn)的基本情況。所以就成為開(kāi)展Web使用(訪問(wèn)信息)挖掘的主要數(shù)據(jù)源。但有一點(diǎn)需要注意的是，這些數(shù)據(jù)是在服務(wù)器方生成的，因此有一定的不可獲取性，因?yàn)檫@會(huì)涉及到商業(yè)機(jī)密。

（2)在線市場(chǎng)數(shù)據(jù)。這類數(shù)據(jù)主要是跟市場(chǎng)活動(dòng)有關(guān)的信息。在線市場(chǎng)數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù)，是進(jìn)行業(yè)務(wù)相關(guān)分析的主要數(shù)據(jù)源。

（3)Web頁(yè)面。目前的Web頁(yè)面大多滿足HTML標(biāo)準(zhǔn)。HTML頁(yè)面中包含文本和多媒體信息，例如圖片、圖像、語(yǔ)言等，因此涉及到數(shù)據(jù)挖掘領(lǐng)域中的文本挖掘和多媒體挖掘，目前很多研究都在致力于如何對(duì)文本和多媒體信息進(jìn)行挖掘的算法分析。

（4)Web頁(yè)面超鏈接關(guān)系。Web頁(yè)面之間的超鏈接關(guān)系是一種重要的資源，網(wǎng)站的設(shè)計(jì)者總是把他們認(rèn)為重要的頁(yè)面添加到自己的頁(yè)面上來(lái)。

（5)其他數(shù)據(jù)。除了上述幾種重要的數(shù)據(jù)源外，還有一些其他方面的數(shù)據(jù)，比如用戶注冊(cè)信息等一系列信息。

當(dāng)然，在實(shí)際的Web數(shù)據(jù)挖掘中這些數(shù)據(jù)源并不是孤立使用的，而是幾種數(shù)據(jù)源的綜合使用和分析，例如我們要對(duì)訪問(wèn)某個(gè)電子商務(wù)網(wǎng)站的用戶購(gòu)買商品的路徑分析的同時(shí)還需要知道這些客戶群的一些基本信息。

3.爬蟲(chóng)和Web內(nèi)容挖掘

由于上述的幾種數(shù)據(jù)源中有一些是在服務(wù)器方生成的，比如說(shuō)日志文件和用戶注冊(cè)信息，并且涉及到商業(yè)機(jī)密問(wèn)題，所以在數(shù)據(jù)源的獲得上存在一定的難度。這里，我們可以利用爬蟲(chóng)(Crawler)的工作原理，來(lái)作為我們進(jìn)行Web內(nèi)容挖掘的一種信息獲取和分析的工具，得到我們需要的數(shù)據(jù)源。

（1)爬蟲(chóng)的工作原理。爬蟲(chóng)(Crawler）是一個(gè)用來(lái)分解Web中超文本結(jié)構(gòu)的工具。一個(gè)商業(yè)網(wǎng)站的Web頁(yè)面是通過(guò)超鏈接的關(guān)系存在的，就組成了類似一張張的網(wǎng)。網(wǎng)絡(luò)爬蟲(chóng)是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其他鏈接地址，然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站，那么網(wǎng)絡(luò)爬蟲(chóng)就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。

（2)數(shù)據(jù)的獲得。我們就可以利用上述爬蟲(chóng)的工作原理，從我們需要的信息起始頁(yè)開(kāi)始進(jìn)行爬取數(shù)據(jù)，得到與之有關(guān)的大多數(shù)Web頁(yè)面上的信息。

（3)數(shù)據(jù)的分析。在對(duì)鏈接頁(yè)面進(jìn)行搜索的過(guò)程中，經(jīng)常需要判斷信息的屬性或分析信息的價(jià)值，因?yàn)閃eb頁(yè)面上存儲(chǔ)了浩瀚的數(shù)據(jù)，比如一些廣告信息，而有的數(shù)據(jù)并不是我們需要的。在此，我們可以利用基于正則表達(dá)式(regular expression)的詞法分析技術(shù)對(duì)采集到的Html代碼進(jìn)行語(yǔ)法分析，提取其中有效信息，例如出售的商品分類、規(guī)格、價(jià)格、數(shù)量、運(yùn)送方式、運(yùn)費(fèi)、出售人、曾經(jīng)購(gòu)買過(guò)的用戶等。

（4)數(shù)據(jù)的保存。為了進(jìn)行最終的挖掘工作，我們需要把經(jīng)過(guò)分析的有效數(shù)據(jù)最終保存到數(shù)據(jù)庫(kù)當(dāng)中。一般選擇大型的數(shù)據(jù)庫(kù)管理工具，如SQL Server2005等。

（5)進(jìn)行挖掘。利用數(shù)據(jù)挖掘技術(shù)獲取有效的信息，對(duì)相關(guān)問(wèn)題模式進(jìn)行驗(yàn)證。

三、結(jié)束語(yǔ)

電子商務(wù)網(wǎng)站，無(wú)論是B/C模式還是C/C的，在網(wǎng)站頁(yè)面上都保存了大量用戶在交易過(guò)程中產(chǎn)生的信息，例如商品的規(guī)格、價(jià)格、展示、售后服務(wù)以及運(yùn)輸方式等等，還包括賣家的個(gè)人信息、信用情況，根據(jù)平臺(tái)的不同還有相應(yīng)的支付方式、法律條款等等。那么，利用爬蟲(chóng)技術(shù)，我們可以開(kāi)發(fā)出一個(gè)獲得數(shù)據(jù)源的有效工具來(lái)進(jìn)行Web內(nèi)容挖掘。

當(dāng)然，在現(xiàn)實(shí)研究當(dāng)中，Web內(nèi)容挖掘是和Web結(jié)構(gòu)挖掘及Web訪問(wèn)信息挖掘結(jié)合在一起使用的，它們相互補(bǔ)充，共同來(lái)挖掘出有用的信息。

參考文獻(xiàn):

[1]梁協(xié)雄雷汝煥曹長(zhǎng)修:現(xiàn)代數(shù)據(jù)挖掘技術(shù)研究進(jìn)展.重慶大學(xué)學(xué)報(bào)，2004.3:p.21～26

[2]吳修琴:基于Web使用挖掘的個(gè)性化服務(wù)推薦:河北科技圖苑，2007.3

商場(chǎng)現(xiàn)代化2008年5期

商場(chǎng)現(xiàn)代化的其它文章: 中西方文化差異與英語(yǔ)教學(xué); 論違約責(zé)任——基于經(jīng)濟(jì)學(xué)視角; 核技術(shù)在經(jīng)濟(jì)和社會(huì)發(fā)展中的作用; 馬歇爾企業(yè)家理論探析; 《電子商務(wù)概論》課程教學(xué)方法的探索與實(shí)踐; 對(duì)勞務(wù)經(jīng)濟(jì)概念的界定