摘要:如何從海量的Web數據中發現有用的知識是一個迫切需要研究的課題,因此,Web挖掘應運而生,成為一個全新的研究領域。Web挖掘就是從Web文檔和Web活動中抽取潛在的有用模式和隱藏信息。隨著電子商務的發展,Web挖掘進入了一個新的應用領域,介紹了Web挖掘技術在電子商務中的具體應用,運用Web挖掘技術對Web數據進行挖掘,了解客戶的行為,從而調整站點結構、市場策略等,使電子商務活動具有針對性。
關鍵詞:Web挖掘;電子商務;數據挖掘
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)14-20829-02
1 引言
隨著網絡技術的快速發展,Internet已經成為一個全球性的信息服務中心,如何從海量的網絡信息中發現有用信息,成為人們的迫切需求,因此Web挖掘應運而生。而隨著電子商務逐漸走進人們的視野,如何利用Web挖掘技術為電子商務提供強大的數據支持已經成為數據挖掘研究的熱點。
2 Web挖掘概述
Web挖掘[1]是數據挖掘[2]在Web中的應用,它將傳統的數據挖掘思想和方法應用于Web,利用相關技術從Web資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及多個研究領域,包括數據挖掘、Web技術、人工智能、數據庫技術、信息學、統計學和神經網絡等多個領域,是一項綜合技術。
根據挖掘對象的不同,Web挖掘一般可以分為三種:Web內容挖掘、Web結構挖掘和Web使用挖掘。Web內容挖掘是從從Web文檔內容及其描述的內容信息中獲取有用知識的過程,一般包括文本文件和多媒體文檔的挖掘;由于有用知識除了在Web頁面內容中,也包含在頁面結構中,所以Web結構挖掘是從萬維網的組織結構和網頁的相互鏈接中進行挖掘,發現頁面間的關系,改進搜索引擎的性能;而Web使用挖掘則是通過挖掘相應站點的日志文件和相關數據發現站點瀏覽者的行為模式,識別用戶的喜好、滿意度,發現潛在用戶,增強站點的服務競爭力。
3 Web挖掘技術在電子商務中使用
隨著電子商務的興起,Web挖掘越來越多的應用于電子商務領域,在電子商務中進行Web挖掘一般可分為四個階段:收集數據、數據預處理、模式發現和模式分析。
3.1 收集數據
Web挖掘的前提條件就是得到大量的原始數據,也就是收集數據。在Web上可以用來挖掘的數據量大,類型多,主要有以下幾種類型的數據:
(1)服務器數據:數據最直接方便的來源,客戶訪問網站時會在服務器上留下相應的訪問日志信息,記錄每次網頁的請求信息,還可以存儲其他的一些Web使用信息,比如Cookie,以及查詢數據等。
(2)客戶登記信息:客戶通過Web頁輸入的、提交給服務器的相關用戶信息,客戶登記信息需要和訪問日志集成,以提高數據挖掘的準確度,進一步了解客戶。
(3)在線市場數據:主要是傳統關系數據庫里存儲的有關電子商務站點信息、用戶購買信息、商品信息等數據。
(4)Web頁面:HTLM和XML頁面的內容,包括本文、圖片、語音、圖像等。
(5)Web頁面超級鏈接關系:頁面之間存在的超級鏈接關系。
3.2 數據預處理
電子商務中能得到多種形式的信息資源,但一般都具有不完全性、冗余性和模糊性,不能直接用來挖掘,必須對原始數據進行預處理,為挖掘提供簡潔有效的數據。
3.3 模式發現
當對收集到的數據進行預處理后,就進入模式發現階段利用挖掘算法挖掘出有效可理解的信息,方法有分類分析、聚類分析、路徑分析、關聯分析、序列模式和依賴性建模等[3]。
(1)分類分析將數據項按預先定義的類別進行劃分,能識別一個特殊群體的公共屬性。
(2)聚類分析把有相似特性的用戶集合到一起,能從WEB信息中聚集出具有相似特性的客戶,劃分客戶群,幫助企業開發和執行市場策略,比如自動給一個特定的顧客群發送銷售郵件等。
(3)路徑分析挖掘訪問路徑,能發現Web網站中訪問最頻繁的路徑,改進網站結構。
(4)關聯分析挖掘出隱藏在數據間的關聯規則,能發現用戶對各頁面訪問關系,更好地組織網站空間。
(5)序列模式挖掘出交易集之間有時間序列關系的模式,能預測用戶的訪問模式,開展有針對性的廣告服務。
(6)依賴性建模是開發出一種能表達出Web領域中各種變量之間顯著依賴性的模型,不僅能為分析用戶行為提供理論框架,還具有預測Web資源消耗的潛力。
3.4 模式分析
通過模式分析從模式發現找到的模式集合中篩選出需要的模式,同時,網站的內容與結構信息也應用到模式分析過程,用以輔助對模式挖掘出的結果進行過濾,分析得到有價值的規則和模式,利用可視化技術,以圖形界面的方式顯示出來。
4 Web挖掘在電子商務中的意義
4.1 提供個性化服務,提高客戶忠誠度
電子商務中,傳統客戶與銷售商之間的空間距離己經不存在,客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊鼠標即可。網站的內容層次、標題、服務等既能成為吸引客戶、也能成為失去客戶的因素。因此應盡可能的迎合用戶的瀏覽興趣并不斷調整自己來適應用戶瀏覽興趣的變化。通過對客戶訪問信息的挖掘,了解客戶的興趣及需求,動態地調整Web頁面以滿足客戶的需要。例如通過關聯分析得到85%的客戶瀏覽網頁A時,同時瀏覽網頁B,則說明網頁A和B之間有一定的相關性,從而可以在網頁A中加入網頁B的超鏈接。
4.2 挖掘潛在客戶
對商家來說,發現更多潛在客戶,提高市場占有率是至關重要的,通過Web挖掘對潛在客戶信息進行分類和聚類分析,幫助商家識別出潛在的客戶群,對這類客戶實施一定的策略使他們盡快成為在冊客戶群體,提高市場占有率。
4.3 改進網站設計
網站上頁面內容的安排和鏈接如同超市中物品在貨架上的擺設,把具有一定關聯的物品擺放在一起有助于銷售,比如著名的沃爾瑪超市“尿布與啤酒”事例。利用關聯分析,鎖定客戶動態調整網站結構,讓客戶很容易地訪問到所需的頁面,給客戶留下較好的印象,增加下次訪問概率。
4.4 聚類客戶
通過分組具有相似瀏覽行為的客戶并分析組中客戶的共同特征,幫助電子商務的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務,使商務活動對客戶和銷售商來說更具意義。
4.5 降低公司商業成本
節約成本是企業盈利的關鍵,通過Web挖掘,快速獲得有用的市場反饋信息,預測未來客戶的購買行為,從而開展有針對性的電子商務營銷活動。
4.6 廣告效益評價
利用Web挖掘對大量消費行為模式進行分析,可精確地評價各種廣告手段的效益,并組合設計出最佳的商品宣傳組合方案,根據關心某產品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率。
5 小結
Web挖掘研究具有廣闊的應用前景和巨大的現實意義,隨著電子商務的迅速發展,Web挖掘有了更大的用武之地,利用Web挖掘技術對電子商務中的各種數據進行挖掘,發現相關信息,可以指導企業更好地運作和向客戶提供更優質的個性化服務,有效提高商業站點的競爭力。
參考文獻:
[1] 韓家煒, 孟小峰. Web挖掘研究[J]. 計算機研究與發展,2001,38(4):405-411.
[2] Jiawei Han, Micheline Kamber著. 范明, 孟小峰 譯. 數據挖掘概念與技術[M]. 北京:機械工業出版社,2004.
[3] 鄒顯春, 謝中, 周彥暉. 電子商務與Web數據挖掘[J]. 計算機應用,2001,21(5):21-23.