摘要:數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間的關系的過程,使用這些模型和關系可以進行預測,它幫助決策者尋找數據間潛在的關聯,發現被忽略的因素,是解決當今時代所面臨的數據爆炸而信息匱乏的問題的一種有效方法。這些技術在很多電子商務商品推薦系統中已經得到了應用,而且還取得了比較好的推薦效果。本文介紹了數據挖掘的相關知識,深入研究了Web數據挖掘及相關技術,并對Web挖掘技術在新形勢下電子商務中的應用做了詳細闡述。
關鍵詞:數據挖掘;電子商務;應用;探析
中圖分類號:TP274
文獻標識號:A
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取陷含在其中的、人們事先不知道但又有潛在作用的并最終可理解的信息和知識的非平凡過程。它是涉及面很廣的交叉科學,包括機器學習、數據庫、統計學、模式識別、數據分析等相關技術。
數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間的關系的過程,使用這些模型和關系可以進行預測,它幫助決策者尋找數據間潛在的關聯,發現被忽略的因素,是解決當今時代所面臨的數據爆炸而信息匱乏的問題的一種有效方法[1]。它是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據,是一種深層次的數據分析方法。鑒于數據、數據挖掘任務和數據挖掘方法的多樣性,給數據挖掘提出了許多挑戰性的課題。數據挖掘語言的設計,高效而有用的數據挖掘方法和系統的開發,交互和集成的數據挖掘環境的建立,以及應用數據挖掘技術解決大型實際應用問題,都是目前數據挖掘研究人員、系統和應用開發人員所面臨的主要挑戰。
1 新形勢下的Web數據挖掘技術
目前,通過Web進行商務活動帶來的便利和它所產生的交易速度已成為電子商務迅猛發展的關鍵推動力。另一方面,涉及客戶端的電子商務活動也正在進行著巨大的革新。如果能夠跟蹤客戶在Web上的瀏覽行為并進行模式分析,這樣將會縮短銷售商與客戶之間的距離,讓銷售商更了解自己客戶的需求,有針對性的開展電子商務活動。
Web數據挖掘技術可應用到很多領域,尤其是商業領域。從某種意義上來說,商務領域對Web挖掘的大量需求導致了該技術的研究熱潮。其主要特點包括:
(1)面向電子商務挖掘的任務更多表現在客戶關系管理方面。因此通過Web數據挖掘技術可以吸引新用戶,防止舊用戶的流失。
(2)由于電子商務是基于網絡的系統,所以可以非常方便的獲取到人們想要的各種數據。
(3)通過對電子商務進行挖掘,使用者可以通過電子商務推薦系統對客戶進行適時的推薦,從而能吸引更多客戶,使企業立于不敗之地。
2 Web數據挖掘在電子商務中的應用
2.1尋找潛在客戶
在對Web的客戶訪問信息的挖掘中,利用分類技術可以在Internet上找到未來的潛在客戶,獲得這些潛在的客戶市場。
2.2改進站點設計
通過路徑分析等技術可以判定出一類用戶對一個Web站點頻繁訪問的路徑,這些路徑反映這類用戶瀏覽頁面的順序和習慣,因此得到的導航模式可以指導網站設計人員改進站點的設計結構,吸引用戶來訪問。
2.3提供個性化服務
Internet使得客戶與銷售商之間的空間距離消失了,那么如何使客戶能夠在自己的銷售站點上駐留更長的時間呢?首先必須了解客戶,知道其興趣所在,然后給其進行動態的Web頁面調整以適合當前客戶的需要。通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求。通過提供個性化服務,延長客戶駐留時間。
2.4聚類客戶
在電子商務中客戶聚類是一個重要的方面。通過分組具有相似瀏覽行為的客戶,并分析組中客戶的共同特征,可以幫助電子商務的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務[2]。通過聚類可以對不同類別的客戶進行不同的個性化服務,使商務活動能夠在一定程序上滿足客戶的要求,這樣對客戶和銷售商來說才更有意義。
2.5提供高效訪問
通過訪問信息的挖掘,利用基于Web訪問信息挖掘的預推送技術可以更好的設計服務器以提高在大負載下的性能,通過改進站點的拓撲結構可以有效地縮短用戶訪問時間。
3 電子商務中應用的Web挖掘技術
隨著電子商務的不斷發展,許多人紛紛加入到電子商務推薦系統的研究中來。為了尋求更加準確而且有效的推薦,已經有許多技術被應用到這個領域中。這些技術在很多電子商務商品推薦系統中已經得到了應用,而且還取得了比較好的推薦效果。目前,電子商務商品推薦系統中使用的技術主要有如下幾種。
3.1關聯規則
電子商務商品推薦系統中的關聯規則技術利用關聯規則發現算法,根據用戶當前的購習行為向該用戶提供推薦。基于關聯規則的推薦算法大都可以分為兩步:關聯規則形成和推薦形成。推薦形成階段,推薦系統根據規則計算當前用戶未瀏覽商品的推薦度,并根據推薦度的大小對當前用戶未瀏覽商品進行推薦。在運用關聯規則技術進行推薦的過程中,關聯規則的發現是最耗時的,也是算法的瓶頸,因此可以考慮離線進行,一旦規則形成以后,推薦的實時性是比較好的。
3.2序列模式分析
在時間戳有序的事務集中,序列模式的發現就是指找到那些如“一些項跟隨另一個項”這樣的內部事務模式。使用序列模式分析挖掘Web日志,能夠便于預測用戶的訪問模式,有助于開展針對這種模式的有針對性的廣告服務或者向客戶提供商品推薦。依賴于發現的關聯規則和序列模式,能夠在服務器方動態的創立特定的有針對性的頁面,以滿足訪問者的特定需求[3]。
3.3分類分析
在電子商務中通過分類分析,得到客戶分類模式后,就可以針對不同類客戶的特點展開不同的商務活動,提供有針對性的個性化的信息服務;得到客戶的分類模式后,還可以對新的客戶進行分析,分析新的客戶屬于哪一個類別,從而有針對性的開展商務活動。
3.4聚類分析
通過聚類具有相似瀏覽行為的客戶,使管理員更多的了解客戶,提供客戶更滿意的服務。通過對Web用戶日志的挖掘,對網絡用戶進行聚類,可以更好地了解用戶的需求,重新調整網站的頁面結構,從而為用戶提供方便、優質的服務;通過聚類客戶資料,將具有相似愛好的客戶分配到相近的類中,根據類中其他客房對商品的評價就可以得到該客戶對該商品的評價,向客戶推薦他可能感興趣的商品[3]。
3.5協作式過濾技術
協作式過濾技術是應用最早并且最為成功的推薦技術之一[3]。電子商務商品推薦系統中的協作式過濾技術一般采用最鄰近原則,根據用戶的歷史喜好信息計算用戶之間的距離,然后利用用戶的最近鄰居對商品評價的加權平均值來預測該用戶對特定商品的喜好程度,最后推薦系統根據這一喜好程度來向用戶進行推薦。
基于協作過濾的推薦算法大多可以分為形成近鄰和形成推薦兩個步驟。一般來說基于近鄰所運用的技術決定了算法的主要性能,基于近鄰可以分為兩大類:基于內存和基于模型的算法[5]。
3.6分類分析的聚類分析的有機結合
分類分析和聚類分析是互逆的過程。開始用聚類分析將數據進行聚類,分成若干個簇,然后用分類分析該數據的集合,得到每個類別的描述,然后可以按照新數據的特點將其放到適合的類中去。也可以通過對類的描述作為新的分類規則重新對數據進行分類,從而獲得更準確的結果。這樣一直循環使用,直到獲得滿意的效果。
4Web挖掘的數據來源分類
電子商務是通過Internet進行各項活動的,由于Web的特殊性,因些對其進行的數據挖掘的數據源有著數據量大、類型多的特點,其數據源大體可以分為以下幾類:
4.1服務器日志數據
個人瀏覽服務器時,服務器方將會產生三種類型的日志文件:Server logs、Error logs和Cookie logs,這些日志用戶記錄用戶的基本情況,因些它們是進行Web訪問信息挖掘的主要數據源。
4.1.1 Server logs
Web日志文件記錄了用戶訪問網站時每個頁面的請求信息,有服務器端的Server logs、Error logs和客戶端的Cookie三種類型的文件,從Web服務器日志的格式有通用日志格式CLF(Common Log Format)和擴展通用日志格式ECLF(Externded Common Log Format)。通用日志格式如下表所示。
Service logs有兩種格式存儲,一種是普通日志文件格式,另一種是擴展日志文件格式[4]。普通日志文件存儲了關于客戶連接的物理信息,如果能夠對這個文件中存儲的一些項進行請語法上的分析,如DNS,就可以知道客戶來源的區域。例如,域名www.jxust.cn被分析后就可以知道來自于教育行業。如果通過數據挖掘和這樣的語法分析,就知道了一某一產品它的購買者有80%是來自于大學,那么接下來就可以根據此信息調整電子商務中的在線市場策略,調整對大學生客戶的商務活動。擴展日志文件格式主要是支持關于日志文件信息的指令,如版本號、會話監控開始和結束的日期、被記錄的域等。

4.1.2 Error logs
存取請求失敗的數據,例如:丟失鏈接、授權失敗、超時。
4.1.3 Cookie logs
Cookies是一種軟件構件,它能夠在客戶端存儲客戶訪問服務器的信息。服務器軟件上存儲關于Cookies的這部分,就叫做Cookie logs。Cookie logs的一般格式是:“name, expiry date, path, domain, Security level”。
4.2查詢數據
它是電子商務站點在服務器上產生的一種典型數據。例如,對于在線存儲的客戶也許會搜索一些產品或某些廣告信息,這些查詢信息就通過Cookies或登記信息連接到服務器的訪問日志上。目前還沒有一個標準的查詢數據格式[1]。
4.3市場數據
在線市場數據是指和市場活動相關的信息。不同目的的商務網站有不同的商務信息。但是,這類數據通常是用傳統的關系型數據庫結構來存儲數據。在線市場數據是業務數據,是進行業務相關分析的主體。用戶的挖掘目標只是結合在線市場數據分析才能達到。
4.4頁面內容
這類數據主要是指HTML和XML頁面的內容,包括文本、圖片、語音、圖像等。由于HTML頁面包含文本和多媒體信息(圖片、語音、圖像),所以涉及到文本挖掘和多媒體挖掘。對Web頁面數據的挖掘還包括對Web頁面之間的超鏈接關系的挖掘。
4.5Web頁面結構
Web頁面結構包括WWW的組織結構和鏈接關系。組織結構是指頁面內部各部分是如何組織的,表現為各HTML標記間的關系,通常可組成一棵樹[6]。鏈接關系是指頁面之間存在的超級鏈接關系,這也是一種重要的資源。
4.6代理服務器端數據
代理服務器日志記錄用戶對所有網站的訪問。代理服務器相當于在客戶瀏覽器和Web服務器之間提供了緩存功能的中介服務器,它的緩存功能減少了Web服務器的網絡流量,加快了網頁的運行速度,同時將大量的用戶訪問信息通過代理日志的形式保存起來[7]。
4.7客戶登記信息
客戶登記信息是指客戶通過Web頁在屏幕上輸入的、要提交給服務器的相關信息。它在電子商務活動起著非常重要的作用,特別是在安全方面,或者在對客戶可訪問信息的限制方面。在Web的數據挖掘中,客戶登記信息必須和訪問日志集成,以提高數據挖掘的準確度,能更進一步的了解客戶。
5 結束語
Internet上的客戶都意識到,只要他們連接到一個在線市場的服務器上,就已經在這個服務器上留下了一個“腳印”,這就是服務器的日志文件。這樣就可以對客戶訪問留下的這些日志文件進行Web的數據挖掘,提取相關客戶的知識,對客戶的訪問行為、頻度、內容等進行分析,從而可以得到關于群體客戶行為和方式的普遍知識,以改進Web服務方的設計。通過Web數據挖掘,就可以根據客戶的訪問興趣、訪問頻度、訪問時間動態地調整頁面結構,改進服務,給客戶個性化的界面,開展有針對性的電子商務以更好的滿足訪問者的需求,因而Web數據挖掘不可避免地和電子商務走到了一起。
參考文獻
[1]周世東. Web數據挖掘在電子商務中的應用研究[D]. 北京交通大學,2008(6).
[2]趙東東. 電子商務中的Web數據挖掘系統的設計[J]. 微計算機信息,2007(2).
[3]何波,王越. 基于數據挖掘的Web個性化信息推薦系統[J]. 計算機工程與設計,2006(2).
[4]Barry Smyth,Evelyn Balfe. Anonymous personalization in collaborative web search[J]. Information Retrieval, 2006(9).
[5]Alexander Pretschner, Susan Gauch. Personaliztion on the Web. Technical Report MC-FY, 2000-TR-13591-01,December,1999.
[6]李煊,汪曉巖,莊鎮泉,基于關聯規則挖掘的個性化智能推薦服務[J].計算機工程與應用,2002(3).
[7]魯為. 協作過濾算法及其在個性化推薦系統中的應用[D]. 北京郵電大學,2007(3).