摘要:隨著互聯網的發展,Web挖掘技術已經成為數據挖掘技術的一個研究的熱點。本文對Web挖掘的特點、方法進行了討論,提出了結合網頁的鏈接結構來補充數據的預處理,以更精確地識別用戶會話。同時在挖掘瀏覽模式的時候,結合網頁內容聚類和用戶聚類,提高了推薦系統的性能。
關鍵詞:電子商務;Web使用挖掘;Web推薦;頻繁序列模式
中圖分類號:TP393文獻標識碼:A 文章編號:1009-3044(2008)16-21279-03
Realization of Data Mining in E-commerce Website
XU Chun-xuan1,JIANG Wei2
(1.Beijing United University,Beijing 101200,China;2.Shandong Institute of Occupational trade,Weifang 261011,China)
Abstract: As the rapid development of the Internet, the technology of Web mining has become a hotter research field of data mining. This paper discusses the characteristics and methods of Web mining, which provide an idea of unifying structure of Web links to supply the data pretreatment in order to identify user session more precisely. While browsing pattern is being mined, the Web content clustering and the users clustering are unified to enhance the recommendation system performance.
Key words: E-commerce; Web usage mining; Web pages recommendation; Frequent sequence patterns
0 引言
隨著數據庫技術的不斷發展以及數據庫在信息管理中的廣泛應用,數據庫中存放的數據急劇增大,導致了知識發現和數據挖掘領域的出現。數據挖掘通過發現有用的新規律和新概念,提高了數據擁有者對大量原始數據的深層次理解、認識和應用[1]。它可以通過分析企業的原有數據,做出歸納性推理,預測客戶行為,幫助企業決策者調整市場策略,減少投資風險。
由于各類電子商務網站的興起,電子商務的業務競爭比傳統的商務競爭更加的激烈。僅憑傳統商務網站的靜態連接是不可能適應現代社會的高速要求,也不可能滿足更多的客戶需求,更不可能爭取更多的業務量。理想做法是把客戶真正需要的信息推到客戶面前,以此來吸引客戶的關注。那么如何快速地分析出更準確、更有用的客戶信息,從而對網站進行決策支持,如何為客戶提供其相對感興趣的商品信息,建立個性化的電子商務網站,這就需要在電子商務網站中運用數據挖掘技術,建立個性化的電子商務網站。
Web挖掘是指利用定性歸納、分類學習、關聯規則挖掘、聚類分析等數據挖掘算法,從與Web相關的資源和用戶瀏覽行為中抽取感興趣的、有用的模式等隱含的信息。根據挖掘對象的不同,可以將挖掘分為三大類:(1)Web內容挖掘(Web Content Mining),在人為組織的Web上,從文件內容及其描述中獲取有用知識的過程。(2)Web結構挖掘(Web Structure Mining),從Web鏈接結構中獲取有用知識的過程。(3)Web使用記錄挖掘(Web Usage Mining),也稱為Web日志挖掘,是從Web的存取模式中抽取有價值的信息和模式的過程。
1 問題分析
個性化推薦技術是電子商務推薦系統中最核心、最關鍵的技術,很大程度上決定了推薦系統性能的優劣。
近年來,對于Web使用挖掘的興趣和工作逐漸增多,它也成為對客戶的行為模式進行捕捉和建模的一種根本方法。一個非常成功并被廣泛應用的個性化推薦技術是協同過濾技術(CF,Collaborative Filtering)[2,3]。給定一個目標客戶的活動記錄,協同過濾技術比較該記錄和其他客戶的歷史記錄以找出與當前客戶最相近的K個客戶,這些客戶與當前客戶有著相同的興趣,找到的鄰居就用來向當前客戶推薦其未訪問或購買的項目,它最大的優點就是對推薦的對象沒有特殊的要求。利用協同過濾技術的系統有著名的GroupLens/NetPerceptions[4]、Ringo/Firefly[5]等。基于CF的技術存在著缺陷,它需要通過在線方式形成鄰居的格式狀態,隨著用戶數量的增加,計算量呈線形性增加,對于在大規模的數據集上提供推薦服務將導致不可接受的延遲。同時,還存在新加入項的問題,即冷開始問題,由于新加入的用戶或資源還沒有被訪問或評價,造成新用戶和新資源得不到推薦[6]。還有其他的一些推薦方法,如給予用戶信息統計的推薦技術,它是先將用戶根據個人屬性進行分類,然后再基于類對類中的用戶進行推薦[7],在文獻[8]認為顯式輸入用戶屬性的優點是簡單,并且能夠準確表達用戶的興趣,但是卻很難收到成效。原因有用戶很少主動表達自己的喜好、用戶對問卷調查會產生厭倦、只能靜態被動的接受用戶的信息,不能將用戶喜好的轉移而自動修正用戶的興趣。
2 基于Web使用挖掘技術的推薦
目前,比較流行的技術是利用用戶的Web日志進行挖掘,其中的數據預處理和日志挖掘算法是Web挖掘中的關鍵技術。Web日志挖掘主要提供面向用戶的信息分析,所以首先要從Web日志中識別出用戶會話(User Session),作為日志挖掘的基礎。目前用戶會話表示方法考慮到用戶頁面訪問的時間順序問題,可以通過訪問的Web日志來預測用戶的訪問行為和網站周期性的訪問行為,一般采用將用戶會話表示成瀏覽頁面的頁面序列,它能夠表示訪問頁面的時間序列。但是這種方法也是存在著缺陷:這是由于用戶瀏覽頁面是基于多個瀏覽窗口同時訪問網站,因此可能用戶在同一時間訪問多個頁面,這多個頁面可能是通過同一個頁面建立的不同超級鏈接,也可能是通過多個頁面進行鏈接的。這樣可能這些頁面的訪問順序關系可能并不重要,如果將它們強行建立關系得話也沒有多大的意義[9]。這是在進行日志挖掘時需要考慮的問題之一。
基于日志文件的Web使用挖掘推薦系統并不完美,仍然存在著以下的缺點[10]:首先采集到的數據不完全或者有限問題。在應用數據挖掘算法之前,往往要使用啟發式規則幫助形成數據,這會使產生的用戶模式不正確或者不合適。其次不正確的數據誤導問題。當用戶不再對網站進行訪問時,其瀏覽信息還在日志文件中,這些數據可能會誤導對其他用戶的推薦。再次資源推薦的持續問題。當網站增加新網頁時,由于這些網頁從來未被訪問過,即使與用戶的興趣相符合,推薦系統也很難發現并將其推薦,這也是一個冷開始的問題。而過去的興趣頁面也因為不斷的被推薦,而引來更多的訪問,再進行推薦,如此往復系統會停留在對過去興趣頁面的無限推薦當中,造成推薦資源的新穎性不足。這又是進行日志挖掘時需要考慮得到的問題。
3 結合聚類和Web使用挖掘的推薦方法
3.1 數據預處理
Web日志數據預處理的過程就是經過一系列的數據處理轉化為用戶會話,通常采用圖所示的數據預處理過程。
圖1 典型的Web日志數據預處理過程
我們對日志數據進行了數據凈化、用戶識別、會話識別和路徑補充這四個預處理步驟,將原始的日志文件轉化為用戶會話文件和頁面/標識符索引文件。
數據預處理的結果作為日志挖掘算法的輸入,直接影響挖掘的質量,因此改進Web日志數據預處理技術可以有效地提高Web日志挖掘結果的質量。
在進行數據預處理時,考慮到用戶瀏覽頁面可能是基于多個瀏覽窗口同時訪問網站,因此可能用戶在同一時間訪問多個頁面,這多個頁面可能是通過同一個頁面建立的不同超級鏈接,也可能是通過多個頁面進行鏈接的。這就需要在數據預處理的過程中,考慮到頁面的鏈接結構。也就是說不僅僅需要在日志中通過時間限制進行用戶的會話識別,而是在以前普通會話識別的基礎上考慮站內頁面的連接結構,將同一會話內無連接關系的頁面再劃成不同的會話。
如圖2。
圖2
這可能是用戶的一個瀏覽圖,用戶在A頁面可能同時點擊了其上的三個鏈接B、C、D,我們其實并不在意這三個頁面的時間序列問題,而在意的是他們都是通過頁面A來進行鏈接的,以及通過這三個頁面用戶有訪問瀏覽了哪些頁面。而在以往的用戶識別中,可能會將B、C、D劃分到同一會話中并且有一定的序列。如可能存在,如果這個路徑滿足了頻繁訪問路徑的條件,在以后別的用戶訪問網站時,就可能進行推薦,而這種推薦卻是毫無意義的。
因此在進行數據預處理時,要考慮到網站內網頁的鏈接結構,從而有利于發現用戶的向前引用事務[11]和用戶的偏愛瀏覽路徑。
3.2 聚類的使用
在前面分析到了,多數的基于日志文件的Web使用挖掘推薦系統都存在一個冷開始的問題,即當一個新的頁面被加入網站中還未被任何用戶訪問過,則推薦系統不能將其推薦。這樣我們就可以利用頁面聚類的方法,可以將被訪問過的頁面進行聚類,然后對新頁面歸類,具體的實現可以用到矩陣聚類[12]。同時針對于用戶進行相應的聚類分析,一類用戶對應于一類的網站頁面。對于某一新用戶訪問完網站后,可以根據其瀏覽的路徑,將其歸類,待下次其訪問網站的時候可以推薦相應類內頁面。
由于用戶瀏覽頁面時通常是帶有目的性的,但可能帶有多個目的,所以在瀏覽頁面的過程中不同目的可能重疊交織,而不同的目的頁面之間的訪問順序不是我們所關注的。假如用戶同一時間段內訪問A、B、C、D,訪問A、B是為一個目的,而訪問C、D又為另一個目的,則A、B與C、D的訪問序列并不能反映出用戶的訪問意向,這就需要通過頁面聚類將這些子會話事務區別開來,從而提高了頁面推薦的精確度。
4 實現
圖3
整個推薦模型分成兩個部分:離線的數據準備部分和在線的推薦部分。離線的數據準備部分又分為兩種方法:一是根據客戶的瀏覽行為將客戶模糊聚類分析;二是從日志文件中挖掘出頻繁訪問路徑。在線部分也分為兩部分:一是根據客戶當前訪問序列,在頻繁訪問路徑集內找到這些訪問序列的推薦集,然后由Web服務器把這些推薦集的超連接發送到客戶的瀏覽器供客戶參考使用;二是此用戶的登錄時,查看用戶的所屬分類,將屬于這個分類的推薦集的超連接法送到客戶的瀏覽器上。
5 結束語
Web挖掘的結果對于商家在電子商務環境下分析客戶的行為、調整網站的結構以及進行商業決策有著重要的意義。本文集中在對Web使用記錄的挖掘上,對數據的預處理工作做了一定的補充,結合網站中各頁面的鏈接結構信息細化了用戶的會話,并且通過用戶的訪問路徑對用戶進行聚類,并將挖掘的結果用于路徑的預測推薦和新用戶的歸類。下一步的工作是如何提高頁面推薦的精確度。同時,Web數據具有很強的時效敏感特性,在以后的Web挖掘研究中我們還要考慮到Web數據的實效度問題,這樣可以讓決策者去掉冗余或過期的信息,做出更符合時勢發展的決策。
參考文獻:
[1] D Cheung, J Han, C Y Wong. Maintenance of discovered association rules in large databases:An incremental updating technique. Stanley Y, W Su. Proceedings of the twelfth International Conference on Data Engineering(ICDE’96), New Orleans, Louisiana, IEEE, Computer Society, 1996:106-1140.
[2] SARWAR BM, KARYPIS G, KONSTAN J, et al. Analysis of recommender algorithms for e-commerce[A].Proceedings of the 2nd ACM Ecommerce Conference(EC’00)[C] . Minneapolis, 2000: 135-141.
[3] Herlock J, Borchers A et al. An algorithmic framework for performing collaborative filtering[C].In: Proc of the Conference on Research and Development in Information Retrieval, ACM, 1999:230-237.
[4] RESNICK P, IACOVOU N, SUCHAK M, et al. GroupLens: an open architecture for collaborative filtering of netnews[A]. Proceedings of the Conference on Computer Supported Cooperative Work[C]. Chapel Hill, NC, 1994:185-186.
[5] SHARDANAND U, MAES P. Social information filtering: algorithms for automating “word of mouth”[A]. In Proceedings of the ACM CHI Conference(CHI95)[C], 1995.
[6] Badrul M, Sarwar, George Karypis, et al. Analysis of Recommendation Algorithms for Ecommerce[A]. ACM Conference of Electronic Commerce [C].New York::ACM Press, 2000:158-167.
[7] LANG K. Newsreader: learning to filter news’[A]. Proceedings of the 12th International Conference on Machine Learning[C], 1995. 331-339.
[8] 於惠文,周興社.電視節目個性化服務技術的研究[J].小型微型計算機系統,2005.26(1):105-110.
[9] 詹宇斌,殷建平.一種基于有向樹挖掘Web日志中對大頻繁訪問模式的方法[J].計算機應用,2006.26(7):1662-1665.
[10] 崔林,王輝.基于網絡內容和結構數據的用戶瀏覽模型[J].河南科技大學學報(自然科學版),2005.26(6):59-61.
[11] COOLEY R. MOBASHER B, SRIVASTAVA J. Data Preparation for Mining World Wide Web Browsing Patterns[J]. Knowledge and Information System. 1999.1(1):5-23.
[12] 陳美娜,彭玉清.基于矩陣聚類的路徑預測服務[J].
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。