方傳霞,閆仁武
(江蘇科技大學 計算機科學與工程學院,江蘇 鎮江 212003)
電子商務的興起正在全世界范圍內迅速改變傳統商業模式[1],越來越多的顧客在電子商務網站活動日益頻繁。商家若是能跟蹤用戶在網站上的瀏覽軌跡并進行行為分析,讓企業更清楚掌握客戶的需求,有針對性的開展網上銷售。
基于Web挖掘的購物個性化推薦系統可以直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成購物過程[2]。電子商務推薦系統作為網站個性化服務之一,將Web挖掘技術應用于商務網站推薦系統中,對用戶屬性和行為進行學習,進而從中獲取知識信息并產生推薦,不僅為電子商務領域的海量數據提供一種有效的處理方式,而且為電子商務推薦系統提供更加智能化、更加自動化和更高質量的推薦結果[3]。
電子商務網站進行Web挖掘時,數據來源類型多、數據量大、非結構化等特點。數據源主要包括:服務器日志、代理服務器端數據、Web頁面數據、頁面鏈接數據、用戶注冊信息等。通過對這些數據源進行Web挖掘,能夠發現隱藏在數據中的模式信息,了解用戶行為,進行預測性分析,從而轉化為商業價值。
應用于電子商務網站的Web挖掘技術主要包括關聯規則、序列模式、分類分析、聚類分析應用等。關聯規則發現交易數據中不同項之間的關聯,從而找出用戶購買行為模式,典型的應用就是“購物籃分析”;序列模式分析是Web日志數據,發現用戶訪問模式,同時挖掘商品的購買順序以及時間間隔;分類分析目的是分析輸入數據,通過訓練集中數據表現,建立分類模型,包括樸素貝葉斯、決策樹等分類算法;聚類相似瀏覽行為的用戶,提取具有相似興趣度用戶,執行合理市場策略等。
完整的推薦系統一般由三部分組成[4]:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊和推薦算法模塊,其中核心是推薦算法模塊。可以根據電子商務推薦系統采用的推薦算法不同,將其劃分不同類型的個性化推薦系統。
傳統的協同過濾的電子商務個性化推薦系統只是對用戶購買行為之間的相似性感興趣,主要是挖掘目標用戶和歷史用戶之間購買行為的相似性,根據相似性生成推薦結果集,它是第一代被提出并且得到廣泛應用的個性化推薦系統。
基于協同過濾的個性化推薦系統優點是能夠為用戶挖掘出新感興趣的商品,而無需對商品的特征進行任何考慮,而且任何形式的商品都可以進行推薦,例如藝術品、電影、音樂、服務等。目前協同過濾個性化推薦是應用最廣泛的推薦算法,但這種方法也面臨多種問題,冷啟動問題、評分矩陣稀疏問題,且隨著系統用戶和商品數量不斷增長,系統性能會變差。
基于內容的推薦技術主要過程是:首先收集用戶愛好信息,構建和維護用戶概要信息庫;其次,建立清晰、完整的用戶愛好模型;再對文本集內的文本進行分詞、詞頻統計、加權等過程從而生成每一個文本的文本向量;然后,計算用戶向量和文本向量之間的相關系數,將相關系數高的文本發送給該用戶的模型用戶;最后,根據用戶的反饋信息進行修正,以提高推薦信息的效率和質量[5]。
基于內容的個性化推薦系統可以根據用戶和商品配置文件進行推薦,能夠處理冷啟動問題;推薦新商品和未流行的商品,發現隱藏的信息,不會受到評分矩陣稀疏問題影響;通過列出推薦項目的內容特征,合理解釋推薦的理由,具有良好的用戶體驗。該推薦系統受到信息獲取技術的制約,要求信息流是機器可以分析的形式,對機器識別的要求很高,且難度較大;基于內容推薦易產生重復推薦問題,且不易發現新的信息;信息識別的局限性,對商品信息的品質、風格無法進行準確的區分。
基于網絡結構的推薦算法是周濤首次提出,該算法不用考慮用戶和項目的內容特征,而只是把它們作為抽象的節點,首先將目標用戶選擇過的每個項目產品上設定初始資源,并將初始資源平均分配給項目的鄰居用戶,再將該用戶的平均資源分配給選擇過的所有項目,最后讓每個項目都獲得最終資源,并將項目的最終資源按大小排序且推薦前L個給目標用戶,即完成推薦[6]。
基于網絡結構的推薦算法是電子商務中個性化推薦系統的一個全新的研究方向,然而同樣面臨冷啟動問題。
協同過濾、基于內容以及基于網絡結構的推薦算法在實際電子商務網站應用過程中都有各自的優缺點,因而在實際的推薦系統中需要結合不同的推薦算法組成混合推薦算法,提高推薦系統的性能。常見的混合推薦算法是將基于內容的推薦與協同過濾推薦組合。
Web挖掘技術根據挖掘對象的不同可分為3類:Web內容挖掘、Web結構挖掘和Web使用挖掘?;赪eb挖掘技術的個性化推薦系統是通過瀏覽器的方式進行商品推薦,方便用戶體驗,增加推薦可信度。將Web挖掘技術與電子商務的個性化推薦系統結合,生成完全自動化的推薦,讓用戶體驗完全個性化的購物體驗,是電子商務推薦系統發展的必然趨勢。
集成Web挖掘的電子商務應用推薦系統模型如圖1[7]所示。

圖1 傳統的電子商務推薦系統模型Fig.1 Traditional model of e-commerce recommendation system
基于Web挖掘的電子商務系統模型中,主要是由業務數據、用戶與站點互動所產生的數據、數據倉庫、數據分析組成。業務數據是描述產品實體的數據信息,包含產品或服務的詳細信息。
第二個要素是用戶活動信息數據,包括用戶的選擇,訪問方式,用戶偏好,產品或朋友轉發,特定頁面或鏈接的點擊率,用戶的特性等詳細信息。將所有收集到的信息存儲到數據庫或數據倉庫;同時需要收集商品的評分頁面數據,將這些數據作為分析引擎的一個輸入,挖掘出用戶可能喜歡的其他物品數據集,提交數據集給分析引擎,從而分析用戶的行為。數據分析模塊主要負責數據分析、決策支持等。在SQL Server中,包含兩種數據挖掘算法:Microsoft決策樹和Microsoft聚集,且能夠與MS-Excel結合提供高效的數據挖掘方案。同樣Oracle數據庫也提供數據挖掘方案。整個分析的結果信息返回給用戶,包括產品成交次數、產品服務的知名度,用戶最佳選擇等。
現階段電子商務個性化推薦系統對實時性能要求高,可以將推薦系統模塊分為在線和離線兩部分[8],系統基本的結構如圖2所示。

圖2 改進的推薦系統模型Fig.2 Improved model of recommender system
1)離線模塊
主要工作是生成各種頁面和用戶的聚類結果,生成關聯分析的頻繁項集,由數據預處理和Web數據挖掘組成。離線挖掘的結果集直接為在線模塊提供支持。數據預處理和Web挖掘耗時較長,無法滿足商務系統的實時性要求,故而將其放在離線部分。
2)在線模塊
在線模塊主要是動態實時地實現推薦引擎的過程,并且將推薦引擎產生的頻繁項集添加到離線模塊中。結合離線模塊,提高個性化推薦的實時響應速度和伸縮能力,以及保證推薦系統提供給用戶最優質的推薦服務。
在電子商務網站的實際應用中,不同的情形下,用戶所需的推薦服務是不同的。注冊用戶登錄網站首頁時,需要推薦模塊根據用戶歷史記錄等,推薦用戶感興趣的熱門商品或者廣告信息;在很多電子商務網站中,交易完成后,用戶可以對商品的質量、賣家服務、物流速度等滿意度進行評價,當用戶提交商品評價信息時,調用協同過濾推薦,更新“用戶和項目評分”矩陣;用戶在瀏覽商品或者站點搜索自己想要的商品,啟用關聯推薦模塊進行推薦,且能夠進行交叉銷售。電子商務個性化推薦系統中,需要集成多種推薦模塊類型來滿足不同的應用需求,為用戶提供更高質量的推薦服務,圖3為多模塊系統框架流程所示。

圖3 多模塊推薦系統框架Fig.3 Multi-module frame of recommender system
Web挖掘的目標是從數據集中提取準確的信息滿足商業的需要,也就決定著這個過程與客戶密切相關,使得Web用戶與管理者就數據隱私問題發生分歧。國外的立法和監管機構為保護用戶隱私問題做出了很多努力,同樣很多研究學者也在研究新的技術去實現保護用戶隱私。W3C已開啟了“隱私首選平臺(Platform for Privacy Preferences,P3P)”項目,提出協議來解決Web用戶與站點管理者的爭端。
為保護用戶隱私數據,基于隱私保護的Web挖掘可分為兩個途徑:隨機擾亂方法和安全多方計算方法。隨機擾亂適用于對單個數據記錄和密集型數據集合進行隨機變換;安全多方計算分為安全和計算方法、安全并集求法、安全計算交集大小方法和安全數量積計算方法。在Web挖掘的電子商務個性化中,添加隱私保護模塊的是為了防止用戶機密信息外泄,同時要求基于屬性的統計保持不變,不會影響Web挖掘結果。Agrawal Srikant提出一種建立決策樹分類實施對源數據中隱私信息進行擾動[9];Evfimievski etal提出一種交換數據的方式進行關聯規則分析以達到保護隱私的目的?;陔[私保護的數據挖掘流程如圖4所示。

圖4 隱私保護的數據挖掘基本流程Fig.4 Basic flow of privacy protection based on web mining
如今,數據集基本上都是分布于不同的環境和不同地理位置,挖掘這樣數據集,必須使用基于分布式的Web數據挖掘算法獲得有效數據。在分布式數據挖掘中,處于不同地理位置的隱私數據更易被泄露。即使在某一環境中刪除或者干擾敏感信息,利用這些不全面的數據信息與用戶相關的其他數據庫鏈接就有可能獲取用戶的敏感信息,即當分布式數據合并使用。電子商務網站中用戶信息涉及到詳細住址、電話號碼、郵箱、銀行卡信息等隱私數據,如何在電子商務平臺進行基于隱私保護的Web挖掘成為熱點問題。
Web用戶分為注冊用戶和非注冊用戶,其相關推薦策略也有所不同:
1)對非注冊用戶分析是Web使用挖掘技術的一個難點。比如未注冊的用戶,瀏覽站點的頁面統計信息、駐留時間;是否有后續訪問行為;是否最終轉換為注冊用戶。未注冊用戶缺乏唯一標示,可以根據IP地址前三位加上瀏覽器信息來大致定位未注冊用戶,經實驗可以精確定位80%以上的用戶[10]。采用協同過濾,將非注冊用戶聚類,選取權值較高的物品,推薦給用戶。
2)注冊用戶則根據用戶當前狀態以及歷史記錄向用戶做推薦。首先對用戶的訪問日志進行分析,從而得到用戶當前訪問的事務序列,取出當前訪問事務中后N項與各個聚類中心進行比較并求出它與每個中心的相似度,最后將相似度值最小的類確定為該用戶所屬的類。由推薦引擎結合前面挖掘的結果集與當前用戶的歷史訪問記錄進行匹配,并根據計算結果對頁面進行排序,預測用戶將要訪問的頁面,最后將預測的結果頁面的鏈接推薦給用戶。
電子商務網站是交流和推廣企業形象的一個關鍵渠道,本文介紹在電子商務典型Web挖掘技應用,電子商務個性化推薦系統類型以及傳統的電子商務推薦系統模型和改進推薦系統模型,建立多模塊的挖掘系統以及將數據隱私保護加入到基于Web挖掘的電子商務推薦系統中,針對注冊用戶和非注冊用戶采用不同的推薦策略。在電子商務和Web挖掘技術迅速發展的今天,將Web挖掘技術與電子商務網站更有效的融合,提高更高效的Web挖掘模型,將是未來電子商務發展的一個重要方向。
[1]毛國君.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
[2]程宏水.網絡數據挖掘在電子商務網站設計的應用[J].中山大學研究生學刊,2007,28(1):107-114.CHEN Hong-shui.Study on the design of e-commerce website based on web data mining[J].Sun Yat-sen Graduate Studies Journal,2007, 28(1):107-114.
[3]鮮學豐,楊元峰.一種基于Web數據挖掘的電子商務推薦系統[J].電腦知識與技術,2007(16):1046-1047,1058.XIAN Xue-feng,YANG Yuan-feng.An e-commerce recommendation system based on web data mining[J].Computer knowledge and technology,2007(16):1046-1047,1058.
[4]劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1):1-15.LIU Jian-guo,ZHOU Tao,WANG Bing-hong.Research progress of personalized recommendation system[J].Progress in Natural Science,2009,19(1):1-15.
[5]黃文榮,周長征.基于內容和協作的推薦系統的研究[J].計算機時代,2009(2):5-7,10.HUANG Wen-rong,ZHOU Chang-zheng.Reasearh of recommender system based on content and collaboration[J].Computer era,2009(2):5-7,10.
[6]Zhou T,RenJ,MedoM,et al.Bipartite network projection and personal recommendation[J].Phys Rev E, 2007,76(4):1-7.
[7]Siddiqui A T,Aljahdali S.Web mining techniques in ecommerce applications[J].International Journal of Computer Applications, 2013, 69(8):39-43.
[8]程德理,張新玲,黃立平.基于數據挖掘的個性化電子商務模型設計[J].情報雜志,2006,25(8):8-10.CHENG De-li,ZHANG Xin-ling,HUANG Li-ping.Design of personalization e-commerce model based on data mining[J].Journal of Infomation,2006,25(8):8-10.
[9]Rakesh Agrawal,Ramakrishnan Srikant.Privacy-preserving data mining[R].IBM Almaden Research Center,2006.
[10]張喆.電子商務公司Web數據挖掘研究[D].北京:北京交通大學,2011.