張欣悅
(深圳技師學院 信息技術系,廣東 深圳 518000)
電子商務推薦系統定義為:利用電子商務網站向用戶提供商品信息和建議,幫助客戶決定應該購買什么產品,模擬銷售人員幫助客戶完成購買過程。它是一個基于客戶網上購物的以商品為推薦對象的個性化推薦系統,為客戶推薦符合其興趣愛好的商品。分析客戶的消費偏向,向每個客戶具有針對性地推薦的產品,幫助客戶從龐大的商品目錄中挑選真正適合自己需要的商品。電子商務推薦系統在幫助了客戶,提高了客戶對商務活動的滿意度。同時,還能將電子商務網站的瀏覽者轉變為購買者,提高電子商務網站的交叉銷售能力,提高客戶對電子商務網站的忠誠度,從而換來對電子商務站點的進一步支持。
電子商務推薦系統主要由三大部分構成:輸入模塊、推薦方法模塊和輸出模塊。輸入模塊用來接受用戶的輸入信息,用戶的輸入信息中最重要的是用戶對項目的評價(rating)數據;推薦方法模塊用來根據一定的算法和用戶數據,得出對目標用戶的推薦,該模塊是整個推薦系統的核心部分,個性化推薦方面的研究的很大一部分,都集中在找到好的推薦方法。輸出模塊主要是指得到的推薦以何種形式反饋給用戶。
電子商務推薦系統使用的技術主要有:內容推薦技術、關聯規則,聚類,Horting圖,協同過濾技術等。
關聯規則可以尋找在同一個事件中出現的不同項的相關性,比如在客戶所購買不同商品之間的相關性。利用這些關聯,就可以得到客戶的購買特性,并根據發現的這些規律采取有效的行動。這對店鋪的市場定位、商品的采購等決策問題都有重大的指導意義。同時,也能為商品推薦提供幫助。
關聯規則的目標是在數據項目中找出所有的并發關系,這種關系也稱為關聯。關聯規則有三個度量。支持度反映在交易數據中發現該規則的頻繁程度,置信度說明當“如果”部分為真時“那么”部分也為真的頻繁程度[2]。比如手機一外殼規則,其支持度為15%表明15%的客戶同時購買了手機和外殼,置信度為85%表明在所有購買手機的客戶中,有85%的人也購買了外殼。而提升度反映在預測結果方面,規則比只是首先假設該結果會好多少,它是關于該規則工作情況的很好度量。這了挖掘出有意義的關聯規則,一般都需要提供最小支持度和最小置信度。
i)找出事務數據庫中所有大于等于用戶指定的最小支持度的頻繁項集;
ii)利用頻繁項集生成所有的關聯規則,根據用戶設定的最小置信度進行取舍,最后得到強關聯規則。
(1)關聯規則的定義:關聯規則就是在一個交易數據庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,得到的關聯規則表示為:X=>Y[s%,c%]
s表示關聯規則的支持度,c表示關聯規則的置信度。
關聯規則的發現算法很多,如Apriori,AprioriTid,DHP,FP-tree等。
(2)關聯規則的算法過程
i)使用關聯規則發現算法找出所有滿足最小支持度和最小置信度的關聯規則R;
為破解高校科技成果轉化中的關鍵問題和難點,推動高校科技成果轉化,浙江省開展了建設高校科技經紀人制度試點工作,高校科技經紀人主要負責對技術轉移項目進行正確的評估和論證,為企業和學校提供、傳遞技術轉移供需信息,組織并參與技術成果的商業化應用和產業化活動,對技術轉移活動進行全過程管理[5]。
ii)找出R中所有被客戶支持的關聯規則R1,即關聯規則左邊的所有商品都被客戶購買;
iii)找出被關聯規則R1所預測并且沒有被客戶所購買的所有商品P。
根據P中商品在關聯規則R1中的置信度排序,如果某商品被多個規則預測,則取置信度最大者作為排序依據,挑選前N個商品作為算法輸出。
通過比較用戶之間喜好的相似性,使用統計技術尋找與目標客戶有相同喜好的鄰居;然后根據目標客戶多個鄰居的觀點產生向目標客戶的推薦。
基于最近鄰居的協同過濾算法主要分為三個階段:
(1)對用戶已經購買的商品進行建模
用m*n階客戶-商品矩陣表示,Ri,j=1,如果第i個客戶購買了第j件商品;Ri,j=0,如果第i個客戶沒有購買第j件商品。
通過奇異值分解將m*n階客戶-商品矩陣變換為m*k階矩陣,這種表示稱為降維表示,可以部分解決原始表示存在的稀疏性、縮放性和同義詞問題。
(2)尋找目標客戶所對應的鄰居
鄰居形成階段:關鍵在于計算客戶之間的相似性。
目標客戶:對于每個客戶u,找到它的l個鄰居N={N1,N2,…,Nl},使得 sim(u,N1)最大,sim(u,N2)次之,……。
(3)從目標客戶的鄰居中產生N項產品推薦
由目標客戶的鄰居產生N件商品推薦,可以采用如下兩種不同方法產生推薦:
i)最頻繁項目推薦:掃描目標客戶每一個鄰居的購買數據,對其購買的商品進行計數,選擇出現頻率最高且目標客戶沒有購買的前N件商品最為推薦結果;
ii)基于關聯的推薦:類似于前面介紹的基于關聯規則的推薦算法,只是將目標客戶的鄰居作為算法的輸入。
基于內容的推薦起源于信息檢索領域,它利用資源和用戶興趣的相似性來過濾信息。首先分析項目的內容,根據用戶評價過的項目建立用戶的興趣模型,即用戶描述文件。根據用戶描述文件的不同又可以分為基于向量空間模型的推薦、基于關鍵詞分類的推薦、基于領域分類的推薦和基于潛在語義索引的推薦。
為了更好地區別用戶興趣之間的差異,曾春等提出了一種基于概率模型的文本推薦方法,把用戶興趣文件表示為用戶對不同領域感興趣的概率,先建立一個領域分類模型,然后計算所有文檔和用戶在這個分類模型上的概率分布,用該概率分布來表達文檔和用戶興趣[2]。基于內容的推薦利用資源和用戶興趣的相似性來過濾信息。首先分析項目的內容,根據用戶評價過的項目建立用戶的興趣模型,即用戶描述文件。根據用戶描述文件的不同又可以分為基于向量空間模型的推薦、基于關鍵詞分類的推薦、基于領域分類的推薦和基于潛在語義索引的推薦。這種方式直接、簡單,推薦結果易于解釋。可以體現用戶興趣的多樣性,而且由于用戶感興趣領域的個數遠小于關鍵詞的個數,算法的運算速度也得到了提高。
傳統的協同過濾推薦技術根據用戶顯式評分產生推薦結果,不僅用戶使用不方便,而且不能有效地解決數據稀疏問題及最初評價問題等經典問題。隨著www的發展,Web本身就是一種新數據源,在Web日志中積累了大量的有用的信息,因此可以通過Web挖掘技術來獲取用戶的隱式評分,所以未來的電子商務推薦系統應該利用盡可能多的信息,收集多種類型的數據,有效集成多種推薦技術,提供多種推薦功能,從而提供更加有效的個性化推薦服務。
目前的電子商務推薦系統主要面向用戶,未來電子商務系統除了為用戶作出個性化推薦服務外,還應集成企業資源計劃系統(ERP)、客戶關系管理系統(CRM)和供應鏈管理系統(SCM)等企業信息系統,以便將企業商務活動中產生的大量業務數據和顧客信息轉化為知識,增強其市場分析能力,共同為企業的產品定價、銷售、管理等提供決策支持,增強企業的市場競爭能力。
[1]劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009(01).
[2]曾春,邢春曉,周立柱.基于內容過濾的個性化搜索算法[J].軟件學報,2003,14(05):999-1004.