(北京印刷學院 北京 102600)
1.研究背景
當前社會是一個信息過載(information overload)的社會,為了解決這種問題,人們發明了搜索引擎。雖然搜索引擎可以有效幫助用戶獲取其需要的信息,但它也有局限性,在大多數場合,用戶并不明確自己需要的信息,搜索引擎也就不能發揮其最大的作用。
推薦系統,就是為了填補搜索引擎的缺陷而產生的。它以用戶的歷史行為為基礎,將用戶的喜好和興趣分析透徹,主動地將用戶感興趣的結果反饋給用戶,而不需要用戶主動描述自己所需要的信息。
2.國內外研究現狀
1992年,Goldberg第一次引入了協同過濾的思想,1997年Resnick首次在文獻中正式提出了推薦系統這個詞匯,他定義了推薦系統是“利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定應該購買什么產品,仿照銷售人員向客戶推薦商品幫助他們完成購買過程。”這一定義也被沿用至今。
1.推薦系統概述
推薦系統是存在于內容平臺網站中,網站通過系統向用戶推薦商品信息,幫助用戶決定應該選擇什么,或向他們推薦他們可能會需要的產品,來幫助用戶完成購買行為。
為了解決信息過載而造成的時間浪費,個性化推薦系統此而產生。該系統是設立在基于大量數據基礎上的一個高級商務智能平臺,幫助電商網站向用戶提供個性化的解決方案和信息服務。
推薦系統有三個重要模塊:用戶建模、推薦對象建模和推薦算法建模。首先根據用戶的歷史行為或信息進行建模,然后將需要推薦的特征對象與用戶特征進行匹配,通過某些特定的算法進行計算,將用戶可能會感興趣的商品推薦給用戶。
2.相關算法
在構成推薦系統的三個主要模塊中,推薦算法是最關鍵的。判斷一個推薦系統是否準確有效,取決于其是否選用了一個好的推薦算法。
(1)基于內容的推薦(Content-based Recommendation)
基于內容的推薦,簡而言之,是基于用戶以往瀏覽或購買過的商品的特征,并建立起用戶的個人興趣模型,它將用戶的個人興趣與物品特征來進行匹配,以推薦用戶可能感興趣的商品。它通常是對項目本身的內容屬性進行分析。基于內容推薦一般應用于基于文本的內容推薦,如書籍、網頁、新聞等,這些物品通常采用非結構化數據來描述。為了描述這些特征,通常采用特征提取技術從非結構化的文本中提取關鍵特征并建立特征向量。
(2)協同過濾推薦
協同過濾推薦算法主要是利用用戶歷史信息來為用戶進行建模,根據建模作出推薦的一種算法。根據不同的實現方法,可以分為基于記憶的協同過濾和基于模型的協同過濾。該算法是推薦系統中最成功也是被應用最廣泛的算法之一。它是利用記錄用戶各自不同的歷史行為來計算用戶與用戶之間的距離,根據與被評估用戶的最近鄰居用戶對某件商品的評價值來判斷被評估用戶對某件商品的喜好程度,根據目標用戶的偏好程度來為他們進行推薦。
(3)基于關聯規則推薦(Association Rule-based Recommendation)
該算法是以關聯規則為基礎,規則頭是已購商品,推薦對象視為規則體。關聯規則挖掘可以發現銷售過程中各種不同商品的相關性。
(4)基于效用推薦(Utility-based Recommendation)
該算法是基于用戶使用項目的效用情況上計算的,其核心問題是創建一個覆蓋全用戶的效用函數。因此,用戶數據模型是什么樣的,大部分要取決于系統使用什么樣的效用函數。該算法的優點是它可以考慮非產品的性質,如供應商的可靠性和產品的可用性。
(5)基于知識推薦(Knowledge-based Recommendation)
該算法并不需要用戶偏好和需要的數據來支持,更像是一種推理技術。效用知識(Functional Knowledge)是一種為了滿足某類特定用戶而需求的某種項目的知識,它可以解釋用戶需求和系統推薦之間的關系。
(6)組合推薦
由于上述所有算法都有缺陷,所以在日常工作中最常用的是組合推薦(Hybrid Recommendation),根據某一問題的實際情況將多種推薦算法組合在一起使用,可以通過組合后彌補或避免其中單個推薦系統的缺點,提高推薦系統的性能。
1.亞馬遜
著名的電商網站亞馬遜是個性化推薦系統的頂級應用者和推廣者,被RWW(讀寫網)稱為“推薦系統之王”。其最主要的是個性化商品推薦列表和相關商品的推薦列表。它采用協同過濾技術,可以準確分析每個用戶購買的情況,主動向用戶推薦,并根據用戶的歷史行為,給出某個用戶可能喜歡的書籍或商品供其選擇。據美國著名的科技博客網站Venture Beat統計,亞馬遜有約35%的銷售額來自于其推薦系統。
2.今日頭條
今日頭條的推薦系統實際上是建立一個三維變量函數,其所描述的內容是用戶對內容的滿意度。這三個維度分別是內容、用戶特征、環境特征。將這三個維度結合起來,系統能夠得出一個計算結果,用來預測推薦內容在某一場景下是否會得到用戶的喜歡。
1.用戶滿意度(Customer Satisfaction)
在電子商務平臺中,用戶滿意度主要是通過統計用戶的行為來得到,如果用戶購買了系統為他們推薦的商品,就說明用戶對推薦結果是滿意的。此外,用戶的滿意度還可以通過點擊率、轉化率、停留時間等指標來衡量。
2.預測準確度(Prediction Accuracy)
預測準確度是評判一個系統是否能夠預測用戶行為的能力,它的主要思想是將推薦算法計算出的推薦結果與用戶對某一商品的真實喜愛程度進行相似度匹配。該指標可以通過離線計算得出。
3.覆蓋率(Coverage Rate)
覆蓋率是用來描述一個推薦系統能否挖掘出這個內容平臺網站更多長尾物品的能力。其定義為推薦系統能夠向用戶推薦出的物品占平臺中總物品的比例。
網絡技術的飛速發展給人類生活帶來了極大的影響,提供了許多便利,但隨之而來的信息過載問題也不容小覷。在有限的時間和資源中,用戶并不希望在浩如煙海的信息中漫無目的地尋找自己所需要的信息,更希望能夠簡便高效的找到他們所需要的信息。
推薦系統的本質就是猜測用戶的喜好,并向其推薦,從而幫助他們購買。而當人們的喜好不斷發生變化時,推薦系統如何準確及時地抓住這些變化并滿足人們實時的需求,成了現在個性化推薦系統急需解決的一大問題。