[摘 要] 對近年來研究領域討論較多且實用性較強的個性化推薦技術給予綜合闡述,結合了當今在機器學習和數據挖掘領域的一些重要研究成果,為相關領域的研究和學習提供重要的參考。
[關 鍵 詞] 個性化推薦;協同過濾;數據挖掘;機器學習
[中圖分類號] G712 [文獻標志碼] A [文章編號] 2096-0603(2016)23-0136-02
近年來對個性化推薦系統的研究成為數據挖掘和機器學習領域的一個新的熱門分支,有關于個性化推薦系統的研究也不斷深入。
個性化推薦系統通常是建立在海量數據挖掘基礎上的一種商業智能平臺,比如,它可以為電子商務提供個性化的購物體驗,在社交網絡當中提供個性化的內容,在個性化廣告中顯示出更加精準的投放率。
一、個性化推薦的應用領域
(一)個性化移動電子商務
與傳統電子商務相比,移動電子商務最大的優勢在于可以方便地針對客戶個人提供隨時隨地的個性化服務。但因為移動平臺的局限性,用戶較傳統電子商務平臺更少使用搜索功能來尋找感興趣的商品或服務。為使用戶通過盡可能少的操作獲得想要的商品或者服務,從而把更多的瀏覽者轉變成購買者,提供個性化的服務尤為重要。
(二)個性化遠程教育
近年來,互聯網已經成為最為普及的在線教育平臺。然而,大多數的在線教育平臺為不同的學習者提供的是相同的教學資源,因此,在線教學平臺的個性化推薦成為一個新的研究領域。部分研究可以自動探測用戶的歷史瀏覽記錄,比較用戶興趣傾向以及可用學習資源之間的相似性和不同點,這些技術的應用使學習者可以更加便捷地尋找適合自己的學習資源,提高學習效率。
(三)個性化新聞閱讀
在線新聞已經成為人們非常喜歡的一種新聞閱讀來源,但由于其數量巨大,人們往往很難從中找到自己喜歡的內容,尤其是實時的個性化新聞。在新興的新聞媒體,比如Huffington Post,36kr,今日頭條以及傳統門戶網站Yahoo,MSN等都開始采用個性化的新聞推送機制,在這方面的研究也不斷涌現。
二、個性化推薦技術
在數據挖掘和大規模數據處理技術的演進過程中,產生了許多個性化推薦的算法,在所有的個性化推薦技術中,基于內容的推薦技術和基于協同過濾的推薦技術應用最廣。
(一)基于內容的推薦技術
基于內容的推薦主要是建立在對已有用戶興趣和被推薦內容的分析基礎之上,在推薦之前,需要先對被分析的一系列內容作分析,根據用戶之前的瀏覽、評價記錄來建立用戶的興趣模型,同時基于用戶興趣和資源之間的相似性來進行內容過濾。基于內容的推薦技術分為幾類:
1.基于向量空間模型
基于向量空間的推薦模型把用戶的興趣表示成一個n維的向量{(t1,w1),(t2,w2),…(tn,wn)},每一維向量由關鍵詞及其權重構成。其中關鍵詞可以從文本文檔中直接抽取,權重可以由TF-IDF算法計算得出。當進行目標用戶的個性化推薦時,計算用戶向量和其他向量做對比,按相似性順序輸出目標結果。
2.基于關鍵詞分類
基于關鍵詞分類的推薦技術基于如下的模型:定義一組分類,讓用戶對訓練數據進行評價,基于此評價計算每個關鍵詞屬于某一個類別的條件概率,得到用戶模型,根據此描述計算推薦候選集中各個項目屬于某一類的后驗概率。將具有最高得分的推薦預測提交給用戶。
3.潛在語義索引
潛在語義索引(LSI)是一種概念索引方法,通過大量的文本集,自動生成關鍵字和概念,文檔和概念之間的映射規則。此技術主要用來解決單純詞形匹配的方法中存在的同義詞和多義詞的問題。文獻檢索的查準率比傳統詞形匹配的算法高出10%~30%。
(二)基于協同過濾技術的推薦
基于協同過濾技術的推薦算法就是并不根據目標項目的內容來決定用戶是否與其興趣相符,而是通過對一個項目的評價的用戶綜合信息把具有類似興趣的用戶連接起來,可應用在郵件過濾、商品推薦、電子新聞推薦等方面,根據算法運行期間所用到數據的差異,協同過濾技術可分為:
1.基于內存的協同過濾
基于內存的協同過濾技術分為兩種:基于用戶的協同過濾以及基于項目的協同過濾。它們的一個共同點是都需要把用戶信息調入內存當中。
基于用戶的協同過濾認為若一些用戶對某一項目的評分比較類似,那么他們對于其他項目的評分也會比較類似。基于項目的協同過濾則計算目標項目和其他項目之間的相似性,根據用戶已評分的項目類預測用戶對目標項目的評分,把評分最高的前N個項目作為結果推薦。
因此,兩種方法在算法上沒有區別,一個是計算用戶相似度,一個是計算項目相似度;它們都對用戶—項目評價矩陣進行操作,只是一個是對行進行操作,一個是對列進行操作。
2.基于模型的協同過濾
基于模型的協同過濾技術在運行前需先建立用戶評分的數據模型。運行期間將模型調入內存。從概率角度分,可以分為貝葉斯(Bayesian)聚類技術和貝葉斯網絡技術。用戶建模是獲取和維護用戶興趣、需求或者相關習慣的過程,其結果將產生一個表示用戶特有背景知識或興趣的用戶模型。
(三)基于內容和基于協同過濾推薦技術的比較
在實際應用中,這兩種主要的推薦技術分別有各自的優勢,又有先天性的不足。兩者的比較如下表所示:
基于內容的推薦的優勢是簡單、直接,結果易解釋。局限性是對特征不易抽取的內容無法進行準確推薦,只能推薦與用戶已有興趣相關的項目,不能為用戶發現新項目。
協同過濾算法可以對內容信息不全或不容易抽取的項目產生推薦,能為用戶發現新的興趣,但基于協同過濾的算法存在數據稀疏性問題,找到真正相似的用戶非常困難,存在冷啟動的問題。
(四)改進型的推薦算法
很多時候一種推薦算法無法使系統得到最好的效果,人們往往綜合兩種或者兩種以上的推薦技術,基于內容的推薦和協同過濾方法的混合可以克服它們各自的一些缺點。如,當中列出了一種加權組合推薦系統的基本方法和流程,采用將內容過濾和協同過濾的預測值進行加權求和的方法。
關聯推薦是在大數據處理基礎上挖掘出具有關聯性數據項之間的關系,分析用戶使用數據項的情況從而推薦其他同時被用戶頻繁訪問的項目,從而產生購買、閱讀推薦的一種技術。
個性化推薦技術已經被應用于很多領域,每一個領域所適用的推薦技術都有其局限性和優勢。本文將主要的個性化推薦技術做了總結,同時對于個性化推薦技術的主要應用場景做了描述,分析了主要推薦技術的差別以及優勢和劣勢,為研究個性化推薦技術的研究人員推薦了部分研究方向以及最新的研究熱點。
參考文獻:
[1]曾春,邢春曉,周立柱.基于內容過濾的個性化搜索算法[J].軟件學報,2002(10):1000-1004.
[2]Dinesh Gopinath,Michael Strickman.Personalized Adver-tising and Recommendation[P],Assignees:ChoicesStream,Inc,Patent application number:20110066497,2011-03-17.
[3]Kai Su,Weili Chai,Yin Liu.Research on personalization re-commendation technology in mobile commerce,E -Business and E -Government (ICEE)[A].International Conference[C],2011:1-4.
[4]Khribi M.K,Jemni M,Nasraoui O. Automatic Recommenda-tions for ELearning Personalization Based on Web Usage Mining Te-chniques and Information Retrieval[A].Eighth IEEE International Conference on Advanced Learning Technologies[C],2008:30-42.
[5]Li L,Wang DD,Zhu SZ,et al. Personalized news recommen-dation:A review and an experimental investigation[J].Journal of com-puter science and technology,2011,26(5):754-766.
[6]楊莉云.協同過濾技術中相似度計算問題研究[J].福建電腦,2010(6):31.
[7]岑詠華,甘利人,丁晟春.基于內容的Web個性化推薦技術研究[J].圖書情報工作,2003:30-34.
[8]吳麗花,劉魯.個性化推薦系統用戶建模技術綜述[J].情報學報,2006:55-62.
[9]Reza Bakhshandeh.Personalized Search based on Microblo-gging Social Networks[A].The 16th CSI International Symposium on Artificial Intelligence and Signal Processing[C],2012:283-286.