摘要:信息過載是目前互聯網及電子商務發展的嚴重障礙。個性化推薦技術,尤其是基于內容的推薦技術可以很好地解決信息過載,受到了各界的關注。本文首先介紹了基于內容的推薦技術的背景,闡述了其基本思想和方法,并分析了基于內容的推薦技術的優缺點,總結了基于內容的推薦系統的性能評價指標,并就其未來的研究方向提出了自己的見解。
關鍵詞:推薦技術;內容;信息過載
21世紀以來,隨著互聯網的高速發展,互聯網正在深刻地影響大眾的生活方式。人們通過互聯網獲取到越來越豐富而全面的信息,為日常生活帶來了便利。然而,在海量信息帶給人們多樣的選擇的同時,也增加了獲取所需信息的難度,無法準確的選擇需要的信息。人們已經從信息匱乏時代邁入信息過載時代。
信息過載現象的出現,為信息的使用者帶來了極大的影響。面對目前大量的信息資源,如何精確、高效地幫助用戶獲取需要的信息資源,已經成為目前網絡技術發展的首要任務。推薦系統通過隱式或顯式的方式搜集用戶的行為信息來向其推薦信息或者商品,已經成為應對信息過載的有效工具。目前主流的推薦技術包括協同過濾推薦技術和基于內容的推薦技術。基于內容的推薦技術,是來源自信息檢索領域,主要是對產品的內容等信息進行特征提取,而不是依賴于用戶的評分信息。近年來,針對基于內容的推薦系統的改進也越來越多,如Zenebe在基于內容的推薦算法中加入了模糊的有關方法。Mostafa將神經網絡引入到了基于內容的推薦算法中,進而改善了推薦的效果。
1.基于內容的推薦算法
基于內容的推薦算法可以應用項目的特性和用戶的偏好,從而直觀地為用戶進行推薦。基于內容的推薦算法的基本思想是計算用戶還沒購買的項目和當前用戶過去選擇的項目的相似度。首先根據產品信息構造產品配置文件,其次根據用戶之前的評分、收藏、評論等用戶交互信息構造用戶偏好配置文件。最后通過方法比較用戶與產品的相似度,為目標用戶提供與其過去的行為偏好相似的項目。
1.1產品描述模型
基于內容的推薦算法的重點是為產品建立描述模型。對產品信息的提取包括結構化的數據,比如現有的項目屬性或標簽;也包括非結構化的數據,例如對新聞文章的評價或其本身的內容。對于項目的非結構化數據的提取可以利用TF-IDF方法來確定項目的關鍵詞。TF代表詞頻率,IDF代表逆向文件頻率。文本文檔可以通過分詞和TF-IDF來轉換成空間中的向量,空間維度對應文檔分詞結果。
1.2用戶配置文件
利用目標用戶過去的評論、收藏、需求等行為信息構造用戶的偏好模型。利用樸素貝葉斯分類器、聚類分析、支持向量機等統計方法和機器學習技術分析對數據經過訓練得到模型。在基于內容的推薦算法中,如何實時更新用戶的偏好描述模型是較為困難的步驟,是目前重點研究的方向。
計算用戶偏好模型和產品的內容特征模型的相似度是基于內容的推薦算法中重要的步驟。計算相似度的方法眾多,例如向量夾角余弦方法是最為普及的方法之一。
2.基于內容的推薦算法的優缺點
2.1基于內容的推薦算法的優點是:
2.1.1推薦較為準確,思路簡單,容易理解。
2.1.2不需要用戶評分數據,沒有數據稀疏影響推薦結果的問題。
2.1.3目前有較為成熟的機器學習技術提供模型的構建和分析。
2.2基于內容的推薦算法的缺點是:
2.2.1存在新用戶冷啟動問題。由于新用戶進入時,不能獲取到用戶的偏好信息,無法構建用戶偏好模型。
2.2.2雖然目前文本提取技術較為成熟,但是對于多媒體資源如視頻、音樂的特征提取目前尚無較為深入的研究。
3.推薦系統的評價指標
如何評估一個推薦系統的性能至關重要。若推薦系統的性能可以滿足用戶的需求,就會吸引用戶的進入,從而進一步優化推薦效果,形成良性的循環。目前評價推薦系統有準確率和召回率、實時性等多種指標。
3.1準確率和召回率。對于推薦結果為TopN列表的推薦系統,衡量指標大多是利用準確率和召回率指標。準確率衡量指標是代表推薦正確的數量占推薦物品總量的比例。召回率衡量指標是指推薦正確的物品數量占推薦列表中物品數量的比例。
3.2實時性。在目前的推薦系統中,系統實時性是最為重要的評價指標之一。推薦系統必須以相對較快的速度更新為用戶推薦的物品列表來滿足用戶的需求。因此系統實時性在很大程度上對用戶的使用體驗存在影響。
4.基于內容的推薦技術未來的發展方向
基于內容的推薦技術從上世紀八九十年代至今經歷了快速的發展,日漸成熟和完善。但在發展過程中,也出現了一些難點正待解決。這些難點都將是未來研究的重點問題。
4.1用戶偏好的獲取和項目特征提取。目前基于內容的推薦算法使用的用戶行為信息和項目相關信息較少。對于多媒體信息、輔助信息、真實語義等信息的提取還需要不斷地研究完善。
4.2推薦安全性。基于內容的推薦系統進行推薦時需要調用大量用戶及項目信息,而在個人隱私引起大家廣泛關注的今日,大量用戶并不愿意主動提供過多個人信息。因此如何得到大量用戶的行為數據用來提高推薦系統的效果,同時保證不被不法分子利用是未來基于內容的推薦系統的研究方向之一。
4.3冷啟動問題。由于新用戶并沒有歷史偏好信息,基于內容的推薦系統無法為用戶建立偏好模型。因此用戶的冷啟動問題嚴重影響著目前基于內容的推薦系統的性能。雖然目前對于冷啟動有很多相關的研究,但是問題依然沒有得到解決。冷啟動問題依然需要進一步的研究改善。
參考文獻:
[1]劉瑋.電子商務系統中的信息推薦方法研究[J].情報科學,2006,24(2):300-303.
[2]Balabanovi,Marko.Fab:content-based,collaborative recommendation[J]. Communications of the Acm,1997,40(3):66-72.
[3]蒲國林.基于內容的個性化新聞推薦[J].四川文理學院學報,2013,9:57-60.
作者簡介:
劉明昌(1991.12- ),男,漢族,河北保定人,碩士研究生在讀,現就讀于河北大學管理學院,管理科學與工程專業。