◆周雪芳
網絡資源推薦系統關鍵技術的探索
◆周雪芳
(青島黃海學院 山東 266427)
本文主要具體介紹了當今比較流行的個性化推薦技術,基于內容的過濾、基于關聯規則的推薦、協同過濾推薦,通過這幾種技術推薦算法、穩定性、可讀性等優缺點的比較,最終幫助開發者根據實際況選擇有利的推薦技術,做出合理的選擇。
推薦技術;推薦系統
推薦技術作為推薦系統的關鍵和核心,指的是系統充分利用系統用戶的一些技術。因此,推薦算法的好壞、效率的高低直接影響著系統推薦的效率和質量。目前存在一系列常用的推薦技術和算法,但目前在推薦系統中最常用的推薦技術主有三類:基于內容(過濾)的推薦技術、基于規則的推薦技術和協同過濾推薦技術,對于各種技術的具體介紹如下。
該技術最初起源于信息檢索領域,是信息過濾研究技術的延續和發展。基于內容(過濾)的推薦技術通過分析系統資源信息和用戶描述文件(具體在后面小節中有介紹),根據該資源內容與用戶描述文件之間的相似性程度為系統用戶提供個性化的資源推薦。具體來說,該推薦技術首先運用TF-IDF方法(在后面小節中有介紹)計算出用戶當前瀏覽的資源文檔中出現權重比較高的關鍵字,并將這些關鍵字構成描述當前用戶特征的向量,然后計算出系統中將要被推薦資源的資源特征項權重高的關鍵字,將其作為該推薦項的屬性特征。根據用戶評價過的資源建立基于向量空間模型的用戶的興趣特征(包括系統用戶的偏好和需求),通過將資源內容特征進行過濾,根據資源內容與用戶描述文件間的相似性(這是推薦算法的核心,通過cosine方法來計算兩個向量之間夾角的cosine值來確定)的計算結果,最終確定兩個相似性最高(cosine值最大)的資源作為系統用戶最可能感興趣的資源項推薦給用戶從而完成推薦過程。根據用戶描述文件的不同,基于內容(過濾)的推薦可以分為基于向量空間模型的推薦、基于關鍵詞分類的推薦、基于領域分類的推薦和基于潛在語義索引的推薦四種形式。
基于向量空間模型的推薦是目前最常用的基于內容(過濾)推薦的方法。該推薦方法將資源表示成一個n維的特征向量,如:D(T1,T2,….Tn)其中D表示文件(Document),Tn則指的是該資源的眾多特征項。向量的每一維都是由一個關鍵詞(可以是資源的屬性值)和權重(可取布爾型和實數值)來組成的,分別用來表示用戶是否對某網絡資源感興趣以及感興趣的相關程度。在運用基于空間向量方法處理文本資源的時候,系統將從該資源的名稱中抽取的屬性詞作為關鍵詞,并在向目標用戶進行推薦時將該用戶描述文件看成目標資源,然后通過相似性算法來計算出系統資源與該目標資源的相似值,最后,按照相似值從大到小的順序依次將資源輸出給目標用戶,完成推薦過程。
基于關鍵詞分類的推薦則是將資源推薦的過程看做是資源分類問題:系統首先通過獲取到目標用戶對某組已定義的資源進行評價的結果來計算出每個資源的關鍵詞屬于某個類的條件概率,從而獲取到該用戶的特征描述。然后,根據此特征描述的計算結果獲取后驗概率,最后將具有最高后驗概率的資源推薦給系統用戶;基于領域分類的推薦則是將用戶興趣文件表示為用戶對不同領域感興趣的概率,并通過計算所有資源和用戶在一個事先建好的領域分類模型上的概率分布來最終確定推薦的資源[2]。
基于內容(過濾)的推薦技術作為目前應用比較廣泛的推薦技術,具有如下所述的優點:
(1)穩定性好:該推薦技術不受系統新注冊用戶用戶、新上傳的資源的影響,能夠通過分析用戶描述文件來完成個性化的推薦,這是協同過濾推薦技術所無法處理的。
(2)無冷開始、稀疏性問題:在實際資源評分過程中,很多的系統用戶由于各種原因都會對資源不予評價,這就給協同過濾技術帶來了稀疏性問題。從而引發許多資源由于得不到用戶評分而無法得到系統推薦,這使得以最相鄰鄰居的興趣資源作為目標用戶推薦資源的協同過濾推薦技術大大受限[4]。相反基于內容的過濾則不需要其它用戶的數據,僅是通過對個人用戶文件分析,不會受用戶是否評價的影響。
(3)容易理解、推薦結果直接。該技術的推薦過程相較于系統過濾簡單、高效,能夠方便系統在較短時間內為用戶提供最合適的資源。
基于內容過濾的推薦技術目前也面臨著一些問題:比如該推薦技術的使用范圍局被限于用戶以往瀏覽的資源及類似信息資源,而不能為用戶發現、提供新的資源推薦;此外,由于受信息獲取技術如自動提取多媒體數據(圖像,視頻流,音頻等)的內容特征等技術上的制約,影響了該技術對復雜資源特征提取的效果;最后,該技術由于獲取資源關鍵詞表征資源特征需要專業人士,這在某種程度上也增加了開發系統的開發負擔。
該推薦技術伴隨數據挖掘技術的興起而被重視,是以基于關聯規則作為理論基礎來完成推薦過程的技術。推薦方法中的每個系統資源都會被分成前部和后部兩個部分。其中前部相當于一個興趣組,而后部則是這個興趣組所對應的推薦。該技術認定用戶在使用某個資源(前部)的時候會傾向使用與其相關的資源(后部)。由此,在推薦過程中,若系統用戶對某個資源的前部喜歡,那么系統就認定后部也會滿足用戶的興趣偏好,并把該資源后部以一定可信度推薦給當前用戶。比如用戶學習Servlet時,在搜索資源Servlet資源的同時也會搜索JSP資源,因為學習JSP是Servlet的基礎,兩者具有很高的相關度。
基于關聯規則推薦技術所具有的優點有:
(1)簡單、快捷、容易發現新的興趣點。
(2)數據源簡單,不需要特殊數據源。
(3)能夠準確預測用戶行為,挖掘用戶的潛在興趣。然而,該技術隨著關聯規則數量的增多,系統也將變得難以管理,同時當關聯規則耗時,會出現同一性、個性化程度低等問題,而影響推薦的質量。
該技術又被稱為社會過濾技術,也是目前最常用的推薦技術之一,并且已被應用到很多領域中。該技術具有以 “人”為推薦基礎的特點,能夠通過分析目標用戶的興趣偏好,在用戶群中找出和目標用戶興趣愛好類似的用戶,并將它作為相似的最相鄰用戶,然后將相似用戶的興趣偏好推薦給目標用戶,以滿足目標用戶對于興趣資源的獲取。這種推薦方式能夠方便目標用戶獲得意料之外的資源,從而挖掘用戶的潛在需要。協同過濾技術的主要任務就是找出目標用戶的相應的最近鄰居,從而根據最近鄰居的喜好對資源做出預測和推薦。
總之,隨著個性化服務的發展,個性化推薦技術在各個領域中都發揮著重要的作用,服務著人們的工作、學習、生活。雖然不同的個性化推薦算法都有自己的側重點和優勢,但每個算法都有自己不可避免的缺陷。通過上述分析比較,本文采用基于內容(過濾)的推薦技術來實現對系統用戶的資源推薦。雖然該推薦方法僅對于文本資源有效,但由于現在很多技術都可以實現從圖片、音樂、視頻中自動抽取資源內容信息,并且還能將抽取后的內容以文本、關鍵詞(標簽)、特征向量等方式表達,因此系統對不同類型信息的處理方式文本處理是類似的。由此,選取基于內容(過濾)的推薦完全能夠實現為用戶推薦各種類型的個性化資源。
[1]RuanJian-hai. TheInternet-basedEducation: UsingtheInterne TAS school [J]. Proceeding of ICCE’ 98.
[2]舒蓓,申瑞民,王加俊.個性化的遠程學習模型[J].計算機工程與應用,2001.
[3]余力,劉魯.電子商務個性化推薦研究[J].計算機集成制造系統,2004.