摘要:對(duì)個(gè)性化服務(wù)技術(shù)中用戶(hù)描述文件的表達(dá)與更新、資源描述文件的表達(dá)、個(gè)性化推薦技術(shù)及該領(lǐng)域的主要研究成果進(jìn)行了綜述。討論了實(shí)現(xiàn)個(gè)性化服務(wù)的關(guān)鍵技術(shù)并對(duì)個(gè)性化服務(wù)技術(shù)進(jìn)一步研究工作的方向進(jìn)行了展望。
關(guān)鍵詞:個(gè)性化;Web挖掘;推薦系統(tǒng)
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)11-2608-02
Personalized Recommendation Technology Based on Web
CUI Li-xin, ZHANG Chun-hua, ZHAO Chun-xi
(Aviation University of Air Force, Changchun 130022, China)
Abstract: The paper introduces the expressing and updating of user profile, the expressing of resource profile, personalized recommendation technology and the achivements on these issues. Then the critical technology and the aspects fucused on for future of personalized recommandation are discussed.
Key words: personalization; Web minin; recommendation system
1 概述
隨著Internet的飛速發(fā)展,World Wide Web上的網(wǎng)頁(yè)量正在呈指數(shù)的增長(zhǎng)。Web已經(jīng)成為獲取信息最重要的手段之一。海量的網(wǎng)頁(yè)在為人們提供包羅萬(wàn)象、無(wú)比豐富的信息資源的同時(shí),也向人們提出了如何快速?gòu)男畔⒑Q笾蝎@取其所需信息的挑戰(zhàn)。目前Web系統(tǒng)為所有用戶(hù)提供相同的服務(wù),然而Web用戶(hù)的需求千差萬(wàn)別,用戶(hù)希望Web系統(tǒng)能夠根據(jù)他們特性的不同提供個(gè)性化的服務(wù)。針對(duì)用戶(hù)特性并向用戶(hù)提供個(gè)性化服務(wù)已經(jīng)成為Web技術(shù)的一個(gè)研究熱點(diǎn)。
所謂Web個(gè)性化實(shí)質(zhì)上就是一種以用戶(hù)需求為中心的Web服務(wù)。首先,不同Web用戶(hù)通過(guò)各種途徑訪問(wèn)Web資源;其次,系統(tǒng)學(xué)習(xí)用戶(hù)的特性,創(chuàng)建用戶(hù)訪問(wèn)模型;最后,系統(tǒng)根據(jù)得到的知識(shí)調(diào)整服務(wù),以適應(yīng)不同用戶(hù)的個(gè)性化需求。因此創(chuàng)建Web個(gè)性化服務(wù)系統(tǒng)的一般步驟為:
1)收集用戶(hù)的各種信息,如注冊(cè)信息,訪問(wèn)歷史等;
2)分析用戶(hù)數(shù)據(jù),創(chuàng)建符合用戶(hù)特性的訪問(wèn)模式。
目前存在著許多個(gè)性化服務(wù)系統(tǒng),它們提出了各種思路以實(shí)現(xiàn)個(gè)性化服務(wù)。個(gè)性化服務(wù)系統(tǒng)根據(jù)其所采用的推薦技術(shù)可以分為兩種:基于規(guī)則的系統(tǒng)和信息過(guò)濾系統(tǒng)。信息過(guò)濾系統(tǒng)又可分為基于內(nèi)容過(guò)濾的系統(tǒng)和協(xié)作過(guò)濾系統(tǒng)?;谝?guī)則的系統(tǒng)允許系統(tǒng)管理員根據(jù)用戶(hù)的靜態(tài)特征和動(dòng)態(tài)屬性來(lái)制定規(guī)則,一個(gè)規(guī)則本質(zhì)上是一個(gè)If-Then語(yǔ)句,規(guī)則決定了在不同的情況下如何提供不同的服務(wù)?;谝?guī)則的系統(tǒng)優(yōu)點(diǎn)是簡(jiǎn)單直接,缺點(diǎn)是規(guī)則質(zhì)量很難保證,而且不能動(dòng)態(tài)更新,此外,隨著規(guī)則的數(shù)量增多,系統(tǒng)將變得越來(lái)越難以管理?;趦?nèi)容過(guò)濾的系統(tǒng)如WebPersonalizer等,它們利用資源與用戶(hù)興趣的相似性來(lái)過(guò)濾信息?;趦?nèi)容過(guò)濾的系統(tǒng)其優(yōu)點(diǎn)是簡(jiǎn)單有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶(hù)發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶(hù)已有興趣相似的資源。協(xié)作過(guò)濾系統(tǒng)如:WebWatcher等,利用用戶(hù)之間的相似性來(lái)過(guò)濾信息?;趨f(xié)作過(guò)濾系統(tǒng)的優(yōu)點(diǎn)是能為用戶(hù)發(fā)現(xiàn)新的感興趣的信息,缺點(diǎn)是存在兩個(gè)很難解決的問(wèn)題,一個(gè)是稀疏性,亦即在系統(tǒng)使用初期,由于系統(tǒng)資源還未獲得足夠多的評(píng)價(jià),系統(tǒng)很難利用這些評(píng)價(jià)來(lái)發(fā)現(xiàn)相似的用戶(hù)。另一個(gè)是可擴(kuò)展性,亦即隨著系統(tǒng)用戶(hù)和資源的增多,系統(tǒng)的性能會(huì)越來(lái)越低。還有一些個(gè)性化服務(wù)系統(tǒng)同時(shí)采用了基于內(nèi)容過(guò)濾和協(xié)作過(guò)濾這兩種技術(shù)。結(jié)合這兩種過(guò)濾技術(shù)可以克服各自的一些缺點(diǎn),提高協(xié)作過(guò)濾的性能。
2 個(gè)性化服務(wù)的實(shí)現(xiàn)
為了實(shí)現(xiàn)個(gè)性化服務(wù),首先需要跟蹤和學(xué)習(xí)用戶(hù)的興趣和行為,并設(shè)計(jì)一種合適的表達(dá)方式。為了把資源推薦給用戶(hù),必須組織好資源,選取資源的特征,并采用合適的推薦方式。
2.1 用戶(hù)描述文件
對(duì)個(gè)性化服務(wù)系統(tǒng)來(lái)說(shuō),最重要的是用戶(hù)的參與,為了跟蹤用戶(hù)的興趣與行為,有必要為每個(gè)用戶(hù)建立一個(gè)用戶(hù)描述文件。用戶(hù)描述文件刻畫(huà)用戶(hù)的特征與用戶(hù)之間的關(guān)系。用戶(hù)描述文件從內(nèi)容上可以劃分為基于興趣的和基于行為的兩種類(lèi)型。在具體實(shí)現(xiàn)時(shí)可以綜合基于興趣和基于行為這兩種表達(dá)方式。在用戶(hù)初次使用個(gè)性化服務(wù)系統(tǒng)的時(shí)候,系統(tǒng)可以要求用戶(hù)注冊(cè)自己的基本信息和感興趣的內(nèi)容,也可以隱式地收集用戶(hù)信息。在定制好一個(gè)用戶(hù)描述文件之后,系統(tǒng)可以讓用戶(hù)自主修改,也可以由系統(tǒng)自適應(yīng)地修改,這樣,系統(tǒng)就可以隨用戶(hù)興趣的變化而變化。
目前基于Web日志的挖掘技術(shù)發(fā)展迅速,利用Web日志可以獲得頁(yè)面的點(diǎn)擊次數(shù)、頁(yè)面停留時(shí)間和頁(yè)面訪問(wèn)順序等信息。通過(guò)分析Web日志可以獲得相關(guān)頁(yè)面相似用戶(hù)群體和用戶(hù)訪問(wèn)模式等信息,個(gè)性化服務(wù)系統(tǒng)可以利用這些信息創(chuàng)建或更新用戶(hù)描述文件。
2.2 資源描述文件
資源的描述與用戶(hù)的描述密切相關(guān),一般的做法是用同樣的機(jī)制來(lái)表達(dá)用戶(hù)和資源,資源描述文件可以用基于內(nèi)容的方法和基于分類(lèi)的方法來(lái)表示。
基于內(nèi)容的方法是從資源本身抽取信息來(lái)表示資源,對(duì)文檔來(lái)說(shuō),關(guān)鍵的問(wèn)題是特征選取:一是選取最好的詞,二是選取的詞最少?;诜诸?lèi)的方法是利用類(lèi)別來(lái)表示資源,對(duì)文檔資源進(jìn)行分類(lèi)有利于將文檔推薦給對(duì)該類(lèi)文檔感興趣的用戶(hù)。文本分類(lèi)方法有多種,比如:樸素貝葉斯,k最近鄰方法等。資源的類(lèi)別可以預(yù)先定義,也可以利用聚類(lèi)技術(shù)自動(dòng)產(chǎn)生。
2.3 個(gè)性化推薦
個(gè)性化推薦可以采用基于規(guī)則的技術(shù)、基于內(nèi)容過(guò)濾的技術(shù)和協(xié)作過(guò)濾技術(shù)。
基于規(guī)則的技術(shù)中,規(guī)則由用戶(hù)定制,也可以利用基于關(guān)聯(lián)規(guī)則的挖掘技術(shù)來(lái)發(fā)現(xiàn)。信息推薦時(shí),首先根據(jù)當(dāng)前用戶(hù)閱讀過(guò)的感興趣的內(nèi)容,通過(guò)規(guī)則推算出用戶(hù)還沒(méi)有閱讀過(guò)的感興趣的內(nèi)容,然后根據(jù)規(guī)則的支持度(或重要程度),對(duì)這些內(nèi)容排序并展現(xiàn)給用戶(hù)。利用規(guī)則推薦信息依賴(lài)于規(guī)則的質(zhì)量和數(shù)量,其缺點(diǎn)是隨著規(guī)則的數(shù)量增多,系統(tǒng)將變得越來(lái)越難以管理。
信息過(guò)濾技術(shù)可分為基于內(nèi)容過(guò)濾的技術(shù)和協(xié)作過(guò)濾技術(shù)?;趦?nèi)容過(guò)濾的技術(shù)是通過(guò)比較資源與用戶(hù)描述文件來(lái)推薦資源,其優(yōu)點(diǎn)是簡(jiǎn)單有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格;協(xié)作過(guò)濾是根據(jù)用戶(hù)的相似性來(lái)推薦資源,它根據(jù)相似用戶(hù)來(lái)推薦資源,所以有可能為用戶(hù)推薦出新的感興趣的內(nèi)容。
基于近鄰用戶(hù)的協(xié)作過(guò)濾技術(shù)應(yīng)用比較普遍,它的核心問(wèn)題是為當(dāng)前用戶(hù)尋找k個(gè)最相似的鄰居來(lái)預(yù)測(cè)當(dāng)前用戶(hù)的興趣。基于近鄰資源的協(xié)作過(guò)濾方法通過(guò)預(yù)先建立一些反映相關(guān)性或相似性的模型,提高系統(tǒng)在預(yù)測(cè)和推薦時(shí)的性能。
3 問(wèn)題與方向
盡管Web挖掘技術(shù)已經(jīng)在Web個(gè)性化系統(tǒng)中得到了廣泛的應(yīng)用,但是還存在著以下幾個(gè)方面的問(wèn)題:
1) 隱私問(wèn)題。目前的Web個(gè)性化技術(shù)還不能很好的解決這個(gè)問(wèn)題;
2) 性能問(wèn)題。實(shí)時(shí)個(gè)性化系統(tǒng)對(duì)響應(yīng)時(shí)間要求比較高,系統(tǒng)性能將是一個(gè)不可忽視的問(wèn)題;
3) 質(zhì)量評(píng)價(jià)問(wèn)題。如何評(píng)價(jià)建模效果以及系統(tǒng)最終的服務(wù)質(zhì)量是一個(gè)非常重要的問(wèn)題。
目前已經(jīng)存在很多個(gè)性化服務(wù)系統(tǒng),但個(gè)性化服務(wù)技術(shù)仍有很多值得研究和探討的領(lǐng)域:
1) 用戶(hù)興趣和行為的表達(dá)。跟蹤學(xué)習(xí)和表達(dá)用戶(hù)興趣是一個(gè)最基本和難以解決的問(wèn)題;
2) 分類(lèi)和聚類(lèi)技術(shù)。分類(lèi)和聚類(lèi)技術(shù)是個(gè)性化服務(wù)的基本技術(shù),也具有良好的可擴(kuò)展性;
3) 安全技術(shù)。建立有效的保護(hù)用戶(hù)隱私的機(jī)制,才能順利實(shí)現(xiàn)個(gè)性化服務(wù)。
參考文獻(xiàn):
[1] Barrett.How to personalize the Web[M].New York:ACM Press,1997.
[2] 崔立新,苑森淼.約束性相聯(lián)規(guī)則發(fā)現(xiàn)方法及算法[J].計(jì)算機(jī)學(xué)報(bào),2000(2).