張凱涵 梁吉業(yè) 趙興旺 王智強
(山西大學(xué)計算機與信息技術(shù)學(xué)院 太原 030006) (計算智能與中文信息處理教育部重點實驗室(山西大學(xué)) 太原 030006) (752750403@qq.com)
近年來,為了提高推薦系統(tǒng)的準(zhǔn)確性與多樣性,研究者針對不同問題提出了一系列推薦算法.其中,協(xié)同過濾推薦算法由于不受特定領(lǐng)域知識限制、簡單易實現(xiàn)等優(yōu)點,成為了應(yīng)用最為廣泛的算法之一[1].然而,在實際應(yīng)用過程中,協(xié)同過濾推薦算法面臨著冷啟動問題,對于沒有或僅有少量評分信息的新用戶,在傳統(tǒng)協(xié)同過濾推薦算法中無法利用評分信息查找與其興趣相似的用戶.同理,對于新物品也面臨著相應(yīng)問題.冷啟動是協(xié)同過濾推薦算法中被廣泛關(guān)注的一個經(jīng)典問題,冷啟動問題的存在嚴(yán)重影響了推薦系統(tǒng)的推薦質(zhì)量[2-4].例如在電子商務(wù)系統(tǒng)中,存在著大量的新用戶及新物品,如果推薦系統(tǒng)不能為新用戶提供高質(zhì)量的推薦,將會逐漸失去新用戶的信任,從而丟失大量客源;而對于新物品,如果不能及時地將其推薦出去,將會降低這些商品的銷售量,使得商家損失經(jīng)濟利益,不利于電子商務(wù)系統(tǒng)的長遠(yuǎn)健康發(fā)展.
傳統(tǒng)的協(xié)同過濾推薦算法假設(shè)用戶之間是相互獨立的.然而現(xiàn)實生活中,用戶對一個物品的喜好不僅由其自身決定,還受到身邊朋友的影響[5-7].隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,目前已有很多網(wǎng)站建立了用戶之間的社交關(guān)系網(wǎng)絡(luò).已有研究表明,合理利用用戶的社交關(guān)系,可以有效緩解冷啟動問題,進(jìn)而產(chǎn)生更多有意義的推薦[8-10].
社會化推薦算法在解決冷啟動問題時不僅利用了用戶-物品評分信息,還結(jié)合了用戶間的社交關(guān)系信息.對于一個新用戶,只要社會網(wǎng)絡(luò)中存在與此用戶有直接或間接社交關(guān)系的用戶,就可以根據(jù)這種社交關(guān)系和已知用戶的評分信息,對新用戶產(chǎn)生推薦.Massa等人[9]基于信任的傳播性提出一種新的信任度指標(biāo)MoleTrust,利用目標(biāo)用戶的信任用戶對其產(chǎn)生推薦緩解冷啟動問題,但是該方法受信任傳播距離影響較大,不夠穩(wěn)定;Guo等人[10]在傳統(tǒng)的協(xié)同過濾推薦算法中結(jié)合社交網(wǎng)絡(luò)中用戶信任關(guān)系,利用信任用戶對各物品的評分補充并代表目標(biāo)用戶對各物品的喜好,緩解數(shù)據(jù)的稀疏性和冷啟動問題;Liu等人[11]利用社交信息改進(jìn)傳統(tǒng)協(xié)同過濾推薦算法尋找最近鄰的過程,從而緩解無法找到鄰居的問題;Jamali等人[12]提出的TrustWalker方法把基于信任的方法與基于物品的推薦方法相結(jié)合,有效地緩解了冷啟動問題.
在上述融合用戶社交信息緩解冷啟動問題的研究中,僅僅考慮了用戶的行為受其信任用戶行為的影響.然而,在現(xiàn)實生活中,用戶的行為決策往往受到多種因素的影響,只考慮信任用戶而忽略其他因素會導(dǎo)致對用戶行為的預(yù)測不夠準(zhǔn)確.尤其對于新用戶而言,往往更傾向于參考領(lǐng)域內(nèi)專家用戶的意見,因為專家的意見更客觀,在其特定領(lǐng)域內(nèi)更具有代表性.
針對上述問題,本文提出了一種基于社區(qū)專家信息的協(xié)同過濾推薦算法,旨在更好地解決協(xié)同過濾推薦算法所面臨的用戶冷啟動問題.通過社區(qū)劃分算法挖掘用戶間存在的社區(qū)結(jié)構(gòu),進(jìn)而在不同社區(qū)內(nèi)尋找代表性強的用戶作為專家,并利用新用戶與專家在社交網(wǎng)絡(luò)中的相似性代替?zhèn)鹘y(tǒng)協(xié)同過濾推薦算法中基于評分信息計算的相似度.為了尋找專家,本文提出從用戶的評分信息及社交信息2方面共同量化用戶所具有的代表性,避免了僅利用評分信息帶來的局限性.另外,考慮到評分信息的高度稀疏性,充分利用信任信息對專家評分進(jìn)行填充,彌補數(shù)據(jù)稀疏對算法性能的影響.最后,在數(shù)據(jù)集FilmTrust和Epinions上進(jìn)行了實驗比較分析,結(jié)果表明本文所提出的算法可以有效緩解用戶冷啟動問題,并在平均絕對誤差和均方根誤差2個評價指標(biāo)上優(yōu)于已有算法.
協(xié)同過濾推薦算法由Goldberg等人[13]在1992年提出,由于計算過程僅依賴于用戶的歷史行為,而無需用戶或物品的特征信息,簡單高效的計算方法使其得到廣泛應(yīng)用.在協(xié)同過濾推薦算法中,用戶的歷史行為通常表示為用戶-物品評分矩陣Rm×n.U={u1,u2,…,um}表示用戶集合,I={i1,i2,…,in}表示物品集合,Ru i表示用戶u對物品i的評分.
Breese等人[14]將協(xié)同過濾推薦算法分成基于模型(model-based)和基于內(nèi)存(memory-based)2類.基于模型的協(xié)同過濾推薦算法首先根據(jù)訓(xùn)練集數(shù)據(jù)采用概率統(tǒng)計模型或者機器學(xué)習(xí)方法建立模型(比如潛在語義模型、貝葉斯模型、決策樹模型、圖模型等)進(jìn)而通過模型預(yù)測目標(biāo)用戶對目標(biāo)物品的評分值[15].基于內(nèi)存的協(xié)同過濾推薦算法根據(jù)推薦目標(biāo)不同又分為基于用戶(user-based)和基于物品(item-based)兩種.本文算法是在基于用戶的協(xié)同過濾推薦算法框架下提出的,因此,以基于用戶的協(xié)同過濾推薦算法為例對推薦流程進(jìn)行介紹.
在基于用戶的協(xié)同過濾推薦算法中,需要首先利用評分信息計算目標(biāo)用戶與其他用戶之間的相似性.用戶間相似性的度量方法尤為重要,常見的相似性度量方法包括皮爾遜相關(guān)性和余弦相似性,本文采用皮爾遜相關(guān)性度量方式[1]:
(1)

(2)

算法1. 基于用戶的協(xié)同過濾推薦算法.
輸入: 用戶-物品評分矩陣Rm×n、鄰居個數(shù)k、目標(biāo)用戶u、目標(biāo)物品i;
步驟1. 利用式(1)計算目標(biāo)用戶u與其他用戶的相似性;
步驟2. 對相似性計算結(jié)果按從大到小排序,選取前k位用戶作為目標(biāo)用戶u的鄰居,構(gòu)成相似鄰居集合NUu;

自1997年社會化推薦系統(tǒng)被提出以來,社會化推薦系統(tǒng)吸引了大量學(xué)者的關(guān)注,尤其近年來微博、微信、Facebook等社交媒體的迅速發(fā)展,更促進(jìn)了學(xué)者們對社會化推薦算法的研究.文獻(xiàn)[16]概括了社會化推薦算法的狹義定義和廣義定義,其中狹義的社會化推薦是指任何將社交關(guān)系(例如信任關(guān)系、朋友關(guān)系等)作為附加輸入的推薦算法,而廣義的社會化推薦是指以社會媒體(例如物品、標(biāo)簽、社區(qū)等)為推薦目標(biāo)的推薦算法,利用的數(shù)據(jù)源也不僅是社交信息,還包括各種可利用的社會化標(biāo)簽、用戶間的交互信息以及用戶的點擊行為等.目前,已有相關(guān)研究利用用戶間的社交信息提高推薦系統(tǒng)的性能,例如MoleTrust[9],TrustSVD[17],SoRec[18]等算法.
在社會化推薦算法中,除了利用傳統(tǒng)協(xié)同過濾推薦算法中的用戶-物品評分矩陣Rm×n,還需利用用戶之間的社交信息.本文所利用的社交信息為用戶間的信任關(guān)系,通常使用矩陣Tm×m表示.Tu v=1表示用戶u對用戶v具有信任關(guān)系,Tu v=0表示沒有關(guān)系.注意,信任關(guān)系為非對稱關(guān)系,即用戶u對v有信任連邊,但v對u可能并沒有信任連邊.社交信息為推薦系統(tǒng)提供了一個新的信息源,為傳統(tǒng)協(xié)同過濾推薦算法因評分信息匱乏所產(chǎn)生的冷啟動問題提供了新的解決策略.
通過上述分析,本文在基于用戶的協(xié)同過濾推薦算法框架下,將社交信息與專家信息融入推薦過程中,利用填充的專家用戶評分對新用戶的評分進(jìn)行預(yù)測,從而緩解冷啟動問題.下面將重點關(guān)注3個問題:1)如何利用社交信息與評分信息選擇專家;2)如何對專家評分進(jìn)行填充;3)如何利用專家信息對目標(biāo)用戶進(jìn)行評分預(yù)測.表1列出了本文使用的主要符號.圖1為本文算法示意圖.

Table 1 The Main Symbols Used in the Paper表1 本文用到的主要符號

Fig. 1 The diagram of the proposed algorithm圖1 本文算法示意圖

通過用戶社區(qū)的劃分得到多個社區(qū)集合,各個用戶社區(qū)所包含的用戶數(shù)量不一定相等,社區(qū)的劃分潛在地反映了部分用戶群體對某類物品的偏好.對于用戶量較大的社區(qū),可理解為多數(shù)用戶對某類熱門物品的偏好,而用戶量較少的社區(qū),反映了小眾用戶對某類物品的特殊偏好.

為了度量每個社區(qū)中各個用戶所具有的代表性,以此判斷該用戶是否能夠成為專家.本文分別從用戶的社交關(guān)系和用戶對物品的評分信息出發(fā),定義了可信度、權(quán)威性以及評分多樣性3個指標(biāo),對用戶成為專家的可能性進(jìn)行評價.
定義1. 用戶可信度.可信度反映用戶被其他用戶所信任的程度,通過在信任網(wǎng)絡(luò)中入度的大小來衡量.用戶u的可信度表示為

(3)

定義2. 用戶權(quán)威性.權(quán)威性反映用戶的活躍程度,通過用戶評分?jǐn)?shù)量的多少來刻畫.評分?jǐn)?shù)量越多,說明用戶在系統(tǒng)中越活躍,相對于評分?jǐn)?shù)量少的用戶其在評分預(yù)測時更具有參考價值,因此權(quán)威性更高.用戶u的權(quán)威性表示為

(4)
其中,N(u)≥1表示用戶u對物品的評分?jǐn)?shù)量.
定義3. 用戶評分多樣性.評分多樣性反映用戶對不同物品所具有評分值的差異性.用戶對不同物品應(yīng)具有不同的評分值,如果用戶對所有物品的評分值都一樣,則不能體現(xiàn)對各物品的喜好程度.因此通過評分方差來度量用戶u的評分多樣性,表示為

(5)
其中,vu表示用戶u對物品評分值的方差.
因此,社區(qū)內(nèi)每個用戶成為專家的可能性為

(6)
根據(jù)此值從大到小的順序?qū)ι鐓^(qū)內(nèi)每個用戶所具有的代表性進(jìn)行排序選擇各社區(qū)中的專家,每個社區(qū)中專家所占比例定義為γ,則對于第g個社區(qū)來說,專家比例表示為

(7)
2.2節(jié)通過對用戶代表性的量化找到可以代表各社區(qū)的專家用戶,考慮到用戶-物品評分信息的高度稀疏性,因此本節(jié)提出利用專家用戶的信任用戶的評分信息對專家評分進(jìn)行填充,緩解專家評分的稀疏問題.專家e的信任用戶集表示為
TNe={v|Tev>θ,v∈U}.
(8)
由于本文所利用的社交關(guān)系為用戶信任關(guān)系,只用數(shù)值0和1表示,因此本文將設(shè)置θ=0,即專家e顯性聲明具有信任關(guān)系的用戶視為e的信任用戶.
對專家e的評分信息進(jìn)行填充時,欲填充的候選物品集應(yīng)是e的信任用戶產(chǎn)生過評分,而e沒有評分的物品,因此填充時的候選物品集表示為

(9)

為了控制算法的復(fù)雜度及精度,本文在對專家e的評分進(jìn)行填充時,候選物品集只考慮至少被e的5個信任用戶所評分過的物品,即β=5(參數(shù)β的選取在3.3.2節(jié)說明).
最后,對候選物品集中的物品使用下式填充專家e的評分值:
(10)

因此,專家e對物品i的評分值為

(11)
在新用戶u所屬的社區(qū)C(u)中利用專家信息預(yù)測u對目標(biāo)物品i的評分.
首先,利用Salton指標(biāo)[20]在社交網(wǎng)絡(luò)中計算目標(biāo)用戶與專家之間的相似性:

(12)
其中,Γ(u)和Γ(e)分別表示信任網(wǎng)絡(luò)中用戶u和專家e所信任的用戶集合,ku和ke分別表示用戶u和專家e的出度.
最后,結(jié)合社區(qū)C(u)內(nèi)專家與用戶u的相似度以及對物品i的評分值進(jìn)行加權(quán)求和,得到最終的預(yù)測結(jié)果:
(13)
其中,EC(u)表示用戶u所屬社區(qū)C(u)的專家集合.
基于以上對算法各個主要階段的介紹,本文提出的算法描述如下:
算法2. 基于社區(qū)專家信息的協(xié)同過濾推薦算法.
輸入:用戶-物品評分矩陣Rm×n、用戶社交關(guān)系矩陣Tm×m、專家數(shù)量占比γ、目標(biāo)用戶u、目標(biāo)物品i、參數(shù)β;
步驟1. 對社交關(guān)系T利用SLM算法將用戶劃分為不同社區(qū).
步驟2. 利用式(3)~(6)計算各社區(qū)內(nèi)每個用戶的代表性,由大到小對用戶代表性排序,前γ|C(u)|位用戶選為社區(qū)專家.
步驟3. 結(jié)合專家的信任用戶,根據(jù)式(9)選擇待填充評分的候選物品集,利用式(10)填充專家對候選物品集中各物品的評分.

為驗證本文所提算法的有效性,在真實數(shù)據(jù)集FilmTrust和Epinions上進(jìn)行了實驗,并與其他推薦算法進(jìn)行比較,最后通過實驗分析本文所提算法中參數(shù)的選取對實驗性能的影響.實驗環(huán)境為:4 GB內(nèi)存、Intel?CoreTM2 Quad處理器、2.66 GHz,Windows7操作系統(tǒng).
由于本文所提算法需要運用到用戶的社交信息,因此選擇常用數(shù)據(jù)集FilmTrust和Epinions.這2個數(shù)據(jù)集不僅具有用戶-物品的評分信息,還具有社交網(wǎng)絡(luò)中用戶之間的信任關(guān)系信息.
數(shù)據(jù)集FilmTrust包含了1 508位用戶對2 071部電影的35 497條評分信息,以及1 642位用戶間1 853條信任關(guān)系.信任關(guān)系表示了用戶對其他用戶是否產(chǎn)生信任,如果一個用戶信任另一用戶,在數(shù)據(jù)集中用1表示,否則用0表示.其中評分值在0.5~4之間.
數(shù)據(jù)集Epinions的評分信息表示了用戶對電影、圖書以及汽車等物品的評分,用數(shù)值1~5表示,該數(shù)據(jù)集中包含了40 163位用戶對139 738個物品的664 824條評分?jǐn)?shù)據(jù).此外,還包含了487 183條用戶之間的信任關(guān)系.表2統(tǒng)計了這2個數(shù)據(jù)集的相關(guān)信息.

Table 2 The Specifications of Two Data Sets表2 2個數(shù)據(jù)集統(tǒng)計信息
本文在衡量推薦性能時,為體現(xiàn)預(yù)測評分的準(zhǔn)確度,采用了推薦系統(tǒng)中廣泛使用的平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE)兩個評價指標(biāo).這2個評價指標(biāo)的值越小表示預(yù)測效果越好.
MAE可表示為
(14)
其中,|Rtest|表示測試集中的評分?jǐn)?shù)量.
RMSE可表示為
(15)
為了驗證本文所提算法對評分預(yù)測性能的提升以及對冷啟動問題的處理效果,在MAE,RMSE指標(biāo)上對以下算法進(jìn)行比較:
1) 基于用戶的協(xié)同過濾推薦算法(user-based collaborative filtering, UCF).基于預(yù)先定義的相似性度量方法以及用戶的鄰居數(shù)量,通過用戶鄰居的評分信息對目標(biāo)用戶進(jìn)行預(yù)測.
2) 基于物品的協(xié)同過濾推薦算法(item-based collaborative filtering, ICF).基于預(yù)先定義的相似性度量方法以及物品的鄰居數(shù)量,結(jié)合物品鄰居的評分信息預(yù)測目標(biāo)評分.
3) MoleTrustx[9].用戶之間的信任關(guān)系在信任網(wǎng)絡(luò)中以距離x進(jìn)行傳播,只有被目標(biāo)用戶所信任的用戶才會被考慮參與到評分預(yù)測.
4) 融合相似用戶與朋友的協(xié)同過濾推薦算法(combine neighbors and friends collaborative filtering, CNCF)[11].利用評分信息與社交信息,根據(jù)預(yù)先定義的相似性度量方法,由目標(biāo)用戶的信任用戶與評分相似度最大的用戶共同構(gòu)成近鄰用戶,預(yù)測評分時與傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法相同.
5) 未填充專家評分的基于社區(qū)專家信息的協(xié)同過濾推薦算法(a collaborative filtering recommenda-tion algorithm based on information of community experts without filling ratings, CECF).該算法與本文2.5節(jié)所提算法區(qū)別在于不考慮2.3節(jié)對專家評分的填充,僅利用原有專家評分對目標(biāo)用戶進(jìn)行預(yù)測.
6) 基于社區(qū)專家信息的協(xié)同過濾推薦算法(a collaborative filtering recommendation algorithm based on information of community experts, CEFCF).本文2.5節(jié)所提算法,其中專家評分依據(jù)2.3節(jié)所述進(jìn)行填充.
本文分別針對冷啟動用戶和全部用戶(包含非冷啟動用戶和冷啟動用戶)進(jìn)行實驗.在全部用戶的實驗中采用五折交叉驗證方法,將數(shù)據(jù)集隨機分為5份,每次取其中1份作為測試集,剩余4份作為訓(xùn)練集,最終結(jié)果為5次實驗結(jié)果的平均值.文獻(xiàn)中通常將數(shù)據(jù)集中評分?jǐn)?shù)量小于5的用戶視為冷啟動用戶[10].為了模擬對冷啟動用戶的評分預(yù)測實驗,從數(shù)據(jù)集FilmTrust和Epinions中分別選取部分用戶,并將他們的部分評分信息隱藏,使每個用戶的評分?jǐn)?shù)量低于5,將其作為冷啟動用戶進(jìn)行分析.
本實驗相似度計算方法均采用皮爾遜相似度.UCF算法、ICF算法與CNCF算法中鄰居數(shù)量均設(shè)置為30.MoleTrust算法中信任的傳播距離分別采用1,2,3,表示為MT-1,MT-2,MT-3.CECF和CEFCF算法中專家占比采用0.2,實驗結(jié)果如表3~6所示.

Table 3 The Predictive Performance for All Users on the FilmTrust Data Set表3 數(shù)據(jù)集FilmTrust上對全部用戶的預(yù)測性能

Table 4 The Predictive Performance for Cold Users on the FilmTrust Data Set表4 數(shù)據(jù)集FilmTrust上對冷啟動用戶的預(yù)測性能

Table 5 The Predictive Performance for All Users on the Epinions Data Set表5 數(shù)據(jù)集Epinions上對全部用戶的預(yù)測性能

Table 6 The Predictive Performance for Cold Users on the Epinions Data Set表6 數(shù)據(jù)集Epinions上對冷啟動用戶的預(yù)測性能

Fig. 2 The effect of γ on the system performance圖2 專家比例γ對算法性能的影響
從實驗結(jié)果看出:在評分信息相對稠密的小規(guī)模數(shù)據(jù)集FilmTrust上,傳統(tǒng)的UCF算法表現(xiàn)仍較為可觀,然而該數(shù)據(jù)集物品量相對較少,因此傳統(tǒng)ICF算法表現(xiàn)一般.在稀疏的大規(guī)模數(shù)據(jù)集Epinions上,基于社會網(wǎng)絡(luò)的推薦算法具有更好的推薦效果,說明信任信息的引入確實可以緩解協(xié)同過濾推薦算法所面臨的稀疏性問題.本文所提出的基于社區(qū)專家信息的CEFCF算法雖然在數(shù)據(jù)集Epinions的全部用戶預(yù)測中MAE指標(biāo)表現(xiàn)欠優(yōu),但是在RMSE指標(biāo)上均勝過了其他算法,而本文也更關(guān)注對冷啟動用戶的預(yù)測問題.如實驗結(jié)果所示,引入專家信息的CECF算法和填充專家評分的CEFCF算法在2個數(shù)據(jù)集的冷啟動用戶上均具有良好的推薦性能,說明專家的引入確實能夠提升系統(tǒng)對新用戶的預(yù)測性能.而對專家評分進(jìn)行過填充的CEFCF算法較未填充的CECF算法更優(yōu),說明本文對專家評分的填充確實進(jìn)一步彌補了稀疏性問題對系統(tǒng)的影響,對冷啟動用戶的預(yù)測也更加準(zhǔn)確.
3.3.1 專家比例γ的選取對算法性能的影響
圖2為數(shù)據(jù)集FilmTrust和Epinions上社區(qū)內(nèi)專家比例γ對CEFCF算法冷啟動用戶評分預(yù)測性能的影響.如圖2所示,專家比例對規(guī)模較大的數(shù)據(jù)集Epinions影響很小,隨著比例逐漸增大,MAE與RMSE僅有小幅下降,并且在γ=0.6處逐漸趨于穩(wěn)定.而對于小規(guī)模數(shù)據(jù)集FilmTrust,在γ=0.2處推薦性能已經(jīng)取得不錯效果,隨著γ的增長,當(dāng)γ=0.6時,推薦性能甚至有所下降.隨著專家數(shù)量的增加,起初可以利用更多的專家信息預(yù)測目標(biāo)評分,所以推薦性能有一定提升.但是當(dāng)專家數(shù)量達(dá)到一定比例時,由于過多地將低質(zhì)量用戶選為專家,因此不會再產(chǎn)生高質(zhì)量的預(yù)測效果,甚至在小規(guī)模數(shù)據(jù)集中使得推薦質(zhì)量下降.因此本文算法中專家比例選擇為0.2.

Fig. 3 The effect of β on the system performance圖3 參數(shù)β對算法性能的影響
3.3.2 參數(shù)β的選取對算法性能的影響
圖3為參數(shù)β對算法預(yù)測性能及時間損耗的影響.其中圖3(a)(b)分別表示在數(shù)據(jù)集FilmTrust和Epinions上算法預(yù)測性能隨β的變化,圖3(c)為2個數(shù)據(jù)集上β對算法時間損耗的影響.實驗中計算了專家評分填充以及利用填充的專家評分產(chǎn)生推薦所消耗的時間.在數(shù)據(jù)集FilmTrust上,如圖3(a)所示,隨著β的增長,算法預(yù)測性能小幅提升后在β=5處逐漸趨于平穩(wěn),由于數(shù)據(jù)集FilmTrust很小,因此在圖3(c)中時間消耗趨近于0,并不明顯.在數(shù)據(jù)集Epinions上,圖3(b)顯示β對算法預(yù)測性能只產(chǎn)生微弱影響.但是據(jù)圖3(c),在β下降過程中,算法的時間損耗成倍增長,并且β<3后,由于填充評分量的增多使得算法因機器內(nèi)存原因運行受限.因此為了在算法預(yù)測性能與時間損耗之間尋求折中,本文設(shè)置β=5.
本文提出基于社區(qū)專家信息的協(xié)同過濾推薦算法,首先依據(jù)社交信息將用戶劃分為不同社區(qū),在各社區(qū)內(nèi)綜合考慮用戶的評分信息和社交信息,進(jìn)而選取代表性強的用戶作為專家.通過對專家評分的填充更有效地緩解了評分稀疏性的影響.利用各社區(qū)的專家對新用戶產(chǎn)生推薦,有效緩解了傳統(tǒng)協(xié)同過濾推薦算法所面臨的用戶冷啟動問題.
本文所提算法只考慮了用戶的社交信息,在未來的研究中,將從多個角度綜合考慮用戶、物品的屬性等信息,尋找解決推薦系統(tǒng)中冷啟動問題更好的方法.
[1]Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(6): 734-749
[2]Pereira A L V, Hruschka E R. Simultaneous co-clustering and learning to address the cold start problem in recomm-ender systems[J]. Knowledge-Based Systems, 2015, 82: 11-19
[3]Wang Zhiqiang, Liang Jiye, Li Ru, et al. An approach to cold-start link prediction: Establishing connections between non-topological and topological information[J]. IEEE Trans on Knowledge and Data Engineering, 2016, 28(11): 2857-2870
[4]Li Xin, Liu Guiquan, Li Lin, et al. Circle-based and social connection embedded recommendation in LBSN[J]. Journal of Computer Research and Development, 2017, 54(2): 394-404 (in Chinese)
(李鑫, 劉貴全, 李琳, 等. LBSN上基于興趣圈中社會關(guān)系挖掘的推薦算法[J]. 計算機研究與發(fā)展, 2017, 54(2): 394-404)
[5]Meng Xiangwu, Liu Shudong, Zhang Yujie, et al. Research on social recommender systems[J]. Journal of Software, 2015, 26(6): 1356-1372 (in Chinese)
(孟祥武, 劉樹棟, 張玉潔, 等. 社會化推薦系統(tǒng)研究[J].軟件學(xué)報, 2015, 26(6): 1356-1372)
[6]Guo Lanjie, Liang Jiye, Zhao Xingwang. Collaborative filtering recommendation algorithm incorporating social network information[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(3): 281-288 (in Chinese)
(郭蘭杰, 梁吉業(yè), 趙興旺. 融合社交網(wǎng)絡(luò)信息的協(xié)同過濾推薦算法[J]. 模式識別與人工智能, 2016, 29(3): 281-288)
[7]Guo Hongyi, Liu Gongshen, Su Bo, et al. Collaborative filtering recommendation algorithm combining community structure and interest clusters[J]. Journal of Computer Research and Development, 2016, 53(8): 1664-1672 (in Chinese)
(郭弘毅, 劉功申, 蘇波, 等. 融合社區(qū)結(jié)構(gòu)和興趣聚類的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展, 2016, 53(8): 1664-1672)
[8]Yang Bo, Lei Yu, Liu Jiming, et al. Social collaborative filtering by trust[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1633-1647
[9]Massa P, Avesani P. Trust-aware recommender systems[C] //Proc of the 2007 ACM Conf on Recommender Systems. New York: ACM, 2007: 17-24
[10]Guo Guibing, Zhang Jie, Thalmann D. Merging trust in collaborative filtering to alleviate data sparsity and cold start[J]. Knowledge-Based Systems, 2014, 57: 57-68
[11]Liu Fengkun, Lee H J. Use of social network information to enhance collaborative filtering performance[J]. Expert Systems with Applications, 2010, 37(7): 4772-4778
[12]Jamali M, Ester M. TrustWalker: A random walk model for combining trust-based and item-based recommendation[C] //Proc of the 15th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2009: 397-406
[13]Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-70
[14]Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C] //Proc of the 14th Conf on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 1998: 43-52
[15]Park D H, Kim H K, Choi I Y, et al. A literature review and classification of recommender systems research[J]. Expert Systems with Applications, 2012, 39(11): 10059-10072
[16]Tang Jiliang, Hu Xia, Liu Huan. Social recommendation: A review[J]. Social Network Analysis and Mining, 2013, 3(4): 1113-1133
[17]Guo Guibing, Zhang Jie, Smith N Y. TrustSVD: Collaborative filtering with both the explicit and implicit influence of user trust and of item ratings[C] //Proc of the 29th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 123-129
[18]Ma Hao, Yang Haixuan, Lyu M R, et al. SoRec: Social recommendation using probabilistic matrix factorization[C] //Proc of the 17th ACM Conf on Information and Knowledge Management. New York: ACM, 2008: 931-940
[19]Waltman L, Eck N J V. A smart local moving algorithm for large-scale modularity-based community detection[J]. The European Physical Journal B, 2013, 86(11): 1-14
[20]Gerard S, Michael J M. Introduction to Modern Information Retrieval[M]. Auckland: MuGraw-Hill, 1983