一種基于社區(qū)專家信息的協(xié)同過濾推薦算法

2018-05-28 03:44:01張凱涵梁吉業(yè)趙興旺王智強

計算機研究與發(fā)展 2018年5期

關(guān)鍵詞：用戶信息

張凱涵梁吉業(yè) 趙興旺王智強

(山西大學(xué)計算機與信息技術(shù)學(xué)院太原 030006) (計算智能與中文信息處理教育部重點實驗室(山西大學(xué)) 太原 030006) (752750403@qq.com)

近年來，為了提高推薦系統(tǒng)的準(zhǔn)確性與多樣性，研究者針對不同問題提出了一系列推薦算法.其中，協(xié)同過濾推薦算法由于不受特定領(lǐng)域知識限制、簡單易實現(xiàn)等優(yōu)點，成為了應(yīng)用最為廣泛的算法之一[1].然而，在實際應(yīng)用過程中，協(xié)同過濾推薦算法面臨著冷啟動問題，對于沒有或僅有少量評分信息的新用戶，在傳統(tǒng)協(xié)同過濾推薦算法中無法利用評分信息查找與其興趣相似的用戶.同理，對于新物品也面臨著相應(yīng)問題.冷啟動是協(xié)同過濾推薦算法中被廣泛關(guān)注的一個經(jīng)典問題，冷啟動問題的存在嚴(yán)重影響了推薦系統(tǒng)的推薦質(zhì)量[2-4].例如在電子商務(wù)系統(tǒng)中，存在著大量的新用戶及新物品，如果推薦系統(tǒng)不能為新用戶提供高質(zhì)量的推薦，將會逐漸失去新用戶的信任，從而丟失大量客源；而對于新物品，如果不能及時地將其推薦出去，將會降低這些商品的銷售量，使得商家損失經(jīng)濟利益，不利于電子商務(wù)系統(tǒng)的長遠(yuǎn)健康發(fā)展.

傳統(tǒng)的協(xié)同過濾推薦算法假設(shè)用戶之間是相互獨立的.然而現(xiàn)實生活中，用戶對一個物品的喜好不僅由其自身決定，還受到身邊朋友的影響[5-7].隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，目前已有很多網(wǎng)站建立了用戶之間的社交關(guān)系網(wǎng)絡(luò).已有研究表明，合理利用用戶的社交關(guān)系，可以有效緩解冷啟動問題，進(jìn)而產(chǎn)生更多有意義的推薦[8-10].

社會化推薦算法在解決冷啟動問題時不僅利用了用戶-物品評分信息，還結(jié)合了用戶間的社交關(guān)系信息.對于一個新用戶，只要社會網(wǎng)絡(luò)中存在與此用戶有直接或間接社交關(guān)系的用戶，就可以根據(jù)這種社交關(guān)系和已知用戶的評分信息，對新用戶產(chǎn)生推薦.Massa等人[9]基于信任的傳播性提出一種新的信任度指標(biāo)MoleTrust，利用目標(biāo)用戶的信任用戶對其產(chǎn)生推薦緩解冷啟動問題，但是該方法受信任傳播距離影響較大，不夠穩(wěn)定;Guo等人[10]在傳統(tǒng)的協(xié)同過濾推薦算法中結(jié)合社交網(wǎng)絡(luò)中用戶信任關(guān)系，利用信任用戶對各物品的評分補充并代表目標(biāo)用戶對各物品的喜好，緩解數(shù)據(jù)的稀疏性和冷啟動問題;Liu等人[11]利用社交信息改進(jìn)傳統(tǒng)協(xié)同過濾推薦算法尋找最近鄰的過程，從而緩解無法找到鄰居的問題;Jamali等人[12]提出的TrustWalker方法把基于信任的方法與基于物品的推薦方法相結(jié)合，有效地緩解了冷啟動問題.

在上述融合用戶社交信息緩解冷啟動問題的研究中，僅僅考慮了用戶的行為受其信任用戶行為的影響.然而，在現(xiàn)實生活中，用戶的行為決策往往受到多種因素的影響，只考慮信任用戶而忽略其他因素會導(dǎo)致對用戶行為的預(yù)測不夠準(zhǔn)確.尤其對于新用戶而言，往往更傾向于參考領(lǐng)域內(nèi)專家用戶的意見，因為專家的意見更客觀，在其特定領(lǐng)域內(nèi)更具有代表性.

針對上述問題，本文提出了一種基于社區(qū)專家信息的協(xié)同過濾推薦算法，旨在更好地解決協(xié)同過濾推薦算法所面臨的用戶冷啟動問題.通過社區(qū)劃分算法挖掘用戶間存在的社區(qū)結(jié)構(gòu)，進(jìn)而在不同社區(qū)內(nèi)尋找代表性強的用戶作為專家，并利用新用戶與專家在社交網(wǎng)絡(luò)中的相似性代替?zhèn)鹘y(tǒng)協(xié)同過濾推薦算法中基于評分信息計算的相似度.為了尋找專家，本文提出從用戶的評分信息及社交信息2方面共同量化用戶所具有的代表性，避免了僅利用評分信息帶來的局限性.另外，考慮到評分信息的高度稀疏性，充分利用信任信息對專家評分進(jìn)行填充，彌補數(shù)據(jù)稀疏對算法性能的影響.最后，在數(shù)據(jù)集FilmTrust和Epinions上進(jìn)行了實驗比較分析，結(jié)果表明本文所提出的算法可以有效緩解用戶冷啟動問題，并在平均絕對誤差和均方根誤差2個評價指標(biāo)上優(yōu)于已有算法.

1 相關(guān)研究

1.1 協(xié)同過濾推薦算法

協(xié)同過濾推薦算法由Goldberg等人[13]在1992年提出，由于計算過程僅依賴于用戶的歷史行為，而無需用戶或物品的特征信息，簡單高效的計算方法使其得到廣泛應(yīng)用.在協(xié)同過濾推薦算法中，用戶的歷史行為通常表示為用戶-物品評分矩陣Rm×n.U={u1,u2,…,um}表示用戶集合，I={i1,i2,…,in}表示物品集合，Ru i表示用戶u對物品i的評分.

Breese等人[14]將協(xié)同過濾推薦算法分成基于模型(model-based)和基于內(nèi)存(memory-based)2類.基于模型的協(xié)同過濾推薦算法首先根據(jù)訓(xùn)練集數(shù)據(jù)采用概率統(tǒng)計模型或者機器學(xué)習(xí)方法建立模型(比如潛在語義模型、貝葉斯模型、決策樹模型、圖模型等)進(jìn)而通過模型預(yù)測目標(biāo)用戶對目標(biāo)物品的評分值[15].基于內(nèi)存的協(xié)同過濾推薦算法根據(jù)推薦目標(biāo)不同又分為基于用戶(user-based)和基于物品(item-based)兩種.本文算法是在基于用戶的協(xié)同過濾推薦算法框架下提出的，因此，以基于用戶的協(xié)同過濾推薦算法為例對推薦流程進(jìn)行介紹.

在基于用戶的協(xié)同過濾推薦算法中，需要首先利用評分信息計算目標(biāo)用戶與其他用戶之間的相似性.用戶間相似性的度量方法尤為重要，常見的相似性度量方法包括皮爾遜相關(guān)性和余弦相似性，本文采用皮爾遜相關(guān)性度量方式[1]：

(1)

(2)

算法1. 基于用戶的協(xié)同過濾推薦算法.

輸入: 用戶-物品評分矩陣Rm×n、鄰居個數(shù)k、目標(biāo)用戶u、目標(biāo)物品i；

步驟1. 利用式(1)計算目標(biāo)用戶u與其他用戶的相似性；

步驟2. 對相似性計算結(jié)果按從大到小排序，選取前k位用戶作為目標(biāo)用戶u的鄰居，構(gòu)成相似鄰居集合NUu；

1.2 社會化推薦算法

自1997年社會化推薦系統(tǒng)被提出以來，社會化推薦系統(tǒng)吸引了大量學(xué)者的關(guān)注，尤其近年來微博、微信、Facebook等社交媒體的迅速發(fā)展，更促進(jìn)了學(xué)者們對社會化推薦算法的研究.文獻(xiàn)[16]概括了社會化推薦算法的狹義定義和廣義定義，其中狹義的社會化推薦是指任何將社交關(guān)系(例如信任關(guān)系、朋友關(guān)系等)作為附加輸入的推薦算法，而廣義的社會化推薦是指以社會媒體(例如物品、標(biāo)簽、社區(qū)等)為推薦目標(biāo)的推薦算法，利用的數(shù)據(jù)源也不僅是社交信息，還包括各種可利用的社會化標(biāo)簽、用戶間的交互信息以及用戶的點擊行為等.目前，已有相關(guān)研究利用用戶間的社交信息提高推薦系統(tǒng)的性能，例如MoleTrust[9]，TrustSVD[17],SoRec[18]等算法.

在社會化推薦算法中，除了利用傳統(tǒng)協(xié)同過濾推薦算法中的用戶-物品評分矩陣Rm×n，還需利用用戶之間的社交信息.本文所利用的社交信息為用戶間的信任關(guān)系，通常使用矩陣Tm×m表示.Tu v=1表示用戶u對用戶v具有信任關(guān)系，Tu v=0表示沒有關(guān)系.注意，信任關(guān)系為非對稱關(guān)系，即用戶u對v有信任連邊，但v對u可能并沒有信任連邊.社交信息為推薦系統(tǒng)提供了一個新的信息源，為傳統(tǒng)協(xié)同過濾推薦算法因評分信息匱乏所產(chǎn)生的冷啟動問題提供了新的解決策略.

2 基于社區(qū)專家信息的協(xié)同過濾推薦算法

通過上述分析，本文在基于用戶的協(xié)同過濾推薦算法框架下，將社交信息與專家信息融入推薦過程中，利用填充的專家用戶評分對新用戶的評分進(jìn)行預(yù)測，從而緩解冷啟動問題.下面將重點關(guān)注3個問題：1)如何利用社交信息與評分信息選擇專家；2)如何對專家評分進(jìn)行填充；3)如何利用專家信息對目標(biāo)用戶進(jìn)行評分預(yù)測.表1列出了本文使用的主要符號.圖1為本文算法示意圖.

Table 1 The Main Symbols Used in the Paper表1 本文用到的主要符號

Fig. 1 The diagram of the proposed algorithm圖1 本文算法示意圖

2.1 用戶社區(qū)劃分

通過用戶社區(qū)的劃分得到多個社區(qū)集合，各個用戶社區(qū)所包含的用戶數(shù)量不一定相等，社區(qū)的劃分潛在地反映了部分用戶群體對某類物品的偏好.對于用戶量較大的社區(qū)，可理解為多數(shù)用戶對某類熱門物品的偏好，而用戶量較少的社區(qū)，反映了小眾用戶對某類物品的特殊偏好.

2.2 社區(qū)中專家的確定

為了度量每個社區(qū)中各個用戶所具有的代表性，以此判斷該用戶是否能夠成為專家.本文分別從用戶的社交關(guān)系和用戶對物品的評分信息出發(fā)，定義了可信度、權(quán)威性以及評分多樣性3個指標(biāo)，對用戶成為專家的可能性進(jìn)行評價.

定義1. 用戶可信度.可信度反映用戶被其他用戶所信任的程度，通過在信任網(wǎng)絡(luò)中入度的大小來衡量.用戶u的可信度表示為

(3)

定義2. 用戶權(quán)威性.權(quán)威性反映用戶的活躍程度，通過用戶評分?jǐn)?shù)量的多少來刻畫.評分?jǐn)?shù)量越多，說明用戶在系統(tǒng)中越活躍，相對于評分?jǐn)?shù)量少的用戶其在評分預(yù)測時更具有參考價值，因此權(quán)威性更高.用戶u的權(quán)威性表示為

(4)

其中,N(u)≥1表示用戶u對物品的評分?jǐn)?shù)量.

定義3. 用戶評分多樣性.評分多樣性反映用戶對不同物品所具有評分值的差異性.用戶對不同物品應(yīng)具有不同的評分值，如果用戶對所有物品的評分值都一樣，則不能體現(xiàn)對各物品的喜好程度.因此通過評分方差來度量用戶u的評分多樣性，表示為

(5)

其中，vu表示用戶u對物品評分值的方差.

因此，社區(qū)內(nèi)每個用戶成為專家的可能性為

(6)

根據(jù)此值從大到小的順序?qū)ι鐓^(qū)內(nèi)每個用戶所具有的代表性進(jìn)行排序選擇各社區(qū)中的專家，每個社區(qū)中專家所占比例定義為γ，則對于第g個社區(qū)來說，專家比例表示為

(7)

2.3 專家評分的填充

2.2節(jié)通過對用戶代表性的量化找到可以代表各社區(qū)的專家用戶，考慮到用戶-物品評分信息的高度稀疏性，因此本節(jié)提出利用專家用戶的信任用戶的評分信息對專家評分進(jìn)行填充，緩解專家評分的稀疏問題.專家e的信任用戶集表示為

TNe={v|Tev>θ,v∈U}.

(8)

由于本文所利用的社交關(guān)系為用戶信任關(guān)系，只用數(shù)值0和1表示，因此本文將設(shè)置θ=0，即專家e顯性聲明具有信任關(guān)系的用戶視為e的信任用戶.

對專家e的評分信息進(jìn)行填充時，欲填充的候選物品集應(yīng)是e的信任用戶產(chǎn)生過評分，而e沒有評分的物品，因此填充時的候選物品集表示為

(9)

為了控制算法的復(fù)雜度及精度，本文在對專家e的評分進(jìn)行填充時，候選物品集只考慮至少被e的5個信任用戶所評分過的物品，即β=5(參數(shù)β的選取在3.3.2節(jié)說明).

最后，對候選物品集中的物品使用下式填充專家e的評分值：

(10)

因此，專家e對物品i的評分值為

(11)

2.4 預(yù)測評分

在新用戶u所屬的社區(qū)C(u)中利用專家信息預(yù)測u對目標(biāo)物品i的評分.

首先，利用Salton指標(biāo)[20]在社交網(wǎng)絡(luò)中計算目標(biāo)用戶與專家之間的相似性：

(12)

其中，Γ(u)和Γ(e)分別表示信任網(wǎng)絡(luò)中用戶u和專家e所信任的用戶集合，ku和ke分別表示用戶u和專家e的出度.

最后，結(jié)合社區(qū)C(u)內(nèi)專家與用戶u的相似度以及對物品i的評分值進(jìn)行加權(quán)求和，得到最終的預(yù)測結(jié)果：

(13)

其中，EC(u)表示用戶u所屬社區(qū)C(u)的專家集合.

2.5 基于社區(qū)專家信息的協(xié)同過濾推薦算法

基于以上對算法各個主要階段的介紹，本文提出的算法描述如下：

算法2. 基于社區(qū)專家信息的協(xié)同過濾推薦算法.

輸入：用戶-物品評分矩陣Rm×n、用戶社交關(guān)系矩陣Tm×m、專家數(shù)量占比γ、目標(biāo)用戶u、目標(biāo)物品i、參數(shù)β；

步驟1. 對社交關(guān)系T利用SLM算法將用戶劃分為不同社區(qū).

步驟2. 利用式(3)～(6)計算各社區(qū)內(nèi)每個用戶的代表性，由大到小對用戶代表性排序，前γ|C(u)|位用戶選為社區(qū)專家.

步驟3. 結(jié)合專家的信任用戶，根據(jù)式(9)選擇待填充評分的候選物品集，利用式(10)填充專家對候選物品集中各物品的評分.

3 實驗及結(jié)果分析

為驗證本文所提算法的有效性，在真實數(shù)據(jù)集FilmTrust和Epinions上進(jìn)行了實驗，并與其他推薦算法進(jìn)行比較，最后通過實驗分析本文所提算法中參數(shù)的選取對實驗性能的影響.實驗環(huán)境為：4 GB內(nèi)存、Intel?CoreTM2 Quad處理器、2.66 GHz，Windows7操作系統(tǒng).

3.1 數(shù)據(jù)集

由于本文所提算法需要運用到用戶的社交信息，因此選擇常用數(shù)據(jù)集FilmTrust和Epinions.這2個數(shù)據(jù)集不僅具有用戶-物品的評分信息，還具有社交網(wǎng)絡(luò)中用戶之間的信任關(guān)系信息.

數(shù)據(jù)集FilmTrust包含了1 508位用戶對2 071部電影的35 497條評分信息，以及1 642位用戶間1 853條信任關(guān)系.信任關(guān)系表示了用戶對其他用戶是否產(chǎn)生信任，如果一個用戶信任另一用戶，在數(shù)據(jù)集中用1表示，否則用0表示.其中評分值在0.5～4之間.

數(shù)據(jù)集Epinions的評分信息表示了用戶對電影、圖書以及汽車等物品的評分，用數(shù)值1～5表示，該數(shù)據(jù)集中包含了40 163位用戶對139 738個物品的664 824條評分?jǐn)?shù)據(jù).此外，還包含了487 183條用戶之間的信任關(guān)系.表2統(tǒng)計了這2個數(shù)據(jù)集的相關(guān)信息.

Table 2 The Specifications of Two Data Sets表2 2個數(shù)據(jù)集統(tǒng)計信息

3.2 評價指標(biāo)

本文在衡量推薦性能時，為體現(xiàn)預(yù)測評分的準(zhǔn)確度，采用了推薦系統(tǒng)中廣泛使用的平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE)兩個評價指標(biāo).這2個評價指標(biāo)的值越小表示預(yù)測效果越好.

MAE可表示為

(14)

其中，|Rtest|表示測試集中的評分?jǐn)?shù)量.

RMSE可表示為

(15)

3.3 實驗設(shè)置

為了驗證本文所提算法對評分預(yù)測性能的提升以及對冷啟動問題的處理效果，在MAE，RMSE指標(biāo)上對以下算法進(jìn)行比較：

1) 基于用戶的協(xié)同過濾推薦算法(user-based collaborative filtering， UCF).基于預(yù)先定義的相似性度量方法以及用戶的鄰居數(shù)量，通過用戶鄰居的評分信息對目標(biāo)用戶進(jìn)行預(yù)測.

2) 基于物品的協(xié)同過濾推薦算法(item-based collaborative filtering， ICF).基于預(yù)先定義的相似性度量方法以及物品的鄰居數(shù)量，結(jié)合物品鄰居的評分信息預(yù)測目標(biāo)評分.

3) MoleTrustx[9].用戶之間的信任關(guān)系在信任網(wǎng)絡(luò)中以距離x進(jìn)行傳播，只有被目標(biāo)用戶所信任的用戶才會被考慮參與到評分預(yù)測.

4) 融合相似用戶與朋友的協(xié)同過濾推薦算法(combine neighbors and friends collaborative filtering, CNCF)[11].利用評分信息與社交信息，根據(jù)預(yù)先定義的相似性度量方法，由目標(biāo)用戶的信任用戶與評分相似度最大的用戶共同構(gòu)成近鄰用戶，預(yù)測評分時與傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法相同.

5) 未填充專家評分的基于社區(qū)專家信息的協(xié)同過濾推薦算法(a collaborative filtering recommenda-tion algorithm based on information of community experts without filling ratings, CECF).該算法與本文2.5節(jié)所提算法區(qū)別在于不考慮2.3節(jié)對專家評分的填充，僅利用原有專家評分對目標(biāo)用戶進(jìn)行預(yù)測.

6) 基于社區(qū)專家信息的協(xié)同過濾推薦算法(a collaborative filtering recommendation algorithm based on information of community experts, CEFCF).本文2.5節(jié)所提算法，其中專家評分依據(jù)2.3節(jié)所述進(jìn)行填充.

本文分別針對冷啟動用戶和全部用戶(包含非冷啟動用戶和冷啟動用戶)進(jìn)行實驗.在全部用戶的實驗中采用五折交叉驗證方法，將數(shù)據(jù)集隨機分為5份，每次取其中1份作為測試集，剩余4份作為訓(xùn)練集，最終結(jié)果為5次實驗結(jié)果的平均值.文獻(xiàn)中通常將數(shù)據(jù)集中評分?jǐn)?shù)量小于5的用戶視為冷啟動用戶[10].為了模擬對冷啟動用戶的評分預(yù)測實驗，從數(shù)據(jù)集FilmTrust和Epinions中分別選取部分用戶，并將他們的部分評分信息隱藏，使每個用戶的評分?jǐn)?shù)量低于5，將其作為冷啟動用戶進(jìn)行分析.

本實驗相似度計算方法均采用皮爾遜相似度.UCF算法、ICF算法與CNCF算法中鄰居數(shù)量均設(shè)置為30.MoleTrust算法中信任的傳播距離分別采用1,2,3，表示為MT-1,MT-2,MT-3.CECF和CEFCF算法中專家占比采用0.2，實驗結(jié)果如表3～6所示.

Table 3 The Predictive Performance for All Users on the FilmTrust Data Set表3 數(shù)據(jù)集FilmTrust上對全部用戶的預(yù)測性能

Table 4 The Predictive Performance for Cold Users on the FilmTrust Data Set表4 數(shù)據(jù)集FilmTrust上對冷啟動用戶的預(yù)測性能

Table 5 The Predictive Performance for All Users on the Epinions Data Set表5 數(shù)據(jù)集Epinions上對全部用戶的預(yù)測性能

Table 6 The Predictive Performance for Cold Users on the Epinions Data Set表6 數(shù)據(jù)集Epinions上對冷啟動用戶的預(yù)測性能

Fig. 2 The effect of γ on the system performance圖2 專家比例γ對算法性能的影響

從實驗結(jié)果看出：在評分信息相對稠密的小規(guī)模數(shù)據(jù)集FilmTrust上，傳統(tǒng)的UCF算法表現(xiàn)仍較為可觀，然而該數(shù)據(jù)集物品量相對較少，因此傳統(tǒng)ICF算法表現(xiàn)一般.在稀疏的大規(guī)模數(shù)據(jù)集Epinions上，基于社會網(wǎng)絡(luò)的推薦算法具有更好的推薦效果，說明信任信息的引入確實可以緩解協(xié)同過濾推薦算法所面臨的稀疏性問題.本文所提出的基于社區(qū)專家信息的CEFCF算法雖然在數(shù)據(jù)集Epinions的全部用戶預(yù)測中MAE指標(biāo)表現(xiàn)欠優(yōu)，但是在RMSE指標(biāo)上均勝過了其他算法，而本文也更關(guān)注對冷啟動用戶的預(yù)測問題.如實驗結(jié)果所示，引入專家信息的CECF算法和填充專家評分的CEFCF算法在2個數(shù)據(jù)集的冷啟動用戶上均具有良好的推薦性能，說明專家的引入確實能夠提升系統(tǒng)對新用戶的預(yù)測性能.而對專家評分進(jìn)行過填充的CEFCF算法較未填充的CECF算法更優(yōu)，說明本文對專家評分的填充確實進(jìn)一步彌補了稀疏性問題對系統(tǒng)的影響，對冷啟動用戶的預(yù)測也更加準(zhǔn)確.

3.3.1 專家比例γ的選取對算法性能的影響

圖2為數(shù)據(jù)集FilmTrust和Epinions上社區(qū)內(nèi)專家比例γ對CEFCF算法冷啟動用戶評分預(yù)測性能的影響.如圖2所示，專家比例對規(guī)模較大的數(shù)據(jù)集Epinions影響很小，隨著比例逐漸增大，MAE與RMSE僅有小幅下降，并且在γ=0.6處逐漸趨于穩(wěn)定.而對于小規(guī)模數(shù)據(jù)集FilmTrust，在γ=0.2處推薦性能已經(jīng)取得不錯效果，隨著γ的增長，當(dāng)γ=0.6時，推薦性能甚至有所下降.隨著專家數(shù)量的增加，起初可以利用更多的專家信息預(yù)測目標(biāo)評分，所以推薦性能有一定提升.但是當(dāng)專家數(shù)量達(dá)到一定比例時，由于過多地將低質(zhì)量用戶選為專家，因此不會再產(chǎn)生高質(zhì)量的預(yù)測效果，甚至在小規(guī)模數(shù)據(jù)集中使得推薦質(zhì)量下降.因此本文算法中專家比例選擇為0.2.

Fig. 3 The effect of β on the system performance圖3 參數(shù)β對算法性能的影響

3.3.2 參數(shù)β的選取對算法性能的影響

圖3為參數(shù)β對算法預(yù)測性能及時間損耗的影響.其中圖3(a)(b)分別表示在數(shù)據(jù)集FilmTrust和Epinions上算法預(yù)測性能隨β的變化，圖3(c)為2個數(shù)據(jù)集上β對算法時間損耗的影響.實驗中計算了專家評分填充以及利用填充的專家評分產(chǎn)生推薦所消耗的時間.在數(shù)據(jù)集FilmTrust上，如圖3(a)所示，隨著β的增長，算法預(yù)測性能小幅提升后在β=5處逐漸趨于平穩(wěn)，由于數(shù)據(jù)集FilmTrust很小，因此在圖3(c)中時間消耗趨近于0，并不明顯.在數(shù)據(jù)集Epinions上，圖3(b)顯示β對算法預(yù)測性能只產(chǎn)生微弱影響.但是據(jù)圖3(c)，在β下降過程中，算法的時間損耗成倍增長，并且β<3后，由于填充評分量的增多使得算法因機器內(nèi)存原因運行受限.因此為了在算法預(yù)測性能與時間損耗之間尋求折中，本文設(shè)置β=5.

4 總結(jié)

本文提出基于社區(qū)專家信息的協(xié)同過濾推薦算法，首先依據(jù)社交信息將用戶劃分為不同社區(qū)，在各社區(qū)內(nèi)綜合考慮用戶的評分信息和社交信息，進(jìn)而選取代表性強的用戶作為專家.通過對專家評分的填充更有效地緩解了評分稀疏性的影響.利用各社區(qū)的專家對新用戶產(chǎn)生推薦，有效緩解了傳統(tǒng)協(xié)同過濾推薦算法所面臨的用戶冷啟動問題.

本文所提算法只考慮了用戶的社交信息，在未來的研究中，將從多個角度綜合考慮用戶、物品的屬性等信息，尋找解決推薦系統(tǒng)中冷啟動問題更好的方法.

[1]Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(6): 734-749

[2]Pereira A L V, Hruschka E R. Simultaneous co-clustering and learning to address the cold start problem in recomm-ender systems[J]. Knowledge-Based Systems, 2015, 82: 11-19

[3]Wang Zhiqiang, Liang Jiye, Li Ru, et al. An approach to cold-start link prediction: Establishing connections between non-topological and topological information[J]. IEEE Trans on Knowledge and Data Engineering, 2016, 28(11): 2857-2870

[4]Li Xin, Liu Guiquan, Li Lin, et al. Circle-based and social connection embedded recommendation in LBSN[J]. Journal of Computer Research and Development, 2017, 54(2): 394-404 (in Chinese)

(李鑫, 劉貴全, 李琳, 等. LBSN上基于興趣圈中社會關(guān)系挖掘的推薦算法[J]. 計算機研究與發(fā)展, 2017, 54(2): 394-404)

[5]Meng Xiangwu, Liu Shudong, Zhang Yujie, et al. Research on social recommender systems[J]. Journal of Software, 2015, 26(6): 1356-1372 (in Chinese)

(孟祥武, 劉樹棟, 張玉潔, 等. 社會化推薦系統(tǒng)研究[J].軟件學(xué)報, 2015, 26(6): 1356-1372)

[6]Guo Lanjie, Liang Jiye, Zhao Xingwang. Collaborative filtering recommendation algorithm incorporating social network information[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(3): 281-288 (in Chinese)

(郭蘭杰, 梁吉業(yè), 趙興旺. 融合社交網(wǎng)絡(luò)信息的協(xié)同過濾推薦算法[J]. 模式識別與人工智能, 2016, 29(3): 281-288)

[7]Guo Hongyi, Liu Gongshen, Su Bo, et al. Collaborative filtering recommendation algorithm combining community structure and interest clusters[J]. Journal of Computer Research and Development, 2016, 53(8): 1664-1672 (in Chinese)

(郭弘毅, 劉功申, 蘇波, 等. 融合社區(qū)結(jié)構(gòu)和興趣聚類的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展, 2016, 53(8): 1664-1672)

[8]Yang Bo, Lei Yu, Liu Jiming, et al. Social collaborative filtering by trust[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1633-1647

[9]Massa P, Avesani P. Trust-aware recommender systems[C] //Proc of the 2007 ACM Conf on Recommender Systems. New York: ACM, 2007: 17-24

[10]Guo Guibing, Zhang Jie, Thalmann D. Merging trust in collaborative filtering to alleviate data sparsity and cold start[J]. Knowledge-Based Systems, 2014, 57: 57-68

[11]Liu Fengkun, Lee H J. Use of social network information to enhance collaborative filtering performance[J]. Expert Systems with Applications, 2010, 37(7): 4772-4778

[12]Jamali M, Ester M. TrustWalker: A random walk model for combining trust-based and item-based recommendation[C] //Proc of the 15th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2009: 397-406

[13]Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-70

[14]Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C] //Proc of the 14th Conf on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 1998: 43-52

[15]Park D H, Kim H K, Choi I Y, et al. A literature review and classification of recommender systems research[J]. Expert Systems with Applications, 2012, 39(11): 10059-10072

[16]Tang Jiliang, Hu Xia, Liu Huan. Social recommendation: A review[J]. Social Network Analysis and Mining, 2013, 3(4): 1113-1133

[17]Guo Guibing, Zhang Jie, Smith N Y. TrustSVD: Collaborative filtering with both the explicit and implicit influence of user trust and of item ratings[C] //Proc of the 29th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 123-129

[18]Ma Hao, Yang Haixuan, Lyu M R, et al. SoRec: Social recommendation using probabilistic matrix factorization[C] //Proc of the 17th ACM Conf on Information and Knowledge Management. New York: ACM, 2008: 931-940

[19]Waltman L, Eck N J V. A smart local moving algorithm for large-scale modularity-based community detection[J]. The European Physical Journal B, 2013, 86(11): 1-14

[20]Gerard S, Michael J M. Introduction to Modern Information Retrieval[M]. Auckland: MuGraw-Hill, 1983