余永紅 高 陽(yáng) 王 皓
(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 南京 210023) (江蘇省軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210023)
?
基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法
余永紅高陽(yáng)王皓
(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué))南京210023) (江蘇省軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心南京210023)
(yuyh.nju@gmail.com)
隨著基于位置社交網(wǎng)絡(luò)(location-based social network, LBSN)的發(fā)展,興趣點(diǎn)推薦成為滿足用戶個(gè)性化需求、減輕信息過(guò)載問題的重要手段.然而,已有的興趣點(diǎn)推薦算法存在如下的問題:1)多數(shù)已有的興趣點(diǎn)推薦算法簡(jiǎn)化用戶簽到頻率數(shù)據(jù),僅使用二進(jìn)制值來(lái)表示用戶是否訪問一個(gè)興趣點(diǎn);2)基于矩陣分解的興趣點(diǎn)推薦算法把簽到頻率數(shù)據(jù)和傳統(tǒng)推薦系統(tǒng)中的評(píng)分?jǐn)?shù)據(jù)等同看待,使用高斯分布模型建模用戶的簽到行為;3)忽視用戶簽到數(shù)據(jù)的隱式反饋屬性.為解決以上問題,提出一個(gè)基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法.首先,根據(jù)LBSN中用戶的簽到行為特點(diǎn),利用泊松分布模型替代高斯分布模型建模用戶在興趣點(diǎn)上簽到行為;然后采用BPR(Bayesian personalized ranking)標(biāo)準(zhǔn)優(yōu)化泊松矩陣分解的損失函數(shù),擬合用戶在興趣點(diǎn)對(duì)上的偏序關(guān)系;最后,利用包含地域影響力的正則化因子約束泊松矩陣分解的過(guò)程.在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法的性能優(yōu)于傳統(tǒng)的興趣點(diǎn)推薦算法.
基于位置社交網(wǎng)絡(luò);興趣點(diǎn)推薦;泊松矩陣分解;BPR標(biāo)準(zhǔn);地域影響力
近年來(lái),基于位置社交網(wǎng)絡(luò)(location-based social network, LBSN)應(yīng)用迅速增長(zhǎng),受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注.典型的基于位置的社交網(wǎng)絡(luò)應(yīng)用包括Foursquare*https://foursquare.com//, Gowalla*http://gowalla.com//, GeoLife*http://research.microsoft.com//en-us//projects//geolife//, Facebook Place*https://www.facebook.com//places//等.在這些基于位置的社交網(wǎng)絡(luò)服務(wù)應(yīng)用中,用戶可以與其他用戶建立社交聯(lián)系,探索周邊的環(huán)境,以簽到興趣點(diǎn)(如餐館、購(gòu)物中心和景點(diǎn)等)的方式分享生活經(jīng)歷.LBSN除了為用戶提供交互平臺(tái),其中包含的豐富數(shù)據(jù)(簽到數(shù)據(jù)、社交關(guān)系、評(píng)論信息等)可以用來(lái)挖掘用戶的興趣偏好,并為用戶推薦用戶可能感興趣的、未訪問過(guò)的地理位置.為用戶推薦用戶可能感興趣的地理位置的任務(wù)稱為興趣點(diǎn)(point-of-interest, POI)推薦.興趣點(diǎn)推薦一方面滿足了用戶的個(gè)性化需求,減輕用戶面臨的信息過(guò)載問題,另一方面,興趣點(diǎn)推薦幫助LBSN服務(wù)提供商實(shí)現(xiàn)智能化的位置服務(wù),如位置感知的廣告服務(wù)等,從而增加LBSN服務(wù)提供商的營(yíng)業(yè)收入.因此,興趣點(diǎn)推薦在基于位置的社交網(wǎng)絡(luò)中扮演越來(lái)越重要的角色.
雖然推薦系統(tǒng)[1]已經(jīng)被學(xué)術(shù)界深入研究,并在電子商務(wù)系統(tǒng)中得到廣泛應(yīng)用,如Amazon*http://www.amazon.com//中的商品推薦,Netflix*https://www.netflix.com//中的電影推薦,Last.fm*http://www.last.fm//中的音樂推薦和淘寶*https://www.taobao.com//中的商品推薦等,但是,LBSN中興趣點(diǎn)推薦系統(tǒng)近年才逐漸流行.不同于傳統(tǒng)的推薦系統(tǒng),興趣點(diǎn)推薦系統(tǒng)具有如下獨(dú)特屬性:
1) 隱式反饋頻率數(shù)據(jù).在傳統(tǒng)的推薦系統(tǒng)中,用戶一般使用顯式評(píng)分表達(dá)用戶的偏好.用戶的評(píng)分通常在一定的范圍內(nèi),如[1,5].用戶評(píng)分越高表示用戶越滿意.不同于傳統(tǒng)的推薦系統(tǒng),在LBSN中,用戶的偏好是由用戶的隱式簽到數(shù)據(jù)表示.相對(duì)于評(píng)分?jǐn)?shù)據(jù),簽到頻率的范圍較大.例如,用戶可能在一些興趣點(diǎn)上簽到幾百次,而在某些興趣點(diǎn)上僅簽到幾次.另外,興趣點(diǎn)推薦系統(tǒng)中僅包含正例,而傳統(tǒng)的推薦系統(tǒng)中可能同時(shí)包含正例和負(fù)例.因此,興趣點(diǎn)推薦可以看作OCCF(one-class collaborative filtering)問題[2-3].
2) 地域影響.在LBSN中,用戶與興趣點(diǎn)之間存在物理的交互,這是興趣點(diǎn)推薦系統(tǒng)有別于傳統(tǒng)推薦系統(tǒng)的一個(gè)顯著特點(diǎn).由于用戶簽到活動(dòng)涉及到用戶與興趣點(diǎn)之間的物理交互,從訪問成本的角度而言,用戶往往訪問距離近的興趣點(diǎn).另外,Tobler的第一地理學(xué)法則[4]表明:相對(duì)于距離遠(yuǎn)的興趣點(diǎn),距離近的興趣點(diǎn)之間更加相似.
3) 社交影響力.基于朋友之間往往具有共同偏好的假設(shè),文獻(xiàn)[5-8]利用用戶之間的社交網(wǎng)絡(luò)關(guān)系來(lái)改進(jìn)傳統(tǒng)推薦算法的性能.然而,對(duì)于興趣點(diǎn)推薦而言,前面的研究工作[9]表明大約96%的用戶僅共享少于10%的訪問偏好,意味著大量的朋友在興趣點(diǎn)方面沒有共同偏好.因此,社交影響力在興趣點(diǎn)推薦系統(tǒng)中對(duì)用戶的簽到行為影響有限.
基于上述興趣點(diǎn)推薦系統(tǒng)的獨(dú)特屬性,現(xiàn)有的興趣點(diǎn)推薦算法利用上述屬性來(lái)擴(kuò)展傳統(tǒng)的推薦算法,以支持LBSN中的興趣點(diǎn)推薦任務(wù).例如,Ye等人[10]提出了一種變異的User-based協(xié)同過(guò)濾[11]興趣點(diǎn)推薦算法,此興趣點(diǎn)推薦算法在User-based 協(xié)同過(guò)濾框架中集成了用戶偏好、地域影響力和社交影響力.Cheng等人[12]在矩陣分解模型中融合地域影響和社交影響,從而為用戶提供興趣點(diǎn)推薦.Zhang等人[13]利用用戶與興趣點(diǎn)之間的地域影響、社交影響和類別相關(guān)性,提出了GeoSoca興趣點(diǎn)推薦算法.不同于文獻(xiàn)[10,12-13]從用戶的角度建模地域影響,Liu等人[14]從興趣點(diǎn)的角度利用地域影響力,并提出了IRenMF興趣點(diǎn)推薦算法.最近,Lian等人[15]利用權(quán)重矩陣分解模型進(jìn)行興趣點(diǎn)推薦,并在權(quán)重矩陣分解模型中集成了地域影響力.
雖然近年來(lái)研究人員提出了一些興趣點(diǎn)推薦算法,但是已有的興趣點(diǎn)推薦算法存在如下的問題:
1) 多數(shù)已有的興趣點(diǎn)推薦算法簡(jiǎn)化用戶簽到頻率數(shù)據(jù),即不管用戶在一個(gè)興趣點(diǎn)上簽到多少次,使用二進(jìn)制值來(lái)表示用戶是否訪問一個(gè)興趣點(diǎn).換句話說(shuō),用戶-興趣點(diǎn)簽到頻率矩陣簡(jiǎn)化為01矩陣.直觀地,用戶的簽到頻率反映了用戶對(duì)興趣點(diǎn)的偏好程度.在一個(gè)興趣點(diǎn)上的簽到次數(shù)越多,用戶可能更加偏好此興趣點(diǎn).因此,簡(jiǎn)化用戶的簽到頻率數(shù)據(jù)不能準(zhǔn)確地捕獲用戶對(duì)興趣點(diǎn)的偏好.
2) 基于矩陣分解的興趣點(diǎn)推薦算法把簽到頻率數(shù)據(jù)和傳統(tǒng)推薦系統(tǒng)中的評(píng)分?jǐn)?shù)據(jù)等同看待,使用高斯分布模型建模用戶的簽到行為.實(shí)際上,高斯分布適合建模用戶的評(píng)分行為,但是不適合建模用戶的簽到行為.我們隨機(jī)從MovieLens100K和Foursquare數(shù)據(jù)集中抽取一個(gè)用戶,他們各自評(píng)分和簽到頻率分布如圖1所示.由圖1可以觀察: ①高斯分布可以很好地?cái)M合MovieLens100K中的用戶評(píng)分?jǐn)?shù)據(jù),但是在擬合Foursquare簽到頻率數(shù)據(jù)方面,效果并不理想.②相對(duì)于高斯分布,泊松分布擬合簽到頻率數(shù)據(jù)好于高斯分布.
3) 傳統(tǒng)的推薦系統(tǒng)中一般利用樣本正例和負(fù)例來(lái)學(xué)習(xí)推薦模型,而興趣點(diǎn)推薦系統(tǒng)中用戶反饋信息是隱式的,即僅觀測(cè)到樣本正例,負(fù)例和缺失項(xiàng)混合在一起.因此,利用傳統(tǒng)的推薦模型很難為用戶提供準(zhǔn)確的興趣點(diǎn)推薦.

Fig. 1 The rating and check-in frequency distribution in MovieLens100K and Foursquare.圖1 MovieLens100K和Foursquare中隨機(jī)選擇用戶的評(píng)分與簽到頻率分布
為了解決以上的問題,本文提出了基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法.首先,為了更加準(zhǔn)確地捕獲用戶對(duì)興趣點(diǎn)的偏好,使用泊松分布來(lái)建模用戶的簽到行為;其次,為解決興趣點(diǎn)推薦中的隱式反饋問題,利用BPR(Bayesian personalized ranking, BPR)[16]標(biāo)準(zhǔn)來(lái)優(yōu)化泊松矩陣分解的損失函數(shù);最后,為了進(jìn)一步改進(jìn)推薦算法的性能,利用包含地域影響力的正則化因子約束泊松矩陣分解的過(guò)程.在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法的性能優(yōu)于傳統(tǒng)的興趣點(diǎn)推薦算法.
本節(jié)主要介紹2類典型的興趣點(diǎn)推薦算法,包括基于內(nèi)存的興趣點(diǎn)推薦算法和基于模型的興趣點(diǎn)推薦算法.
將興趣點(diǎn)看作傳統(tǒng)推薦系統(tǒng)中的項(xiàng)目(電影、音樂和商品等),傳統(tǒng)推薦系統(tǒng)中基于內(nèi)存和基于模型的推薦算法可以用在LBSN中為用戶提供興趣點(diǎn)推薦服務(wù).基于內(nèi)存的協(xié)同過(guò)濾算法使用整個(gè)用戶-項(xiàng)目評(píng)分矩陣進(jìn)行推薦,它的基本假設(shè)為:與當(dāng)前活動(dòng)用戶(active user)愛好相似的用戶喜歡的項(xiàng)目,當(dāng)前活動(dòng)用戶可能也喜歡;或者,與用戶以前喜歡過(guò)的項(xiàng)目相似的項(xiàng)目,用戶也可能喜歡.協(xié)同過(guò)濾的方法首先通過(guò)某種相似度度量指標(biāo)找到當(dāng)前活動(dòng)用戶或者目標(biāo)項(xiàng)目的相似用戶或者相似項(xiàng)目,然后取相似用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分平均權(quán)重或當(dāng)前活動(dòng)用戶對(duì)相似項(xiàng)目的評(píng)分平均權(quán)重作為當(dāng)前活動(dòng)用戶對(duì)目標(biāo)項(xiàng)目的預(yù)測(cè)評(píng)分.User-based協(xié)同過(guò)濾[11]和Item-based協(xié)同過(guò)濾[17]是經(jīng)典的基于內(nèi)存的推薦算法,Ye 等人[10]利用用戶在興趣點(diǎn)的簽到記錄計(jì)算用戶之間的相似度,提出了基于User-based的興趣點(diǎn)推薦算法.另外,他們?cè)赨ser-based協(xié)同過(guò)濾框架中融合了社交和地域影響力.Ye等人[10]的實(shí)驗(yàn)結(jié)果表明User-based的興趣點(diǎn)推薦算法優(yōu)于Item-based的興趣點(diǎn)推薦算法.Levandoski等人[18]將旅行距離作為懲罰因子,提出了基于Item-based的興趣點(diǎn)推薦算法.Yuan等人[19]考慮用戶訪問興趣點(diǎn)的時(shí)間因素,在User-based框架上提出了Time-aware興趣點(diǎn)推薦算法.
自Netflix競(jìng)賽以來(lái),由于在處理大規(guī)模用戶數(shù)據(jù)方面良好的可擴(kuò)展性和準(zhǔn)確的預(yù)測(cè)能力,基于矩陣分解的推薦算法[20]受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.基于矩陣分解的推薦算法認(rèn)為僅少量的隱藏因子影響用戶的偏好和刻畫項(xiàng)目的特征.因此,基于矩陣分解的推薦算法將用戶和項(xiàng)目的特征向量同時(shí)映射到低維的隱藏因子空間.在低維的隱藏因子空間中,由于用戶偏好和項(xiàng)目特征之間的相關(guān)性可以直接計(jì)算,矩陣分解的推薦算法利用用戶和項(xiàng)目的低維特征向量的內(nèi)積來(lái)預(yù)測(cè)用戶對(duì)項(xiàng)目的評(píng)分.在興趣點(diǎn)推薦方面,矩陣分解模型也得到廣泛的應(yīng)用.例如,Cheng等人[12]提出了基于概率矩陣分解(pro-babilistic matrix factorization, PMF)[21]和社交正則化因子的興趣點(diǎn)推薦算法,其次,作者在矩陣分解和社交影響力的基礎(chǔ)上,進(jìn)一步集成地域影響力,以改善興趣點(diǎn)推薦算法性能.不同于文獻(xiàn)[9-10,12]從用戶的角度建模地域影響,Liu等人[14]從興趣點(diǎn)的角度利用地域影響力,假定距離近的興趣點(diǎn)或者屬于相同區(qū)域的興趣點(diǎn)共享類似的用戶偏好,并提出了IRenMF興趣點(diǎn)推薦算法.Liu等人[22]提出了地理概率因子分析框架GTBNMF.GTBNMF在貝葉斯非負(fù)矩陣分解基礎(chǔ)上集成了地域信息和評(píng)論文本信息.Gao等人[23]在經(jīng)典矩陣分解模型基礎(chǔ)上,融合評(píng)論信息、社交網(wǎng)絡(luò)信息和地理信息提供興趣點(diǎn)推薦服務(wù).最近,Lian等人[15]提出了GeoMF興趣點(diǎn)推薦模型,將用戶簽到信息看作隱式反饋,在權(quán)重矩陣分解模型的基礎(chǔ)上集成了地域影響力.此方法通過(guò)對(duì)已觀測(cè)項(xiàng)賦值較高權(quán)重,缺失項(xiàng)賦值低權(quán)重的方法擬合用戶的簽到數(shù)據(jù).
上述基于矩陣分解模型的興趣點(diǎn)推薦算法簡(jiǎn)化用戶在興趣點(diǎn)上的簽到頻率數(shù)據(jù),或者將用戶簽到頻率數(shù)據(jù)與傳統(tǒng)推薦系統(tǒng)的評(píng)分信息完全等同看待,使用高斯分布建模用戶的簽到行為.根據(jù)引言部分的介紹可知,簡(jiǎn)化或者使用高斯分布模型不能準(zhǔn)確的捕獲用戶對(duì)興趣點(diǎn)的偏好.不同于上述介紹的基于矩陣的興趣點(diǎn)推薦算法,本文提出的基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法使用泊松分布來(lái)建模用戶的簽到行為,并利用BPR標(biāo)準(zhǔn)來(lái)優(yōu)化泊松矩陣分解的損失函數(shù),更加準(zhǔn)確建模用戶隱式反饋信息.
2.1興趣點(diǎn)推薦問題的形式化描述
在典型的LBSN中,興趣點(diǎn)推薦系統(tǒng)通常包含2種實(shí)體集合:M個(gè)用戶集合U={u1,u2,…,uM}和N個(gè)地點(diǎn)集合L={l1,l2,…,lN}.用戶u訪問過(guò)的興趣點(diǎn)集合表示為L(zhǎng)u.每個(gè)興趣點(diǎn)除唯一標(biāo)識(shí)外,由〈經(jīng)度,緯度〉進(jìn)行地理編碼.用戶的簽到記錄組成用戶-興趣點(diǎn)簽到頻率矩陣F∈M×N, 簽到頻率矩陣F中每個(gè)元素fi j表示用戶i在興趣點(diǎn)j上的簽到頻率.用戶簽到的頻次反映了用戶對(duì)興趣點(diǎn)的偏好程度.通常情況下,用戶僅僅訪問一小部分的興趣點(diǎn),因此,用戶-興趣點(diǎn)簽到頻率矩陣F極度稀疏.如本文實(shí)驗(yàn)部分使用的Foursquare 數(shù)據(jù)集99.18%的數(shù)據(jù)缺失.興趣點(diǎn)推薦的目的是利用用戶的簽到數(shù)據(jù)和LBSN中的其他信息預(yù)測(cè)用戶對(duì)未簽到興趣點(diǎn)的訪問頻次i j,并根據(jù)預(yù)測(cè)頻次為用戶提供可能感興趣的興趣點(diǎn)列表.
2.2泊松矩陣分解
泊松因子模型(Poisson factor model, PFM)[24]是一種產(chǎn)生式的概率模型,其概率圖模型如圖2所示:

Fig. 2 The probabilistic graphical model for PFM.圖2 PFM的概率圖模型
PFM假設(shè)每個(gè)觀測(cè)元素fm n服從期望為ym n的泊松分布:fm n~Poisson(ym n).期望值矩陣Y∈M×N被分解為用戶隱藏特征矩陣U∈M×K和項(xiàng)目隱藏特征矩陣V∈N×K,其中K?min(M,N)是隱藏特征向量的維數(shù),并使用用戶隱藏特征矩陣U和項(xiàng)目隱藏特征矩陣V的內(nèi)積來(lái)近似期望值矩陣Y:Y~UVT.另外,PFM假設(shè)隱藏特征矩陣中的每個(gè)元素um k和vn k服從Gamma先驗(yàn)分布:

(1)

(2)
其中,Γ(·)為伽瑪函數(shù),參數(shù)αk和βk為Gamma分布的形狀參數(shù)和尺度參數(shù).因此,用戶隱藏特征矩陣U和項(xiàng)目隱藏特征矩陣V的先驗(yàn)分布為
(3)
(4)
其中α=(α1,α2,…,αK),β=(β1,β2,…,βK).
F中的每個(gè)觀測(cè)值fm n的產(chǎn)生過(guò)程如下:
1) 根據(jù)Gamma分布為用戶隱藏特征向量中的每個(gè)元素賦值,um k~Gamma(αk,βk),?k.
2) 根據(jù)Gamma分布為項(xiàng)目隱藏特征向量中的每個(gè)元素賦值,vn k~Gamma(αk,βk),?k.
3) 計(jì)算用戶m與項(xiàng)目n交互頻次的期望值ym n,
4) 根據(jù)泊松分布以及期望值ym n生成觀測(cè)值fm n,

因此,給定Y,F的Poisson概率分布為
(5)
給定用戶觀測(cè)值矩陣F和隱藏特征矩陣的先驗(yàn),用戶隱藏特征矩陣U和項(xiàng)目隱藏特征矩陣V的后驗(yàn)分布為
p(U,V|F,α,β)∝p(F|Y)p(U|α,β)p(V|α,β).
(6)
最大化對(duì)數(shù)后驗(yàn)概率得到如下的目標(biāo)函數(shù):

(7)
PFM通過(guò)隨機(jī)梯度下降算法(stochastic grad-ient descent, SGD)來(lái)學(xué)習(xí)用戶隱藏特征矩陣U和項(xiàng)目隱藏特征矩陣V.
本節(jié)詳細(xì)描述本文提出的基于Ranking的泊松矩陣分解的興趣點(diǎn)推薦算法.
泊松因子模型和傳統(tǒng)的矩陣分解推薦算法一般將缺失值看作樣本負(fù)例,直接擬合用戶-興趣點(diǎn)簽到頻率矩陣中的非缺失項(xiàng).這種方法不能有效地從非觀測(cè)項(xiàng)中區(qū)分出實(shí)際的樣本負(fù)例和缺失項(xiàng),而且忽略了來(lái)自興趣點(diǎn)簽到頻率成對(duì)比較之間的偏序關(guān)系.
本文采用BPR標(biāo)準(zhǔn),根據(jù)用戶在興趣點(diǎn)上的簽到頻率值,構(gòu)建用戶-興趣點(diǎn)偏好訓(xùn)練集,擬合用戶對(duì)興趣點(diǎn)的偏好關(guān)系,而不是擬合用戶對(duì)興趣點(diǎn)的簽到頻率,優(yōu)化BPR標(biāo)準(zhǔn)來(lái)學(xué)習(xí)用戶隱藏特征矩陣和興趣點(diǎn)隱藏特征矩陣.
具體地,我們假設(shè):用戶訪問興趣點(diǎn)的頻次越高,用戶偏好此興趣點(diǎn)的程度越高;用戶對(duì)訪問過(guò)興趣點(diǎn)的偏好程度高于未訪問興趣點(diǎn).設(shè)fm i和fm j分別表示用戶m在興趣點(diǎn)i和j上的簽到頻次,如果fm i>fm j,那么針對(duì)用戶m,興趣點(diǎn)i的偏好排名高于興趣點(diǎn)j,即li?mlj,其中?m表示用戶對(duì)于所有興趣點(diǎn)的偏序關(guān)系.如果用戶在2個(gè)興趣點(diǎn)上都沒有簽到信息,則無(wú)法推導(dǎo)它們之間的偏序關(guān)系.形式化地,用戶-興趣點(diǎn)偏好訓(xùn)練集為
DF{(m,i,j)|i,j∈L,m∈U}.
(8)
三元組(m,i,j)表示用戶m對(duì)興趣點(diǎn)i的偏好程度高于興趣點(diǎn)j.
給定用戶m,為了找到用戶m對(duì)所有興趣點(diǎn)的偏序關(guān)系?m,使用最大后驗(yàn)概率p(Θ|?m)的方法學(xué)習(xí)隱藏特征矩陣U和V.根據(jù)貝葉斯推理,有:
p(Θ|?m)∝p(?m|Θ)p(Θ),
(9)
其中,Θ表示模型參數(shù),即Θ=(U,V).
假定每個(gè)用戶對(duì)興趣點(diǎn)的訪問是獨(dú)立的,并且針對(duì)具體用戶,興趣點(diǎn)對(duì)(i,j)上偏序關(guān)系獨(dú)立于其他興趣點(diǎn)對(duì)偏序關(guān)系.所有用戶在全部興趣點(diǎn)上的偏序關(guān)系的似然函數(shù)為
(10)
其中I(x)為指示函數(shù),如果x為真,則I(x)取值為1,否則取值為0.由于用戶偏序關(guān)系的整體屬性和非對(duì)稱屬性,式(10)簡(jiǎn)化為

(11)


(12)其中,σ(x)為logistic函數(shù)σ(x)=1表示用戶m在興趣點(diǎn)i與興趣點(diǎn)j上的預(yù)測(cè)訪問頻次差.
另外,與泊松矩陣分解模型類似,假設(shè)隱藏特征矩陣U和V中的每個(gè)元素um k和vn k服從Gamma先驗(yàn)分布:

(13)
(14)

(15)
另外,Tobler的第一地理學(xué)法則[4]表明:任何事物都是相關(guān)的,但是,相對(duì)于距離遠(yuǎn)的事物,距離近的事物之間更加相關(guān).而且,不同于傳統(tǒng)的推薦系統(tǒng),LBSN中用戶簽到活動(dòng)涉及到用戶與興趣點(diǎn)之間的物理交互,為了節(jié)約訪問成本,用戶往往訪問距離近的興趣點(diǎn).為了進(jìn)一步改善興趣點(diǎn)推薦算法的性能,本文通過(guò)地域正則化因子來(lái)約束泊松矩陣分解過(guò)程,即在學(xué)習(xí)興趣點(diǎn)隱藏特征矩陣V的過(guò)程中,考慮地域影響力因素.地域正則化因子定義為
(16)
其中,λg為正則化控制參數(shù).Sim(n,g)表示興趣點(diǎn)n與興趣點(diǎn)g之間的相似度.N(ln)表示與興趣點(diǎn)n相似的興趣點(diǎn)集合.我們使用高斯函數(shù)來(lái)定義興趣點(diǎn)n與興趣點(diǎn)g之間的相似度Sim(n,g):

(17)其中,xn和xg表示興趣點(diǎn)n與興趣點(diǎn)g的地理坐標(biāo)向量.δ為常數(shù),本文實(shí)驗(yàn)中設(shè)置為0.1.在式(17)中,2個(gè)興趣點(diǎn)的距離越近,則相似度越大,反之越小.
在由式(16)定義的地域正則化因子中,興趣點(diǎn)n的隱藏特征向量vn依賴于相似興趣點(diǎn)的隱藏特征向量.因此,如果2個(gè)興趣點(diǎn)距離越近,相似度越大,它們共享較為相似的用戶簽到偏好,則2個(gè)興趣點(diǎn)隱藏特征向量的距離越小.對(duì)于一些具有較少簽到數(shù)據(jù)的興趣點(diǎn)而言,雖然無(wú)法準(zhǔn)確從與之相關(guān)的簽到數(shù)據(jù)中學(xué)習(xí)到它們的隱藏特征向量,但是與它們相似的興趣點(diǎn)可能具有足夠的簽到數(shù)據(jù).這些相似的興趣點(diǎn)的隱藏特征向量可以從簽到數(shù)據(jù)中推導(dǎo),因此從一定程度上保證了泊松矩陣分解中可以推導(dǎo)出具有較少簽到數(shù)據(jù)興趣點(diǎn)的隱藏特征向量.
在式(15)中加上地理正則化項(xiàng)后,本文提出的基于Ranking的泊松矩陣興趣點(diǎn)推薦算法的目標(biāo)公式為
(18)
由于用戶興趣點(diǎn)偏好關(guān)系數(shù)量(|F||L|)非常龐大,在所有偏序關(guān)系上更新隱藏特征向量運(yùn)算開銷巨大.類似于BPR[16], 我們采用隨機(jī)梯度下降的算法學(xué)習(xí)隱藏向量.對(duì)于隨機(jī)采樣偏序關(guān)系(m,i,j),目標(biāo)函數(shù)L*關(guān)于um k,vi k和vj k的梯度為
(19)
(20)
(21)
其中N(lw)為與興趣點(diǎn)w相似興趣點(diǎn)集合.
為了驗(yàn)證本文提出的基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法的性能,本文在真實(shí)的數(shù)據(jù)集與其他經(jīng)典的興趣點(diǎn)推薦算法進(jìn)行了對(duì)比分析.
4.1數(shù)據(jù)集介紹
本文選擇2個(gè)公開數(shù)據(jù)集*http://www.ntu.edu.sg//home//gaocong//datacode.htm:Foursquare和Gowalla,驗(yàn)證本文提出推薦算法的性能.在Four-square數(shù)據(jù)集中,所有的簽到數(shù)據(jù)是在Singapore收集的,時(shí)間范圍從2010-08—2011-07.在Gowalla數(shù)據(jù)集中,所有簽到數(shù)據(jù)是在California 和Nevada收集的,時(shí)間范圍從 2009-02—2010-10.在2個(gè)數(shù)據(jù)集中,少于5條簽到記錄的用戶和興趣點(diǎn)被清除.Foursquare數(shù)據(jù)集包含194 108條簽到記錄,用戶數(shù)量為2 321,興趣點(diǎn)數(shù)量為5596.Gowalla數(shù)據(jù)集包含456 967條簽到記錄,用戶數(shù)量為10 162,興趣點(diǎn)數(shù)量為24 237.根據(jù)用戶和興趣點(diǎn)的唯一標(biāo)識(shí),聚合用戶的簽到記錄,我們分別從Foursquare和Gowalla數(shù)據(jù)集中得到包含105764和307591條觀測(cè)記錄的用戶-興趣點(diǎn)簽到頻率矩陣.Foursquare和Gowalla數(shù)據(jù)集的稀疏度分別為99.18%和99.88%.因此,2個(gè)數(shù)據(jù)集都非常稀疏.在Foursquare中,用戶平均簽到45.57個(gè)興趣點(diǎn);在Gowalla中,用戶平均簽到30.27個(gè)興趣點(diǎn).不同簽到頻率下,用戶的數(shù)量分布如圖3所示.從圖3可以觀察到,2個(gè)數(shù)據(jù)集基本符合Power-Law分布.Foursquare和Gowalla數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.

Fig. 3 The distribution of the number of users.圖3 用戶數(shù)量的分布

Table 1 Statistics of Foursquare and Gowalla表1 數(shù)據(jù)集統(tǒng)計(jì)信息
4.2度量指標(biāo)
由于興趣點(diǎn)推薦系統(tǒng)為每個(gè)用戶提供基于Ranking的興趣點(diǎn)推薦列表,本文采用2個(gè)被廣泛使用的Rank指標(biāo)評(píng)估興趣點(diǎn)推薦算法性能,即precision@k和recall@k,其中k為推薦列表的長(zhǎng)度.給定用戶u,興趣點(diǎn)推薦準(zhǔn)確率precisionu@k和召回率recallu@k的定義為

(22)

(23)

4.3實(shí)驗(yàn)設(shè)置
為了驗(yàn)證本文提出興趣點(diǎn)推薦算法的有效性,我們選取如下的典型興趣點(diǎn)推薦算法作為對(duì)比方法:
1) UserKNN.UserKNN是User-based協(xié)同過(guò)濾推薦算法[11]在興趣點(diǎn)推薦上的應(yīng)用.在UserKNN中,基于用戶的簽到頻率數(shù)據(jù),采用Cosine相似度指標(biāo)計(jì)算用戶之間的相似度.
2) ItemKNN.ItemKNN是Item-based協(xié)同過(guò)濾推薦算法[17]在興趣點(diǎn)推薦上的應(yīng)用.在Item-KNN中,基于用戶的簽到頻率數(shù)據(jù),采用Cosine相似度指標(biāo)計(jì)算興趣點(diǎn)之間的相似度.
3) PMF.PMF由Mnih 和Salakhutdinov[21]提出.PMF通過(guò)帶高斯噪音的概率圖模型來(lái)表示隱藏特征向量.PMF是一種經(jīng)典的矩陣分解算法,可以看作是 SVD模型的概率擴(kuò)展.
4) WRMF.WRMF是一種權(quán)重矩陣分解推薦算法[2-3].WRMF通過(guò)給樣本正例和樣本負(fù)例賦值不同的權(quán)重,采用逐點(diǎn)的方式來(lái)應(yīng)對(duì)推薦系統(tǒng)中的OCCF問題.
5) BPR-MF.BPR-MF采用BPR[16]標(biāo)準(zhǔn)來(lái)Ranking項(xiàng)目.BPR-MF采用逐對(duì)的方式處理推薦系統(tǒng)中的OCCF問題.在本文實(shí)驗(yàn)中,采用均勻采樣的策略采樣用戶-興趣點(diǎn)對(duì)訓(xùn)練模型.
6) PFM.PFM由Ma等人[24]提出.PFM最初用在網(wǎng)站推薦領(lǐng)域,通過(guò)泊松分布擬合用戶訪問網(wǎng)站的頻率數(shù)據(jù).
7) GeoMF.GeoMF是由Lian等人[15]提出的一種興趣點(diǎn)推薦算法.GeoMF在WRMF基礎(chǔ)上,通過(guò)擴(kuò)展用戶和興趣點(diǎn)隱藏特征向量的方式,融合了空間聚類屬性來(lái)進(jìn)行興趣點(diǎn)推薦.
對(duì)于每個(gè)用戶,我們隨機(jī)從用戶-興趣點(diǎn)簽到頻率矩陣中抽取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余20%數(shù)據(jù)作為測(cè)試數(shù)據(jù).為了公平對(duì)比,我們參照對(duì)比算法的相應(yīng)文獻(xiàn)或者實(shí)驗(yàn)結(jié)果設(shè)置不同算法的參數(shù),在這些參數(shù)設(shè)置下,各對(duì)比算法取得最優(yōu)性能.在UserKNN和ItemKNN中,用戶或者興趣點(diǎn)相似鄰居數(shù)量為30;在PMF中,λU=λV=0.001;在WRMF中,λ=0.001,α=1;在BPR-MF中,λΘ=1;在PFM中,αk=20,βk=0.2,k=1,2,…,K;在GeoMF中,γ=0.01,α=10;對(duì)于本文提出的方法,αk=20,βk=0.2,k=1,2,…,K,F(xiàn)oursquare上λg=0.1,Gowalla上λg=0.3.我們?cè)O(shè)置PMF的學(xué)習(xí)比率η=0.03,其他基于矩陣分解興趣點(diǎn)推薦算法的學(xué)習(xí)比率η=0.001.
需要注意的是:經(jīng)典的興趣點(diǎn)推薦算法簡(jiǎn)化用戶的簽到數(shù)據(jù),即利用01來(lái)表示用戶是否訪問過(guò)興趣點(diǎn).因此,UserKNN和ItemKNN利用用戶-興趣點(diǎn)01矩陣來(lái)計(jì)算用戶或者興趣點(diǎn)之間的相似度;PMF,WRMF,GeoMF在用戶-興趣點(diǎn)01矩陣上學(xué)習(xí)用戶和興趣點(diǎn)的隱藏特征向量;BPR-MF在用戶-興趣點(diǎn)01矩陣上構(gòu)建用戶-興趣點(diǎn)偏好訓(xùn)練集;PFM和本文提出興趣點(diǎn)推薦算法直接分解用戶-興趣點(diǎn)簽到頻率矩陣,學(xué)習(xí)用戶和興趣點(diǎn)隱藏特征向量.
4.4性能對(duì)比
在隱藏特征向量維度值開K=10情況下,所有對(duì)比算法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2和表3所示.
從表2和表3可以發(fā)現(xiàn):
1) 在2個(gè)數(shù)據(jù)集上,除PMF外,UserKNN和ItemKNN的性能比基于矩陣分解模型的興趣點(diǎn)推薦算法性能差,說(shuō)明基于矩陣分解模型的興趣點(diǎn)推薦算法一般優(yōu)于基于內(nèi)存的興趣點(diǎn)推薦算法.
2) 在基于內(nèi)存的興趣點(diǎn)推薦算法中,UserKNN的推薦準(zhǔn)確性高于ItemKNN.這是由于大量興趣點(diǎn)

Table 2 Performance Comparison on Foursquare表2 在Foursquare數(shù)據(jù)集上的性能對(duì)比

Table 3 Performance Comparison on Gowalla表3 在Gowalla數(shù)據(jù)集上的性能對(duì)比
共享較少的用戶簽到數(shù)據(jù),導(dǎo)致興趣點(diǎn)之間的相似度不如用戶之間相似度計(jì)算準(zhǔn)確.這個(gè)觀察結(jié)果與文獻(xiàn)[10]的觀察結(jié)果一致.
3) 在所有對(duì)比算法中,基于PMF的興趣點(diǎn)推薦算法的準(zhǔn)確率和召回率最低.造成PMF推薦性能差的原因是:PMF假設(shè)用戶的簽到數(shù)據(jù)服從高斯分布,而實(shí)際上,高斯分布模型不適合建模用戶簽到頻率數(shù)據(jù).
4) 盡管BPR-MF,WRMF,GeoMF都將興趣點(diǎn)推薦問題看作OCCF推薦問題,但是BPR-MF性能表現(xiàn)不如WRMF和GeoMF.一種可能的解釋是BPR-MF潛在地假設(shè)用戶在興趣點(diǎn)上的簽到行為服從高斯分布.
5) PFM模型的推薦性能優(yōu)于PMF,BPR-MF,WRMF,表明泊松分布模型比高斯分布模型更適合建模用戶在興趣點(diǎn)上的簽到行為.這個(gè)觀察結(jié)果也表明了PFM模型在興趣點(diǎn)推薦任務(wù)上的潛力.
6) 在2個(gè)數(shù)據(jù)集上,本文提出的基于Ranking泊松矩陣分解興趣點(diǎn)推薦算法的性能優(yōu)于其他對(duì)比算法,驗(yàn)證了本文提出算法的有效性.與對(duì)比算法中的最優(yōu)結(jié)果對(duì)比,以precision@5為度量指標(biāo),本文提出算法在Foursquare和Gowalla數(shù)據(jù)集上改進(jìn)幅度分別為:15.1%,4.2%;以recall@5為度量指標(biāo),本文提出算法在Foursquare和Gowalla 數(shù)據(jù)集上改進(jìn)幅度分別為:14.2%,7.7%.這個(gè)觀察結(jié)果說(shuō)明利用泊松分布建模用戶的簽到行為,以Ranking的方式擬合用戶在興趣點(diǎn)對(duì)上的偏序關(guān)系,同時(shí)通過(guò)地域影響正則化因子約束泊松矩陣分解過(guò)程,可以有效地提高興趣點(diǎn)推薦算法性能.
7) 在所有評(píng)價(jià)指標(biāo)上,所有對(duì)比算法在Foursquare數(shù)據(jù)集上性能好于它們?cè)贕owalla上的性能.這是由于Foursquare中用戶簽到興趣點(diǎn)平均數(shù)量高于Gowalla, Gowalla數(shù)據(jù)集更為的稀疏,而且Foursquare數(shù)據(jù)集中僅包含1個(gè)城市的簽到數(shù)據(jù),Gowalla數(shù)據(jù)集中包含2個(gè)城市的簽到數(shù)據(jù).簽到數(shù)據(jù)集的稀疏性和地域的跨度都會(huì)影響到興趣點(diǎn)推薦算法的性能.
4.5參數(shù)λg的影響
在本文提出的興趣點(diǎn)推薦算法中,參數(shù)λg是影響興趣點(diǎn)推薦性能的重要參數(shù).在模型參數(shù)學(xué)習(xí)過(guò)程中,參數(shù)λg平衡用戶的簽到信息和興趣點(diǎn)的地理信息.較大的λg值意味著在學(xué)習(xí)隱藏特征向量過(guò)程中更加依賴興趣點(diǎn)的地理位置信息.在極端的情況下,如λg=∞,本文提出的興趣點(diǎn)推薦算法完全依賴于興趣點(diǎn)的地理位置信息來(lái)學(xué)習(xí)隱藏特征向量,而忽視用戶的簽到信息.相反,較小的λg值意味著本文提出的興趣點(diǎn)推薦算法賦予用戶的簽到信息更多的權(quán)重.如λg=0時(shí),本文提出的興趣點(diǎn)推薦算法完全通過(guò)用戶的簽到信息來(lái)學(xué)習(xí)隱藏特征向量,而忽視相似的興趣點(diǎn)共享相似用戶簽到行為的事實(shí).因此,較大或者較小的λg值都將導(dǎo)致本文提出算法性能的下降.在本節(jié)中,設(shè)置λg為0,0.01,0.1,0.3,0.5,1,5來(lái)評(píng)估參數(shù)λg對(duì)本文提出興趣點(diǎn)推薦算法的影響.其他參數(shù)的設(shè)置為:αk=20,βk=0.2,k=1,2,…,K,K=10.
實(shí)驗(yàn)結(jié)果如圖4和圖5所示.在圖4和圖5中,我們僅顯示precision@5和recall@5在2個(gè)數(shù)據(jù)集上的結(jié)果,其他評(píng)價(jià)指標(biāo)與precision@5和recall@5呈現(xiàn)類似的變化趨勢(shì).從圖4和圖5可以觀察,參數(shù)λg對(duì)本文提出興趣點(diǎn)推薦算法的性能具有較大的影響.在2個(gè)數(shù)據(jù)集上,隨著參數(shù)λg的增大,precision@5和recall@5開始上升,推薦性能提高;λg達(dá)到某閾值后,precision@5和recall@5隨著λg的增加開始下降,推薦性能降低.另外,在2個(gè)數(shù)據(jù)集上,precision@5和recall@5沒有在相同的λg值下達(dá)到最優(yōu)值,說(shuō)明參數(shù)λg的取值隨數(shù)據(jù)集的屬性而變化.在Foursquare和Gowalla上,precision@5和recall@5分別在λg=0.1和λg=0.3時(shí)取得最佳性能.這可能是由于Gowalla數(shù)據(jù)集中的簽到數(shù)據(jù)比Foursquare相對(duì)稀疏,因此本文提出的興趣點(diǎn)推薦算法依賴地理信息的權(quán)重相對(duì)大.

Fig. 4 The impact of λgon precision@5.圖4 參數(shù)λg對(duì)precision@5影響

Fig. 5 The impact of λgon recall@5.圖5 參數(shù)λg對(duì)recall@5影響
4.6參數(shù)αk和βk的影響

Fig. 6 The impact of αkon precision@5.圖6 參數(shù)αk對(duì)precision@5影響
在本文提出的興趣點(diǎn)推薦算法中,參數(shù)αk和βk是另外2個(gè)影響推薦性能的重要參數(shù).參數(shù)αk和βk控制Gamma分布的形狀和尺度.在本節(jié)中,我們固定αk=20,變化βk的值,從0.1~0.5;或者固定βk=0.2,變化αk的值,從0~40,觀察precision@5在Foursquare上的變化情況.另外,λg=0.1.

Fig. 7 The impact of βkon precision@5.圖7 參數(shù)βk對(duì)precision@5影響
圖6和圖7顯示了Foursquare數(shù)據(jù)集上precision@5對(duì)參數(shù)αk和βk的敏感程度.在Gowalla數(shù)據(jù)集上,precision@5對(duì)參數(shù)αk和βk的敏感程度呈現(xiàn)類似的變化趨勢(shì).從圖6和圖7可以看出,參數(shù)αk和βk確實(shí)對(duì)本文提出的興趣點(diǎn)推薦算法性能具有較大的影響.固定βk,變化αk的值,或者固定αk,變化βk值,precision@5都是先上升,興趣點(diǎn)推薦準(zhǔn)確性提高,到達(dá)最優(yōu)值后,precision@5開始下降,興趣點(diǎn)推薦準(zhǔn)確性降低.這表明較大或者較小的αk和βk都有損本文提出的興趣點(diǎn)推薦算法性能.
4.7參數(shù)K的影響
在本文提出的興趣點(diǎn)推薦算法中,隱藏特征向量的維數(shù)K也是影響興趣點(diǎn)推薦算法性能的重要參數(shù).我們變化K的值,從5~30,遞增步長(zhǎng)為5,觀察precision@5和recall@5在Foursquare數(shù)據(jù)集上的變化情況.其他參數(shù)設(shè)置為:λg=0.1,αk=20,βk=0.2.
實(shí)驗(yàn)結(jié)果如圖8和圖9所示.從如圖8和圖9可以觀察:隨著K的遞增,precision@5和recall@5的值先增加,達(dá)到最優(yōu)值后,precision@5和recall@5

Fig. 8 The impact of K on precision@5.圖8 參數(shù)K對(duì)precision@5影響

Fig. 9 The impact of K on recall@5.圖9 參數(shù)K對(duì)recall@5影響
隨K的遞增而降低.在Gowalla數(shù)據(jù)集上,參數(shù)K對(duì)precision@5和recall@5的影響呈現(xiàn)類似的變化趨勢(shì).這個(gè)觀察結(jié)果表明:雖然增大K值可以使得隱藏特征向量的表示能力增強(qiáng),但是同時(shí)也會(huì)帶來(lái)一些問題,即,增加模型參數(shù)數(shù)量,引入一些噪音,從而降低興趣點(diǎn)推薦算法的準(zhǔn)確性.這個(gè)觀察結(jié)果再次驗(yàn)證了矩陣分解模型的基本假設(shè):僅有少量的隱藏因子影響用戶的偏好和刻畫興趣點(diǎn)的特征.
隨著移動(dòng)設(shè)備和GPS等技術(shù)的發(fā)展,基于位置的社交網(wǎng)絡(luò)變得越來(lái)越普遍.興趣點(diǎn)推薦是基于位置社交網(wǎng)絡(luò)中的重要組成部分,可以滿足用戶個(gè)性化需求,減輕信息過(guò)載問題.為了解決傳統(tǒng)興趣點(diǎn)推薦算法中存在的問題,本文提出了基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法.針對(duì)基于位置社交網(wǎng)絡(luò)中用戶的簽到行為特點(diǎn),利用泊松分布模型替代高斯分布模型建模用戶在興趣點(diǎn)上簽到行為,然后采用BPR標(biāo)準(zhǔn)優(yōu)化泊松矩陣分解的損失函數(shù),擬合用戶在興趣點(diǎn)對(duì)上偏序關(guān)系.最后,為了進(jìn)一步改進(jìn)推薦算法的性能,利用包含地域影響力的正則化因子約束泊松矩陣分解的過(guò)程.在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出基于Ranking的泊松矩陣分解興趣點(diǎn)推薦算法的性能優(yōu)于傳統(tǒng)的興趣點(diǎn)推薦算法.
近年來(lái),深度學(xué)習(xí)[25]在計(jì)算機(jī)視覺和自然語(yǔ)言處理等領(lǐng)域表現(xiàn)出巨大的潛力,而且已有研究者將深度學(xué)習(xí)技術(shù)與傳統(tǒng)協(xié)同過(guò)濾技術(shù)相結(jié)合,以改善傳統(tǒng)推薦算法的性能,如文獻(xiàn)[26-27]等.將深度學(xué)習(xí)技術(shù)與本文提出的興趣點(diǎn)推薦算法相結(jié)合將是一個(gè)有趣的研究方向.另外,用戶在不同的時(shí)間段可能表現(xiàn)出不同的簽到行為,因此,在本文提出的興趣點(diǎn)推薦算法基礎(chǔ)上考慮時(shí)間因素也是本文未來(lái)的研究方向.
[1]Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(6): 734-749
[2]Pan R, Zhou Y, Cao B, et al. One-class collaborative filtering[C] //Proc of the 8th IEEE Int Conf on Data Mining (ICDM’08). Los Alamitos, CA: IEEE Computer Society, 2008: 502-511
[3]Hu Y, Koren Y, Volinsky C. Collaborative filtering for implicit feedback datasets[C] //Proc of the 8th IEEE Int Conf on Data Mining (ICDM’08). Los Alamitos, CA: IEEE Computer Society, 2008: 263-272
[4]Tobler W R. A computer movie simulating urban growth in the Detroit region[J]. Economic Geography, 1970, 46: 234-240
[5]Yang B, Lei Y, Liu D, et al. Social collaborative filtering by trust[C] //Proc of the 23rd Int Joint Conf on Artificial Intelligence (AAAI’13). Menlo Park, CA: AAAI Press, 2013: 2747-2753
[6]Guo G, Zhang J, Yorke-Smith N. Trustsvd: Collaborative filtering with both the explicit and implicit influence of user trust and of item ratings[C] //Proc of the 29th AAAI Conf on Artificial Intelligence (AAAI’15). Menlo Park, CA:AAAI Press, 2015:123-129
[7]Ma H, Yang H, Lyu M R, et al. Sorec: Social recommendation using probabilistic matrix factorization[C] //Proc of the 17th ACM Conf on Information and Knowledge Management (CIKM’08). New York: ACM, 2008: 931-940
[8]Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C] //Proc of the 4th ACM Conf on Recommender Systems (RecSys’10). New York: ACM, 2010: 135-142
[9]Ye M, Yin P, Lee W C. Location recommendation for location-based social networks[C] //Proc of the 18th SIGSPATIAL Int Conf on Advances in Geographic Information Systems. New York: ACM, 2010: 458-461
[10]Ye M, Yin P, Lee W C, et al. Exploiting geographical influence for collaborative point-of-interest recommendation[C] //Proc of the 34th Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR’11). New York: ACM, 2011: 325-334
[11]Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C] //Proc of the 14th Conf on Uncertainty in Artificial Intelligence (UAI’98). San Francisco, CA: Morgan Kaufmann, 1998: 43-52
[12]Cheng C, Yang H, King I, et al. Fused matrix factorization with geographical and social influence in location-based social networks[C] //Proc of the 26th AAAI Conf on Artificial Intelligence (AAAI’12). Menlo Park, CA: AAAI Press, 2012:17-23
[13]Zhang J D, Chow C Y. GeoSoCa: Exploiting geographical, social and categorical correlations for point-of-interest recommendations[C] //Proc of the 38th Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR’15). New York: ACM, 2015: 443-452
[14]Liu Y, Wei W, Sun A, et al. Exploiting geographical neighborhood characteristics for location recommendation[C] //Proc of the 23rd ACM Int Conf on Information and Knowledge Management (CIKM’14). New York: ACM, 2014: 739-748
[15]Lian D, Zhao C, Xie X, et al. Geomf: Joint geographical modeling and matrix factorization for point-of-interest recommendation[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’14). New York: ACM, 2014: 831-840
[16]Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C] //Proc of the 25th Conf on Uncertainty in Artificial Intelligence (UAI’09). Arlington, VA: AUAI Press, 2009: 452-461
[17]Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C] //Proc of the 10th Int Conf on World Wide Web (WWW’01). New York: ACM, 2001: 285-295
[18]Levandoski J J, Sarwat M, Eldawy A, et al. Lars: A location-aware recommender system[C] //Proc of the 28th Int Conf on Data Engineering (ICDE’12). Los Alamitos, CA: IEEE Computer Society, 2012: 450-461
[19]Yuan Q, Cong G, Ma Z, et al. Time-aware point-of-interest recommendation[C] //Proc of the 36th Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR’13). New York: ACM, 2013: 363-372
[20]Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. Computer, 2009 , 42(8): 30-37
[21]Mnih A, Salakhutdinov R. Probabilistic matrix factorization[C] //Proc of the 21st Annual Conf on Neural Information Processing Systems (NIPS’07). New York: Curran Associates, 2007: 1257-1264
[22]Liu B, Fu Y, Yao Z, et al. Learning geographical preferences for point-of-interest recommendation[C] //Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’13). New York: ACM, 2013: 1043-1051
[23]Gao Rong, Li Jing, Du Bo, et al. A synthetic recommendation model for point-of-interest on location-based social networks: Exploiting contextual information and review[J]. Journal of Computer Research and Development, 2016, 53(4): 752-763 (in Chinese)
(高榕, 李晶, 杜博, 等. 一種融合情景和評(píng)論信息的位置社交網(wǎng)絡(luò)興趣點(diǎn)推薦模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(4): 752-763)
[24]Ma H, Liu C, King I, et al. Probabilistic factor models for web site recommendation[C] //Proc of the 34th Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR’11). New York: ACM, 2011: 265-274
[25]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444
[26]Wang H, Wang N, Yeung D Y. Collaborative deep learning for recommender systems[C] //Proc of the 21st ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’15). New York: ACM, 2015: 1235-1244
[27]Li S, Kawale J, Fu Y. Deep collaborative filtering via marginalized denoising auto-encoder[C] //Proc of the 24th ACM Int Conf on Information and Knowledge Management (CIKM’15). New York: ACM, 2015: 811-820

Yu Yonghong, born in 1978. PhD candidate and lecturer. His main research interests include recommendation algorithm and social network analysis (yuyh@njupt.edu.cn).

Gao Yang, born in 1972. Professor and PhD supervisor. His main research interests include reinforcement learning and machine learning (gaoy@nju.edu.cn).

Wang Hao, born in 1983. PhD and assistant researcher. His main research interests include recommendation algorithm and reinforcement learning (wanghao.hku@gmail.com).

2014年《計(jì)算機(jī)研究與發(fā)展》高被引論文TOP10
數(shù)據(jù)來(lái)源:中國(guó)知網(wǎng), CSCD;統(tǒng)計(jì)日期:2016-02-16
A Ranking Based Poisson Matrix Factorization Model for Point-of-Interest Recommendation
Yu Yonghong, Gao Yang, and Wang Hao
(StateKeyLaboratoryforNovelSoftwareTechnology(NanjingUniversity),Nanjing210023) (CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing210023)
With the rapid growth of location-based social network (LBSN), point-of-interest (POI) recommendation has become an important means to meet users’ personalized demands and alleviate the information overload problem. However, traditional POI recommendation algorithms have the following problems: 1)most of existing POI recommendation algorithms simplify users’ check-in frequencies at a location, i.e., regardless how many times a user checks-in a location, they only use binary values to indicate whether a user has visited a POI; 2)matrix factorization based POI recommendation algorithms totally treat users’ check-in frequencies as ratings in traditional recommender systems and model users’ check-in behaviors using the Gaussian distribution; 3)traditional POI recommendation algorithms ignore that users’ check-in feedback is implicit and only positive examples are observed in POI recommendation. In this paper, we propose a ranking based Poisson matrix factorization model for POI recommendation. Specifically, we first utilize the Poisson distribution instead of the Gaussian distribution to model users’ check-in behaviors. Then, we use the Bayesian personalized ranking metric to optimize the loss objective function of Poisson matrix factorization and fit the partial order of POIs. Finally, we leverage a regularized term encoding geographical influence to constrain the process of Poisson matrix factorization. Experimental results on real-world datasets show that our proposed approach outperforms traditional POI recommendation algorithms.
location-based social network (LBSN); point-of-interest (POI) recommendation; Poisson matrix factorization; Bayesian personalized ranking (BPR) metric; geographical influence
2016-03-21;
2015-05-24
國(guó)家自然科學(xué)基金項(xiàng)目(61432008,61175042,61403208)
TP181
This work was supported by the National Natural Science Foundation of China (61432008, 61175042, 61403208).