高 榕 李 晶 杜 博 余永紅 宋成芳 丁永剛,3
1(武漢大學計算機學院 武漢 430072)2(計算機軟件新技術國家重點實驗室 (南京大學) 南京 210046)3(湖北大學教育學院 武漢 430062)(gaorong198149@163.com)
一種融合情景和評論信息的位置社交網絡興趣點推薦模型
高榕1李晶1杜博1余永紅2宋成芳1丁永剛1,3
1(武漢大學計算機學院武漢430072)2(計算機軟件新技術國家重點實驗室 (南京大學)南京210046)3(湖北大學教育學院武漢430062)(gaorong198149@163.com)
摘要隨著位置社交網絡(location-based social network, LBSN)的快速增長,興趣點(point-of-interest, POI)推薦已經成為一種幫助人們發現有趣位置的重要方式.現有的研究工作主要是利用用戶簽到的歷史數據及其情景信息(如地理信息、社交關系)來提高推薦質量,而忽視了利用興趣點相關的評論信息.但是,現實中用戶在LBSN中只對少數興趣點進行簽到,使得用戶簽到歷史數據及其情景信息極其稀疏,這對興趣點推薦來說是一個巨大的挑戰.為此,提出了一種新的興趣點推薦模型,稱為GeoSoRev模型.該模型在已有的基于矩陣分解的經典推薦模型的基礎上,融合關于興趣點的評論信息、用戶社交關聯和地理信息這3個因素進行興趣點推薦.基于2個來自Foursquare的真實數據集的實驗結果表明,與其他主流的興趣點推薦模型相比,GeoSoRev模型在準確率和召回率等多項評價指標上都取得了顯著的提高.
關鍵詞地點推薦;矩陣分解;社交關系;地理信息;評論文本
近年來,隨著Web2.0技術的快速發展、移動設備的流行和定位方式的多樣化,用戶可以更加容易地獲得他們的實時位置信息,同時也催生了基于位置的社交網絡(location-based social network, LBSN)的出現,如Foursquare和 Facebook.這個變化也使得基于位置的社交成為了一種新的社交模式.如圖1所示,數以百萬的社交網絡用戶通過基于位置的社交網絡(LBSN)以簽到的形式與好友分享他們喜好的興趣點(point-of-interest, POI)(如餐廳、博物館等)和位置,并發表相關的評論.同時,基于位置的社交網絡也能幫助人們更方便地了解周圍的信息以探索周圍的環境從而輔助自己的決策.為了達到這種目的,興趣點推薦就成為了一種重要的方式.

Fig. 1 A location-based social network.圖1 基于位置的社交網絡
位置社交網絡提供了大量的位置數據以及豐富的情景信息,這些情景包括:社交關系、類別信息等,表現出規模巨大(volume)、快速傳播(velocity)、模態多樣(variety)等大數據特性[1],具有重要的應用價值和研究意義[2].因此,興趣點的推薦已成為了一個近年來非常熱門的研究課題.目前,大多數的興趣點推薦方法[3-8]都是根據用戶基于興趣點的歷史簽到信息及其情景信息(如評級、時間、地點、社交關系、標簽、類別等)來挖掘用戶對于尚未簽到的興趣點的偏好.而上述推薦方法都是基于用戶對于興趣點的簽到頻率可以明確反映用戶對興趣點的偏好程度這樣一個前提.圖2是來自Foursquare數據集[9]中基于一個用戶對一個興趣點的簽到次數分布.如圖2所示,用戶對于興趣點的簽到并不是很積極,超過50%的興趣點都由同一用戶只簽到一次.因此,僅僅利用稀疏的用戶簽到數據及其情景信息作為推薦模型的依據會對最終的推薦結果帶來不小的偏差.

Fig. 2 Distribution of the number of a user’s check-ins in Foursquare[9].圖2 用戶在Foursquare[9]中簽到次數的分布
現實中,用戶的偏好除了可以通過分析用戶的歷史簽到信息及其情景信息進行預測外,還可以分析用戶對興趣點的評論內容信息來挖掘用戶偏好.例如:一個用戶對一家餐廳的評價:“餐廳的味道不錯,菜品口味偏辣!”從上述評論可以看出用戶對這家餐廳的情感傾向是正面的、積極的,同時對這個餐廳的興趣程度比較高.因此,鑒于用戶歷史簽到數據的稀疏性,本文利用與用戶對興趣點簽到信息相關的內容評價信息結合歷史的簽到信息及其相關情景信息來進行興趣點推薦,從而提高興趣點推薦的質量.然而,這對現有推薦模型而言是一個不小的挑戰,因為需要找到一個有效的方法來融合來自多個異構數據源的數據進行興趣點推薦.
概括起來,本文做出了3點對興趣點推薦的貢獻:
1) 根據對大規模數據的分析,本文發現這種用于做興趣點推薦的數據不僅僅是一種隱式數據,同時也包含來自不同領域且結構不相同的多種數據.因此,本文提出利用矩陣分解來融合異構數據做興趣點推薦,這也是基于大規模數據進行數據融合的一種技術上新的探索和嘗試.
2) 由于用做興趣點推薦的數據中除了包含簽到數據的情景信息(即地理信息和社交關系信息),還包含用戶對于興趣點的評論信息.因此,本文提出一種全新的興趣點推薦模型.該模型將評論信息與簽到數據的情景信息(用戶的社交關系和興趣點的地理信息)融合,并將其納入到同一的模型中發揮各自的長處,從而實現互補,最終實現對用戶偏好更好的預測,并給出了具體求解過程.
3) 本文在一個大規模的位置社交網絡數據上進行了評測.實驗結果說明:相比其他主流先進推薦模型,本文提出的模型在推薦準確率和召回率等評測指標上得到了有效的提高.
1相關工作
本節主要回顧一些與本文相關的最新研究工作,這些工作大多都是圍繞各種情景信息(即地理因素、社交關系等)和評論信息進行興趣點推薦.
1) 基于情景信息的推薦.由于在LBSN中,用戶的行為不相同,且隨著情景(地理位置、社會關系等)變化,因此,LBSN的興趣點推薦應當具有個性化,并且與情景相關.目前大多數興趣點推薦也都是集中在如何利用各種情景信息(地理因素、社交關系等)來進行興趣點推薦.Ye等人[10]受到好友之間會分享較多共同興趣的觀點啟發,深入研究了基于LBSNs的地點推薦方法中用戶之間的好友關系,通過分析來自Foursquare的數據集,發現好友關系與地理位置之間的強關聯性,進而提出一種基于樸素貝葉斯算法來融合用戶偏好、地理位置和用戶社交關系的推薦模型.Cheng等人[11]將用戶社交關系和地理位置融入概率矩陣分解模型.通過建立用戶在位置上的簽到概率模型作為多中心高斯模型來捕獲地理影響力,繼而把社交信息和地理信息融入到一個廣義的矩陣分解模型中.Lian等人[12]提出利用加權矩陣分解模型來進行興趣點推薦.由于在基于位置的社交網絡的用戶簽到活動中用戶存在空間聚集現象,因此,首先從二維核密度估計的角度來刻畫空間聚集效應,并將它整合進矩陣分解模型中,然后解釋為何對空間聚集效應的建模可以幫助應對用戶-興趣點矩陣稀疏性的挑戰.
2) 基于評論內容信息的推薦.為了緩解用戶歷史簽到數據及其情景信息稀疏對于興趣點推薦模型的影響,研究者開始積極探索利用興趣點評論信息進行興趣點推薦.Cheng等人[13]通過22萬用戶收集到的2 200萬個簽到數據對空間、時間、社交和文本等相關用戶信息進行定量分析來評估用戶移動性模式.他們發現:①基于位置的社交網絡用戶遵循“Levy Flight”移動模式及周期性的行為;②地理和經濟限制條件影響著移動的模式和用戶的社會地位;③與簽到相關的基于內容和情感的評論分析能夠為更好地理解用戶參與這些服務提供更加豐富的語境來源,也能夠提高相關推薦的質量.Yin等人[14-15]利用著名的主題模型,即LDA模型,預測用戶的興趣程度以及基于本地的興趣點(例如一個城市).個人興趣和本地興趣地點都被表示為一個混合主題,其中,每個主題都是基于興趣點的獨立概率分布,同時每個主題通過學習用戶的簽到歷史數據和興趣點的類別信息而得到.
總的來說,上述興趣點推薦模型都取得了不錯的推薦效果,但它們側重評論內容信息或單一情景信息(如地理因素、社交關系等).基于情景信息的興趣點推薦模型大多數都受到如下限制:1)相關模型和潛在空間缺乏容易理解的算法解釋;2)模型中評級分數的假設條件與現實不太相符;3)冷啟動問題上表現不盡如人意.而基于評論信息的興趣點推薦則大多數因為缺乏對用戶基于興趣點簽到行為中各種情景信息(如地理信息、用戶社交關系)特點深入分析,而造成比較低的推薦質量.因此,本文通過對上述各種信息進行關聯分析,同時考慮用戶簽到行為中的各種情景信息和評論信息,將其融入到推斷用戶對于興趣點的偏好過程中.相比現有的推薦模型,本文提出的模型從評論中學習主題,這樣可以更好地匹配用戶的評級行為,同時在進行興趣點推薦時將上述各種情景信息關聯起來統一考慮,更能反映現實場景,貼合用戶的真實行為.
2基于矩陣分解模型的興趣點推薦
2.1問題描述
本文研究的問題與傳統的基于位置推薦系統略有不同,傳統的基于位置推薦系統只考慮用戶-興趣點矩陣,而本文還考慮了多個情景信息和評論內容語義依據.
假設共有m個用戶ui和n個興趣點lj,且用戶u∈{u1,u2,…,um},興趣點l∈{l1,l2,…,ln}.
定義1. 評級矩陣R.假設有m個用戶和n個興趣點(地點),矩陣R∈m×n描述用戶ui對于興趣點lj的偏好.每個元素Ri,j反映了用戶對于興趣點的訪問次數.如果Ri,j=0,則并不代表用戶從來沒有訪問過興趣點,而是意味著用戶不知道這個興趣點.
為此,本文的目標是:基于那些用戶沒有訪問過的興趣點,如何有效地融合來自不同數據源的數據預測該用戶對于尚未訪問過的興趣點偏好,從而按照興趣點偏好為其推薦興趣點.表1列出了本文的主要符號.

Table 1 Symbols
2.2基于矩陣分解模型的興趣點推薦
矩陣分解方法得益于它們的準確率和擴展性,已經成為一種主流推薦方法[16].它們不僅用于高斯噪聲的概率解釋,而且對于推薦來說可以靈活地增加數據源.因此,本文基于矩陣分解模型來融合評論和情境信息進行位置社交網絡推薦.將用戶和興趣點映射到一個潛在的低維k?min(m,n)的隱空間上.在聯合隱式空間上,把用戶對興趣點的偏好建模成它們在隱式空間中的點積,而偏好又與用戶對興趣點的簽到頻率有關,更高的簽到頻率體現了用戶對興趣點有更多的偏好.因此,如定義1,用戶ui對于興趣點lj的偏好近似采用用戶和地點的潛在特征向量內積表示,如式(1)所示:
(1)
基于矩陣的稀疏性約束的考慮[12],在式(1)中加入用戶和地點的偏置項以及全局偏置項,因此如式(2)所示:
(2)
其中,用戶的潛在向量Ui表示矩陣U∈m×k中的第i行,地點的潛在向量Lj表示矩陣L∈n×k中的第j行;bi和bj分別是關于用戶ui和地點lj的偏置項;μ表示全局偏置項.
將上述映射問題進行進一步擴展,得到如下最小化加權平方誤差,如式(3)所示:
(3)

(4)
其中,λ1和λ2分別是用戶和興趣點的權重因子;U∈m×k和L∈n×k分別代表用戶矩陣和地點矩陣.一般通過梯度下降的方法來求解U和L.
3GeoSoRev模型
本文在考慮用戶歷史簽到數據的基礎上,還考慮了用戶對興趣點評論的語義依據以及興趣點相關的情景信息,提出一種新的興趣點推薦模型GeoSoRev(geographical,social and review matrix factorization)模型.
3.1評論內容信息建模
評論經常用于解釋用戶評級的原因,從而有利于理解用戶的評級行為,同時對評論的深入挖掘可以有效地緩解興趣點冷啟動問題.主題建模技術經常被用于挖掘在評論中隱藏的“主題”,最簡單的主題模型是潛在狄利克雷分配模型(LDA)[17].基于矩陣分解的主題模型可以估計每個文檔的隱含主題的獨立概率分布[18],本文采用基于矩陣分解的主題模型來發現評論中的隱藏“主題”.
首先,將一個評論定義為一個文檔di,j(即用戶ui對興趣點lj的評論),單詞數目為N(n∈{1,2,…,N}),Bdi,j,n代表單詞-評論矩陣的元素,Fi,j,n代表在評論文檔di,j中單詞n的頻度矩陣的元素.那么基于式(1),頻率(評分)矩陣采用2個實數矩陣Θ和Φ的內積近似表示,如式(5)所示:

(5)
其中,Θ=(θdi,j),Φ=(φn,k),且φn,k,θdi,j>0,它們分別是單詞和主題的獨立概率分布.
將式(5)最小化后得到式(6):
(6)
將式(5)結合式(3),采用TopicMF模型[19]思想,得到融合了評論信息的興趣點推薦模型,如式(7)所示:
(7)
上述目標函數將基于矩陣分解的評級預測模型與基于矩陣分解的發現潛在評論文本內容中的主題因素模型結合起來.因此,需要我們將主題因素和用戶、地點相對應的潛在因素關聯起來.為了體現這種關聯關系,采用基于HFT模型思想中的轉換函數[20]進行三者的融合.
(8)
其中,β是一個轉換參數,上述函數體現用戶、主題因素、地點三者之間的單調關系.上述函數基于這樣的融合依據:用戶對一個興趣點給予很高的評級那么代表著他對這個興趣點很強的偏好,同時獲得高評級中某些特定單詞的分布必然對應一些相關用戶的評論話題中的主題,而這些主題必然被討論得更多.
3.2地理信息建模
用戶在興趣點的簽到記錄包含著許多地理信息,因此,本文基于一個真實的數據集Foursquare[9]中的用戶簽到位置分布進行分析.如圖3所示,通過對地理分布的估計來捕捉用戶對特定地點的偏好.

Fig. 3 Physical distance influence probability distribution of users in Foursquare[9].圖3 在Foursquare[9]中物理距離對用戶簽到情況的影響
如圖3所示,可以發現:同一個用戶簽到的大部分興趣點都處于一個相互地理距離很小的范圍中,這一現象可以歸因于地理區域的影響.在現實中,人們通常訪問一個興趣點(例如博物館),然后前往其附近的興趣點(例如餐館和商店).毗鄰的興趣點比遠距離的興趣點具有更強的地理相關性.因此,用戶的簽到地點往往形成地理集群區域.由此根據用戶簽到數據的地理區域位置特征進行建模可以有效提高興趣點推薦的效果.
本文不同于根據用戶訪問過的興趣點和尚未訪問的興趣點之間的地理關聯關系進行建模來預測用戶偏好.本文對于用戶ui對地點lj的偏好采用該用戶對地點lj幾個近鄰地點的偏好表示,同時使用地理區域位置關系加權策略來彌補經典矩陣分解模型中對于地理位置的建模缺陷.因此,根據式(1)(2),基于地理區域特征[21]進行興趣點推薦,最小化問題表示為如下公式:

(9)

(10)
?lk∈C(lj),
其中xj,xk分別表示地點lj,lk的地理坐標(經度和緯度),從地理區域的大小考慮,對于距離用戶太遠的地理區域中的興趣點,用戶簽到的可能性很小.因此,本文提出一個地理區域大小距離變量D進行地理范圍區別,而C(lj) 表示地點lj的鄰近的地點,在實驗中根據經驗值設置D=10 000,如果待推薦的地點不在用戶當前位置的C(lj)中則不考慮該地點.
3.3用戶社交關系建模
在現實中,用戶經常會去那些用戶好友強烈推薦的餐館或者地點.換句話說,基于社會關系的用戶好友極大地影響了用戶基于興趣點的簽到行為,可以利用訪問用戶的社會網絡關系來提升興趣點推薦算法的性能.

Fig. 4 Social network.圖4 社交網絡
如圖4所示為現實世界中好友之間的社交網絡,用戶與用戶之間的社交聯系是相互的,本文引入相似度函數來體現好友之間的聯系.因此,基于融合社交網絡信息興趣點推薦模型[22],目標函數最小化如式(11)所示:
(11)
其中,sim(i,f)為用戶ui和好友uf之間的相似度.本文采用皮爾森相關系數來計算相似度,其計算公式如下:
sim(i,f)=
(12)

3.4GeoSoRev模型
在3.1~3.3節中本文基于矩陣分解模型將評級預測與評論內容信息、地理位置信息和用戶社交關系分別整合建模,如式(7)(9)(11).通過合并潛在因素和主題,提出一個融合方案GeoSoRev模型來融合評論內容信息、地理信息和社會關系進行評級預測.最小化目標函數如下:

(13)

3.5GeoSoRev模型優化
本文采用梯度下降法[23]來求解目標公式的局部最優解.
(W⊙W⊙(UHLT))LHT+λ1ui+


(14)
(WT⊙WT⊙(LHTUT))UH+λ2lj+
(15)
(16)

(17)
本文的目標是同時優化與評級相關的參數(U,L,H)和與之相關的主題參數矩陣θ,φ.其中U,L和H通過式(14)~(16)進行梯度下降優化,φ是通過式(6)的更新得到.因此,通過迭代以下2個步驟來實現:

(18)

(19)
對于式(15)的第1步,通過L-BFGS優化算法[24]予以更新;式(15)的第2步,對于φ更新采用投影梯度技術[25]來完成.2個步驟是反復迭代,直到最終達到局部最優.
4實驗
4.1實驗數據集
實驗中采用了真實的數據集,即Foursquare數據集.Foursquare數據集[26]包含2個子數據集,一個數據集收集來自美國紐約(NYC)的數據,一個數據集收集來自美國洛杉磯(LA)的數據.2個數據集的統計如表2所示.由表2可觀察到,2個數據集的用戶-興趣點的矩陣密度分別為5.68×10-5和4.04×10-5.由于數據集中用戶-興趣點矩陣密度非常低而造成了大多數主流的興趣點推薦算法的精度普遍不高.例如,基于數據集的用戶-興趣點矩陣密度為2.72×10-4,得到的準確率最大只有0.06[27].所以,基于本文的數據集中比較低的用戶-興趣點矩陣密度,最終得到普遍偏低的預測準確率和召回率是合理的.同時LA數據集的矩陣密度略高于NYC數據集,因此,基于LA數據集得到的準確率和召回率大多略高于基于NYC數據集.

Table 2 Statistic on the Datasets
為了驗證推薦算法的準確性,對2個數據集都進行預處理,僅保留每天至少訪問5個位置的活躍用戶.本文實驗中按 8∶2的比例將數據隨機地分為訓練集和測試集,同時這個隨機選擇獨立做5次.
4.2評價指標
關于推薦性能,本文采用2個廣泛使用的指標來評估Topk興趣點推薦性能,即準確率Precision@k和召回率Recall@k,簡寫為P@k和R@k.對一個目標用戶ui,P@k表示前k個被推薦的興趣點會包括多少比例的測試訪問地點;R@k表示前k個被推薦興趣點中有多少比例是這個用戶訪問過的.Q(ui)表示用戶ui簽到過的地點,E(ui)表示前k個被推薦的興趣點.P@k和R@k定義為
(20)
(21)
其中,V表示測試數據中用戶的數量.在實驗中,選擇P@1,P@5和P@10,R@1,R@5和R@10作為評價指標,結果統計如表3所示:

Table 3 LA Dataset
4.3推薦模型對比
本文選定了5種方法作為對比模型:
1) CoRe[28].提出了一種基于魯棒性規則融合用戶社會關系和地理影響的興趣點推薦算法,其中對地理影響因素基于核密度估計進行建模.
2) USG[27].采用一種統一的線性模型融合用戶偏好、社會關系和地理影響,從而進行興趣點推薦建模.
3) UAI[29].基于情感分析技術對用戶的評論進行建模,同時采用一種混合模型基于用戶社會和地理相似性融合評論建模進行興趣點的推薦.
4) DRW[30].基于動態隨機游走模型融合用戶社會關系、類別信息和流行度信息進行興趣點推薦.
5) NCPD[31].基于NMF矩陣分解模型融合用戶的地理信息和類別信息進行興趣點推薦算法,其中采用基于用戶地理鄰居的影響對地理因素進行建模.
實驗中,k的值分別設置為1,5,10.每改變一次k值,對每一個算法計算P@k和R@k.在實驗中出于考慮實驗的效果和有效性的目的,將隱式空間維數設置為200.λ1,λ2是控制用戶和地點矩陣的權重參數,通過交叉驗證設置λ1,λ2=0.05;λ3是控制社交關系的權重參數,設置λ3=0.01;λ4是控制評論信息的權重參數,設置λ4=0.1.設置式(9)中的地理位置權重α=0.4時,推薦效果最佳[21].
4.4實驗結果分析
本節從3個角度來評估GeoSoRev模型:1)將GeoSoRev模型與5種現有的興趣點推薦模型進行比較;2)基于提出的模型對比分析地理信息、用戶社交關系和評論文本內容這3個要素對推薦系統評估指標的貢獻;3)討論相關參數影響.
4.4.1推薦模型的比較與分析
如表3和表4所示,由于基于NMF矩陣分解模型融合了社交關系影響、地理位置因素的影響以及評論信息,與其他5個對比推薦模型相比GeoSoRev模型在準確率和召回率上表現出最好的推薦質量.興趣點個數k的增加,使得準確率不斷下降和召回率不斷上升.這是由于給用戶推薦更多的興趣點有助于用戶發現更多的興趣點,這樣會促進用戶更愿意進行興趣點的簽到.

Table 4 NYC Dataset
1) USG.該模型整合用戶社交關系和興趣點地理影響,但沒有考慮相關類別信息和評論信息.此外,把興趣點地理影響以及用戶社會關系影響進行簡單的線性加權而沒有考慮它們之間實際的聯系,這與現實不符,因為有些用戶可能更多地依靠朋友的推薦而有些用戶更多地受限于地理因素的影響.因此,如表3和表4所示,USG最終體現出第4優秀的推薦精度.
2) CoRe.該模型和USG一樣,同樣缺乏對類型信息、評論信息的考慮.但是由于它采用了一個更具有魯棒性的規則而不是簡單的線性加權來對用戶的社會關系和地理影響進行融合,同時對地理因素也進行基于核密度估計的建模.因此,如表3和表4所示,它最終體現出第3優秀的推薦精度.
3) UAI.基于情感分析技術對評論信息進行建模分析情感傾向,但是分析過程中該模型僅僅簡單將表示評論中的情感屬性相加而作為情感傾向的評價標準,這樣的假設與實際情況有一定的差別.例如:“高質量”、“高價格”體現出了不同的情感傾向,不能因為都含有一個“高”而把它們作為相同的情感屬性.此外,該模型采用了概率矩陣模型基于社交和地理相似性結合上述評論模型進行三者融合,從而進行興趣點推薦.因此,如表3和表4所示,它最終體現出第5優秀的推薦精度.
4) DRW.基于動態的隨機游走模型,融合了用戶的社交關系、相關類別信息以及流行度信息,忽略了興趣點推薦中最重要的地理因素的影響.因此,它最終體現出最差的推薦效果.
5) NCPD.基于NMF矩陣分解模型融合地理影響和流行度信息,同時從地理鄰域特點基于矩陣分解模型對地理因素進行建模.但是,由于缺乏對用戶社會關系的建模,因此相對于CoRe,最終推薦精度提高不大.如表3和表4所示,它最終體現出第2優秀的推薦精度.
6) GeoSoRev.基于2個數據集GeoSoRev模型在推薦質量上表現最好,相對于NCPD算法取得了較大的提高.原因如下:①GeoSoRev相對于USG,CoRe,NCPD,DRW來說,全面考慮用戶基于興趣點的評論內容息、用戶社會關系以及基于地理鄰域特點的地理因素的影響.②相比UAI而言,GeoSoRev中評論內容信息采用了基于主題矩陣分解模型來整合評論內容而沒有采用基于情感分析技術來對評論內容進行建模,而且對地理因素建模采用了基于地理鄰域特征而不是類似UAI中基于地理位置相似性建模.
4.4.2要素影響分析
本節對GeoSoRev模型中地理信息、用戶社交關系和評論內容信息3個要素進行分析.這3個要素分別被命名為Geo,So和Rev,同時這3個要素分別對應式(6)(9)(11).圖5(a)(b)分別是基于LA數據集在準確率和召回率2個評估指標上3個要素與GeoSoRev模型的對比結果.圖6(a)(b)分別是基于NYC數據集在準確率和召回率2個評價指標上3個要素與GeoSoRev模型的對比結果.

Fig. 5 Recommendation accuracy of GeoSoRev compared with its three components on LY datasets.圖5 GeoSoRev模型基于LY數據集與其3個組成要素的推薦性能對比

Fig. 6 Recommendation accuracy of GeoSoRev compared with its three components on NYC datasets.圖6 GeoSoRev模型基于LY數據集與其3個組成要素的推薦性能對比
從圖5、圖6可以得到以下結論:1)3個要素對于興趣點推薦都是至關重要的;2)三者的融合有助于提高推薦精度,這一點從GeoSoRev模型無論是在準確率還是召回率上都顯著優于單獨的3個要素可以看出.得出上述結論的原因在于:用戶在實際生活中受到了多方面情景信息的影響,而不能片面地從某一個方面來對用戶的偏好預測進行建模.因此興趣點推薦應當充分利用各種興趣點的情景信息,這也是解決興趣點推薦中冷啟動問題和數據稀疏問題的一個有效方法.
4.4.3參數分析
GeoSoRev模型有3個重要的參數:1)控制評論參數λ4;2)控制社交關系影響參數λ3;3)地理鄰域關系加權參數α.研究分析這些參數時,通過改變其中一個參數的數值同時固定其他參數,來分析其對最終推薦結果的影響以及GeoSoRev模型對于參數的靈敏度問題.
1) 對鄰域關系加權參數α進行分析,設置k=5,λ4=0.05,λ1=0.5,λ2=0.5,λ3=0.001.如圖7(a)(b)顯示了α基于2個數據集對于式(13)的影響.從圖7(a)(b)可以看出:①α的取值范圍在0.4~0.6之間時獲得了比較好的效果,這說明α在衡量用戶對于推薦的興趣點的偏好和地理鄰域特征方面的重要性;②α=0或者α=1都會導致推薦精度的下降.特別是α=0時,被認為不考慮地理鄰域特征,由此造成了推薦精度的下降.
2) 當k=5,λ1=0.5,λ2=0.5,λ4=0.05時,社交信息參數λ3對整個模型的影響如圖8(a)(b)所示.從圖8(a)(b)得到如下結論:①當λ3=0.001時取得最好的推薦效果,但是當λ3=0時推薦精度會下降;②當λ3>1時,GeoSoRev模型表現穩定,沒有因為λ3的變化而變得敏感;③當λ3在0~1之間時,性能的波動不是很明顯.因此,GeoSoRev模型對于λ3不是非常敏感,選擇λ3=0.001作為默認值是合理的.

Fig. 7 Effect of parameter α on recommendation accuracy of GeoSoRev.圖7 GeoSoRev模型對于參數α的分析

Fig. 8 Effect of sensitive parameter λ3 on recommendation accuracy of GeoSoRev.圖8 GeoSoRev模型對于參數λ3的敏感度分析

Fig. 9 Effect of sensitive parameter λ4 on recommendation accuracy of GeoSoRev.圖9 GeoSoRev模型對于參數λ4的敏感度分析
3) 當k=5,λ1=0.5,λ2=0.5,λ3=0.001時,評論關系參數λ4對整個模型的影響如圖9(a)(b)所示.如圖9(a)(b)所示,當λ4=0.05時,GeoSoRev模型在準確率和召回率上取得比較好的效果;但是當λ4>1時,GeoSoRev模型表現相對比較穩定,沒有因為λ4的變化而變得敏感;當λ4在0~1之間時性能波動不是很明顯.因此,GeoSoRev模型對于λ4不是很敏感而是比較穩定的,而λ4=0.05作為默認值是合理的.這主要因為在一篇評論中用戶可能只提到了部分潛在因素而不是所有的因素.
5結論與展望
如何將用戶的多種情景信息和用戶的評論信息等多種異構數據應用到興趣點推薦問題中對于傳統的推薦系統而言是一個挑戰.本文提出一種新的推薦模型GeoSoRev,該模型將3種異構多源的信息進行融合并有效地進行推薦.GeoSoRev較好地解決了基于位置社交網絡研究中利用情景信息和評論內容進行興趣點推薦的問題.其最大的優勢和創新點在于將用戶簽到信息、社會影響、地理影響、情感影響等多個方面的影響因素都融合到一個統一的模型中,這也是一個全新的工作.真實數據集的實驗結果表明,GeoSoRev模型相對于其他的主流推薦模型在準確率和召回率2個評估指標上有著明顯的提高.
近年來,深度神經網絡(即深度學習)已經被用來學習各種情景信息和文本內容,從而被應用到推薦問題中.因此,未來將深度學習技術融入到GeoSoRev模型中是一個非常有價值的研究問題.
參考文獻
[1]Wang Yuanzhuo, Jin Xiaolong, Chen Xueqi. Network big data: Present and future[J]. Chinese Journal of Computers, 2013, 36(6): 1125-1138 (in Chinese)(王元卓,靳小龍,程學旗,網絡大數據: 現狀與展望[J]. 計算機學報, 2013, 36(6): 1125-1138
[2]Ding Zhaoyun, Jia Yan, Zhou Bin. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4): 691-706 (in Chinese)(丁兆云, 賈焰, 周斌. 微博數據挖掘研究綜述[J]. 計算機研究與發展, 2014, 51(4): 691-706)
[3]Liu X, Liu Y, Aberer K, et al. Personalized point-of-interest recommendation by mining users’ preference transition[C] //Proc of the 22nd ACM Conf on Information and Konwledge Management (CIKM’13). New York: ACM, 2013: 733-738
[4]Wu L, Chen E H, Liu Q, et al. Leveraging tagging for neighborhood-aware probabilistic matrix factorization[C] //Proc of the 21st ACM Conf on Information and Knowledge Management (CIKM’12). New York: ACM, 2012: 1854-1858
[5]Li X T, Cong G. Rank-GeoFM: A ranking based geographical factorization method for point of interest recommendation[C] //Proc of the 38th Int ACM SIGIR Conf on Research on Development in Information Retrieval(SIGIR’15). New York: ACM, 2015: 433-442
[6]Yuan Q, Cong G, Ma Z, et al. Time-aware point-of-interest recommendation[C] //Proc of the 36th Int ACM SIGIR Conf on Research and Development in Information Retrieval(SIGIR’13). New York: ACM, 2013: 363-372
[7]Liu B, Xiong H. A general geographical probabilistic factor model for point of interest recommendation[J]. IEEE Trans on Knowledge and Data Engineering, 2015, 27(5): 1167-1179
[8]Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C] //Proc of the 4th ACM Conf on Recommender Systems(RecSys’10). New York: ACM, 2010: 135-142
[9]Gao H J, Tang J L, Hu X, et al. Content-aware point of interest recommendation on location-based social networks[C] //Proc of the 29th AAAI Conf on Artificial Intelligence(AAAI’15). Menlo Park, CA: AAAI, 2015: 336-350
[10]Ference G, Ye M. Location recommendation for out-of-town users in location-based social networks[C] //Proc of the 22nd ACM Conf on Information and Knowledge Management(CIKM’13). New York: ACM, 2013: 721-726
[11]Cheng C, Yang H Q, King I, et al. Fused matrix factorization with geographical and social influence in location-based social networks[C]//Proc of the 26th AAAI Conf on Artificial Intelligence(AAAI’12). Menlo Park, CA: AAAI, 2012: 211-276
[12]Lian D F, Zhao C, Xie X, et al. GeoMF: Joint geographical modeling and matrix factorization for point-of-interest recommendation[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’14). New York: ACM, 2014: 831-840
[13]Cheng Z Y, Caverlee J, Lee K, et al. Exploring millions of footprints in location sharing services[C] //Proc of the 5th Int Conf on Weblogs and Social Media(ICWSM’11). Menlo Park, CA: AAAI, 2011: 221-226
[14]Yin H Z, Cui B, Sun Y Z, et al. LCARS: A spatial item recommender system[J]. ACM Trans on Information Systems, 2014, 32(3): 111-1137
[15]Yin H Z, Sun Y Z, Cui B, et al. LCARS: A location-content-aware recommender system[C] //Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’13). New York: ACM, 2013: 221-229
[16]Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. IEEE Computer Society, 2009, 42(8): 30-37
[17]Blei M D, Ng A Y, Jordan I M. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022
[18]Cai D, Mei Q, Han J W, et al. Modeling hidden topics on document manifold[C] //Proc of the 17th ACM Conf on Information and Knowledge Management(CIKM’08). New York: ACM, 2008: 911-920
[19]Bao Y, Fang H, Zhang J. TopicMF: Simultaneously exploiting ratings and reviews for recommendation[C] //Proc of the 28th AAAI Conf on Artificial Intelligence (AAAI’14). Menlo Park, CA: AAAI, 2014: 236-250
[20]McAuley J, Leskovec J. Hidden factors and hidden topics understanding rating dimensions with review text[C] //Proc of the 7th ACM Conf on Recommender Systems (RecSys’13). New York: ACM, 2013: 165-172
[21]Liu Y, Wei W, Sun A X, et al. Exploiting geographical neighborhood characteristics for location recommendation[C] //Proc of the 23rd ACM Conf on Information and Knowledge Management(CIKM’14). New York: ACM, 2014: 739-748
[22]Ma H, Zhou D Y. Recommender systems with social regularization[C] //Proc of the 4th Int ACM Conf on Web Search and Data Mining (WSDM’11). New York: ACM, 2011: 287-296
[23]Koren Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model[C] //Proc of the 14th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’08). New York: ACM, 2008: 426-434
[24]Nocedal J. Updating quasi-newton matrixes with limited storage[J]. Mathematics of Computation, 1980, 35(151): 773-782
[25]Lin C J. Projected gradient methods for nonnegative matrix factorization[J]. Neural Computation, 2007, 19(10): 2756-2779
[26]Bao J, Zheng Y, Mokbel M F, et al. Location-based and preference-aware recommendation using sparse geo-social networking data[C] //Proc of the 20th Int ACM Conf on Advances in Geographic Information Systems (SIGSPATIAL’12). New York: ACM, 2012: 199-208
[27]Zhang J D, Chow C Y. CoRe: Exploiting the personalized influence of two-dimensional geographic coordinates for location recommendation[J]. Information Science, 2015, 29(1): 163-181
[28]Ye M, Yin P, Lee W C, et al. Exploiting geographical influence for collaborative point-of-interest recommendation[C] //Proc of the 34th Int ACM SIGIR Conf on Research and Development in Information Retrieval(SIGIR’11). New York: ACM, 2011: 325-334
[29]Yang D Q, Zhang D Q, Yu Z Y, et al. A sentiment-enhanced personalized location recommendation system[ C] //Proc of the 24th ACM Conf on Hypertext and Social Media (HT’13). New York: ACM, 2013: 119-128
[30]Ying J J C, Kuo W N, Tseng V S, et al. Mining user check-in behavior with a random walk for urban point-of-interest recommendations[J]. ACM Trans on Intelligent Systems and Technology, 2014, 5(3): 1-26
[31]Hu L K, Sun A X, Liu Y. Your neighbors affect your ratings: On geographical neighborhood influence to rating prediction[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR’14). New York: ACM, 2014: 345-354

Gao Rong, born in 1981. PhD candidate in Wuhan University. His main research interests include data mining and intelligent recommendation (gaorong198149@163.com).

Li Jing, born in 1967. Professor and PhD supervisor in Wuhan University. His current research interests include data mining and multimedia technology.

Du Bo, born in 1983. Associate professor and PhD supervisor in Wuhan University. His current research interests include data mining and pattern recognition(remoteking@whu.edu.cn).

Yu Yonghong, born in 1978. PhD and lecturer in Nanjing University. His current research interests include data mining and recommendation algorithm(yuyh@njupt.edu.cn).

Song Chengfang, born in 1978. PhD and lecturer in Wuhan University. His current research interests include visualization analysis and location service (songchf@whu.edu.cn).

Ding Yonggang, born in 1966. PhD and associate professor in Hubei University. Her current research interests include data mining and Web information retrieval (hddyg@hubu.edu.cn).
A Synthetic Recommendation Model for Point-of-Interest on Location-Based Social Networks: Exploiting Contextual Information and Review
Gao Rong1, Li Jing1, Du Bo1, Yu Yonghong2, Song Chengfang1, and Ding Yonggang1,3
1(ComputerSchool,WuhanUniversity,Wuhan430072)2(StateKeyLaboratoryforNovelSoftwareTechnology(NanjingUniversity),Nanjing210046)3(FacultyofEducation,HubeiUniversity,Wuhan430062)
AbstractWith the rapid growth of location-based social network (LBSN), point-of-interest (POI) recommendation has become an important mean to help people discover attractive locations. However, most of existing models of POI recommendation on LBSNs improve recommendation quality by exploiting the user check-in history behavior and contextual information(e.g., geographical information and social correlations), and they tend to ignore the review texts information accompanied with rating information for recommender models. While in reality, users only check in a few POIs in LBSN, which makes the user-POIs check-in history records and contextual information highly sparse, and causes a big challenge for POIs recommendations. To tackle this challenge, a novel POIs recommendation model called GeoSoRev is proposed in this paper, which combines users’ preference to a POI with geographical information, social correlations and reviews text on the basis of the classic recommendation model based on matrix factorization. Experimental results on two real-world datasets collected from Foursquare show that GeoSoRev achieves significantly superior precision and recalling rates compared with other state-of-the-art POIs recommendation models.
Key wordslocation recommendation; matrix factorization; social relationships; geographical information; review text
收稿日期:2015-12-01;修回日期:2016-02-03
基金項目:國家“九七三”重點基礎研究發展計劃基金項目(2012CB719905);國家自然科學基金青年項目(41201404);中央高校基本科研業務費專項資金(2042015gf0009)
通信作者:李晶(leejingcn@163.com)
中圖法分類號TP311
DOI:計算機研究與發展10.7544?issn1000-1239.2016.20151079 Journal of Computer Research and Development53(4): 764-775, 2016
This work was supported by the National Basic Research Program of China (973 Program) (2012CB719905), the National Natural Science Foundation (41201404), and the Fundamental Research Funds for the Central Universities (2042015gf0009).