俞 菲, 姜守旭
(1 常熟理工學院 計算機科學與工程學院, 江蘇 常熟 215500; 2 哈爾濱工業大學 計算學部, 哈爾濱 150001)
地理社交網絡(Geo-Social Networks, GeoSN)是當前移動互聯網不斷發展的衍生網絡。 當前廣泛應用的地理社交網絡主要包括基于位置的社交網絡(Location-Based Social Network,LBSN)和基于活動的社交網絡(Event-Based Social Networks, EBSN)。當前基于位置的社交網絡比較熟知的有:Foursquare、 Gowalla、Meituan 等;基于事件(活動)的社交網絡當前應用廣泛的有:Meetup、DoubanEvent、Plancast 等。 地理社交網絡相比傳統的社交網絡主要區別在于:GeoSN 將物理世界和虛擬的社交網絡融合在一起,記錄了人們線上線下的活動行為,推動位置相關的推薦服務的產生。 當前在地理社交網絡中的推薦服務主要是根據推薦內容分為潛在好友推薦、位置推薦、媒體推薦、活動推薦等;然而,這些推薦服務的共同特點是:服務對象都面向單個用戶。事實上,人是具有社會屬性的,即人都是作為每個群體的成員在生活、工作。
面向群體活動的推薦服務在近些年也逐漸成為社交媒體中主要的應用服務。 在已有的研究中,群體根據構成的方式可分為:臨時用戶群體和穩定用戶群體。 臨時用戶群體是指群體中的用戶是因為活動而臨時組建的,當活動完成后,用戶群體就會隨著活動的完成而解散,這種群體典型的特點就是群體中的用戶的不確定性;穩定用戶群體是指群體中的用戶大都是具有相同且穩定的偏好而組建的,這種偏好是一個長期的喜好,這種群體典型的特點是參加的活動大都是群體共同的偏好相關的。 然而,現有關于群體推薦的研究不僅沒有給出群體活動中群體的組建方式,也沒有考慮不同的組建方式會導致推薦的內容不同。 除此之外,群體推薦的研究中仍然存在一些問題:
(1)群體活動決策過程中群體成員對決策的貢獻程度不能直接從數據中獲得;
(2)已有的關于群體推薦的算法大都強調被推薦的群體是當前存在的。
本文將提供一個全面的文獻回顧,主要從當前的已有研究中采用的方法和數據集兩方面進行總結,并且對這些方法之間的異同給出詳細的分析說明。
為了便于對地理社交網中群體推薦問題的理解,首先給出該問題的相關定義和符號說明。
地理社交網(Geo-Social Network,GeoSN)是一個有向加權圖:

其中,是由用戶節點集合和位置節點集合組成;表示相同類型節點間的鏈接和不同類型節點間的鏈接,包括:ε=E∪E,ε=E∪E;E和E分別表示用戶間的社交關系、位置之間的序列關聯關系;E和E分別表示用戶與位置之間的簽到關系、位置與用戶的時空關聯關系;表示相同類型節點間的鏈接和不同類型節點間的鏈接上的影響力權值:{w,w}。
地理社交網絡中的群體:已知地理社交網絡,,,群體v由中的n個節點組成,節點的種類(v){,},(v)是由v生成的子圖,即(v) ∈,v?, 以及E?。 本文主要研究的推薦服務對象是用戶群體U=v?。
地理社交網絡中的群體推薦:已知地理社交網,,,目標用戶群體U以及群體中用戶的簽到活動記錄(U),常整數∈N,群體推薦是為目標用戶群體U推薦個活動構成的列表S,使得被推薦的活動是目標用戶群體可能喜歡、感興趣的活動。
已有的地理社交網絡中的面向群體活動的群體推薦算法,主要可以分為基于記憶的方法(memorybased methods)和基于模型的方法(model-based methods)。
現有,基于記憶的方法可分為基于記憶和基于模型兩種,其中,基于記憶的方法又可分為偏好聚合方法和分數聚合方法。
偏好聚合方法是基于群體中所有用戶偏好為用戶群體推薦符合群體偏好的活動。 McCarthy 等人推出了一個在公共環境中協調組成員對音樂的偏好的系統,利用組成員偏好代理選擇最適合組成員偏好的音樂;Yu 等人通過合并用戶資料提供給多個觀眾,從而確保合并后的結果接近大多數用戶的偏好;Wang 等人設計了一種基于信任感知的虛擬協調器的社會群體推薦方法,集成了結果聚合和匯總聚合兩種不同的聚合策略;Zou 等人主要解決的問題是消除社會群體推薦過程中的偏差,通過利用子群體偏好計算項目相關性,設計了一個群體推薦的局部優化框架;Minz 等人提出了一種社會群體推薦的共識方案,將多個專家的共識匯集到一個整體推薦列表中,每個專家代表群體中的一個人;Du 等人將群體推薦問題形式化為一個排序問題,提出了一種基于學習排序技術的群體事件推薦模型。
分數聚合方法是先預測群體中每個用戶在候選項目上的得分,通過預定義的策略來聚合群體內成員的預測得分,代表群體的偏好。 兩種最受歡迎的得分匯總算法是Average (AVG) ,Least Misery(LM)。 AVG 算法的核心思想是將群體中所有用戶個體對群體活動(item)打分取均值,將均值作為用戶群體對群體活動的打分,該算法將群體的打分均值作為目標函數;LM 算法是在用戶群體中選擇對活動(item)的最低打分作為整個用戶群體的打分,核心思想是讓群體中最可能不滿意的用戶都盡可能的滿意。
以上兩種方法中存在不足。 具體地,AVG 算法可能會返回一些對群體中某些成員有利但對其他成員不利的活動,而LM 最終可能會推薦一些沒有人喜歡的活動。 Baltrunas 等人指出,任何一種算法的表現都取決于群體規模和群體內用戶間相似性;Yahia等人考慮了群體成員在每個項目上的偏好分歧是不可避免的,即群體中用戶之間的相關性和不一致性,從而提高了AVG 和LM 算法的推薦質量。
基于模型的方法對群體推薦項目的決策過程建模。 Liu 等人提出了一個用于群體推薦的個人影響的主題模型,假設最有影響力的用戶應該代表群體,并對群體的決策有很大的影響;Yuan 等人認為群體活動的決策過程是受到群體中每個用戶對活動(item)的偏好主題以及整群體關于活動(item)的偏好主題的影響。 因此,提出一種綜合考慮活動(item)主題的共識模型來解決群體推薦問題,Hu 等人引入了深度學習建模框架,該算法對用戶群體中所有用戶的偏好進行綜合特征的學習與提取,該算法的優點是避免數據的脆弱性。
隨著注意力機制在深度學習以及認知科學中的廣泛應用,關于群體推薦研究中也開始將群體活動的決策過程通過注意力機制來體現和表示。 TRAN等人首次提出在群體活動中,群體中的成員往往可能只遵循少數用戶的決策,這些用戶是群體的領導者或專家,為了解決這一挑戰,TRAN 等人提出使用注意機制來捕捉組中每個用戶的影響;Yin 等人基于在群體活動中,每個用戶在不同活動以及群體中對活動的決策作用應該是不同的,因此提出了一種新的群體推薦系統,以注意機制和二部圖嵌入模型BGEM 為構建模塊,該算法采用關注機制來學習每個用戶的社會影響力,使其適應不同群體的社會影響力,并開發出一種新的深度社會影響力學習框架,挖掘和整合用戶的全局和局部社會網絡結構信息,進一步提高對用戶社會影響力的估計。
雖然現有研究已經對群體活動中的決策過程進行了分析和表示學習,采用啟發式或基于注意的偏好聚合策略來合成群體偏好,但是這些模型主要側重于用戶之間的成對連接,而忽略了群體內外復雜的高階交互。 此外,由于用戶群體-活動(item)之間的交互非常稀疏,使得群推薦存在嚴重的數據稀疏性問題。 Zhang 等人提出了一種用于群體推薦的自監督超圖學習框架,通過捕獲用戶群體內和群體間的交互來緩解原始數據本身的數據稀疏問題;Guo 等人提出了一種基于群體之間的相似性的群體推薦HyperGroup,通過基于學習到的群體成員個人偏好的超邊緣嵌入技術學習群體偏好,該方法主要目的也是克服群體活動中用戶群體與活動之間的交互信息稀疏的問題。
當前,地理社交網絡已經成為人們的主要社交平臺,主要可以分為兩種社交網絡:基于位置的社交網絡(LBSN)以及基于事件(活動)的社交網絡(EBSN)。 其中,EBSN 是一種典型的面向群體活動的社交平臺,因此,在異構地理社交網中做群體推薦相關研究時,主要在EBSN 的數據集上,由于部分研究需要考慮到EBSN關于單個用戶的個性化偏好分析,LBSN 可以為單個用戶的偏好建模提供相對完備的數據基礎。 本文給出在異構地理社交網絡中主要使用的公開數據集:Weeplace、Yelp、Mafengwo、CAMRa2011、Douban、Gowalla,以及數據中的統計內容。 具體信息見表1。

表1 群體推薦主要使用的實驗數據集Tab. 1 The main experiment datasets in Group Recommendation Research
現有研究中,面向群體推薦的評價指標主要有:準確率、召回率、標準化貼現累積、命中率以及平均倒數排名。
準確率Precision Rate (Pre),式(1)~(2):



標準化貼現累積Normalized Discounted Cumulative Gainn (nDCG),式(5)~(7):

其中,rel表示對目標用戶是否接受被推薦的內容:如果接受,則rel=1,反之,rel=0; maxDCG表示對目標用戶的最優推薦列表的值,這樣做的目的是為了保證nDCG@的取值范圍在01 之間。
命中率Hit Ratio (HR):

其中,對于測試集中的每一個組-項交互(U,),#@是指在測試集中的數量,|D|表示測試用例的總數。
首先計算項目和所有候選項目的排名得分;選取排名分數最高的個項目作為Top推薦列表。 如果項目出現在這個列表中,就有一個命中。否則,就錯過了。
平均倒數排名Mean Reciprocal Rank (MRR),表示正確檢索結果值在檢索結果中的排名,用來評估檢索系統的性能,式(9):

其中,|D|表示測試用例的總數,表示測試用例中用戶群體交互過的項目,在推薦列表中第一個在ground-truth 中的項目所在的排列位置。
一個好的推薦模型應該有較大的值。
根據本文對現有群體推薦相關研究的分析,發現大部分已有研究忽略了群體活動中用戶群體的組建方式對推薦結果的影響,以及用戶在個體活動和群體活動中的偏好區別上的分析。 事實上,在地理社交網絡中面向群體活動的群體推薦應該考慮現實生活中,許多參加活動的群體都是因為活動本身而組建的。 因此,在面向這種情況的群體推薦,應該考慮群體組件與活動本身之間的相互影響、相互作用以及群體中的用戶與活動之間歷史的交互行為。
基于以上分析,關于地理社交網絡中的群體推薦中關于群體組建過程與活動之間的因果關系的建模將成為接下來的亟待解決的問題。
本文對地理社交網絡中群體推薦相關研究進行了全面的綜述。 展示了在這個新興的研究領域中,大量最近的研究論文的深刻發現;基于群體推薦算法的數據建模的機理,將群體推薦算法分為基于記憶的方法和基于模型的方法;介紹了群體推薦算法相關研究的數據集以及廣泛使用的評價指標;最后,基于對已有研究的分析,本文提出了面向群體推薦,群體組建過程與活動之間的因果關系的建模將成為接下來的亟待解決的問題。