基于協同過濾推薦的社交網絡行為推斷方法

2021-11-17 04:32:00王慧穎王文樂

計算機仿真 2021年2期

王慧穎，王文樂

(1. 江西科技師范大學理工學院，江西南昌 330100；2. 江西師范大學軟件學院，江西南昌 330022)

1 引言

作為社會化媒體的關鍵平臺，社交網絡的應用量一直呈大幅度上漲趨勢[1]，當前的國內社交網絡用戶數量總和已經突破9億人次，且活躍用戶占據較大比例，其中，用戶主體多為影響力極大的高校學生、白領等社會群體。社交網絡的普及基于信息傳播技術的根本改變，轉變了人們生活、工作、交往以及思維的方式，并對社會的各行各業與人類發展產生了深遠影響。社交網絡的用戶行為特征研究，既有助于營銷推廣企業所提供的服務與產品，還為相關部門合理監控、干預網絡輿論給予理論支撐。

文獻[2]圍繞人類動力學研究視角，研究網絡輿論生態環境的構建要素，對在線社交用戶信息傳播行為特征進行了實證分析，為網絡輿情生態環境的完善提供參考，但是其推斷結果誤差較大。文獻[3]提出一種融合用戶信任關系及詞相關關系的詞特征重建方法，在新浪微博和Twitter的四組數據集上進行實驗，取得較好的詞特征重建結果，但是在劃分用戶行為時參考指標單一。文獻[4]構建融合多源異構數據混合推薦模型，取前N個商家推薦給用戶，利用機器學習方法，預測用戶對商家的評分并對商家進行排序，依據排序結果，可更全面地反映用戶個人偏好，但是其計算量較大，推斷結果得不到保證。

對此，本文提出一種基于協同過濾推薦的社交網絡行為推斷方法，創新依據行為序列的時效影響者選擇、社交影響時效偏好選擇以及偏好領域內時效物品選取，得到行為事件的發生概率，通過降序排列候選物品采集概率，完成社交網絡行為推斷。

2 協同過濾推薦方法

社交網絡推薦共分三種：標簽推薦、人物推薦以及諸如視頻、新聞以及博客等內容信息推薦。在用戶社交網絡信任關系的推薦里，將用戶間的社交網絡關系看成圖1所示的關系圖，框中為用戶，數字表示用戶間信任關系的強弱度，箭頭指代的是好友關注形式。

圖1 用戶社交網絡關系示意圖

根據圖1，依據社交網絡關系圖對用戶間的信任關系進行估算，將所得信任值作為用戶相似度后，采用協同過濾法求取推薦結果。信任值估算方法的目的是推斷出源用戶對目標用戶的信任值。

協同過濾推薦算法的核心理念為基于鄰近用戶間的交互信息，完成信任值的估算，采用加權平均法對非鄰域用戶間的信任值進行遞歸運算。通過轉換信任值為相似度，利用協同過濾理念實現最終推薦，信任用戶集合的協同過濾算法表達式如下所示

(1)

假設某社交網絡平臺的普通用戶集合為U，明星賬戶集合為C，則普通用戶對明星賬戶的關注數據，可以應用下列表達式進行描述

R=|U|×|C|

(2)

如果用戶u∈U，項目i∈C，評價矩陣為R，那么，用戶u對項目i的標注表示為rui∈{-1，0，1}，其中，“-1”說明用戶u拒絕關注項目i，“0”表明用戶還未標注過項目，“1”則表示用戶對項目已經關注。已知社交網絡平臺的名人候選集合列表為L，如下式所示

(3)

依據P(u，i)得到用戶u對項目i的偏好程度，通過偏好程度實施候選列表項目的排序，從中選取最高得分的前N個項目Su當成用戶推薦。

依據一定的相似度模型對指定用戶鄰居集合進行計算，以使噪音得到抑制，提升推薦準確性，采取相似度加權平均鄰居集合的用戶標注，推算出最終預測結果。用戶的社交網絡信息通常由內容、社交關系網以及社交活動構成，利用線性融合方法結合三種信息，創建用戶相似度模型，表達式如下所示

social_sim(u，v)

=α*simc(u，v)+β*simn(u，v)+γ*simα(u，v)

(4)

式中，社交網絡內容的用戶相似度為simc(u，v)，社交網絡關系的用戶相似度為simn(u，v)，社交網絡活動的用戶相似度為simα(u，v)，相似度占據的對應權值分別是α、β和γ。

1)社交網絡內容相似度：在社交網絡平臺上抽取段時間內關鍵詞[5]，進行整合后得到一個字典W，若其中所含詞匯量是n，已知一個用戶u，則采用下列表達式表示該用戶的檔案矢量

profile(u)=〈vu(w1)，vu(w2)，…，vu(wn)〉

(5)

式中，wi∈W，用戶u檔案矢量內第i個關鍵詞的權值為vu(wi)，用于描述用戶u對wi的偏好程度。

關鍵詞處理過程中，詞匯重要程度的評估指標為tfidf，即詞頻-反文檔頻率，一個詞在文件中出現的次數越多，重要性越強。通過下列各式完成詞頻-反文檔頻率指標界定

(6)

(7)

Rtfidf(t，d，D)=tf(t，d)×idf(t，D)

(8)

式中，詞匯表示為t，文檔為d，詞匯t的反文檔頻率是Ridf(t，D)，詞匯t在文檔d里出現的次數，即初始頻率，為f(t，D)。

同理，采用詞頻-反用戶頻率(即tfiuf)評價用戶對關鍵詞的偏好程度，其界定公式如下所示

(9)

(10)

Rtfiuf(t，u，U)=Rtf(t，u)×Ridf(t，U)

(11)

式中，用戶發布的社交網絡內容為d(u)，用戶集合為U，詞匯t在用戶u社交網絡內容中的出現頻率為Rtf(t，u)，詞匯t反用戶頻率為Ridf(t，U)，詞匯t在d(u)內的出現頻率為f(t，d(u))。

解得用戶檔案矢量的詞匯權值，通過各矢量間的余弦相似度[6]，評估用戶偏好相似度。下式所示為矢量V1與V2的余弦相似度

(12)

從而推導出下列用戶u與用戶a的偏好相似度表達式

simc(u，a)=cosine(profile(u)，profile(a))

(13)

2)社交關系網相似度：一般通過下列表達式對關系網的非對稱關系進行描述：

(14)

3)社交網絡活動相似度：依據提及、轉發以及評論三種交互形式的頻繁程度，衡量用戶間的偏好相似性。該相似度的構建通過下列公式得以實現：

(15)

式中，與用戶u有過交互的用戶集合為Au，用戶之間提及、回復以及評論過的總次數分別為Pmenuv、Prepuv和Pcomuv。分母作為歸一化因子，指代的是用戶之間的交互次數極大值。

依據社交網絡信息與評價矩陣信息，架構變權值杰卡德相似度模型與社交網絡信息用戶相似度模型，兩者所選的鄰居集合與控制閾值都各不相同。

已知待預測標注rui，評價矩陣信息的鄰居選取由下列公式完成

Tu={v|v∈U∧rating_sim(u，v)>φ}

(16)

式中，評價矩陣信息鄰居集合為Tu，相似度閾值為φ，變權值的杰卡德相似度為rating_sim。

而社交網絡信息的鄰居選取則通過下列公式達成

Su={v|v∈U∧social·sim(u，v)>η}

(17)

式中，社交網絡信息鄰居集合為Su，相似度閾值為η，社交網絡信息用戶相似度為social_sim。在為活躍用戶提供推薦信息的過程中，評價矩陣信息密度將大幅度提升，降低了無法搜索鄰居集合的概率。

3 基于協同過濾推薦的社交網絡行為推斷方法

已知一次物品采集行為是B(U=u，V=v，A，t)，該事件中的行為序列A共含有以下三種潛在行為：

1)時效影響者選擇：對該事件的行為影響者f進行選取，表示為aINF(u→f;t)；

()基于社交影響的時效偏好選擇：以影響者f的興趣偏好為參考標準，對某個喜好領域z實施選擇，該選取階段用aINT(f→z;t)表示；

3)偏好領域內時效物品選取：在所選的喜好領域z里挑選一個物品v，標記為aITM(z→v;t)。

因此，推導出下列用戶行為序列表達式

A=[aINF(u→f;t)，aINT(f→z;t)，aITM(z→v;t)]

(18)

假設Φ={Φα，Φβ，Φγ}為三種潛在行為相關的動態偏好空間與行為推斷的參數集合[7-8]，則用戶u在t時刻對物品v進行采集的行為產生概率如下

(19)

由于推斷階段的行為事件B為可見數據，而影響者f與偏好領域z均是不可見數據，所以，根據已知參數Φ，采用下列公式對行為事件B的對數似然函數進行描述，依據已知的用戶u與時刻t，對一組候選物品集合進行推導，得到V′?V，關于集合中的所有候選物品v∈V′，均通過下列公式完成該物品用戶采集概率的求解：

P(v|u;t，Φ)

(20)

按照降序將計算得到的各候選物品采集概率進行排列，生成采集可能性較高的物品集合，該集合即為發生可能性最大的用戶行為。

同理，可以得出時間段中行為發生概率。假定時間段[ts，te]的開始、結束時間分別是ts和te，那么，用戶u在[ts，te]時間段中物品采集行為的事件發生概率，采用下列計算公式求取

(21)

4 仿真研究

4.1 仿真環境

仿真環境的計算機配置為Windows10操作系統，8GB運行內存，英特爾酷睿i5-3579處理器，軟件部分采用Matlab R2012a版本。

測試集數據采集了1500個用戶的社交網絡信息，男女比例為4：6，單個用戶評論數量多達上萬條，少則幾十條，平均評論數量約為800條。

4.2 交互時間長度

將1500個用戶的社交網絡信息分為30組，每組包括50個用戶，形成信息集，以此進行交互時間長度即用戶持續使用時間測試，測試結果如圖2所示。

圖2

由圖2可知，與其它方法相比，本文方法在不同的在線時間驗證內，可以有效擬合理想用戶持續使用時間，擬合程度高達92%，說明其減少監控和統計過程的數據量計算，為社交網絡行為推斷提供便利。

4.3 精準率與召回率

針對已知的用戶集U={(x1，y1)，…，(xm，ym)}，依據真實結果與學習器預測推斷結果，分類成TP、FP、TN以及FN四種情況，TP表示實際正確且推斷也正確的真正例，同理，FP、TN以及FN分別為假正例、真反例與假反例。

推斷方法的性能可以由精準率P與召回率R兩個參數指標進行評估，表達式如下所示

(22)

(23)

將兩指標融合得到F1度量方法，以提升評估準確性，度量法公式如下

(24)

為了驗證本文方法的有效性與適用性，分別采用文獻[2]、文獻[3]和文獻[4]方法與本文方法，對兩個不同的社交網絡平臺(微信和微博)用戶進行行為推斷，得到各平臺對應的推斷性能對比圖。

圖3 各平臺性能對比圖

通過圖3可以看出，其它文獻方法的度量系數較低，且增加幅度極小，相比之下，本文方法的度量系數平均在0.97左右，最低數值低于0.9，其它平臺都相對更高，最高數值甚至趨近于1。從兩種方法的度量系數曲線走勢能夠發現，本文方法始終有上升趨勢，且明顯高于傳統方法數值，性能優勢顯著。

5 結論

1)架構一種基于協同過濾推薦的社交網絡行為推斷方法。以社交網絡內容、社交關系網以及社交網絡活動的相似度模型，對候選物品的采集行為發生概率進行計算，通過降序排序使用戶行為推斷得以實現。

2)通過所建簡化用戶的社交網絡行為，生成物品采集行為事件，根據行為序列的時效影響者、時效偏好選擇和時效物品選取潛在行為，最終交互時間長度與實際擬合度為92%。

3)該方法在微博和微信上的推斷性能得到驗證，其度量系數平均在0.97左右，為后續研究奠定了夯實的理論基礎，具有重要的現實意義與實踐價值。