劉子圖 全紫薇 毛如柏 劉 勇 朱敬華
(黑龍江大學計算機科學技術學院 哈爾濱 150080)
近年來隨著社交網絡的快速發展,越來越多的用戶使用新浪微博、Twitter、Facebook等社交網站分享自己的生活.據統計Facebook截至2018年12月31日每月的活躍用戶超過23億[1].由此可見社交網已經成為許多人生活的一部分.與此同時各大社交平臺也在促進著各種消息的快速傳播.例如在新浪微博上平均每天有幾億條微博產生,在每天產生的微博中會包含很多重要信息.用戶更新一條微博可能包含著用戶對某消息的態度和觀點[2],也可能是分享身邊的新鮮事[3].預測消息的傳播范圍在病毒營銷、輿情監控、商品推薦等諸多領域都有廣泛的應用,因此受到了數據挖掘領域的廣泛關注.
目前對消息傳播范圍進行預測所使用的方法主要有2種:1)根據消息特征或者消息的特定類型進行傳播范圍預測.例如:可以根據發布的Twitter是否帶有標志性的圖片從而預測它在Facebook上的傳播范圍[4];也可以通過分析發布的Twitter是否包含對消息傳播有利的內容來預測它的傳播范圍[5].然而使用消息特征預測消息傳播范圍顯然不能推廣到不同的平臺.2)使用社交網絡中用戶的拓撲結構[5-7]或消息的轉發結構[8]來預測消息傳播范圍.然而在很多實際應用中,我們很難獲得消息的傳播結構以及用戶的拓撲結構,通常只能獲得消息的傳播序列.例如在豆瓣網中,對于電影的影評只顯示用戶在什么時間評價了電影,而沒有表明用戶因為受到哪些用戶影響才評價該電影.因此,只利用消息的傳播序列而不考慮用戶的拓撲結構來預測消息的傳播范圍具有更廣泛的應用場景.
本文研究了無拓撲結構條件下的消息傳播范圍預測問題,提出了一種無拓撲結構的消息傳播范圍預測方法NT-EP.該方法由4部分構成:1)利用消息傳播隨時間衰減的特性為每個消息構造一個加權的傳播圖,在傳播圖上使用隨機游走策略獲取多條傳播路徑,再使用Word2vec方法計算每個用戶的特征向量;2)把目標消息的傳播路徑替換成用戶的特征向量序列輸入到雙向門控制循環神經網絡(bidirectional gated recurrent unite, Bi-GRU),結合注意力機制計算出目標消息的傳播特征向量;3)考慮到不同消息傳播可能存在的相互影響,利用目標消息發生前的其他消息,使用梯度下降方法計算出其他消息的影響向量;4)將目標消息的傳播特征向量和其他消息的影響向量結合在一起,使用多層感知機(multilayer perceptron, MLP)擬合出目標消息的傳播范圍.與其他方法相比,NT-EP方法具有2個明顯的創新:1)首次考慮了消息之間的相互影響;2)利用消息傳播隨時間衰減特性為每條消息構造加權傳播圖,抽取傳播路徑.
NT-EP方法充分考慮了消息之間的相互影響.這是因為在消息的傳播過程中,消息與消息之間必然會產生影響.例如在公布個人所得稅起征點改革消息之后的一段時間內,用戶會增加對包含具體稅率改革內容的消息的關注.因此個人所得稅起征點改革消息對有相關內容的消息傳播產生了影響.消息傳播中的相互影響來自于2方面:1)來源于消息本身的內容,也就是消息本身是否為熱點消息,是否會被普遍關注;2)來源于已經參與消息傳播的用戶對于其他消息傳播的影響.在一段時間內,用戶使用社交網絡的時間上限是固定的.用戶瀏覽某些消息的時間更多意味著用戶瀏覽其他消息的時間會減少.因此本文方法NT-EP考慮了目標消息發生前后其他消息對目標消息可能存在的各種影響,構造了其他消息的影響向量,結合目標消息的傳播特征向量來預測目標消息的傳播范圍.本文實驗部分比較了利用消息影響與不利用消息影響NT-EP方法的2種變體,證明了消息影響對范圍預測的重要性.
NT-EP方法根據傳播序列構造加權傳播圖,來模擬接近真實傳播軌跡的傳播路徑.在無拓撲結構的條件下,我們只有用戶的動作序列.但是用戶在接受消息過程中必然會受到之前接受相同消息用戶的影響,而且影響強度依賴于接受消息的時間差.假設在消息a傳播過程中用戶V1接受了消息a,在用戶V1之前用戶V2和用戶V3也接受消息a,并且用戶V2接受的時間早于用戶V3,那么直覺上用戶V3對用戶V1接受消息影響更大.根據消息傳播隨消息衰減的特性,我們構造有向邊V2→V1和V3→V1,V3→V1邊上的權值大于V2→V1,邊上的權值代表了影響強度,權值依賴于2個用戶接受消息的時間差.NT-EP方法按照這種方式為每個消息構造一個隨時間衰減的傳播圖,然后使用隨機游走策略抽取多條傳播路徑,這些傳播路徑更接近于真實的傳播軌跡.本文實驗部分構造了NT-EP方法的2種變體,一種利用時間衰減構造傳播圖,另一種不利用時間衰減構造傳播圖,比較了這2種變體的性能,再次證明了消息傳播符合時間衰減特性.本文的貢獻有4個方面:
1) 提出了一種新的無拓撲結構條件下的消息傳播范圍預測方法NT-EP.
2) NT-EP利用了消息之間的相互影響,提高了消息傳播范圍預測的準確性.
3) NT-EP利用了消息傳播隨時間衰減的特性為消息構造加權傳播圖,使得抽取的隨機游走路徑更接近真實的傳播軌跡,提高了消息傳播范圍預測的準確性.
4) 實驗結果表明,NT-EP能對無拓撲結構條件下的消息傳播范圍進行準確預測,并且預測效果明顯優于現有的方法.
本文源碼和數據可以從https://github.com/Vimotus/NT-EP下載.
在社交網中消息的傳播范圍包括微博或Twitter在一定時間內的轉發數[4-5,9-11]、照片的被瀏覽數[2]、視頻被點贊的次數[12-14]、學術論文在一定時間內被引用的次數[15]等多種情況.相關工作大致可以分為3類:1)利用消息本身的特征進行預測;2)利用消息的傳播序列和用戶的社交關系進行預測;3)只利用消息的傳播序列進行預測.
消息特征或者消息的特定類型可以幫助預測消息的傳播范圍.例如文獻[4]根據發布的Twitter是否帶有標志性的圖片來預測它在Facebook上的轉發次數;文獻[12]分析視頻在規定的時間段內觀看人數的增長量來預測消息被觀看的次數.然而消息的傳播范圍除了消息本身的特征,更多依賴發布消息或者轉發消息用戶的影響力,因此此類方法預測效果一般,而且不易推廣到其他平臺.
目前的絕大多數研究都是利用消息的傳播序列和用戶的社交關系進行預測.該類方法又可分為2種:1)將消息傳播預測視為分類問題,通過預測傳播范圍是否會超過某個閾值來預測某個消息是否會變成流行消息[7,12,14];2)將消息傳播范圍預測看作回歸問題,預測消息的最終傳播范圍或者截止到某一時刻的傳播范圍.此類研究通常使用確定的時間屬性[12]、早期消息傳播的拓撲結構[6,15-16]以及用戶的拓撲結構[17],來進行傳播范圍預測.文獻[18]學習多數消息傳播過程中的普遍拓撲結構預測消息傳播范圍.此類方法需要消息的傳播結構或者用戶的拓撲結構,但實際應用中這些信息不易獲得.
目前在無拓撲結構(用戶社交關系)條件下,對消息傳播范圍預測的研究相對較少.2010年Gomez-Rodriguez等人[19]利用用戶被影響的時間特征推斷消息傳播的路徑,然后累加路徑上的用戶數計算傳播范圍.2012年Simma等人[20]提出了基于連續時間和霍克斯進程的隨機過程范圍預測模型.2014年Bourigault等人[21]提出了基于學習映射觀察動態時間對連續空間的影響,將參與擴散的節點投射到潛在的表達空間,然后計算用戶向量的相似性判斷用戶是否會被另一個用戶影響.2016年Bourigault等人[22]使用用戶表達空間,將用戶的影響能力映射到一個多維空間中,通過計算多維空間中2個向量的距離來計算是否會被影響.
現有方法并沒有考慮消息在傳播過程中會存在相互影響的情況.本文利用了消息之間的相互影響,提出了一種無拓撲結構的傳播范圍預測方法NT-EP,該方法具有5個優勢:1)是一種端對端的學習框架;2)適用于無拓撲結構;3)考慮了消息傳播過程中的相互作用;4)抽取的隨機游走路徑更接近真實的傳播路徑;5)結合目標消息的傳播向量和其他消息的影響向量,同時利用注意力機制預測傳播范圍,使預測結果更準確.

對于無拓撲結構下社交消息傳播預測問題,本文提出了一種新的社交消息傳播范圍預測方法NT-EP,其框架如圖1所示.方法NT-EP首先根據消息動作日志中的傳播時間差為每個消息構造一個加權的傳播圖,如圖1的①②所示.傳播圖邊上的數字代表用戶之間的影響概率.在傳播圖構造完成之后,使用隨機游走方式從傳播圖中提取若干條該消息可能的傳播路徑,如圖1的③所示,然后使用Word2vec方法計算出每個用戶的初始的特征向量.傳播路徑上的每個用戶獲得初始的特征向量后,再將消息的傳播路徑送入Bi-GRU中得到用戶的最終向量表示,如圖1的④所示.傳播路徑上的每個用戶獲得最終的特征向量后,再結合注意力機制計算出每個消息的傳播特征向量,如圖1的⑩所示.
在消息傳播過程中,不同消息之間會存在相互影響.因此我們也必須計算目標消息發生前其他消息的可能影響.如圖1的⑤~⑧所示,使用和目標消息類似的方式,構造加權傳播圖、隨機游走、Word2vec等方法計算其他消息參與用戶的特征向量,然后構造其他消息的傳播向量.
此后,使用梯度下降方法計算出其他消息的影響向量,如圖1的⑨所示.最后NT-EP方法將目標消息的傳播特征向量和其他消息的影響向量結合在一起,使用MLP擬合出目標消息的增量傳播范圍,如圖1的所示.

Fig.1 NT-EP method framework圖1 NT-EP方法的框架
給定的動作日志通常對每個消息的動作按照傳播時間排序,如圖2的①所示.用戶V1在時間1接受了消息A1,用戶V2在時間2接受了消息A1,….從給定的動作日志中我們無法獲得消息真實的傳播軌跡.因為真實的情況可能是:用戶V3在時間3接受了消息A1可能是因為用戶V3和用戶V1是朋友,并且用戶V3看到了用戶V1接受了消息A1,從而影響用戶V3也接受了消息A1.用戶V3不認識用戶V2,V3接受了消息A1從來沒有受到用戶V2的影響.這樣的真實傳播軌跡在沒有用戶社交關系的條件下是無法獲得的.
根據社交網上消息傳播呈指數衰減特性[13],我們有理由認為當用戶V3接受消息A1的時候,用戶V2影響的概率大于用戶V1影響的概率,因為V2接受消息A1的時間離V3接受消息A1的時間更近.因此,我們根據2個用戶接受消息的時間差來刻畫2個用戶的影響.假設用戶Vi和Vj接受消息的時間分別為ti和tj,并且ti w(ti,tj)=e-μ(tj-ti), (1) 其中,μ為調整時間差影響的超參數,實驗中給出了該參數的選擇過程.計算出每個消息中用戶之間的影響概率后,我們可以根據影響概率為每個消息構造一個加權圖來模擬該消息的真實傳播軌跡.如圖2的②所示,如果在消息A1中用戶V1接受消息A1的時間早于用戶V2接受消息A1的時間,則從用戶V1引出一條邊指向用戶V2,邊上的權值表示用戶V1對用戶V2的影響概率,由式(1)計算.在得到加權圖后,我們再對加權圖歸一化,使得每個節點出邊的概率和為1,如圖2的③所示.為了模擬真實的傳播路徑,我們在歸一化的加權圖上根據邊上的概率進行隨機游走.每次游走的開始節點都是接受消息的第1個用戶,例如圖2的③中的V1.針對每個消息,我們采樣K條路徑,并且每條路徑的長度為T.當游走過程中遇到某條路徑長度小于T的時候,在后面若干補充位,讓每條路徑長度都等于T.在抽取了所有消息的傳播路徑后,我們使用詞向量方法Word2vec計算每個用戶的初始特征向量,細節見3.3節. Fig.2 Constructing a weighted graph of message propagation圖2 構造消息傳播的加權圖 社交網中消息與消息之間存在著不同程度的聯系,一個消息的傳播可能促進或者抑制另一個消息的傳播.例如國家個人所得稅更改方案公布時,短時間內對稅率信息查詢有促進傳播的作用.此外,用戶上網瀏覽消息的時間有限,對于某些消息的關注增加,對其他消息的關注就會降低. 下面介紹其他消息對目標消息的影響能力.該影響能力通過一個影響向量來刻畫.設當前的目標消息為a,a發生時間為ta.如果消息A1在消息a之前發生,并且消息A1的發生時間與消息a的發生時間距離較近,那么消息A1的傳播很可能會對消息a的傳播產生影響.基于這一思想,我們獲取在ta之前很短的時間段τ內發生的消息集合Sa={A1,A2,…,Am},該集合內每個消息對消息a傳播的影響都需要考慮.假設影響消息集合Sa={A1,A2,…,Am}中每個消息截至時刻ta的傳播范圍分別為n1,n2,…,nm,發生時間分別為t1,t2,…,tm,并且滿足t1 (2) 消息Ai的傳播能力pi來自于參與消息Ai的用戶傳播能力,因此消息Ai的傳播能力pi可以表示為 (3) 其中,pi表示影響消息Ai的傳播向量,xj是使用Word2vec的skip-gram模型從傳播路徑上得到的用戶向量,因為消息ei的傳播范圍為ni,所以有ni個不同的用戶向量xj.對于消息ei的影響向量qi,本文使用梯度下降算法求解,使式(2)的目標函數最小化,具體算法如算法1所示.在得到影響消息集合Sa={A1,A2,…,Am}中每個消息的影響向量{q1,q2,…,qk}后,我們計算整個消息集合Sa對當前目標消息a的影響向量qSa. (4) 算法1.計算其他消息影響向量. 輸入:其他消息的傳播向量pi(i=1,2,…,m)、其他消息的當前傳播范圍ni(i=1,2,…,m)、學習率λ; 輸出:其他消息的影響向量qi(i=1,2,…,m). ① Initqi(i=1,2,…,m); ② repeat ④qi←qi-λΔg; ⑤ until convergence. 在抽取了所有消息的傳播路徑后,我們將每條傳播路徑當作一個句子,路徑上的每個用戶當作句子中的單詞,輸入到Word2vec[16]的skip-gram模型中,得到每個用戶初始的特征向量.假設用戶特征向量的維度為H. 為了知道消息在傳播過程中會被哪些用戶影響,我們使用相同的方法再從后向前處理路徑上的每個用戶.因此本文使用的是雙向GRU(Bi-GRU),拼接隱藏狀態的輸出得到對應用戶的最終向量表示.具體通過式(5)對用戶向量進行更新: (5) 其中j表示傳播路徑中第j個節點,模型輸入的用戶節點向量xj和隱藏狀態hi-1一起作為輸入,并通過GRU的公式計算更新.其中W和U作為訓練期間學習的GRU參數. 如圖1的④所示,每條傳播路徑經過GRU處理后,會得到該路徑上每個用戶的最終向量表示h1,h2,…;然后我們使用注意力機制合并這些用戶的最終向量表示h1,h2,…,計算該傳播路徑的向量表示;最后對所有傳播路徑的向量表示累加求和,得到目標消息傳播向量pa: (6) 目標消息a的傳播范圍依賴于目標消息a的傳播向量pa和其他消息的影響向量qSa,因此我們將目標消息a的傳播向量pa和其他消息的影響向量qSa融合為一條向量la,即: la=pa+αqSa, (7) 其中,α為其他消息影響向量的權重,實驗部分給出了參數α的選擇過程.將融合后的向量la作為一個多層感知機的輸入,輸出預測的傳播范圍f(a)=fMLP(la),其中MLP為一個多層感知機,f(a)為消息a的預測傳播范圍. 本文中我們使用2套無拓撲結構的傳播數據進行實驗并對結果評估.數據描述如表1所示: Table1 Dataset Statistics表1 實驗數據描述 1) 微博[18].微博是基于用戶關系的信息分享、傳播的社交媒體.我們從論文中提供的數據中選取在2012-09-28—2012-10-29之間發生的1 280個消息的動作日志.截取的數據中包含261 839個用戶、1 280個消息以及933 683條傳播記錄. 2) Flixster[11].Flixster是一個電影社交網站,可以讓用戶分享電影的評分,討論新的電影.我們使用1 000個消息的動作日志.其中包含109 816個用戶和581 202條傳播記錄. 實驗中預測消息傳播范圍時通過調整時間長度t和Δt來選擇預測的時間區間.t表示消息從發生開始到當前時刻所經過的時間,也就是消息已經發生了多久;Δt表示在時間t之后的時間長度.實驗中我們選擇t與Δt的大小分別為12 h,24 h,36 h來對消息的傳播范圍進行預測.實驗中需要進行其他消息影響向量和用戶特征向量占用空間存儲.實驗中將數據按7∶1∶2的比例分為訓練集、驗證集、測試集.數據集中每個消息的全部動作日志只出現在訓練集、測試集、驗證集中的一個.我們在訓練集中訓練模型,在驗證集中調整超參數,在測試集中測試方法的性能. 本文使用均方誤差(mean squared error, MSE)來評估傳播范圍預測效果.這是回歸任務中常見的評估指標.它是由預測值與真實值差的平方和求平均得到,定義為 (8) 本文使用精確率、召回率、F1_score來評估消息熱點預測效果.在熱點消息預測時,我們只進行采樣12 h的傳播并預測消息的最終傳播范圍.實驗中設置一個閾值,超過閾值會被認為是熱點消息,實驗中選擇的閾值為1 000.具體如下: 1)TP(真正例).TP表示預測傳播范圍大于閾值,并且實際傳播范圍大于閾值的消息數. 2)FN(假負例).FN表示預測傳播范圍大于閾值,但實際傳播范圍小于閾值的消息數. 3)FP(假正例).FP表示預測傳播范圍小于閾值,但實際傳播范圍大于閾值的消息數. 4)TN(真負例).TN表示預測傳播范圍小于閾值,并且實際傳播范圍小于閾值的消息數. 5) 精確率P(precision).P表示在所有被預測為熱點的消息中,實際為熱點的消息所占的百分比,即: (9) 6) 召回率R(recall).R表示在所有實際為熱點的消息中,被預測為熱點的消息所占的百分比,即: (10) 7)F1分數(F1_score).F1_score是統計學中同時兼顧精確率和召回率的一種指標,即: (11) 1) Embedding-IC[19].它是一種嵌入版本的獨立級聯模型,充分考慮用戶之間的相互影響,把用戶嵌入到隱藏投影空間中,借助EM(expectation-maximization)算法求發送方和接收方的嵌入向量,推測傳播概率.根據計算出的傳播概率計算最終消息傳播范圍. 2) Deepcas[6].它是一種消息傳播范圍預測方法.通過隨機采樣獲得消息擴散的路徑,使用GRU網絡將路徑轉換為路徑的表達向量.最后通過注意力機制來預測消息的傳播范圍. 3) NT-EP-T.它是NT-EP的一種變體.通過時間衰減游走采樣傳播路徑,不利用消息的相互影響. 4) NT-EP-R.它是NT-EP的一種變體.不使用時間衰減游走(使用傳統的隨機游走)采樣傳播路徑,但是利用消息的相互影響. 實驗中,傳播序列的選擇算法使用C語言編寫,在VS環境下編譯運行,對比算法也使用C語言編寫.NT-EP中神經網絡部分使用python語言和tensorflow框架編寫,在Anaconda3環境下編譯運行.評價標準也使用python語言進行處理.所使用的臺式機環境為Intel?Core i7-7700K 4.2 GHz CPU,16 GB RAM,操作系統為Windows10. Fig.3 Influence of different d of user vector on MSE圖3 用戶向量不同維度d對MSE的影響 我們在驗證集中調整模型的超參數,包括用戶向量維度d、其他消息影響向量的權重α、時間差的影響參數μ、學習率λ、消息抽取的路徑數K、路徑長度T等.實驗中設置算法1中計算消息影響向量的學習率λ=0.000 5. 參數選擇均使用微博數據進行實驗,采樣12 h傳播序列,預測未來12 h傳播范圍,圖3~7為不同參數下NT-EP方法的MSE值.我們先隨機固定其他參數來考察用戶向量維度d對MSE的影響,實驗結果如圖3所示.隨著維度d的增加,MSE的值在逐漸減小,表明預測效果越來越好;但當維度超過50時,預測效果改善并不明顯.為了平衡預測效果和運行時間,本文后面的所有實驗都采用用戶向量維度d=50. Fig.4 Influence of different α of selection on MSE圖4 α選取對MSE的影響 Fig.5 Influence of μ value selection on MSE圖5 μ值選取對MSE的影響 Fig.6 Influence of K value selection on MSE圖6 K值的選擇對MSE的影響 Fig.7 Influence of T value selection on MSE圖7 T值的選擇對MSE的影響 其他參數的選取也采用上述類似的處理方式.在選取其他消息影響向量的權重α時,我們固定用戶向量維度d=50.圖4為α選取過程,我們選取α時在0到1之間每0.2取值,其中α=0.8時MSE的取值最優,因此本文后面的所有實驗都采用α=0.8.圖5給出了參數μ的選擇過程,先固定用戶向量維度d=50和α=0.8,其他參數隨機選擇,觀察參數μ對MSE的影響,在μ=1時MSE值最小.因此后續實驗選擇μ=1時作為時間衰減游走采樣的參數值.傳播路徑數量K與傳播路徑長度T的選擇過程如圖6和圖7所示,因此后續實驗中我們固定K=200和T=10作為傳播路徑數量和傳播路徑長度. 不同方法對傳播范圍的預測效果如表2和表3所示.其中表2為微博數據上的實驗結果,實驗中分別采樣12 h,24 h,36 h,然后對未來12 h,24 h,36 h的傳播范圍預測.表3為Flixster數據集的實驗結果,實驗中分別采樣10 d,20 d,30 d,然后對未來10 d,20 d,30 d的傳播范圍預測.從表2和表3可以看出,本文方法NT-EP及其變體NT-EP-R和NT-EP-T的預測效果均優于對比方法Deepcas和Embedding-IC.表3中的實驗結果好于表2中的結果,其原因在于Flixster數據比微博數據的消息數更多、每個消息的傳播范圍更廣,能讓各種模型學習得更充分. Embedding-IC方法所在行只有一個實驗結果,因為Embedding-IC方法和時間長度Δt無關.Embedding-IC把所有用戶映射到一個向量空間中,通過距離計算用戶之間的影響概率.該方法考慮所有用戶對當前用戶的影響,導致許多無關的用戶也進行計算,但實際上激活時間上相近的用戶才可能產生影響,所以Embedding-IC方法很容易導致過擬合,預測效果較差.Deepcas使用傳統隨機游走采樣傳播路徑,沒有考慮時間差對傳播消息的影響,而且Deepcas也沒有考慮消息之間的相互影響,因此預測效果并不理想. Table 2 MSE Result of Weibo Dataset表2 微博數據傳播范圍預測MSE結果 Notes:tis the sampling time, Δtis the future sampling time, the best results are in bold. Table 3 MSE Result of Flixster Dataset表3 Flixster數據集傳播范圍預測結果 Notes:tis the sampling time, Δtis the future sampling time, the best results are in bold. NT-EP方法的變體NT-EP-T是通過時間衰減游走采樣傳播路徑,不利用消息的相互影響預測時間傳播范圍.從表2和表3可以看出,NT-EP-T優于Deepcas,說明時間差對消息的傳播起重要作用,消息之間確實存在相互影響.NT-EP的變體NT-EP-R利用消息的相互影響,但不使用時間衰減游走采樣傳播路徑.從表2和3可以看出,NT-EP方法同時考慮消息的相互影響與時間差對消息傳播的作用,預測效果明顯優于Deepcas,NT-EP-T和NT-EP-R. 為了進一步驗證本文方法的有效性,我們也對熱點消息進行了預測,實驗結果如表4所示.實驗中我們使用微博數據采樣12 h,對未來12 h,24 h,36 h是否會成為熱點消息進行預測,我們在實驗中設置的閾值為1 000.如果傳播范圍預測值大于閾值,則預測為熱點消息.實驗結果再次表明本文方法NT-EP優于現有方法,也再次證明了消息之間的相互影響確實存在以及消息傳播具有時間衰減等特性. Table 4 Precision,Recall,F1_score Results of Weibo Data表4 微博數據精確率、召回率、F1_score結果 Notes:tis the sampling time, the best results are in bold. 本文研究了無拓撲結構條件下的消息傳播范圍預測問題,提出一種社交消息傳播范圍預測方法NT-EP.NT-EP首次利用消息之間的相互影響來提高范圍預測的準確性.實驗結果表明:NT-EP在多個評價指標上優于現有的方法Deepcas和Embedding-IC.未來研究我們準備加入用戶興趣向量和用戶基本屬性進行范圍預測,以及增加多層注意力機制嘗試改善預測性能.
3.2 其他消息影響向量


3.3 目標消息傳播向量



3.4 傳播范圍預測
4 實驗結果及分析
4.1 實驗數據

4.2 評估指標




4.3 對比方法
4.4 參數選擇





4.5 實驗結果



5 結 論