湯小東,錢進(.四川大學計算機學院,成都 60065;.重慶市通信服務產業有限公司移動服務分公司,重慶 40400)
社交網絡中基于情感模型的用戶轉發行為預測
湯小東1,錢進2
(1.四川大學計算機學院,成都610065;2.重慶市通信服務產業有限公司移動服務分公司,重慶404100)
隨著互聯網技術的快速革新,社交網絡在信息傳播中的作用越來越重要。社交網絡為人們提供一個表達自己觀點和通過一系列行為(例如發布、轉發和點贊等行為方式)與他人建立溝通的平臺。在這個過程中將產生巨大的信息,如何利用這些信息將成為大多數研究者關注的核心問題。現如今,已經有很多學者從事預測用戶行為的研究工作。然而他們大多使用機器學習的方法進行分類或預測,很少會分析隱藏在用戶微博中的情感特征。但是這確實是分析用戶興趣與觀點的重要的因素。
Suh等人[1]使用Twitter的數據作為研究對象,他們分析了影響微博被轉發的幾種因素,結果表明微博是否包含了URL和話題標記對微博的轉發率有直接的影響,而微博作者的粉絲數,關注數和注冊時常對轉發率有間接影響,但是微博作者的微博數和轉發率基本無關。他沒有分析用戶對微博的主觀看法對轉發率的影響。Wu[2]介紹了一種信息擴散方式,并且實現了一種邏輯回歸模型來預測用戶轉發行為,但是他也忽略了基于文本的情感因素對預測結果的影響。
Naveed[3]介紹了一種基于微博內容特征的預測模型,他分析了用戶對微博內容的正向及負向態度對轉發率的影響,并且他設計了一種回歸模型來預測用戶的轉發。但是他卻忽略了周圍用戶群對轉發率的影響。Zaman[4]將微博與用戶的固有特征抽離出來進行分析,提出了一種概率協同模型來計算用戶轉發一條微博的概率。但是他沒有考慮用戶興趣與對應微博內容之間的聯系。
本文針對用戶對短文本內容的主觀看法,建立基于情感分析方法的主觀模型,并結合基于周圍鄰居對目標用戶轉發行為影響的用戶適應性模型,提出一種新的用戶轉發預測模型——混合模型。并設計實驗驗證混合模型可極大提升預測準確度。本文的主要貢獻如下所示:
(1)設計并實現周圍鄰居對目標用戶轉發行為影響的計算方法,并提出隨時間變化的迭代算法。
(2)設計并實現了基于情感分析的用戶對特定微博的話題相似度計算方法。
在社會心理學分析中,一個人第一次所做的決定往往是在潛意識中完成的。然后會根據周圍環境選擇改變行為或決定。這就是所謂的適應性。因此預測用戶在社交網絡中的行為時我們應該考慮到個人潛意識下的決定和環境的改變兩方面因素。我們做出以下假設:
假設1:用戶在社交網絡中的轉帖行為只受個人選擇和周邊人群選擇的影響;例如,在研究Twitter用戶的轉帖行為時,當用戶u0發布帖子w,我們將預測用戶u轉發該帖子w的概率。
假設2:用戶個人選擇只受用戶興趣的影響;即用戶與該微博的話題相似度。
為了測量用戶個人選擇對他的轉帖行為的影響,我們基于假設2來建立用戶主觀模型;在主觀模型中,我們考慮用戶兩方面因素來計算話題相似度pw(u):
(1)興趣相似度DIu(w):我們將測量用戶u對帖子w的興趣相似度,因為只有用戶感興趣的話題才會被用戶轉發。
(2)觀點相似度sim(u,w):我們將測量用戶u對帖子w的觀點持同意或反對態度。
結合興趣相似度和觀點相似度,我們將計算用戶與該微博的話題相似度。
pw(u)=αDIu(w)+(1-α)sim(u,w)
其中:α(0<α<1)為兩方面因素的權重。
假設3:用戶轉發的概率和周圍用戶群轉發概率成單調遞增關系;例如,當用戶u周圍用戶轉發w概率相當大時,即使用戶u對該w話題相似度較低,用戶u仍可能會在一段時間內轉發w;
為了測量用戶受周圍人群的影響,我們根據假設3建立用戶適應模型。
pw(u)t+1=BNw(u)+(1-B)pw(u)t
其中:B(02 用戶轉發行為建模
2.1用戶主觀模型
在數據預處理階段,對每一個用戶u,我們收集用戶u的50條微博作為單個用戶數據集。使用Gensim工具[5]來提取每個用戶話題集Tu。當計算用戶u與帖子w的話題相似度時,我們從Tu中提取出k個與帖子w的相關度較高的話題組成一個新話題集T(u,m)={t1,t2,…,tk}。
用戶u對帖子w的興趣相似度。

其中:DRw(ti)表示帖子w與每個話題ti(ti∈Tu,m)的相關度。

其中νw表示帖子w中的單詞,num(νw)表示單詞νw在帖子w出現的個數。WPν(ti)表示單詞νw在話題ti中的權重。DIu(ti)表示用戶u對話題ti的興趣度。

其中Wu(ti),Wu。Sω表示帖子w的情緒度。Sω=sp(w)+|sn(w)|.sp(w)表示帖子w的正向情緒度,sn(w)表示帖子w的負向情緒度。我們使用情緒檢測工具SentiStrength[6]來測量話題w的正向情緒度sp(w)和負向情緒度sn(w)。
用戶u對帖子w的觀點相似度:

其中maxDist表示兩個觀點之間最大的不相關程度,在模型中我們定義maxDist=9。dist(u,w)定義為用戶u對帖子w的觀點與帖子w所表達的觀點的不相關程度。為了計算用戶關于帖子w的觀點,我們引入情感度量標準。在此標準中,用戶對觀點的情感表示可分為10個級別,正向情感有(1,2,3,4,5)5個量度來表示,負向情感由(-1,-2,-3,-4,-5)5個量度來表示。

其中VPu(w)∈R10來衡量用戶u關于帖子w的情感度,其中每一個分量都表示對應情感量度的權重。VPw∈R10表示帖子w的情感度。其計算方式如下:

VPu(w)的計算方式如下:

其中VPu(ti)∈R10來衡量用戶u關于觀點ti的情感度,可以通過以下方式來計算:

numu(ti)表示用戶u轉發與話題 ti相關的帖子個數。即就是滿足DRw(ti)>0的帖子個數。numu(ti,s)表示滿足DRw(ti)>0并且Sω=s。其中s的計算方式如下:

2.2用戶適應模型
基于用戶主觀模型,我們使用用戶適應模型來實時更新用戶話題相似度pw(u):

其中Nw(u)t表示的在時刻t所有鄰居的決定對用戶u的影響。

其中v表示用戶u的鄰居用戶。Nu(v)表示在時刻t用戶v對用戶u的影響。C定義為最大鄰居個數。sim (u,v,w)表示用戶v與用戶u在帖子w上的觀點相似度。

其中Pw(v)t表示在時刻 t下用戶 v轉發帖子 w的概率。Pwt-1表示在時刻t-1下所有用戶轉發帖子w的平均概率。pmaxwt-1表示在時刻t-1下所有用戶轉發帖子w的最大概率。
3.1數據預處理
本文利用Twitter API隨機抽取約500名用戶,并收集在2012年8月1日至10月30日之間這些用戶的好友信息,發布或轉發的微博信息,好友發布或轉發的微博信息,微博信息之間的轉發關系等組成原始數據集。本文將測試數據集定義在2012年8月1日至10 月1日之間。為了去除大量的無效信息及無效用戶,本文定義一下約束:
在2012年8月1日至10月1日之間,一條去掉噪音和停用詞之后至少包含10個實用詞,并且被轉發2次以上的微博可被定義為有效微博。
在2012年8月1日至10月1日之間,發布或者轉發過至少200條微博,并且這些微博中至少有包含50條有效微博的用戶可被定義為有效用戶。
在2012年10月1日之后,一條去掉噪音和停用詞之后至少包含5個實用詞,并且被轉發2次以上的微博可被定義為測試微博。隨機提取出1000條有效微博,并隨機收集200個發布或轉發這些有效微博
本實驗從原始數據集中提取有效用戶建立用戶訓練集。并且從原始數據集中隨機收集用戶訓練集中每一個用戶發布或轉發的50條有效微博,使用Gensim工具[5]將它們劃分為最多5個話題集作為用戶話題集。對原始數據集中的每一個微博,本文使用SentiStrength工具[6]對其進行情感分析,得出每條微博的正面情感值(在1到5之間)和負面情感值(在-1到-5之間)。本實驗從原始數據集中分別提取出100條,200條,400條測試微博作為用戶測試數據集。
3.2實驗結果

表1 在三種數據集下兩種模型的預測結果

圖1 在不同時間段內微博平均轉發次數的走向
考慮用戶u在社交網絡中的鄰居對u的影響因素來預測測試集合中每條微博的轉發情況:本實驗實現用戶適應模型算法,將每個用戶u和每條被測試的微博的 pw(u)的初值設定為一個的隨機小數d(0 綜合考慮用戶u對于微博的主觀情感,以及 u在社交網絡中的鄰居對u的影響因素來預測測試集合中每條微博的轉發情況:本實驗實現混合模型算法,基于用戶主觀模型來計算每個用戶u和每條被測試的微博,pw(u)的初值,迭代次數設置為10。 針對每一條測試微博,基于兩種模型分別計算用戶訓練集中的每個用戶的轉發可能性 pw(u),并將實驗結果排序,取其前2%的用戶作為預測結果。預測結果如表1所示,將用戶的主觀情感加入社交網絡中可以極大地提高預測的準確度。同時本文跟蹤了數據集中的每一條微博,并統計每一條微博在不同時間段的平均轉發次數。如圖1所示。 社交網絡的興起,給研究社會影響現象提供了理想的實驗平臺。同時,對社會社交網絡的研究又能對改進社交網站的某些應用起到幫助作用。我們對基于Twitter的社交平臺中用戶的潛意識的主觀看法對其轉帖行為影響的進行分析研究。發現用戶潛意識的看法有助于提升預測其轉帖行為的準確性。本文提出了基于情感分析的主觀模型建模方法,和用戶適應性模型的建模方法。這對于基于短文本信息的主題、情感、內容等語意信息對社會網絡的影響提供了指導作用。而且這一方面的研究也使我們能夠更好地分析和度量社會網絡上用戶的社會影響力。 [1]Suh,B,Lichan Hong,Pirolli,P.,Chi,Ed H.Want to Be Retweeted Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].2010 IEEE Second International Conference on Social Computing.Minneapolis:IEEE Computer Society,2010:177-184 [2]Wu K,Ji X,Liu C.Information Diffusion Model for Microblog[C].Software Engineering and Service Science(ICSESS),2013 4th IEEE International Conference on.IEEE,2013:212-215. [3]Naveed N,Gottron T,Kunegis J,et al.Bad News Travel Fast:A Content-Based Analysis of Interestingness on Twitter[J].uni,2011. [4]Zaman T R,Herbrich R,van Gael J,et al.Predicting Information Spreading in Twitter[C].Workshop on Computational Social Science and the Wisdom of Crowds.Whistler:NIPS,2010:17599-17601 [5]Khosrovian,Keyvan,Dietmar Pfahl,and Vahid Garousi.GENSIM 2.0:a Customizable Process Simulation Model for Software Process Evaluation.In:ICSP'08 Proceedings of the Software Process,2008 International Conference on Making Globally Distributed Software Development a Success sSory,pp.294-306 [6]Thelwall,Mike,Kevan Buckley,and Georgios Paltoglou.Sentiment Strength Detection for the Social Web.In:Journal of American Society for Information Science and Technology 63.1,pp.163-173 Twitter;Retweet Behavior;Sentiment Analysis;Social Network Prediction of User's Retweet Behavior Based on Sentiment Analysis in Social Network TANG Xiao-dong1,QIAN Jin2 (1.College of Computer Science,Sichuan University,Chengdu 610065;2.Chongqing Communication Services Company Limited,Chongqing404100) 1007-1423(2016)05-0033-05 10.3969/j.issn.1007-1423.2016.05.007 湯小東(1990-),男,陜西楊凌人,碩士,研究方向為機器學習、圖形圖像處理 2015-12-24 2016-01-23 基于Twitter的用戶社會影響力的分析一直是社交網絡分析的熱點。然而很少有研究針對用戶對微博的主題、情感、內容等語意信息的主觀看法來預測用戶的轉貼行為。實現基于周圍鄰居對目標用戶轉發行為影響的用戶適應性模型。并且實現基于語義分析的用戶主觀模型結合用戶適應性模型的混合模型。設計實驗證實用戶對微博內容的主觀看法極大影響預測結果。 Twitter;轉貼行為;情感分析;社交網絡 錢進(197l-),男,重慶人,本科,工程師,研究方向為通信傳輸 Retweeting behavior on Twitter is the behavior that user reposts comments from their friends.Few studies have investigated in combining a user's subjectivity motivation with his conformity to environment to predict a user's retweeting behavior.Based on the sentiment analysis,combines a user's subjectivity motivation with a designed adoption model which measures a user's neighbors'influences,and then establishes a mixture model with these two factors to do prediction.Evaluates the model in Twitter dataset to verify its prediction performance.4 結語