劉 晶 李 琳 李石君
1(武漢大學計算機學院 湖北 武漢 430072)2(中南民族大學計算機科學學院 湖北 武漢 430074)3(武漢數字工程研究所 湖北 武漢 430074)
?
基于社交網絡大規模行為數據的用戶關系研究
劉晶1,2李琳3李石君1
1(武漢大學計算機學院湖北 武漢 430072)2(中南民族大學計算機科學學院湖北 武漢 430074)3(武漢數字工程研究所湖北 武漢 430074)
摘要用戶關系是構成微博社會網絡的基礎。用戶關系的分析可以幫助更好地研究社會網絡的構成、消息傳播模式等多個方面。對超過百萬用戶的海量微博數據進行分析處理,利用信息論理論分析比較用戶微博行為的特點,構建用戶活躍交互網絡并觀察交互網絡的動態性,分析社交網絡用戶群體的在線行為模式及特點。實驗表明在微博的交互活動中,用戶的直接交互關系相對穩定,不因時間的變化而變化,而用戶的轉發對象會不斷地變化,即用戶實際關注的群體是動態變化的。
關鍵詞社會網絡用戶行為微博交互
0引言
對用戶行為數據進行收集并理解的研究可以追溯到1945年[1],美國學者Vannevar Bush提出了“Memex”設想,一個原始的用戶行為記錄系統。近十年來,在線社交網絡取得飛速發展。國內各主流門戶網站也紛紛推出各自的微博產品,微博在中國呈指數級擴張,用戶數量與日俱增。在線社交網絡已經成為連接物理社交世界和虛擬網絡空間的橋梁。網絡用戶產生的信息和用戶與用戶之間的交互在社交網站上留下了各種足跡,直接促成了網絡大數據時代的到來。如何從這些大數據中更好地理解用戶和為用戶服務是信息產業中的一個重要研究方向。
微博作為一種社會媒體不僅滿足了用戶的信息個性化發布、社會性傳播和社交的需求,還改變了用戶在網絡上的交互方式。深入理解用戶的在線交互模式可以為分析人類社會行為提供新的視角[2];幫助提高社交媒體和相關應用的設計元素,包括用戶影響力度量[3,4]、消息傳播路徑[5]、朋友推薦[6-8]等。
針對社會網絡的用戶關系分析問題,學者們開展了大量的相關研究。其中,一些學者如Tang等[9,10]利用半監督學習方法來計算用戶的關系強度,推斷用戶社會關系類型;Kahanda等[11]利用用戶之間的交互性來度量用戶關系強度;用戶關系分析也經常被用于好友推薦[12]。
與傳統的社交網絡不同,微博是一個基于弱關系的信息分享、傳播及獲取平臺。美國斯坦福大學的Mark教授提出了“弱連接威力”理論[13]:除了傳統社會中的親人、朋友、同事等十分穩定但傳播范圍有限的社會“強連接”關系,還存在另外一類更為廣泛的社會關系,即所謂的“弱連接”。Mark的研究發現,在信息的擴散和傳播上,弱連接關系其實比強連接關系發揮的作用更大。
本文借助微博開放平臺,利用用戶的公開行為數據來分析用戶的交互行為及其背后蘊含的關系強度,從而更有針對性地為用戶服務。本文以新浪微博用戶為單位,定量對微博用戶的微博行為進行深入分析,發現轉發在微博活動中占主導地位。即使在單邊通信關系中,人們也更愿意從其他人那里獲取信息:用戶更愿意作為信息接收者、傳播者而不是信息發布者。本文還對新浪微博用戶行為的細節和用戶的交互隨時間動態變化模式進行了研究,發現用戶的直接交互關系相對穩定,不因時間的變化而變化,而用戶的轉發對象會不斷地變化,即用戶實際關注的群體是動態變化的。
1用戶關系分析
1.1數據
根據新浪微博開放平臺提供的應用程序接口(API)設計爬蟲抓取用戶基本信息,用戶發表的微博和用戶關注/粉絲關系網絡。我們使用4臺不同IP的機器,以2012年6月新浪微博人氣總榜Top100用戶為種子,通過粉絲/關注列表雙向滾雪球式爬取粉絲數1000以上的用戶及其2012年全年發表的微博。歷時3個月爬回165 841 156條微博和8 386 628個用戶信息。數據集包含三部分:用戶基本信息、微博和關注/粉絲網絡。
? 用戶基本信息(User profile)
包含用戶名、性別、帳號創建時間、位置信息(省/市)、已發表微博數、粉絲數、關注數、描述、認證信息。
? 微博(Tweets)
微博信息集包含:微博創建時間、轉發數、評論數、被“贊”數、微博內容,如果該條微博是轉發,則還包括被轉微博的用戶ID、被轉微博ID、創建時間、微博內容。
? 關注/粉絲網絡(following/followers)
新浪微博設置了三種用戶關系網絡:關注、雙向關注和粉絲,其中,關注和粉絲是一對相互關系。如果A關注了B,則B在A的關注列表中,而A在B的粉絲列表中。如果A關注了B并且B也關注了A,則稱A、B雙向關注。雙方互相出現在對方的關注和粉絲列表中。
本文主要研究用戶的微博交互行為,因此對采集到的微博數據進行預處理,只考慮轉發微博和包含提及的微博,即微博消息中包含了@[account]字段的微博。對微博文本進行解析,利用正則表達式提取出每條微博的提及對象:@[account]中的account,對每個用戶u構造提及對象集mention(u)={ a| 用戶a在u的微博中被提及}。
1.2用戶模型
對于給定的用戶集U中的任意一個用戶u∈U,其用戶信息包含3種屬性:個人背景、社交關系和交互信息。因此用戶u可以表示為模型M(u)={Info(u),Relation(u),Inter(u)}。具體說明如下:
1) Info(u) 表示u的個人描述信息,包括位置信息location、性別gender、個人描述describe、粉絲數量foNum、關注數量friNum、雙向關注數量bifNum。用元組表示為Info(u)={location(u), gender(u), describe(u), foNum(u), friNum (u), bifNum (u)}。
2) Relation(u) 表示u的社交關系,包括關注向量friend(u)、粉絲向量follower(u)和雙向關注向量bifollower(u)。因此Relation(u) = {friend(u),follower(u),bifollower(u)}。
3) Inter(u) 表示u的交互信息,包括轉發向量retweet(u)、提及向量mention(u)和評論向量comment(u)。因此,u的交互模型可表示為Inter(u)={retweet(u), mention(u)}。
對整個用戶集U中的每個用戶從1開始依次編號,向量retweet(u)和 mention(u)中的第i個分量分別表示用戶u轉發、提及和評論用戶i的次數。
1.3用戶交互行為分析
對微博用戶來說,他們的關注行為具有怎樣的特點;是愿意僅與少部分人交流還是喜歡與更多的人交流;如果一個用戶與其他很多用戶都存在交互行為,他對每一個對象的關注度是否一樣,即該用戶是否平均分配時間給各個交互用戶。為了研究這些問題,我們定義每個用戶u的轉發熵ERT如下:
(1)
其中,Su∈Inter(u). retweet(u),是用戶u所有轉發微博的來源用戶集,pu(r)是u轉發用戶r的微博的頻率。得到的轉發熵矩陣ERT中,轉發熵值越高,說明該用戶越熱衷于接收、傳播來自不同用戶的消息;反之,低轉發熵表明該用戶只轉發來自少數特定用戶的微博,轉發來源可預測性高。
類似的,計算每個用戶的提及熵EC如下:
(2)
其中,Nu∈Inter(u). mention (u)是用戶u所有提及對象的集合,pu(n)是用戶u提及用戶n的次數占所有的提及微博的比例。評論熵矩陣EC中高熵值用戶平均與其他用戶的交互是均衡的;反之,用戶更多的與少數“親密”用戶交流。
由于不同用戶轉發微博來源的規模亦不同,為了跨用戶比較轉發行為,歸一化轉發熵使之取值在[0,1]區間內:
E′(u)=E(u)/-0.5×|n|×log(|n|/2)
(3)
其中,|n|是用戶u的交互(轉發、提及)用戶集規模。
對于微博用戶行為分析的一個重要問題是:用戶是否持續性的關注某一組特定用戶?用戶的轉發和提及行為與用戶的關聯度是否會隨著時間的變化而變化?為了找出答案,我們分別以一周和一個月為時間窗口,觀察用戶的轉發和提及熵隨時間的變化情況。把用戶u在每個時間周期發表的微博作為一個集合ti,計算基于時間的轉發熵和提及熵如下:
(4)
其中,r(v)是用戶u的轉發或提及的時間集合中v至少出現一次的概率,即包含v的ti占所有集合的比例。如果計算的是基于時間的轉發熵,則Mu=Su;如果計算的是基于時間的提及熵,則Mu=Nu。同樣地,為了使熵值落在區間[0,1]中,進行歸一化處理:
E′(u)=E(u)/log(|n|)
(5)
在得到的用戶—時間熵矩陣中,低熵值表示該用戶一直與同樣的用戶群交互(轉發或提及);反之,高熵值表示用戶在不同時間段關注的用戶群是變化的。
2實驗分析
為了滿足實驗的大數據量運算,我們以高性能NF8560M2服務器為基礎虛擬出10個主機節點,并以此為底層的分布式硬件環境。每個節點虛擬出一個XENO E7-4807的CPU和8 GB的內存,主機采用的是Windows Server 2008 R2操作系統,節點采用Ubuntu 12操作系統的Hadoop 0.20.2平臺。
我們從用戶個體的角度出發,統計了轉發、提及微博占該用戶所有微博行為的比重,圖1以累計分布函數表示統計結果。

圖1 用戶轉發、提及行為比重在[0,1]區間的用戶分布
從圖1提及曲線可以看出,49.3%的用戶在微博中從未提及他人,有95.4%的用戶在微博中提及他人的的行為比例小于30%。轉發曲線顯示51.7%的用戶的轉發行為占所有微博行為的73%,且這部分用戶中,轉發微博超過91.8%的用戶有一個爆發式的增長。
分別計算每個用戶的轉發熵和提及熵,結果顯示用戶的平均提及熵為0.21,而平均轉發熵為0.52。可以看出,提及是一種比較親密的個人交互行為,更傾向于出現在小團體內部且相互間交互的更頻繁,是強聯系;而轉發行為中用戶的關注面更廣,并且對轉發來源的關注不像提及行為那樣集中,是弱聯系。圖2顯示了用戶不同微博行為的熵值區間的分布情況。

圖2 用戶在不同行為熵值區間的分布
從圖2用戶不同微博行為的熵值分布區間可以看出,用戶的轉發和提及行為具有明顯區別。在轉發行為中,用戶峰值出現在0.5至0.6的熵值區間,而轉發熵小于0.4的用戶不到5%;在提及行為中,用戶峰值出現在0.1至0.2的熵值區間,然后隨著熵值的增大快速降低。這一現象說明用戶的主要轉發行為分布在較大的社區中,并且相對均勻的轉發來自不同用戶的微博,只有極少的用戶只轉發來自特定用戶的微博。而大部分用戶的提及行為集中在一個特定的小群體。
從圖3可以看出,在用戶的轉發行為中,多數用戶的不同時段的轉發熵大于0.5,表明用戶在不同時期頻繁關注的用戶集是變化的,用戶在不斷地尋求建立新的弱連接。而在用戶的提及行為中,大部分用戶的提及時間熵小于0.5,表明用戶的直接交互關系相對穩定,不因時間的變化而變化。

圖3 用戶轉發、提及行為的動態性
表1給出了不同微博行為與社會網絡的皮爾遜相關系數,以*表示p值(p-value)范圍:p<0.005(***),p<0.05(**),p<0.1(*)。用戶微博行為與其社會網絡的皮爾遜積矩相關系數可以分析用戶的微博交互行為和他的朋友數量,粉絲數量是否存在關聯。

表1 微博行為與社會網絡的皮爾遜相關系數
從表1可以看出用戶發表微博的數量與用戶的關注數量正相關(r=0.36)。而用戶的轉發和提及行為與粉絲/關注數量沒有直接聯系。微博數量和關注者的數量相關,但是用戶間的交互與靜態網絡的規模無關。
3結語
在對社交網絡的用戶關系和交互的研究中,以用戶為結點,用戶間的關系為邊的圖模型是最常用的研究手段。然而隨著社交網絡規模的急劇膨脹,在有限的計算能力和存儲空間的條件下分析用戶交互行為是一個巨大的挑戰。
本文以用戶為單位,利用信息論理論對超過百萬用戶的海量微博數據進行建模和定量分析,通過交互之間的微博交互行為發現潛在的用戶關系。文中的方法在分布式云計算平臺實驗環境下能大大提高對用戶交互行為的分析效率。
實驗表明在所有交互行為中,轉發在微博活動中占主導地位。即使在單邊通信關系中,微博用戶更愿意從其他人那里獲取信息:用戶更愿意作信息接收者、傳播者而不是信息發布者;我們發現用戶發表的微博量與用戶的關注數量正相關,而用戶的粉絲數量對用戶的微博交互行為幾乎沒有影響。本文還對新浪微博用戶行為的細節和用戶的交互隨時間動態變化模式進行了研究,發現用戶的轉發對象會隨著時間的推移而變化,而用戶直接交流的用戶集則相對穩定。在實驗中還發現,用戶間的關系強度會隨著時間而變化,互相提及的用戶關系的持久性更強。
在接下來的工作中,我們準備進一步完善用戶的交互模型,分析交互行為相似用戶的共有特點并利用該交互模型進行用戶推薦以及用戶在社區內的影響力排序。
參考文獻
[1] 袁晶,謝幸.基于大規模行為數據的用戶理解[J].中國計算機學會通訊,2014,10(5):14-17.
[2] Tiancheng L,Jie T,John H,et al.Learning to Predict Reciprocity and Triadic Closure in Social Networks[J].ACM Transactions on Knowledge Discovery from Data,2013,7(2):5.
[3] 肖宇,許煒,商召璽.微博用戶區域影響力識別算法及分析[J].計算機科學,2012,39(9):38-42.
[4] Cha M,Haddadi H,Benecenuto F,et al.Measuring use rinfluence in twitter: The million follower fallacy[C]//ICWSM2010:Proceedings of International AAAI Conference on Weblogs and Social Media, Washington,DC,May 23-26, 2010 California:AAAI,2010.
[5] 曹玖,吳江林,石偉,等.新浪微博網信息傳播分析與預測[J].計算機學報,2014,37(4):779-790.
[6] Hopcroft J,Lou T,Tang J.Who will follow you back? Reciprocal relationship prediction[C]//CIKM2011:Proceedings of the 20th ACM International Conference on Information and Knowledge Management,Scotland,UK,24th-28th October 2011.New York:ACM,2011:1137-1146.
[7] Tang J,Wu S,Sun J,et al.Cross-domain collaboration recommendation[C]//KDD2012:Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Beijing,August 12-16,2012.New York:ACM,2012.
[8] 郭磊,馬軍,陳竹敏.一種信任關系強度敏感的社會化推薦算法[J].計算機研究與發展,2013,50(9):1805-1813.
[9] Tang W,Zhuang H,Tang J.Learning to infer social ties in large networks[C]//ECML/PKDD2011:Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases,Athens,Greece,5-9 September,2011.Berlin:Springer,2011:381-397.
[10] Eric G,Karrie K.Predicting Tie Strength With Social Media[C]//CHI2009: Proceedings of the 27th International Conference on Human Factors in Computing Systems, Boston,4-9 April,2009.New York:ACM,2009.
[11] Kahanda I,Nevile J.Using transactional information to predict link strength in online social networks[C]//ICWSM2009:Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media, San Jose, California, 17-20 May,2009.California:AAAI,2009.
[12] Hannon J,McCarthy K,Smyth B.Finding useful users on twitter:Twittomender the followee recommender[C]//ECIR2011:Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland,18-21 April,2011.Berlin:Springer,2011.
[13] Mark S G.The Strength of Weak Ties[J].American Journal of Sociology,1973,78(6):1360-1380.
收稿日期:2015-02-15。國家自然科學基金項目(61272109);中央高校基本科研業務費專項資金項目(CZY15006)。劉晶,講師,主研領域:社會媒休,數據挖掘。李琳,工程師。李石君,教授。
中圖分類號TP393
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.07.009
ON USERS RELATIONSHIP BASED ON LARGE-SCALE BEHAVIOUR DATA IN SOCIAL NETWORKS
Liu Jing1,2Li Lin3Li Shijun1
1(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)2(CollegeofComputerScience,South-CentralUniversityforNationalities,Wuhan430074,Hubei,China)
3(WuhanDigitalEngineeringResearchInstitute,Wuhan430074,Hubei,China)
AbstractUser relationship is the basis of microblogging social network formation. To analyse users relationship can help the better study in regard to the formation of social networks and the messages dissemination patterns, etc. In this paper we analyse and process massive microblogging data of more than one million users, and use information theory to analyse and compare the features of users microblogging behaviour, construct active users interaction network and observe its dynamics property, as well as analyse the online behaviour patterns and features of user groups in social networks. Experiments show that in microblogging interactions, direct interactive relationship between users are relatively stable and will not change along with the time going, while their forwarding objects are constantly change, that is, the groups actually concerned by the users are dynamically changing.
KeywordsSocial networkUser behaviourMicroblogInteraction