莫 嫻,錢京梅,吳 茜
隨著互聯網的發展,人們的生活更加便捷,互聯網的在線社交網絡與人們的生活越來越緊密,Facebook、Twitter、微博等社交媒體極大地豐富了人們的生活,其中微博在國內應用最為廣泛。
微博內容豐富、新穎、及時,用戶能夠隨時隨地獲取大量信息。同時,微博具有低門檻性,只要成為微博用戶,就能發表自己的意見,容易獲取別人的認同,具有較強的參與性。微博用戶數量龐大,用戶間的關系復雜,可以用有向圖G=(V,E)表示,其中V表示用戶節點集合,E表示用戶間的連接關系集合。用戶通過關注與被關注的方式,實現用戶之間的信息交互,在社交網絡拓撲中,用一條邊表示。同時,微博中,信息流具有方向性。例如,節點A關注節點B,A就成為B的粉絲,用A→B表示,而信息卻是由B傳向A;如果節點A與節點B相互關注,則用雙向邊A?B表示,信息可雙向傳遞。整個微博可以用有向網絡進行描述,如圖1所示,網絡拓撲能夠清晰表明用戶之間的連接關系、信息流向等信息。

圖1 微博網絡拓撲
通過連接關系的特點,可以將微博用戶大致分為普通節點和大V節點。大V節點關注少量節點,但具有大量粉絲,具有高入度、低出度的拓撲特性;普通節點的粉絲節點少,但他們通常會關注較多節點,具有低入度、高出度的拓撲特性;同時存在少量節點,即沒有關注其他節點,其他節點也不關注他,成為孤立節點,這種節點對信息的傳遞沒有影響,在網絡拓撲中不予描述。
信息是如何在微博中傳播的呢?用戶發布微博,他的粉絲能夠看到該信息,粉絲可以通過轉發、評論、點贊等行為表達自己的意見;通過轉發該微博,可以使粉絲的粉絲節點獲取該信息,從而引起信息的進一步擴散;評論數、點贊數、轉發數較多的話題,更能吸引粉絲評論、點贊及轉發,通過這樣的方式信息能夠迅速在網絡中彌散,如圖2所示。熱門話題的發帖數、轉發數、評論數、點贊數等都較高,它的影響更廣泛。

圖2 微博信息傳播
社交網絡中有些個體之間關系密切,有些關系生疏,在圍繞某一個焦點時又形成了聯系更為密切的社區形式,可以看作社交網絡中的虛擬社區結構,稱為社團。虛擬社區結構是在線社交網絡的一種典型拓撲結構特征,反映了網絡中個體行為的局部聚集特征[1]。通過統計分析可知,微博網絡具有社團特征,有相同興趣、愛好的用戶更容易形成一個社團。從網絡拓撲上觀察,社團具有社團內節點相互連接密集而社團間節點相互連接稀疏的特點,如圖3所示。在微博中,部分用戶行為具有相似性,如對某一話題感興趣的用戶會相互關注,且會關注該類話題的大V節點,對這一話題的參與度也較高,表現行為就是轉發該類話題的微博、點贊頻度較高、會在微博發表自己的意見等,而對其他話題的微博反應平淡,也許會有相關動作,但頻度很低。

圖3 社團示意
目前,已有大量學者對微博展開了研究,同時對微博網絡進行了建模。常見的建模方式有兩類,一類是通過真實數據構建網絡拓撲,一類是通過相關微博特征參數構建網絡拓撲。
該類建模方式主要通過網絡爬蟲的方法獲取真實數據,從而分析構建網絡拓撲。通常,選取已經發生的熱門事件為中心,爬取微博上關于該事件的發帖、評論、點贊、轉發等相關信息,采用大數據分析的手段,形成某一話題的傳播途徑,構建微博網絡拓撲。這樣構建的網絡拓撲與真實世界一致,完整并直觀展現了微博網絡的結構特征和信息傳播特性,能夠充分分析話題在網絡中的擴散程度和對人群的影響力。
例如,在《新浪微博的大規模信息傳播規律研究》一文中,選取2012年4月到2012年9月期間部分熱門話題的微博數據,得出了波紋式模型、蒲公英式模型、菌落式模型、煙花式模型、蜂巢式模型、雙子星式模型和隨機引爆式模型等幾類傳播模型,
并分別對7種傳播模型進行了分析[2]。
由真實數據建立的網絡拓撲描述的是在某一特定時期、針對特定話題的拓撲情況,當時間、事件發生改變時,網絡拓撲隨之改變,不會具有相似性,體現了網絡演化的特點。采取這種方式構建社交網絡拓撲,通常應用于輿情分析、評估、模型驗證等方面。
該類方式是通過已有的研究成果,獲取微博網絡的特征,并默認整個微博網絡滿足這些特征,從而構建用戶要求規模的微博網絡。該類方式主要研究社交網絡傳播過程的基礎拓撲構建。
在《微博網絡傳播行為中的關鍵問題研究》一文中,以新浪微博為研究對象,提出了一種微博網絡社團發現算法。通過爬取一定數量的微博數據,分析新浪微博的社團特征和用戶連接特征,并將此作為構建微博社交網絡的特征參數,提出一種“生成具有不同模塊度和雙向邊比例的模擬網絡”算法[3]。
在《NCSS:一種快速有效的復雜網絡社團劃分算法》一文中,根據復雜網絡的社團特性,提出一種關于復雜網絡社團劃分算法。該算法采用社團擴張的方式逐步增加用戶,最終形成一定規模的具有社團特征的復雜網絡[4]。
在《微博社交網絡模型的建立及其性質研究》一文中,提出了網絡初始默認社團、社團開放度的屬性及節點Interests等概念,并以此約束節點間差異的連接行為形成社團結構,提出了COMW模型和IBMW模型[5]。
為了研究社交網絡對信息傳播的影響,探索社會網絡信息傳播規律,本文側重于構建大規模社交網絡模型,盡可能真實模擬微博用戶數量龐大、用戶關系復雜的實際情況,以期為后續研究提供一個更可靠的基礎環境。這里,提出一種具有社團特征的社交網絡模型,通過已有文獻研究的微博網絡的特征參數,構建一個大規模的具有微博特征的社交網絡。該模型能夠描述微博社交網絡的社團特性,呈現出社團間聯系較稀疏、社團內節點聯系緊密的特征,并且可以區分大V節點和普通節點。
本模型的基本思路是根據需求劃分社團,逐一對每個社團進行建模,最后按照一定規則將社團連接起來,從而完成整個微博社交網絡的建模,流程如圖4所示。

圖4 社交網絡構建過程
構建社交網絡首先需要確定模擬網絡的規模和社團數量,以此為依據劃分社團。需要確定的參數為網絡節點總數、社團規模特征、社團個數、用戶節點數、大V節點數。劃分社團時,需滿足社團大小(即社團內節點的數量)服從冪指數為2的冪律分布規律[6-7]。
這里已經明確社團的規模N及社團內的大V節點數v,構建社團的流程如圖5所示。

圖5 社團的構建過程
實現過程如下:
(1)按照構造小世界網絡的算法構建N-v個節點的網絡拓撲。該步驟生成的邊為源節點關注目的節點的單向邊。記錄節點之間邊的情況,形成有向邊集合。
(2)根據網絡密度ρ計算網絡中邊的總數,由雙邊概率q計算雙向邊的數量。網絡密度的定義為,其中X表示網絡中邊的總數,N表示網絡節點數。已有相關文獻對微博的網絡密度進行了研究,規模在1 000~7 000個節點的社團,網絡密度的范圍為0.000 4~0.052 2,平均值為0.007 7。雙邊概率是指節點間相互關注的情況,在微博中較少,q的取值范圍為0.2~0.25[2]。
(3)優先選擇度數較高的節點,完成單向邊連接。依次遍歷節點,將其作為源節點。在最開始階段,節點的度基本一致,隨機選擇目的節點,完成單向邊連接。當遍歷開始后,節點的度產生變化,此時優先選擇度數較高的節點。這與微博用戶的實際行為一致,用戶總是更容易關注粉絲數量較多的用戶,這種現象稱為“馬太效應”。社團中的節點i與源節點的連接概率i∏滿足:

其中,ki表示節點i的度[8]。
(4)完成雙向邊連接,以概率q從有向邊集合中選出部分邊,將每條單向邊等價為兩條具有相反方向的有向邊,q為用戶對之間存在雙向邊的概率。
(5)生成大V節點,完成大V節點和普通節點的連接關系,以概率Pv選取普通節點和大V節點的單向連接(普通節點關注大V節點),以概率Pn選取大V節點和普通節點的單向連接(大V節點關注普通節點)。
經過2.2節后,已存在多個獨立的社團,需通過一定的規律將其連接起來,避免出現孤立社團。社團連接流程如圖6所示。

圖6 社團連接過程
實現過程如下:
(1)根據模塊度Q計算社團間連接邊的數量,由此確定需要連接的節點對數量。復雜網絡中提到了模塊度(Modularity)的概念,它可以衡量社團劃分的質量。當模塊度Q的值在0.3與0.7時,表明網絡具有明顯的社團特性。微博網絡的模塊度Q值基本穩定在0.374左右。模塊度的計算公式為[9]:

其中vre∑表示網絡中所有節點的連邊中,包含在社團v內各節點的所有連邊的比例;av表示一邊與社團v內節點相連的邊所占的比例。
(2)選取節點,使節點位于不同的社團,用有向邊相連,并保證節點之間都是單向連接,記錄這些有向邊形成有向邊集合。
(3)以概率q從有向邊集合中選出部分邊,將每條單向邊等價為兩條具有相反方向的有向邊,q即為用戶對之間存在雙向邊的概率。
(4)完成大V節點與其他社團的大V節點、普通節點的連接。
(5)檢測網絡,若存在孤立社團,將其大V節點與其他社團的大V節點相連。
本文提出了具有社團特性的社交網絡模型,借鑒小世界網絡模型和BA無標度網絡模型進行完善,以網絡密度和雙邊概率作為社團構建的關鍵參數,生成單獨的社團網絡。由于在社團中大V節點數量較少,其特征與普通節點不同,這里將大V節點與普通節點區分開,通過概率Pv、Pn調節大V節點的連接關系,最后將各個社團連接起來,使之滿足模塊度要求,形成整個社交網絡。國際上關于社交網絡的研究仍處于初級階段,尚未提出完整的社交網絡分析的基礎理論和方法,值得進一步進行研究和突破[1]。
[1] 方濱興,賈焰,韓毅.社交網絡分析核心科學問題、研究現狀及未來展望[J].中國科學院院刊,2015(02):187-199.FANG Bin-xing,JIA Yan,HAN Yi.Social Network Analysis-Key Research Problems,Related Work,and Future Prospects[J].Bulletin of Chinese Academy of Sciences,2015(02):187-199.
[2] 易成岐,鮑媛媛,薛一波等.新浪微博的大規模信息傳播規律研究[J].計算機科學與探索,2013,7(06):551-561.YI Cheng-qi,BAO Yuan-yuan,XUE Yi-bo,et al.Research on Mechanism of Large-Scale Information Dissemination Based on Sina Weibo[J].Journal of Frontiers of Computer Science and Technology,2013,7(06):551-561.
[3] 熊小兵.微博網絡傳播行為中的關鍵問題研究[D].鄭州:解放軍信息工程大學,2013.XIONG Xiao-bing.Research on Key Issues of Spreading Behavior in Microblogging Network[D].Zhengzhou:PLA Information Engineering University for the Degree of Doctor of Engineering,2013.
[4] 韓忠明,譚旭升,陳炎等.NCSS——一種快速有效的復雜網絡社團劃分算法[J].中國科學:信息科學,2016,46(04):431-444.HAN Zhong-ming,TAN Xu-sheng,CHEN Yan,et al.NCSS:an Effective and Efficient Complex Network Community Detection Algorithm[J].Science China:Scientia Sinica Informationis,2016,46(04):431-444.
[5] 楊強.微博社交網絡模型的建立及其性質研究[D].北京:北京化工大學,2015.YANG Qiang.Establishment and Study of the Properties of WEIBO Social Network Model[D].Beijing:Beijing University of Chemical Technology,2015.
[6] Danon L,Duch J,Diazguilera A.Comparing Community Structure Identification[J].Journal of Statistical Mechanics:Theory and Experiment,2005(09):09008.
[7] Radicchi F,Castellano C,Cecconi F.Defining and Identifying Communities in Networks[J].Proceedings of the National Academy of Sciences,2004,101(09):2658-2663.
[8] Bianconi G,Barabasi A L.Bose-Einstein Condensation in Complex Networks[J].Physical Review Letters,2001,86(24):5632-5635.
[9] Clauset A,Newman M E,Moore C.Finding Community Structure in Very Large Networks[J].Physical Review E,2004,70(06):066111.