趙玲 張靜
〔摘要〕移動互聯網的發展為微博的發展提供了更加廣闊的發展空間,以復雜網絡的基本統計特性為基礎,通過抓取新浪微博中的相關數據,對其進行處理分析,詳細分析微博用戶在信息發布行為、信息發布內容方面的相關特性以及用戶的關注行為和評論轉發行為進行了詳細地分析,認為微博網絡是典型的小世界網絡,微博網絡整體密度較小,呈稀疏狀態,但局部密集;微博網絡用戶的分布呈不均勻的狀態,用戶在信息發布、分享等方面存在較大的信息不對稱性,只有小部分用戶擁有較多的信息資源,扮演核心角色,大部分用戶在微博中處于邊緣地位。這為微博營銷和微博輿論引導與消解提供了基礎。
〔關鍵詞〕復雜網絡;微博用戶;行為;小世界特性;關注;非均勻網絡
DOI:10.3969/j.issn.1008-0821.2013.09.007
〔中圖分類號〕G202〔文獻標識碼〕A〔文章編號〕1008-0821(2013)09-0035-09
伴隨著移動通信技術的不斷發展,移動互聯網日趨成熟,為微博的發展提供了發展契機。Twitter是產生最早的微博,據Semiocast發布的數據調查數據顯示,截至2012年12月,Twitter用戶數達到517億,成為僅次于Facebook的全球第二大社交網站,其中141億美國用戶;2012年6月,Twitter用戶一共發布消息1058億條[1],這個信息量是任何一家媒體,無論是傳統媒體還是網絡媒體,都無法企及的。目前國內較具代表性的微博主要以門戶網站為主,如新浪微博、騰訊微博、人民網微博等,它們依靠網站自身的影響力與巨大的用戶群,幾乎占據了微博的全部用戶,有著較大的影響力。據中國互聯網絡信息中心發布的最新報告,2012年12月底,我國微博用戶規模為309億,其中手機微博用戶規模達到202億,手機成為微博用戶的首選終端,微博逐漸移動化發展[2]。
自2005年Twitter出現后,學術界關于微博行為的研究的不斷增加,對于用戶行為、用戶關系、用戶興趣等都進行了較為深入的研究,也取得了較多成果。麥田(2009)認為,以Twitter為代表的微博信息發布平臺能夠成功的主要原因有:可迅速發布的內容,可迅速發布的網站結構以及病毒式的信息傳播[3]。所以,微博自身的信息傳播模式的便利性與快捷性對于用戶來說吸引力是極大的。彭蘭教授在《微博發展的動力》(2009)中指出,微博的發展除了來自微博形式的自動力外,還有來自微博用戶需求的拉動力和微博社會功能的主動力[4]。實踐方面,主要研究微博用戶行為的動機,以及其對微博用戶行為的影響程度,在此基礎上對微博用戶行為的表現進行預測,以及微博用戶行為對興趣構成和購買行為的影響;理論方面,主要運用相關的理論基礎來解釋微博用戶行為,并通過一些實證研究對用戶行為的具體表征進行統計分析。
基于復雜網絡和社會網絡的理論研究微博是近年來的一個熱點,它能夠較好的解釋微博用戶的信息發布、評論、轉發等行為所呈現的網絡關系,也可以從中挖掘出關鍵用戶,可以較好的反映出用戶之間的關系,并對用戶行為進行預測。李林紅和李榮榮認為,新浪微博社會網絡是一個自組織系統,從整體網絡、個體網絡、小團體、小世界效應構建模型,通過實證研究考慮用戶在信息“發布、轉發、評論、@、回復”之間的關系,認為微博中存在自組織行為,通常整體的自組織現象弱,局部明顯,而且這種關系的形成往往依據用戶角度的不同,形成的自組織網的凝聚力也是不同的[5]。易蘭麗(2012)利用人類動力學和復雜網絡的相關理論,從網絡互動的角度出發,對用戶的信息發布、轉發和評論行為進行統計分析,了解三者之間的關系,并建立用戶信息評論模型和興趣驅動模型,對微博用戶的行為做了較詳細的分析[6]。
從以上的分析可以看出,研究者主要是通過直觀的靜態分布的網絡形態表現用戶在關注、評論和轉發方面的特征,大多是從數學和技術方面考慮,較少地考慮社會因素和用戶因素。本文以復雜網絡的基本統計特性為基礎,以新浪微博為例,通過抓取相關數據,對其進行處理分析,對微博用戶的關注行為和轉發評論行為的網絡特性進行分析,提出微博網絡是典型的小世界網絡;微博網絡較為稀疏,但也存在部分密集的社群,即微博群體;微博網絡是一個不均勻的網絡,在信息傳播與分享方面存在較大的信息不對稱。
1數據獲取與處理
通過新浪微博發布的最新數據報告可知,目前新浪微博的用戶已超過4億,同時在騰訊微博、人民網微博等平臺上也擁有大量的用戶;但在用戶總量、活躍用戶數量、微博影響力與代表性方面,新浪微博有著顯著的優勢。所以本文選取新浪微博中的數據作為研究樣本,以期能夠較好的反映微博的復雜網絡特性,完整地呈現微博用戶行為的基本特性。
目前獲取微博中的數據有兩大主流方式:一是通過新浪微博開放端口,利用API平臺獲取。這種方式獲取較為簡潔、方便、高效,便是數據數量有一定的限制;二是網絡爬蟲。通過設定的URL地址,按照一定的爬行策略抓取信息,這種方式獲取的信息數量大且全,但是較為繁瑣,且效率低,后期數據處理難度也較大。所以本文通過新浪的API平臺抓取數據。
本文采用滾雪球抽樣的方法,選中其中一個節點,對其粉絲的信息進行抓取,再對粉絲的粉絲信息抓取,持續若干輪,共獲取節點信息65 536個、100萬余條用戶關系信息、10萬條微博信息等。抓取的用戶信息內容主要包括:用戶ID、昵稱、姓名、省、市、地區,個人描述、URL、圖像URL、性別、粉絲數、關注數、收藏數、創建時間、是否加V、是否允許定位等用戶的基本信息,用戶評論信息主要包括:評論ID、評論內容、來源URL、發布方式、發布時間、發布者ID、評論者ID等基本信息。微博內容信息主要包括:內容ID、創建時間、具體內容、來源URL、發布方式、收藏數、發布時間、發布者ID等基本信息。以這種方式獲取的微博數據使一些孤立的節點和“僵尸粉”也被囊括其中,使得網絡密度可能較稀疏;但在很大程度上反映了微博的整體特性,無論是活躍用戶,還是僵尸粉,都是分析數據的組成部分。
在進行實際分析的過程中,為了確保分析的準確性和真實性,剔除無效信息后,對獲取的64 961條信息進行基本分析。在數據庫中,選取1 021個關注信息,組成關注矩陣,對其關注行為進行分析;提取1123*386的微博評論矩陣和1122*537的微博轉發矩陣,對微博用戶的評論轉發行為進行分析。
2微博用戶行為的復雜網絡特性
2.1小世界網絡特性分析
小世界網絡最基本的特征是有較短的平均路徑長度和較大的聚類系數。用N表示節點數量,dij表示節點之間的最短距離,那么網絡平均路徑長度的計算公式如下所示:
L=21N(N-1)∑N-11i=1∑N1j=i+1dij
另外,假設節點i與其他Ki個節點都相連,如果這Ki個節點也相互連接,那么它們之間應該有Ki(Ki-1)/2條邊;但這Ki個節點之間實際存的邊數只有Ei,那么二者之比即為聚類系數Ci,用公式表示如下:
Ci=2Ei1Ki(Ki-1)
其中Ki是表示節點數量,Ei表示實際的邊數,Ci表示節點的聚類系數。由此可知,整個網絡的平均聚類系數C可以定義為網絡中所有節點聚類系數的平均值,如下所示:
C=11N∑N1i=1Ci