陳珊 戴俊譚 臨沂大學傳媒學院
伴隨著社交網絡的崛起,人們獲取信息的方式由大眾傳播主導轉變為人際傳播優先[1]。微博作為一種重要的傳播途徑在公眾之間迅速組成一個關系緊密、結構復雜的社交網絡,公眾通過微博載體進行大量的信息分發和輿論傳播[2]。網絡成為社會事件的“放大器”,網絡輿情的肆意傳播在一定程度上影響社會事件的發展趨勢[3]。
從微觀視角,社交網絡中的個體節點構成了無標度的拓撲網絡,網絡中節點的結構屬性不同,對信息傳播的影響效應也不同。社交網絡中節點結構性質的分析有助于信息傳播范圍的評估和預測,能對網絡輿情監測、引導和管理控制提供重要依據。鑒于此,本文借助社交網絡拓撲結構分析節點影響力與傳播覆蓋率之間的關系,探討信息在各類節點中的傳播特點和趨勢,并利用節點屬性特征預測信息傳播能力。
節點重要性度量和節點影響最大化問題是復雜網絡分析中的重要研究課題,對于口碑營銷、病毒性營銷有著重要的參考意義。在已有的研究中,節點結構屬性的研究包括基于網絡節點局部屬性的研究[4-5],基于網絡節點全局屬性的研究[6-8],基于節點隨機游走的研究[9-10],基于節點的時變特性研究[11]。國內外學者在基于網絡結構分析節點影響力還是基于信息傳播本身分析節點影響力,做了很多有價值的研究,為本文奠定了堅實的理論基礎。然而在現有研究中對指標權重較高的重要節點研究較多,而和重要節點相鄰,可能成為信息傳播源點的節點的研究相對較少。本文有效區分各類節點的差異,建立非線性回歸模型,通過監控哨兵節點評估消息在重要節點,一般節點等各類節點中傳播覆蓋的程度。
新浪微博中每個微博用戶視為一個節點,通過網絡行為與其他微博用戶建立的聯系視為連接邊,構成典型的小世界復雜網絡,符合經典的六度分離理論[12]。在微博系統中普遍存在以下幾類節點:(1)意見領袖節點。該類節點的度非常高,數量稀少,具有重要影響力的網絡節點。觀點和意見從意見領袖流向普通用戶的時間非常短暫,當意見領袖的消息流向微博中不太活躍的用戶時,信息傳播會出現裂變效應。(2)活躍節點。該類節點在某些特定的領域網絡行為頻繁,在發微博時間和頻率兩個指標表現出高活躍度。從信息傳播能力角度,這類節點容易成為網絡意見的源點或者接近源點的節點。(3)不活躍節點。該類節點連接度小,具有一定隨機性。發微博頻率低,位于信息傳播的鏈路末端。(4)啞節點[13]。該類微博用戶雖然注冊了賬號,但是長期處于“潛水”或“未登錄”狀態,而在信息傳播過程中這類用戶節點不具有傳播性,屬于復雜網絡中的噪聲節點。
為了描述方便本節對微博信息傳播覆蓋程度分析與評估進行形式化描述。研究內容建立在兩個假設條件上:(1)只關注社會網絡的線上信息傳播,暫時不考慮線下傳播對線上傳播的影響;(2)只考慮同質信息在有效用戶范圍內的傳播規律,暫時不考慮異質信息的傳播。研究的目的是依據部分節點的信息來評估消息在微博有效用戶中的傳播程度,即消息在有效用戶網絡的傳播能力。
首先用有向圖G={V,E}表示信息傳播的在線社會網絡,其中V表示微博用戶節點的集合,用戶節點通過發布、評論或轉發信息與其他節點建立聯系;E表示連接節點之間邊的集合。設vs表示信息的原創節點,即消息傳播源點;為已經傳播到的節點集合。Vi表示在時刻i 傳播到的節點子集,接著定義消息傳播的覆蓋率O。
定義1 消息傳播覆蓋率為已獲知消息的節點集合與全部節點集合的比值,即:

消息傳播過程是個時間序列T={t1,t2, …,ti,ti+1, …},則監測時刻tk的信息覆蓋率為Ok,如式2 所示:

定義2 哨兵節點。在消息傳播過程中,若時刻tk時消息傳播到節點子集Vk即出現Vk并入到集合現象,則Vk中的節點就是監測哨兵節點。
由此,通過微博網絡哨兵節點來預測信息覆蓋率的問題可轉變為由合并到的事件來預測Ok。研究節點子集Vk與覆蓋率O之間的規律,并建立相應預測模型。通過探測屬于Vk的哨兵節點的信息實現對信息覆蓋率的評估。
(1)節點影響力
從全局角度來考慮,設一條消息傳播的路徑為Vi={v1,v3,v8,vi, …,vm},則與節點i 間接連通的節點越多,對整個信息傳播的影響力也越大[14]。因此構造節點影響力的涵義如下。
定義3 節點影響力I 為節點的度與間接連通節點平均距離的乘積,如式(3)所示:

其中I(i)表示節點i的影響力,outdegree(i)為節點的出度,dij表示與節點i間接連通的節點j之間的距離,count(i)表示節點i間接連通的其他所有節點的個數。
(2)預測模型
預測模型的基本思想如下:先用統計方法建立節點影響力與信息覆蓋率之間的關系模型,

以式(4)作為預測依據,探測若干節點是否傳播到某條信息,以此來評估信息覆蓋率。例如節點j的傳播影響力為Ij,則代入式(4)后得出O(Ij),簡寫為Oj表示用探測節點j 獲取到的信息覆蓋率。在實際應用中可對一系列傳播影響力的節點進行實時監控,當檢測到某條信息的關鍵詞后來評價消息的傳播范圍。
從微博信息傳播的基本規律來看,當傳播影響力大的節點接收到某信息時,信息覆蓋率通常較低;當傳播影響力小的節點接收到某信息時,信息覆蓋率較大;這里需要排除鄰近傳播源點的節點,這類節點影響力并不高,檢測到這類節點時信息覆蓋率較低。在預測模型的應用中可以迅速的剔除這類干擾判斷的節點,檢測到影響力低的節點后,再檢測該傳播路徑上的后續節點,若后續影響力大的節點未接收到該信息,則將該類節點界定為干擾信息。然而,信息覆蓋率和節點影響力之間并不是一種簡單的線性關系,因此嘗試用統計方法來擬合一種非線性預測模型。
(3)統計方法
統計學習的范圍選取某大學工科四個學院的校選課學生587 人,涉及3 個年級12 個專業15 個班級的在讀大學生。每個人注冊新浪微博后,以自然方式形成線上社會關系,根據同寢室、朋友、同學和校內社區活動形成穩定的線上關系后不允許添加新關系。另外只考慮在大學范圍內的節點,忽略其他方式的節點關系,比如高中同學、親友等。
以新浪微博系統為信息傳播平臺,選取隨機節點作為信息源點來發布一些同質信息,只允許學生利用微博來了解和傳播信息,盡量消除線下傳播的干擾。為每條測試消息定義一個唯一的id,標記為Mi,每個學生節點設定唯一id,記為Vj,當學生收到Mi進行正常評論和轉發,同時向一個公共的郵箱發送一封電子郵件,該電子郵件標題為Mi和Vj。最后在電子郵件列表中提取消息傳播的軌跡,每個學生信息為一個三元組<Mi,Vj,ti>,其中Mi為信息標示號,Vj為用戶標示號,ti為郵件的接收時間,在此近似表示消息傳播到達時間。
研究中采用三種影響力節點作為傳播源點:影響力低的節點、影響力高的節點和中等影響力節點,分別為圖1 至圖3 所示。圖中x 軸表示節點影響力,y 軸表示信息覆蓋率。每次選擇5 個同質消息傳播進行實證分析,確定信息覆蓋率的誤差范圍。觀察圖1 至圖3 后發現節點影響力與信息覆蓋率之間存在一定的非線性關系,影響力高節點對應較低的信息覆蓋率,而影響力低的節點對應高的信息覆蓋率。這種規律與現實社會中直觀分析是一致的,我們嘗試通過統計數據構造一個非線性模型來建立節點影響力與信息覆蓋率直接的關系。
圖1 中以影響力小的節點作為傳播源,形成一條比較平滑的曲線。可采用回歸分析的方法來擬合式(4)O(Ij)。相比較而言,實證中監測到的中等影響力節點較少,中等影響力節點的區間相對稀疏。
圖2 中以影響力大的節點作為傳播源,中等影響力節點區域更加稀疏,但是在影響力大的節點區間中誤差范圍明顯減小,這是因為用影響力大的節點作為傳播源的因素,5 次實驗過程誤差波動較小。
圖3 中以中等影響力的節點作為傳播源,中等影響力節點所在區間不再稀疏,而且誤差波動較小;影響力大的節點出現減少趨勢,信息覆蓋率誤差波動變大;影響力小的節點增加,誤差波動無明顯變化。

圖1 影響力小節點

圖2 影響力大節點

圖3 中等影響力節點
通常情況下大部分網絡輿情起源于影響力小的節點,在此用圖1 的統計數據進行一元非線性回歸分析,根據統計散點圖的分布情況,可選配S曲線作為回歸分析的基礎模型,為了更符合實際需要,采用文獻[14]提供的S曲線形式:

其中a為曲線的常數系數;b為彈性系數,c為彈性常數系數,利用b,c參數來調整曲線的變化彈性。通過擬合分析求得式(5)的參數a,b,c。則為信息覆蓋率預測模型:

以不確定系數R2來判斷回歸分析的可信性,對20 次擬合過程的殘差進行分析,確定性系數的平均值為0.983,其中大部分大于0.95,只有個別擬合的R2值小于0.9,因此可認為取得較高的擬合可信度。
實驗過程不能與實證過程相同,否則失去了驗證意義。為了提高驗證的有效性,實驗方案的設計中體現兩個特點:無侵入性和自主性。具體實驗方案如下:首先獲取新浪微博社會網絡中的完整子圖。分別從不同類型的用戶開始爬取這些用戶近期發表的100 條微博,并根據每條微博的轉發軌跡來爬取轉發用戶。持續循環使用廣度優先搜索算法運行兩周,從4270092 個用戶中獲得了23456827 條微博消息。再剔除抓取的僵尸用戶和特殊的大V 用戶后,我們獲得了5741 個用戶節點的真實微博網絡。該實驗樣本網絡的聚類系數為0.153,網絡直徑為5.21,平均距離為3.1769。然后為了克服新浪API監測的限制,我們進一步裁剪了樣本網絡,把樣本網絡減小到1872 個節點,該網絡中包括11 個較完整的社團子圖。最后兩周內通過爬蟲監控程序實時監測不同類型用戶發表的原創微博的傳播情況。
在這1872 個節點的實驗網絡中,監控影響力小、影響力中等和影響力大的三類節點微博轉發情況(如表二第一行所示微博傳播源點有三個分類)。轉發節點數和全部節點數的比值即為微博傳播范圍。在該網絡中也選擇了10 個影響力不同的哨兵節點(如表1 第一列所示),具體實驗結果如表1 所示。
本次實驗中采用真實新浪微博社會網絡的完整子圖,微博傳播完全處于自發狀態。通過實驗數據分析觀察到以下現象:(1)真實微博網絡中預測模型的準確性普遍降低。中低影響力的哨兵節點的預測準確性在可以接受范圍內,然而影響力高的哨兵節點預測誤差較大。影響力高哨兵節點的預測誤差大與監控爬蟲的采用時間有關系,微博傳播具有一定的裂變效果,導致影響力大的哨兵節點的監測靈敏度下降,預測誤差也因此變大。(2)在真實微博網絡中,中等影響力的哨兵節點不再出現捕獲傳播信息失敗的情況。這是因為真實微博網絡中節點規模較大,中等影響力的哨兵節點一定會處于微博信息的傳播路徑中。這也證明了中等影響力的哨兵在真實微博網絡中具有較好的監測效果。
本文在微博網絡中綜合考慮節點的全局與局部拓撲結構,用統計學的方法擬合節點特征與信息傳播覆蓋率之間的關系模型。在真實社會網絡中用統計的方法獲取數據,取得非線性擬合預測模型,這種方法對統計數據有一定的要求和依賴性,因此預測模型對影響力小的源點傳播準確性高。實驗分析中發現中等影響力的節點作為哨兵節點比較穩定,適合監測各種源點傳播的信息。然而預測模型存在一定局限性,首先是實證微博網絡的有界性對信息傳播的影響,需要進一步研究有界社會網絡的研究結論對無界網絡的意義;另外微博信息傳播中節點同步問題,特別是節點同步對信息傳播規律的負面作用,未來建立更合理的預測模型來解決同步機制對預測準確性和穩定性的影響。

表1 哨兵節點監測結果統計