張 永,華姍姍,張 航
(蘭州理工大學 計算機與通信學院,蘭州 730050)
目前在OSNs(Online Social Networks)上的用戶不再是被動接受信息的媒體受眾,而是通過建立單向或雙向好友關系交流、分享信息資源,成為信息的制作者、分享者和傳播者,積極參與到網絡活動中[1]。Facebook、Twitter作為國外主流的OSNs應用,其熱門話題的傳播速度明顯優于報紙、雜志等傳播途徑。而國內流行的輿論擴散窗口新浪微博和即時通信工具,也是目前應用范圍較廣的在線社交網絡服務平臺。較之即時通信工具的私密性,新浪微博作為140字內的短文本觀點交流和轉發他人言論的自由社交應用,已成為人們獲取及時新聞和高輿論熱點話題的重要工具之一。
由于流行病擴散與信息傳播的相似性,用于研究疾病傳播的動力學傳染病模型也廣泛應用于信息傳播領域。為了使疾病傳播模型更適用于在線社交網絡上的信息傳播研究,傳染病模型的演化和改進也成為研究熱點。文獻[2]提出改進的SI(Suscepticble Infected)模型。文獻[3]提出考慮概率遞減機制(Decreasing Probability Susceptible Infected,DPSI)模型。文獻[4]提出引入潛伏節點E的SEIR模型。文獻[5]提出考慮直接免疫策略的改進SIR(Susceptible Infected Removed)模型。文獻[6]將網絡流通量代入SIR模型中,發現均勻的負載分布有利于信息傳播,大度節點對信息傳播有雙重作用,而通信量擁擠會阻礙信息傳播。文獻[7]提出的SIHR(Susceptible Infected Hibernator Removed)謠言傳播模型,考慮隱退節點H,并引入遺忘機制和記住機制。
目前,有學者從謠言抑制、流行病閾值、用戶行為影響因素分析方面展開社交網絡上信息傳播規律的研究[8-14]。文獻[8]提出使用意見領袖方法從擴散源抑制不良言論的擴散。文獻[9]采用局部策略方法從擴散過程實現有效抑制。文獻[10]把疾病傳播和信息傳播分別放到接觸層和通信層獨立考慮并得出:疾病爆發會導致信息傳播擴大化;疾病信息擴散可有效提高疾病爆發閾值,抑制疾病傳播;信息傳播閾值不變,但是提高了流行病閾值。文獻[11]將自我意識、自我保護和免疫策略與SIR模型結合起來綜合分析流行病閾值和免疫閾值的變化。文獻[12]把意識分為私人意識和公眾意識,從具體行為意識層面研究疾病的動態傳播。文獻[13]以SIR為基底模型研究記憶力對疾病傳播閾值的影響。
以上文獻雖都有行為因素分析,但多數源于人行為意識的主觀因素,而在實際社交網絡中,信息轉發是信息傳播的重要途徑。因此,本文通過對影響用戶轉發行為相關因素的分析定義轉發影響力公式,并以此分析用戶間的信息傳播效率。
2016年11月20日0點—2016年11月23日16點京昆高速多車相撞(輿論總數為22 206)和日本福島地震(討論量為52 849)成為實時熱門搜索新聞事件,利用新浪微輿情工具(http://wyq.sina.com/login.shtml)進行分析,結果分別如圖1(a)和圖1(b)所示。從圖1可以看出,京昆高速多車相撞事件呈現蒲公英式傳播模型[15],以源點為中心的大范圍傳播后出現碎片化小范圍擴散。即在首輪傳播熱度過后趨于平淡,很少轉發或者只出現少量小傘狀二次傳播。而日本福島這一實時事件呈現雙子星傳播模式[15],整個傳播過程中僅存在2個影響力比較接近的中心節點。林丹出軌這一娛樂事件一周討論量高達1 064 494。同樣使用新浪微輿情分析工具進行事件全網傳播分析,結果表明,其傳播方式完整地呈現出波紋式傳播模型[15],如圖1(c)所示。這種傳播方式主要集中在以源點博文為核心的傳播圈內,表現出從中心向外圍擴散的特點。首次傳播熱度過后,將很少或不出現二次傳播熱潮。

圖1 熱點輿論事件分析
綜上分析,熱點事件在網絡上的傳播并不是無規律可循,一般會存在1個或2個高潮時期,但是輿論熱潮過后事件就會趨于平靜。事件傳播通常是以大V用戶為傳播源頭,他們的粉絲為信息散播分支,實現樹型擴散式傳播。由于分支越來越多,事件傳播規模會隨之擴大,但事件影響力卻變小。隨著時間的推移,討論數或傳播量會降低至零,表明事件全網傳播進入尾聲,該事件不再具有傳播價值。為了更好地描述以上事件傳播過程,本文通過SCIR模型動態模擬事件傳播過程,并將該模型的傳播效果與SIR模型進行比較,從而更加深刻具體地描繪社交網絡上信息傳播的復雜性。
如果從關注機制來考慮社交網絡中的用戶間關系,那么用戶u與v之間的交互關系可分為陌生人、關注、被關注、雙向關注4種。其中,以B為源傳播者,上述4種交互關系如圖2中的(4)、(3)、(2)、(1)所示。同樣以B為中心的用戶行為傳播信息樹圖如圖3所示,以B為信息傳播源點呈樹型擴散,信息覆蓋范圍越來越廣。

圖2 以B為中心的用戶關系

圖3 以B為源點的用戶行為樹
2.2.1 消息轉發力度
微博中消息傳播主要是靠轉發行為實現,因而轉發力度可以作為影響轉發因素的重要參數。本文將潛在轉發人群的概率定義為轉發力度。從圖2和圖3綜合分析可得,用戶B發布信息的極大化傳播跟粉絲的轉發力度密不可分。因此,本文根據用戶之間關注行為的單向性、雙向性以及特定時間內興趣所趨路轉粉聯系將文中的粉絲用戶群分為純粉、互粉和路轉粉3類,但各類粉絲對于消息傳播的影響程度是有區別的。如圖2所示,純粉指只存在對用戶B的單向關注行為的粉絲群;互粉指用戶B關注該用戶并且此用戶也關注用戶B;路轉粉指本來未關注用戶B,但因為興趣所趨,成為用戶B的粉絲,但用戶B并未關注該用戶。則轉發力度公式如下:
(1)
Fans=FPure+FMutual+Fpasserby→fan
(2)
其中,p1、p2、p3指各類粉絲的影響權重,為了便于權重衡量,本文規定純粉、互粉和路轉粉的權重分別為2、1、0.5。
2.2.2 用戶影響力
在信息傳播過程中,信息傳播個體的傳播影響力決定著消息的傳播廣度和流行時長。一般認為粉絲數多的用戶影響力值也相對較高。粉絲對影響力用戶博文轉發量越多,消息的傳播面越廣,用戶影響力也會因此而提高。但是由于消息來源的廣度與關注者數正相關。用戶關注者數越多,接收信息的范圍會隨之擴大,那么該用戶微博被轉發的概率會增加,影響力也會提高。因此,文中用戶影響力評估主要考慮2個方面:粉絲對博文原創者發布信息的轉發傳播和消息來源的接受廣度。綜合考慮關注者和粉絲活躍度的PageRank[16]用戶影響力評估算法描述如下:
(3)
其中,R(u)指的是用戶u的影響力,d為阻尼系數,一般情況下取d=0.85,假定初始R值為1。Fans(u)表示節點u的粉絲總集合,Followers(u)表示節點u的關注者總集合,ηu,v是節點u分配給粉絲節點v的R值的比例,ζu,w是節點u分配給關注者節點w的R值的比例。
(4)
其中,Ak為節點u的第k個粉絲節點的活躍度,Am為節點u的第k個關注者節點的活躍度,N為節點u的粉絲總數,M為節點u的關注者總數。
對于粉絲節點v,其活躍度A表示為:
(5)
對于關注節點u,其活躍度A′可以表示為:
(6)
其中,Ft、Ft′、Pt、Rtt、Thut、Ct分別指T天內用戶關注朋友數目、用戶粉絲數、發布微博數、轉發微博數、點贊數和評論數。
2.2.3 個體信任水平的衡量
用戶之間的信任水平使用二值函數來衡量,其中0、1分別表示個體間的非信任和信任狀態:值為1表示2個個體處于不同狀態,接觸后狀態發生改變,信息可以傳播;值為0表示2個個體屬于相同狀態,狀態不發生變化,消息不會傳播。在信息傳播過程中,攜帶者節點接觸傳播節點,那么信任值為1,攜帶者會感染成為信息傳播者,進行消息傳播;而攜帶者接觸攜帶者,信任值為0,接觸個體仍處于原態,不具備信息傳播能力。式(7)中statei表示的是節點i的狀態,i指的是處于S、C、I、R任意一種狀態。
(7)
2.2.4 內容相似性
用戶之間進行信息交換,趣味是否相投至關重要。用戶對于獲取信息的感興趣程度,文中表述為興趣相似值。用戶之間的興趣相似值將從兩用戶發布博文的內容相似度來具體衡量。即發布博文內容相似性越高,用戶間的興趣相似值越高,那么其中一個用戶對另一用戶發布博文轉發的概率也會增大。
本文內容相似度算法只適用于長度不大于140字的博文,并且使用空間向量余弦算法[17]來計算2個用戶博文的相似比重,其算法描述如下:

2)將剔除掉1)中所列無意義字符后的博文U分為若干關鍵詞詞組,則用戶K的一篇博文可記為:UK={u1,u2,…,un},其中,ui表示連續劃分的第i個關鍵詞組,1≤i≤n。
3)對N詞博文中出現的M次w詞組,計算其頻次F:
(8)
而w的權重指數index為:
(9)
針對關鍵詞的權重計算公式如下:
W=F×index
(10)
4)假設每個博文中詞與詞之間不相關,那么博文Cu和Cv的內容相似性計算公式如下:
Similarity(Cu,Cv)=
(11)
其中,Cu、Cv分別表示用戶u和用戶v的一篇博文,i表示Cu中的特征詞數,j表示Cv中的特征詞數。
2.2.5 有效轉發率
有效轉發率在信息傳播過程指的是用戶u的博文被用戶v轉發的有效概率,算法如下:
(12)
其中,q1、q2分別指的是用戶v轉發用戶u的原創微博和轉發微博的權重,Roriginal是用戶u的原創微博數,Rforward是用戶u的轉發微博數,Ru是用戶u總的博文數。
針對轉發過程中已知源點用戶u對于轉發用戶v在目標微博內容[18]w下的影響力Influence(u,v,w)計算公式如式(13)所示。
(13)

在現實生活中,當個體處于感染狀態時,要通過接種、免疫、隔離等保護措施避免其他個體不被感染是比較困難的。但是在SI演化過程中引入過渡型節點,對處于過渡狀態的個體采取接種免疫等有效保護措施可有效減少個體轉變為感染者的概率,甚至降低疾病的有效傳播速率以及爆發規模,從而實現有效抑制疾病傳播的目的[18]。與文獻[16]中將C節點定義為接觸狀態相比,本文將無意識接收信息但并未進行信息傳播的C類型節點定義為攜帶者節點,使其更貼近現實生活。本文使用文獻[16]中SCIR模型狀態轉換過程分析,考慮式(13)中轉發行為影響力對信息傳播的影響,以及建模過程不同網絡中模型的對比分析、關鍵參數分析和網絡信息覆蓋率討論,從而構建出文中提出的信息傳播SCIR模型。
SCIR模型中信息傳播存在如下規則:個體未從任何渠道獲取熱點事件傳播源,那么在時間片1/δ后個體將以概率δ自動蛻變為持久免疫節點,不再參與信息傳播;一個源點傳播個體發布一條博文后,其粉絲對用戶發布的博文以概率α進行轉發或者評論以傳遞給更多的人;當未知者瀏覽傳播信息時,他已了解信息但是并未產生傳播意識,那么未知者將以概率ε轉變成觀望者;觀望者可能因為對傳播信息感興趣以概率p對其進行轉發或只是出于單純的瀏覽,一段時間后直接以遺忘速率μ將瀏覽過的信息淡忘蛻變為免疫態;而原有博文被廣泛傳播或者熱潮過后可能失去自身吸引力,以概率β被人們淡忘或者不再具有傳播價值,那么它將不再以任何形式被傳播。
SCIR模型中仍設人口總數不變,并且認為轉發影響力Influence(u,v,w)等于直接傳播速率p,用S(t)、C(t)、I(t)、R(t)分別表示t時段易感染者、攜帶者、感染者、康復者的人口總數,假定人口總數為N(t),那么S(t)+C(t)+I(t)+R(t)=N(t)。對應態人口密度分別記作s(t)、c(t)、i(t)、r(t),則各態人口密度變化公式表示如下:

(14)
其中,
初始狀態,假設S(0)=N-1,I(0)=1,C(0)=0,R(0)=0,即除了一個傳播者節點,其余節點全部為易感染節點。特別地,
本文在Windows 7系統中用Anaconda 2和PyCharm 5.0.1搭建python運行環境,并在python 2.7版本中使用networkx工具包生成BA和WS網絡。然后用生成的網絡為底圖構建對應網絡下的SCIR模型,并對式(13)中的權重?進行參數學習,以最優目標選擇作為優值選取條件,輔之模型中的其他變量參數建模。最后在對應網絡下進行實驗結果對比分析和在新浪微博上進行驗證。其中,文中所用的新浪數據來源獲取網址為:http://www.nlpir.org/?action-viewnews-itemid-299。
BA網絡分布不均勻,用hub型節點作為影響信息傳播的樞紐節點,與真實網絡中的領袖型傳播節點極為相似,但是與小世界網絡相比其聚類系數偏低。而小世界網絡雖然有著高聚類系數,但是多數節點均勻分布,大度節點極少。新浪微博具有冪律分布特性,屬于異質網絡,超級傳播者對信息傳播影響比較明顯,但是網絡信息覆蓋率比前兩者低。假設文中網絡為有向無權網絡,文中出現的圖均無單位,網絡參數設置和不同網絡條件下的度分布圖分別如表1和圖4所示。

表1 網絡參數設置

圖4 各網絡的度分布
實驗選取一個節點為初始傳播節點I,其余節點全部為易感節點S,設傳播輪數為15次并且進行200次迭代實驗。設初始傳播速率、康復速率、節點轉變速率均為0.5,SIR和SCIR模型各態節點在BA網絡、WS網絡以及新浪微博中的密度變化分別如圖5~圖7所示。其中,橫軸t為傳播輪次,縱軸為各節點密度分布情況。綜合對比圖5~圖7中各態節點密度變化情況,可以看出SCIR模型比SIR模型具有更好的網絡適應性,新浪微博的穩定性低于BA網絡和WS網絡,網絡信息覆蓋率相對而言比較低,信息無法達到全網覆蓋。

圖5 BA網絡中節點密度變化

圖6 WS網絡中節點密度變化

圖7 新浪微博中節點密度變化
在圖5中,BA網絡中隨著時間的推移,2個模型s(t)節點都從1降為0,而且在t為2到6時間段內急劇下降。這是由于幾乎全是S節點的初始傳播條件發生變化,I節點和C節點數目不斷增長所致。c(t)和i(t)節點在增至峰值后也呈下降趨勢,最終趨于0。而R是唯一在一定時間后趨于1的節點。對比圖5(a)和圖5(b)可以看出,SCIR模型中因為C節點的引入,i(t)的峰值明顯下降,I類節點處于爆發高潮時期的最大感染人口比出現近乎0.1的減幅。從圖5(b)可以看出,在時間為4時,S節點和C節點的密度幾乎同時抵達峰值,說明此時信息傳播進入爆發高峰期。在t為10時,SCIR模型中r(t)=1,信息實現全網覆蓋,但SIR模型中卻仍然存在少數S節點,使得r(t)在傳播結束時刻仍無法增至1。
從圖6可以看出,在WS網絡中,SIR模型中i(t)在t=6時刻達到峰值0.6,SCIR模型到達峰值時間稍有延遲,且峰值降至0.4,但是曲線波動趨于平緩。如圖6(b)所示,c(t)變化曲線與i(t)變換曲線形狀非常相似,且c(t)的峰值出現時刻明顯早于i(t)。從圖5得出的SCIR模型比SIR模型穩定性更好的結論在圖6也得到驗證。
新浪微博中2種模型的對比如圖7所示。SCIR模型中初態的S節點密度尾值較SIR模型中s(t)值從0.4下降至0.2,終態的R節點密度值較SIR模型的r(t)值從0.6上升至0.8,但感染人口密度變化并不明顯。上述情況表明信息傳播結束時,新浪微博中仍存在部分感染節點S,并未實現網絡中所有節點都轉變為免疫節點R的理想態,信息傳播不能實現全網覆蓋性傳播。對比圖7(a)和圖7(b),圖7(b)的情況比圖7(a)有明顯改進。
在不同網絡中,SIR模型與SCIR模型隨著初始有效感染速率λ變化下的傳播節點I的最大密度(最大感染比例)對比情況如圖8所示。其中,橫軸表示初始有效感染速率,縱軸表示最大感染比例。2種模型在不同網絡中最大感染比隨著λ增大呈現增長趨勢。但SCIR模型的整體最大感染比值相對SIR模型偏小,且增長趨勢更加平緩。SIR模型在BA和WS網絡中,λ<0.1區間段類似線性增長,之后增長趨勢相對平緩,且整體感染比高于SCIR模型。但在新浪微博中,2個模型除了初始階段的明顯差異,后期增長趨勢吻合度很高。

圖8 不同網絡中最大感染比變化情況對比
康復速率β為0.2、0.4、0.6、0.8、1.0時免疫節點密度r(t)隨t的變化趨勢如圖9所示,式(15)中的其他參數均給定值。其中,δ=0.2,ε=0.3,μ=α=p=0.5。r(t)隨著β值的增大而呈上升趨勢,說明β值對于免疫節點密度的增大有正向促進作用,且β取值不同,曲線斜率變化也不同,說明β對于r(t)的影響強度是不等的。

圖9 免疫節點密度變化趨勢
從圖10可以看出,新浪微博中較之于外部感染速率,內在傳播速率對傳播節點密度i(t)的影響較為顯著。雖然i(t)隨著α的增大也出現了明顯的增幅,但是i(t)最大只增長到0.3;而在p的影響下,i(t)最大增至0.8,說明外部感染速率雖然對傳播者密度有影響,但是不明顯,而內在傳播速率對傳播者密度變化影響非常明顯。從影響時長來說,內在傳播速率p的影響時長也比外在感染速率長。因為在t接近傳播終態時,α影響下的終態i(t)值在0.1附近,而p影響下的i(t)值卻在0.4附近,說明圖10(a)中i(t)到達零點花費的時長要比圖10(b)中的少,后者i(t)波動的時間更久,即內在傳播速率p對i(t)的影響周期大于外部感染速率α。由于α對i(t)的影響區間在[0.1,0.3],縱軸最大值如果仍設為1,參數曲線波動幅度僅占到差不多整幅圖的1/3,視圖水平偏低,因此圖10(a)中縱軸最大值減半,設為0.5。

圖10 傳播節點密度變化趨勢
本文在傳染病動力學SIR模型的基礎上引入攜帶者節點C構成SCIR模型,將轉發行為影響力取值作為感染節點感染速率的概率變量。實驗結果表明:SCIR模型中感染節點比例與SIR模型相比有明顯下降;SCIR模型中的免疫節點到達穩態時,信息覆蓋率比SIR模型高;新浪微博中信息傳播覆蓋度相比其他2種網絡偏低,信息傳播受事件熱度影響顯著;初始有效感染速率對感染節點比例增長有正向促進作用,但最終會趨于平穩,且SCIR模型中感染節點增長比SIR模型更平緩;參數變化對節點比例提升有影響,會加快信息傳播進程,但是不會改變傳播閾值。
本文假設網絡拓撲為無向圖,所用網絡均取自真實網絡的一部分。文中假設的網絡結構是理想化設想,但現實生活中社交網絡的結構并非單一特定化而是具有復雜社會性,如何根據信息本身以及初始傳播速率等因素研究復雜分層網絡中的信息傳播規律,將是下一步的研究方向。