李元齊
(英國華威大學(xué),河北 寧晉 050000)
高影響點在社交網(wǎng)絡(luò)信息傳播中起到至關(guān)重要的作用,并且高影響點的分析在其他領(lǐng)域也有很重要的意義[1]。推特、臉書以及微博在信息化發(fā)展中蓬勃發(fā)展,并已經(jīng)成為居民信息交互過程中必不可少的一部分。在微博上,大量公司通過社交網(wǎng)絡(luò)投放廣告,以此來搶占更多的市場份額。然而在社交網(wǎng)絡(luò)中,用戶有很多交互行為[2]。當(dāng)下大部分研究針對固定時間節(jié)點不同節(jié)點的影響力的衡量[3][4],忽視了動態(tài)傳播網(wǎng)絡(luò)中傳播節(jié)點的加入對傳播拓?fù)鋱D的影響。本文主要研究社交網(wǎng)絡(luò)中廣告投放,進而分析影響因子比較大的用戶,后期選取這些用戶作為廣告投放的用戶。
不同的節(jié)點的中心性對衡量節(jié)點影響力有著不同的偏差,單一中心性對于重要節(jié)點的選取會有嚴(yán)重偏誤,進而對于重要節(jié)點的衡量指標(biāo)要做多方面以及有針對性的研究[2][5]。Al-Garadi 等人將節(jié)點的中心性分為局部的和整體的,兩者的區(qū)別在于衡量節(jié)點是否結(jié)合圖形的整體結(jié)構(gòu)。局部中性中度是一個廣泛用來衡量節(jié)點重要性的指標(biāo),也有很多指標(biāo)由其衍生出來并廣泛用于重要節(jié)點的選取,例如鄰居的度平均數(shù)(AND)[6]。在整體中心性上,F(xiàn)reeman 于1979 年展示了一種結(jié)合最短路徑的算法,進而研發(fā)出了接近中心性算法和介數(shù)中心性算法,這兩種算法廣泛用于社交網(wǎng)絡(luò)重要節(jié)點選取[7]。社交網(wǎng)絡(luò)數(shù)據(jù)大部分是大于十萬節(jié)點的,進而結(jié)合圖形進行中心性提取在很多情況下是不現(xiàn)實的。近些年很多研究者著眼于半局部中心性算法的研究。
由于研究方向偏向于商業(yè)廣告投放,因此,通過Python 在微博軟件上對可口可樂及一些流量明星的信息進行采集并構(gòu)建成為完整的轉(zhuǎn)發(fā)網(wǎng)絡(luò),進而進行重要節(jié)點分析。由于微博關(guān)注網(wǎng)絡(luò)只顯示前3000 個粉絲,致使根本不可能得到關(guān)注網(wǎng)絡(luò),言外之意只能使用關(guān)注網(wǎng)絡(luò)對微博用戶的影響力進行分析。本文采集了12 組網(wǎng)絡(luò)結(jié)構(gòu),由于自轉(zhuǎn)發(fā)信息以及多次轉(zhuǎn)發(fā)同一用戶同一則信息將會大大影響節(jié)點的介數(shù)中心性屬性,在數(shù)據(jù)清洗中將這些數(shù)據(jù)進行針對性的處理。

圖1 數(shù)據(jù)可視化
通過對數(shù)據(jù)進行清洗,轉(zhuǎn)化網(wǎng)絡(luò)可視化,圖1將兩個清洗完的數(shù)據(jù)可視化,可以發(fā)現(xiàn)社交網(wǎng)絡(luò)中,大部分節(jié)點連接于個別節(jié)點,圖形的各個節(jié)點的度服從冪律分布,這一特征有助于對重要節(jié)點的初步篩選,并有針對性地根據(jù)各個節(jié)點的中心性進行再次篩選,進而減輕篩選的難度。
表1 給出了12 組數(shù)據(jù)的基本特征,可以發(fā)現(xiàn)社交網(wǎng)絡(luò)的圖形結(jié)構(gòu)比較稀松。
圖形數(shù)據(jù)的度均值在2.4 左右,其數(shù)值什么小,也就是意味著每個節(jié)點大約有1.2 個線去鏈接,而度小于10 的占總體點數(shù)的80%以上進而可以得出圖形中大量的節(jié)點連接于個別節(jié)點,也驗證出了社交網(wǎng)絡(luò)中的節(jié)點的度服從冪律分布。

表1 數(shù)據(jù)統(tǒng)計分析
本章節(jié)主要介紹節(jié)點的整體中心性算法以及全圖中心性算法,并結(jié)合兩種算法分別運算得出結(jié)果,分析差異及對重要節(jié)點影響力的不同。
1.3.1 整體中心性算法
1.3.1.1 接近中心性
在方程(1)中,lij表示i點和j點之間最短路徑的距離,因此方程(1)表示圖中所有其他點到點i的最短路徑之和。圖2 中的節(jié)點的大小是根據(jù)節(jié)點的緊密中心性來繪圖的,可以發(fā)現(xiàn),如果一個點的接近中心性比較小,那么這個點將會位于圖形比較邊緣的位置;反之,接近中心性比較大的時候,那么點將會位于圖形比較中心的位置。在一定程度上接近中心性也能反映出整體傳播網(wǎng)絡(luò)的傳播深度。當(dāng)信息傳播比較深遠的時候那么圖形中的接近中心性的均值都會比較小。但是根據(jù)單一節(jié)點對圖形結(jié)構(gòu)的反應(yīng)能力十分有限。

1.3.1.2 介數(shù)中心性算法
σ(s,t)是指點s到點t之間的最短路徑多少,σ(s,t|v)是指點s到點t經(jīng)過點v的最短路徑的多少。進而可以得到介數(shù)中心性是衡量一個點位于橋點的概率,當(dāng)介數(shù)中心性大的時候,會發(fā)現(xiàn)點位于圖形比較關(guān)鍵的位置更偏向于圖形鏈接個圖形部分之間的關(guān)鍵點,尤其在社交網(wǎng)絡(luò)中,其數(shù)值更像是衡量一個點在鏈接圖形各個部分之間的重要程度。由圖4 可知,當(dāng)介數(shù)中心性比較大的時候,那么這個點是連接各部分之間的核心點如點2,3 以及4,進而介數(shù)中心性大小在社交網(wǎng)絡(luò)各個群落之間傳播有著至關(guān)重要的作用。盡管圖4 中,各個節(jié)點的介數(shù)和接近中心性十分相似,但兩者在密集型復(fù)雜網(wǎng)絡(luò)中是有很大區(qū)別。


圖2 圖形接近中心性和介數(shù)中心性事例(左邊節(jié)點的大小是根據(jù)節(jié)點的接近中心性的大小;右邊節(jié)點的大小是根據(jù)節(jié)點介數(shù)大小來表達)
1.3.2 全圖中心性分析
1.3.2.1 全圖度中心性

1.3.2.2 全圖接近中心性

1.3.2.3 全圖介數(shù)中心性

通過圖形整體的接近中心性以及介數(shù)中心性,根據(jù)不同節(jié)點加入傳播網(wǎng)絡(luò)后進行網(wǎng)絡(luò)結(jié)構(gòu)分析,在網(wǎng)絡(luò)結(jié)構(gòu)可視化的過程中,如果采用每一秒進行節(jié)點選取,會有很長時間沒有節(jié)點進入網(wǎng)絡(luò),因為微博用戶大多數(shù)時間是在上午7 點到凌晨2 點對信息進行轉(zhuǎn)發(fā)與評論。根據(jù)這一特性,將圖形的每一節(jié)點加入作為一個時間節(jié)點進而根據(jù)這一特性構(gòu)建出網(wǎng)絡(luò)結(jié)構(gòu),并將節(jié)點加入密集的時間節(jié)點進行采集。根據(jù)所采集的數(shù)據(jù),圖形傳播大致可以分為兩種,根據(jù)節(jié)點加入的時間差可以將數(shù)據(jù)分為兩類。
圖3 介紹了密集傳播型社交網(wǎng)絡(luò)的全圖中心性隨時間的走勢圖,即不同節(jié)點加入圖形后的全圖整體介數(shù)中心性和接近中心性的變化,由圖3 可以發(fā)現(xiàn)全圖接近中心性、特征向量、介數(shù)中心性以及度中心性曲線沒有太大波動,這表明重要節(jié)點以及傳播用戶在較短的時間內(nèi)快速加入傳播網(wǎng)絡(luò),從而使一些高影響節(jié)點的滯后效果被覆蓋。因而對于這種傳播圖形分析的意義不大。

圖3 圖形接近中心性和介數(shù)中心性事例(左邊節(jié)點大小是根據(jù)節(jié)點的接近中心性的大小;右邊節(jié)點的大小是根據(jù)節(jié)點介數(shù)大小來表達)
圖4 反映了分散傳播性網(wǎng)絡(luò)的全圖中心性隨時間的波動,在這個傳播網(wǎng)絡(luò)中,可以明顯發(fā)現(xiàn)全圖接近中心性以及度中心性曲線有個明顯的波峰,根據(jù)研究方法可以知道,全圖接近中心性變大表明信息由廣度傳播轉(zhuǎn)向深度傳播,而全圖度中心性擴大則表明網(wǎng)絡(luò)結(jié)構(gòu)中有一些度較高的重要節(jié)點使得網(wǎng)絡(luò)結(jié)構(gòu)有較大的變化,即可能存在引入新的群體加入傳播過程中。根據(jù)波峰的突起程度,可以衡量一個網(wǎng)絡(luò)在加入傳播過程中所帶來的信息流量,進而衡量其影響能力。

圖4 分散傳播的傳播網(wǎng)絡(luò)
重要節(jié)點在社交網(wǎng)絡(luò)中的篩選原則主要從兩方面去考慮:第一個是針對衡量節(jié)點影響力的指標(biāo)選擇;第二類是在動態(tài)網(wǎng)絡(luò)中,節(jié)點影響力的衡量標(biāo)準(zhǔn)。
由上述分析可以得到,在社交網(wǎng)絡(luò)傳播過程中,可以發(fā)現(xiàn)全圖介數(shù)中心性以及度和接近中心性在圖形中有著不同的作用和影響。
首先針對介數(shù)中心性,根據(jù)數(shù)據(jù)可以發(fā)現(xiàn)大多數(shù)網(wǎng)絡(luò)的全圖介數(shù)中心性在隨著節(jié)點加入過程中沒有太大變化,進而很難通過全圖介數(shù)中心性分析出信息傳播路徑突變的時間節(jié)點,最終無法用全圖介數(shù)中心性判別出重要節(jié)點的位置。而對于節(jié)點的介數(shù)中心性,會發(fā)現(xiàn)介數(shù)中心性在衡量節(jié)點的重要性方面也有一定的偏差。這種問題可能與社交網(wǎng)絡(luò)的度的無尺度分布有關(guān),即大量節(jié)點僅僅連接于個別節(jié)點,進而導(dǎo)致傳播路徑十分稀疏,并造成連接葉點的度數(shù)值比較大的節(jié)點擁有較高的介數(shù)中心性數(shù)值。
根據(jù)結(jié)果展示可以發(fā)現(xiàn),全圖接近中心性以及度中心性對于衡量圖形結(jié)構(gòu)變化有著比較好的作用,進而可以推測圖形結(jié)構(gòu)改變的節(jié)點的加入時間短,并提取這個時間段將其傳播路徑進行動態(tài)可視化,進而可以判別出在圖形結(jié)構(gòu)改變過程中哪些點擁有更廣的影響力。
通過各個節(jié)點的度、接近以及介數(shù)中心性分析靜態(tài)網(wǎng)絡(luò)中的重要節(jié)點具有一定意義,但是靜態(tài)網(wǎng)絡(luò)中很難判別重要節(jié)點傳播過程中深度和廣度的延伸效果。相對應(yīng)動態(tài)網(wǎng)絡(luò)中可以根據(jù)全圖中心性很容易得出信息傳遞波峰與信息發(fā)布的間隔,進而可以判別出用戶對于信息傳播的滯后效果,這一滯后效果主要是由于廣度傳播速率慢造成。在動態(tài)網(wǎng)絡(luò)中深度的研究具有很重要的意義,通過全圖動態(tài)結(jié)構(gòu)網(wǎng)絡(luò)可以發(fā)現(xiàn),深度傳播影響的是信息的傳播持久度,并且更廣的傳播也意味著更廣泛的信息受眾類型。
在實踐過程中,可以首先在靜態(tài)網(wǎng)絡(luò)中篩選出重要節(jié)點,然后結(jié)合動態(tài)網(wǎng)絡(luò)中的全圖中心性分析,進一步篩選出用戶信息傳播滯后性小的以及深度傳播更持久的節(jié)點,從而提高信息傳播的商業(yè)效率,并且減少信息傳播中的過多傳播節(jié)點的費用。