陳 晨,張紹武,楊 亮,張冬瑜,林鴻飛
(大連理工大學計算機科學與技術學院,遼寧大連116024)
云計算、物聯網等科技的發展,數據的快速增長和累積,標志著大數據時代的到來[1]。而Twitter、微博等社交網絡承載著大數據時代信息傳輸的重任,越來越多的人在自己的社交賬戶中分享自己的生活,發表自己的看法。如何利用社交網絡中的信息做好輿情監控和分析是大數據時代的一個重要課題。
突發社會安全事件是由人為故意造成并在社會上產生廣泛影響力的一類事件,主要包括恐怖襲擊事件、經濟安全事件和涉外突發事件等[2]。恐怖襲擊、群體騷亂等重大突發社會安全事件的發生往往會涉及經濟、政治和社會等多方面的問題。重大突發社會安全事件不僅會在爆發地產生影響,還會在全世界引起不同程度的影響,也因為其突發性和破壞性會嚴重影響人們的日常生活,所以本文選擇對此類事件進行研究。重大突發安全事件主要通過新聞媒體傳播,而新聞媒體的傳播能力和新聞內容在很大程度上決定了人們接收到的信息。隨著社交網絡的興起和發展,它逐漸成為了人們獲取信息的主要渠道之一。
Twitter 作為現在流行的國際社交平臺之一,因其擁有海量的用戶而承載著多元的數據信息,對網絡輿論的傳播起著重要作用。目前全球大部分新聞媒體都擁有自己的Twitter賬號,且獲得了Twitter認證,這些新聞媒體一定程度上擁有更多的關注度和話語權,影響著消息的傳播和輿論的走勢。通過量化在重大突發社會安全事件中新聞媒體的國際影響力,可以為此后同類事件的研究分析提供思路,如在我國事件的國際輿情監控中可重點關注影響力大的新聞媒體等。
因突發社會安全事件的緊急性和危害性,馮毅[2]從社會危害和經濟損失兩個方面對突發社會安全事件進行了界定,陳亮[3]對國外社會安全預警防范理論和方法進行了梳理。隨著互聯網的發展,近年來對突發社會安全事件的網絡輿情研究也得到關注。王國華等[4]對昆明暴恐事件中人民日報的微博進行研究,對重大社會安全事件的微博傳播特征進行了總結;陳璟浩等[5]發現了對突發社會安全事件生存周期有影響的三個因素;杜洪濤等[6]從網絡輿情演化的角度研究突發事件。對于暴力恐怖事件這一類的突發社會安全事件,胡成等[7]通過量化暴力恐怖事件的特征分析其危害。
同時社交網絡中用戶影響力的研究也得到多方研究人員的持續關注。目前對如Twitter、微博等社交媒體上用戶影響力的研究可以總結為研究決定用戶影響力的因素、計算用戶影響力的大小以及分析影響力傳播方式等。由于社交網絡中用戶間的關注和粉絲關系與網頁的鏈入和鏈出關系相似,有許多基于PageRank 算法[8]來研究用戶影響力的算法被提出。Weng等[9]提出了TwitterRank算法,該算法是PageRank算法的擴展,根據關注網絡構建好友關注圖。傳統的基于PageRank的算法得到的結果具有一定的權威性,然而這些算法僅考慮了社交媒體中用戶之間的鏈接關系,忽略了其他影響因素。社交媒體中用戶的影響力因子主要包括兩方面:一類是用戶關系,包括用戶的跟隨者和粉絲數;另一類是用戶行為,如發帖、點贊、評論、提及等,文獻[10]通過利用Twitter平臺中用戶的粉絲數、轉發數、被@數作為指標計算用戶個人的影響力。Pal 等[11]也利用了Twitter 平臺中用戶的發推文的個數、回復數、轉發數、被@數和粉絲數等信息,并以此提出了用戶的各種行為影響力,如轉發影響力、擴散影響力等。文獻[12]通過模擬關注網絡中的信息傳播,以用戶的有效讀者數來衡量一個用戶的影響力。文獻[13]中將社交影響力劃分為3 種影響力、5種排序準則,利用等級相關系數,對5種排序準則進行了計算比較,并得出“回復數對用戶社交影響力的作用最大”的結論。毛佳昕等[14]利用微博用戶發布微博的時間和數量來分析用戶影響力。
目前,無論是針對Twitter 平臺還是針對微博中用戶影響力的評價方法均存在以下不足:1)大多沒有考慮特殊用戶群體的個性化信息。例如新聞媒體一般有很高的權威性,所以幾乎都有官方認證以及比一般用戶擁有更多的跟隨者。2)現有的用戶影響力評價方法中還缺少對具體事件的研究及應用。例如在同一事件中,每個用戶的關注度就不同,以及不同的事件之間話題性的差異會對用戶影響力產生影響。為了解決上述問題,本文從事件層面評價分析新聞媒體的國際影響力,綜合Twitter網絡中用戶間的關系網絡和用戶行為,考慮到各新聞媒體對于同一事件的關注度不同以及不同事件話題度的差異,提出了Media Influence Rank(MIRank)評價方法。
一篇新聞媒體的報道,往往從側面反映了該地區甚至國家對于某一事件的立場、態度。在Twitter平臺上,我們可以搜索到很多新聞媒體關于新疆暴恐事件的推文,如BBC(英國廣播公司)的Twitter 賬號于2015 年3 月發布的推文“‘Xinjiang terrorists’shot dead by police in China state media says.”這條推文中將“Xinjiang terrorists”打上了引號,表達了他們對恐怖分子這個說法的不認同,這一現象值得深思,因此研究各國新聞媒體在此事件中的影響力就十分有意義。考慮到重大突發社會安全事件給社會帶來的負面影響,以及網絡新聞對于消息傳播和輿論形成的重要作用,本文以Twitter 平臺中的新聞媒體相關信息為基礎,研究在以新疆暴恐事件等暴恐事件為代表的重大突發社會安全事件的傳播過程中新聞媒體的國際影響力。
PageRank 算法是通過計算頁面鏈接的數量和質量來確定網站的重要性的評價方法。它主要包含三點思想:
1)一個頁面有越多的入鏈,那么這個頁面就越重要;
2)指向一個頁面的鏈接所在的頁面質量越高,這個鏈接的權重就越大;
3)網頁瀏覽滿足隨機性。
PageRank計算式如下:

其中:Mpi是所有對pi網頁有出鏈的網頁集合,L(pj)是網頁pj的出鏈數目,N是網頁總數,α是阻尼因子。
因為Twitter 平臺中用戶關系網絡類似于Web 網絡中各網頁間的關系,所以在衡量Twitter中用戶影響力時,可以借鑒PageRank 的思想。Weng 等[9]提出了TwitterRank 算法驗證了基于PageRank 算法的影響力計算模型可以針對社交網絡的特有性質計算用戶影響力。本文研究的是新聞媒體在新疆暴恐事件為代表的重大突發社會安全事件中的影響力,新聞媒體與新聞事件自身包含了許多個性化的信息,如新聞媒體對不同事件的關注度和新聞事件的話題性等,這些在一定程度上影響著新聞媒體影響力的大小,所以本文依據這一思路對PageRank 算法進行了改進。基于用戶關系網絡的評價方法Twitter Influence Rank(TIRank)的核心思想是:1)一個新聞媒體的重大突發社會安全事件相關推文的轉發數越多,它在這一事件下的影響力越大;2)轉發一新聞媒體推文的用戶的影響力越大,該新聞媒體的影響力越大;3)使事件話題度更高、對事件關注度更高的新聞媒體的推文更容易被轉發。

本文先構造出在新疆暴恐事件下的轉發網絡。設網絡中用戶集合為V,推文集合為E;E 中的每條邊(i,j)代表用戶i轉發了用戶j 的推文;集合Fu代表E 中所有指向u 的用戶集合,Du代表E 中所有u 指向的用戶集合。式(2)中,α 是PageRank式子里的轉發概率。該式子表示,用戶v以α的概率轉發集合Dv中用戶的推文,接著以Av,u的概率轉發用戶u的推文;以1-α 的概率轉發普通用戶的推文,這里的普通用戶指所有用戶,接著以見式(3))的概率轉發用戶u的推文。

文獻[18]中提出了加入用戶個性化信息的思想,但只是對用戶行為的簡單累加,針對新聞媒體的特征,以及不同事件的個性,且本文對新聞媒體影響力分析是基于事件層面的,因為不同新聞媒體的報道角度不同,這點可以體現在新聞媒體對事件的關注度上,同時這也使得同一事件在不同新聞媒體的報道下話題度不同,所以本文引入了兩個個性化特征:新聞媒體對事件的關注度n1和事件的話題性n2。式(3)中nu,i表示用戶u 對應的兩個個性化特征,nv,i表示用戶v 對應的兩個個性化特征。每個新聞媒體用戶的屬性,在文中包括兩部分:第一部分是全局屬性,即新聞媒體用戶的粉絲數Num_fans 和總的推文數Num_tweet;第二部分是個性屬性,分別為在新疆暴恐主題下,新聞媒體用戶對此事件的關注度n1和事件話題性n2。n1即新聞媒體發布關于新疆暴恐事件的推文數占總推文數的比值;n2即為某一新聞媒體新疆暴恐事件相關推文的轉發數、點贊數和評論數之和與該新聞媒體的粉絲數之比。它們的計算公式如式(4)、(5):

其中新疆暴恐事件中各新聞媒體的用戶推文發布數、轉發數、點贊數和評論數分別為x1、x2、x3、x4。文獻[18]中利用Av,u代表用戶v 到用戶u 邊的權重,可以很好地體現用戶v 和用戶u之間的轉發關系,用以下式子表示:

其中,rv,u代表用戶v轉發過用戶u推文的數目。
上述評價方法從Twitter網絡中新聞媒體與其他用戶間關系網絡入手,弱化了用戶之間的行為特性。新聞媒體用戶v在社交網絡中的行為影響力可以分為個人行為影響力和他人行為影響力。本文將個人行為影響力量化為新聞媒體推文影響力,主要衡量其推文的價值,對于新聞媒體而言,其推文影響力是一個積累的過程,所以本文用一個新聞媒體用戶所有推文影響力的平均值作為其推文影響力。

其中,tweet(ui)表示新聞媒體用戶u 的第i 條關于新疆暴恐事件的推文的影響力,在這里本文將每條推文的影響力定量成其點贊數、評論數和轉發數之和。在社交網絡中,他人行為影響力體現在兩個方面:直接影響力和級聯影響力

直接影響力可以理解為其推文對其粉絲的影響,新疆暴恐相關推文數越多,其粉絲可以關注到新疆暴恐事件信息就越多,其對于粉絲的影響也就越大;同樣,粉絲數越多,同一條推文就有更大的可能被推廣,影響更多的人,因此,直接影響力與粉絲數和推文數成正比。

而級聯影響力可以理解為一個新聞媒體用戶的一條推文通過他的粉絲進行了下一級的傳播,被更多的人關注到,使得該用戶的影響力得到了擴散。

其中uj表示新聞媒體用戶u 的第j個粉絲,同時本文假設所有粉絲均轉發了該條推特。由個人行為影響力和他人行為影響力得到基于用戶行為的評價方法Users Influence(UI)。

本文通過使用層次分析法[15]來計算UI 模型中的權重項λ=1/3。
TIRank 評價方法從Twitter 平臺用戶之間的網絡鏈接關系來計算新聞媒體用戶的影響力,忽略了很多推文屬性及行為屬性。而UI 評價方法從新聞媒體的推文屬性及行為屬性來計算影響力,忽略了Twitter 平臺中用戶關系網絡。本文將兩種評價方法的評價結果進行融合,得到既考慮了新聞媒體用戶之關系網絡又考慮了新聞媒體行為屬性的新聞媒體影響力評價方法Media Influence Rank(MIRank)。

首先對計算結果進行歸一化,再對TIRank和UI的計算結果求調和平均數,可以保證只有當TIRank 和UI 值都高時,MIRank的值才會高。
本文選擇新疆暴恐事件這一重大突發社會安全事件作為研究對象,數據集的獲取首先利用twitter api,以文獻[16]中利用基于非負矩陣分解(Nonnegative Matrix Factorization,NMF)的動態主題模型(Dynamic Topic Model,DTM)計算出的TOP20 新疆暴恐相關詞語作為查詢詞,爬取了種子tweets 共3 200 條[18],得到初始的用戶集合V,然后迭代地進行以下操作:對V 集合中沒被標記的用戶u 進行標記,爬取u 關于新疆暴恐的推文,并從這些推文中抽出被轉發的用戶添加到V里,直到用戶數目達到指定上限10 000 或V 里沒有新用戶為止。由于本文中關于新疆暴恐的推文中評論數只占了1%,它對計算結果的影響可忽略不計,所以以下實驗中只考慮了粉絲數、轉發數、推文數以及點贊數在影響力計算中的作用。以新華社(@XHNews)這個新聞媒體用戶為例,本文數據集主要包含的信息如表1和表2所示。

表1 與新疆暴恐事件有關的Twitter信息Tab.1 Twitter messages related to the violent and terrorist event in Xinjiang

表2 新聞媒體用戶的基本信息Tab.2 Basic information of news media user
本文對數據集中數據進行了統計。集合V 里總共有8 785個用戶,其中306個是新聞媒體用戶,圖1展示了所有用戶在各個國家中所占的比例。圖1 中:顏色越深,表明數據集中該國家擁有的新聞媒體用戶的比例越大;反之顏色越淺,數據集中該國家擁有新聞媒體用戶的比例越小。從圖1 中可以看出,美國、中國、英國、印度、巴基斯坦、澳大利亞、加拿大等國家參與新疆暴恐相關新聞傳播的用戶比較多。這點與各國新聞媒體的發展以及各國外交策略密切相關。圖1 中美國和英國的比例最大,尤其是美國,首先因為Twitter是一家美國公司,在美國的用戶更多,而且全球著名媒體大部分都來源于上述國家,尤其是美國和英國,如CNN、BBC 等新聞媒體巨頭。因為本文的研究針對Twitter平臺,該社交平臺中國用戶較少,擁有Twitter 賬號的中國新聞媒體就更少了,所以圖1 顯示的各國擁有的新聞媒體比例,中國新聞媒體占比明顯小于美國的也是情理之中。

圖1 各國新聞媒體用戶的比例示意圖Fig.1 Proportion of news media users in different countries
1)參數設置。
在實驗中,本文通過層次分析法得到UI 模型中各影響因子的權重。表3展示了UI模型中各影響因子的判定矩陣及最終的權重值。經計算得權重值λ=1/3。

表3 UI模型中影響因子權重Tab.3 Influence factor weights in UI model
2)實驗方法有效性。
采用肯德爾秩相關系數τ 作為實驗的評價指標,它是一個用來測量兩個隨機變量相關性的統計值。在這里的隨機變量指各個算法產生的影響力排名序列。τ的取值范圍在-1到1 之間:τ=1,兩個隨機變量的等級相關性是一致;τ=-1,則表示兩個隨機變量等級相關性是相反的;τ為0表示兩個隨機變量是相互獨立的。
表4 列舉了各個算法與本文提出的MIRank 算法進行計算得到的肯德爾相關性系數τ 值。從表中可以看出,MIRank計算得到的影響力排名與經典算法PageRank、TunkRank、Follow_count 和Retweet_count 具有一致的等級相關性。由表4 還可以看出影響力與粉絲數的關聯性小于轉發數,這個結論與文獻[17]的結論不謀而合,這也充分說明了MIRank方法的合理性和有效性。

表4 各個算法的τ值對比Tab.4 τ values comparison of different algorithms
3)不同地區同類事件間的對比。
為了體現MIRank評價方法的泛化能力,本文選擇了將其應用于新疆暴恐事件和2015 年法國巴黎暴恐事件這兩大重大突發社會安全事件中,并對結果進行對比分析。表5 列舉了MIRank 方法對新疆暴恐事件和法國巴黎暴恐事件計算出的影響力TOP10 的新聞媒體。從表中可以看出路透社(@Reuters)和紐約時報(@nytimes)對此類暴恐事件的影響力較大,也從側面反映了它們對此類事件的關注度更高。在新疆暴恐事件中,中國的新聞媒體新華社(@XHNews)和人民日報(@PDChina)的影響力值大,而在法國巴黎暴恐事件中法新社(@AFP)和法國24 電視臺(@FRANCE24)的影響力值大,由此可以看出事件發生國的新聞媒體在該事件中的影響力更大。

表5 不同地區暴恐事件中影響力TOP10的新聞媒體Tab.5 TOP10 influential news media in violent and terrorist events of different regions
本文通過數據集中各新聞媒體屬地的信息對各國新聞媒體的影響力進行了累加計算,圖2 顯示了在新疆暴恐事件和法國巴黎暴恐事件中,各國新聞媒體的影響力值。顏色越深代表影響力值越大,顏色越趨近淺灰色代表其影響力越小。從圖中可以看出,在事件發生國周邊的國家的影響力值也較大,體現了各國都更關心周邊國家的局勢。美國在兩起事件中的影響力值都很高,這也體現了美國對于全球事件的關注度很高。
經統計,新疆暴恐事件在Twitter 平臺中共有22 個國家的306 個新聞媒體對其進行了報道,法國巴黎暴恐事件共有13個國家193 個新聞媒體對其進行了報道。從這個統計量可以看出,我國暴恐事件在世界范圍內受到的關注更高。
圖3 可以從數值上看出,美國的新聞媒體在這兩起暴恐事件中的影響力值遠大于其他國家,這點也說明了美國的新聞媒體更具有全球眼光,在新疆暴恐事件中,我國新聞媒體的影響力值雖然位于第二,但從數值上看明顯低于美國新聞媒體的影響力,在非我國的事件中,我國新聞媒體雖然有一定的影響力,但十分微弱,因此提升我國新聞媒體的影響力對我國事件國際輿情的監控、擴大我國的話語權有重要意義。

圖2 各國新聞媒體影響力熱度圖Fig.2 Heat map of the influence of news medias in different countries

圖3 各國新聞媒體影響力值Fig.3 Influence values of news media in different countries
本文主要研究以新疆暴恐事件等暴恐事件為代表的重大突發社會安全事件中新聞媒體的國際影響力,對Twitter 上的各國新聞媒體用戶進行了影響力分析。通過改進傳統的PageRank 算法,結合事件的話題性以及新聞媒體對事件的關注度,然后在轉發網絡中迭代計算,得到基于用戶關系網絡的TIRank 評價方法。又考慮到用戶關系網絡不能直觀反映新聞媒體用戶與普通用戶之間的行為關系以及新聞媒體推文的特性,所以提出了基于這兩個因素對于影響力計算的影響的UI 評價方法。綜合考慮兩種評價方法的優缺點,本文對TIRank 和UI 評價結果進行融合得到了最終的MIRank 評價方法。
本文比較分析了不同地區同類事件的異同,使用MIRank評價方法對新疆暴恐事件和法國巴黎暴恐事件中新聞媒體的國際影響力進行了對比和分析,從中發現一些現象:如事件發生國的新聞媒體在該事件中的影響力更大,事件發生地周邊國家對事件關注度更高,以及我國新聞媒體在此類事件中雖然有一定影響力但仍與美國有差距等。在未來工作中,會嘗試通過對新聞文本的立場分析來豐富對新聞媒體國際影響力的解讀。