盧國強 黃 微 楊佩霖 孫 悅
(吉林大學商學與管理學院,吉林 長春 130022)
隨著社交媒體的快速發展,各種社交平臺已經成為公眾獲取和發布各種輿情相關信息與觀點的重要渠道。以微博為首的社交媒體已成為當前輿論傳播的重要陣地。微博主題是指微博用戶在發表的微博中關注的內容以及所表達出對應的觀點和態度。微博用戶對不同主題的表達和關注也會直接影響網絡輿情的傳播速度和規模以及輿情事件的走向。已有研究中對用戶關注主題的分析常常基于用戶間排斥性交互[1]、偏見吸收[2]、信息積聚[3]、社會加強機制[4-6]作用在單一主題的結果。但是在現實中,用戶關注或討論的主題不是孤立的,這些主題或者是來源于一個或幾個主題,或者是這些主題本身就相互重疊。這種主題在父代、子代之間的傳遞或主題之間的重疊均是主題耦合的表現。主題互感耦合是主題強度變化的直接因素,對用戶觀點態度的形成也具有重要作用。因此,在理論上基于主題互感耦合對微博主題影響力進行分析,可以描述輿情主題之間的交互關系及相互影響的程度,揭示網絡輿情事件的發展態勢,繼而深入理解微博用戶的行為模式,有助于相關部門在輿情發展過程中針對微博主題演化情況開展處置工作,為加強應急管理部門的輿情應對能力提供理論支撐。
微博主題影響力是以微博用戶關注的內容和話題為基點,結合自然語言處理、統計分析、機器學習等方法,對微博用戶針對某一話題關注程度的變化進行測算,從而揭示某一話題內容在輿情中的影響范圍以及影響程度。安璐等通過Word2vec和k-means聚類技術進行微博主題提取,以微博轉發、評論和點贊數為測算指標,使用H指數計算微博主題影響力[7],也有基于微博內容、內容質量和微博內容時效性因素的微博主題影響力模型[8]。在相關應用研究中,出現了社交網絡影響力最大化以及影響力阻斷最大化的研究[9]。已有研究將微博條目外在特征,如轉發、評論數量等作為微博主題影響力的關鍵因素。但一方面與具體問題相關的微博主題內容對于微博條目的影響力具有重要作用;另一方面,微博主題即微博用戶關注的內容本身相互之間也存在相互抑制或相互增強的作用力。微博話題內容以及話題之間的相互作用力也是微博主題影響力分析不可忽視的關鍵因素,同時也有助于理解微博輿情發展的內在邏輯。
目前關于輿情的耦合研究包括輿情跨平臺耦合、內、外源動力耦合、輿情主題耦合3個方面。①輿情跨平臺耦合是指輿情信息在線下以及線上多個社交平臺中交互傳播的模式。網絡輿情跨平臺耦合表現在多個網絡社交平臺[10]、多層耦合網絡[11],如微博與微信的耦合網絡[12]、線上線下雙層耦合網絡[13]等;②對網絡輿情內外源動力耦合的研究主要從系統觀的角度出發,將致使突發性公共危機事件網絡輿情發生演化的作用力分為內源動力與外源動力,并明確內源動力與外源動力對輿情態勢演化產生作用的方式[14-15];③在對網絡輿情主題耦合的相關研究中,還有多事件超網絡的超邊耦合算法[16]、網絡輿情的原主題層和衍生主題層的耦合網絡[17]、主題交疊網絡[18]等。德國洪堡大學科學家費邊·鮑曼等人近期在物理學國際權威期刊發表論文,對網絡輿情中用戶觀點在多維主題空間中的3種極化態勢進行研究[19]。費邊·鮑曼的研究目標是基于觀點動力學對觀點極化的規律進行分析,并且其研究成果與美國科學院院士詹姆斯·德魯克曼在2012年提出的輿情在宏觀上的穩態和微觀上的非穩態的脫節的論斷[20]具有很強的對應性,可以認為輿情的宏觀穩態和微觀非穩態在觀點動力學維度上得到了更精確的論證。
已有研究較多集中在輿情傳播方式以及傳播要素之間的耦合,關于主題耦合的研究較少。但主題耦合可以用來解釋輿情傳播中宏觀穩態與微觀非穩態的脫節、用戶交互嗜同性與觀點極化的脫節等現象,是觀點動力學和傳播動力學的重要基礎。下文也將對主題耦合如何解釋用戶交互嗜同性與觀點極化脫節現象進行闡述。本文擬解決以下3個問題:
1)闡述主題互感耦合的內涵、理論意義及現實意義。
2)基于主題互感耦合提出主題影響力的概念,并設計主題影響力的計算模型。
3)通過實證研究證實基于主題互感耦合的主題影響力計算模型的科學性和有效性。
系統耦合始源于物理學,在物理學上耦合是指兩個實體相互依賴于對方的一個量度。耦合表示兩個子系統之間的關聯程度。耦合不僅存在于電路和軟件工程領域,而且存在于以復雜系統呈現的各類社會系統之中。
已有研究對網絡輿情主題的耦合采用“交疊”“overlap”等表達方式。主題耦合與電感耦合的性質極其相似。電感元件也稱為自感元件,如果兩個或兩個以上的線圈中每個線圈所產生的磁通都與另一個線圈相交鏈,則稱這些線圈具有互感(Mutual Induction)。若假定這些線圈是靜止的,并且忽略了線圈中的電阻和匝間的分布電容,具有磁耦合的諸線圈就可表示為理想化的耦合電感元件(Coupled Inductor),簡稱電感耦合。當某一輿情事件或一系列輿情事件發生之后,網民在關注輿情事件本身的同時,經常會存在不同用戶具有不同關注點的現象。這些主題一方面由于自身的爭議性和敏感性,具有不同的吸引用戶參與討論的性質;另一方面,主題之間存在的內容“重疊”,使得主題之間也存在相互影響的性質。主題自身的爭議性、敏感性以及主題之間的相互影響的性質,則對應于電感耦合中電感原件的自感和電感之間的互感。主題耦合與電感耦合的相似不僅可以通過各自的本征特征得以表達,通過已有研究也可見一斑。在費邊·鮑曼的研究中,雖然沒有明確指出,但用戶觀點對時間的導數公式與耦合模理論中電感耦合公式高度相似。
在用戶交互嗜同性的作用下,用戶對輿情事件的討論會形成關注內容不同或觀點態度不同的相對獨立的用戶群體[21-22]。經典觀點動力學理論認為,在充分的用戶交互的條件下,用戶觀點最終會形成單極形態的觀點極化[23-25],而后期研究證實觀點極化的最終形態包含多種形式[26-28]。然而,不論觀點極化的最終形態如何,在理論上從多用戶群體到最終的觀點極化表象上具有脫節,連接兩種形態的正是作為驅動力的用戶交互以及作為必要條件的主題互感耦合。僅以用戶交互為驅動力無法完全解釋從獨立多用戶群體到觀點極化的過程,而主題互感耦合則可以揭示兩種現象轉化的內在原因。正如費邊·鮑曼的研究中所述,以主題組成的坐標系不是正交坐標系,而是傾斜坐標系。用戶的交互行為等傳播要素都是在此傾斜坐標系中進行。在主題正交坐標系中,用戶的交互行為只能形成多個獨立的群體,無法達到用戶群體融合以及觀點極化。而在主題傾斜坐標系中,由相對隔離的用戶群體到用戶群體的融合便具有了可能性。主題互感耦合是主題組成傾斜坐標系的根本原因。因此,主題互感耦合的研究在理論上具有必要性和重要意義。
另外,主題互感耦合對主題影響力的研究也具有重要意義。主題影響力的表現形式是吸引用戶參與討論的數量,并由此產生的推動事件發展的作用力。本文在充分考慮主題互感耦合基礎上,結合已有關于用戶影響力研究成果,將微博主題影響力定義為在微博主題本征特質及互感耦合的作用下,以用戶數量、用戶類型為輸入指標的用戶影響力在各主題上分布的態勢,并由此定義構建微博主題影響力計算模型。
安璐為了表達微博主題傳播影響力,將微博主題影響力分為“主題出度”“主題差異度”以及相應的“情感出度”“情感轉移度”?!爸黝}出度”是指在用戶交互網絡中,與用戶Useri直接相連且共享相同主題的用戶數量與直接連接于用戶Useri的總用戶數量的比值。“主題差異度”是指在用戶交互網絡中,與用戶Useri直接相連且關注不同主題的用戶數量與直接連接于用戶Useri的總用戶數量的比值。“主題出度”與“主題差異度”值的和應為1[29]。因此,可以知道“主題差異度”是參與運算的指標數值,而“主題出度”則代表了用戶Useri在用戶網絡中對于某一主題的傳播影響力。結合費邊·鮑曼與安璐的研究,本文將微博主題影響力定義為:微博主題影響力是以微博用戶關注的內容和話題即微博主題的本征特質為基點,結合自然語言處理、統計分析、機器學習等方法,對微博用戶針對某一話題關注程度的變化進行測算,從而揭示某一話題內容在輿情場中的影響范圍以及影響程度。基于本文對微博主題影響力的定義,構建微博主題影響力計算模型,如圖1所示。
在微博主題影響力計算模型中,首先使用自然語言處理技術(本文選擇LDA主題模型)對各時序節點的微博主題進行識別,并使用Word2vec算法區分出表達輿情客體的主題與表達輿情本體的主題,從而過濾出表達輿情本體的主題進行微博主題影響力的計算。微博主題影響力的計算考慮主題本征特質、主題互感耦合以及參與討論的用戶3方面,分別由對應的3個模塊實現定量化測算。①其中主題本征特質通過計算語義層面離散度、主題事件類型和是否違反公序良俗來表達內容多樣性、主題爭議性和主題敏感性,最終得出主題自感系數參與微博主題影響力的計算。語義層面離散度計算使用Word2vec算法實現;②主題互感耦合通過構建主題對稱矩陣并使用Word2vec算法得出主題互感系數;③參與討論用戶數量是微博主題影響力的重要參數,其值是結構化數據,通過LDA主題模型中的主題—文檔概率分布得出。在具體計算過程中需考慮分布在同一主題上的不同類型用戶對微博主題影響不同而對不同類型用戶進行權值賦值。

圖1 微博主題影響力計算模型
王平等在2013年提出,網絡輿情形成的要素包括主體、對象、本體和媒體[30]。黃微等探討了大數據環境下多媒體網絡輿情傳播的主體、客體、媒體、本體、空間5個要素。網絡輿情客體是引發網絡輿情的刺激物、網絡輿情的指向物,直接導致網絡輿情的發生和傳播,短時間內能夠吸引大量的媒體報道和網民關注,對現實產生影響,持續一定時間。網絡輿情本體就是網絡輿情信息,是網絡輿情主體針對某些議題、現象或事件,在網絡空間表達的認知、情緒、態度和意見等具體內容。傳播媒介,又稱傳播的媒體、渠道、信道或手段,是信息從傳播者到接受者之間各種傳播形式的總稱[31]。
將表達輿情客體的微博主題與表達輿情本體的微博主題做出區分的原因在于理論上會有更多的用戶集中分布在表達輿情客體的主題上,表現為對輿情事件本身的關注。關注輿情客體微博主題的用戶數量,主要由輿情事件影響范圍決定,且其僅是輿情風險產生的環境,并非是輿情風險的主要來源。而表達輿情本體的主題則是用戶針對輿情客體延伸出的主題內容,并在用戶交互的作用下,這些主題對用戶觀點極化等輿情風險具有顯著作用。例如在重大突發事件背景下,關注事件本身的用戶數量會比較多,但此部分用戶對事件本身的關注不會導致輿情風險。但如果出現救援不力、信息發布不及時等事件,那么用戶對這些微博主題的關注則極易產生觀點極化并增加輿情風險的可能性。因此,針對表達輿情本體的微博主題影響力進行研究將更有意義。
本文將對各個時序節點進行主題提取,因此如上文所述,在每個時序節點上提取的主題中,應包含一個表達輿情客體的微博主題,并且這些主題在語義上最相近。區分表達輿情客體的微博主題與表達輿情本體的微博主題的方法如圖2所示,計算公式如式(1)所示。

圖2 區分表達輿情客體的微博主題與表達輿情本體的微博主題計算流程
區分表達輿情客體的微博主題與表達輿情本體首先使用LDA主題模型對各時序節點所有微博條目進行主題識別,之后使用Word2vec算法將主題詞進行向量化表達,將相鄰時序節點的主題詞向量構建對稱矩陣。通過循環計算所有相鄰時序節點主題詞相似度,可以得出各時序節點相似度最高的主題,此一系列主題即為表達輿情客體的主題。觀察此一系列相似度最高的相似度值,如果其值變化較大,則說明輿情客體發生變化,反之則未發生變化。

(1)
式(1)中j表示在i時刻抽取j個微博主題,k表示在i+1時刻抽取k個微博主題。
2.2 微博主題自感系數
不同事件類型的微博主題,其主題影響力也將有很大不同。本文將微博主題自感系數定義為由微博主題本征特質而產生的對主題影響力作用的數值。微博主題自感系數來源于微博主題本征特征,主要包括主題爭議性、主題敏感性和主題詞語義離散性。
主題爭議性與主題事件相關,不同事件的主題爭議性具有很大不同。例如關于涉及公序良俗的事件,在共同的社會價值觀的影響下,全體網民的觀點態度高度一致,主題的爭議性也非常小。而事實證明關于公共決策[32-33]、民主大選[34]、群體性事件[35]中,尤其是在倫理性話題[36]和氣候變化[37]方面,其主題更容易吸引更多用戶參與討論,觀點多方向極化更容易形成,主題爭議性也將更強。費邊·鮑曼為了研究的簡潔性,將爭議性較大主題的數值自定義為α=3,爭議性較小主題的數值自定義為α=(0.1~0.3),并模擬仿真過程中調整α值,對結果進行分析討論。但在此研究之前,存在大量研究對主題的爭議性進行定性或定量的研究。這些研究大部分是關于公共決策[38-39]主題爭議性研究。也有針對Twitter上出現的主題的爭議性進行計算[40]。Garimella K等以爭議性主題包含不同方面且有相反觀點以及用戶交互過程中的嗜同性理論為基礎,將用戶關注的主題及用戶之間的交互構建成會話圖,使用隨機游走的算法基于會畫圖對主題的爭議性進行定量計算[41]。
主題的語義離散度是指一個主題中各主題詞之間在語義上的歐式距離。雖然一個主題揭示了用戶對輿情事件的一個關注點,但一個主題中的主題詞并不是完全相同的詞或相同語義的不同表達,各主題詞之間在語義上存在一定距離。主題詞在語義上越接近,主題在語義上涵蓋的內容越集中。相反,如果各主題詞在語義上距離較大,意味著主題能夠表達或涵蓋的內容較多,那么吸引用戶參與討論的概率也就越大。因此,主題在語義上的離散度越大,主題的影響力越大。語義相似度計算方法包括余弦相似度、歐式距離、曼哈頓距離、Jaccard相似系數等。由于余弦相似度計算簡潔,常用于詞向量之間的語義相似度計算。本文使用Word2vec對語料庫進行預訓練并將主題詞向量化,選取余弦相似度用于量化計算主題詞之間的相似度。余弦相似度是通過計算兩個向量的夾角余弦值來評估他們的相似度。余弦相似度將詞向量根據坐標值繪制到高維向量空間中。詞向量余弦相似度計算如式(2)所示。

(2)
式(2)表示將主題中所有主題詞兩兩計算余弦相似度,各相似度之和即可表達相反比例的主題語義離散度。由于微博主題爭議性與主題離散度并無關聯關系且對微博主題影響力貢獻無差別,所以將兩者做線性相加并且權值相同均為1,因此得到微博主題自感系數計算公式為P=α+1/sim。
2.3 微博主題互感系數
微博主題互感系數來源于各個主題之間在內容上的“重疊”。主題中主題詞的“重疊”由主題抽取時設定的主題數量及每個主題的主題詞數量決定。在對網絡輿情進行主題抽取時,主題數越多,對主題的聚類具有越高的細粒度;主題詞越多,表達主題內容越全面。但無論使用何種方法進行主題抽取,如果主題數和主題詞數過多,都會增加對應的冗余度,反而使概括主題內容的能力下降。使用LDA或Word2vec結合K-means等方法中,都有比較具體的確定最優主題數的算法,LDA通過困惑度值確定,Word2vec結合K-means通過檢驗新增加的主題與已有主題重復度確定。但最優的主題抽取方法也無法保證主題之間在語義上絕對無交叉。
微博主題之間在內容上的“重疊”,其性質特征與電路中電感原件之間的互感耦合非常相似,受電路中電感原件互感耦合的啟發,本文將微博主題之間在內容上的“重疊”稱為微博主題的互感耦合。根據觀點動力學理論,在嗜同性作用下,關注相同主題或持相同觀點態度的用戶傾向于進行交互活動。然而由于主題互感耦合的存在,使得關注不同主題的用戶增加了在同一空間進行交互的概率。微博主題互感耦合及演化如圖3所示。

圖3 微博主題互感耦合及演化
微博主題A和微博主題B存在互感耦合部分C,在互感耦合C部分的用戶交互行為使得主題A和主題B存在3種可能的演化形態:主題A和主題B逐漸融合,用戶關注的內容逐漸趨同,觀點態度逐漸趨于一致;主題A和主題B逐漸向兩極演化,主題A和主題B在語義上越來越不相關,觀點態度的極化也更加明顯;互感耦合C部分的用戶交互不足,或互感耦合的部分是輿情客體內容,主題A和主題B以及用戶對相應主題的觀點態度未發生變化。以上3種情況與輿情事件和參與討論的用戶相關且具有隨機性。由于微博主題的互感耦合來自于主題之間內容上的“重疊”,因此微博主題互感耦合系數即為計算兩主題在語義上的歐式距離,方法與2.3節計算微博主題自感系數類似。首先使用Word2vec對主題詞向量化,然后與自感系數計算一個主題內主題詞之間相似度之和不同,主題互感系數是將兩個主題的主題詞循環計算相似度,并將相似度加和。另外,自感系數在數值上與所得相似度之和成反比,互感系數與相似度之和成正比。
2.4 微博主題影響力計算
前文所述微博主題影響力的定義中,強調以用戶數量、用戶觀點態度在各個主題上分布的態勢表達微博主題的影響力,說明微博主題內容特征是主題影響力的內在因素,而用戶對主題的討論既是主題影響力的外在因素,也是主題影響力作用的結果。微博主題影響力的性質特征與電路中磁通量的性質特征極其相似,可以借鑒磁通量的特征和計算方法推導出微博主題影響力的計算。磁通量是指通過電感元件的磁感應強度。磁感應強度包括元件自身通電電流結合自感系數產生的能量,也包括與其他元件由互感耦合產生的能量。電路中電感元件不同的連接方式會產生不同的磁感線方向,互感耦合產生的詞感線方向與電感元件本身磁感線方向一致,則會使電感元件的磁感應強度增加。反之,則會使電感元件的磁感應強度減小。
在微博主題影響力中,主題Ui吸引用戶群體參與討論,對主題Ui影響力產生了正向影響,參與討論的用戶越多,主題影響力越大。同時主題Uj與主題Ui互感耦合,吸引了一部分關注主題Uj的用戶也參與到主題Ui的討論中去。由圖3可知,互感耦合部分用戶的交互行為使得主題演變具有隨機性。對主題Ui來說,互感耦合部分用戶觀點態度如果與其他用戶一致,則主題影響力則會增加,反之,則會減小。基于以上討論,本文定義微博主題影響力計算公式如式(3)所示。
(3)
式中ψ表示主題1的影響力,ψ11表示由主題自身產生的影響力,ψ12表示由主題2與主題1互感耦合產生的影響力,f(u)表示不同類型用戶參與主題討論的用戶影響力與相應用戶數量的乘積,是關于用戶類型與用戶數量的線性函數,P1表示主題1的自感系數,M12表示主題1與主題2的互感系數,M12=M21。
本文選擇新浪微博熱點話題“重慶公交車墜江事件”作為信息源采集數據并建立主題空間,一方面,因為此事件作為早期的由“車鬧”引發的公共交通安全事故,造成重大人員傷亡,事發當時引起了廣泛的輿論關注與討論;另一方面,該事件發展過程復雜,從輿情爆發期到衰退期隨著事故原因的查明,用戶關注內容涵蓋打撈救援、公民素質、安全意識、法制建設、媒體報道失實等多維度主題分布,并且關注程度以及不同主題所引發的社會影響均差異較大。根據百度咨詢指數顯示,“重慶公交車墜江事件”發生在2018年10月28日,11月14日相關輿情進入消亡期。在實際輿情管理與分析中,以小時為單位進行時間序列分割將具有更準確的結果。本文為計算簡潔,選擇以每天作為時序分割單位,使用集搜客網絡爬蟲軟件以相同方法和數據結構分別采集2018年10月28日—11月14日的新浪微博相關數據,獲取包括用戶ID、用戶名、用戶發表博文、發表博文時間、轉發評論文本及時間等信息,經過數據清洗等預處理操作后共得到博文及轉發評論文本51 151條。
在重慶公交車墜江事件中,雖然微博用戶討論的主題發生多次語義層面上的演化,但理論上會有一個主題即輿情客體在語義層面未發生變化并且貫穿輿情信息傳播周期。識別出表達輿情客體的微博主題并選擇除此主題之外的表達輿情本體的主題進行研究,將使微博主題影響力的計算更為準確。主題抽取方法選擇LDA模型。選擇LDA模型而未選擇優化后的LDA模型或其他方法的原因,一方面是LDA模型提取的主題常出現詞頻較高、對主題內容揭示較弱的主題詞,而本文正是通過語義相似度計算將此部分識別出來并剔除,剩余表達輿情本體的主題將具有較為合理的主題詞分布。其次是使用LDA模型能夠得出主題—文檔概率分布,用于后文中參與討論用戶數量的統計。
本文選擇使用Word2vec模型訓練針對此次事件的語料庫,得出的詞向量庫能夠更加準確地反映輿情事件文本特征。使用Word2vec模型可以將語料庫中的詞,以獨熱編碼(Onehot-code)的形式使用一維向量表示。本文的Word2vec模型使用Skip-gram算法,將詞轉換為200維向量進行余弦相似度計算。本文使用LDA模型對重慶公交車墜江事件以每天作為時序單元抽取主題,并使用Word2vec計算各主題間的相似度,發現表達輿情客體的微博主題,主題內容及相似度如表1所示。

表1 重慶公交車墜江事件表達輿情客體的微博主題

表1(續)
通過表1發現,各時序節點的主題高度相似,主題之間的主題詞有很多也是同一含義的不同表達,基本反映了輿情事件本身內容。雖然個別主題中出現了除輿情客體用戶關注的其他內容,但通過實驗發現,這部分內容在LDA提取的同一時序節點的其他主題均有揭示。因此,將以上主題作為表達輿情客體的主題并排除在研究之外,不僅不會影響主題的揭示,還會提高分析主題影響力的準確度。經排除表達輿情客體主題后,得出微博主題如表2所示。

表2 各時序節點微博主題的主題—詞分布
在2.2、2.3、2.4節闡述了微博主題影響力計算方法,現對主題自感系數、互感系數及參與討論用戶數量的統計分別予以說明。
3.2.1 “重慶公交車墜江事件”主題自感系數計算
計算主題自感系數時,首先需要確定主題的爭議性數值。為研究簡潔,本文不采用定量化方法對主題爭議性進行推導,而是選擇與文獻[16]相似的方法,根據已有研究演繹推定“重慶公交車墜江”事件的爭議性數值。“重慶公交車墜江”事件中,由于政府救援及時、方法科學合理、救援人員盡職奉獻,獲得網民的一致好評。只有在確定事故原因方面,由事故產生前期網民誤認為是紅色轎車逆行導致,到交通監控視頻公布,確認事故原因不是紅色轎車逆行導致,再到最后公交車黑匣子內容公布,找出事故真正原因,期間網民關注內容多次發生變化,但主題爭議性一直較小。因此,本文將主題爭議性均賦值為0.1,即α=0.1。
主題語義離散度的計算需要使用主題詞對稱矩陣,對角線值為1,并將矩陣對角線一側除對角線外其他所有元素的值加和,得出主題語義離散度的倒數?!爸貞c公交車墜江”事件主題自感系數如表3所示。

表3 “重慶公交車墜江”事件主題自感系數
3.2.2 “重慶公交車墜江事件”主題互感系數計算
對每個時序節點(即每天)進行主題抽取,并去除表達輿情客體的主題后,其余即為每個時序節點上表達輿情本體的主題。如表3所示,28日剩余1個表達輿情本體的主題,不計算互感系數;29日剩余T2、T3兩個表達輿情本體的主題,即計算29日T2與T3的互感系數;1日剩余T2、T3、T4 3個表達輿情本體的主題,即計算1日T2、T3、T4彼此之間的互感系數;以此類推。主題互感系數與主題自感系數計算類似,在主題離散度計算中,用主題詞之間相似度的倒數表達主題離散度,而在主題互感系數計算中,則將兩個主題的所有主題詞組合成一個整體,形成對角線為1的對稱矩陣,并計算對角線一側除對角線元素外其他元素數值和。由于加和后的數值較大,因此將數值使用極值歸一化進行標準化?;ジ邢禂等绫?所示。

表4 “重慶公交車墜江”事件主題互感系數
3.2.3 “重慶公交車墜江事件”主題影響力計算
得出微博主題自感系數、互感系數后,結合參與討論用戶數量,根據式(3)可以計算微博主題影響力。參與主題討論的用戶數量可由LDA主題提取時得出的主題—文檔分布進行統計。通過主題—文檔分布,可得出所有文檔在每個主題上的概率分布,概率值最大的主題即為該文檔在內容上屬于此主題,同時對應文檔的發布者即為參與此主題的討論。普通用戶發布多個屬于某主題的文檔,僅表示該用戶持續關注此主題,對主題影響力大小變化的作用效果微??;而如果網絡意見領袖用戶持續關注同一主題,則會對主題影響力的增大產生重要作用。不同影響力的用戶對主題的影響也不同,因此在式(3)中f(u)應為關于用戶類型的線性函數,函數表示如式(4)所示。
f(u)=u1(β1a)+u2(β2b)+u3(β3c)
(4)
u1、u2、u3……表示不同用戶類型,β1、β2、β3……表示不同類型用戶參與某一主題討論的數量,a、b、c……表示對應用戶類型的權值,u1(β1a)表示第一類用戶關注某一主題的影響力是關于參與用戶數量β1與用戶類型權值的積函數。
關于微博用戶影響力的研究較多,應用指標體系計算或應用復雜網絡結構計算的研究均取得一定成果。安璐等對突發事件情境下高影響力用戶進行分析,構建了高影響力識別指標體系,使用標準離差法確定指標權重[42],指標及相應權重值如表5所示。

表5 用戶影響力識別特征指標權重
在“重慶公交車墜江”事件中,經過對新浪微博條目觀察發現,并不存在權威人士或個體意見領袖對事件本身的解讀或討論,輿情傳播過程以官方媒體發布信息以及普通微博用戶參與討論為主,因此本文將用戶分為官方媒體,即藍V認證用戶,其他均為普通用戶。結合文獻[42]研究結果,計算得出官方媒體的平均影響力指數為0.5852,普通用戶的平均影響力指數為0.1269。由于輿情事件不存在爭議性主題,未發現用戶觀點態度明顯相反的現象,并通過百度AI開放平臺情感傾向分析證實用戶對各主題不存在明顯相反情況。因此,在式(3)中第二部分均選擇相加處理。
綜合以上研究,計算“重慶公交車墜江”事件各時序節點上各主題(除表達輿情客體的主題)的影響力如表6所示。
以主題在語義上的自感特性及互感特性為起點,結合參與主題討論的用戶影響力得出主題影響

表6 “重慶公交車墜江”事件微博主題影響力
力,擴展了以復雜網絡為理論基礎進行主題影響力分析的研究邊界。本文首先實現對主題在語義上離散度的定量計算。主題離散度是主題本征特質的重要方面,離散度越高,吸引更多用戶參與討論、刺激用戶延伸出更多討論內容的概率越大;第二,對同一輿情事件或同一系列輿情事件中的不同主題在內容上的“重疊”部分,即主題互感耦合進行定量計算;第三,以主題以及主題之間在語義上的本征特征和用戶在某一主題上的影響力來表達微博主題的影響力。
本文的實踐意義在于當輿情事件出現以后,用戶會由此輿情事件本身延伸出多個討論的主題,其中甚至可能會出現謠言、高度負面情感等情況。了解各主題的影響力狀況有助于促進對輿情發展態勢的理解,更加有利于準確掌握輿情潛在風險點。本文以“重慶公交車墜江”事件為例,對微博主題影響力進行計算,得出各時序節點上各主題的影響力。在實驗計算中發現,來自主題互感耦合的用戶影響力對主題影響力的貢獻較大。另外,普通用戶對主題影響力的貢獻相對官方媒體更大,主要原因是官方媒體發布內容基本屬于對輿情客體的報道,而在本文構建的微博主題影響力計算模型中,則不將表達輿情客體的微博主題列在研究范圍內。

圖4 “重慶公交車墜江”事件微博主題影響力分布圖
由圖4可以發現,在事件發生之初主題影響力較高。主要原因是事件嚴重,傷亡人數多,因此引起大量用戶關注并參與討論。結合表3可知,28日事件發生,紅色轎車被誤認為逆行并且是導致事故發生的原因。29日至30日,隨著交通視頻公布,證實紅色轎車沒有逆行并且也不是事故原因。網民用戶提出前一日及29日稍早誤會女司機的媒體和個人應該做出道歉。隨著事件的發展,用戶的關注點又快速轉移到打撈救援工作上。其間出現影響力較高但持續時間較短的主題,即一名救援隊員的父親是遇難者之一,引起了用戶的關注,但影響力持續時間較短暫。在隨著公交車黑匣子被打撈并且公布黑匣子內容,網民用戶對女乘客的行為進行強烈的抨擊,同時也對公交車司機的應對失當持一定反對態度,具體內容集中體現在4日T2主題中。隨著事故原因的披露,用戶在對事故當事人表達譴責之后,整體主題影響力出現下降趨勢。說明此時有一部分用戶在知道事故原因之后選擇不再關注此事件。而選擇繼續參與討論此事件的用戶在關注內容上則向更多方向發展,如相關法制建設、公交車圍欄、國民素質等方面。其中有關國民素質、素質教育等主題的討論在10日左右影響力較高。
圖4顯示“重慶公交車墜江”事件微博主題影響力分布趨勢符合信息傳播生命周期的規律,即起始期、爆發期、衰退期和平息期。30日、31日是突發事件網絡輿情的爆發期,結合表3可知,網絡用戶主要關注要求新聞媒體對紅色轎車女司機道歉以及救援工作開展,尤其關于救援工作的主題影響力最高。由此可判斷,此時盡快開展救援工作是應急管理的重點工作,也是防止網絡輿情衍生風險、次生風險的關鍵途徑。事實上,當地政府及時開展了科學有效的救援工作,并在救援工作出現了感人事跡,從而將網絡用戶從要求新聞媒體道歉的關注點轉移。最終引導整體突發事件網絡輿情平穩進入衰退期和平息期,在信息傳播生命周期中未出現網絡輿情衍生風險、次生風險,增強了突發事件的社會恢復力。
本文基于主題在語義上的自感特性和互感特性,提出主題影響力的定義,構建了主題影響力的計算模型。主題影響力計算模型能夠反映微博主題吸引用戶參與討論的能力。但是為了研究簡潔性,本文構建的計算模型中有個別指標未選擇詳細計算,而是結合已有研究成果及先驗認知直接定義其數值。主要是主題爭議性取值以及用戶類型細分粒度。第一,本文對主題爭議性選擇直接賦值,但實際各主題爭議性必然不同。第二,在計算用戶影響力時,只將用戶分為官方媒體和普通用戶,分類粒度的不足使得對不同用戶真實影響力的揭示不充分。第三,用戶類型權值計算以及用戶觀點態度方向均采取抽樣計算。以上3點對主題影響力的計算會產生一定影響。在未來研究中,注重將所有指標的得出均建立在科學合理的計算中,減小數值取值的模糊性,增加主題影響力計算準確度。
本文基于主題在內容上的本征特質和主題之間的互感特性,結合用戶參與主題討論行為,定義了主題影響力的概念。本文創新性提出對表達輿情本體的主題與表達輿情客體的主題進行區分,并通過Word2vec算法設計了具體區分方法。同時基于輿情客體與輿情本體的理論論證了針對輿情本體進行微博主題影響力計算的合理性。在受電路互感耦合的啟發下提出主題間互感耦合并設計計算方法,利用主題在語義上的歐式距離表達主題互感程度。最后以主題本征特質、主題互感耦合以及在主題上分布的微博用戶數量3個模塊為基礎,提出主題影響力計算模型,并通過“重慶公交車墜江”事件進行實證分析?;谥黝}互感耦合對微博主題影響力進行分析,可以描述輿情主題之間的交互關系及相互影響的程度,揭示網絡輿情事件的發展態勢,繼而深入理解微博用戶的行為模式,為加強應急管理部門的輿情應對能力提供理論支撐。