王曰芬 王一山
〔摘要〕在網絡輿情內容的傳播過程中,各種物理上獨立的輿論會話在傳播要素上可能存在著語義關聯,并且傳播要素之間的相互影響對輿情傳播內容的演變具有重要作用。本文從網絡輿情的傳播階段中傳播要素的相互影響入手,以傳播內容為主要研究對象,以社群網絡中的關鍵節點及其傳播主題為分析單元,將生命周期理論和關鍵節點識別相結合,并選擇新浪微博作為數據來源,采集輿情事件信息,構建輿情事件生命周期各階段的社會網絡并提取關鍵節點,借助LDA主題模型方法挖掘各階段輿情內容的主題,在此基礎上研究相同階段或者不同階段中在關鍵節點影響下的輿情主題分布及其變化。研究結論為社會輿情分析與決策支持提供了一定的參考。
〔關鍵詞〕網絡輿情;主題發現;傳播要素;生命周期;關鍵節點識別;社群分析;新浪微博;LDA主題模型
DOI:10.3969/j.issn.1008-0821.2018.09.005
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2018)09-0028-08
Topic Discovery and Comparative Analysis of the Public Opinion from
Different Disseminator in the Communication StagesWang Yuefen1,2Wang Yishan1
(1.Department of Information Management,Nanjing University of Science & Technology,
Nanjing 210094,China;
2.Jiangsu Collaborative Innovation Center of Social Safety Science and Technology,Nanjing 210094,China)
〔Abstract〕In the content communication process of the network public opinions,a variety of physically independent public opinion dialogues may exist semantic association among the communication factors,and the interaction of communication factors plays an important role in the evolution of public opinion content.In this paper,the interaction of network public opinion in the communication process was commenced.The communication content was the main research object.The key nodes and their topics in the communication process were regarded as analysis unit.Sina micro-blog was chosen as a data source and collect public opinion event information.The research methodology was to integrate the life cycle theory and the identification of key nodes,and to construct social networks in all stages of the life cycle of public opinion events,extract key nodes,and mine the topic of public opinion content in all stages with LDA topic model method.On the basis of this,the topic distribution and changes of public opinion were studied in the same stage or in different stages under the influence of the key nodes.The conclusion provided some references for social public opinion analysis and decision support.
〔Key words〕network public opinion;topic discovery;communication factors;life cycle;the identification of key nodes;community analysis;Sina micro-blog;LDA topic model
輿情是指個人或各類社會群體構成的公眾,在一定的社會空間內,對自己關心或與自身利益緊密相關的各種公共事務所持有的情緒、態度和意見交錯的總和[1]。網絡化與數字化媒體的不斷發展,催生的網絡誘致、放大、介入或主導的社會輿情事件頻發,使得通過網絡傳播的輿情呈現出信息內容的高度分散化與各種會話的碎片化[2],導致社會輿情更加凸現復雜化與多元化特點,對公眾的認知與行為影響越來越大。因此,以網絡輿情作為對象,針對傳播者與接受者、傳播內容、傳播媒介、傳播效果及其影響與作用等等的研究引起了社會的廣泛關注和重視。隨著研究的技術手段與方法的發展,社會研究重點正在從單純地收集有效數據向對輿情內容的深入研判上拓展,跟蹤與獲取關聯輿情并系統組織同類輿情信息,挖掘輿情信息可利用的價值,生產可供決策參考的產品與服務[3]。而在深化研究時,鑒于網絡輿情在內容傳播中,各種物理上獨立的輿論會話,在傳播各要素上可能存在著語義關聯。同時,歷史輿論會話對于理解正在發展中的輿論會話、可能生長的輿論會話以及輿論會話的后續效應具有參考價值。其中,由傳播者與接受者借助于相同或者相似話題形成的緊密連接的關鍵社群網絡對輿情內容也會產生著重要的影響。所以,輿情內容的研究有著許多值得探索的問題,例如,在網絡輿情傳播的新生態下,基于傳播過程的輿情傳播要素之間是如何相互作用的,傳播主體的不同對內容主題有何影響,在不同傳播階段輿情事件在傳播內容和數量上有何變化,以及主題的變化又如何影響傳播主體及其下一階段的主題等等。
為深入研究傳播過程中輿情傳播內容與傳播要素之間的影響,豐富與完善新媒體生態下社會輿情傳播規律的認識,為社會輿情分析與決策支持提供更有效的方案。本文以傳播階段中傳播要素的相互影響為切入點,以傳播內容為主要研究對象,以社群網絡中的關鍵節點及其傳播主題為分析單元,將生命周期理論和關鍵節點識別相結合,并借助主題模型方法,研究同一階段或者不同階段中在關鍵的傳播要素影響下的輿情主題分布及其變化。
根據研究的思路,相關研究主要涉及到輿情主題發現、輿情生命周期研判和輿情關鍵社群分析。
11輿情主題發現
主題發現即主題抽取和主題識別,旨在對大量的信息進行處理和分析,幫助用戶高效地掌握信息內容、發現信息主題[4]。從目前針對輿情主題發現方法的研究來看,常用的輿情主題發現方法主要有兩類:文本聚類和主題模型,但這些方法大多應用于新聞類數據的主題發現[4],較少針對網絡輿情社交媒體。深入閱讀研究網絡輿情社交媒體主題發現的文獻,本文發現LDA主題模型在網絡輿情社交媒體主題發現研究中使用較多。LDA(Latent Dirichlet Allocation)[5]是一個三層貝葉斯概率模型,包含詞、主題、文檔三層結構。LDA模型認為每篇文檔包含若干個主題,同時每一個主題是固定詞典里的一個多項式分布,文檔到主題服從Dirichlet分布,主題到詞服從多項式分布[6]。所以,LDA主題模型認為任何一篇文檔均由一個詞頻向量構成,這樣就可將文本信息轉化為數學模型。LDA主題模型中比較有名的有DTM動態主題模型[7]、ILDA增量型潛在狄利克雷分配[8]和OLDA在線潛在狄利克雷分配[9]。學者們根據不同的需求研究LDA模型在輿情主題發現中的應用,如:李真等認為,基于社會網絡視角,利用LDA主題模型可多方面、多維度地識別網絡輿情觀點主題[10];陳曉美等通過LDA主題模型觀點提取方法,研究了如何從網絡言論中判定深度評論,摘取主要觀點,探索從大規模輿情中有序呈現受眾觀點的新路徑[11];宋蕾等使用LDA主題模型解決數據的稀疏性問題,并通過聚類算法最終實現微博熱點話題的發現[12]。
12輿情生命周期研判
生命周期(Life Cycle)[13]的概念在諸如政治、經濟和技術等眾多領域都有應用。生命周期理論很好地詮釋了事物的整個發展過程,即事物從產生、成長、衰退到消亡的過程。網絡輿情的演化同樣遵循這一規律,其傳播演化的過程大致可以分為成長期、爆發期、衰退期和平緩期這四個階段。生命周期理論現已成為眾多學者在研究網絡輿情的傳播與演化時所借助的手段之一。如:史波結合生命周期理論分析了公共危機事件網絡輿情在整個生命周期中的演變路徑、演變表現和演變動因[14];楊長春等將輿情危機事件按照生命周期劃分為危機前、危機中和危機后3個階段,構建了微博意見領袖輿情危機管理能力的評判指標體系[15];方付建在研究突發事件網絡輿情演變時,運用生命周期理論,將其劃分為孕育、擴散、變換和衰減4個階段,并對每個階段的輿情議題展開了研究[16]。
13輿情關鍵社群分析
社交媒體中的用戶根據其社會屬性可以劃分成不同的社會群體,其在輿情事件中扮演不同的角色,其中具有較強影響力的社群被稱為關鍵社群。而關鍵社群通常由眾多影響力較強意見領袖及認同其觀點的普通用戶組成。因此,準確識別出各類輿情意見領袖是進行關鍵社群分析的重要前提和步驟?!耙庖婎I袖”這一概念最早由拉扎斯菲爾德提出,其定義為:在將媒介信息傳給社會群體的過程中,那些扮演某種有影響力的中介角色[17]。社交媒體社會網絡中的意見領袖通常扮演信息轉達者和信息把關者的重要角色,并能夠深刻影響其周邊用戶[18]。意見領袖在社會網絡概念中被稱作“關鍵節點”,本文中兩者的含義相同,下文統稱“關鍵節點”。社會網絡中各類描述節點屬性的特征進行輿情社群關鍵節點識別是目前常用的方法。如:康偉以2011年重大突發事件“7·23”動車事故為實證研究對象,生成“7·23”信息傳播網絡拓撲圖,并基于鄰接矩陣數據進行了網絡密度、可達性、聚類系數和中心性測度,依據測度結果和位置角色分析對其進行了關鍵節點的分層與識別[20]。
通過閱讀已有的研究成果,本文發現針對網絡輿情熱點話題發現的研究比較多,其中的方法和模型也較為成熟。同時,輿情生命周期研判和關鍵社群分析也在不斷地擴展應用。然而,將幾種方法結合,構建挖掘和揭示更深層次輿情內容的研究方案還有待于進一步的研究。
2研究設計
21研究問題提出
如今輿情大多數是通過網絡社交媒體傳播的,由于網絡社交媒體具有的實時性和高交互性的特點,使得用戶在發布信息的同時也在接收其他用戶的信息,即同時扮演著信息發布者和接受者的雙重角色?;趥鞑ビ^點的發布與接受,信息發布者和接受者相互影響,進而作用于傳播內容并使其發生著改變。體現在傳播階段過程中,信息發布者和信息接受者所傳播的觀點主題狀態的變化大致可以歸為3類:其一,接受者認可發布者的觀點,發布者主題被強化;其二,接受者認可發布者的觀點并有新的認知,產生新主題并發布,主題呈現多樣繼承性;其三,接受者不認可發布者的觀點,產生與原觀點相悖的主題,主題呈現多元變異性。
那么,在深化輿情傳播特點與規律的研究中,基于上述三種輿情觀點主題狀態的變化,本文認為需要解決以下5個具體問題入手:1)生命周期同一階段,不同類別發布者的主題有何異同?2)生命周期同一階段,發布者和接受者的主題有何異同?3)生命周期相鄰階段,前一階段的接受者主題與后一階段的發布者主題有何異同?4)生命周期不同階段,發布者主題如何變化?5)生命周期不同階段,接受者主題如何變化?
如果將輿情生命周期劃分為成長、爆發和衰退等階段,并采用通常將輿情社群中的關鍵節點視為信息發布者、而普通用戶視為信息接受者的做法,那么,在輿情傳播階段中,上述5個研究問題的邏輯關系可以如圖1來表達,其圖中序號與上述5類問題分別對應。圖1研究問題的邏輯關系圖
22研究思路與研究方法
針對上述5類研究問題,本研究的思路為:以“北大女研究生章瑩穎失蹤事件”為研究案例,以新浪微博平臺中的數據為來源,以生命周期理論劃分輿情傳播階段和以關鍵社群分析方法識別輿情社群的關鍵節點,在此基礎上,以LDA主題模型抽取和識別不同階段的輿情主題,并進而識別和比較信息發布者與接受者的觀點主題及其相互影響。研究的主要流程為:首先,選擇研究方法和模型;其次,為輿情事件劃分生命周期階段;然后,利用輿情事件中的轉發關系,以用戶為節點、轉發關系為連線構建各階段的轉發社會網絡,利用度中心性指標識別關鍵節點并分類;再次,根據各階段不同類型關鍵節點的微博內容和原創微博的所有評論,利用LDA主題模型分別提取博文和評論的主題;最后,針對上述要解決的5類研究問題作出分析并得出結論。設計的研究流程和采用的研究方法如圖2所示。
23數據收集與整理
本研究以新浪微博(littp://weibo.com)平臺作為案例數據采集的來源,利用Python編寫微博爬蟲,以“章瑩穎”為檢索詞,通過前期對該案例事件的重要時間節點分析,確定選擇數據爬取的時間為2017年6月11日至2017年圖2研究流程和研究方法示意圖
8月20日,爬取的相關數據為:微博信息(微博內容、微博ID、發布時間、發布者昵稱等)、轉發信息(轉發內容、轉發關系、轉發時間等)、評論信息(評論內容、所屬微博、評論者等)和用戶信息(用戶ID、昵稱、粉絲數等),并將所獲信息存入MySQL數據庫。經過編程自動篩選與人工干預,去除無用和干擾數據,將數據庫中的數據處理后,分別存入轉發表(166 443條)、微博信息表(21 299條)、評論表(148 037條)和用戶信息表(252 014條)這4個Excel表格中。
3實證和分析
31微博輿情生命周期階段劃分
根據生命周期理論,輿情事件在微博中的傳播與演化存在明顯的階段性特征,而微博的發文數和轉發數是這些特征的量化表現。本文以生命周期理論為依據,結合“章瑩穎失蹤事件”中微博發文數和轉發數的變化情況(如圖3),將該事件的輿情演化過程劃分為4個階段:成長期(6月11日~6月25日)、爆發期(6月26日~7月2日)、衰退期(7月3日~7月23日)、平緩期(7月24日~8月20日)。
32微博輿情社會網絡構建和關鍵節點識別
本文將“章瑩穎失蹤事件”微博轉發數據按照時間排序,分別劃分到的生命周期的4個階段,然后以用戶為節點,轉發關系為連線,構建各階段的轉發社會網絡,運用社會網絡可視化軟件Gephi生成如圖4所示的生命周期各階段轉發網絡圖。
通過分析轉發網絡各階段的數據,本文按照度中心性值的大小對網絡中的節點進行了降序排序,分別選出Top10、
Top20和Top50的關鍵節點,并按照其社會屬性將其分為政府類、媒體類和草根類節點。如圖5所示,進一步分析Top10、Top20和Top50中政府類、媒體類和草根類節點各自的度中心性值占比。圖5各類關鍵節點度中心性值占比分布
其中,政府類節點在Top10、Top20和Top50中的度中心性值占比除了在衰退期略高于20%外,其余時期均在10%左右,占比極小。從政府類節點的類別屬性來看,政府類節點除了共青團中央這個正部級機構外,其余均為地方性機構(如:內江市中區公安等),規模較小,影響力有限。媒體類節點的占比均呈現出先增加后減少的趨勢,成長期占比均大于20%,爆發期占比達到最大,為60%左右,隨后顯著下降,在平緩期時穩定在20%左右。從媒體類節點的類別屬性來看,媒體類節點中既有人民日報和中央電視臺這種全國性綜合媒體,也有諸如《三聯生活周刊》這類規模相對較小,覆蓋面較為單一的中小媒體,涵蓋較為廣泛。草根類節點無論在Top10、Top20還是Top50中,其4個時期的度中心性值占比均較高,在最低的爆發期,其占比仍超過30%。在經歷了從成長期到爆發期短暫的下降后,占比在衰退期和平緩期顯著上升,最終達到80%左右。從草根類節點的類別屬性來看,草根類節點主要為微博個人用戶和興趣類博主。
由于政府類關鍵節點在Top10、Top20和Top50中的度中心性值占比均較低,影響力有限,同時其發布內容主要為轉發的案件信息,與媒體類關鍵節點發布內容類似,因此,本文將政府類關鍵節點和媒體類關鍵節點合并為一類,下文統稱為“官媒類”關鍵節點。表1展示了生命周期各階段Top50中官媒類和草根類的部分關鍵節點。
33不同關鍵節點輿情主題的發現與解讀
對照生命周期的不同階段,分別選取微博社會網絡中表1生命周期各階段Top50關鍵節點分類展示
生命周期官媒類草根類起始期中國新聞網、頭條新聞、中國之聲……這里是美國、大神說、我的前任是極品……爆發期人民日報、環球時報、央視新聞……Paingod、這里是美國、郭松民……衰退期共青團中央、人民日報、頭條新聞……段子坊、何兵、謹言馬西亞諾……平緩期中國青年網、新浪新聞、內江中區公安……侯寧、謹言馬西亞諾、張頤武……
官媒類和草根類關鍵節點(兩類信息發布者)發布和轉發的所有微博以及普通用戶(信息接受者)在全部原創微博的評論,使用LDA主題模型進行主題提取和分類。由于單條微博字數較少,為盡可能多地涵蓋微博的主要內容,需要較多的關鍵節點,因此本文選取Top50中各類關鍵節點的微博內容。經過提取、整理和概括,信息發布者和信息接受者的主題分布分別如表2、表3和表4所示。
義、程序、公平”詞匯反映了草根類關鍵節點關注美國的法律、體制等因素對案件審判的影響,以及如何保證法律的公正等問題。TopicⅢ-3關注中美兩國的辦案效率,TopicⅢ-4仍然是女生安全。在平緩期,除TopicⅣ-4涉及章瑩穎的家屬,其余3個主題均與事件無直接聯系。TopicⅣ-1關注留學安全,TopicⅣ-2提到了國內的一起人口拐賣案件,TopicⅣ-3仍然關注女性安全,安全問題在生命周期后3個階段均有出現,具體體現在留學安全、中美兩國安全環境差異和女生安全三方面。
34不同關鍵節點的輿情主題的對比分析
根據上述輿情主題的發現和解讀,在概括各類輿情信息發布者和接受者4個階段主題的基礎上,構建輿情觀點主題對比分析表格,如表5所示,并針對上文提出的5類問題作出解答分析。
1)生命周期同一階段,不同類別發布者的主題有何異同?
在生命周期同一階段,官媒類關鍵節點側重對事件的跟進報道,注重寫實,較少發表主觀看法。而草根類關鍵節點則不僅關注事件本身,還聯系廣泛,對類似事件也進行了討論,表達的觀點和看法都具有一定的深度。本文認為,這種區別與兩類發布者的現實屬性有關,官媒類關鍵節點在發布信息時需要考慮后果和影響,必須確保信息的真實可靠,因此不會輕易表達主觀意見,而草根類關鍵節點大多為個人用戶或某一興趣領域的微博達人,他們在表達意見時更容易聯系自身和周邊且較少顧及影響,因此思維更開闊,觀點更多樣。
2)生命周期同一階段,發布者和接受者的主題有何異同?
在生命周期同一階段,作為信息接受者的普通用戶更善于聯系自身并關聯相似事件,與草根類關鍵節點見解深刻不同,普通用戶更多地傾向于情緒的表達和宣泄,在思維的深度方面有所欠缺。而相較于官媒類關鍵節點,普通用戶則較少關注事件的進展信息,更傾向于討論事件造成的后果,以及如何避免類似事件的發生??傊?,普通用戶群體由于人員素質參差不齊以及條件有限,整體思維水平不如草根類關鍵節點,對事件的報道和曝光方面則不如官媒類關鍵節點,但其人數眾多,影響力不容忽視,決策者仍需關注其訴求傾聽其意見。
3)生命周期相鄰階段,前一階段的接受者主題與后一階段的發布者主題有何異同?
如表5所示,生命周期相鄰階段的信息接受者和發布者分別被同一種形狀標注(菱形、圓形和三角形)。分別比較3個相鄰階段的接受者和發布者,本文發現,前一階段接受者關注的主題有一部分出現在相鄰下一階段的發布者1(草根類關鍵節點)主題中或發布者1中有相關的主題與之對應。如表5中下劃線加粗字體所示,“馬里蘭大學中國留學生辱華”與“中美精英對主流文化的看法”、“中美安全、破案效率對比”與“FBI破案效率與中國的比較”、“中國和外國安全水平的比較”與“留學生安全以及中美教育”分別為3組對應主題,分別涉及文化、安全和教育三方面,與事件有較強聯系。但是,發布者2(官媒類關鍵節點)在3個相鄰階段則無相應主題與之對應。綜上所述,本文認為草根類關鍵節點比官媒類關鍵節點更多地與普通用戶進行交流,或者說草根類關鍵節點更容易受普通用戶觀點、看法甚至情緒的影響。
4)生命周期不同階段,發布者主題如何變化?
對比草根類關鍵節點4個階段的主題,本文發現,在事件發生不久,主題都與事件直接相關,如事件的進展、當事人信息等。而隨著時間的推移,與事件間接關聯的主題逐步出現,本文認為這是草根類關鍵節點對事件進行深入思考并結合自身經驗所發表的看法,其中既包含對事件的態度,對外部環境的分析,對事件后續處理的關注,也包含對如何避免類似事件再次發生的思考,最后這些看法上升到國家、制度和文化層面。4個階段中主題的演變由點及面,層層深入,逐步擴展。對比官媒類關鍵節點4個階段的主題,本文發現,官媒類關鍵節點在4個階段均集中報道事件的進展,主要有案件進展信息,相關人員資料等,只是在平緩期時提到了一封母親寫給女兒強調人生安全的信。
5)生命周期不同階段,接受者主題如何變化?
比較分析作為信息接受者的普通用戶4個階段的主題,本文發現隨著時間的推移,主題在廣度和深度上均有一定程度的突破。從成長期到平緩期,普通用戶常聯系各類相似事件,如“北電侯亮平事件”和“馬里蘭大學中國留學生辱華事件”,同時對事件的深層次原因以及如何避免類似事件再次發生也有一定的討論與思考,但思考普遍不深入。普通用戶在4個階段均具有較強的情緒釋放和宣泄,主要為抨擊極端言論和祈求平安等。
4總結
某一社會事件發生后,經網絡社交媒體的傳播,受到各類意見領袖和網絡推手的促動,引發公眾的廣泛參與,隨之而來的發文數、轉發數和評論數的大量增長,公眾的意見逐步產生并成型,最后,公眾的意見慢慢達成一致從而形成輿情[21]。本文選擇以“2017年北大女碩士章瑩穎失蹤”事件為案例,基于新浪微博獲取數據,并借助生命周期理論、關鍵社群分析方法和LDA主題模型,通過挖掘各類信息發布者和接受者在生命周期不同階段的主題,研究網絡輿情傳播過程中關鍵節點和普通用戶主題的影響以及變化,得出如下思考:
網絡輿情事件中的作為信息發布者的微博草根類關鍵節點規模龐大、影響廣泛、見解深刻,是一股不容忽視的力量,對其觀點主題進行有效的識別、提取、跟蹤和掌握,傾聽其利益訴求,有助于正確地引導輿情的傳播,促進傳播行為之間的合理互動,為輿情決策提供積極的支撐。微博評論的高互動性讓作為信息接受者的普通用戶交流和討論更加便捷,這也使得不同的觀點在評論區能夠被充分表達并形成多樣化的主題。因此,關注評論區的主題有助于了解普通用戶的想法,決策者不僅應重視關鍵節點,還要兼聽“底層民意”,這樣才能有效化解輿情危機,做出符合廣大人民群眾利益的決策。官媒類關鍵節點由于本身的政府和媒體屬性使得它們具有較高的權威性,在事件爆發初期及時進行信息發布和謠言破除,在事件中后期對事件進行有針對性的點評和解讀,有助于正確地引導輿論,官媒類關鍵節點在此次事件的整個過程中欠缺對事件的解讀,有待改進。同時,研究發現普通用戶的觀點在一定程度上能引起草根類關鍵節點的關注和思考,但對官媒類關鍵節點基本無影響,因此,建議作為官方與權威代表的官媒類關鍵節點增加對普通用戶意見的關注。
雖然研究結果比較豐富,但本研究仍存在兩點局限:其一,研究只選取了單一的事件,不能完全反映一般規律;其二,只按照轉發網絡中用戶節點的度中心性指標和節點社會屬性對各類信息發布者進行了劃分,未綜合考慮其他用戶行為,如點贊和評論等,且未將主題發現與用戶行相結合。今后還需通過選取系列事件,并將用戶行為和主題發現結合起來進行研究。以上這些都是后續研究的重點和難點。
參考文獻
[1]劉毅.略論網絡輿情的概念、特點、表達與傳播[J].理論界,2007,(1):11-12.
[2]王曰芬.大數據環境下社會輿情及其演化分析的研究[J].情報資料工作,2016,37(3):5-5.
[3]岑詠華,王曰芬.大數據環境下社會輿情分析與決策支持的研究視角和關鍵問題[J].現代圖書情報技術,2016,32(7/8):3-11
[4]梁曉賀,田儒雅,吳蕾,等.微博主題發現研究方法述評[J/OL].圖書情報工作,1-7.http://kns.cnki.net/kcms/detail/11.1541.G2.20170921.1115.009.html,2017-09-21.
[5]Blei DM,Ng AY,Jordan MJ.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[6]阮光冊.基于LDA的網絡評論主題發現研究[J].情報雜志,2014,33(3):161-164.
[7]Blei D M,Lafferty J D.Dynamic Topic Models[C]// International Conference.DBLP,2006:113-120.
[8]Griffiths T L,Steyvers M.Finding Scientific Topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(1):5228.