陳慧敏 金思辰 林 微 朱澤宇 仝凌波,4 劉一芃 葉奕寧 姜維翰 劉知遠 孫茂松 金兼斌
1(清華大學新聞與傳播學院 北京 100084)
2(清華大學計算機科學與技術系 北京 100084)
3(北京航空航天大學軟件學院 北京 100191)
4(美國圣母大學心理學系 美國印第安納州南本德 46556)
謠言一般指沒有事實依據而捏造的言論[1],是社會科學和計算機科學的重要研究問題[2-5].謠言最初主要以口耳相傳形式流傳,隨著近年來互聯網的發展,諸如微博、微信、Twitter等社交媒體成為謠言傳播的新平臺.由于社交媒體平臺的開放性和便捷性,大量虛假言論在社交媒體平臺上廣泛傳播,對網絡秩序和社會穩定產生了不良影響(1)http://www.xinhuanet.com/2020-01/27/c_1125506246.htm.
重大公共事件出現時往往伴隨著謠言的產生,如2014年的埃博拉瘟疫[6]、2016年的美國總統大選[7].而2019年出現的新冠肺炎(COVID -19)疫情發展至今,已經構成了全球性“大流行”(Pandemic)(2)https://www.who.int/dg/speeches/detail/who-director-general-s-opening-remarks-at-the-media-briefing-on-covid-19%E2%80%9411-march-2020.與之相伴的則是信息瘟疫(Infodemic)(3)https://www.who.int/news-room/feature-stories/detail/immunizing-the-public-against-misinformation的到來,大量謠言在社交媒體平臺上衍生并廣泛傳播,這些謠言不僅嚴重危害到公眾的生命安全,同時給社會帶來了極大的恐慌和不穩定因素(4)https://www.who.int/news-room/detail/23-09-2020-managing-the-covid-19-infodemic-promoting-healthy-behaviours-and-mitigating-the-harm-from-misinformation-and-disinformation.與此同時,已有研究表明,類似于這次新冠肺炎疫情的突發公共事件相關謠言,其傳播與社會常態時謠言的傳播具有十分不同的特性[8-11].因此,對新冠肺炎疫情相關社交媒體謠言傳播進行量化分析不僅具有深遠的社會意義,同時具有十分重要的研究價值.
目前已經有一些研究者針對新冠肺炎疫情相關社交媒體謠言傳播展開量化研究.Islam等人[12]收集了來自Twitter和Facebook等社交媒體平臺的2 311篇疫情相關謠言和陰謀論報道,并對其進行內容分析.Cinelli等人[13]收集了來自6個國外社交媒體平臺的疫情相關謠言,并對其傳播模式進行對比分析.錢迎飛[14]和江蘇佳[15]則收集了國內的騰訊較真查證平臺和丁香園辟謠平臺的疫情相關謠言,并展開內容分析.然而,目前這些工作僅對疫情相關社交媒體謠言傳播的單一要素展開量化分析,如內容特征.而根據拉斯韋爾的經典信息傳播模型[16],構成信息傳播的基本要素包括傳播者(communicator)、傳播內容(message)、傳播媒介(medium)、受眾(audience)以及傳播效果(effect),其中對謠言的傳播者、傳播媒介、受眾以及傳播效果的研究仍未涉及.同時,已有工作基于的謠言數據大多來自于人工歸納整理,相對于真實的社交媒體平臺謠言數據,其仍然存在一定的分布偏差和信息缺失:其分布偏差體現在人工歸納收集的謠言數據多為廣泛傳播的謠言,而社交媒體平臺中的謠言只有極少數具有廣泛的傳播范圍[17].其信息缺失體現在人工歸納收集的謠言往往只保留謠言內容,而其引發的輿情和傳播信息以及參與用戶信息則沒有保留.
為了解決分布偏差和信息缺失問題,本文基于國內最大的微博服務平臺——新浪微博,對新冠疫情相關社交媒體謠言傳播展開全面地量化分析.我們首先構建了一個新冠肺炎疫情相關謠言數據集,其中包括謠言及其轉發、評論以及參與用戶信息的數據.本文對疫情期間的社交媒體謠言研究聚焦于對其傳播結構和傳播要素的分析,不對謠言的真實性做探討(5)數據主要來源于新浪微博社區管理中心中被舉報和核查的不實信息,不排除其可能存在覆蓋度不全和人工判斷的誤差.同時謠言的判斷具有不確定性,隨著更多信息的引入可能會發生變化..進一步,我們結合計算機和深度學習方法,對構成謠言傳播的各基本要素分別展開分析:首先我們針對傳播內容展開謠言內容分析(6)由于是基于新浪微博的謠言數據分析,故我們省去對傳播的基本要素——傳播媒介——的分析.,緊接著我們針對傳播者和受眾展開謠言用戶分析,最后我們針對傳播效果展開謠言輿情分析.通過對新冠肺炎疫情相關謠言傳播的量化分析,我們得出了3個有意義的結論:
1) 在謠言內容方面,疫情防控類是出現最多的謠言類型,其次是海外相關類;謠言在疫情發展的不同階段具有不同的主題特征;謠言涉及地區多為疫情嚴重地區,且地區相關謠言多集中產生在疫情早期階段;謠言中“壞消息”居多,且傳達的情緒也以負面為主.
2) 在謠言參與用戶方面,造謠者原創微博及其發微博字數更多,傳謠者則轉發微博更多;造謠者在上午更為活躍,傾向于在上午發表言論,且其影響力遠大于傳謠者和辟謠者;辟謠者在歷史微博中表現出了對新冠相關科學研究主題更多的關注,且其自網絡結構更加聚集;造謠者和傳謠者的個人情緒則更為負面.
3) 在謠言所引發的輿情方面,近半數謠言評論持中性態度,在此之外,消極評論則整體多于積極評論;疫情相關奇聞異事和名人軼事類謠言熱度最高,但疫情防控類謠言評論最正面,病毒傳播類謠言評論則最負面,其中“封城”相關謠言引發大量積極輿論;謠言評論情感往往向負面演變,其中辟謠信息的出現也是其中原因之一.
據我們所知,本文是較早全面地從信息傳播的各基礎構成要素角度對新冠肺炎疫情相關社交媒體謠言傳播展開量化分析的工作.通過本文的研究,可以對疫情相關社交媒體謠言傳播有更全面深入地認識,對突發公共事件的謠言傳播研究和謠言治理具有重要意義.
本文使用的新冠肺炎疫情相關謠言數據來源于新浪微博社區管理中心和舉報處理大廳(7)https://service.account.weibo.com/?type=5&status=0,該中心接受微博用戶對于不良信息的舉報,我們選擇其中受舉報并已公示的不實信息數據作為謠言數據.圖1展示了疫情期間一條不實信息的處理公示頁面.

Fig. 1 Web page of Weibo misinformation processing platform圖1 微博社區管理中心不實信息處理公示頁面
具體來說,我們爬取了2020-01-22—2020-07-27的不實信息數據,并人工篩選出其中疫情相關的謠言數據,共448條(8)數據集已公開于https://github.com/thunlp/COVID19-Social-Datasets/tree/master/rumor.其數量隨時間變化如圖2所示,可以看出,疫情謠言主要集中在2020年1—4月,這一時期是國內疫情爆發和國外疫情開始階段,疫情謠言涉及的話題涵蓋了病毒信息、疫情防控與國際軼事,同時后期6月中旬至7月出現了疫情謠言小高峰,主要涉及的話題與當時北京疫情小范圍2次爆發有關.

Fig. 2 Number of COVID -19 related rumors over time (2020-01-22—2020-07-22)圖2 疫情謠言數量隨時間變化(2020-01-22—2020-07-22)
進一步地,為了對謠言傳播中的傳播者和受眾進行量化分析,我們爬取了謠言傳播中參與用戶的用戶數據,包括其基本屬性數據(用戶認證、關注數和粉絲數等)、和歷史微博數據(時間為2019-07-31—2020-07-31).我們將謠言傳播參與用戶分為3類:辟謠者(舉報人)、造謠者(被舉報人)、傳謠者(轉發用戶).經過統計,疫情相關謠言的造謠者共468人(9)由于包括內容已被刪除的謠言發布信息,所以較前文的謠言數量更多.,傳謠者共1 321人,辟謠者共1 076人.
最后,為了分析謠言的傳播效果,我們爬取了謠言的轉發和評論數據,共45 638條(統稱為評論).圖3展示了疫情謠言評論數量隨時間的變化.
由圖3可知,謠言評論主要集中在2020年1—4月,即國內疫情爆發的主要階段和國外疫情流行初期.2020年6月出現了評論數量的小高峰,與疫情2次爆發相關.進入2020年7月后,基本未再出現新的疫情相關謠言,評論數也隨之趨向于零.

Fig. 3 Number of COVID -19 related rumor comments over time(2020-01-22—2020-09-18)圖3 疫情謠言評論數量隨時間變化(2020-01-22—2020-09-18)
內容是信息傳播過程的核心.本節我們首先對疫情相關謠言的內容進行分析,具體維度包括主題分析、涉及地區分析、事件傾向性分析和情感分析.
我們基于爬取的疫情謠言數據,結合已有研究對謠言的劃分[14-15,18],將疫情謠言分為5類,如表1所示.我們招募了2名新聞與傳播專業的學生作為標注員對數據進行標注.正式標注之前,我們首先對標注員進行培訓,要求其閱讀包含規則和案例的標注指南,并標注測試樣本.最終經過培訓,2名標注員的標注結果一致占比為95%,并進一步完成所有數據的標注.
謠言主題分布.由表1可以看到,數量最多的疫情謠言類型是疫情防控類謠言,共計226條,占總量的一半以上,顯示了疫情期間謠言熱點主要與防疫抗疫相關事件相關.疫情期間,預防方法、防控措施與民生息息相關,涉及生命安全的保障,這反映出謠言主要圍繞在公眾所關心的話題領域.主題分布第2位是國際相關類謠言,共計206條.此類謠言大部分涉及“中國人”“國籍”“美國”等民族主義相關詞語[19].此類謠言主要憑借受眾的民族主義情緒獲得討論度和關注度[19].此外,這類謠言也善于通過迎合人們的認知來獲取認同感、博取可信度.

Table 1 Topic Categories of Rumors表1 謠言主題分類
謠言階段性分布.我們進一步根據《抗擊新冠肺炎疫情的中國行動》白皮書(10)http://www.gov.cn/zhengce/2020-06/07/content_5517737.htm將疫情按照國內外形勢劃分為4個階段,分別分析了這4個階段的謠言主題.這4個階段分別是:疫情爆發階段(2020-01-20至2020-02-20)、國內疫情得到控制階段(2020-02-21至2020-04-28)、疫情全球大流行階段(2020-03-11以來)和疫情常態化階段(2020-04-29以來).如圖4所示,通過對比發現,謠言具有明顯的階段性分布特點,具體表現為:

Fig. 4 Numbers of different categories of rumors (2020-01-22—2020-07-26)圖4 謠言分類數量隨疫情階段變化(2020-01-22—2020-07-26)
1) 病毒傳播類謠言主要分布的階段包括:疫情爆發階段和疫情控制階段.在疫情爆發階段,傳播類謠言涉及各地確診隱瞞出逃的謠言事件;在國內疫情得到控制這一階段,隨著國內疫情得到控制,對于復工復產的猜測、聚集性爆發的謠言增加;在疫情全球大流行階段,病毒傳播類謠言又出現了關于境外輸入性傳播的小高峰.
2) 病毒信息類謠言主要分布的階段包括:疫情爆發階段和疫情控制階段早期.在疫情爆發階段,諸如“人工病毒”“犬類傳播”之類的謠言盛行,主要是由于疫情開始爆發時公眾對病毒的認識不足,缺少權威介紹,此時對病毒信息的猜測較多;而在國內疫情得到控制初期出現了一些有關病毒后遺癥和傳播途徑導致二次爆發的病毒信息類謠言.
3) 疫情防控類謠言在各個階段都有分布,屬于民生相關、民眾持續關注類謠言,主要涉及事件包括:疫情爆發階段關于封城等防控措施的虛假信息;國內控制階段對于復工復學的謠傳;疫情全球大流行階段對于國外防控措施的謠言.
4) 國際相關類謠言主要分布在疫情全球大流行階段早期,隨著疫情震中從國內轉移到全球范圍,海外相關類謠言數量開始增加,包括一些國際軼事,國際抗疫防控相關的謠言.在疫情全球大流行階段后期,謠言的總體數量回落,疫情謠言主要包括海外相關、疫情防控,例如境外輸入與國內小范圍爆發聯系、簽證政策等.
從不同主題謠言的時序分布占比可以看出:謠言的出現具有明顯的階段性,其主題隨疫情的形勢變化而不斷演變.這對于謠言的治理和預防有重要的借鑒意義,在疫情不同階段,社會關切不同,應該加強相應信息的公開性、透明度.
本節主要研究海外國家和國內具體省市謠言討論與該地區疫情關系.首先我們通過人工標注提取謠言中出現的地名,我們招募了地理信息科學專業的標注員進行標注,標注員必須閱讀包含規則和案例的標注指南,而后才可開始標注.標注結束后,我們根據提取出來的地名集合將謠言進行歸類,與相應討論地區關聯起來.根據標注結果統計,謠言討論度排名前5的地區分別是湖北、美國、俄羅斯、日本、北京.
謠言涉及地區多為疫情嚴重地區.我們進一步將謠言討論地區進行歸類,得出謠言涉及的不同國家的謠言數目、國內不同省份的謠言數目、國內不同城市的謠言數目.根據統計,我們發現疫情涉及的國內城市謠言數排行榜中,武漢、北京最多,分別為47條和40條.謠言涉及的省份主要是湖北省,包含76條.在涉外謠言數目分布中,美國、俄羅斯、日本排名前三,涉及謠言數目分別為104條、39條和23條.可以發現,不論是國內還是國外,疫情謠言討論的熱點地區都是疫情比較嚴重的地區.
地區相關謠言集中產生在地區疫情早期階段.基于統計數據,我們進一步分析謠言討論地區隨該地區疫情變化特征.如圖5所示,對于各地區本身的謠言,大多出現在該地區疫情剛剛興起的時候.其可能的原因包括:首先是疫情初期信息的不確定性[20],即在疫情初期,大多數公眾對疫情的認識十分模糊,對新冠肺炎信息有很多的誤解,給謠言的傳播以可乘之機.其次是疫情初期人心恐慌,不安定因素加劇了謠言傳播[21].最后是新聞的助推效應[22],即疫情初期,新冠肺炎成為新聞報道焦點,公眾對其關注程度陡然上升,也會助長相關謠言的傳播.

Fig. 5 Relevance between number of rumors and its related regions’ confirmed cases (2020-01-22—2020-07-25)圖5 謠言討論地與該地區新增確診病例關系(2020-01-22—2020-07-25)
事件傾向性分析是關于謠言涉及事件正負面的研究.正面性是指文本內容釋放的事件消息是積極的,負面性是指文本內容涉及的事件消息是消極的.我們通過人工標注的方法將謠言涉及事件分為正面、中性、負面3類.標注方法與2.1節中主題標注相同.
“壞消息”居多.通過對疫情謠言的正負面分類分析,我們發現負面謠言在疫情謠言中數量最多,為269條,占比60%;正面謠言111條,占比25%;中立謠言最少,69條,占比15%.這一方面體現出謠言往往伴隨具有傾向性和話題度的事件產生;另一方面表現出負面事件更容易引發謠言,這可能是由于負面信息更容易引發公眾的恐慌心理,而當人們身處惶恐緊張情況下,負面信息再經過加工渲染后更易受到關注并廣泛傳播.
此外,我們還探究了不同傾向謠言的內容分布.正面的疫情謠言主要包括國際援助、復工復學、疫情防控工作、醫護人員等相關的事件和消息;負面的疫情謠言主要包括病毒傳播、病毒危害、恐怖事件和國際關系等相關事件和消息.
謠言的情感分析主要包括情感分類和用詞特征分析,我們參考Allport等人[3]和阮璋瓊等人[23]的謠言情緒分類類型,疫情謠言按照所投射出來的心理將謠言情感分為5類,分類標準如表2所示.我們采用人工標注的方法,對疫情謠言進行情感分類標注.標注方法與2.1節中主題標注相同.

Table 2 Different Sentiment Types Rumor表2 謠言情感分類
1) 消極情感謠言占上風.如表3所示,可以發現,充滿消極情感的恐懼類型和敵意類型的謠言總數多于充滿積極情感的善意類型謠言和愿望類型謠言的總數,一定程度上反映人們在疫情壓力之下,易尋找負面情緒的宣泄口,并可能促進分裂與焦慮情緒在社交媒體上進一步蔓延.

Table 3 Cross Comparison Between Rumor Content Categories and Rumor Sentiment Types表3 謠言主題類型與情感類型的交叉分析
但值得注意的是,對比來看,善意類型的疫情謠言占比也并不低,例如一則關于鐘南山出征北京參與新冠肺炎治療的謠言一時間引起很高的關注度和轉發量,可見人們在面對疫情的壓力時,不僅存在恐慌、宣泄的心理狀態,也存在尋求希望寄托、自我安慰的心理狀態.
2) 謠言內容類型與情感類型的交叉分析.如表3所示,我們通過分析不同謠言內容類型與其情感類型之間的聯系,發現在病毒傳播類型的疫情謠言中恐懼型謠言最多,主要涉及內容包括確診病例隱瞞潛逃等;在病毒信息類謠言中也是恐懼類謠言最多,主要包括病毒傳播途徑和病毒對人體造成的危害相關謠言;在疫情防控謠言中善意類型謠言最多,主要包括對管控城市的祈福、對復工復產的期待和愿望;在國際相關類謠言中敵意和中立類型的謠言最多,敵意類型的國際謠言主要包括一些病毒溯源陰謀論、二次輸入的猜測,中立型謠言主要包括對國外疫情防控措施的討論和調侃.這反映了不同主題類型謠言背后的社會心理,對于病毒信息、病毒傳播類謠言,出于恐慌心理,人們往往“寧可信其有,不可信其無”,是一種恐慌心理下急于求證的自我保護機制[24].對于疫情防控類謠言人們面對疫情長期的壓抑,傾向于尋求心理慰藉,因此出現較多對于復工復產、醫護人員奔赴前線的善意類謠言.而對于國際類謠言往往充斥著攻擊性言論,善于挑起民族主義情緒[19],因此出現大量敵意型情感.
3) 謠言情感類型與特征詞.我們進一步利用詞云分別展示不同情感下的疫情謠言的詞語分布,分析不同情感疫情謠言的關鍵詞和用詞特點(11)由于中立型謠言不包含感情色彩,以及愿望型謠言數量過少,其特征詞的分析予以省略..具體分析為:
① 如圖6(a)所示,敵意類型謠言主要包括“口罩”“綠卡”“女子”“捐贈”“物資”“順豐”等主題詞.對比文本,我們發現情緒的表達大都使用類似“這么猖狂”“這么無恥”“根本沒有考慮我們的公民”“沒有任何隔離措施”“你們都干了些什么?”“你們的良心過得去?”的語句來加強語氣、增加情緒激烈程度、增強情緒感染力.可以看出,敵意類型的謠言一方面內容上通過與國家利益關系、群體沖突、物資等敏感話題和涉及普通民眾安全的話題相關聯,另一方面語言上利用具有強烈、夸張感情色彩的詞語加深語言的情感張力,煽動民眾情緒.

Fig. 6 Word cloud of different sentiment types rumor圖6 不同情感謠言詞云圖
①圖中將“瑞德西韋”折詞成“瑞德”“西韋”2詞.
② 如圖6(b)所示,恐懼類型謠言主要包括“復工”“酒精”“新冠肺炎”“肺部”“確認”等主題詞.為了強調恐慌情緒,謠言中常使用程度副詞,例如“一定不要”“千萬注意”“引以為戒”等,以達到渲染恐慌氛圍、引起人們注意的作用.可以發現,恐懼類型的謠言一方面內容上大多涉及死亡相關的恐嚇性新聞,另一方面用詞上利用警戒性詞語引起關注,聳人聽聞,達到擴散的目的.
③ 如圖6(c)所示,善意類型謠言主要包括“北京”“鐘南山”“加油”“藥物”“瑞德西韋”“日本”“救護車”等主題詞,內容主要涉及對醫護人員的贊賞、對國際援助的感謝等,多利用“加油”等正能量的詞語來帶動積極情緒.善意類型謠言的產生大多是在信息未經證實的情況下,網友對于不實信息的誤傳,對社會治安不會造成很大程度的威脅,但是此類謠言的出現也反映了人們在面對疫情時尋求心理寄托和安慰的現象.
在拉斯韋爾的傳播模型中,傳播者與受眾位于傳播過程的兩端.而微博上的謠言傳播是一個復雜的過程.除了造謠者作為原始的傳播者之外,當謠言的受眾轉發這則謠言,也在無形之中成為了傳謠者.此外,辟謠者也是謠言傳播的重要角色.正是辟謠者的參與,抑制了謠言的傳播.本節我們對造謠者、傳謠者與辟謠者3類人群的謠言接觸歷史、基礎畫像、個體情緒、自網絡屬性以及歷史微博內容進行分析,以期對參與謠言傳播的各類人群獲得更為深入的認識.
本節我們采用降采樣的方式,對微博不實信息舉報平臺上新冠疫情相關謠言所涉及的3類用戶,即造謠者、傳謠者和辟謠者,分別隨機抽樣200人,利用其用戶屬性數據和歷史微博數據,開展謠言用戶分析.
本節基于此前得到的用戶數據,我們對用戶在過去一年中的原創微博數量、轉發微博數量、原創微博平均字數、轉發微博平均字數、用戶認證情況、用戶影響力指標(用戶被關注數與關注數的比值)、發博時間分布等這些基礎屬性指標展開分析.需要注意的是,由于微博的隱私訪問限制,我們只能抓取每位用戶關注列表的前20頁,這可能導致對用戶的關注列表獲取不全.但我們認為用戶近期的關注者,正反映了用戶近期的關注導向,故用此數據進行后續分析.
1) 造謠者原創微博更多,傳謠者轉發微博更多.在我們隨機抽樣得到的各200位造謠者、傳謠者和辟謠者中,在過去一年時間段內,造謠者發表原創微博數量的中位數為293條,傳謠者為18條,辟謠者為5條,如圖7(a)所示.方差分析結果表示3組人群的差異顯著(p<0.000).事后檢驗顯示,造謠者的原創發博量顯著高于另外兩者,而傳謠者和辟謠者之間則沒有顯著差異.對于轉發微博數量而言,傳謠用戶的轉發微博數量則是顯著高于另外兩者(p<0.000),傳謠者在過去一年中轉發微博數的中位數為399條,造謠者為35條,辟謠者為8條,如圖7(b)所示.
2) 造謠者發微博字數更多.如圖7(c)所示,三者的原創微博平均字數有顯著差異(p<0.000),造謠者的原創微博字數(中位數為81)高于傳謠者(中位數為42),后者又高于辟謠者(中位數為32).根據圖7(d)進一步發現,辟謠者在轉發微博的平均字數上也顯著低于另外兩者(p<0.001),其中位數為101,而造謠者為124,傳謠者為116.

Fig. 7 The number of original Weibo and forwarded Weibo, the average length of words of original Weibo and forwarded Weibo圖7 原創微博數和轉發微博數、原創微博平均字數和轉發微博平均字數
綜合圖7可知,造謠者偏好發表原創微博,且原創與轉發的博文字數較多;而過往更偏好轉發的用戶,則在接觸了此次新冠疫情相關謠言后,以轉發行為再一次參與到了謠言的傳播之中.與這二者相比,辟謠者發博數量、發博字數都更少,展現出一種“沉默寡言”的用戶形象和“冷靜謹慎”的發言姿態.
3) 造謠者上午更活躍.從用戶在一天中的發微博比例分布圖8中可以看出,造謠者在上午6點到11點最為活躍.相比之下,傳謠者在午后13至15時階段性活躍后,在傍晚再度活躍起來,并在深夜24點左右達到發微博數量的峰值.辟謠者的活躍時間有2個小峰值,分別在12時至14時與22時至次日凌晨1時.這一定程度反映造謠者傾向于在早上發表言論,其可能有引導當日輿論的意圖.

Fig. 8 The distribution of the creation time of Weibo圖8 3類用戶在一天24 h的發微博比例分布圖
4) 造謠者影響力遠大于其他人群.從圖9所示的3類人群被關注數和關注數的比例看來,較傳謠者、辟謠者來說,造謠者的相對影響力是顯著更大的.

Fig. 9 The boxplot of the ratio of followers and followees圖9 3類用戶被關注數與關注者數的比例圖
基于分析可以看出,微博雖然日益被詬病為“泛娛樂平臺”,但其中意見領袖的引導機制本質上沒有發生變化,有影響力的造謠者仍然是那些本身把握信息影響力優勢的人,他們或出于有意“蹭熱點”,或是無意地輕信了錯誤信息而將謠言引入微博空間之中.
本節基于用戶的歷史發博數據,包括原創博文內容和轉發微博的轉發內容,我們進行微博主題層面的分析.
我們利用STM[25-26](structural topic model)模型對用戶自疫情發生以來的疫情相關微博進行主題分類.STM模型是一種無監督文本主題模型,可以通過納入協變量在主題建模中取得更好地效果.為了更好地訓練STM主題模型,我們爬取微博平臺中2020年1—5月疫情相關的微博數據(12)我們參考官方報道[27]并結合微博平臺在不同階段對新型病毒的命名,選取“肺炎”“SARS”“新冠”“冠狀”以及“COVID -19”作為疫情相關微博的抽取關鍵詞.,隨機抽取其中10%的微博作為訓練文本,共1 211 760條微博.我們設置發博時間作為協變量,將疫情相關微博的主題劃分為“緬懷與致敬”“國內疫情形勢”“控制疫情擴散”“醫療救治”“復工復產”“海外疫情形勢”“全球疫情影響”“新冠科學研究”“社會互助行動”“生活日常記錄”10個類別.進一步,我們同樣通過關鍵詞抽取出3類用戶的疫情相關微博,分別得到26 515條造謠者微博、1 006條辟謠者微博和25 229條傳謠者微博,并利用本節在大規模疫情相關微博中訓練的STM模型計算每位用戶的微博隸屬于各個主題的概率分布.
辟謠者更偏好新冠科學研究.如圖10所示,我們發現辟謠者發布的微博中“新冠科學研究”主題占比最高,且顯著高于造謠者和傳謠者.由此可以推測,辟謠者對新冠科學研究話題的偏好,顯示出相對更高的科學素養,對謠言有更強的甄別能力.

Fig. 10 The bar of topic distribution of users on Weibo圖10 3類用戶的微博主題分布圖
本節我們將針對用戶的歷史微博數據對3類人群的個體情緒進行探究.
我們使用基于BERT[28](bidirectional encoder representations from transformers)與TextCNN[29]結 合的方式對3類用戶的歷史微博數據進行情感分類.BERT是谷歌團隊提出的預訓練語言模型,被廣泛用于文本分類、問答等下游任務中[30-31].TextCNN模型由Kim提出,其核心思想是利用卷積神經網絡捕獲文本的局部特征并用于最終的文本分類.由于疫情相關文本的領域特殊性,與日常微博表達不同,我們使用北京市經濟和信息化局和中國計算機學會等單位發布的“疫情期間網民情緒識別”數據集(13)https://www.datafountain.cn/competitions/423/datasets訓練情感分類模型.該數據集包含10萬條2020-01-01—2020-02-20期間的疫情微博,每條微博被人工標注為3類情感之一,3類情感分別為積極、中性和消極.我們使用這10萬條數據進行訓練和交叉驗證,訓練得到的模型在比賽測試集上的預測F1值為73.6%,相比于只基于BERT的模型提升了4.1%.
造謠者和傳謠者情緒更為負面.基于這一模型,以用戶發表的負面微博數占總微博數的比例作為對用戶負面情緒傾向程度的測量標尺,我們對3類人群的負面情緒傾向進行統計分析.3類人群負面情緒傾向分布如圖11所示.就中值而言,造謠者負面情緒的比例高于傳謠者,傳謠者負面情緒的比例高于辟謠者.方差分析結果顯示,造謠者的負面情緒程度顯著高于傳謠者(p=0.0169<0.05).

Fig. 11 The boxplot of negative emotion of users on Weibo圖11 3類用戶的負面情緒傾向圖
既有的研究已經討論了不同情感在微博中傳遞的效果差異[32],憤怒相較于喜悅、甚至悲傷都更有傳染性.一方面,造謠者由于其本身的負面情緒,可能使得其產生的謠言更具感染力.另一方面,根據Na等人的研究[33],在公共健康危機中,如果流言所激發的情緒與受眾本身所處的情緒一致,則受眾會更傾向于相信這一流言.面對此次新冠肺炎疫情,長期身處于負面情緒的社交媒體用戶則更為輕易被負面謠言所欺騙和感染,并成為其中的一名傳播者.
本節我們將基于用戶的關注列表數據,對3類人群構建自網絡來探究其所處網絡結構.自網絡(Ego network)由中心節點(Ego,“自我”)、與之直接連接到的節點(Alter,“他者”)以及“他者”之間的聯系(如果這些連邊存在)組成.因此,我們抓取了3類用戶的關注列表以及這些受關注用戶的下一級關注列表來構建其二級網絡結構.
大量既有的研究從社會網絡視角研究了謠言傳播現象,其考察的網絡屬性包括連邊強度和節點屬性等基礎網絡屬性[34-37].相比之下,Burt經典的結構洞理論[38]對這一問題提供了更為深層次的洞見.根據這一理論,處于結構洞位置的節點為網絡中的其他節點提供了非冗余的聯系,因而擁有更大的信息優勢.基于包括臉書、推特在內的7個真實網絡開展的實驗表明,若是移除結構洞位置的重要用戶,將會阻斷多達24%的信息傳播[39].這表明,結構洞理論在社會化媒體上依舊適用.因此,本文將基于結構洞理論,探究在本次疫情謠言傳播中,3類用戶在社交媒體中所處網絡結構的差異.
辟謠者的自網絡聚集系數更高.我們以局域聚集系數(local clustering coefficient)作為測量用戶自網絡結構的關鍵指標[40],就網絡屬性對謠言用戶參與行為的影響展開探究.如圖12所示,對辟謠者、造謠者和傳謠者的局域聚集系數分布進行對比,結果顯示,就中值而言,辟謠者的聚集系數高于造謠者,造謠者的聚集系數高于傳謠者.事后檢驗顯示,辟謠者和傳謠者的網絡結構聚集系數存在顯著差異(p=0.0078<0.01).

Fig. 12 The boxplot of local clustering coefficient of users圖12 3類用戶的局域聚集系數分布圖
這擴充了我們對于結構洞的認識,即結構洞屬性高的節點盡管擁有信息優勢,但也容易受到虛假信息的影響.辟謠者的自網絡聚集系數更高反映出辟謠者所處網絡更聚集穩定,其關注者之間往往也相互關注,形成一個較為閉合的關注網絡.而造謠者和傳謠者的自網絡結構則更為松散,這可能使得他們的信息獲取渠道更加開放,但也同時失去了信息源之間較為穩定的信任關系,失去信息“交叉驗證”的質量保證.
傳播效果指的是來自傳播者的訊息對受眾產生的效果.本文謠言微博所引發的輿情,無疑是謠言傳播的一種重要效果.在本節中,我們通過對謠言的評論進行情感分析來研究謠言引發的輿情,并探索其與謠言主題、關鍵詞以及涉及地區的關系,最后進一步探索公眾輿情演變的原因.
本節我們使用3.3節中所述模型對謠言的評論進行情感分類.圖13展示了謠言評論情感傾向的整體分布.
近半數謠言評論持中性態度.在剔除“轉發微博”等微博自動生成的關鍵詞后,中性評論仍然在3類情感中占據主導地位,達到了48%.通過歸納整理,我們將中性評論概括為3種主要類型:冷靜辟謠型評論、質疑打探型評論和無關評論.中性評論占比較大反映出相當一部分網絡用戶對于謠言具有一定的辨別能力,在消息未證實前持觀望態度,在辟謠后會要求博主進行澄清或刪除,以防止更多用戶被誤導.

Fig. 13 Sentiment distribution of COVID -19 rumor comments圖13 疫情謠言評論情感分布
消極評論多于積極評論.消極評論可概括為恐慌、矛盾爭議和激烈辟謠3類,積極評論則主要包括加油祝福、贊美英雄和善意調侃3種類型.除中性評論外,消極情感評論數量整體領先于積極情感評論,前者數量約為后者的3倍.圖14展示了每周積極和消極的評論在該周總評論數中的占比隨時間的變化.可以看出,消極情感在疫情各個階段均基本占據主導地位.

Fig. 14 Sentiment of COVID -19 rumor comments over time圖14 疫情謠言評論情感隨時間變化
本節我們對第2節劃分的5類主題謠言的評論進行統計和分析(分類標準如表2所示).5類主題中,疫情防控、國際相關和其他類主題謠言獲得的評論數量較多,分別為33 616,17 283和27 132條.病毒傳播和病毒信息類謠言的評論數量較少,分別為591和249條.
奇聞異事和名人軼事熱度最高.為了進一步了解用戶對各個主題謠言的關注程度,我們對五大主題謠言的平均評論數進行統計.結果顯示,其他類主題謠言的平均評論數最高,平均每條謠言獲得了335條評論,這表明用戶對于其他類中占主要部分的坊間奇聞異事、名人軼事十分熱衷.其次是疫情防控主題謠言,平均每條謠言被評論146.6次,這表明人們對于疫情的防控情況較為關注,會通過評論來對一些表達利好消息的謠言表達喜悅和支持,對描述違反防控相關政策的謠言予以譴責.
疫情防控最正面,病毒傳播最負面.5類主題的謠言評論情感分布如圖15所示.其中疫情防控相關謠言的積極情感評論占比最多,為12.99%,這反映了大眾對防疫政策的理解和支持.病毒傳播相關謠言的消極情感評論占比較多,達44.16%,原因可能是人們對于新冠病毒的傳播持有警惕心理,此類謠言容易引發公眾對于疫情蔓延的恐懼和擔憂.

Fig. 15 Sentiment distribution of comments under different topics圖15 5類主題對應的評論情感分布
隨著新冠疫情的出現,一些疫情相關的特色詞匯成為了公共討論的焦點,也為謠言制造者提供了素材.本節中我們統計了在謠言中出現頻率位居前30且具有疫情特色的關鍵詞對應的謠言評論數量和情感指數,如圖16所示.在選取過程中對近義詞進行了合并處理,例如“瑞德西韋”“雙黃連”等詞被歸入藥品類.這里,我們將情感指數定義為謠言評論情感傾向(消極為-1,中性為0,積極為1)的均值.

Fig. 16 Sentiment distribution of rumors with different keywords圖16 含有不同關鍵詞謠言的評論情感分布
從數量上看,“藥品”和“防疫”謠言最受關注.在藥品相關的謠言中,獲得轉評最多的謠言大多與瑞德西韋有關,這些轉評的高峰均出現在1月底到2月初,彼時人們對于疫情了解較少,更容易輕信治療病癥的謠言.防疫則一直是公眾關心的熱點,相關謠言主要圍繞國內外的疫情防控形勢展開.
“封城”謠言引發積極輿論.從情感指數上看,“封城”謠言引發了最多的正面情感.封城相關的謠言評論主要來自1月25日“襄陽封城”謠言,突出湖北為防控疫情做出的犧牲和奉獻,喚起公眾的感動情緒.因此盡管封城意味著抗疫形勢愈發嚴峻,網友仍然留下大量“感動祝福”類型的評論.這一定程度上反映了謠言的情緒感染作用.
本節中我們對涉及不同地區的謠言評論進行統計和分析.圖17為武漢和國內4個一線城市的謠言評論數量對比.通過柱形圖可以看出,武漢作為1~3月疫情的中心,獲得了最多的關注,之后依次為北京、上海、廣州、深圳,這表明地區謠言受到的關注不僅與其受影響程度,同時與地區的政治、經濟等發展水平具有相關性.

Fig. 17 Comment sentiment distribution regarding different cities圖17 不同城市相關謠言評論情感分布
從不同地區的情感指數對比可以看到,北京相關的謠言評論平均情感指數最高(-0.03),廣州相關的謠言評論平均情感指數最低(-0.53).與北京相關的積極評論主要來自疫情防控相關的利好消息.公眾對疫情防控中英雄人物的敬佩和崇拜某種程度上使其對“救世”類的謠言更寬容,在評論時會降低語言的攻擊性.與廣州相關的負面轉評則主要圍繞防疫形勢惡化消息,此類謠言利用了普通民眾對疫情、種族等問題的恐慌情緒,在短時間內獲得大量傳播,一度成為新聞熱點.偏負面的謠言評論情感也反映出一些潛在的社會問題,例如這里涉及的民眾對廣州外國人聚居現象的觀點之爭,值得引起相關部門的重視.
在謠言不斷傳播,評論數量不斷增長的過程中,謠言引發的輿情往往會發生時序的變化[41-42].因此,本節從情感傾向隨時間的變化入手,剖析疫情期間謠言的情感演變.
謠言評論情感傾向于向負面演變.根據謠言評論的初始情感和最終情感,可以將謠言劃分為4種類型,即始終保持積極和消極、初始為積極最終為消極以及初始為消極最終轉向積極謠言數量,其分布如表4所示.由表4可知,疫情相關謠言中初始評論為負面、最終轉化為正面謠言的比例只占了全部初始為負面謠言的8.05%,遠低于初始正面向負面轉化的比例56.60%,表明謠言引發的評論情感傾向于向負面演變.

Table 4 Number of Comments with Different Initial or Final Sentiment Orientation表4 不同初始和最終情感傾向的評論數量
已有研究[41]證明辟謠對謠言引發輿情演變具有重要影響,其發現辟謠后公眾情感通常會由負面轉向正面或者中立.因此,本節我們進一步探究辟謠對于疫情相關謠言的評論情感演變的影響.
在所有微博謠言評論中,存在著一類特殊的評論,這些評論的發布者試圖通過發布評論表達“此條微博是謠言”的含義,我們稱之為辟謠評論.辟謠評論的出現能夠使之后的評論者意識到該微博可能為不實信息,從而影響后繼評論的情感傾向.通過標記出辟謠評論的出現時間,可以將謠言評論在時間上分為2個類別:辟謠前評論與辟謠后評論.我們使用關鍵詞篩選的方式提取辟謠評論,選取的關鍵詞如表5所示.如果一條評論中包含任意一個關鍵詞(keywords),且不含有任何的停用詞(stop words)時,我們就認為這條謠言評論為辟謠評論.

Table 5 Keywords of Refutation Comments表5 辟謠評論關鍵詞
通過這方法,我們對所有評論數量大于10條的謠言提取其辟謠評論.根據謠言中辟謠評論的出現時間,我們將謠言分為3類:發布至今未出現辟謠評論的謠言、第1條評論就是辟謠評論的謠言、其他(即一般謠言).3類的謠言的數量如表6所示(注:受限于微博時間的表示形式,評論的發布時間只精確到分鐘).通過表6可以發現,大部分謠言(74.11%),即“一般謠言”,都經歷了在公眾中發酵之后被辟謠的過程,只有少數謠言(9.14%)一經發布即被公眾識別.這一方面體現了公眾對于疫情相關謠言的辨別力不高,但同時也說明了謠言檢測中謠言評論的重要作用,可以輔助公眾對信息的甄別和自動化謠言檢測.

Table 6 Number of Three Types of Rumors Divided According to the Time that Refutation Comments Occurr表6 根據辟謠評論出現時間劃分的3類謠言數量
辟謠使得謠言評論情感向負面演變.對于“一般謠言”類,我們記錄其對應的最早辟謠評論和最晚辟謠評論,比最早辟謠評論更早的評論被劃分為辟謠前的評論,比最晚辟謠評論更晚的評論被劃分為辟謠后的評論.通過對辟謠前后評論的情感傾向進行統計分析得到表7,可以發現,與Zeng等人[41]的研究不同,謠言的評論中正面情感的占比從辟謠前的18.3%下降到了辟謠后的11.9%,而負面情感的占比從辟謠前的31.2%上升到了辟謠后的33.9%.通過卡方檢驗驗證,在置信水平為0.005的條件下,是否辟謠與謠言評論的情感演變具有顯著相關性,這種相關性表現在正面評論的顯著減少和負面評論的顯著增加.

Table 7 Number of Comments of Different Sentiment Types Before and After the Refutation表7 辟謠前后不同情感類型的評論數量
辟謠導致輿情向負面變化的原因也是直觀的:用戶在識破謠言后感受到被欺騙,傾向于表達負面情感.在新冠疫情的背景下,這一點尤為突出,謠言被辟謠后造謠者和傳謠者常常會被大量的負面評論攻擊,引發負面輿情,一定程度上污染網絡信息環境.因此,對于突發公共新冠疫情類似的公眾事件而言,在辟謠的同時,也應注意疏導謠言被揭發后引發的負面情緒級.
本文基于新浪微博社交媒體平臺,從信息傳播的基本要素出發,對新冠肺炎疫情相關謠言傳播展開較為全面的量化分析,包括謠言的傳播內容分析、謠言的參與用戶分析、謠言引發輿情分析.據我們所知,這是首次從信息傳播的各個基本構成要素角度對新冠肺炎疫情相關謠言傳播展開量化分析,對新冠肺炎疫情相關的謠言傳播有了更全面深入的認識.此次新冠肺炎疫情是一次全球性的突發公共事件,針對突發公共事件的謠言傳播展開研究不論是對于學術研究還是社會治理都具有重要意義.
本文開展的疫情相關社交媒體謠言分析基于新浪微博社區管理中心中被舉報和核查的不實信息數據,其難免存在覆蓋度不全和人工判斷的誤差.同時對謠言的判斷具有不確定性,隨著更多信息的引入可能會發生變化.因此,本文對疫情期間的社交媒體謠言研究聚焦于對其傳播結構和傳播要素的分析,不對謠言的真實性做探討.未來可以進一步探索不同傳播平臺的謠言傳播差異,實現對謠言不同傳播途徑的分析.同時可以進一步將本文的量化分析結論應用到謠言的自動檢測技術中,當突發公共事件再次來臨時,助力于社交媒體謠言的自動檢測.
作者貢獻聲明:陳慧敏負責文章選題、實驗設計及文章撰寫工作;金思辰主要參與謠言內容分析工作,林微、朱澤宇主要參與謠言用戶分析工作,仝凌波主要參與謠言輿情分析工作.金思辰、林微、朱澤宇、仝凌波4位排名不分先后,同等貢獻;劉一芃主要負責數據的收集和整理;姜維翰參與謠言輿情分析工作;葉奕寧參與謠言用戶分析工作;劉知遠、孫茂松、金兼斌老師為論文開展提供了寶貴的經驗,并對論文進行修改.