莫姝,王婷
(貴州大學 管理學院,貴州 貴陽 550025)
2020年是我國全面建成小康社會、實現第一個百年奮斗目標的歷史性節(jié)點,然而,重大突發(fā)性疾病——新型冠狀病毒肺炎(COVID-19)的暴發(fā)打破了人們生活的祥和、威脅了社會的穩(wěn)定。如今新冠疫情仍沒有結束,世界正經歷著史無前例的大流行危機,這對我國經濟、政治和文化等方面都產生了深遠的影響。抗擊疫情,不僅是人類與新型冠狀病毒的斗爭而且是科學研究與時間的爭奪。各領域學者高度重視新冠疫情研究,盡最大努力降低它帶來的社會成本,其研究成果在防疫中起到了至關重要的作用。在大量研究文獻涌現的情況下,通過定量研究,系統(tǒng)分析已有科研成果可以探尋其研究熱點與趨勢,有利于更加有效地開展疫情防控工作。
在對新冠肺炎疫情領域研究現狀與發(fā)展趨勢的研究中,一方面,部分學者采用內容回顧等定性分析的方法,針對新冠疫情在中醫(yī)藥治療與分子病理學方面的研究進展進行總結與概括,綜述新冠肺炎疫情對經濟金融與青少年心理健康的沖擊等。另一方面,少數學者采用關鍵詞圖譜等定量分析方法,對領域的論文或專利進行文本挖掘,從而識別研究主題。上述研究一定程度上揭示了新冠肺炎疫情的研究現狀、學科主題與發(fā)展態(tài)勢,但所涉及的大多為其子領域,缺乏對新冠肺炎疫情整體研究狀況與關聯關系的研究,特別是基于計量學基礎的主題挖掘與演化脈絡梳理。因此,本文在現有研究的基礎上,首先采用LDA主題模型識別新冠肺炎疫情相關海量文獻背后所隱含的主題分布,并將其與STM結構主題模型結果相對比進行一致性驗證,從而揭示該領域整體研究結構;其次分析各主題受關注度隨時間的演化情況,并基于K-Means算法和主成分分析(PCA)降維對每個主題分別進行聚類,深入分析該領域主題的特征與差異;最后對各主題進行情感分析,研究其情感表現的演化過程,并建立“關注度-情感極性”分析架構探究各主題情況,可視化總體屬于消極情感極性主題的負面詞匯,全面地探究新冠肺炎疫情研究的主題結構與情感演化態(tài)勢,為國家、科研院所與學者等把握新冠肺炎疫情領域前沿及熱點提供智力支持與決策指南。
本文構建的新冠肺炎疫情主題挖掘與情感分析框架主要包括五個部分,每個部分的研究流程與涉及的關鍵研究方法描述如下。
以中國知網作為數據來源,采用高級檢索設定檢索主題為新冠疫情或COVID-19,使用自定義批量以Excel格式導出題目、摘要等文獻信息,形成初始實驗數據集,并人工篩選刪除不完整或重復出現的文獻記錄形成研究語料庫。為順利開展后續(xù)主題挖掘與情感分析研究,首先對實驗數據進行去噪處理,去除空格和參考文獻、統(tǒng)一大小寫等。其次研究語料中的摘要部分存在一些無實際意義的高頻虛詞,使用Python編寫程序讀取哈工大停用詞表等去掉這些虛詞,同時去除詞頻過高或高低對研究主題沒有什么意義的詞匯,如“問題”“得到” “研究”等,并且采用jieba進行分詞處理。
采用LDA主題模型對新冠肺炎疫情文獻進行主題抽取,以發(fā)現各界學者關注的新冠肺炎疫情熱點主題。LDA主題模型是基于詞袋算法以文本-主題-詞匯的變參數三層貝葉斯結構生成聯合概率分布的無監(jiān)督機器學習的算法,常用于文本挖掘領域。為保證LDA主題抽取效果,使用余弦距離、KL差分距離、對數似然、JS距離四個指標綜合確定最佳主題數K。
為了檢驗LDA建模的主題質量,將其與STM結構主題模型結果進行比較。STM模型生成一篇文檔可以包含多個主題的混合分布。本文將用信度檢驗(Krippendorff's alpha)探究兩個主題算法編碼器(LDA和STM)的結果匹配程度。alpha值位于0~1之間,并且越接近1表示編碼器之間的分類結果越一致。由于該檢驗不受類別數、編碼器數和數據規(guī)模及類型等的限制,因此它被廣泛用于衡量內容分析數據的可靠性。
利用LDA主題模型探究新冠肺炎疫情的主題分布后,分析主題關注度的演化過程。本研究先針對實驗數據建立模型,再依照設定的時間片把各文獻歸類,然后依據每個時間片各主題包含文獻數量的變化情況得出主題關注度演化過程。接著本文將使用K-Means算法對之前得到的每個主題分別進行聚類,其基本思路是考慮組間方差與組內方差將個觀測數據劃分為個互斥簇。聚集中心的個數是根據輪廓系數確定的。此外,為了直觀地表示群集,本文通過應用主成分分析(PCA)將其壓縮為二維向量。
情感分析是分析正面情緒或負面情緒的過程。本文采用基于情感詞典的研究方法,以知網Hownet中文情感詞典為基礎,涵蓋正負面評價詞與情感詞,同時結合新冠肺炎疫情語料作為語境,人工添加了一些詞語,以提高該詞典的準確性和相關度,從而探究學者對新冠肺炎疫情的情感態(tài)度。
構建新冠肺炎疫情“關注度-情感極性”綜合分析框架(圖1),以橫坐標代表關注度、縱坐標代表情感極性的二維四象限坐標系,并按四個象限將新冠肺炎疫情各主題分別歸類成四種類型。關注度是指根據文檔-主題矩陣而得到的每個主題包含的文獻數量,其能反映學者對新冠肺炎疫情各主題的關注度;情感極性是指每個主題所包含文獻的情感分數均值,其能反映學者對新冠肺炎疫情各主題的情感態(tài)度。整理情感極性為負的主題的高頻負面詞匯,以詞云的形式可視化其結果,有助于學者有針對性地改進相關研究。

圖1 “關注度-情感極性”綜合分析框架
采用知網高級檢索設定檢索主題為新冠疫情或COVID-19,選擇同義詞擴展,數據采集時間段為2020年1月1日至2021年3月31日,文獻來源類別為SCI、EI、北核、CSSCI,使用自定義批量以Excel格式導出來題目、摘要等文獻信息,人工篩選刪除不完整或重復出現的文獻記錄,經過處理后的最后文獻信息共計7 242條。本文選取信息中的標題、摘要與關鍵詞作為實驗數據,分別進行去噪、分詞和去停用詞處理。
采用LDA主題模型對文獻文本進行主題提取,使用余弦距離、KL差分距離、對數似然和JS距離四個指標即 CaoJuan2009、 Arun2010、Griffiths2004、Deveaud2014四個參數確定最優(yōu)主題數K,結果如圖2所示。橫軸為主題個數,縱軸為指標值。可以看出,隨著主題個數的增加,CaoJuan2009、Arun2010和Deveaud2014三個參考值呈波動下降,Griffiths2004呈波動上升。隨著主題個數變多,LDA主題模型的計算代價對應變大,且容易出現過擬合現象。主題數為9時存在一個局部最優(yōu)值,繼續(xù)增加主題個數收益小于投入,因此綜合四項指標確定最佳主題數為9。

圖2 不同主題數K值情況下指標值
經過預處理數據、構建模型、確定最優(yōu)主題數等處理,最終獲得新冠肺炎疫情領域7 242篇文獻的9個主題及每個主題前十高頻的關鍵詞,使用力導向圖展示文檔-主題-詞匯三層關系及信息如圖3所示。

圖3 文檔-主題-詞匯關系
結合圖3中關鍵主題詞對各主題的描述,Topic1識別為生物醫(yī)藥,Topic2識別為經濟影響,Topic3識別為新聞與傳媒,Topic4識別為信息技術與安全,Topic5識別為國際動態(tài),Topic6識別為在線教育,Topic7識別為心理健康,Topic8識別為社會保障和福利,Topic9識別為中國政治與國際政治。
為了驗證LDA主題模型分類結果的有效性,將其與STM結構主題模型分類結果進行比較并探究其匹配程度,表1以橫縱分別展示了LDA和STM的分類結果。可以看到絕大部分文獻位于對角線上,即這兩個模型將大多數論文合理歸類到同一相應主題,對于某些存在歸類主題不一致的論文,分析認為是這一論文混合了關于多個主題的研究。該驗證alpha為0.74,盡管不是很高,但是也確保了該模型一定程度的穩(wěn)定性,能認為分析結果具有可信度。

表1 主題分類結果對比
值得關注的是,經濟影響主題和國際動態(tài)主題經常在同一篇論文中混合出現,可看出新冠肺炎疫情的經濟影響與國際貿易和進出口策略具有一定相關性;學者以多樣的方式討論了以新聞與傳媒為主題的新冠肺炎疫情的新聞輿論工作與社會治理,其中有與心理健康主題交叉的網民情緒影響研究、與信息技術與安全主題交叉的輿情的生成、傳播及其信息治理研究等;關于如何保護弱勢群體的政策和法律問題的論文通常會被歸類到社會保障和福利主題和信息技術與安全主題;心理健康主要是針對疫情擴散對普通民眾的心理影響,還有與在線教育主題交叉的線上課堂對學生心理影響研究、與社會保障和福利主題交叉的針對特殊人群的心理影響研究等;中國政治與國際政治主題與經濟影響主題、社會保障和福利也存在一定的重疊性。
根據文檔-主題概率矩陣,按主題劃分文獻數據,分別查看每個主題所涵蓋的文獻數量的演化趨勢,將時間分為Q1、Q2、Q3、Q4、Q5五個時間片,其分別表示2020年第一二三四季度和2021年第一季度,從而得到新冠肺炎疫情各主題-時間演化情況如圖4所示。

圖4 各主題-時間演化情況
由圖4可知,以新冠肺炎疫情為主題的文獻發(fā)表量在Q3時期達到峰值,后續(xù)呈下降趨勢但發(fā)文量仍然處在較高水平。這表明疫情暴發(fā)后,學界高度重視疫情防控研究,并且其快速增長也部分得益于知網開辟了疫情防控優(yōu)秀成果的綠色發(fā)表通道,這進一步加快了科研知識的傳播。之后的下降與我國疫情得到有效控制、不利影響逐漸減退有關。以Q3時期為分界點,將學者對新冠肺炎疫情的關注大致分為2個階段。Q1~Q3時期,相關研究以Topic1生物醫(yī)藥、Topic2經濟影響和Topic7心理健康為主,體現了我國醫(yī)療科研和針對經濟與民眾的疫情防控反應迅速。隨著疫情常態(tài)化,人們的生活逐漸回歸正常。Q4~Q5時期,針對Topic6在線教育、Topic4信息技術與安全、Topic8社會保障和福利的關注逐漸增加,這是由于受疫情影響,大量線下活動轉為線上開展,在線教育、遠程辦公等形式迅速崛起,大量的線上交互就涉及到了信息技術與安全問題,并且對于如何保護和幫助受到疫情重創(chuàng)的弱勢群體這一話題也備受學界和政界的關注。對Topic3新聞與傳媒、Topic5國際動態(tài)、Topic9中國政治與國際政治的關注相對穩(wěn)定,比例波動不大。
通過K-Means算法使用關鍵字對每個研究主題進行了詳細分類:并且應用PCA并將其壓縮為二維,可視化的結果如圖5所示。

圖5 各主題聚類情況
生物醫(yī)藥主題大致分為四個集群研究聚類:病理表現與臨床特征,醫(yī)護管理,公共防控和流行病學。新冠肺炎的暴發(fā)對整個社會是嚴峻考驗,理清新冠的病理特征與診斷方法,嚴格開展疫情防控,特別是避免醫(yī)院內部的患病與非患病人員的交叉感染非常重要。同時學者積極研究應如何加強處理突發(fā)公共衛(wèi)生事件的舉措,如何有效解決醫(yī)療等資源分布不均的問題,從而提高應急能力,并探索新冠肺炎的流行趨勢與預防措施,以期早日實現抗疫成功。
經濟影響主題包括:新冠肺炎疫情對旅游、物流和食品等各行業(yè),進出口等外貿活動,電子商務等數字平臺的影響。新冠疫情從消費到生產、從國內到全球逐步蔓延,給不同行業(yè)帶來了或大或小的沖擊,我國相關部門積極開展疫情防控,實施了保證穩(wěn)定供給、推進復工復產等政策。與此同時,由于線下活動的限制,推動電子商務等行業(yè)發(fā)展,加快數字經濟的變革。
新聞與傳媒可以細分為輿情研究、謠言傳播與治理和媒體與公眾注意力。新冠疫情暴發(fā)初期,疫區(qū)發(fā)生各類物資短缺事件,并且由于官方消息發(fā)布的延遲導致了相關謠言廣泛傳播。乃至新冠在全球大流行成為波及世界的嚴重事件,新聞與媒體在本次公共衛(wèi)生事件中的社會影響就愈發(fā)顯現。如何卓有成效地預防、阻止和控制謠言的擴散,安撫民眾的情緒,開展心理疏導工作是抗疫的關鍵子問題。
在信息和通信技術與安全性主題中,討論了數字技術和法律責任、患者信息保護以及醫(yī)療保健資源分配。我國在疫情防控時運用大數據等信息技術,進行安全監(jiān)測、感染溯源、信息統(tǒng)計、資源統(tǒng)籌等多方位調配,展示了新時期國家治理能力的數字化。但同時也帶來了信息泄露、技術風險等安全問題,這有待進一步研究應對策略。
國際動態(tài)主題可以細分為國際疫情傳播形勢、新冠疫情對全球市場與貿易的影響和全球衛(wèi)生治理。新冠疫情是全球層面上的大流行危機,一定會給世界帶來巨大的改變,其中涉及經濟、貿易、政治等多個方面。疫情造成經濟不景氣、生產停擺、各國摩擦等問題,暴露了全球公共衛(wèi)生治理的不足。一些以發(fā)達醫(yī)療資源著稱的歐美國家在抗擊疫情時也一觸即潰,多數發(fā)展中國家更是難以應對。
在線教育主題,涉及線上課程、在線討論班和混合學習的環(huán)境研究。新冠疫情暴發(fā)初期,學校正常教學工作停擺,在線教育迎來發(fā)展契機與嚴峻挑戰(zhàn)。針對各地教師素質、網絡環(huán)境與設施水平參差不齊的現狀,如何順利開展線上教育,實現教育現代化,保證各階段學生健康成長是備受關注的問題。
關于心理健康主題,包括新冠肺炎疫情對心理健康的影響、對民眾行為的影響以及有關媒體報道對人們的心理影響。新冠疫情的出現與負面新聞報道使得民眾廣泛產生消極心理反應,怎樣幫助民眾恢復心理健康,擯棄不良情緒是當今心理學界的研究熱點。后疫情時代,如何監(jiān)測、干預民眾心理變化從而提高相關部門的抗疫能力與決策水平也極為重要。
社會保護和福利這一主題對弱勢群體的保護和福利、國家和各省市的相關保護政策、受疫情影響的各行業(yè)的幫扶這幾方面進行詳細研究。習近平總書記在疫情暴發(fā)后頻頻強調,政府要兜底保障弱勢群體,同時推行了大量相關政策,對象覆蓋各行業(yè)各人群,包括免除賦稅、就業(yè)援助、免費治療與免費疫苗注射等措施。學界在高度肯定國家政策的基礎上,提出自己的意見與建議。
在中國政治與國際政治主題中,探究了中國與其他各國的外交關系、新冠疫情對國際經濟政治格局的影響、中國面臨的戰(zhàn)略機遇與挑戰(zhàn)。面對新冠疫情,世界各國既有互幫互助也有摩擦沖突,這對世界的和平與發(fā)展產生了錯綜復雜的影響,國際格局也因此發(fā)生微妙變化。學者努力分析演進過程,探究我國將面臨的嚴峻挑戰(zhàn)與應對舉措。
本文運用知網Hownet情感詞典,并根據語料庫中的文獻對詞典進行補充,以提高其領域針對性。添加的部分情感詞匯如表2所示。

表2 主題分類結果對比
通過情感分析確定正面和負面的詞匯后,計算每個季度每個主題的情感分布,結果如圖6所示。可以看出,學者針對新冠肺炎疫情的文獻以積極為主,不同主題不同時間段的態(tài)度有所差異。

圖6 各主題情感分類結果
下面對各主題做具體分析。Topic1生物醫(yī)藥主題情感在各季度總體都呈現為負面,隨著時間的推移,積極情感的比例在逐漸增加,說明新冠肺炎目前仍然沒有特效治療的藥物或機制,但疫苗等預防手段的出現讓更多學者對該主題的研究前景較為看好。Topic2經濟影響主題情感在前兩個季度呈現負面,后三個季度呈現正負波動,可以看出在疫情暴發(fā)前期,國內許多行業(yè)生產停擺、眾多民眾居家隔離,對國內國際的經濟產生巨大的沖擊,主要持消極態(tài)度,隨著國內疫情防控工作的進一步開展,國外疫情的大規(guī)模暴發(fā),消極情感迅速減退且趨于穩(wěn)定。Topic3新聞與傳媒主題情感持續(xù)正負波動,初期可能是因為非醫(yī)務人員對新冠肺炎疫情的真實情況缺乏了解,只能通過網絡輿論獲得真真假假的消息,從而產生了一定的公眾恐慌。隨著官媒對新冠肺炎的深入科普,學者針對該主題研究的消極情感減少而積極情感增加。Topic4信息技術與安全主題情感隨著時間由負面趨向中立,可能是因為學者由最初對個人信息安全的擔憂轉化為了研究如何以數字化、智能化、智慧化的方式開展疫情防控信息管理。Topic5國際動態(tài)主題情感在第三和第四季度呈現顯著的負面,這是由于以美國、法國、印度為代表的其他國家在這段時間暴發(fā)嚴重新冠肺炎疫情,一定程度上引起了國際恐慌。Topic6在線教育主題情感相對積極,呈現遞增的趨勢,受疫情影響,人們普遍長期居家,在線教育等行業(yè)需求激增,相應的研究數量也增加,為線上服務帶來了契機,有望成為經濟發(fā)展的新動能。Topic7心理健康主題情感在各季度總體都呈現為負面,大量民眾抗疫過程中產生了焦慮、孤獨等心理問題,但消極情緒比例逐漸增多可能與該主題的特性有一定關系,學者研究的主要是民眾的負面情緒,因此該主題會包含較多的負面詞語。Topic8社會保障和福利主題積極情感呈現先減少后增多最后趨于穩(wěn)定的趨勢,這是隨著國家各類政策的推行,如確診感染新型冠狀病毒的患者享受免費治療、新冠疫苗免費接種等,越來越多學者對該主題持積極態(tài)度。Topic9中國政治與國際政治主題情感總體趨于中立,學界從客觀的角度出發(fā),針對全球共同抗疫這一特殊情況,思考中國如何在把自己的事情做好的同時幫助他國、承擔大國責任。
對新冠肺炎疫情各主題進行關注度-情感極性的綜合分析,橫坐標代表關注度,縱坐標代表情感極性,并按四個象限將新冠肺炎疫情各主題分別歸類成四種類型,結果如圖7所示。

圖7 “關注度-情感極性”綜合分析框架
屬于高關注度的Topic1和Topic2都為消極情感極性,位于第四象限,表明學者對生物醫(yī)藥包括臨床醫(yī)學、基礎醫(yī)學、藥學等和對新冠肺炎疫情帶來的經濟影響這兩個主題的關注度較高,但認為其發(fā)展仍然有可以進步的空間,相關學者若能攻克關鍵問題,實現科研助力將會加速抗疫進程。針對預防與治療新冠的醫(yī)學研究任重道遠,而相信疫情帶來的經濟重創(chuàng)將隨著產學研一體化的發(fā)展逐漸恢復。Topic3、Topic5和Topic7被歸類到第三象限,包括學者對新聞與傳媒、國際動態(tài)和心理健康這三個主題的關注度相對較低,心理健康的消極情感最為濃烈,隨著我國進入后疫情時期,疫后綜合癥逐漸顯現,而國際動態(tài)負面情緒可能來自于對國外疫情的蔓延與民眾呈現消極抗疫有關,新聞與傳媒趨向中立。Topic8位于橫坐標左側上,可以看出社會保障和福利主題發(fā)文量相對較低,總體情感呈中性,表明學者對我國相關幫扶政策的認同與共建和諧美好的中國特色社會主義的信心。Topic4、Topic6和Topic9屬于第二象限,學者對信息技術與安全、在線教育和中國政治與國際政治三個主題關注度相對較少但總體呈積極情感,從文獻來看,對于信息技術與安全主要針對如何提高相關技術,對于在線教育主要關注其可以更好地利用資源并能帶動數字經濟,對于中國政治與國際政治主要探討了疫情期間中國應該如何發(fā)揮大國作用等,因而對這些主題持積極態(tài)度。
對于情感極性為消極的主題,關注其負面詞匯對進一步研究具有重要的參考價值,因此本文繼續(xù)分析呈消極情感極性的Topic1生物醫(yī)藥、Topic2經濟影響、Topic3新聞與傳媒、Topic5國際動態(tài)和Topic7心理健康主題相關的文獻文本,并挖掘這幾個主題的負面高頻詞匯,結果如圖8所示。

圖8 消極情感極性主題負面詞匯
以Topic1為例說明。關于生物醫(yī)藥主題的相關消極文本主要涉及:民眾感染新冠肺炎,并且伴隨有咳嗽、發(fā)燒、乏力等病理表現;部分患者病情嚴重,最終因病死亡;患者出現急性呼吸窘迫綜合征等。
本文基于中國知網相關數據,利用LDA主題模型抽取學者關注的新冠肺炎疫情主題,在此基礎上探究了對新冠肺炎疫情的關注熱點和情感態(tài)度的演化趨勢,并通過構建新冠肺炎疫情主題“關注度-情感極性”框架和提取情感極性為消極的主題的負面詞頻,明確了新冠肺炎疫情相關主題導致學者情感偏消極的原因和待繼續(xù)研究的方面。可以得出如下結論:
一是對新冠肺炎疫情的關注主題呈現多元化、領域廣的特點,不僅包括生物醫(yī)藥、心理健康等醫(yī)學領域,涵蓋經濟影響、國際動態(tài)、社會保障和福利、中國政治與國際政治等經濟與社會學方面的研究,還涉及新聞與傳媒、信息技術與安全、在線教育等多種話題的討論。
二是主題關注度和內容演化分析反映了對新冠肺炎疫情關注重點的變化趨勢。總的來說,學界高度重視對新冠肺炎疫情的研究,針對不同主題,關注強度和變化趨勢存在一定差異。以Topic1為例,對生物醫(yī)藥的討論隨著疫情得到有效控制呈現波動趨勢,但所占比例最大,表明生物醫(yī)藥未來仍將是學者討論和關注的熱點主題。
三是情感分析反映了對新冠肺炎疫情情感傾向的變化趨勢。總的來看,對新冠疫情以消極情感為主,不同主題的情感態(tài)度有所區(qū)別。以Topic1為例,對生物醫(yī)藥的積極情感呈現逐季增加的態(tài)勢,表明隨著抗疫形勢逐步好轉,對生物醫(yī)藥的正面情緒雖有所增多,但整體還是呈消極極性,需要相關部門的決策者和學者予以重視和關注。
四是根據“關注度-情感極性”框架劃分各主題的類型同時進行負面詞匯挖掘,可為明晰研究重難點、為相關部門制定政策提供智力支持。以Topic1為例,生物醫(yī)藥屬于“高關注度-消極情感極性”區(qū)域,學者對其關注多,表明該領域還存在許多有待探索的研究問題,但呈現消極情感極性,說明目前的研究還未能完全滿足抗疫的需要,亟須不斷完善。進一步挖掘負面詞匯可分析導致產生消極情感的關鍵因素是重癥病人、綜合征、感染人數等。針對這些因素進行研究,將提高學者對該主題的情感極性。
本文證明了利用知網挖掘新冠肺炎疫情學者觀點和態(tài)度的可行性,然而本文存在只以知網文獻為對象、文獻不夠全面等,后續(xù)研究可以擴大數據來源。在當前疫情防控常態(tài)化階段,有關新冠肺炎疫情的研究將在預防疫苗的有效性等領域呈現更多樣化的研究態(tài)勢,但對過去研究的回顧與梳理可以為將來的新冠肺炎疫情研究提供支撐與啟示,助力我國盡早全面抗疫成功。