胡 靖 李金名 劉佳莉 陸立萍 貢瑋晨通訊作者
(天津理工大學 天津 300384)
隨著疫情發展,公眾對疫情關注度有顯著變化。從初期迫切需要相關消息,再到全民隔離后信息傳播全部依托于社交媒體平臺,信息可視化致使各種輿論層出不窮,對輿論的引導管控格外重要。引用模型是處理海量信息的關鍵。DW模型可存儲大量數據方便檢索且保持數據的一致完整性、安全可共享,通過組合分析可產生新數據。LDA模型可以精準定位到主題詞匯,從文本中分析和挖掘出隱含的結構信息,且不依賴任何提前標注的信息。
DW模型。數據倉庫DW是一個龐大的數據集合,用于支持企業管理決策,長期保存且不會修改所有從ODS來的數據。
DW多種特征:①效率高;②擴展性;③面向主題;④不可更新;⑤大容量。
LDA主題模型原理。LDA主題模型是由文檔、主題、詞匯組成的文檔生成模型[1]。運用詞袋模型的方法將文本向量化表示,文檔為詞頻向量,文本信息為建模所需的數字信息,從眾多文本信息中提取出便于理解的關鍵詞,使文本中的降維問題得到解決。計算過程涉及狄利克雷分布(Dirichlet 分布)、多項分布、以及Dirichlet-Multinomial 共軛分布[2]。
Dirichlet分布是多項式分布的共軛先驗概率分布,按照貝葉斯推理的邏輯得到Dirichlet-Multinomial 共軛分布的一般表達式為:

LDA主題模型中所有變量的聯合分布結果為:

針對輿情演變趨勢的DW-LDA混合模型及算法。在LDA模型的基礎上引入DW,將基礎信息按時間序列進行主題和詞的分類,利用Gibbs采樣算法[3]將數據進行降維處理,對新數據庫進行可視化分析,得到事件的總體發展歷程及高熱度發展主題和詞匯,綜合結果與事實發展狀態還可以有效預測事件的未來演變趨勢。
確認研究主體為微博熱搜詞條,將數據庫基礎信息進行分類預處理,以月為單位分為M篇文檔,每篇文檔含有K個潛在主題,每個主題為N’個單詞的集合分布。將每篇文檔看作熱搜詞條潛在主題的一個隨機混合,其中每個主題看作若干個單詞的隨機混合。在每篇文檔中,根據由Dirichlet先驗α控制的多項式分布選擇潛在主題,確定一個主題,根據由Dirichlet先驗β控制的另一個多項式分布來提取單詞。對整個資料庫來講,每篇文檔生成過程都是互相獨立的,即共形成M+K個互相獨立的Dirichlet-Multinomial共軛結構。由模型參數K=5可知,α=10,β=0.01。最終得到DW-LDA混合模型的概率表達式為:

疫情期間國內外疫情相關數據收集。以微博熱搜詞條時間與話題討論次數為關鍵詞,構建基于Python的爬蟲框架,對2020年1月1日至2020年10月31日的內微博熱搜話題進行采集,最終得到27862條信息。
將原始數據進行預處理,剔除無關信息,關鍵信息分為醫療應急管理、政府輿情治理、自媒體引導、國際輿情走向、社會輿情發展5大主題[4],每個主題包含10個單詞。分別為醫療應急管理:口罩、醫護人員、核酸檢測、鐘南山、傳染源、治療藥物、隔離、新增病例、發熱門診、消毒;政府輿情治理:武漢疫情、醫院建設、封城、免職問責、復工復產復學、大連疫情、新疆疫情、干部響應、掌控市場價位、確診者活動范圍;自媒體引導:丁香醫生、晚安短信、封城日記、云監工、云聚會、釘釘、健康碼、疫情知識科普、在一起、直播助力武漢;國際輿情走向:境外輸入、國際支援、中國外交、世界衛生組織、最新疫情地圖、國外疫情、歸國留學生、國際航班、外國人入境、全球攜手戰疫;社會輿情發展:活動取消、快遞、野生動物、網課、獻愛心、社區服務、企業轉型、疫情防護、紅十字會、疫情拐點。
利用DW-LDA混合模型進行數據可視分析。以時間為橫軸,熱度為縱軸,利用DW-LDA混合模型對數據進行驗證。假設微博熱搜詞集為一個整體的語料庫[5],其中共有D條信息,包含M=10篇文檔、K=5個潛在主題、N=N′×K=50個單詞。對于每條熱搜詞條d∈D,由Dirichlet分布θm~Dir(α)得熱搜詞條d的主題分布參數θm,θm代表文檔-主題概率分布;對于每個主題z∈K,由Dirichlet分布φz~Dir(β)得主題z上單詞的多項式分布參數φK,φK代表主題-詞概率分布;對于每條熱搜詞條d對應的單詞N,由多項式分布zm,n~Mult(θm)得主題zm,n;由多項式分布wm,n~Mult(φk)得詞匯wm,n。結果見圖1。

圖1 數據庫主題熱度變化
國內輿情演變趨勢的動態研究。2020年1月新冠肺炎以武漢為中心向全國范圍內爆發,引起社會廣泛關注,網絡輿論隨之發酵。目前為止,輿論主題熱度變化是相同的走向趨勢[6],先增后降再急速降低,疫情反復使主題熱度再度飆升后又顯著降低。政府對疫情把控良好,輿論控制在一定的范圍內,暫無較大波動。隨著國際疫情的發展,新冠肺炎疫苗的研發以及有效治療藥物再次被提及,引起群眾的廣泛討論。
綜上所述,疫情輿情仍處于波動階段,政府和相關部門一定要做好研判工作,防止二次爆發。疫情并未走遠,輿情尚未結束,只是進入了常態化防護階段,有一定的發酵程度,政府要做好應對準備。
新冠疫情引發的網絡輿情仍處于波動階段,關于疫情的話題依然占比較大。很多信息經過網絡發酵,稍有不慎就會引發二次輿情,做好輿情研判工作,防止輿情爆發是現階段網絡輿情監管工作的重點。
黨和政府高效有序的開展疫情防控工作并取得了巨大成績,網絡輿論隨著戰“疫”的不斷成功,變得積極向上充滿能量。更多人在社交平臺上自發進行謠言駁斥,將輿論往正方向引導??梢?,網絡輿情需要政府和管理者的積極干預與調控。
對相關疫情輿情,建立輿情監測體系,加強監測力度,建立疫情應對體系,對網上的輿論及時處置;加強輿情風險防范的宣傳,培養公眾輿情風險防范意識;加強對公眾的管理和監督,及時解決問題;建立良好的外部溝通機制,延緩輿情的擴散速度,為采取應對措施爭取時間。