



摘 要:針對國網客服中心客戶重復訴求問題,面對輿情群體性事件的沖擊,須了解輿情群體性事件的演化規律,確定事件類別,提煉事件特征。基于不同類別的網絡群體性事件,基于海量的95598工單數據集,通過LDA主題模型與高斯混合聚類算法相結合,利用LDA模型實現文本潛在語義的識別構建的網絡群體性事件動態識別模型,通過大量的文本訓練,當事件聚類數為6時有良好的解釋性。利用LDA主題模型和高斯混合聚類算法,減少了模型的迭代次數,確定最佳主題數,提高了網絡群體性事件識別結果的準確性。
關鍵詞:高斯聚類;輿情數據;群體性事件;主題模型;動態識別
中圖分類號:TP 39 " " " 文獻標志碼:A
網絡輿情是指利用互聯網對輿情事件表達相關言論。當發生群體性輿情事件時,相關職能部門需要迅速收集網絡輿情信息,跟蹤事態變化,這是亟待解決的問題[1]。本文基于95598工單和其龐大的用戶數據,構建一種對公眾輿論進行實時監測和分析的輿情監測機制。通過95598熱線工單采集用戶訴求信息,結合數據分析和挖掘技術,對公眾輿論進行全面、客觀、精準地監測和分析。
1 模型架構設計
對網絡輿情群體性事件的研究主要結合文本處理技術,目前國內已有眾多學者在相關領域的研究取得進展。張君第等通過使用TF-IDF算法對文本特征提取,使用徑向量函數的神經網絡模型以及自然語言處理算法對數據進行訓練,來進行輿情分析與預警[2]。學者秦洋等通過自然語言處理等技術流程,得到熱度和情感傾向分析,并將其應用于輿情監測[3]。……