□唐錦源 吳 越 任 亮
網絡輿情監測系統的構建能夠幫助政府部門實時監測輿論話題發展動向,為可能發生的熱點話題、敏感話題提供預警機制,能夠為調控網絡輿論朝良性方向發展提供充足的時間。企業化的網絡輿情監測,能夠有效地了解用戶當前感興趣的產品和內容,預測未來一段時間內可能感興趣的產品和內容,為企業推廣策略的制定以及發展方向的決策提供參考??梢姡W絡輿情監測系統可以幫助政府和企事業單位及時發現輿情,并在輿情發展初期應對和處理好輿情事件。
網絡輿情監測系統的研究對于社會穩定,經濟領域和企業具有重要意義。截至2017年12月對中國學術期刊網CNKI,以“網絡輿情”為關鍵詞搜索到相關文獻8,494條,以“網絡輿情監測”為關鍵詞搜索到相關文獻377條,其中涉及到“網絡輿情監測系統”的相關文獻57條。數據顯示從2011~2017年,網絡輿情監測系統研究的相關文獻逐年增多,特別是2015年后數量激增。網絡輿情監測系統的研究主要涉及到系統架構、系統的設計與實現、系統應用的關鍵技術。
目前,國內外網絡輿論監測系統理論研究主要集中在熱點話題發現、輿論情感傾向判別和輿論意見領袖識別三個方面。
(一)智能識別熱點話題。熱點話題的智能識別和建模作為網絡輿情監測的基礎,實現了從人工到自動化,從文字表達到數字信息的抽象,使得人們可以利用數學工具對文檔進行話題提取和話題聚類。根據話題構建方法,可分為向量空間模型和概率話題模型兩類。
1.向量空間模型。向量空間模型是TDT中最常使用的話題模型,一般以文檔中的詞語為向量特征,并由TF*IDF方法計算特征權重。考慮到話題與事件的關系,利用事件的時間、地點和人物所構建的基于向量空間的話題模型得到了廣泛關注。
2.概率話題模型。概率話題模型的思想源于Hofmann在LSI(Latent Semantic Indexing)基礎上提出的pLSI模型(probabilistic Latent Semantic Indexing)。pLSI假設每個文檔由話題的多項式分布隨機而成,文檔中每個詞由話題生成,不同話題產生不同的詞。為解決pLSI對參數求解計算復雜、模型過度擬合等問題,Blei提出了LDA(Latent Dirichlet Allocation)模型。LDA模型的參數不會隨著文集增長而線性增長,有很好的泛化能力,是目前機器學習、信息檢索等領域很常用的模型。
(二)智能識別輿論情感傾向。由于網絡短文本具有網絡新詞、表情符號多、噪聲大、情感特征稀疏等特點,其情感傾向識別的難度更大。特別是,情感傾向識別不僅要提取喜怒哀樂等情緒情感,還要識別情感所涉及的話題。近年來相繼出現了一些有針對性的研究方法以解決這些問題。
1.針對網絡新詞、符號層出不窮,普通情感詞典難以識別的問題。Pandarachalil提出一種無度的情感分析方法,該方法利用Senticnet,SentiWordNet和SentilangNet三種情感詞典分析網絡輿論文本的情感極性,其中SentilangNet情感詞典搜集了微博俚語和縮略詞,該方法對大規模網絡文本情感分析具有良好效果。Yamamoto考慮了符號對于文本情感的影響,提出了基于表情符號的微博多維度情感計算方法。
2.針對網絡文本短小,特征稀疏的問題。Zhou利用社會關系信息判斷用戶觀點,從而達到提升準確率的目的。楊等面對微博短文本特征稀疏和上下文缺失的情況,借由時間、空間、聯系等要素挖掘文本間隱含的關聯關系,重構文本上下文范疇,以提升情感極性分類的有效性。
3.為實現話題與情感的同步提取,Tan在潛在狄利克雷分布模型的基礎上,提出了前景和背景LDA模型,用于提取顯著的話題并過濾長期存在的背景話題。Ren提出一種結合社交網絡文本和話題文本的矩陣因子分解框架,利用可觀測的微博知識,預測用戶對某一具體話題的觀點。馬提出一個話題情感混合最大熵LDA模型對網絡文本進行細粒度觀點挖掘。
(三)智能識別輿論意見領袖。網絡輿論意見領袖是指在網絡中對其他人產生影響的個體。根據分析數據對象的不同,網絡輿論意見領袖識別方法大致可以分為基于網絡結構的方法、基于交互信息的方法和基于綜合特征的方法。
1.社交網絡結構能在很大程度上反映某個節點在網絡中所處位置的重要程度。如果用戶在社交網絡中的位置能夠如實體現他在社交活動中的領袖地位,利用基于PageRank算法的排名方法就能對其進行度量。Tang把PageRank算法打分最高的1%的用戶看作關鍵節點人物。
2.分析用戶所發信息的影響力和傳播特性,能夠更客觀準確地發現網絡關鍵節點人物。Goyal認為社團關鍵節點人物發起的行為能在特定時間段內對一定數量的用戶產生影響,并據此使用頻繁模式挖掘方法識別社交網絡中的關鍵節點人物。
3.網絡用戶具有許多特征信息,一些研究者綜合各種特征建立模型來識別網絡關鍵節點人物。Li通過分析文本內容、用戶行為和時間設計了網絡關鍵節點人物識別的混合框架,框架融合了經驗值、新穎度、影響力和活躍度特征。Ellero從關鍵節點人物能夠打破多數規則,加速信息傳播速率的角度進行關鍵節點人物識別和網絡輿論演化仿真,實驗結果表明,少量的關鍵節點人物不僅能加快網絡輿論的形成,而且可能使整個網絡輿論發生逆轉。
國內外研發了許多網絡輿情監測相關的系統。國內包括方正智思——網絡輿情互聯網信息監控分析系統及輿情預警輔助決策支持系統、復旦大學C_Analysis輿情分析系統等,這些系統基本上都對網絡輿情的數據進行了采集和分類,并提供了一些統計學分析的輔助功能。國外相關系統有:Autonomy公司發布的三大系列專門針對中國市場的應用產品,分別是面向企業的“企業競爭情報智能分析系統”、面向政府部門的“互聯網輿情監控分析系統”等。
隨著網絡輿情監測系統的相關研究不斷深入,學術成果不斷呈現。方法的創新和智能識別技術的發展為網絡輿情監測系統研究注入了新的活力,但相關研究還存在問題:一是研究成果的內容主要集中在理論研究,實踐應用研究較薄弱。二是基于不同目標對象和不同行業的特定社會領域,構建的網絡輿情監測指標體系和系統同質化現象較明顯,指標的選取和設計上區分度較低。三是熱點話題發現技術的研究較多,輿論情感傾向識別技術和輿論意見領袖識別技術的研究太少。
在綜合國內外主流理論、方法、模型以及實際輿論數據的基礎上,本文認為接下來可以重點研究智能識別技術在網絡輿情監測系統中的應用:一是輿情監測系統自動發現網絡輿論熱點話題,進行及時的輿情等級預警;二是智能分析和展示網民對于網絡輿論話題的情感傾向分布,幫助有關部門把握輿論脈搏;三是構建意見領袖綜合評價指標,有效識別在網絡輿論發生、發展過程中起到重要作用的意見領袖,為輿論引導策略的有效制定提供重要依據。