陳麓屹 戴國勇 劉靜靜
摘 要: 隨著互聯網技術的發展,各類網絡新聞表達和信息傳遞的渠道越來越大,網絡輿情的傳播也更加迅速。該文對網絡輿情信息意見挖掘的關鍵技術進行研究,通過對熱點事件提取、動態主題庫的構建、情感傾向分析這三個技術的分析研究,可以更好的監控網絡輿情走向,確保網絡安全。
關鍵詞: 網絡輿情;熱點事件;動態主題庫;情感傾向
【中圖分類號】 G350 【文獻標識碼】 A【文章編號】 2236-1879(2018)14-0009-01
1 引 言
當今社會的主流媒體,如博客、微信、微博等網絡媒體,已經被越來越多人使用,新聞或信息的傳播變得更加快速,輿論力量也越來越強大。從海量的、種類繁雜的、數據信息多樣化的輿論信息中挖掘出有價值的信息,并對信息進行分析,是目前進行網絡輿情信息監控,控制輿情走向的關鍵點。本文主要針對網絡輿情信息意見挖掘的關鍵技術進行研究。
2 意見挖掘關鍵技術
該文主要從熱點事件提取、動態主題庫的構建、情感傾向分析這三個技術關鍵點進行分析。
2.1 熱點事件提取。
熱點事件的提取可以采用文本聚類算法:K-means[1]。在提取熱點事件中,主要進行文本預處理、關鍵特征詞提取和聚類模型的選擇。
文本預處理主要是對中文和英文進行分詞操作[2],并提取關鍵性文本,過濾無用文本,其中無用文本包括標點符號、垃圾詞語以及無實際意義的助詞、介詞和連詞等。
關鍵特征詞提取,主要是獲取文本中出現頻率較高的句子以及詞語。可采用TF-IDF特征加權算法[3],該算法可以通過計算句子的權重,評估出該句子在文本中的重要程度,再從選出的主題句中使用該算法計算關鍵詞語的權重,評估關鍵特征詞。
聚類模型主要選擇K-means聚類模型[4],其中心思想是:選擇其中k個關鍵特征詞所代表的熱點事件,對k個熱點事件依次計算與其余頁面文本熱點事件的相識度,如果相識度超過閥值,就進行熱點事件合并,否則,就將當前頁面的文本作為新的熱點事件;該算法迭代進行,對生成的新熱點事件進行重新聚類,直到找到特定個數的熱點事件。
2.2 動態主題庫的構建。
動態主題庫主要是構建一種樹形結構的意見主題庫,第一層為根節點;第二層為意見類型;第三層為包含意見主題的規則,每條規則由兩到三個同義詞組構成,每個同義詞組中的詞語可以和其它同義詞組中的所有詞語進行組合。動態主題庫的構建主要用來將網絡信息和動態主題庫進行匹配,提取出當前網絡信息的主題類型。
2.3 情感傾向分析。
情感傾向分析技術包含數據獲取、特征詞提取、情感詞庫的構建,以及情感傾向的分析[5]。
數據獲取:通過軟件抓取網絡信息,對獲取到的半結構化數據進行過濾,刪除無用信息[6],得到純文本信息。
特征詞提取:對獲取到的純文本信息進行篩選,篩選出現頻率比較高的特征詞,并將篩選出的特征詞構造特征詞本體,計算特征詞的語義相似度,構建出語義共詞矩陣,對語義共詞矩陣進行定量的聚類分析。
情感詞庫的構建:將具有情感傾向的詞,通過人工評定的方式,分別抽取出表達正面信息和表達負面信息的詞,并確定不同情感值的程度級別和強度,構建出情感強度詞表;將情感程度與情感詞相搭配構成情感詞庫,情感詞語搭配減弱型情感程度會減弱情感的強度,反之情感詞語搭配增強型情感程度會增強情感的強度。
情感傾向分析:抽取詞語特征和情感詞語,構建本體[7]。將語句中的詞語匹配本體中的特征詞,將句子的特征詞映射到本體中相應的特征上,匹配情感詞所在的語境,形成特征-情感詞組。最后對特征-情感詞組進行判定,整理情感傾向,得出分析結果。
3 結 語
本文主要闡述了如何進行網絡輿情信息的意見挖掘。首先通過文本聚類算法進行熱點事件的提取;然后構建動態意見主題庫,將提取出來的熱點事件與動態意見主題庫的規則進行匹配,獲取到熱點事件的主題類型。最后都與熱點事件進行情感傾向分析,分析出熱點事件的情感傾向和強度。以便能夠挖掘出有價值的信息,及時監控輿論信息,保證網絡安全,維護社會穩定。
參考文獻
[1] 王千,王成,馮振元,等 .K-means聚類算法研究綜述[J].電子設計工程,2012(07)21-24.
[2] 劉 件,魏 程. 中文分詞算法研究[J]. 微計算機應用,2008,29( 8) : 11-16.
[3] 韓敏,唐常杰,段磊,等 .基于TF-IDF相似度的標簽聚類方法[J].計算機科學與探索,2010(03)240-246.
[4] 芬芬 .基于概念和語義相似度的文本聚類算法[J].計算機工程與應用,2012(18)136.
[5] 李耀林 .面向評價對象的商品評論情感傾向性分析研究[D]. 杭州: 浙江工商大學, 2013.
[6] 胡昌平,胡吉明 .個性化服務中基于支持向量機的用戶興趣挖掘分析 [J]. 情報學報,2009,28 ( 4) : 543-547.
[7] 朱禮軍,陶蘭,劉慧 .領域本體中的概念相似度計算[J]. 華南理工大學學報: 自然科學版,2004,32:147-150.