基于K-means聚類的網絡輿情監控系統

2013-08-13 05:57:58張玉珠

通信技術 2013年1期

張玉珠

（貴州大學計算機科學與信息學院，貴州貴陽 550025）

0 引言

互聯網的發展不僅推動了社會經濟的飛速發展，改善了人們的生活品質，還進一步改變了人們獲取信息的方式。作為繼報紙、無線廣播和電視三大傳統的傳播媒體之后出現的新興“第四媒體”，互聯網已成為龐大的公共信息集散地，成為人們日常交流的平臺。社會民眾通過網絡所表達的群體性的情緒、態度、意見、要求等形成了網絡輿情[1]。

由于網絡本身的虛擬性，隱蔽性，自由性等特點，人們更愿意通過網絡來表達他們的真實想法，發泄負面情緒。近年來，由突發事件引起的網絡輿情更是直接關系到社會的穩定[2]。由于網絡信息量的巨大，傳統的依靠人工進行分析處理，難以滿足人們對網絡信息的需求。因此迫切需要借助現代信息技術，提高網頁信息的采集效率，制定相應的預警機制，構建網絡輿情監控系統。

1 系統總體功能

網絡輿情監控系統主要采用了網絡爬蟲技術，中文分詞技術，信息分析與處理技術，文本挖掘技術等多項技術，實現網頁信息的自動采集，并對海量的動態信息進行分析及實時的監管，將處于“未然狀態”下的輿情信息進行挖掘分析，把握處理突發事件的最佳時機。網絡輿情監控系統主要包括輿情信息采集及預處理模塊、輿情信息分析模塊以及輿情服務模塊，系統構架如圖1所示。信息采集及預處理模塊主要用于對網絡輿情信息的采集，將網頁信息經過去噪處理，生成干凈的文本信息，并對文本信息進行特征值提取，建立向量空間模型(VSM，Vector Space Model)；輿情分析模塊是系統的核心部分，主要通過文本聚類發現熱點話題發現，并對話題進行情感傾向性分析，方便人們掌握輿情的整體趨勢；輿情服務主要向人們提供輿情報告，通過對輿情報告的掌握對網絡輿情突發事件進行處理，并通過個性化定制，制定方便，適合需求的輿情信息。

2 系統功能模塊設計

2.1 輿情信息采集

輿情信息采集模塊主要運用了網絡爬蟲技術，獲取網頁信息。網絡爬蟲是一種按照一定的規則，自動的抓取萬維網信息的程序或腳本，是一個自動提取網頁的過程。網絡爬蟲通過網頁的鏈接地址來尋找網頁，從網站某一個頁面開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。

2.2 網絡輿情信息預處理

輿情信息的預處理模塊主要包含網頁去噪，網頁排重，中文分詞和特征詞提取等。通過網絡爬蟲采集到的網頁信息通常含有大量的噪聲，因此首先需要對其進行去噪處理，即保留網頁鏈接、正文，時間及一級標題、二級標題[3-4]。本文采用文檔對象模型（DOM，Document Object Model）來獲取網頁的正文、一二級標題等，構建DOM樹，從DOM樹上刪除節點的過濾器，最終獲得相應的文本信息。

網絡輿情中還存在著眾多重復和轉載信息，為了提高聚類分析的效率，避免網頁冗余，還需要對網頁進行網頁的去重。首先進行頁面分析，提取網頁的特征碼，區分網頁是否相同或相似的判定標準主要是特征碼，再用提取到的特征碼進行索引網頁，構建檢索系統，將提取到的網頁特征碼置于構建的檢索系統中，聚為以該網頁特征碼標注的一類。將句號作為其中一個特取位置，在句號兩邊提取長度為L/2的詞串，構成固定長為L的詞串作為網頁的特征碼，排除了版權信息和導航的干擾。

經上述處理得到的結構化的輿情信息存入數據庫，并對其進行進一步的分詞處理。采用了中科院得漢語詞法分析系統(ICTCLAS，Institute of Computing Technology, Chinese Lexical Analysis System)[5]，利用詞類信息對分詞決策提供幫助，并且在標注過程中又反過來對分詞結果進行檢驗。分詞完畢后，需去除停用詞，如標點符號，助詞等，減少提取特征詞和建立VSM時產生的冗余。

本系統采用VSM向量空間模型表示文本內容，在有n個不同特征項的一組d1,d2,…,dn的文本系統中，給定文本的傳統特征向量表示：di=(ω1(di),ω2(di),…,ωn(di))，由于d1,d2,…,dn互不相同，可以把它們看作是n 維歐氏空間n 個坐標，把di看作是n 維歐氏空間的向量。其中ωj(di)表示第j個特征詞在文檔di中的權重。用詞頻率指數-逆文本頻率指數(TF-IDF，Term Frequency-Inverse Document Frequency)方法給出特征詞一個權重[6]。計算公式如下：

ωj(di)表示第 j 個特征詞在文本中di的權重；fj(dj)表示第 j個特征詞在文本di中出現的頻率，nj( di)表示包含第j個特征詞的文本個數，n表示所有文本個數。

2.3 輿情信息分析

輿情信息分析模塊包括輿情信息相似度的計算，聚類分析及情感傾向分析。其流程圖如圖2所示。

本文采用余弦距離度量[7]表示文本之間的相似性，它定義兩篇文檔di，dj的相似度如下：

文檔聚類是一種無監督的過程，即不依賴任何關于集合劃分的先驗知識，而僅僅根據集合內部的文檔對象彼此之間的相似度按照某種準則對文檔集合進行劃分。k-means聚類算法具有良好的可伸縮性和很高的效率，適合處理大量文本集，該算法是劃分算法的代表，對文本進行分析聚類有較好的結果。該算法的主要思想有[8]：對于一個大小為 n的文本集，首先隨機選擇k個文本作為初始聚類中心，對于剩下的每一個文本對象，計算該文本與各個初始聚類中心的相似度，然后根據簇內文本之間相似度大而不同簇間文本相似度小的原則，把文檔指派到相應的類簇。重新計算每一個聚類簇的平均值，得到新的聚類中心，不斷重復上述過程，直到準則函數收斂。利用 k-means聚類算法能夠快速為文本進行分類，發現事件的熱點[9]，對網絡突發事件進行監控，及時有效的實現輿情監控。

在對輿情信息進行分析時，還可以通過情感傾向分析判斷輿情信息的正負面情緒。本系統利用知網（HowNet）的詞匯語義相似度進行計算，識別詞匯的語義傾向性[10-12]。令Pwords表示帶有積極語義傾向的基準詞集合，Nwords表示帶有消極語義傾向的基準詞集合。詞匯的語義傾向值表示為：

其中，Sim(word1,word2)表示詞匯 word1和 word2的語義相似度。當Orient(word)≥θ時認為詞匯word為積極語義傾向；反之為消極語義傾向。

2.4 輿情服務

輿情服務作為系統的輸出層，主要提供用戶需求層的信息，具體包括輿情報告，輿情信息的互聯網發布及郵件 Email服務和用戶個性化定制。為用戶提供清晰、準確、快捷的輿情信息服務，滿足用戶對信息的各種需求。

3 結語

網絡輿情是一個比較新的研究領域，在信息高速傳播的互聯網時代，實施輿情信息是非常有必要的。但是由于網絡結構的復雜，輿情信息的隱蔽性、爆發性等特點，很難全面有效的掌控輿情信息。本系統主要通過遍歷互聯網上的信息，通過預處理得到干凈的文本，再由聚類發現輿情的熱點，并發布輿情報告，形成一套相對完整的網絡輿情監控系統。本系統的不足之處在于只是通過文本挖掘追蹤熱點話題，但是沒有建立網絡輿情的預警機制，在這方面還有待研究改進。

[1] 曾潤喜.我國網絡輿情研究與發展現狀分析[J].圖書館學研究,2009(08):2-6.

[2] 中國互聯網網絡信息中心.第28次中國互聯網發展狀況統計報告[R].北京:CNNIC,2011.

[3] 張繼超,和應民,周春楠,等.綜合資源管理系統中數據采集的實現[J].通信技術,2011,44(03):116-119.

[4] 王平根.基于 DOM的動態網頁信息抽取方法[J].科技信息,2010(31):470-470,475.

[5] 中國科學院計算技術研究所.ICTCLAS簡介[EB/OL].[2008-12-01](2012-08-05).http://ictclas .org/sub_1_1.html.

[6] 李文超,周勇,夏士雄,等.一種新的基于層次和 K-means方法的聚類算法[C].中國:中國自動化學會,2007:605-609.

[7] FAHIM A M,SALEM A M,TORKEY F A,et al.An Efficient Enhanced K-means Clustering Algorithm[J].浙江大學學報A:英文版,2006,7(10):1626-1633.

[8] STEINBACH M, KARYPIS G, KUMAR V. A Comparison of Documentclustering Techniques Proceedingof the 6th ACM-SIGKDDInternational Conference on Text Mining[M].USA:ACM Press, 2000:103-122.

[9] 焦超,劉功申.網絡突發熱點事件的熱度分布[J].信息安全與通信保密,2012(04):58-60.

[10] 熊德蘭,程菊明,田勝利,等.基于HowNet的句子褒貶傾向性研究[J].計算機工程與應用,2008,44(22):143-145.

[11] 薛麗敏,李殿偉,肖斌,等.中文文本情感傾向性五元模型研究[J].通信技術,2011,44(07):130-132.

[12] 黃萱菁,張奇,吳苑斌,等.文本情感傾向分析[J].中文信息學報,2011,25(06):118-126.