呂洪波 姚錦峰 梁 飛
[摘要]信息采集是網絡輿情分析系統中最主要的步驟之一,搜索引擎在網絡上搜索主題相關信息時,不可避免的會產生相當數量的與主題無關信息。將這些無關信息清理掉,對提高話題抽取和情感分析的效率和精度意義重大,能夠加快整個系統分析速度和準確度。提出信息清理的必要性,在系統中將信息清理和中文采詞結合起來,提高系統運行效率和準確度。
[關鍵詞]網絡輿情分析 信息采集 中文分詞 信息清理
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0420070-01
一、引言
公眾關于現實社會以及社會中的各種現象、問題所持有的信念態度及觀點和(或)情緒的總和稱之為輿情。輿情可以通過多種方式、多種媒介表示和表達出來。其中,通過計算機網絡和通信網絡,是當前最重要的方式之一。這就是所謂網絡輿情[1-3]。在互聯網上,網民針對那些關系到自身利益或者是自己所關心的各種公共事務,包括突發事件、社會熱點問題、政府決策、公眾人物言行等等,比在現實世界中會更積極地發言,這是有益的一面。但由于歷史的原因,我國曾長期處于封閉狀態,容易受到外來思想文化的沖擊,這是有害的一面。我國當前所面臨的網絡輿情分析與預警的形勢極其嚴峻,政府及相關管理者亟需對處于“未然態”的輿情信息進行挖掘與分析,把握處理危機事件的最佳時機。
因此,必須利用現代信息技術對網絡輿情予以分析,從而進行控制和引導。由于網上的信息量十分巨大,僅依靠人工的方法難以應對網上海量信息的收集和處理,需要加強相關信息技術的研究,形成一套自動化的網絡輿情分析系統。及時應對網絡輿情,由被動防堵,化為主動梳理、引導。系統中的信息采集一步中,不可避免地會有相當數量與主題無關的信息被采集到,從而影響到后面分析的速度和準確度,所以應該將其清除。本文主要闡述對無關信息的清理,提高后面分析的速度與準確度。
二、信息處理
(一)信息采集系統
信息采集是通過搜索引擎實現的。搜索引擎(searchEngine)是指根據一定的策略、運用特定的計算機程序搜集互聯網上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統。搜索引擎的搜索過程一般包括3個步驟:
本系統采用Win web Crawer v2.0 Final。它是強大的網站抓取工具,可從網站、網頁目錄、搜索結果、文件的URL清單中抓取URL的Meta 標簽(標題,描述,關鍵字);標簽間的純文本;頁面大小;最后修改日期值等信息。高速,多因子,準確抓取-直接存儲數據到磁盤文件。程序有無數過濾器來限制進程,例如URL過濾器,文本過濾器,數據過濾器,域過濾器,數據修改等等。它允許用戶選擇重建等級,激活信息,超時限制,代理支持等許多其它功能。將主題句輸入進行搜索,得到的結果依次存入數據庫中。
(二)中文分詞模塊
眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子"I am a student",用中文則為:"我是一個學生"。計算機可以很簡單通過空格知道"student"是一個單詞,但是不能很容易明白「學」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。
中國科學院計算技術研究所在多年研究基礎上,耗時一年研制出了基于多層隱馬模型的漢語詞法分析系統 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標注;未登錄詞識別。ICTCLAS被中外媒體廣泛地報道,國內很多免費的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。
本系統的中文分詞模塊就是基于ICTCLAS,能對中文句子進行分詞和詞形標注。如圖1。

(三)信息處理模塊
通過Win web Crawer v2.0 Final搜索到的信息會有大量與主題無關。可以通過相應的標題和用于搜索的主題句,將這些用于下一步分析的標簽間的純文本清除。具體過程為:將用于搜索的主題句通過中文分詞程序,保留名詞、動詞和詞組,再將采集到的每篇文章的標題依次從數據庫中調出,通過中文分詞程序,將名詞、動詞和詞組分別與主題句中得到的進行比較,如果找不到相同的就采用VC程序將其從數據庫中刪除,從而去除了大量無關的信息[4-6]。
三、試驗結果
(一)實驗環境
由于數據量不是很大(小于10萬條),所以使用一般的PC作為服務器。CPU使用Intel(R)Pentium(R)D2.80GHz(雙核),內存大小為1GB,操作系統使用W in-dowsXP Professional SP2,數據庫為SQL Server2000。
(二)性能分析
實驗結果見表1。表1的說明:N信息源個數;EN清除后信息源個數;MN清除掉的信息源;個數V平均每秒處理的個數;包括信息的數據庫存儲。

由實驗結果可見,使用該方法可以有效的清除大量無關信息,處理速度較快,能夠完成網絡輿情分析系統對該模塊的要求。
四、結束語
信息采集中得到的無關信息不但會占用空間還會影響后面分析的速度與精度,為了提高話題抽取和情感分析的效率與精度,有必要把這些無關的信息清理掉。每次采集得到的無關信息的多少都會不同,經過信息清理得到的效果也不相同。通過信息清理去除了大量無關信息,提高了后面分析的速度與準確度,信息清理工作是成功的。
參考文獻:
[1]王來華,輿情研究概論:理論、方法和現實熱點,天津:天津社會科學院,2003.9(1).
[2]陳力丹,輿論學輿論導向研究[M].北京:中國廣播電視出版社,1999:10-11.
[3]王來華、劉毅,中國2004年輿情研究綜述[J].新華文摘,2005(18).
[4]Introuduction to Programming with C++:Comprehensive Version.
[5]Sartaj Sahni.Data Structures,Algorithms,and Applications in C++Publisher: Silicon Press;2 edition (August 31,2004).
[6]Vapnik V.Statistical Learning Theory .Wiley, 1998.