999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡輿情分析系統信息清理的研究

2009-07-16 09:33:54呂洪波姚錦峰
新媒體研究 2009年8期

呂洪波 姚錦峰 梁 飛

[摘要]信息采集是網絡輿情分析系統中最主要的步驟之一,搜索引擎在網絡上搜索主題相關信息時,不可避免的會產生相當數量的與主題無關信息。將這些無關信息清理掉,對提高話題抽取和情感分析的效率和精度意義重大,能夠加快整個系統分析速度和準確度。提出信息清理的必要性,在系統中將信息清理和中文采詞結合起來,提高系統運行效率和準確度。

[關鍵詞]網絡輿情分析 信息采集 中文分詞 信息清理

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0420070-01

一、引言

公眾關于現實社會以及社會中的各種現象、問題所持有的信念態度及觀點和(或)情緒的總和稱之為輿情。輿情可以通過多種方式、多種媒介表示和表達出來。其中,通過計算機網絡和通信網絡,是當前最重要的方式之一。這就是所謂網絡輿情[1-3]。在互聯網上,網民針對那些關系到自身利益或者是自己所關心的各種公共事務,包括突發事件、社會熱點問題、政府決策、公眾人物言行等等,比在現實世界中會更積極地發言,這是有益的一面。但由于歷史的原因,我國曾長期處于封閉狀態,容易受到外來思想文化的沖擊,這是有害的一面。我國當前所面臨的網絡輿情分析與預警的形勢極其嚴峻,政府及相關管理者亟需對處于“未然態”的輿情信息進行挖掘與分析,把握處理危機事件的最佳時機。

因此,必須利用現代信息技術對網絡輿情予以分析,從而進行控制和引導。由于網上的信息量十分巨大,僅依靠人工的方法難以應對網上海量信息的收集和處理,需要加強相關信息技術的研究,形成一套自動化的網絡輿情分析系統。及時應對網絡輿情,由被動防堵,化為主動梳理、引導。系統中的信息采集一步中,不可避免地會有相當數量與主題無關的信息被采集到,從而影響到后面分析的速度和準確度,所以應該將其清除。本文主要闡述對無關信息的清理,提高后面分析的速度與準確度。

二、信息處理

(一)信息采集系統

信息采集是通過搜索引擎實現的。搜索引擎(searchEngine)是指根據一定的策略、運用特定的計算機程序搜集互聯網上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統。搜索引擎的搜索過程一般包括3個步驟:

本系統采用Win web Crawer v2.0 Final。它是強大的網站抓取工具,可從網站、網頁目錄、搜索結果、文件的URL清單中抓取URL的Meta 標簽(標題,描述,關鍵字);標簽間的純文本;頁面大小;最后修改日期值等信息。高速,多因子,準確抓取-直接存儲數據到磁盤文件。程序有無數過濾器來限制進程,例如URL過濾器,文本過濾器,數據過濾器,域過濾器,數據修改等等。它允許用戶選擇重建等級,激活信息,超時限制,代理支持等許多其它功能。將主題句輸入進行搜索,得到的結果依次存入數據庫中。

(二)中文分詞模塊

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子"I am a student",用中文則為:"我是一個學生"。計算機可以很簡單通過空格知道"student"是一個單詞,但是不能很容易明白「學」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。

中國科學院計算技術研究所在多年研究基礎上,耗時一年研制出了基于多層隱馬模型的漢語詞法分析系統 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標注;未登錄詞識別。ICTCLAS被中外媒體廣泛地報道,國內很多免費的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。

本系統的中文分詞模塊就是基于ICTCLAS,能對中文句子進行分詞和詞形標注。如圖1。

(三)信息處理模塊

通過Win web Crawer v2.0 Final搜索到的信息會有大量與主題無關。可以通過相應的標題和用于搜索的主題句,將這些用于下一步分析的標簽間的純文本清除。具體過程為:將用于搜索的主題句通過中文分詞程序,保留名詞、動詞和詞組,再將采集到的每篇文章的標題依次從數據庫中調出,通過中文分詞程序,將名詞、動詞和詞組分別與主題句中得到的進行比較,如果找不到相同的就采用VC程序將其從數據庫中刪除,從而去除了大量無關的信息[4-6]。

三、試驗結果

(一)實驗環境

由于數據量不是很大(小于10萬條),所以使用一般的PC作為服務器。CPU使用Intel(R)Pentium(R)D2.80GHz(雙核),內存大小為1GB,操作系統使用W in-dowsXP Professional SP2,數據庫為SQL Server2000。

(二)性能分析

實驗結果見表1。表1的說明:N信息源個數;EN清除后信息源個數;MN清除掉的信息源;個數V平均每秒處理的個數;包括信息的數據庫存儲。

由實驗結果可見,使用該方法可以有效的清除大量無關信息,處理速度較快,能夠完成網絡輿情分析系統對該模塊的要求。

四、結束語

信息采集中得到的無關信息不但會占用空間還會影響后面分析的速度與精度,為了提高話題抽取和情感分析的效率與精度,有必要把這些無關的信息清理掉。每次采集得到的無關信息的多少都會不同,經過信息清理得到的效果也不相同。通過信息清理去除了大量無關信息,提高了后面分析的速度與準確度,信息清理工作是成功的。

參考文獻:

[1]王來華,輿情研究概論:理論、方法和現實熱點,天津:天津社會科學院,2003.9(1).

[2]陳力丹,輿論學輿論導向研究[M].北京:中國廣播電視出版社,1999:10-11.

[3]王來華、劉毅,中國2004年輿情研究綜述[J].新華文摘,2005(18).

[4]Introuduction to Programming with C++:Comprehensive Version.

[5]Sartaj Sahni.Data Structures,Algorithms,and Applications in C++Publisher: Silicon Press;2 edition (August 31,2004).

[6]Vapnik V.Statistical Learning Theory .Wiley, 1998.

主站蜘蛛池模板: 午夜老司机永久免费看片| 自拍偷拍欧美日韩| 精品视频福利| 91视频日本| 精品三级在线| 亚洲欧美日韩另类| 国产小视频a在线观看| 人禽伦免费交视频网页播放| 国产无套粉嫩白浆| 国产欧美日韩综合一区在线播放| 亚洲无码视频一区二区三区| 亚洲无线国产观看| 欧美高清三区| 国产人成在线视频| 国产高清免费午夜在线视频| 日韩AV无码免费一二三区| 人妻一本久道久久综合久久鬼色| 在线中文字幕日韩| 欧美a在线| 91久久精品日日躁夜夜躁欧美| 国产网友愉拍精品| 67194在线午夜亚洲| 亚洲男人在线天堂| 国产视频一区二区在线观看| 国产精品毛片一区| 99re在线视频观看| 欧美激情伊人| 日韩免费视频播播| 免费在线观看av| 国产乱子伦视频在线播放| 国产97公开成人免费视频| 456亚洲人成高清在线| 亚洲综合婷婷激情| 999国产精品永久免费视频精品久久 | 国产精品污视频| 亚洲无码精品在线播放| 天天摸天天操免费播放小视频| 欧美一区二区自偷自拍视频| 亚洲国产精品一区二区高清无码久久| 欧美区一区二区三| 国产男女免费完整版视频| 91麻豆久久久| 欧美日韩国产一级| 欧美一级大片在线观看| 全部免费特黄特色大片视频| 正在播放久久| 精品国产三级在线观看| 国产人前露出系列视频| 国产极品美女在线播放| 日韩亚洲高清一区二区| 69av在线| 永久在线播放| 国产精品美人久久久久久AV| 国产极品美女在线播放| 好紧太爽了视频免费无码| 国产杨幂丝袜av在线播放| 亚洲av色吊丝无码| 久久精品只有这里有| 国产成人1024精品| 国产AV无码专区亚洲A∨毛片| 亚洲精品国产成人7777| 日韩av无码精品专区| 72种姿势欧美久久久大黄蕉| 强奷白丝美女在线观看| 91九色视频网| 白浆视频在线观看| 欧美一区二区三区国产精品| 免费福利视频网站| 亚洲 欧美 中文 AⅤ在线视频| 国产成人精品一区二区免费看京| av天堂最新版在线| 亚洲AV成人一区国产精品| 免费毛片视频| 日韩激情成人| 曰AV在线无码| 韩国v欧美v亚洲v日本v| 国产正在播放| 精品自窥自偷在线看| 亚洲欧美极品| 永久免费av网站可以直接看的| 国产91无码福利在线| 亚洲精品老司机|