



〔摘 要〕網絡輿情作為一種重要的輿情形式,具有形成速度快,受眾人群廣等特點,對國家和社會的影響越來越重大。互聯網用戶可以自由地在微博、論壇、博客等中發表有關社會中各類現實問題的態度和意見。監測網絡輿情的主要手段就是利用網絡爬蟲對目標網絡的頁面數據進行挖掘,然后對挖掘的數據進行分類處理,并科學地統計輿情信息。本文主要分析網絡輿情的特征和處理對策,并利用網絡爬蟲、全文檢索、關鍵詞評分、以及科學數理統計等手段對網絡輿情監測系統的原理進行探索與系統實現。
〔關鍵詞〕網絡輿情;爬蟲;關鍵字排名
DOI:10.3969/j.issn.1008-0821.2013.11.009
〔中圖分類號〕TP301 〔文獻標識碼〕A 〔文章編號〕1008-0821(2013)11-0038-04
輿情是民眾關于現實社會中各種現象、問題所表達的政治信念、態度、意見和情緒的總和[1-2]。網絡輿情信息是指社會民眾通過互聯網這一媒介所表達的情緒、態度、信念、意識、思想、意見、要求和行為方式等方面的綜合表現,是對現代社會物質、政治、精神和社會4個文明建設活動的各種反映[3-5]《2012年互聯網輿情分析報告》藍皮書指出,2012年微博成為社會輿情的發動機,在本年網民重點關注的是社會轉型、環境問題、釣魚島問題、南海問題等熱點話題。據統計2012全年關于“釣魚島與反日游行”話題的網絡博文合計17 742萬篇,“倫敦奧運”話題博文7 583萬篇,“神舟九號與天宮一號對接”的話題博文3 923萬篇。由此可見,網絡輿情基本都是在短期爆發的,且影響范圍廣泛,都是些對國家、對社會意義深遠的熱門話題。因此,對網絡輿情進行監測分析是十分必要的。隨著科技的發展,計算機技術的迅速普及與推廣,網絡為社會各階層的人們提供了廣闊、自由的交流平臺[6],互聯網成為了社會網絡輿情傳播的主要平臺。而網絡輿情主要來自于BBS、博客、微博、點評等,在網絡中網民平等的表達著自己的觀點,可以說真話,也可以說假話,言論相對自由,網絡的開放性直接決定了網絡輿情的直接性、突發性、偏差性。網絡輿情的獨立屬性,信息流和環境會影響輿論的傳播[7]。網絡輿情主要來自BBS、博客、微博、點評等,在網絡中網民平等的表達著自己的觀點,言論相對自由,網絡的開放性直接地決定了網絡輿情的直接性、突發性和偏差性。本文設計的網絡輿情監測系統,主要考慮以下幾個方面:(1)對主流的社交網站、門戶網站的網頁、帖吧、文本文件、新聞評論、微博、博客等近期發布的信息,進行分類存儲處理。(2)對指定的網站上的近期信息,包括網頁、帖吧、文本文件、新聞評論、微博、博客等數據進行采集與歸類存儲處理。(3)對采集到的各種數據進行關鍵字分詞處理,分詞存儲,分詞評分,分詞排名等處理。(4)建設關鍵字檢索系統,檢索的結果按照標題與內容的綜合評分進行合理的排序。(5)本網絡檢測系統,采用合理的框架,預留更多未來開發的擴展接口,方便開源與二次開發。
2013年11月第33卷第11期現?代?情?報Journal of Modern InformationNov.,2013Vol.33 No.112013年11月第33卷第11期網絡輿情監測系統的研究與實現Nov.,2013Vol.33 No.111 系統的主要功能模塊
1.1 網絡輿情的采集模塊根據設置的檢索條件,如限定域名的http:∥.sina.com/的所有頁面的信息,將采集的數據適當的過濾,留下有用的關鍵數據。爬取的對象為重點新聞網站、知名社交網站、各大論壇,博客,以及政府網站等。
1.2 數據處理模塊對從網絡上采集而來的數據進行處理,處理的手段包括:歸類、分詞、標注、加權、存儲優化等。
1.3 關鍵字檢索為本網絡輿情監控系統提供一個搜索引擎的功能,方便對網絡蜘蛛爬取的數據進行查看管理。在一次檢索的基礎上,提供二次檢索。提供智能的檢索方案,按字索引、按詞索引以及字詞混合索引,對檢索結果進行排名與統計。
1.4 輿情分析與統計輿情分析是對輿情進行深層次的思維加工和分析研究。主要包括內容分析法和實證分析法。內容分析法對信息內容進行客觀系統的定量分析,提示信息所含有的隱性情報內容,對事物發展做情報預測。實證分析法是通過分析大量案例和相關數據從而得出結論的一種研究方法。經過分析后,可以自動提取關鍵字,提取一段完整的內容進行智能提取摘要,也可以根據已經設置的檢索條件進行動態地提取摘要。對標題進行分詞檢索與排名。智能識別數據并歸檔到本地數據源。網上數據的表示可以采用“點”與“線”組成的模型圖,來表示互聯網中的各類數據。用“線”來表示各個頁面之間的URL鏈接關系,用“點”來表示網絡中的各個頁面。在這樣的一個由點線組成的網狀結構的圖形中,每一個點與線都表達了非常重要的信息。所以互聯網中的文本類型的數據可以簡單的劃分成由頁面標題、頁面的內容、頁面的超文本標記以及頁面之間的URL鏈接等構成。一般的HTML頁面由Head標簽和Body表組成,主要的元素有標題Title,表格Table,層div等信息標簽組成。然而每當用戶瀏覽器收到數據時,去掉多媒體信息數據,如視頻數據、flash動畫、圖片數據、音頻數據等非文本文件數據,其余的文本文件所包含的信息可以分為兩類:一類是用于結構控制的HTML標簽,HTML由“〈”和“〉”構成一個標簽,如〈div〉、〈head〉等標簽;另外一類就是內容信息了,這些信息就提供給我們可以直接閱讀的文字。也就是我們最終需要分詞處理,存儲處理的,建立索引的文本數據。在頁面設計的時候,為了方便搜索引擎搜錄其頁面的信息,通常會在頁面添加關鍵字,在頁面的〈head〉標簽中,可以添加〈meta name=”關鍵字1,關鍵字2,關鍵字3”content=”頁面摘要描述……”〉的標簽信息來描述本頁面的主要信息,方便搜索引擎的網絡蜘蛛爬取信息。
1.5 關鍵字高亮顯示在查詢檢索結果中,對關鍵字進行統計并高亮顯示,雖然是一個小功能,但是技術實現的難度大,對用戶體驗有較高的提升,使得在檢索結果中對關鍵的信息對用戶一目了然。
1.6 網絡輿情的預測通過分析近期捕獲的網絡輿情,對這些數據進行自動分類,進一步聚類,并統計出各個關鍵字的數據圖表,周期升降率,從而預測未來的輿情演化與趨勢。
2 系統架構本網絡輿情監測系統采用MVC的設計模式。MVC的全稱就是Model View Controller的縮寫,意思為模型model——視圖view——控制器controller,MVC是最常用的一種程序基本結構的設計,使用MVC架構可以使業務邏輯模塊、數據鏈路模塊、UI界面模塊具有良好的分層,這3個模塊在具體的實現內容上彼此分離,在關系上又彼此調用,可以使各個模塊的負責人集中精力編寫各自的模塊,只需要對彼此的調用關系提供接口,以便降低程序關系的耦合度,達到高內聚低耦合的目的,在MVC架構發展的近些年中,許多有經驗的程序員習慣用Java的反射特性來更好地控制UI界面模塊和業務邏輯模塊的耦合性。利用MVC獨特的界面層、控制層、數據模型層的良好解耦的特點,本系統基本架構為:
圖1 MVC系統架構示意圖
2.1 系統的功能架構本網絡輿情監測系統按功能模塊劃分,可大致劃分為網絡爬蟲采集模塊、中文分詞系統、UI界面管理模塊、索引文件管理模塊、內容搜索及搜索顯示模塊、中文全文檢索系統、關鍵字智能評分系統、關鍵字高亮顯示模塊等八大模塊。
網絡輿情監控系統網絡爬蟲采集模塊中文分詞系統UI界面管理模塊索引文件管理模塊內容搜索及搜索顯示模塊中文全文檢索系統關鍵字智能評分系統關鍵字高亮顯示模塊圖2 系統各個功能模塊
2.1.1 網絡爬蟲網絡蜘蛛(Web Spider),也翻譯為網絡爬蟲(Web Crawler),不管用其中的哪一個翻譯都是一個非常形象的名稱。其實,網絡就好比蜘蛛網一樣,上面有無數個節點,爬蟲Crawler就好比是在網絡中爬來爬去的一只蟲子。網絡蜘蛛在搜尋的網頁中檢索一個個超鏈接URL,再對各個URL進行判斷是否曾經檢索過,如果沒有,則通過該鏈接進行信息爬取,并且一直循環爬取,一直到把該網站所有的頁面都爬取完為止。
2.1.2 中文分詞系統英文單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,惟獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜的多,困難的多。中文分詞系統用于將一個又一個的單個漢字進行分詞。一般中文分詞是先判斷前面和后面的幾個漢字能否和本漢字組成為一個詞語,并把前后連續的幾個漢字,按照一定的順序和語法進行重新排列或組合成為一個詞序列的過程。中文分詞最重要的是把最相關的結果排在最前面,這也稱為相關度排序。
2.1.3 中文全文檢索系統中文全文檢索是指把一個中文的文件中的全部的文本和檢索項,進行全文式的匹配檢索文本文件的方法。中文的全文檢索可以把一個數據庫或者一些文本文件,一個Web頁面的內容進行全文查找檢索。該系統還能分析文中的相關字、詞、句、段、篇等內容,并帶有統計功能,如果我們給一本書的每一個分詞都加上一個分字標簽,那么就可以統計分析全文的內容了。比如,我們要統計“中國名著《西游記》這本書中,‘孫悟空’一詞在本書中共出現多少次”就可以通過這個檢索方法實現。
2.1.4 UI界面觸發的事件反射到邏輯的處理事件的反射處理是利用Java的反射原理將View層中的事件反射到邏輯中來執行,UI響應反射事件時,需要通過事件動作配置數據Relation.java類,判斷事件的類型,事件分為“無條件跳轉”和“執行邏輯函數”兩種類型。
圖3 響應事件流程圖
3 網絡輿情的統計與分析如果人工采集互聯網上的信息,這個工作量將會是巨大的,因此需要研究如何在網絡上進行自動實現信息采集,并及時的對采集來的信息進行處理,由人工采集信息的防擁塞,變為自動采集的自動歸類,梳理,建立索引。圖4 中文分詞的輸入輸出
網絡輿情分析系統是處理已采集信息的核心功能模塊,具體功能如下:(1)可以對熱門話題與敏感詞匯進行標識。(2)可以根據新聞發布機構的權威度、回復數量、評論的頻率,對信息進行評分加權,使得檢索時排位靠前。(3)可以識別出采集的信息在某一段時間內是否是最熱門的話題,使用關鍵字的分詞、排序、語法分析和語義分析,來辨別各類文章中是否包含敏感話題?;ヂ摼W頁面上的數據不僅包括頁面的內容數據,還含有一些HTML超文本標簽主要用來對網頁的結構進行設計。目前,部分國際化組織制定HMTL5協議對頁面上的數據的格式進行統一的標記,但是這一類協議僅僅用于內容信息的表述形式上,這樣做的原因是讓瀏覽頁面的用戶能夠更好地閱讀頁面信息。
4 結 論本文在現有網絡輿情研究的基礎上,依據系統性、科學性、可靠性及可操作性原則,對如何采集監測網絡輿情信息進行深入剖析,這有助于了解網絡輿情發展規律,并據此設計了網絡輿情監測系統,當然,該系統的功能還需進一步完善以便推廣使用。
參考文獻
[1]董亞倩,鄧尚民.基于社會網絡分析的網絡輿情主體挖掘研究[J].情報資料工作,2011,(6):45-49.
[2]石彭輝.基于社會網絡分析的網絡輿情實證研究[J].現代情報,2013,33(2):27-31.
[3]Xiao Qiang.The Rising Tide of Internet[R].International Journalism Nieman Reports,2004:103-104.
[4]Guo Liang.The Internet is Changing China[EB/OL].http:∥china.usc.edu/app-images/guoliang.Pdf.
[5]戴媛,姚飛.基于網絡輿情安全的信息挖掘及評估指標體系研究[J].情報理論與實踐,2008,31(6):873-876.
[6]陳新杰,呼雨,蘭月新.網絡輿情監測指標體系構建研究[J].現代情報,2012,32(5):4-7.
[7]Suo Shuguang,Chen Yu.The Dynamics of Public Opinion in Complex Networks[J].Journal of Artificial Societies and Social Simulation,2008,11(4):2.
(本文責任編輯:王 涓)