摘要:網絡輿情及其管理是信息化時代政府和主管部門構建和諧社會的關鍵工作之一,針對此進行網絡輿情分析系統研究是有效開展此項工作極為重要的技術保障因素。本文以此為切入點。系統分析網絡輿情分析系統的七大基本功能需求和系統設計中的四個部分,其核心部分功能的八大模塊及相關主要技術等。
關鍵詞:網絡輿情分析 基本功能需求 核心部分 功能模塊
2008年中國的網絡新聞得到快速發展,網絡新聞的使用率較去年提升了近5個百分點,網絡新聞用戶達到2.34億,互聯網已經成為一個不可忽視的輿情策源地與宣傳陣地。輿情是指在一定的社會空間內,圍繞社會事件的發生、發展和變化,民眾對社會管理者產生和持有的社會政治態度。它是較多群眾關于社會中各種現象、問題所表達的信念、態度、意見和情緒等表現的總和?;ヂ摼W因其虛擬性、隱蔽性、發散性、滲透性和隨意性等特點,吸引越來越多的人通過這一渠道表達自己的想法。當網民的言論達到了一定規模時,就形成了網絡輿論。作為社會輿論的一種重要表現形式,網絡輿情形成迅速,對社會的影響巨大。
由于網絡的信息量十分巨大,僅依靠人工的方法難以應對網絡海量信息的收集和處理,需要加強相關信息技術的研究,形成一套自動化的網絡輿情分析系統,及時應對網絡輿情,由被動防堵化為主動梳理、引導。
網絡輿情分析系統的基本功能
在我國,作為網絡輿情管理的主體一般是地方政府和主管部門,其對網絡輿情管理的基本要求是:及時掌控所轄范圍內網站上的信息情況(包括論壇、博客、網站等),防止網絡突發事件的發生進而誘發群體事件,維持安全健康的網絡環境和穩定的社會環境。
因此,服務于地方政府或主管部門的網絡輿情分析系統應該具備以下七大基本功能。
網站的設置功能:輿情分析系統所配置的來源網站主要包括國內知名的門戶網站、論壇、貼吧、博客、所關注的境外網站以及轄區內一些有影響力的網站。
Web頁面瀏覽的功能:網站的設置是為了方便采集信息的管理,也方便用戶在Web頁面上的瀏覽。
指定網站的搜索功能:主管部門所關注的信息類似百度貼吧的網絡社區,以及轄區內具有一定影響力的網站,如各級論壇、各政府網站等;這部分的需求是通過配置指定網站的方法來實現的,指定網站配置采集可以做到信息的準確性。
全網搜索的功能:收集國內各個知名門戶網站對該區域的報道和論壇中一些敏感的話題。由于全網搜索的準確性難免有所下降,應該可以通過配置關鍵字過濾來采集數據,保證采集回來的信息是用戶所需要的。
主題事件的跟蹤功能:主要通過主題詞來監控一些突發事件和熱點事件,如突發事件、重大事件。
敏感詞自動檢測功能:基于敏感詞典信息過濾技術,可以有效地識別各種有害文字信息,以擺脫有害信息的侵擾,進一步監測各種嚴重政治性錯誤、淫穢色情、兇殺暴力、賭博迷信、非法、負面報道等內容的發生,可對各類有害信息及時有效地發起預警,并嚴防此類嚴重錯誤見諸報端。
短信提示功能:其主要作用是服務于領導。通過正常的配置,將采集的信息及時用短信的形式發給領導,使領導可以第一時間知道某些突發事件和熱點事件的情況。
網絡輿情分析系統的核心功能
充分考慮到使用者的功能需求。對以上基本功能進行軟件工程學的分析后,可以發現以上七大基本功能的具體實現涉及輿情分析引擎、自動信息采集、數據清理、代理服務四大部分。其中,核心部分是輿情分析引擎。
輿情分析引擎是輿情分析系統的核心功能,至少應當具備八個模塊進行功能分解。
識別模塊:熱點話題、敏感話題識別,可以根據新聞出處的權威度、評論數量、發言時間密集程度等參數,識別出一定時間段內的熱門話題。利用關鍵字布控和語義分析,識別敏感話題。
傾向性分析模塊:對于每個話題,對每個發信人發表的文章的觀點、傾向性進行分析與統計。
主題跟蹤模塊:分析新發表文章、帖子的話題是否與已有主題相同。
自動摘要模塊:對各類主題、各類傾向能夠形成自動摘要。
趨勢分析模塊:分析某個主題在不同的時間段內。人們所關注的程度。
突發事件分析模塊:對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌并預測事件發展的趨勢。
報警系統模塊:對突發事件、涉及內容安全的敏感話題及時發現并報警。
統計報告模塊:根據輿情分析引擎處理后的結果庫生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內容,提供決策支持。
輿情分析系統的核心技術在于輿情分析引擎,涉及的最主要的技術包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤、自動摘要等計算機文本信息內容識別技術。這些技術一向是國內外信息工作者關注的領域。其中基于關鍵詞統計分析方法的技術相對比較成熟,但在其有效性方面還有很大的提高空間。
網絡輿情分析系統的其他功能
網絡輿情分析系統的輿情分析引擎部分是其核心功能,而自動信息采集、數據清理、代理服務也是必不可少的,與輿情分析引擎作為整體進行信息處理,實現輿情有效分析。
自動信息采集部分主要是通過網絡頁面之間的鏈接關系,從網絡中自動獲取頁面信息,并且隨著鏈接不斷向整個網絡擴展。目前,一些搜索引擎使用這項技術對全球范圍內的網頁進行檢索。輿情監控系統應能根據用戶信息需求,設定主題目標,使用人工參與和自動信息采集結合的方法完成信息收集任務。
數據清理功能部分主要完成對收集到的信息進行預處理,如格式轉換、數據清理、數據統計。對于新聞評論,需要濾除無關信息,保存新聞的標題、出處、發布時間、內容、點擊次數、評論人、評論內容、評論數量等。對于論壇BBS,需要記錄帖子的標題、發言人、發布時間、內容、回帖內容、回帖數量等,最后形成格式化信息。條件允許時,可直接針對服務器的數據庫進行操作。
代理服務部分主要是指使用者根據需要選擇服務功能要求,每個月只需要支出很少的費用,獲得一個使用期限的用戶名和密碼。就可以登錄使用系統平臺,使用過程類似網頁形式的電子郵件;或者完全將監控任務委托給系統,然后根據代理服務協議,為使用者提供全方位的輿情監控服務,所獲得的各類反饋信息,采用電話、電子郵件、手機短信等方式及時匯報給使用者,支持個性化的報表定制。
網絡輿情分析系統的相關技術
網絡輿情分析技術是系統的核心應用技術,該技術是一組管理、提煉、應用、共享所有的顯性知識和隱性知識及信息資源的方法,主要包含自然語言處理技術、信息檢索技術、數據挖掘技術等相關技術。
自然語言處理技術主要包括自動分詞技術和自動關鍵詞與自動摘要技術。自動分詞技術是中文信息處理與分析的基礎。以詞典和規則為基礎,綜合利用了基于概率分析的語言模型方法,使分詞的準確性達到一定的信度,并可根據不同的應用進行適合特定要求的分詞。自動關鍵詞與自動摘要技術:在篇章語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵詞與自動摘要。
信息檢索技術主要包括全文檢索技術和圖片內容檢索技術。全文檢索技術,即全文引擎將傳統的全文檢索技術與最新的Web搜索技術相結合,同時融合了多種相關技術,具有豐富的檢索手段以及同義詞等智能檢索方式。圖片內容檢索技術,即圖片檢索不僅提供基于圖片描述的檢索,還提供對圖片內容的檢索,以及結合描述與內容的綜合檢索。
結語
網絡輿情分析是有效掌控網絡、促進社會主義和諧社會建設的重要手段。網絡輿情分析系統涉及多媒體數據共享、互聯網搜索、統計分析、數據倉庫和數據挖掘以及人工智能等領域和技術,是一個復雜而新穎的應用領域。尤其是隨著語義網絡技術的更進一步的發展,必將使其輿情系統分析的結果更準確、更科學。
編校:張紅玲