劉小滿 王小輝



摘要:針對目前網民普遍關注的由互聯網技術快速發(fā)展而帶來海量網絡熱點話題和焦點很容易因誤導或傳播方式不當導致網絡群體事件或突發(fā)事件問題,以“互聯網+”與網絡輿情監(jiān)控分析深度融合發(fā)展為切入點,將互聯網、物聯網、大數據以及云計算等新一代信息技術應用到網絡輿情監(jiān)控與分析上,設計實現了基于“互聯網+”的網絡輿情監(jiān)控系統。該系統主要由輿情數據信息采集子系統、輿情數據信息預處理子系統、輿情監(jiān)控分析子系統和輿情應用子系統構成,通過各個子系統的協同工作共同完成對網絡海量輿情數據和信息進行實時數據采集、輿情識別、輿情預警及引導治理等,穩(wěn)定社會秩序,為構建和諧社會提供支持手段。
關鍵詞:互聯網+;輿情監(jiān)控與分析;輿情識別
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)31-0037-04
1背景
在這個“人人都是通訊社”的時代,許多社會輿論事件都是始于網絡,以BBS,論壇社區(qū),博客,微博為網絡輿情信息的主要來源,并產生巨大的社會影響。面對不斷發(fā)展的互聯網、網絡輿情傳播快、渠道多,網絡輿情數據的異構性與復雜性等特點,也導致了難以控制輿情信息的正確性和傳播范圍,面對熱點話題和焦點的大量關注很容易導致網絡群體事件或突發(fā)事件,要實現高效及時的網絡輿情監(jiān)控變得尤為困難。如何從海量網絡輿情中快速、準確發(fā)現有價值的信息,協助政府管理部門及時發(fā)現網絡盥.情、引導輿論方向、穩(wěn)定社會情緒,成為建設和諧社會亟待解決的課題。
隨著我國城市“互聯網+”等信息技術的快速發(fā)展,已經成為推動網絡輿情監(jiān)控與分析向智能化方向發(fā)展的重要動力。在目前網絡輿情的監(jiān)控與分析應對面臨諸多困境的背景下,“互聯網+”與網絡輿情監(jiān)控與分析的融合發(fā)展將會為這些難題的解決提供新的工具和思路。以“互聯網+”與網絡輿情監(jiān)控與分析深度融合發(fā)展為切入點,將互聯網、物聯網、大數據以及云計算等新一代信息技術應用到網絡輿情監(jiān)控與分析上,使輿情數據的海量存儲與高效并發(fā)處理成為可能嘲。因此提出基于“互聯網+”的網絡輿情監(jiān)控系統的設計與實現,具有重要的理論和實踐意義。
2網絡輿情監(jiān)控相關技術介紹
網絡輿情監(jiān)控系統相關的最關鍵的技術包括網絡信息的分類、分析、識別、跟蹤等計算機文本信息處理技術。這里主要對網絡爬蟲技術和網絡信息提取與識別技術進行介紹。
2.1網絡爬蟲
隨著“互聯網+”技術的發(fā)展,人們可以快速地通過網絡來獲取大量所需要的信息。但隨著互聯網信息量的不斷增加和擴大,每時每刻都有上千萬的網絡信息增長量,要從這么復雜的網絡信息量中找到自己想要的數據信息幾乎變得不現實,而網絡爬蟲技術的應用正是為了解決這一難題。
在本輿情監(jiān)控系統中,網絡爬蟲技術主要進行的是從網絡上大量的不斷更新的信息數據抓取下來,為輿情監(jiān)控提供最原始的網絡信息,進而用于下一步的分析研究,以壓縮的形式將數據存在磁盤上。圖1是常見網絡爬蟲的架構圖。目前所有從互聯網上快速自動的獲取數據信息都用到了網絡爬蟲技術。其中應用最多的便是各搜索引擎公司的網絡蜘蛛程序,此外,爬蟲技術還可以用來檢測網站鏈接是否有效等。
2.2輿情信息的提取與識別
輿情信息的提取與識別技術主要對前期搜集來的信息做有效信息的分析,如果提取的是網絡新聞數據,則主要從中找出新聞主題的正文信息(標題,內容,時間等),如果提取的是網絡論壇數據,則主要從中找出用戶的信息(用戶ID、權威值,回復用戶ID,回復數等),然后將找出的這些關鍵信息存人設定的信息數據庫中。
輿情信息的提取分析采用的是一種基于模板與自動機器識別相結合的信息提取方法。該方法先根據制定好的啟發(fā)式規(guī)則,然后去自動識別網絡文本中不同屬性輿論信息之間的分隔符,再把它們配置到相應模板中,然后根據模板去識別分析出同一類型的輿論網頁信息,最終以話題線索的方式存下來。話題線索是指對一個網絡輿論相關數據信息的描述,主要有網頁的點擊率,回復數,標題與評論等。與傳統的信息提取相比,本技術能夠快速對多種結構類型的網絡輿論網頁數據信息進行處理;同時在很大程度上能更好地提高輿論信息的準確率和效率;并且不用修改算法就可以根據用戶不同的需求,然后自動的動態(tài)提取網絡輿論相關數據信息,以便更好地滿足研究的需要。具體提取過程如圖2所示。
輿情信息的分析識別主要是對提取到的輿論數據信息數據庫中的數據信息做內容上和行為上的識別,并比較判斷是否為所需要的輿情信息,為后續(xù)的更有針對性的輿情數據信息分析提供相應的參考依據。
輿情信息內容上的識別:主要根據輿隋數據信息的文本屬性特征,首先進行信息的分類和聚類操作,從內容上去比較識別該數據信息是否屬于所需要的輿情數據信息。
輿情信息行為上的識別:根據輿情數據信息的社會傳播屬性,即網絡輿情數據信息的傳播會符合社會網絡中的很多屬性特征,因此可以使用社會網絡中的模型來建立輿情數據信息網絡,及時的分析顯示出輿情網絡信息的形成和進一步的發(fā)展趨勢,同時可以更好地反映相互出網絡用戶之間的數據信息相互交流等。對于那些經內容上識別后不屬于輿情數據信息將會進一步采用行為屬性特征進行識別,如果這些網絡輿論數據信息符合行為上的屬性特征,就可以把這些數據信息也歸為所需要的輿情數據信息。
3網絡輿情監(jiān)控系統的功能框架設計
網絡輿情信息的監(jiān)控功能主要有輿論數據信息的采集、數據信息的預處理和分析處理。系統功能應具備判斷輿隋數據信息正負面發(fā)展的傾向性和趨勢、傳播方式和途徑、能進行人工設置重點監(jiān)控特定的輿情信息事件的能力,具有所需輿論話題的自動識別跟蹤、分析和提取以及統計報告等。根據目前該行業(yè)內現行的解決技術手段和方法方案,對輿論監(jiān)控系統進行更好的更有針對性的整理和歸納,并設計出更好的方案,獲取“互聯網+”輿情監(jiān)控分析系統的功能框架設計的需求。
系統可以分為四個主要模塊:輿情數據信息的采集子系統、輿情數據信息預處理子系統、輿情監(jiān)控分析系統和輿情應用系統。如圖3所示。
1)輿情信息采集子系統:能夠自動抓取和存儲網絡上相關的輿情數據等信息。
2)輿情信息預處理子系統:主要對所抓取到的輿隋數據信息進行去重、關鍵詞篩選與分析等。
3)輿情監(jiān)控分析子系統:主要對輿情數據信息進行文本的表示、對存儲在數據庫里的數
據進行識別分析等,并將識別分析的結果傳遞到分析庫中。
4)輿情web應用系統:實現用戶交互功能。
4網絡輿情監(jiān)控系統功能模塊的詳細設計
輿情監(jiān)控系統的工作流即數據流主要經歷4個環(huán)節(jié)的處理:首先是根據輿情數據采集子功能模塊將采集到的輿情數據抓取到本地;接著對抓取回來的原始數據進行分析識別加工,即刪除多余的垃圾數據,并根據指定的相應數據格式對抓取到的輿情數據信息建立索引;然后根據輿情監(jiān)控系統設置的特定需求對輿情數據進行分析處理等,最后將得到的輿情數據實時地呈現在客戶端。如圖4所示:
4.1信息采集功能模塊設計
輿情數據主要來源于網站、微博、論壇等國內外著名網站,采用API與網頁抽取相結合的方法,進行關鍵詞采集、話題語義采集,通過關鍵詞管理、URL管理、過濾詞典及分類管理等系統管理配置,實現分類歸一管理。將數據存于HBase數據庫中,其采集過程如圖5所示。通過網絡爬蟲技術抓取網絡輿情數據信息,并根據Dom解析html和提取相應的數據信息;其中在n個slaver機器上分別運行n個獲取器和爬蟲器,在master機器上運行調度器。
4.2信息預處理功能模塊設計
在已抓取的網絡輿情數據信息中,除了有效的輿情數據信息外,還摻雜著大量的其他無效數據信息,如:菜單導航、網站版權、友情鏈接等。與結構化的數據信息相比,不同的是網絡輿情數據信息中大多數為非結構化的數據信息,并且數據形式復雜,所以,對這些輿情數據信息不能直接進行分析和加工處理,需要在數據加工處理前先進行信息的清洗除噪預處理,并對數據信息內容以及主要屬性特征等進行分析提取,這就是信息預處理子功能模塊的主要工作。如圖6所示,即為輿情信息預處理子功能模塊的工作流程。
4.3輿情分析功能子模塊設計
輿情分析功能子模塊是輿情監(jiān)控系統中最主要的一個功能模塊,主要采用網絡信息文本的分類和聚類等技術,對前期進行過預處理的網絡輿情數據進行深入分析和識別挖掘,并以此提供“話題發(fā)現”和“熱點跟蹤”。輿情分析功能子模塊的工作流程如圖7所示。
輿情監(jiān)控分析功能子模塊作為系統的主要功能模塊,主要有最新熱點信息話題的發(fā)現與分析、熱點信息話題的追蹤以及社會網絡分析等。下面只對主要功能進行描述。
4.3.1熱點信息話題的發(fā)現與分析
熱點話題發(fā)現與分析功能是指將輿情數據信息內容劃分到不同的話題,并在有需求時產生新的與之對應的話題;熱點信息話題的追蹤主要對網絡用戶所感興趣話題的后續(xù)發(fā)展進行追蹤分析。在此主要使用的是文本聚類分析方法。
4.3.2社會網絡分析
社會網絡是復雜網絡的一種,是復雜網絡研究領域中一種特殊的網絡,和復雜網絡之間的關系是被包容與包容的關系。以微博為例,輿情監(jiān)控系統所使用的社會網絡分析方法是對網絡博主發(fā)布的數據信息中粉絲數以及關注數的出入度和聚類系數進行計算,分別采用n個Map階段和一個Reduce階段,并在分析庫存儲計算的結果,供客戶端進行可視化調用。聚類系數的大小是社會網絡分析方法中的一個關鍵參考指標,它體現的是網絡的集團化程度,是一種網絡內聚的反映,它是指社會網絡中實際存在的邊數和可能有的邊數之比嘲。對于社會網絡分析來說,集團化是一個關鍵屬性特征,它代表網絡中的朋友或熟人的凝聚程度,而聚類系數就是反映這集團化屬性。
4.4輿情展示預警功能模塊設計
該功能模塊主要實現系統和管理者之間的各種實時交互操作,將經過系統分析后的結果最終反饋給管理者。該模塊所包含的功能有:敏感話題趨勢、熱點話題排序等。系統交信息互展示,能使管理者對輿情數據信息進行及時分析并掌握輿情信息趨勢變化。更重要的是,監(jiān)控系統還能進行輿情信息的自動警示觸發(fā)。該警示的目的在于及時進行輿情信息的反饋和采取防患于未然的措施,輿情預警主要包括輿情預警通知和輿情引導。
4.4.1輿情預警通知
通過網絡輿情預警機制的動態(tài)模型確定不同輿情信息的權重系數,然后依據權重系數大小確定等級高低。根據輿情數據信息等級的高低不同啟動相應的處理機制(見圖8),預警方式可設置為短信通知、郵件通知、啟動報警(播放報警聲音)及頁面窗口彈出提示,確保輿情信息的發(fā)生立即被發(fā)現,第一時間做出響應,預防輿隋的擴散傳播,有效實施主動性。
4.4.2輿情引導
根據網絡輿情數據信息的屬性和傳播方式判斷出輿情數據信息對社會生活產生不利影響時,利用輿情的引導策略和技術,在短期內快速生成應對不利影響的有效解決合力,使得網絡輿情信息的發(fā)展朝著期望的方向變化,并以此為目的讓廣大網絡民眾更快的獲知最真實的數據信息,進而尋的社會的穩(wěn)定發(fā)展。輿情引導流程如圖9所示。
5結束語
將“互聯網+”技術應用于輿隋監(jiān)控系統實現了云端硬件資源的共享,使得客戶不必購買大量硬件設備就可進行數據挖掘,節(jié)約了設備的采購及維護費用;同時利用云計算的集群處理能力,完成對云端數據的實時高效挖掘。從系統試運行應用效果來看,既節(jié)約了管理成本,又提高了工作效率,實現了網絡輿情監(jiān)控系統的實時性、高效性和全面性,可為維護信息時代社會的穩(wěn)定性提供技術保障。