蔣春華 劉歡 劉憶寧
【摘 要】易班網是一款高校教育教學,生活服務, 文化娛樂的綜合性互動社區網,其參與主體是高校老師和學生。文章提供了一種監測校園輿情的方案,該方案將網絡爬蟲和敏感詞進行對比搜索來監控輿情方向。實驗數據表明,通過網絡爬蟲技術可以很好的用來監測校園輿情。
【關鍵詞】易班網;網絡爬蟲;敏感詞
The Research and Design about Sensitive Words Monitoring System on Easy Class Network
JIANG Chun-hua LIU Huan LIU Yi-ning
(School of Computer and Information Security, Guilin University of Electronic Technology,Guilin Guangxi 541004,China)
【Abstract】Yi Ban network is a comprehensive interactive community network with function of education and teaching in college,life services, culture and entertainment.A program is proposed to monitor the public opinion of the campus.Comparing the web crawlers and the search of sensitive words,it can monitor the direction of the public opinion.The experimental data shows that web crawlers can be used to monitor the public opinion of the campus.
【Key words】Yi Ban network;Web crawlers;Sensitive words
0 引言
隨著科學技術的發展,信息技術逐漸走進千家萬戶。信息技術的發展給人們日常生活帶來便利的同時,也給人們生活帶來挑戰。人們崇尚自由,在看不見的網絡中發表著自己的觀點,而不需要承擔言論帶來的責任。有些別有用心的人會引導網絡言論,從而達到自己的目的。因此需要對網絡言論進行監控,防止不明真相的參與者被別有用心的人引導。
在校大學生是網絡言論的主力軍,然而由于大學生普遍涉世未深,極易受到不實信息和敵對勢力的蠱惑煽動,在虛擬網絡世界里發表一些激進的觀點和言論,影響校園和社會的穩定團結。為此,監測大學生的網上言論,通過大學生網上言論了解其心理思想和訴求是極其重要的。微博、貼吧、人人網等社交平臺,無需實名注冊,人員混雜,因此對這些平臺上在校大學生進行網絡輿情[1]監控十分困難。易班網是一款專門針對在校大學生開發的互動社區,需要實名注冊。因此可以利用易班網對大學生進行網絡言論監控[2],從而了解大學生心理思想和訴求。利用易班網可以很好的了解當代大學生對于各種網絡事件的觀點[3]、輿論導向以及大學生的心理狀態,有利于學校及時處理相關輿情事件、引導輿情的發展[4]。
1 易班網絡輿情監測方案
圖1 系統流程圖
利用敏感詞監測系統對于易班網絡輿情監測進行調研,在系統開發過程中綜合各方面因素,使用了Python2.7版本作為開發語言,MySQL5.1版本作為數據庫存儲系統,界面設計使用Django框架進行web展示。該系統主要包括了信息獲取、信息處理、輿情分析和輿情預警等四個模塊。程序運行流程如圖1。
1.1 信息獲取
對于易班網絡言論進行分析,發現用戶言論主要集中在對文章的評論[5],因此這一部分是信息獲取的主要途徑。由于每個學校都是有相對應的ID,因此我們只需要對本校對應的
ID域進行監控和爬蟲爬取,從而獲取到學校在易班網上所有的文章URL。對這些URL進行存儲和網頁爬取,獲取文章信息以及文章下面的用戶評論信息。易班網絡的環境導致團隊成員需要綜合考慮各個方面,對爬蟲進行了延時處理,即每隔一定的時間(該時間可以由系統后臺管理員設定)對易班網進行爬蟲爬取信息。由于爬蟲在輪回爬取過程中,會遇到很多重復URL地址,為此,本系統在對爬蟲爬取過程中做了去重處理,而且在入庫處理時對文章和評論發表時間做了判斷,以確保存儲的數據是最新的且避免了重復數據入庫。
1.2 信息處理
信息處理模塊主要是對獲取到的用戶評論信息進行入庫處理。經過分析可知:易班網采用JSON格式的方式處理用戶的評論數據。針對這種處理方式,對JSON數據進行了分析,將數據進行了分隔,對文章URL、文章下所有的評論人員的ID,評論內容、評論時間等字段內容進行了入庫處理。
1.3 輿情分析
輿情分析是輿情監控系統的關鍵模塊。為了便于應對各種突發情況和管理員針對不同信息進行分析檢索,系統管理員可以在后臺自主設定輿情敏感詞。系統利用這些敏感詞和數據庫中信息進行匹配,找出存在敏感詞的評論,以及發表該評論的人員和文章的URL地址。匹配過程如下:建立敏感詞數據庫,將敏感詞與獲取的評論信息進行匹配查找,確定是否存在包含敏感詞的言論。將包含敏感詞的評論文章ID和評論信息存儲下來,并且通過E-mail實時通知負責人員進行處理。
1.4 輿情預警
互聯網信息的傳播速度很快,輿情的爆發時間也具有不可預料性,而管理人員不可能實時在線,因此,及時預警輿情是網絡輿情監控系統不可或缺的功能。該系統的輿情預警主要通過發送E-mail到監控人員移動終端進行實現。當匹配到相關敏感詞在文章評論中出現時,系統會自動向后臺設定的郵箱地址發送預警郵件。預警郵件包含敏感詞所在文章的網頁地址,便于管理人員可以及時了解到輿情的動態,及時妥當處理相關問題[6]。
2 結論
本系統利用網絡信息技術來實現對易班網絡的實時輿情監測,以解決傳統人工監測時“人手不足、容易疏忽、效率底下”等問題,可以更加及時的發現問題,凈化校園網絡環境,引導輿論導向,并且可以及時定位言論發布者,以便于做出相應處置。
【參考文獻】
[1]王娟.網絡輿情監控分析系統構建[J].長春理工大學學報(高教版),2007,4: 201-203.
[2]張玨.網絡輿情預測模型與平臺的研究[D].北京:北京交通大學,2009.
[3]J.Zeng,S.Zhang,C.Wu,et al..Predictive Model for Internet Public Opinion.Fuzzy Systems and Knowledge Discovery,2007.FSKD 2007.Fourth International Conference on.IEEE,2007,3:7-11.
[4]滕云,陳玲.網絡輿情特點的實證研究——基于高校BBS論壇的文本分析[J]. 山東社會科學,2014,3:181-186.
[5]D.Shen,Z.Chen,Q.Yang,et al..Web-page classification through summarization[C]. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2004:242-249.
[6]殷晉,雷航.網絡輿情發現與分析系統設計與實現[D].成都:電子科技大學, 2014.
[責任編輯:田吉捷]