文展 龐建 劉捷 張力



摘要:隨著自媒體快速發(fā)展,網(wǎng)絡(luò)輿論的負(fù)面影響日益凸顯。文章以網(wǎng)絡(luò)輿論敏感詞為切入點,以高校學(xué)生為目標(biāo)研究人群,針對其微博數(shù)據(jù),提出高校輿情監(jiān)控系統(tǒng)設(shè)計方案,通過自動爬取目標(biāo)人群的原創(chuàng)微博內(nèi)容,存儲到本地數(shù)據(jù)庫,并采用敏感詞匹配的方式對微博內(nèi)容進(jìn)行判斷。若出現(xiàn)敏感詞則觸發(fā)告警,通知高校網(wǎng)警等工作人員,從而實現(xiàn)高校網(wǎng)絡(luò)輿情監(jiān)控。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;微博;爬蟲;監(jiān)控
校園網(wǎng)絡(luò)輿論是當(dāng)前影響大學(xué)生思想和行為的新興力量,相比其他輿情監(jiān)控,校園輿情監(jiān)控有其特殊性,它的主體是參與意識強(qiáng)、好奇心理重的在校學(xué)生,導(dǎo)致網(wǎng)絡(luò)輿論的聚焦和傳播迅速。個別學(xué)生因為學(xué)業(yè)壓力和心理原因,對社會事件的看法趨于偏激,產(chǎn)生不當(dāng)行為。因此,學(xué)校有責(zé)任對傾向性、突發(fā)性、群發(fā)性的網(wǎng)絡(luò)輿論及時進(jìn)行疏導(dǎo),有效化解偏激輿論,引導(dǎo)正確輿論。微博相比微信更加開放,成為網(wǎng)絡(luò)輿論的主要集散地,也成為校園情緒宣泄的重要平臺。雖然微博對于敏感言論可以實行舉報,但長期以來發(fā)現(xiàn),由于微博用戶數(shù)量巨大,舉報審核需人工進(jìn)行,此項功能常常不管用。這就需要自動化網(wǎng)絡(luò)輿情監(jiān)控,對于敏感言論進(jìn)行管理,達(dá)到凈化網(wǎng)絡(luò)空間的目的。
1 系統(tǒng)設(shè)計思路
針對校園輿情監(jiān)控,首先獲取1 000名成都某大學(xué)學(xué)生志愿者的微博賬號,使用Python編寫微博爬蟲程序,并通過關(guān)鍵詞(ID,用戶名)模擬搜索,爬取相應(yīng)的用戶信息和微博內(nèi)容,存入MySQL數(shù)據(jù)庫,然后對數(shù)據(jù)進(jìn)行處理,將含敏感詞的微博內(nèi)容過濾出來,列出其對應(yīng)的微博賬號,觸發(fā)告警程序,以郵件形式通知高校網(wǎng)警等工作人員,從而實現(xiàn)對校園網(wǎng)絡(luò)的輿情監(jiān)控。11敏感詞庫創(chuàng)建
系統(tǒng)敏感詞庫是專門針對高校輿情本身的特征所建立的,大學(xué)生作為高校的主體,校園內(nèi)與學(xué)習(xí)生活息息相關(guān)的一切事務(wù)都是其關(guān)注的焦點。另一方面,大學(xué)生作為思想覺悟較高和愛國熱情強(qiáng)烈的社會群體,對社會各種焦點熱點問題和國內(nèi)外的重大事件也有極大的興趣和關(guān)注度,對信息的關(guān)注自然會引發(fā)情緒、意愿、態(tài)度和意見的產(chǎn)生,進(jìn)而會產(chǎn)生相關(guān)輿情的主題。通過查閱相關(guān)的文獻(xiàn)資料和對近年來各大高校產(chǎn)生的重大事件進(jìn)行梳理,并結(jié)合其相關(guān)的網(wǎng)絡(luò)輿情信息,來建立敏感詞庫。文獻(xiàn)把高校輿論產(chǎn)生的主題類歸結(jié)為時事政治類、高校內(nèi)部管理類、高校安全類、大學(xué)生權(quán)益類、高校聲譽(yù)類和大學(xué)生心理健康類。系統(tǒng)的敏感詞也是圍繞著這些主題類篩選的,具體明細(xì)如表l所示,并且系統(tǒng)提供對敏感詞的管理模塊,可以根據(jù)當(dāng)前形勢實時地更新敏感詞庫。
1.2網(wǎng)絡(luò)輿情監(jiān)控流程
網(wǎng)絡(luò)輿情監(jiān)控是指整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù),通過對互聯(lián)網(wǎng)海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)控和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結(jié)果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。
本文提出了一個簡單易行的網(wǎng)絡(luò)輿情監(jiān)控方案,首先獲取監(jiān)控對象的數(shù)據(jù),存入數(shù)據(jù)庫,然后通過敏感詞判斷,找出包含敏感詞的內(nèi)容和相應(yīng)帳號,進(jìn)行報警,其流程如圖1所示。
其中,獲取目標(biāo)網(wǎng)站數(shù)據(jù),指確定所要監(jiān)控的目標(biāo)網(wǎng)站,本文以微博作為監(jiān)控對象,使用爬蟲程序不間斷獲取前面所選取的1 000名大學(xué)生志愿者的微博內(nèi)容;數(shù)據(jù)存儲,指將爬蟲獲取的微博數(shù)據(jù)存入MySQL數(shù)據(jù)庫,供分析使用;敏感詞判斷,指根據(jù)前面所選擇的敏感詞,對獲取的微博數(shù)據(jù)進(jìn)行分析對比,一旦發(fā)現(xiàn)敏感詞,觸發(fā)告警程序,將相應(yīng)的微博賬號和敏感微博內(nèi)容通過郵件通知高校網(wǎng)警,網(wǎng)警將重點關(guān)注該報警名單上的微博賬號,實現(xiàn)對高校網(wǎng)絡(luò)輿情的監(jiān)控。
2測試結(jié)果
輿情監(jiān)控測試表明,基于該方案編程的程序能實現(xiàn)目標(biāo)帳號的微博內(nèi)容獲取,并存入數(shù)據(jù)庫,通過對網(wǎng)絡(luò)輿情敏感詞匯表的判斷,實現(xiàn)敏感內(nèi)容和帳號的報警,并形成輿情監(jiān)控報告,發(fā)送至高校網(wǎng)警郵箱,網(wǎng)警對其進(jìn)行密切關(guān)注。其中輿情監(jiān)控報告包含ID、用戶名、微博內(nèi)容等多個微博賬號數(shù)據(jù),如表2所示(為保護(hù)隱私,省略了部分ID和用戶名信息)。
因為篇幅原因,只取了測試結(jié)果的前3條。從微博內(nèi)容可以看出,均含有敏感詞匯。通過對微博帳號的關(guān)注,可以及時發(fā)現(xiàn)高校學(xué)生存在的問題,從而避免一些極端事件的發(fā)生。
3結(jié)語
據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)統(tǒng)計顯示,截至2016年12月,中國網(wǎng)民規(guī)模達(dá)7.31億,其中大學(xué)生群體占到很大的比例。這部分人群通過互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)、微博、即時通信,對各個熱點問題表達(dá)自己的思想和態(tài)度,形成高校網(wǎng)絡(luò)輿情信息。但由于校園網(wǎng)絡(luò)沒有時間、空間的限制,是一個比較自由開放的公共平臺,校園發(fā)生的一些熱點問題、突發(fā)事件都會以最快的速度在校園網(wǎng)傳播。而大學(xué)生由于自身年齡、知識、價值觀的限制,言論上會有一定的從眾、傾向性,若是形成負(fù)面的網(wǎng)絡(luò)輿論信息,會給高校的校園安全造成損害。
本文提出的高校網(wǎng)絡(luò)輿情監(jiān)控方案,可適用于微博、微信、博客、論壇等各種社交網(wǎng)絡(luò),通過輿情監(jiān)控報告,為掌握高校大學(xué)生的思想動態(tài)提供依據(jù),并進(jìn)行積極引導(dǎo)和干預(yù)。