沈冰 周亮 李娟 馮平 劉瑾
(成都市成華區(qū)網(wǎng)絡(luò)信息中心 四川省成都市 610051)
隨著5G網(wǎng)絡(luò)和大數(shù)據(jù)信息化的飛速發(fā)展,互聯(lián)網(wǎng)中的信息數(shù)量以指數(shù)級速度增長?;ヂ?lián)網(wǎng)中一方面蘊含著大量權(quán)威、真實、科學(xué)有益的信息,拓寬了我們的知識結(jié)構(gòu)和交往渠道,但另一方面,社交平臺中同時也充斥著大量宣染暴力、淫穢、賭博、邪教等不良信息,造成了網(wǎng)絡(luò)信息安全危機。面對網(wǎng)絡(luò)輿情風險日驅(qū)高度復(fù)雜化、常態(tài)化,如何從海量的互聯(lián)網(wǎng)信息中,快速高效地篩選出某個主題不良信息成為輿情工作人員的重大挑戰(zhàn)和亟待解決的現(xiàn)實難題。
網(wǎng)絡(luò)信息作為網(wǎng)絡(luò)社會的體溫計與晴雨表,是維護社會穩(wěn)定的重要依據(jù)之一,也是防范與化解意識形態(tài)安全重要支撐。當前,我國各級政府部門對網(wǎng)絡(luò)不良信息的治理逐漸從早期的“隨意性”“人治性”“經(jīng)驗性”過渡到“制度性”“規(guī)范性”“科學(xué)性”。但是面對網(wǎng)絡(luò)海量信息,人工搜索采集數(shù)據(jù)耗費時間,爬蟲技術(shù)可以利用計算機自動地采集大規(guī)模數(shù)據(jù)。為此,在海量互聯(lián)網(wǎng)數(shù)據(jù)和專用信息采集間需要構(gòu)建一個特殊的信息篩選機制,提高專用信息獲取效率。網(wǎng)絡(luò)爬蟲(Cralwer)正可以在數(shù)據(jù)采集和分析上發(fā)揮有效作用。與通用網(wǎng)絡(luò)爬蟲不同,主題網(wǎng)絡(luò)爬蟲可以根據(jù)特定算法按照預(yù)先設(shè)定的主題抓取與主題相關(guān)頁面,它不是抓取整個互聯(lián)網(wǎng)的網(wǎng)頁,而是專門用于對某個主題的網(wǎng)頁進行數(shù)據(jù)采集。為提高專用信息采集的精確性,本文設(shè)計一種基于定制主題網(wǎng)絡(luò)爬蟲技術(shù)的不良信息檢測系統(tǒng),旨在為相關(guān)人員提供有效的借鑒和參考。……