王宏宇 陳冬梅

摘要:黨的十九大報告提出“加強互聯網內容建設,建立網絡綜合治理體系,營造清朗的網絡空間。”,這是對新時期網絡信息內容安全及管理的新要求。該文通過對網絡信息內容安全技術的分析和對網絡信息傳播的基本特征的提取,提出了一個針對網絡信息傳播的控制模型,以便及時發現并阻止網絡上的各種非法和不良信息傳播,保障網絡信息內容安全。
關鍵詞:信息內容安全;信息過濾;網絡輿情監測
當前網絡已經成為傳播力強大、影響十分廣泛的大眾傳媒,各種信息通過文字、圖片、音頻、視頻等在網絡上傳播,極大地滿足了公眾的信息需求。但是網絡信息傳播中也出現了一些錯綜復雜的現象,虛假信息、垃圾信息、淫穢色情等非法有害信息不時出現,這給國家和社會帶來了不可低估的破壞作用和負面影響。如何應對網絡信息傳播中出現的各種問題,保障網絡信息內容安全,成為政府和業界急需研究的內容。2012年12月底全國人大常委會通過的《關于加強網絡信息保護的決定》中第五條,規定了對用戶發布和傳播的非法和不良信息進行監管。黨的十九大報告提出“加強互聯網內容建設,建立網絡綜合治理體系,營造清朗的網絡空間。”又把網絡內容安全放在重要位置,以此為出發點,本文探討如何及時發現并阻止網絡上的各種不良和非法信息傳播,保障網絡信息內容安全。
1網絡信息內容安全面臨的威脅
隨著互聯網的快速發展,人們現在無論是在生活還是工作中,都離不開它。特別是在Web 2.0時代,用戶原創內容UGC大量出現,隨之一些垃圾信息、廣告、色情圖片等內容也悄然破壞著互聯網的純凈度。
網絡信息內容安全,是研究如何在迅速變化且包含海量信息的互聯網中,通過計算機對與特定主題相關的數據和信息進行自動采集、分析鑒別和響應控制的技術。它較傳統網絡安全級別更高,是對網絡信息傳播進行管控的重要手段,對加強互聯網內容建設、營造清朗的網絡空間、保障社會的和諧穩定具有重要意義。在互聯網傳播的信息內容中,面臨的不良和非法信息威脅主要有如下三類。垃圾信息,主要是指隱藏在文本、評論、彈幕、郵件等中的各種無用、不需要信息,包括垃圾文本,垃圾廣告、垃圾郵件等;色情信息,主要是指有性誘惑、性暗示的和涉黃露點的文字、圖片和視頻等信息;涉政信息,指危害國家安全,影響社會穩定,反黨反政府的謠言、虛假信息和暴力恐怖信息等。
2網絡信息內容安全技術
網絡信息內容安全面臨的問題主要表現在不良信息泡括虛假信息、垃圾信息、不道德信息)和非法信息通過各種開放的網絡所提供的自由流動的環境肆意擴散。這些不良和非法信息不僅對公共利益和國家安全構成威脅,而且其肆意傳播會威脅到公民個人的財產和生命安全。網絡信息內容安全保障的重點是加強信息在傳播過程中的控制和管理,現在采用的主要方法有網絡輿情監測和信息過濾。
2.1信息過濾
信息過濾一般是指滿足用戶信息需求的信息選擇過程。對網絡信息內容安全來說,信息過濾是指從海量動態的網絡信息中,將剔除不良信息和非法信息后的內容展現給用戶的過程,有效過濾網絡上發布和傳播的各種海量動態信息內容是其實現的重點和難點。
網絡信息內容安全過濾同一般的信息過濾相比,有如下特點:一是要過濾的內容實時、動態、多樣且具有一定的隱蔽性;二是過濾的對象主要是文本、圖片和音視頻三種內容,比較明確;三是過濾的目標清晰主要實現廣告過濾、智能鑒黃、涉政檢測和暴恐識別這四個目標;四是過濾的內容所處場景多樣,有評論、簽名、頭像、聊天室、彈幕、直播、視頻等多種應用場景。
當前實現互聯網信息過濾的方法主要有以下三種。一是IP地址或網址過濾,是指建立含有非法或不良信息的網站所對應的IP地址或網址數據庫,當這些IP地址或網址被用戶訪問時予以阻斷。二是通過匹配關鍵詞和特征庫來實現過濾,是指在包含URl、檢索詞、文本、文檔等信息內容的網頁或網站中,識別匹配指定的關鍵詞和特征,以檢測傳輸的信息中是否含有不良或非法信息。三是基于互聯網信息內容的過濾,即對實時傳輸的海量互聯網信息,通過采用基于自然語言、深度學習等技術的智能識別技術來實現過濾。
前兩種方法在實際應用中容易實現,應用范圍較廣,過濾的速度也較快。但是對IP地址或網址過濾來說,如果非法或不良信息的網站所對應的IP地址或網址更新速度較慢的話,過濾效果將大打折扣,而且存在著用戶通過鏡像、代理、“翻墻”等手段實現對被封鎖網站內容的訪問。匹配關鍵詞和特征庫的過濾主要缺陷是準確率較低,誤報和漏報率較高,以致被濾掉的信息范圍擴大。基于互聯網信息內容的過濾雖然過濾的效率較低、速度較慢、實現難度較大,但是其過濾準確度高,適用范圍廣,可以有效地避免前兩種方法的缺陷,已經成為過濾研究的重點,也是未來過濾方法發展的方向和趨勢。
2.2網絡輿情監測
網絡輿情監測就是指通過信息采集、搜索引擎、數據挖掘等技術,對動態、交互、海量的互聯網信息進行采集、敏感詞過濾、主題檢測、專題聚焦、統計分析等處理,從而發現網絡敏感事件并及時預警。
網絡輿情監測技術既與信息的組織和分析相關,又與自然語言處理技術密不可分。目前實現網絡輿情監測的技術主要有通過網絡數據挖掘的主題監測和基于統計規則的模式識別兩種。基于統計規則的模式識別技術在輿情監測應用中,因為不同的信息源產生信息的規律差異較大,使其只能在較小的范圍內進行定點監測,故有較大的局限性。現在應用較多的網絡輿情監測技術主要是通過網絡數據挖掘的主題監測來實現。這種方法通過網絡爬蟲和網頁清洗等技術從WEB中提取與目標相關的輿情信息,并利用自然語言處理、數據挖掘等技術對其進行輿情分類、主題檢測、網絡輿情意見挖掘和觀點分析以及網絡輿情危機預警。
3關鍵技術研究
無論是基于內容的過濾,還是網絡輿情監測其涉及的關鍵技術主要有信息采集、信息內容的分析鑒別和響應控制技術三類,如圖1所示。
3.1信息采集
信息內容的采集是網絡信息傳播管控的首要任務。但是一些非法、不良信息的傳播者為了逃避管控,經常會使用隱藏、加密、信息變換等技術傳播信息,以至對其難以有效地管控。
通信對象、通信方式和通信內容是構成信息傳播的三個基本要素,針對以上情況下可對信息采集對象進行擴展,在采集信息時對通信對象即“誰和誰在通信”,“以那種方式通信”這些信息也進行采集。如使用通信對象這個要素進行信息傳播管控,需要采集非法、不良信息內容傳播者的身份,如IP地址等信息。但在實際信息傳播過程中,非法、不良信息傳播者可能會盜用IP地址或采用IP地址欺騙等技術隱藏身份信息,這時可以通過非法、不良信息傳播者與訪問者之間的通信行為加以管控,也就是通過“以那種方式通信”這個要素來控制。
為了提高信息采集效率,及時獲取實時的網絡信息內容,同時降低后期處理技術部署成本,可以采用網絡端口鏡像技術和網絡爬蟲技術相結合的方式進行信息內容的獲取。
3.2信息內容的分析鑒別
信息內容的分析鑒別是指在內容理解的基礎上,通過對網絡上傳輸的海量、動態信息進行提取、分析后,及時地將非法和不良信息通過響應控制技術處理,從而達到對信息傳播進行管控的目的。由于它涉及數據庫、數理統計分析、知識論、模識識別、自然語言處理、計算機視覺、圖像處理及理解、人工智能等多個學科和領域,因此技術復雜,實現難度較大。
信息內容的分析鑒別主要是通過格式、內容、段落、主題、圖片、音,視頻等信息所呈現出的特征來進行分析、判斷的一種鑒別方法,根據鑒別的信息對象不同可分為文本內容分析鑒別、圖像內容分析鑒別、音頻內容分析鑒別、視頻內容分析鑒別和混合信息內容鑒別。要實現信息內容的分析鑒別,主要通過以下兩個方面的工作來完成。一是信息內容的預處理工作,即通過從信息源中提取能判別或反映信息性質的隱性和顯性特征,實現對傳播信息內容數據的預處理,使被監測的信息內容通過特征項被有效地標識出來。二是信息內容的匹配,即根據一定的匹配方法和規則將被監測的信息內容與不良和非法信息模板匹配,通過匹配的結果對被監測信息內容進行相應處理,并將處理的結果返回給用戶。常用的匹配方法有統計模式識別、關鍵詞匹配、正則表達式匹配及數據的挖掘分析等。
3.3響應控制
響應包括被動響應和主動響應。被動響應是指對鑒別的結果和訪問請求路徑等進行記錄,并由監控者決定是否采取措施進行下一步處理。主動響應是指采用過濾、裁剪、替換、阻斷等方式對互聯網信息進行管控,通過對鑒別后的信息源或信道采取具體的相應措施而體現出主動響應的處理結果。
傳統的互聯網應用大部分是基于B/S架構的,信息主要來源于網站,所以如發現網站中有非法、不良信息,一般來說常將網站的域名、IP地址等信息添加到黑名單中并加以訪問阻斷。如MAC地址過濾、DNS過濾、防火墻ACL和路由黑洞等傳統網絡阻斷與控制技術都是基于這一思想。隨著WEB 2.0應用的普及和移動互聯網的快速發展,用戶之間的信息傳遞更加密切頻繁,用戶成為主要的信息來源。若使用傳統技術方法可能會導致用戶不能接入到移動互聯網中,因此針對移動互聯網應用以HTTP應用為主,大多數應用是基于TCP協議這一應用類型高度集中的特點,根據IP偽裝原理,可以采用面向應用錯誤代碼和TCP鏈接的實時阻斷控制技術。
響應控制部分與信息采集部分在實際部署中的處理能力必須匹配,響應控制的效果由信息采集部分的速度和精度所決定。為了對網絡的運行不產生影響,信息采集部分可以采用旁路方式部署。響應控制部分與網絡串聯部署時會對網絡流量產生影響,因此,當網絡流量有較大增長時,響應控制部分與信息采集部分須同步升級。
4結語
互聯網信息流的復雜性決定了沒有任何一種技術可以完美解決互聯網信息傳播管控中的所有問題,所以在實際部署應用中我們必須綜合各種技術,優勢互補,為基于互聯網的網絡社會打造一個全方位、立體化的綜合管控技術體系,從而“加強網絡社會管理,推進網絡依法規范有序運行。”保障其信息傳播安全。