龍飛 徐昊
摘要: 當前互聯網飛速發展,在社會的各個層面為全人類提供便利。虛擬社會與現實社會的聯系更加緊密,使得虛擬社會管理的復雜性日益突出。互聯網不良信息泛濫影響著人們的正常生活。如何對互聯網不良信息進行實時監控已成為一些部門和機構熱切關注的問題。本文對互聯網不良信息現狀及其產生的原因做詳細的分析,研究針對互聯網不良信息的監控技術方案,使其能夠高速有效地檢測出網站中的不良信息,對于檢出的不良信息,能夠根據要求,進行屏蔽、替換,并且向管理人員提供報警信息及統計信息。
關鍵詞: 互聯網不良信息過濾監控
一、前言
互聯網是人類智慧的結晶,20世紀的重大科技發明,當代先進生產力的重要標志。電子郵件、即時信息、視頻會議、網絡日志、網上購物等已經成為越來越多人的一種生活方式;而基于B2B、B2C等平臺的電子商務,跨越洲際的商務會議及電子政務等為商業與政府辦公創造了更加安全、更加快捷的環境。但是隨之而來的垃圾郵件、網絡蠕蟲病毒、惡意代碼、惡意軟件等也影響著人們的正常生活。各類違法不良信息泛濫,影響了社會穩定,毒害了青少年的健康成長,侵害了部分網民的合法權益。[2]
據中國互聯網違法和不良信息舉報中心數據顯示,2011年1月至10月,全國各類網絡不良信息舉報數量達到605692件次,同比增長76.7%。2011年上半年,遇到過病毒或木馬攻擊的網民為2.17億人,占網民的 44.7%;有過賬號或密碼被盜經歷的網民達到1.21億人,占24.9%,較2010年底增加3.1個百分點;有8%的網民在網上遇到通過消費欺詐,該群體規模達到3880萬人。僅2011年6月份,我國不良信息與垃圾信息舉報數量達77571件次 ,提取各類域名的釣魚類網站56件次,6月份舉報涉嫌淫穢色情及低俗信息網站4077件次,詐騙等違法類網站1993件次。
目前,互聯網治理立足于國家相關法律法規政策,依托九部門整治互聯網和手機媒體淫穢色情及低俗信息專項行動,堅決鏟除整治互聯網和手機媒體淫穢色情及低俗信息,全面凈化互聯網和手機媒體環境,努力建立良好的網絡文明風尚。因此切實加強互聯網的信息監控管理勢在必行。
二、互聯網不良信息的分析
早期互聯網上的不良信息以“知識型”信息為主。隨著互聯網的普及,不良信息從單純的“知識型”信息向“謀利型”轉變,而且手段多樣、形式復雜。在利益的驅使下大量違反法律、違反道德的不良信息泛濫于網絡。
(一)不良信息泛濫的主要原因[1]
1.不良信息的賺錢魔力。互聯網是“眼球”經濟,在殘酷的商業競爭中,不少網站經營者利用不良信息吸引網民的“眼球”,達到賺錢的目的。
2.互聯網信息的制造和訪問缺乏監管:網民既是信息的閱讀者又是制造者,但是面對不良信息,他們既成了受害人,又成了違法人。
3.非民主力量的“別有用心”。一些反人類、反民主的力量也同樣存在于互聯網上,他們通過不斷傳播不良信息達到不可告人的目的。
(二)不良信息的分類
根據產生的社會效應和不良后果,一般可以將不良信息分為三大類。
1.“違反法律”類信息。違背《中華人民共和國憲法》和《全國人大常委會關于維護互聯網安全的決定》、《互聯網信息服務管理辦法》所明文嚴禁的信息,以及其他法律法規明文禁止傳播的各類信息。
2.“違反道德”類信息。違背社會主義精神文明建設要求,違背中華民族優良文化傳統與習慣,以及其他違背社會公德的各類信息,包括文字、圖片、音視頻等。
3.破壞信息安全類信息。含有病毒、木馬、后門的高風險類信息,對訪問者電腦及數據構成安全威脅的信息。目前,病毒制造、傳播、牟利的流程完全互聯網化,從挖掘漏洞、制造病毒、傳播病毒到出售竊取來的賬號,都成了一個巨大無比的黑色產業,這對個人及企業的信息安全造成很大威脅。[1]
針對不同形式的不良信息,可以從網絡垃圾電子郵件治理、建立非法IP地址“黑名單”數據庫;淫穢色情類、詐騙類、攻擊黨和政府危害社會穩定類、違反社會公德等不良信息監控三個方面入手進行互聯網不良信息監控的研究。
三、互聯網不良信息監控技術研究的主要內容
(一)網絡處理協議及體系結構研究
目前相關的研究大多集中在網關或用戶端的信息過濾與自動屏蔽上,通常基于信息過濾技術。信息過濾系統中對信息源數據的獲取往往采用網絡監聽的方法。網絡底層信息監聽可以采取兩種方法:一是利用以太網的廣播特性實現,二是通過設置路由器的監聽端口實現。網絡監聽作為信息監測領域一個較成熟的手段,目前這方面的研究仍然占很大比重。但是,采用網絡底層的監聽技術,需要對已有網絡進行較大規模的改動,成本高,靈活性差,對監測點的選擇提出了較高的要求,很難有效地應對不良信息傳播者的“游擊”策略。同時,該方法對于在網絡用戶端進行信息過濾有較大優勢。
(二)面向不良信息的文本分類研究
文本分類是實現不良信息監測的關鍵技術,目前在這方面的研究較多,這是互聯網不良信息監控關注的一個重點。其力求在服務器端實現網絡信息實時過濾機制。
(三)不良信息特征提取研究
目前比較流行的互聯網不良信息監控技術中還有文本特征的表示與特征提取技術。由于不同領域信息的形式特殊性,可以基于不良信息所具有的特殊詞形,進行特征提取,該方法有效改善了傳統以詞為特征的聚類算法的性能。
(四)實現網頁信息獲取的爬蟲算法研究
網頁信息獲取是信息監測的前提步驟,除網絡底層分析的研究以外,通常都采用爬蟲來實現。目前很多研究機構正在研究適合于中小型網站網頁下載的爬蟲算法,使其信息監控具有良好的性能。
(五)字符串匹配監控的研究
字符串匹配是計算機科學中最古老、研究最廣泛的問題之一,在信息檢索領域和計算生物學領域,其應用尤為突出。不良信息監測在本質上是文本模式的匹配問題,通過互聯網不良信息監控技術可以提高文本模式的匹配速度,達到實時監控。
四、 互聯網不良信息監控技術關鍵點
(一)針對邪教等重復串不良信息的監測方法
此類信息頻繁出現且普通基于特征提取方法的過濾技術不易于實現對其監控,需要對此類信息作重點防范。對于此問題,需要深入研究不良信息的形式化表示,研究不良信息形式規則,借助相關理論探索不良信息監測的途徑。分析不良信息語法結構,從語義的角度探索機器識別不良信息的方法,在監控服務器端定制針對性模塊,制定有針對性的不良信息監控方案。
(二)多類別不良信息識別
通常的互聯網不良信息監控只是針對單一類別的不良信息進行監測。然而,在真實的互聯網上,許多種類的不良信息往往是混雜在一起的,并沒有哪個不良網站會貼上“色情”或“邪教”的標簽,表明不良信息的單一性。同時,多個特征庫共同應用會增強不良信息監測的效率。隨著網絡規模的擴大,不良信息的單類別搜索越來越難,實現分布式搜索是進行不良信息監控研究一個關鍵點。當面向全網的搜索需求日益迫切起來之后,為提高搜索效率,分布式集群搜索的研究勢在必行,應用于面向全網的不良信息監測是一個必然的趨勢。
五、結語
互聯網治理是一個全球性課題。維護互聯網的純潔和干凈是所有人共同的責任,也是人類長期奮斗的目標。適應新技術發展,不斷提高從用戶網到接入網、從IP承載網到核心業務網的監控技術,完善新網絡環境下的信息安全制度制定,強化信息安全和等級保護意識,“遏制信息源頭,監管信息傳播,控制信息訪問”,經濟、法律與技術手段并用,才能還網絡一片凈土。
參考文獻:
[1]中國互聯網不良信息研究報告(2008)http://www.netentsec.com/Report/20090218.html.
[2]冀強.基層公安BBS輿情及有害信息監控研究[J].才智,2009,22:148-149.
[3]葉昭暉,曾瓊,李強.基于搜索引擎的網絡輿情監控系統設計與實現[J].廣西大學學報(自然科學版),2011,36(10):303-309.
[4]陳祥潘,樂文斌.TIPTOP涉密文檔違規處理系統的解決案例[J].信息安全與通信保密,2011,1:132-135.
[5]石國巖,李冰.互聯網安全技術淺談[J].信息與電腦(理論版),2011,1:47-49.