【摘要】:如今,基于網(wǎng)頁中網(wǎng)頁內(nèi)容和郵件內(nèi)容的信息安全技術(shù)已經(jīng)越來越得到人們的重視。本文簡要地介紹了基于內(nèi)容的信息安全的客觀要求,基于內(nèi)容的監(jiān)測技術(shù),主要是信息分析的模式,還有安全技術(shù)的實現(xiàn)以及應(yīng)用。
【關(guān)鍵詞】:信息安全技術(shù);內(nèi)容分析;監(jiān)測控制;分析模式
一、基于內(nèi)容的信息安全的客觀要求
1.杜絕反對言論等內(nèi)容的信息的需要
反動的、危害國家安全的信息,一旦在網(wǎng)上傳播,就會成為敵對分子破壞社會安定,擾亂社會秩序的武器,因此要杜絕此類信息的存在和蔓延。
2.純化和保護健康的信息內(nèi)容的需要
有些不法之徒,利用網(wǎng)絡(luò)進行違法犯罪活動,如辦黃色網(wǎng)站、發(fā)布不健康的信息,誤導(dǎo)和毒害廣大網(wǎng)民,有必要純化網(wǎng)絡(luò)中的信息內(nèi)容。
3.避免網(wǎng)絡(luò)垃圾的需要
很多上網(wǎng)者都有自己的電子郵箱,他們通過郵件進行信息的傳遞,但不需要的郵件經(jīng)常塞滿了郵箱,占據(jù)大量的空間。這樣造成一方面充滿垃圾信息,一方面丟失了有用信息。若用戶的郵箱具有基于內(nèi)容的信息安全監(jiān)測,它就能自動識別有用信息和垃圾信息,避免上述情況的發(fā)生。
二、基于內(nèi)容的監(jiān)測技術(shù)研究
網(wǎng)絡(luò)信息內(nèi)容概括地講是由文字和圖像組成,如一個 web 網(wǎng)頁通常是以文字為主,附加圖片構(gòu)成;一個電子郵件通常是以文字為正文,附加文字或圖像的附件構(gòu)成;還有 FTP 文件,BBS 以及 Telnet 會話等。因此對網(wǎng)頁和郵件內(nèi)容進行檢測和控制的技術(shù)研究與應(yīng)用是是目前基于內(nèi)容信息安全技術(shù)的熱點。該項技術(shù)的關(guān)鍵是研究信息分析模式的應(yīng)用。目前,所見到的信息分析模式主要有以下幾類。
對于文字類的主要有兩種:
①關(guān)鍵詞搜索:關(guān)鍵詞或關(guān)鍵詞組合搜索。方法有兩種:一種是簡單的搜索(逐次詞匹配);另一種是采用模式匹配算法(規(guī)則表達式語法)來進行匹配。
②文本分類器:采用統(tǒng)計學(xué)習(xí)理論和傳統(tǒng)語法/語義規(guī)則相結(jié)合的研究方法,把互聯(lián)網(wǎng)上的信息內(nèi)容按內(nèi)容特征的不同類別,建立文本分類器,用以識別網(wǎng)絡(luò)信息內(nèi)容屬于哪種類型。目前,比較成熟的文本分類器的識別選準(zhǔn)率在 90%-97% 之間。
對于圖像類的主要有三種:
①圖像分類器:可以高水平地圖像分類。支持的類別有:照片、圖像、畫、黑白照、彩照和肖像畫。同其它模式復(fù)合運用可以得到更多的信息和類別。
②圖像相似性:可以發(fā)現(xiàn)看上去相同或類似的圖像。使用特征值匹配算法,可以在數(shù)據(jù)庫中搜索相似的圖片,通過調(diào)整參數(shù)可以控制相似的程度。
③多信息視覺特征識別:能夠識別出圖像中的文字,即識別出在任何背景下彩色的或透明的文字。能夠識別文字在字體、字號、顏色、位置、旋轉(zhuǎn)上的變化。
以上信息分析模式中的文字信息分析模式研究,已比較成熟并應(yīng)用在實際中。圖像信息分析模式目前在國外已開始應(yīng)用。
三、基于內(nèi)容的信息安全技術(shù)實現(xiàn)
網(wǎng)絡(luò)數(shù)據(jù)流實時偵聽采集、實時信息內(nèi)容監(jiān)視和記錄審計分析是主要實現(xiàn)的三個技術(shù)層面,三種技術(shù)的有機結(jié)合對其的實時性、易用性、可靠性以及記錄、檢索、分析和審計等管理功能的實現(xiàn)至關(guān)重要。技術(shù)實現(xiàn)的主要功能有以下幾點。
1.監(jiān)聽采集功能
在不改動被監(jiān)測網(wǎng)絡(luò)的結(jié)構(gòu)和不影響網(wǎng)絡(luò)性能的前提下,實現(xiàn)對網(wǎng)絡(luò)中的信息內(nèi)容的實時監(jiān)聽采集,對數(shù)據(jù)包實現(xiàn)硬件過濾。
協(xié)議解析功能
對監(jiān)聽采集的網(wǎng)絡(luò)信息進行應(yīng)用協(xié)議和文字編碼的解析還原。
信息內(nèi)容監(jiān)視功能
實現(xiàn)全文的實時信息內(nèi)容掃描,采用硬件高速模式匹配器對信息特征及內(nèi)容進行識別篩選和分析。支持快速、大容量的關(guān)鍵字、組合詞掃描和支持文本模式識別的分類器技術(shù)。
監(jiān)視事件報警功能
對監(jiān)視事件實時報警;信息監(jiān)測人員可以實時查看監(jiān)視事件發(fā)生的詳細信息(何時、何地、何人以及事件內(nèi)容等)。
5.監(jiān)視信息記錄功能
對監(jiān)視信息和報警信息記錄采用數(shù)據(jù)庫系統(tǒng)管理。
6.監(jiān)視事件審計分析功能
根據(jù)監(jiān)視事件報警將事件的完整信息按原類型還原顯示,分析原始信息的內(nèi)容 (包括 Web, Email,附件、壓縮文件等)。并提供靈活的監(jiān)視信息檢索方式、提供監(jiān)視事件的統(tǒng)計報告生成及提供日志的備份功能。
7.保護個人隱私功能
提供對特定對象的信息內(nèi)容的屏蔽監(jiān)視設(shè)定。
四、基于內(nèi)容的信息安全應(yīng)用
目前用戶對信息內(nèi)容安全的需求可以分為二大類:一類是 Internet 訪問監(jiān)測控制、網(wǎng)頁內(nèi)容監(jiān)測控制、FTP 文件、BBS 和帖子的監(jiān)測控制。根據(jù)預(yù)先定義的網(wǎng)站類別和通過預(yù)置關(guān)鍵字和詞組對網(wǎng)頁內(nèi)容的實時搜索,發(fā)現(xiàn)和阻斷反動、色情、暴力等不良內(nèi)容的信息,實時報警并記錄監(jiān)測的內(nèi)容;另一類是郵件監(jiān)測與控制,即對網(wǎng)上收發(fā)的郵件進行全文監(jiān)測,根據(jù)設(shè)定的關(guān)鍵字和詞組對郵件的正文與附件(包括壓縮文件)進行實時監(jiān)測,發(fā)現(xiàn)郵件中含有反動、色情、暴力等不良內(nèi)容的信息進行阻斷過濾處理,報警并記錄可疑郵件的全部資料,以便做進一步的分析和反查。基于內(nèi)容的信息安全技術(shù)應(yīng)用主要有以下四類產(chǎn)品:
1.網(wǎng)站(網(wǎng)頁)地址訪問監(jiān)控類產(chǎn)品
通過預(yù)先搜集的不良網(wǎng)站地址輸人到產(chǎn)品的 URL 地址庫(通常稱為黑名單),監(jiān)視用戶訪問請求數(shù)據(jù)包中 URL 地址,到 URL 地址庫中查找,如果有則阻斷該網(wǎng)站(網(wǎng)頁)的連接,并記錄用戶的訪問信息(訪問的網(wǎng)站(網(wǎng)頁)地址、時間和用戶地址)。這類產(chǎn)品技術(shù)實現(xiàn)的關(guān)鍵是對數(shù)據(jù)包的 URL 字段的處理。
2.網(wǎng)頁內(nèi)容監(jiān)控類產(chǎn)品
通過預(yù)先設(shè)定的關(guān)鍵詞對網(wǎng)頁內(nèi)容進行匹配,如果匹配成功,則發(fā)出阻斷網(wǎng)頁的連接,并記錄用戶的訪問信息(訪問的網(wǎng)頁地址、時間和用戶地址)。這類產(chǎn)品技術(shù)實現(xiàn)的關(guān)鍵是對單個數(shù)據(jù)包的內(nèi)容處理。
3.郵件過濾類產(chǎn)品
通過對郵件的收發(fā)關(guān)系(如收發(fā)地址、用戶名等)和正文進行與預(yù)先設(shè)定的收發(fā)關(guān)系和關(guān)鍵詞決定是否轉(zhuǎn)發(fā)或丟棄。這類產(chǎn)品技術(shù)實現(xiàn)的關(guān)鍵是建立一個郵件網(wǎng)關(guān)或者與內(nèi)部郵件服務(wù)器配合實現(xiàn),對于 POP3 郵件是非常有效,而對目前越來越多使用的 WebMail 會顯得束手無策。
4.基于內(nèi)容全文的監(jiān)控類產(chǎn)品
對網(wǎng)絡(luò)應(yīng)用層的所有信息內(nèi)容,包括網(wǎng)頁、郵件、文件、BBS 以及帖子進行全文的內(nèi)容檢測分析。這類產(chǎn)品技術(shù)實現(xiàn)的關(guān)鍵是要將多個數(shù)據(jù)包組成一個完整報文的內(nèi)容處理。。技術(shù)難點是要實時地、完整地接收網(wǎng)絡(luò)上的所有應(yīng)用信息,并還原成實際的全文信息進行監(jiān)測分析。