摘 要:為了解決互聯(lián)網(wǎng)上內(nèi)容安全問題,提出一種互聯(lián)網(wǎng)內(nèi)容安全檢測系統(tǒng)。該系統(tǒng)包括四層,即網(wǎng)絡(luò)層、信息識別層、信息流過濾層和內(nèi)容檢測層。網(wǎng)絡(luò)層中是互聯(lián)網(wǎng)上通過的文本信息、音頻信息以及圖像與視頻信息等。這一層網(wǎng)絡(luò)中的信息可以通過網(wǎng)絡(luò)抓包器來捕獲網(wǎng)絡(luò)數(shù)據(jù)包,并送給第二層信息識別層進(jìn)行分類。信息識別層中主要是對從網(wǎng)絡(luò)上來的信息進(jìn)行識別,分清楚它們是文本信息、音頻信息還是圖像及視頻信息。信息流過濾層主要任務(wù)是對信息識別層傳來的信息進(jìn)行多特征融合判定。對有用的信息進(jìn)行過濾,對信息的格式進(jìn)行標(biāo)準(zhǔn)化等。內(nèi)容檢測層是整個(gè)系統(tǒng)的核心部分。它的主要功能是通過模式匹配,檢測過濾層傳輸上來的信息中是否含有特定的內(nèi)容。通過這四層的工作,可以檢測過濾互聯(lián)網(wǎng)上的內(nèi)容信息。
關(guān)鍵詞:內(nèi)容安全; 檢測過濾; 模式匹配; 串匹配技術(shù)
中圖分類號:TP393.08 文獻(xiàn)標(biāo)志碼:A
文章編號:10013695(2008)09283402
Internet content information detection and filtration system
GU Yang1, LI Jian1, JING Bo1,2, WANG Licheng1
(1. Information Security Center, Beijing University of Posts Telecommunications, Beijing 100876, China; 2. Beijing Institute of AppliedMeteorology, Beijing 100029, China)
Abstract:In order to solve the problem of Internet content security, an Internet content information detection and filtration system was present. The system included four layers: network layer,information identification layer, information stream filtration layer and content detection layer. In the network layer, there were text information, audio information, image information and video information etc. The information in this layer could be captured by network sniffer, and then sent to the second layer. The second layer was information recognition layer, the function of this layer was to classify the information to text information,audio information, image information and video information etc. The third layer was information stream filter layer, the function of this layer was to fuse the information transferred form the nether layer by multicharacters, and filter the useful information, standardize the information format. The last layer was the core of the whole system. Its main function of this layer was to filter the information to find the special content information by pattern match algorithm.
Key words:content security; detection and filtration; pattern match; string match technology
Internet是全球信息共享的基礎(chǔ)設(shè)施,是一種開放和面向所有用戶的技術(shù)。它一方面要保證信息方便、快捷的共享;另一方面要防止垃圾信息的傳播。網(wǎng)絡(luò)內(nèi)容分析是一種管理信息傳播的重要手段。它是網(wǎng)絡(luò)信息安全核心理論與關(guān)鍵技術(shù)研究網(wǎng)絡(luò)內(nèi)容分析所涉及的新理論、新體系結(jié)構(gòu)、新方法和新技術(shù),是未來幾年內(nèi)容安全研究的重要挑戰(zhàn)。
根據(jù)CNNIC在2007年1月的第19次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r報(bào)告統(tǒng)計(jì),中國網(wǎng)民總?cè)藬?shù)為13 700萬人。這其中僅有8.4%的網(wǎng)民對網(wǎng)絡(luò)內(nèi)容的健康性非常滿意。也就是說有91.6%的中國網(wǎng)民(12 550萬人)都或多或少地對網(wǎng)絡(luò)內(nèi)容的健康性不滿意[1]。
網(wǎng)絡(luò)內(nèi)容傳播以一種實(shí)時(shí)、連續(xù)的數(shù)據(jù)流(data streams)方式進(jìn)行[2]。它不宜用持久穩(wěn)定的方式建模,而適宜用實(shí)時(shí)動態(tài)的方式建模。這類系統(tǒng)被稱為數(shù)據(jù)流管理系統(tǒng)。數(shù)據(jù)流管理技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域,如網(wǎng)絡(luò)內(nèi)容安全、金融服務(wù)、電信數(shù)據(jù)管理等。在這些應(yīng)用中,數(shù)據(jù)通常以大量、快速、持續(xù)的數(shù)據(jù)流形式到達(dá)。如何對這些數(shù)據(jù)進(jìn)行有效處理將是一個(gè)具有挑戰(zhàn)性的問題。本文以互聯(lián)網(wǎng)內(nèi)容安全為背景,提出一種互聯(lián)網(wǎng)內(nèi)容安全檢測過濾系統(tǒng)。
1 相關(guān)研究方法
STREAM項(xiàng)目由美國NSF(國家自然科學(xué)基金)提供支持。其主要目標(biāo)是研究一個(gè)通用的數(shù)據(jù)流管理系統(tǒng),包括提供一個(gè)通用和靈活的體系結(jié)構(gòu)、相關(guān)的理論結(jié)果和算法、數(shù)據(jù)模型、相關(guān)的語言和語義;探討多個(gè)連續(xù)、快速、可變的數(shù)據(jù)流的連續(xù)查詢處理、優(yōu)化和資源分配問題;希望最后提供一個(gè)通用的數(shù)據(jù)流管理系統(tǒng),使用戶可以用類似于SQL的語言來指定查詢。目前其在DSMS的體系結(jié)構(gòu)、數(shù)據(jù)模型和語義、語言、資源分配和查詢優(yōu)化等方面取得了部分成果,但是系統(tǒng)還沒有真正完成。
NIAGARA項(xiàng)目也是由美國國家自然科學(xué)基金支持的,主要研究目標(biāo)是在Internet環(huán)境下的XML數(shù)據(jù)檢索和過濾系統(tǒng)。該系統(tǒng)從Internet上采集和監(jiān)管信息,然后包裝為XML數(shù)據(jù)流供檢索和過濾使用。這樣利用XML的語義信息可以提供更加準(zhǔn)確的數(shù)據(jù)流檢索和過濾。目前其研究目標(biāo)主要集中在可擴(kuò)展性和性能優(yōu)化方面,主要技術(shù)是查詢分組和增量維護(hù)。但是在這個(gè)項(xiàng)目中,研究的數(shù)據(jù)僅僅限于XML數(shù)據(jù),而沒有考慮互聯(lián)網(wǎng)上眾多的其他信息,如HTML、OWL、語音圖像內(nèi)容等的過濾。
Berkeley的Telegraph項(xiàng)目的研究目標(biāo)是對網(wǎng)絡(luò)監(jiān)聽器的輸出數(shù)據(jù)流和Web數(shù)據(jù)流等提供自適應(yīng)的查詢。目前其特色是數(shù)據(jù)流的自適應(yīng)查詢處理,包括自適應(yīng)連接和自適應(yīng)操作調(diào)整。另外MIT和Brown大學(xué)的項(xiàng)目Aurora,目標(biāo)也是對各種各樣的嵌入式設(shè)備產(chǎn)生的數(shù)據(jù)流進(jìn)行監(jiān)管和查詢。其研究的內(nèi)容都沒有應(yīng)用在互聯(lián)網(wǎng)上,并且也沒有對于音/視頻等信息進(jìn)行檢測。
2 本文提出的系統(tǒng)
2.1 系統(tǒng)概述
本文提出的一種內(nèi)容安全監(jiān)測過濾系統(tǒng),如圖1所示。整個(gè)系統(tǒng)中過濾的信息全部來自互聯(lián)網(wǎng)應(yīng)用層的海量信息。該系統(tǒng)可以分為以下四層:
a)網(wǎng)絡(luò)層。此層是互聯(lián)網(wǎng)上通過的文本、音頻以及圖像與視頻信息等。這一層網(wǎng)絡(luò)中的信息可以通過網(wǎng)絡(luò)抓包器來捕獲網(wǎng)絡(luò)數(shù)據(jù)包,并送給第二層信息識別層進(jìn)行分類。
b)信息識別層。在這一層主要是對從網(wǎng)絡(luò)上來的信息進(jìn)行識別,分清楚它們是文本、音頻還是圖像與視頻信息。
c)信息流過濾層。這一層主要任務(wù)是對信息識別層傳來的信息進(jìn)行多特征融合判定;對有用的信息進(jìn)行過濾,對信息的格式進(jìn)行標(biāo)準(zhǔn)化等。
d)內(nèi)容檢測層。這一層是整個(gè)系統(tǒng)的核心部分。其主要功能是通過模式匹配[3],檢測過濾層傳輸上來的信息中是否含有特定的內(nèi)容。
2.2 文本識別檢測
文本識別技術(shù)主要表現(xiàn)在文本實(shí)時(shí)過濾與文本深度處理技術(shù)兩方面。圖2為文本識別與處理子系統(tǒng)。
2.2.1 文本實(shí)時(shí)過濾技術(shù)
文本實(shí)時(shí)過濾最主要的技術(shù)就是字符串匹配[4],涉及以下主要內(nèi)容:
a)復(fù)雜規(guī)則的匹配技術(shù)。由于過濾系統(tǒng)的功能不斷增強(qiáng),基于關(guān)鍵詞匹配的簡單規(guī)則已經(jīng)不能滿足需求,系統(tǒng)需要更復(fù)雜的規(guī)則支持更準(zhǔn)確的判定和更快速的過濾[5]。復(fù)雜規(guī)則匹配有近似、邏輯表達(dá)式和正則表達(dá)式等,它們的支持力度不盡相同。在系統(tǒng)中,可以根據(jù)不同的應(yīng)用場景采用不同的表達(dá)式匹配方法[6]。
(a)近似匹配中大部分都是基于動態(tài)規(guī)劃的。本系統(tǒng)中采用最經(jīng)典的Sellers算法。Sellers算法是Sellers于1980年設(shè)計(jì)的近似匹配算法。動態(tài)規(guī)劃算法的時(shí)間復(fù)雜度為O(mn),但稍經(jīng)修改便能適用于很多復(fù)雜的距離模型。
(b)邏輯表達(dá)式匹配是介于精確串匹配和正則表達(dá)式匹配之間的一種復(fù)雜規(guī)則匹配,它是在多個(gè)特征串之間增加“與”“或”“非”的邏輯關(guān)系以達(dá)到更強(qiáng)功能的過濾。使用帶條件的邏輯表達(dá)式匹配還可以解決定序、窗口中的復(fù)雜匹配等問題。
(c)正則表達(dá)式匹配的功能最強(qiáng),相應(yīng)的復(fù)雜度也最高。在本系統(tǒng)中采用由Thompson于1968年提出的正則表達(dá)式的匹配技術(shù),通過構(gòu)建NFA自動機(jī)來識別正則表達(dá)式。該算法空間開銷為O(m),掃描匹配時(shí)間復(fù)雜度為O(mn)。
b)大規(guī)模串匹配技術(shù)。本系統(tǒng)采用的是L. Salmema提出的方法,它基于模式串在文本中出現(xiàn)的概率較低的前提,將多個(gè)模式串合并為一個(gè)模式串,采用了位并行的方法進(jìn)行匹配。算法僅在萬級規(guī)模下表現(xiàn)良好,但當(dāng)命中率高時(shí),其性能下降較快。
c)模糊匹配技術(shù)。模糊匹配是為了實(shí)現(xiàn)一些在已有特征串之上進(jìn)行擴(kuò)展的功能。這些擴(kuò)展概括起來有字符組、限長空位、可選字符和重復(fù)字符。使用擴(kuò)展匹配可以實(shí)現(xiàn)很多功能,如大小寫不敏感匹配、中文特征串的各種變形(拼音、拆分等)匹配、限定長度的通配符匹配等。擴(kuò)展串匹配根據(jù)需求不同可以分別選擇邏輯表達(dá)式、正則表達(dá)式、近似串等技術(shù)來實(shí)現(xiàn)。
d)硬件串匹配技術(shù)。本系統(tǒng)采用N. Tuck的基于FPGA/ASIC的硬件串匹配技術(shù),使用位圖壓縮和路徑壓縮兩種方法來節(jié)省存儲空間。
2.22 文本深度處理技術(shù)
就文本深度處理而言,本系統(tǒng)主要涉及文本結(jié)構(gòu)化表示與文本內(nèi)容的挖掘技術(shù)。
1)文本結(jié)構(gòu)化表示 目前大多數(shù)網(wǎng)絡(luò)信息處理仍然采取傳統(tǒng)的基于關(guān)鍵字匹配和向量空間的信息處理技術(shù)[7,8]。由于對網(wǎng)絡(luò)信息缺乏深層理解,這種技術(shù)機(jī)械性太強(qiáng),利用知識、分析推理的能力太弱,已經(jīng)不能滿足Internet進(jìn)一步發(fā)展的需求[9,10]。基于內(nèi)容理解的網(wǎng)絡(luò)信息處理技術(shù)日益受到人們的重視。其中,語義Web是Internet 發(fā)展的重要趨勢。它具有復(fù)雜的層次結(jié)構(gòu),其核心動力來源于廣泛的統(tǒng)一和共享。本體在基于內(nèi)容理解的網(wǎng)絡(luò)信息處理中扮演著核心的角色。按照Tim BernersLee 所設(shè)想的,基于機(jī)器可理解的數(shù)據(jù)和利用元數(shù)據(jù)的啟發(fā)信息,語義Web 能夠提供更多的自動化服務(wù)。本系統(tǒng)中,文本結(jié)構(gòu)化表示采用語義Web中的OWL語言來表述。
2)面向海量文本信息的分類聚類技術(shù) 文本聚類是指將一堆未標(biāo)記類別的文本按其內(nèi)容相似性自動歸為若干組,使每一組內(nèi)的文本盡可能相似,而組之間的文本盡可能不相似。本系統(tǒng)中的聚類方法包括五個(gè)步驟,即文本表示、特征選擇、相似性度量、聚類算法本身和聚類結(jié)果評價(jià)。
23 音頻識別
本系統(tǒng)中音頻識別模塊主要包括關(guān)鍵詞檢出、說話人識別、固定音頻匹配,如圖3所示是語音識別系統(tǒng)模型。
1)關(guān)鍵詞檢出技術(shù) 它指在連續(xù)無限制的自然語音流中識別出一組給定詞,是連續(xù)語音識別技術(shù)的一個(gè)分支。這里采用填充(filler)模板方法,主要研究filler模板建模和關(guān)鍵詞確認(rèn)等。在filler模板建模上,采用一定數(shù)量的整詞集合來作為filler模板;在關(guān)鍵詞確認(rèn)方面,采用基于后驗(yàn)概率的方法。
2)說話人識別技術(shù) 語音過濾中采用的說話人識別技術(shù)主要是指與文本無關(guān)的說話人辨認(rèn)技術(shù)。在這方面,本系統(tǒng)采用基于全互連HMM(ErgodicHMM)方法。
3)固定音頻匹配技術(shù) 這是將待分析的數(shù)據(jù)與一段已知音頻信息進(jìn)行匹配,根據(jù)聲學(xué)上的相似性判斷待分析數(shù)據(jù)中是否包含已知音頻。本系統(tǒng)采用基于直方圖的快速搜索算法。
24 圖像與視頻識別檢測
針對圖像和視頻內(nèi)容安全檢測,研究有效的多媒體特征提取和表示方法,主要包括文本、聽覺、視覺特征提取技術(shù),重點(diǎn)研究視覺不變量特征提取技術(shù)、視覺關(guān)鍵詞表的建立及其表示、多特征融合;采用融合SIFT特征和不變矩特征,以不變矩取代SIFT梯度方向直方圖特征的方法,降低特征維數(shù);采取視頻幀的主運(yùn)動信息和圖像的有效幾何限制,加速特征匹配過程,進(jìn)一步提高匹配算法的穩(wěn)健性。圖4為圖像與視頻識別處理流程。
3 結(jié)束語
本文提出一種互聯(lián)網(wǎng)內(nèi)容過濾檢測系統(tǒng)。該系統(tǒng)通過網(wǎng)絡(luò)層、信息識別層、信息流過濾層和內(nèi)容檢測層的工作,可以有效檢測過濾互聯(lián)網(wǎng)上的內(nèi)容信息。在以后的工作中,將對這四層內(nèi)容技術(shù)進(jìn)行進(jìn)一步的研究開發(fā),研究出一種實(shí)用的、高效的內(nèi)容安全檢測系統(tǒng)工具。
參考文獻(xiàn):
[1]CNNIC.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(200701).http://www.cnnic.cn.
[2]CARNEY D, CETINTERNEL U, CHERNIACK M,et al. Monitoring streams: a new class ofDBMS applications,CS0201[R].[S.l.]:Department of Computer Science, Brown University,2002.
[3]KNUTH D E, MORRIS J H, PRATT V R. Fast pattern matching in strings[J]. SIAM Journal on Computing,1977,6(1):323350.
[4]NAVARRO G, RAFFINOTM. Flexible pattern matching in strings:practical online search algorithms for texts and biological sequences[M].Cambridge: Cambridge University Press, 2002.
[5]AHO A V,CORASICK M J. Efficient string matching:an aid to bibliographic search[J]. Communication of the ACM,1975,18(6):333340.
[6]WU S, MANBER U. Fast text searching allowing errors[J].Communications of the ACM,1992,35(10):8391.
[7]BABCOCK B, BABU S, DATAR M,et al. Models and issues in data stream systems[C]//Proc of ACM Symp on Principles of Database Systems (PODS 2002). 2002.
[8]BABCOCK B, DATAR M, MOTWANI R. Sampling from a moving window over streaming data[C]//Proc of Annual ACMSIAM Symp on Discrete Algorithms. 2002:633634.
[9]BABU S, WIDOM J. Continuous queries over data streams[M].[S.l.]:Sigmod Record, 2001.
[10]BOYER R S, MOORE J S. A fast string searching algorithm[J].Communications of the ACM,1977,20(10):762772.