999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向網(wǎng)頁文本內容的網(wǎng)頁信息過濾系統(tǒng)設計

2009-04-29 00:00:00周天綺
電腦知識與技術 2009年27期

摘要:該文按照基于內容理解的中文文本網(wǎng)頁的主題探測和過濾設計網(wǎng)頁信息過濾系統(tǒng)。首先對智能網(wǎng)頁過濾系統(tǒng)工作流程進行了研究,然后給出了智能網(wǎng)頁信息過濾系統(tǒng)的系統(tǒng)設并對各個模塊進行分析,最后對網(wǎng)絡數(shù)據(jù)處理、文本數(shù)據(jù)處理和自適應處理三個模塊進行詳細研究。

關鍵詞:網(wǎng)頁信息過濾系統(tǒng);文本內容;文本數(shù)據(jù)處理;自適應處理

中圖分類號:TP302文獻標識碼:A文章編號:1009-3044(2009)27-7775-02

Network Page Filtration System Design Facing Network Text Content

ZHOU Tian-qi

(Zhejiang Lanxi City The fisrst Middle School, Lanxi 321100, China)

Abstract: In this paper, network page information filtration system was topic investigated and filtration designed according to Chinese text network based on content understanding. Firstly intellectual network filtration system work flow was studied, then systematic design of intellectual network information filtration system was given and each module was analyzed, finally three modules of network data processing, text data processing and adaptive processing were performed detailed study.

Key works: network information filtration system; text content; text data processing; adaptive processing

1 智能網(wǎng)頁信息過濾系統(tǒng)簡介

智能網(wǎng)頁信息過濾系統(tǒng)的過濾方法是基于內容的過濾,過濾對象是面向中文文本網(wǎng)頁,過濾目的為主題探測。系統(tǒng)運行在局域網(wǎng)網(wǎng)關上可以監(jiān)聽流入局域網(wǎng)內的網(wǎng)頁信息,發(fā)現(xiàn)并過濾網(wǎng)絡管理員指定的主題信息。如企業(yè)、學校、網(wǎng)吧對內部局域網(wǎng)進行不良信息的管理時,通過該系統(tǒng)可以對暴力、色情、反動等信息進行屏蔽。圖1示例了該系統(tǒng)運行在網(wǎng)關上的一個典型應用,它也可以運行在非網(wǎng)關的主機上,過濾本機用戶指定的任何主題的網(wǎng)頁信息。該系統(tǒng)過濾的主題在系統(tǒng)使用前由用戶指定生成,使用中也可以根據(jù)需要重新生成新的過濾主題;它給用戶提供了個性化的服務方案。在實驗中我們選取了精油類知識作為過濾主題。對過濾出來的文檔,提供了反饋機制,并將最終確定的群體導入模板訓練庫,通過遺傳算法跟蹤并學習用戶的意圖,以生成更精確的用戶模板。

按照信息處理的流程,過濾系統(tǒng)在各階段應處理的事務有:1)信息獲取階段:網(wǎng)絡信息過濾是基于數(shù)據(jù)包捕獲基礎之上的。信息獲取需要捕獲網(wǎng)絡中的HTTP封包,并將數(shù)據(jù)包根據(jù)IP協(xié)議、TCP協(xié)議和HTTP協(xié)議解析為用來處理的文本格式。2)信息表示階段:處理從信息獲取階段得到的文本,抽取能代表該文檔特征的關鍵字并計算權值。由于中文文檔沒有明顯的分隔符存在,所以在特征提取前還要進行分詞處理。AIFS信息表示采用的是向量空間模型。3)匹配階段:得到的未知文檔的文本表示與已知的用戶模板(知識模式)相匹配,用向量空間模型的相似度來計算未知文檔與實際需求的相關性,在達到一定的閾值后,將未知文檔進行標識。4)信息歸類階段:通過系統(tǒng)標識和用戶對標識結果的反饋,將文檔輸入到相應的文檔集合中,方便重建用戶模板。5)知識模式:也就是用戶模板的建立與更新。系統(tǒng)建立了學習進化機制,根據(jù)用戶的反饋,將用戶模板進行遺傳算法學習,以提高系統(tǒng)的自適應能力。

2 智能網(wǎng)頁信息過濾系統(tǒng)設計

信息過濾系統(tǒng)的性能主要體現(xiàn)在過濾的正確率,過濾系統(tǒng)不可靠的主要原因在于用戶模板的精確性問題。而知識和信息的快速變化以及用戶需求的不穩(wěn)定性,決定了用戶模板需要不斷更新。智能網(wǎng)頁信息過濾系統(tǒng)在設計中充分考慮了系統(tǒng)的進化需求,運行中會不斷優(yōu)化用戶模板,以提高過濾的準確率。該系統(tǒng)的總體設計圖如圖2所示。

首先建立基本的“詞典數(shù)據(jù)庫”和“用戶模板”。詞典數(shù)據(jù)庫包括分詞數(shù)據(jù)庫和停用詞數(shù)據(jù)庫。停用詞一般選取在所有文檔中出現(xiàn)的頻率都很高,但對文檔內容主題的貢獻卻很小的詞。初始用戶模板的建立是人工選擇可以代表該類別的若干文檔,通過訓練生成此類別文檔的向量空間表達式。然后測試一批相關和不相關的文檔,以確定可以與類別相匹配的相似度的閾值。系統(tǒng)的各個模塊的工作情況如下:

1)網(wǎng)絡包解析:捕獲局域網(wǎng)中的以太網(wǎng)幀,過濾出包含HTTP文本信息的TCP數(shù)據(jù)包,同時將與“URL數(shù)據(jù)庫”中鏈接地址相同的頁面屏蔽過濾。屏蔽是通過建立套接字截獲該數(shù)據(jù)包,并封包轉發(fā),使終端用戶界面顯示“此信息已截獲”字樣。該模塊還負責提取的HTTP數(shù)據(jù)包進行消息解析,進行網(wǎng)頁重組,將完整的網(wǎng)頁傳遞給“網(wǎng)頁文本解析”模塊。

2)網(wǎng)頁文本解析:將網(wǎng)頁轉換成純文本格式,并標記特定標簽中的文本,存儲到“文本數(shù)據(jù)庫”。

3)文本表示:參考“用戶模板”中的關鍵詞集合,采用網(wǎng)頁文本表示改進算法,進行分詞處理,并進行權值計算。將文檔表示成向量空間模型。

4)文本匹配:“文本表示”中得到的向量表達式與“用戶模板”中的向量表達式進行相似度計算,找出有一定匹配關系的文檔(需要過濾的頁面),并標記系統(tǒng)的評定結果。

5)文本過濾:提交用戶的過濾請求,傳遞系統(tǒng)的評定結果。

6)模板管理:完成模板進化功能。依據(jù)用戶定制的用戶模板的學習機制,將來源于“URL數(shù)據(jù)庫”中的一定數(shù)量的頁面加入訓練集,采用遺傳算法進行自學習和歸納更新,進化“用戶模板”,以保證系統(tǒng)的過濾性能。

7)詞庫管理:完成字典進化功能。用戶接口提供管理界面,可以通過預覽某文檔的分詞結果,查看詞典數(shù)據(jù)庫和停用詞數(shù)據(jù)庫中合理與不合理的詞語,使“詞典數(shù)據(jù)庫”最優(yōu)化,分詞結果會更準確。

8)URL管理:完成系統(tǒng)評比結果的用戶反饋,得到最終結果。用戶接口提供界面查看瀏覽已有系統(tǒng)評定的頁面,給出人工評定,記錄到“URL數(shù)據(jù)庫”。另外,針對網(wǎng)絡信息變化快、穩(wěn)定性差、網(wǎng)頁生存期短的特點,將“URL數(shù)據(jù)庫”的數(shù)據(jù)設定時限,從錄入數(shù)據(jù)庫時間算起,超出該時限的數(shù)據(jù)將自動從數(shù)據(jù)庫中清除。

“文本數(shù)據(jù)庫”存儲了所有被截獲的網(wǎng)頁的文本數(shù)據(jù)和相關屬性,“URL數(shù)據(jù)庫”記錄了被評定為需要過濾頁面的URL鏈接地址和相關屬性。

3 關鍵技術

按照智能網(wǎng)頁信息過濾系統(tǒng)的總體設計,在具體實現(xiàn)時我們將整個系統(tǒng)分為三大塊:網(wǎng)絡數(shù)據(jù)處理、文本數(shù)據(jù)處理和自適應處理。

網(wǎng)絡數(shù)據(jù)處理部分:采用了Windows平臺下的網(wǎng)絡數(shù)據(jù)包捕獲庫WinPcap,將網(wǎng)卡設置為混雜模式進行網(wǎng)絡數(shù)據(jù)的捕獲;網(wǎng)絡數(shù)據(jù)分析是網(wǎng)絡數(shù)據(jù)處理的另一個關鍵技術,在分析過程中涉及到網(wǎng)絡協(xié)議格式有以太網(wǎng)數(shù)據(jù)幀、IP協(xié)議、TCP協(xié)議和HTTP消息;另外HTML頁面重組也是網(wǎng)絡數(shù)據(jù)中非常重要的技術。

文本數(shù)據(jù)處理部分涉及了二個重要技術。一是中文分詞技術:對于中文分詞的處理,AIFS采用了結合詞典數(shù)據(jù)庫的一些中文分詞算法,先用正向最大匹配法和逆向最大匹配法進行分詞,比較分詞結果,若有不同則通過最大概率法進行結果選擇。二是文本表示技術:首先,參照用戶模板對文檔進行特征項的抽取,本文提出了網(wǎng)頁文本表示的一種改進算法,通過該算法提取網(wǎng)頁特征項。此方法準確快速,可以確保網(wǎng)頁過濾的實時性。然后計算關鍵詞的權值,用向量空間模型將文檔表示。最后進行匹配,計算用戶模板向量和文檔向量之間的夾角,確定相似度。該相似度與某一閾值比較,以此判定文檔的歸屬。初始用戶模板的建立也是文本表示中一個關鍵技術,過濾系統(tǒng)是將訓練文檔進行分詞處理,然后進行詞頻統(tǒng)計,采用向量空間模型來表示初始用戶模板。

自適應處理部分是通過用戶反饋與機器學習來實現(xiàn)的。智能網(wǎng)頁信息過濾系統(tǒng)設計了人機交互界面進行各種信息反饋,如分詞的預覽,關鍵詞的預覽,敏感數(shù)據(jù)(即首次由系統(tǒng)判定為過濾的頁面)的預覽等,并提供了用戶維護詞典數(shù)據(jù)庫、停用詞數(shù)據(jù)庫和敏感數(shù)據(jù)等的交互界面。任何一個過濾系統(tǒng)要解決的核心問題都是準確性和智能化的提高,過濾系統(tǒng)也不例外。過濾系統(tǒng)利用遺傳算法的進化機制完成用戶模板對用戶興趣的跟蹤和學習。隨著用戶模板的精確,用戶的反饋量也將不斷減少,系統(tǒng)智能化越來越高,自適應功能就越來越強。

4 結束語

過對智能網(wǎng)頁過濾系統(tǒng)的研究和開發(fā)工作,基本實現(xiàn)了一個能承載小中規(guī)模局域網(wǎng)負載的網(wǎng)頁信息過濾系統(tǒng),更深層的是建立了一個信息過濾模型,總結了信息過濾研究的一般方法,為后續(xù)的工作鋪開了大道。

參考文獻:

[1] 張惠文.網(wǎng)絡信息檢索技術的智能化趨勢[J].情報理論與實踐,2001,1(6):447-450.

[2] 劉斌,盧增祥等.Bookmark--智能化網(wǎng)絡信息服務系統(tǒng)[J].高技術通訊,1999(6):38-24.

[3] Loris Degioanni WinPcap Documentation Version 3.0 alpha, 2002.

主站蜘蛛池模板: 国产精品55夜色66夜色| 精品欧美一区二区三区在线| 久久香蕉国产线看观| 无码免费的亚洲视频| 69免费在线视频| 亚欧成人无码AV在线播放| 久久精品国产999大香线焦| 91国内在线观看| 亚洲国产中文在线二区三区免| 欧美va亚洲va香蕉在线| 免费无码AV片在线观看国产| 青青草91视频| 成人日韩欧美| 日韩小视频网站hq| 狠狠躁天天躁夜夜躁婷婷| 日韩欧美色综合| 亚洲欧美日本国产专区一区| 久久久国产精品无码专区| 2020国产精品视频| 老熟妇喷水一区二区三区| 国产黄在线观看| 999国产精品| 日韩欧美国产区| 香蕉久人久人青草青草| 成人久久精品一区二区三区| 色哟哟精品无码网站在线播放视频| 久久毛片基地| 在线高清亚洲精品二区| 在线亚洲小视频| 亚洲欧美不卡中文字幕| 免费人成网站在线高清| 精品无码一区二区在线观看| 欧美综合区自拍亚洲综合绿色| 3344在线观看无码| 91精品国产无线乱码在线| 5555国产在线观看| 婷婷综合缴情亚洲五月伊| 国产女同自拍视频| 在线日韩日本国产亚洲| 狠狠干综合| 久久中文电影| 青青久视频| 欧美不卡视频在线| 色欲色欲久久综合网| 亚洲精品无码专区在线观看| 被公侵犯人妻少妇一区二区三区| 激情国产精品一区| 免费又爽又刺激高潮网址| 中文字幕资源站| 欧美a级完整在线观看| 国产成人精品无码一区二| 999国内精品视频免费| 亚洲综合日韩精品| 青青草国产在线视频| 欧美成人手机在线观看网址| 日日拍夜夜操| 国产三区二区| 国内精品九九久久久精品| 欧美色综合久久| a色毛片免费视频| 免费在线播放毛片| 99久久亚洲精品影院| 伊人色天堂| 日韩欧美国产成人| 天天色天天综合| 日韩成人在线一区二区| 亚洲无线国产观看| 一级毛片a女人刺激视频免费| 亚洲精品欧美重口| 欧美精品v日韩精品v国产精品| 五月婷婷中文字幕| 四虎永久在线| 国产黄色视频综合| www.日韩三级| 亚洲an第二区国产精品| 69免费在线视频| 国产免费高清无需播放器| 国产精品久久久久久久伊一| 性喷潮久久久久久久久| 黄色一级视频欧美| 国产日韩欧美成人| 国产亚洲精品在天天在线麻豆 |