999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互聯網信息過濾技術的研究與設計

2013-12-31 00:00:00劉冬彥李婷李巖
科技創新與應用 2013年14期

摘 要:文章從信息過濾系統的構成、數學模型、系統實現機制、具體項目實施結果等幾個方面對信息過濾技術進行了闡述,具有一定的文獻資料參考價值。

關鍵詞:信息過濾;非法文本;研究設計

1 引言

互聯網上的海量信息,改變了人們的生活方式,給人們的工作、學習、生活帶來了極大便利。但是互聯網所具有的全球性、開放性、交互性、快捷性等特點,使得互聯網上傳播的各種信息魚龍混雜,夾雜著一些不良內容的浮渣,不乏利用主頁、電子公告板、留言板、聊天室等交互式欄目張貼、傳播有害信息、泄露國家秘密的問題;利用電子郵件和短信息發送有害信息的問題;另外相關管理部門由于監管不力,對有害信息不防范、不刪除、不報告,出現管理失控的問題;一些不良信息的制造者不斷變化策略,也給不良信息的防范帶來沉重的負擔。基于互聯網信息管理的這種現狀,互聯網信息過濾技術應運而生了,而且互聯網信息過濾技術也在不斷的更新,因為只有互聯網信息過濾技術不斷更新,才能有效遏制互聯網上的不良信息傳播。

2 信息過濾系統的構成

一個簡單的信息過濾系統應包括以下四個基本部分:信源(Source)、過濾器(Filter)、用戶(User)以及個性化文件庫(Profile)。如圖1所示就是信息過濾系統的一種簡單結構圖。信息過濾器是信息源和信息用戶之間的中介,通常情況下,信源和用戶都不擁有對方的有關知識,使得用戶想要過濾的信息難以被發現。但信息過濾系統通過個性化文件庫使過濾器知曉信息用戶的需求,信源在向用戶提供檢索信息的同時,用戶也可以自己決定是否需要向過濾器發送反饋信息,用以指明哪些信息是不良信息而需要過濾器去過濾掉,使過濾器通過知識學習、調整以更新現有的過濾信息庫表中的內容,形成相關的興趣主題模型。

圖1 信息過濾系統體系結構模型

信息過濾系統主要面對的是半結構化和非結構化的數據,它為信息用戶提供的是長期的信息需求。一般情況下,用戶的信息過濾需求是長期的、相對穩定的、變化較慢的。信息過濾系統將信息和用戶Profile文件進行比較,主動將相關度較高的信息提供給符合該興趣主題模型的用戶。圖2就是這種信息過濾工作的處理流程。

圖2 信息過濾工作的處理流程

從圖2可以看出,首先要對進入的信息進行特征提取,其次同用戶的需求進行匹配、過濾,然后進行反饋與評價,以便使過濾的結果更能接近用戶的需求。

3 信息過濾技術的主要數學模型

信息過濾技術的外在表現就是信息檢索,其數學模型就是信息檢索的一種數學抽象。當前比較流行的數學模型主要有布爾模型、向量空間模型和概率推理模型三種。

布爾模型是三者中比較容易實現的一種,是許多商用檢索系統的理論基礎,該模型是基于集合論、布爾代數的一種簡單檢索模型,但這種模型的準確率和查全率相對較低。

向量空間模型是公認的一種非常有效的檢索模型。在進行信息過濾的過程中,首先對請求的頁面數據進行加工,將頁面看成是一個由m個詞組成的向量P,然后比較向量P和用戶的趣向描述向量D的相似程度。一般情況下采用的方法是取兩個向量的余弦值,根據它們夾角的大小來判斷相似程度,最后再根據比較的相似度值判斷是否過濾掉該頁面。

概率推理模型是通過計算文本和用戶請求頁面之間的相似系數,來判斷用戶請求的頁面是否屬于非法。這種模型應用概率方法,降低了相應的文本排列問題的困難,但增加了存儲和計算資源的開銷,且參數估計難度較大。

總之,后兩種模型的許多性能優于布爾模型,但是布爾模型的效率和速度優于后兩種模型。

4 信息過濾機制的基本思想

信息過濾機制的基本思想是:用戶提供自己感興趣的關鍵字,也叫特征項,由系統生成公共模板,利用搜索代理,獲得相應的信息源。然后確定用戶興趣模板的關鍵字權重和文檔特征項的提取,采用相應的數學模型、運用一定的算法進行信息和模板的匹配,將符合一定閾值的文檔反饋給相應的用戶。

5 信息過濾系統的實施與實驗結果

我們課題組所設計的信息過濾系統包括訓練和過濾兩大模塊。訓練模塊的目的是根據給定的訓練集生成初始的過濾模板,并決定初始的閾值,而過濾模塊則是先將文本流中的文本表示成向量的形式,然后通過學習分類器與訓練過濾模板進行匹配,最后輸出結果。工作流程如圖3所示。

圖3 非法網頁過濾流程圖

6 結束語

互聯網中的非法網頁給人們帶來嚴重的負面影響,而非法網頁中包含的不良信息,存在著不可忽視的危害性。如何從大量的網頁中快速準確地識別出各種非法內容并將其屏蔽,是信息過濾最主要的任務。我們課題組在過濾技術的研究中取得了一點成績,主要包括以下工作:

6.1 結合信息過濾常用技術,設計了基于互聯網的信息過濾系統,該系統采用二級過濾策略,并分成訓練模塊和過濾模塊加以實現。

6.2 提取Web頁面中的正文文本,組成訓練文本集,再對訓練文本集進行預處理,建立成特征詞詞典,用該詞典作為系統的分詞詞典代替通用的分詞詞典,采用最大匹配算法,對訓練文本集二次處理,建立文本的表示。利用特征詞典有效地提取特征項,降低了向量表示的維數,并有效地利用KNN算法對文本進行分類,通過測試數據顯示匹配效果較好。

參考文獻

[1]叢健.不良信息過濾技術研究[D].北京:北京郵電大學,2012.

[2]張綺雯.網絡內容過濾技術的分析與比較[J].科技致富向導,2010(24).

主站蜘蛛池模板: 亚洲第一视频免费在线| 久久这里只精品国产99热8| 国内老司机精品视频在线播出| 欧美精品v欧洲精品| 国产乱人伦AV在线A| 黑人巨大精品欧美一区二区区| 久久久久久午夜精品| 999精品视频在线| 国内嫩模私拍精品视频| 婷婷开心中文字幕| 亚洲首页在线观看| 久草视频中文| 欧美日韩国产在线人成app| 亚洲AV成人一区二区三区AV| 国产成人狂喷潮在线观看2345| 婷五月综合| 成人免费午间影院在线观看| 欧美人与动牲交a欧美精品| 欧美在线天堂| 精品国产成人a在线观看| 精品视频第一页| 黄色三级网站免费| 亚洲日本韩在线观看| 97se亚洲综合在线| 国产女人18毛片水真多1| 日韩A∨精品日韩精品无码| 国产丰满成熟女性性满足视频| 伊人婷婷色香五月综合缴缴情| 国产精品xxx| 国产一级α片| 精品人妻无码区在线视频| 丁香婷婷激情网| 国产靠逼视频| 在线观看国产精品日本不卡网| 亚洲综合色在线| 亚洲成aⅴ人在线观看| 免费观看男人免费桶女人视频| 在线观看亚洲人成网站| 日韩在线播放中文字幕| 99在线观看精品视频| 日本亚洲国产一区二区三区| Aⅴ无码专区在线观看| 国产精品一区不卡| 中文字幕免费在线视频| 黄色网页在线观看| 亚洲中文字幕97久久精品少妇| 亚洲一级毛片| 波多野结衣中文字幕一区二区 | 亚洲日本中文字幕乱码中文| 怡红院美国分院一区二区| 老司机aⅴ在线精品导航| 国产福利小视频在线播放观看| 亚洲系列中文字幕一区二区| 亚洲精品无码不卡在线播放| 国产午夜在线观看视频| 国产剧情一区二区| 又爽又大又光又色的午夜视频| 亚洲欧美日本国产专区一区| 97色婷婷成人综合在线观看| 激情无码视频在线看| 久久国产高清视频| 亚洲一区二区三区麻豆| 国产91无码福利在线| 国产丝袜第一页| 久久久久九九精品影院 | 亚洲福利片无码最新在线播放| 国产高清无码第一十页在线观看| 成人福利在线看| 欧美日韩国产成人高清视频| 亚洲人成影视在线观看| 亚洲成A人V欧美综合| 欧美中文一区| 免费在线国产一区二区三区精品| 日韩视频福利| 99久久免费精品特色大片| 国产亚洲日韩av在线| 午夜小视频在线| 久久这里只有精品66| 毛片一区二区在线看| 一区二区影院| 色妺妺在线视频喷水| 九九精品在线观看|