999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于行為模式進行網絡搜索信息過濾

2010-05-11 06:01:44田學志
中國新技術新產品 2010年17期
關鍵詞:模式識別數據挖掘特征

賀 維 劉 彬 田學志

(1、黑龍江農業工程職業學院,黑龍江 哈爾濱 150000 2、泰山學院,山東 泰安 271000)

引言

隨著互聯網普及,網絡搜索成為一種最快捷、最有效的信息獲得手段,用戶可以通過登錄網絡搜索平臺,鍵入查詢關鍵字搜索和收集需要的信息。在享受網絡搜索技術便利的同時,搜索結果中的大量垃圾信息也給用戶帶來極大的不便,用戶經常需要大量點擊搜索結果來獲得有效信息[1]。

利用行為模式技術,搜索平臺通過對垃圾信息統計出的不同行為特征,對搜索結果信息進行過濾,來增強信息搜索的準確率。

1 網絡搜索引擎技術

1.1 搜索器

衡量搜索引擎的一條很重要的標準,就是搜索到信息的海量性。為了實現這一條標準,通常需要一種強大的搜索器作為支撐,一般稱為為“網絡蜘蛛”。

“網絡蜘蛛”即Web Spider,是通過網頁的鏈接地址來尋找網頁,從網站的某一個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣循環下去,直到把這個網站所有的網頁都抓取完為止。在抓取網頁的時候,“網絡蜘蛛”一般有兩種策略深度優先、廣度優先。通過內容提取技術獲取網頁上文本信息[2]。

1.2 搜索結果中垃圾信息

在用戶通過定義的關鍵字實施信息搜索時,經常會獲得大量的搜索結果,從這些海量信息中提取有效信息經常會浪費用戶大量的時間和精力。對于用戶來說,沒有利用價值的信息可以認為是無效搜索信息,而在這其中還存在很大一部分由于某些網站為增加點擊率而故意篡改信息產生的垃圾信息。

搜索引擎Inktomi認為是垃圾信息的主要內容為:隱藏的、欺騙性的、以及與網頁內容不相關的文字;META標簽中的內容并非網頁內容的真實描述;沒有明確的目的有意設計重新指向的URL;利用程序使得在搜索結果中出現大量同樣的網頁;有意設置讓人誤解的鏈接;并不反映網站真實內容的入門網頁或者隱藏的網頁;自動產生大量無關的垃圾鏈接。

2 行為模式識別技術實施信息過濾

2.1 行為模式識別技術

行為模式是從大量實際行為中概括出來作為行為的理論抽象、基本框架或標準[3]。行為模式識別技術的思想是通過基于對大量信息樣本進行的統計、分析和計算,建立行為模式數學模型,利用這種具有極高行為特征的模型,對新的信息進行分析判定[4]。

2.2 數據挖掘

數據挖掘就是從海量的數據中挖掘出可能有潛在價值的信息的技術。這些信息是可能有潛在價值的,支持決策,可以為企業帶來利益,或者為科學研究尋找突破口[5]。

對于垃圾信息行為模式進行信息挖掘,主要是針對相關WEB信息的數據挖掘。主要包含WEB內容挖掘,WEB結構挖掘,WEB用法挖掘。

WEB內容挖掘:針對垃圾信息WEB的內容、數據、文檔發現共同信息,從資源查詢角度挖掘非結構化的文檔。

WEB結構挖掘:Web結構挖掘的對象是垃圾信息WEB的超連接,即對Web文檔的結構進行挖掘。對于給定的Web文檔集合,應該能夠通過算法發現他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。

WEB用法挖掘:Web使用記錄挖掘,對垃圾信息WEB使用記錄數據除了服務器的日志記錄外還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。來發現用戶訪問Web頁面的模式,分析垃圾信息WEB的規律。

2.3 主元分析

它是一種對數據進行分析的技術,最重要的應用是對原有數據進行簡化。正如它的名字——主元分析,這種方法可以有效的找出數據中最“主要”的元素和結構,去除噪音和冗余,將原有的復雜數據降維,揭示隱藏在復雜數據背后的簡單結構。它的優點是簡單,而且無參數限制,可以方便的應用與各個場合[6]。利用主元分析技術對于垃圾信息的不同行為模式,利用應用線形代數知識進行科學求解,最大程度去掉冗余和干擾,找到垃圾信息的主要行為模式。

2.4 基于行為模式的垃圾過濾模型

通過行為模式識別技術對網絡搜索結果中的垃圾信息進行過濾,其思想是對大量垃圾信息樣本進行分析,建立垃圾信息行為特征模型,利用這個特征模型對搜索的結果信息進行分析、判斷,過濾其中的垃圾信息。整個垃圾信息過濾模型,基于信息——知識——智能理論指導,采用數據挖掘方法提取垃圾信息的行為規則,從而建立垃圾信息過濾模型。信息表示事物狀態變化方式,知識表示事物狀態變化規律,智能表示根據已知事物變化規律指定對未知事物檢測的規則。

智能模型建立步驟:

首先大量收集不同搜索結果中包含的垃圾信息;根據Inktomi對垃圾信息定義對搜索的信息進行分類整理,并進行垃圾信息預處理,通過數據格式和內容調整使數據更符合數據挖掘的需要;根據數據挖掘算法對垃圾信息行為模式進行挖掘;利用主元分析理論,對垃圾信息的行為特征進行計算分析,找到數據中最主要的元素和結構;將垃圾信息的主要行為進行知識表示;從生成的知識中生成求解問題的策略和規則;利用生成的策略和規則建立垃圾信息過濾模型,從而解決所面對的實際問題。

建立模型需要解決的關鍵問題:

垃圾信息的收集是否全面,能否采集到準確,真實的數據來是研究基礎;垃圾信息中得到的數據適應性,是否能對這一類垃圾信息真實全面反應;對垃圾信息的行為模式進行數據挖掘時采用的算法;提取垃圾信息各種行為中的主要元素的方法;對垃圾信息的行為模式特征的分析,產生垃圾信息過濾的規則集。

3 信息過濾系統

如圖1所示,為信息過濾系統結構圖,在原有的網絡搜索引擎系統中,通過將文本索引中包含的索引信息發送給過濾服務器,通過索引信息中鏈接查詢相關WEB,分析該WEB的行為特征,與垃圾信息行為特征庫中不同類型的垃圾信息的行為特征進行比較,清理掉被判定為垃圾信息的搜索結果信息,將正常行為信息存入索引數據庫。

圖1 信息過濾系統

其中,過濾服務器需要完成4方面的工作,包括信息采樣、行為解析、特征比較、信息過濾。信息采樣:提取文本索引中的信息,包括鏈接,文本信息等信息。行為解析:對不同信息進行分析,提取主要行為特征。特征比較:將不同WEB中信息的行為特征與垃圾信息的行為特征進行比較。信息過濾:過濾到與垃圾信息的行為特征相同的信息。

4 信息過濾系統的特點

提高搜索的準確性:由于垃圾信息和正常信息在特征上存在很多差別,利用行為模式識別技術實現信息過濾可提高信息搜索的準確性。系統部署方便:對于文本索引中的信息,進行信息過濾,不改變原有網絡搜索引擎結構,相對獨立,易于升級維護。搜索結果相對公平:由于過濾系統相對獨立,可由第三方開發商設計指定,避免網絡搜索提供商出于自身利益等考慮而為用戶提供的搜索結果。節省用戶信息搜索時間:由于垃圾信息減少,節省了用戶需要大量打開不同鏈接查詢信息的時間。先進的過濾技術:傳統采用內容關鍵字過濾時,由于某些網站隨意修改關鍵詞內容,這樣原有的詞庫不能找到匹配的關鍵詞,從而無法過濾垃圾信息,而行為模式識別技術從垃圾信息的特征行為進行判定,即使進行了關鍵詞內容修改仍可以判定垃圾信息。

5 總結

搜索結果中的垃圾信息,對于用戶和搜索引擎自身都帶來了極大的負面影響,傳統的信息過濾技術已經不能滿足對垃圾信息的過濾,通過先進的行為模式識別技術來設計過濾系統,可以增加垃圾信息過濾的準確性,提高搜索結果的正確性,從而滿足用戶對信息獲得的要求。

[1]黃曉斌,邱明輝,網絡信息過濾系統研究,情報學報,2004.6(23).

[2]金益,基于網絡蜘蛛原理的搜索引擎技術剖析,電腦學習,2007.10(5).

[3]J.Michael Reed,Recognition Behavior Based Problems in Species Conservation,ANN.ZOOL.FENNICL,2004.10.

[4]Xuan Zhang, Jianyi Liu, Yaolong Zhang,Cong Wang,Spam Behavior Recognition Based on Session Layer Data Mining,Fuzzy Systems and Knowledge Discovery,2006.10.

[5]Andy Tseng Ilias Petrounias,A Complete Framwork for Web Mining,IEEE,2003.7.

[6]Lan Jolliffe,Principal Component Analysis,Encyclopedia of Statistics in Behavioral Science 2005.10.

猜你喜歡
模式識別數據挖掘特征
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
第四屆亞洲模式識別會議
一種基于Hadoop的大數據挖掘云服務及應用
第3屆亞洲模式識別會議
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲男人的天堂网| 亚洲国产成人精品无码区性色| 国产69精品久久| 精品福利一区二区免费视频| 福利在线一区| 中文字幕色在线| 香蕉久久永久视频| 一级毛片在线播放免费观看| 婷婷丁香在线观看| 国产精女同一区二区三区久| 久久综合亚洲色一区二区三区| 自拍偷拍一区| 怡春院欧美一区二区三区免费| 91免费观看视频| 欧美视频在线第一页| 欧美在线网| 亚洲无码熟妇人妻AV在线| 国产午夜人做人免费视频中文 | 日本久久网站| 伊在人亞洲香蕉精品區| 一区二区在线视频免费观看| 成人一区专区在线观看| 国产凹凸视频在线观看| 刘亦菲一区二区在线观看| 婷婷六月在线| 欧美日韩在线观看一区二区三区| 免费不卡视频| 无码一区中文字幕| 午夜啪啪福利| 欧美午夜在线播放| 国产91视频免费观看| 成人91在线| 国产免费自拍视频| 国产精品无码作爱| 日韩欧美国产区| 青草视频久久| 福利国产微拍广场一区视频在线| 国产成人av大片在线播放| 国产成人亚洲无码淙合青草| 亚洲欧美精品日韩欧美| 国产在线97| 99精品在线看| 欧美精品在线免费| 亚洲成人在线免费观看| 欧美在线网| 国产成人亚洲综合a∨婷婷| 国产主播福利在线观看| 欧美国产日韩在线观看| 美女一区二区在线观看| 久久伊人操| 欧美一级夜夜爽www| 激情无码视频在线看| 91视频精品| 99精品久久精品| 日韩亚洲综合在线| 亚洲天堂色色人体| 一区二区午夜| 国产丝袜91| 国产乱子伦手机在线| 精品国产香蕉在线播出| 伊人激情综合网| 久久香蕉国产线看观看精品蕉| 色综合久久88色综合天天提莫| 免费 国产 无码久久久| 露脸真实国语乱在线观看| 国内老司机精品视频在线播出| 91区国产福利在线观看午夜| 毛片三级在线观看| 1024你懂的国产精品| 欧美精品亚洲精品日韩专区va| 手机看片1024久久精品你懂的| 一区二区无码在线视频| 亚洲最新地址| 免费国产在线精品一区| 在线看免费无码av天堂的| 亚洲无码免费黄色网址| 国产尤物视频在线| 欧美a级完整在线观看| 亚洲中文字幕23页在线| 精品剧情v国产在线观看| 狠狠v日韩v欧美v| 亚洲综合色在线|