999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息搜索引擎綜述及系統架構設計

2008-01-01 00:00:00郭偉青
商場現代化 2008年3期

[摘要] 本文介紹了搜索引擎的發展與分類,給出了一種搜索引擎的架構并對各個組成部分進行了分析,最后分析了如何來評價搜索引擎性能的技術指標。

[關鍵詞] 搜索引擎 發展 分類 技術指標

一、引言

互聯網發展的今天,一方面離不開其開放、共享的特性帶給人們的全新體驗,另一方面也離不開數以億計的為其提供各類豐富內容的網絡節點。互聯網被普及前,人們查閱資料第一想到的便是擁有大量書籍資料的圖書館,到了今天,很多人都會選擇一種更方便、快捷、全面、準確的方式——使用搜索引擎。

二、搜索引擎的歷史

20世紀90年初,當時萬維網(World Wide Web)還未出現,為了查詢散布在各個分散的主機中的文件,曾有過Archie, Gopher等搜索工具,隨著互聯網的迅速發展,基于HTTP訪問的web技術的迅速普及,它們就不再能適應用戶的需要。1994年,Lycos推出了基于Robot的數據發現技術。1998年10月,Google誕生,它是目前最流行的搜索引擎之一,具備很多獨特而且優秀的功能,并且在界面等方面實現了革命性創新。

三、搜索引擎的分類

按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類。但各種搜索引擎站點正在結合其他搜索引擎的優點,在類型上有逐漸融合的趨勢。

1.目錄式(Directory)搜索引擎。以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo!(dir.yahoo.com)和Open Directory Project(www.dmoz.org)。

2.基于機器人(Robot-based)的搜索引擎。基于機器人的搜索引擎是一種典型的搜索引擎。由一個稱為爬蟲(Spiders或robots)的機器人程序以某種策略自動地在Internet中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。該方式力求能夠對WWW中所有數據進行檢索,涉及網上的任何領域,然而由于WWW 的海量信息,實際運行中往往只能對WWW 中部分內容進行檢索。這類搜索引擎的代表是:Google(www.google.com),國內的有百度(www.baidu.com)等。

3.元搜索引擎(Meta-searchengine)。元搜索引擎的基本思想是:當搜索引擎受到來自客戶的查詢請求后,自動將這些查詢請求轉發給其它多個搜索引擎,并將各搜索引擎返回的查詢結果收集起來進行處理,最終提供給用戶。這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。這類搜索引擎的代表是WebCrawler、InfoMarket等。

四、搜索引擎基本組成

1.搜索器。搜索器的功能是在Internet中漫游,發現和搜集信息。搜索器搜集的信息類型多種多樣,包括HTML文本、XML文本、Newsgroup文章、FTP文件、字處理文檔(如Word,Postscript, PDF)、多媒體信息(如圖片、聲音、動畫、視頻)等。它常常是一個或者多個互相協調的計算機程序,日夜不停地運行,目的是要盡可能多、盡可能快地搜集各種類型的新信息,同時因為Internet上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。

2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,內容索引項是用來反映文檔內容的。一個搜索引擎的有效性在很大程度上取決于索引的質量。

3.檢索器。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。

4.用戶接口。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。

五、搜索引擎技術指標

可以用查全率(Recall)和查準率(Pricision)衡量一個搜索引擎的性能,定義如下:

查準率(精度)=搜索到的相關文檔數/搜索到的全部文檔數

查全率(召回率)=搜索到的相關文檔數/包含的全部相關文檔數

影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制等。

六、小結

互聯網技術的發展,使得互聯網上的信息量急劇增加,信息越來越豐富,越來越多的網絡用戶依靠搜索引擎技術,從浩瀚的信息海洋中獲取信息,為學習、生活提供越來越多的便利,搜索引擎技術必將會有更大的發展應用。

參考文獻:

[1]李曉明:http://www.se-express.com[EB]

[2]劉峰王秀坤楊南海馬霖:中英文專業搜索引擎中數據采集加工的設計與實現[J].計算機應用研究.2004,21(10):155~157

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 欧美啪啪网| 亚洲AⅤ无码国产精品| 波多野衣结在线精品二区| 欧美性猛交一区二区三区| 精品一区二区三区无码视频无码| 中文成人无码国产亚洲| 日本人妻一区二区三区不卡影院| 又大又硬又爽免费视频| 99这里只有精品免费视频| 亚洲美女一区二区三区| 四虎影视8848永久精品| 亚洲毛片网站| 四虎成人精品| 666精品国产精品亚洲| 亚洲精品福利视频| 91九色视频网| 91www在线观看| 999国产精品| 欧美精品另类| 免费一看一级毛片| 国产精品污视频| 亚洲成a∧人片在线观看无码| 在线免费无码视频| 国产成人AV综合久久| 国产男女免费完整版视频| 嫩草国产在线| 欧美国产日本高清不卡| 欧美精品v日韩精品v国产精品| 国产尤物在线播放| 亚洲AV电影不卡在线观看| 四虎永久在线| 欧美人人干| 99视频只有精品| 成人午夜免费观看| 日本一本在线视频| 国产天天色| igao国产精品| 中文字幕中文字字幕码一二区| 熟妇人妻无乱码中文字幕真矢织江| 成人午夜福利视频| 丁香婷婷激情网| 国产毛片不卡| 999精品色在线观看| 在线看国产精品| 色哟哟国产精品一区二区| 中文纯内无码H| 99精品国产电影| 成年看免费观看视频拍拍| 黄色一级视频欧美| 国产精品久久久久鬼色| 亚洲福利视频一区二区| 996免费视频国产在线播放| 超碰91免费人妻| 亚洲欧美色中文字幕| 久久99国产视频| 在线精品欧美日韩| 国产成人免费视频精品一区二区| 欧美色综合网站| 亚洲欧美在线综合一区二区三区| 伊人久久久大香线蕉综合直播| 久久一色本道亚洲| 三上悠亚在线精品二区| 欧美成人怡春院在线激情| 日韩无码黄色网站| h视频在线播放| 色综合热无码热国产| 一本二本三本不卡无码| 国产人成午夜免费看| 在线中文字幕日韩| 欧美性久久久久| 久久视精品| 亚洲av成人无码网站在线观看| 亚洲国产av无码综合原创国产| 亚洲第一中文字幕| 91美女视频在线| 久久精品只有这里有| 中文字幕va| 美女高潮全身流白浆福利区| 亚洲国产成人超福利久久精品| 欧美综合区自拍亚洲综合天堂| 欧美成人一级| 国产精品va免费视频|