999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息搜索引擎綜述及系統架構設計

2008-01-01 00:00:00郭偉青
商場現代化 2008年3期

[摘要] 本文介紹了搜索引擎的發展與分類,給出了一種搜索引擎的架構并對各個組成部分進行了分析,最后分析了如何來評價搜索引擎性能的技術指標。

[關鍵詞] 搜索引擎 發展 分類 技術指標

一、引言

互聯網發展的今天,一方面離不開其開放、共享的特性帶給人們的全新體驗,另一方面也離不開數以億計的為其提供各類豐富內容的網絡節點。互聯網被普及前,人們查閱資料第一想到的便是擁有大量書籍資料的圖書館,到了今天,很多人都會選擇一種更方便、快捷、全面、準確的方式——使用搜索引擎。

二、搜索引擎的歷史

20世紀90年初,當時萬維網(World Wide Web)還未出現,為了查詢散布在各個分散的主機中的文件,曾有過Archie, Gopher等搜索工具,隨著互聯網的迅速發展,基于HTTP訪問的web技術的迅速普及,它們就不再能適應用戶的需要。1994年,Lycos推出了基于Robot的數據發現技術。1998年10月,Google誕生,它是目前最流行的搜索引擎之一,具備很多獨特而且優秀的功能,并且在界面等方面實現了革命性創新。

三、搜索引擎的分類

按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類。但各種搜索引擎站點正在結合其他搜索引擎的優點,在類型上有逐漸融合的趨勢。

1.目錄式(Directory)搜索引擎。以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo!(dir.yahoo.com)和Open Directory Project(www.dmoz.org)。

2.基于機器人(Robot-based)的搜索引擎。基于機器人的搜索引擎是一種典型的搜索引擎。由一個稱為爬蟲(Spiders或robots)的機器人程序以某種策略自動地在Internet中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。該方式力求能夠對WWW中所有數據進行檢索,涉及網上的任何領域,然而由于WWW 的海量信息,實際運行中往往只能對WWW 中部分內容進行檢索。這類搜索引擎的代表是:Google(www.google.com),國內的有百度(www.baidu.com)等。

3.元搜索引擎(Meta-searchengine)。元搜索引擎的基本思想是:當搜索引擎受到來自客戶的查詢請求后,自動將這些查詢請求轉發給其它多個搜索引擎,并將各搜索引擎返回的查詢結果收集起來進行處理,最終提供給用戶。這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。這類搜索引擎的代表是WebCrawler、InfoMarket等。

四、搜索引擎基本組成

1.搜索器。搜索器的功能是在Internet中漫游,發現和搜集信息。搜索器搜集的信息類型多種多樣,包括HTML文本、XML文本、Newsgroup文章、FTP文件、字處理文檔(如Word,Postscript, PDF)、多媒體信息(如圖片、聲音、動畫、視頻)等。它常常是一個或者多個互相協調的計算機程序,日夜不停地運行,目的是要盡可能多、盡可能快地搜集各種類型的新信息,同時因為Internet上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。

2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,內容索引項是用來反映文檔內容的。一個搜索引擎的有效性在很大程度上取決于索引的質量。

3.檢索器。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。

4.用戶接口。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。

五、搜索引擎技術指標

可以用查全率(Recall)和查準率(Pricision)衡量一個搜索引擎的性能,定義如下:

查準率(精度)=搜索到的相關文檔數/搜索到的全部文檔數

查全率(召回率)=搜索到的相關文檔數/包含的全部相關文檔數

影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制等。

六、小結

互聯網技術的發展,使得互聯網上的信息量急劇增加,信息越來越豐富,越來越多的網絡用戶依靠搜索引擎技術,從浩瀚的信息海洋中獲取信息,為學習、生活提供越來越多的便利,搜索引擎技術必將會有更大的發展應用。

參考文獻:

[1]李曉明:http://www.se-express.com[EB]

[2]劉峰王秀坤楊南海馬霖:中英文專業搜索引擎中數據采集加工的設計與實現[J].計算機應用研究.2004,21(10):155~157

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: av在线手机播放| a毛片免费在线观看| 欧美国产视频| 天天综合天天综合| 特级aaaaaaaaa毛片免费视频| 国产精品一区二区久久精品无码| 一区二区日韩国产精久久| 亚洲国产系列| 久久婷婷国产综合尤物精品| 国产性爱网站| 国产精品微拍| 精品国产成人高清在线| 欧美色图久久| 日韩国产亚洲一区二区在线观看| 国产精品第| 九色免费视频| 国产精品女人呻吟在线观看| 99在线视频网站| 久久精品亚洲专区| 午夜电影在线观看国产1区| 中文字幕久久波多野结衣 | 一区二区三区四区精品视频| 97在线观看视频免费| 日韩精品一区二区三区视频免费看| 欧美日韩亚洲综合在线观看| 亚洲欧美不卡中文字幕| 国产精品自在在线午夜| 国产在线观看91精品亚瑟| 国产精品视频观看裸模 | 永久免费AⅤ无码网站在线观看| 永久免费无码日韩视频| 亚洲男人天堂2018| 伊人成人在线| 久夜色精品国产噜噜| 国产精品v欧美| 欧美国产日韩在线播放| 久久精品丝袜高跟鞋| 无码aⅴ精品一区二区三区| 98精品全国免费观看视频| 亚洲日本精品一区二区| 亚洲精品无码av中文字幕| 91九色视频网| 久久动漫精品| 国产精品自在拍首页视频8| 亚洲欧美在线综合一区二区三区| 国产精品欧美日本韩免费一区二区三区不卡 | 国产黄在线观看| 国产在线观看一区精品| 免费精品一区二区h| 任我操在线视频| 国产精品不卡片视频免费观看| 高清大学生毛片一级| 久久伊伊香蕉综合精品| 人人爽人人爽人人片| 超级碰免费视频91| 成人久久18免费网站| 99re精彩视频| 亚洲系列无码专区偷窥无码| 成年片色大黄全免费网站久久| 最新痴汉在线无码AV| 国产无码性爱一区二区三区| 麻豆精品在线| 久久窝窝国产精品午夜看片| 粉嫩国产白浆在线观看| 国产99久久亚洲综合精品西瓜tv| 国产96在线 | 毛片三级在线观看| 亚洲一区二区三区香蕉| 人妻无码AⅤ中文字| 国产成a人片在线播放| jizz在线观看| 精品精品国产高清A毛片| 国产剧情一区二区| 日韩av无码DVD| 国产人妖视频一区在线观看| 免费看美女自慰的网站| 国产三级韩国三级理| 国产精品无码影视久久久久久久 | 少妇极品熟妇人妻专区视频| 亚洲欧洲日产国码无码av喷潮| 国产爽爽视频| 欧美亚洲第一页|