狄文凱
(皖南醫學院圖書館,安徽 蕪湖 241002)
Internet信息資源是指以數字化形式存儲在Internet上的各種信息資源的總和。按信息來源劃分,Internet信息資源可分為政府信息資源、公眾信息資源、商用信息資源;按信息時效劃分,可分為電子郵件型、圖書館目錄、書目與索引、全文資料及電子出版物、數據庫等信息資源;按網絡傳輸協議劃分,可分為WWW、Telnet、FTP、用戶服務組、Gopher等信息資源。Internet信息資源具有以下特點:(1)內容多樣性。Internet是個開放的信息傳播平臺,任何機構、任何人都可以將自己擁有的且愿意與他人共享的信息傳遞到網絡上。如公共圖書館、網絡信息服務商、傳統媒體、高等院校、科研機構、各類商業公司等是Internet信息供應源。Internet信息資源包含科學技術領域信息、歷史檔案信息、知識性和教育性的信息、傳媒信息、學術文化信息、經濟信息;(2)信息表現形式多樣。Internet是一個集聲音、圖像、文字、照片、圖形、動畫、電影、音樂為一體的綜合性信息系統;(3)Internet信息資源集信息關聯性、信息開放性、信息時效性于一體。Internet的信息組織是基于超文本的,有關聯的信息之間通過鏈接形成一個相互聯系的信息渠道。Internet具有很強的時效性,能很快地將信息傳播到世界各地;(4)信息交互性強。用戶不僅可以在Internet上獲取信息,而且也可以在Internet上發布信息。用戶通過Internet可以與科學家、工程技術專家、醫生、律師、教育家進行交流,同時也可發表個人的見解。
用戶要了解和利用Internet信息資源,必須借助檢索工具對Internet信息資源進行檢索。而搜索引擎(Search Engine)作為 Internet的信息檢索系統,已成為用戶普遍使用的信息檢索工具。它以一定的策略在Internet上搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務。搜索引擎一般有搜索器、索引器、檢索器、用戶接口等組成,搜索引擎有兩個主要的功能:第一個功能是收集信息并建立索引數據庫,自動跟蹤信息源的變動,不斷更新索引記錄,定期維護數據庫;第二個功能(最主要的功能)是提供網絡的信息導航與檢索服務。搜索引擎的查詢方式有:(1)簡單檢索。直接輸入一個關鍵詞,提交搜索引擎查詢,這是最基本的查詢方式;(2)詞組檢索。輸入兩個單詞以上的詞組(短語),當做一個獨立運算單元提交搜索引擎查詢。這種方式也叫短語檢索;(3)語句檢索。輸入一個多詞的任意語句,提交搜索引擎查詢。這種方式也叫任意查詢;(4)高級檢索。用布爾邏輯組配方式查詢。
基于搜索引擎的Internet信息資源檢索方法主要分為基于超文本的信息查詢、基于目錄的信息查詢、基于元搜索引擎的查詢三種。
該類搜索引擎由檢索器根據用戶的查詢輸入,按照關鍵詞檢索索引數據庫。這種方式是大多數搜索引擎最主要的功能。在主頁上有一個檢索框,用戶在檢索框中輸入要查詢的關鍵詞,單擊“檢索”(或“搜索”、“search”、“go”等)按鈕,搜索引擎就會在自己的信息庫中搜索含有輸入的關鍵詞的信息條目。用戶可以通過分析選擇所需的網頁鏈接,直接訪問要找的網頁。此類搜索引擎主要有:(1)天網(http://e.pku.edu.cn)。 天網提供全文檢索、新聞組檢索、FTP檢索(北京大學、中科院等FTP站點)。目前大約收集了100萬個WWW頁面(國內)和14萬篇Newsgroup(新聞組)文章。支持簡體中文、繁體中文、英文關鍵詞搜索,不支持數字關鍵詞和 URL名檢索;(2)百度(http://www.baidu.com/)。百度是目前全球最大的中文搜索引擎,除提供網頁搜索外,還提供MP3、圖片、視頻、地圖等多樣化的搜索服務,給用戶提供更加完善的 搜 索 體 驗 ; (3)AltaVista (http://www.altavista.com)。該種搜索引擎提供全文檢索功能,并有較細致的分類目錄。提供檢索新聞、討論組、圖形、MP3/音頻、視頻等檢索服務以及進入頻道區(zones),對諸如健康、新聞、旅游等類進行專題檢索;(4)Infoseek(http://www.infoseek.com)。Infoseek提供包括通過電子函件發送新聞、外國語搜索、按地理區域的搜索以及個人的金融文件夾等。提供全文檢索功能,并有較細致的分類目錄,還可搜索圖像。網頁收錄極其豐富,以西文為主,支持簡體和繁體中文檢索。
目錄分類式(網站級)搜索引擎的數據庫是依靠專職編輯人員建立的。當用戶提出檢索要求時,搜索引擎只在網站的簡介中搜索。用戶只要用鼠標單擊這些分類鏈接就可以一級一級地深入這個目錄,最終搜索到所需的網頁。所收錄的網絡資源經過專業人員的鑒別、選擇和組織,保證了檢索工具的質量,提高了檢索的準確率。常見的目錄分類式搜索引擎主要有以下幾種:(1)搜狐(http://www.sohu.com)。搜狐為用戶提供查找網站、網頁、新聞、網址、軟件、黃頁等信息;(2)新浪(http://www.sina.com.cn)。新浪將網絡資源分為18個大類,收錄網站20萬個。提供網站、中文網頁、英文網頁、新聞、漢英辭典等多種資源的查詢;(3)網易(http://www.163.com)。網易新一代開放式目錄管理系統,為用戶創建了一個擁有超過1萬個類目的信息;(4)Yahoo(http://www.yahoo.com)。 Yahoo 擁有第一流的Web目錄和最佳的新聞鏈接以及許多附加服務。有10余種語言版本,提供類目、網站及全文檢索功能;(5)Looksmart(http://www.looksmart.com)。LookSmart是人工目錄集合網站,向其他搜索引擎提供搜索結果。目前,LookSmart已建成含有25億URL,11億索引文檔的網絡索引目錄,集合了400萬個網站。
元搜索引擎是一種調用其他獨立搜索引擎的引擎,對多個獨立搜索引擎進行整合、調用、控制和優化利用。檢索時,元搜索引擎根據用戶提交的檢索請求,調用源搜索引擎進行搜索,對搜索結果進行匯集、篩選、刪并等優化處理后,以統一的格式在同一界面集中顯示。常見的元搜索引擎有:(1)Dogpile(http://www.dogpile.com)。它可以同時調用25個獨立搜索引擎進行信息檢索;(2)Mamma(http://www.mamma.com)。Mamma是并行式元搜索引擎,可以同時調用 AltaVista、Excite、Infoseek、Lycos、WebCrawler、Yahoo 等獨立搜索引擎, 并且可以查新聞組、 商業黃頁等;(3)AskJeeves(http://www.askjeeves.com)。AskJeeves提供同時搜索AltaVista、Excite、Yahoo、Infoseek、Lycos和 WebCrawler的功能,此外還能同時搜索自己獨立的數據庫。
第一,Internet信息資源的不完整、不系統、不科學,導致信息檢索必須多次進行,造成人力、物力和時間上的浪費。第二,Internet信息資源加工處理不規范、不標準,使信息檢索的查全率、查準率下降。第三,Internet信息資源分散、無序、時常更換,用戶無法判斷網上有多少信息同自己需求有關,檢索評價標準無法確定。第四,信息資源版權和知識產權問題,也給信息檢索帶來麻煩。第五,信息的語言障礙問題。目前Internet上80%以上的信息是以英語形式發布的,英語水平低和不懂英語的用戶很難利用Internet上龐大的信息資源。對中國用戶來說,雖然網上中文信息劇增,但還是需要查詢西方國家先進科技信息,由于缺乏漢化軟件、自動翻譯系統尚未成熟,因此,語言障礙也影響了廣大用戶對網上信息資源的開發與應用。
用戶必須掌握各種網絡信息檢索工具,才能檢索到自己所需要的網絡信息資源。但由于Internet信息組織的特殊性和目前檢索工具自身存在的一些問題,信息檢索不是一件輕而易舉的事情。第一,Internet上的信息存放地址會頻繁轉換和更名,根據檢索工具檢索的結果并不一定就能獲得相應的內容。第二,基于一個較廣定義的檢索項,往往會獲得數以千萬計的檢索結果,而使用戶難于選擇真正所需的信息。第三,每種檢索工具雖然僅收集各自范圍內的信息資源,但也難免使各種檢索工具的信息資源出現交叉重復現象。
在Internet這個開放式的信息檢索系統中,用戶不僅要檢索信息資源,同時還進行信息資源的收集、整理、存儲工作。因此,Internet用戶的信息獲取與檢索能力對信息檢索有著直接的影響。用戶對信息檢索需求的理解和檢索策略的制定關系到信息檢索的質量,用戶的計算機操作能力及網絡相關知識的掌握程度影響著信息檢索的效率,用戶對網絡信息檢索工具的應用熟練程度影響著信息檢索的效果,用戶的外語水平影響著信息檢索的廣度。
網絡信息資源檢索工具數量眾多,各有千秋,不同的檢索工具,其索引規模、搜索范圍、索引組織、查詢的表示形式、特征項的選擇、輸出結果的形式、檢索功能等各不相同。如果用戶能選擇合適的檢索工具,對取得檢索成功有很大幫助。在選擇網絡信息資源檢索工具時,用戶要明確不同類型網絡信息資源檢索工具的適用范圍,要了解主要網絡信息資源檢索工具的特點與功能,重視網絡信息資源檢索工具的分類瀏覽功能,注重多種網絡信息資源檢索工具的組合使用。
提高Internet信息資源檢索效率,除了選擇合適的檢索工具以外,還要制定切實可行的檢索策略。首先,要對檢索課題的主題進行分析,提煉出正確的關鍵詞。其次,要選擇適當的詞語,確定檢索項。檢索詞可以是規范詞,也可以是自由詞。再次,要編制既能表達檢索課題需求又能為計算機識別的檢索提問式。用戶可關閉圖像提高下載速度,打開多個檢索窗口減少等待時間,以提高檢索效率;降低檢索詞的專指度,使用同義詞、近義詞,使用布爾邏輯或or等擴大檢索范圍,以提高查全率;提高檢索詞的專指度、使用布爾邏輯與and、利用高級(進階)檢索、使用詞組檢索、使用字段限制檢索、使用完全字符串檢索、使用大小寫檢索等縮小檢索范圍以提高查準率。
加強用戶培訓,是提高網絡信息檢索效率的最有效途徑之一。圖書館可通過開設文獻檢索或計算機檢索課程培養用戶的信息資源檢索能力。根據不同類型的用戶采取不同的培訓方式,如網上自助式培訓、定期不定期舉辦講座或培訓班、編印網絡信息資源檢索方法手冊等,對用戶開展網絡基礎知識、各類網絡信息資源介紹及網絡檢索工具使用方法等內容的培訓,提高用戶獲取網上信息資源的技能。
[1] 鄒永利,王春強.影響網絡信息檢索效率的用戶因素[J].情報理論與實踐,2008(3):374-376.
[2] 聶建霞.提高網絡信息檢索效率探討[J].情報探索,2010(6):95-96.
[3] 張友梅.網絡信息資源檢索問題研究[J].科技情報開發與經濟,2010(1):92-94.
[4] 王新衛.Internet信息資源檢索機制研究[J].西安文理學院學報(自然科學版),2007(2):100-102.
[5] 吳江.搜索引擎關鍵詞和目錄檢索系統合并提高檢索率[J].圖書館論壇,2008(4):80-82.
[6] 袁津生.搜索引擎與信息檢索教程[M].北京:中國水利水電出版社,2008.
[7] 克羅夫特.搜索引擎:信息檢索實踐[M].劉挺,譯.北京:機械工業出版社,2010.
[8] 搜索引擎 [EB/OL].[2010-12-25].http://baike.baidu.com/view/1154.htm#sub1154.