學術隱蔽網絡數據庫查找探析

2010-09-17 03:34:50張海游

大學圖書情報學刊 2010年1期

張海游

（天津商業大學，300134）

1 隱蔽網絡，學術隱蔽網絡及數據庫

隨著萬維網在上個世紀90年代的突起，網絡資源得到飛速增長，但有搜索引擎和網絡目錄能搜索到的信息只占整個互聯網信息資源的很小部分，大約只占網絡信息資源的16%，其余84%的資源對于這些搜索工具是不可見的，成為隱蔽網絡“Invisible Web”。美國知名圖書館員和信息專家Sherman和Price將隱蔽網絡定義為：在萬維網上可獲得的資源，但由于技術限制，或是由于特定選擇而不能或未被納入通用搜索引擎網頁索引中的文本網頁、文件或其他高質量的權威信息資源，有時也被稱為“深層網絡”、“看不見的網絡”等。[1]

在過去的十年中，隱蔽網絡的存在極大地激發了檢索人員、圖書館員和信息專業人士的探索精神，很多研究者將隱蔽網絡比喻為“理想的黃金國”，其內容之豐富遠在一般搜索引擎之上。它能夠提供相關科學過程的學術信息資源，包括：文獻如論文、學位論文、報告、圖書等；數據如調查數據；純網絡內容如開放存取Americal Memory（memory.loc.gov/ammem/index.html）；Babel fish（babelfish.yahoo.com）（提供多種語言翻譯的網站）；Find Articles（findarticles.com）（提供論文檢索下載服務）；Library of Congress Catalog （catalog.loc.gov）和Universal Currency Converter（www.xe.com/uc）（提供最新貨幣兌換數據）。

關于隱蔽網絡的規模學界多引用Berman于2001年發表的論文 “The Deep Web：Surfacing Hidden Value”。在這篇文章中Berman對主要隱蔽網絡進行重疊分析，認為大約有10萬個隱蔽網絡數據庫，但要去掉只包括原始數據的數據庫，學術內容的比例就縮小到4%，因為隱蔽網絡的主要部分是原始數據（rawdata），大多為圖片，如地球衛星圖片，這些數據的存儲空間遠遠大于文本數據庫。[2]德國杜塞爾多夫大學的Dirk Lewandowski給學術隱蔽網絡（Academic Ivisble Web）下的定義是：包含所有數據庫和相關學術收藏但不被普通搜索引擎所檢索的那部分資源。[3]

一般搜索引擎爬行器可以查找和標引數據庫的地址，最大的技術障礙來自于數據庫及數據庫的網站。數據庫里的信息是學術隱蔽網絡的核心，但大多數據庫中的信息資源由于通常要通過人機交互才能查詢，如數據庫入口處設置的賬號、密碼等提問，是機械化搜索引擎難以跨越的障礙，所以引擎不能直接查找數據庫里具體的內容。此外，基于數據庫的站點也會使搜索引擎爬行器在動態網站中受阻。世界上銷售量最大的書店亞馬遜電子書店（amazon.com）就是一個基于數據庫的網站，在該網站中，大部分有關書、作者、評論等的信息都儲存在數據庫中，只有當用戶查詢時才會在網頁上顯示出來。因此想要檢索某數據庫，就必須使用數據庫本身所提供的強大的搜索和檢索工具。這種方法的優點在于可以使用專門用在數據庫中檢索最佳結果的檢索工具，而其不足則在于必須首先找到這個數據庫。[4]

因此，如何找到相關隱蔽網絡數據庫，是檢索學術隱蔽網絡的關鍵，如果圖書館能有針對性地將某一學科的相關隱蔽網站盡可能地收入囊中并對其進行二次加工，不僅能有效擴大館藏，而且能夠提升圖書館的特色。查找的手段分為直接查找和間接查找。直接查找包括自動利用專業搜索引擎發現隱形網頁資源和構建面向隱形Web資源的網絡爬行器等；間接查找，即使用某些查找工具，如通用搜索引擎，網絡目錄，隱蔽網絡專門工具，及學術搜索引擎等進行輔助查找。[5]本文將重點探討間接查找，為具體操作提供查找框架和方法以改善用戶個人搜索策略。

2 隱蔽網絡數據庫的查找手段

2.1 使用學術搜索引擎（academic and scholar search engines）

文章[3]介紹了四種免費綜合性學術搜索引擎：Google Scholar、Sirus、Base和 Vascoda。Google學術搜索（http：//scholar.google.com）和 Scirus科學搜索引擎（http：//www.scirus.com）均由商業機構創辦，資源來源于學術著作出版社提供的知識庫以及開放存取的內容；Base（Bielefeld Academic Search Engine）和 Vascode（http：//www.vascoda.de）是圖書館和信息機構開放其收藏的非贏利性學術計劃，主要是學術參考數據庫、圖書館目錄及免費的優質文件。以上4種系統的共同點是都關注隱蔽網絡學術信息，但目錄學術搜索引擎還處于起步階段，存在一些問題，如標引和檢索詞未受控，易造成漏檢；學術資源在不同的數據庫中重復存儲；一些搜索引擎只提供按相關性排序檢索結果，引文作為相關性的重要指標，但由于引文存在滯后性和動機不同，會導致內容不相關資源獲得較高的相關排序，掩蓋真正相關資源；免費學術搜索引擎一般沒有嚴格的質量控制機制，檢索結果中可能會存在很多低質量資源。[6]因此用戶在使用時應小心分辨，特別是學術分辨和學術能力相對較弱的用戶不要盲目相信某一固定的檢索來源，應綜合利用多種檢索工具，養成良好的學術檢索習慣。

2.2 使用隱蔽網絡專門目錄（deep web directories）

相對其他搜索工具，隱蔽網絡目錄最大的優點是經過人工挑選，學術資源質量較高，得到學術研究團體比較廣泛的認可。我國很多高校圖書館網頁上都列出了相關隱蔽網絡專門目錄供師生查閱使用，如蘭州大學圖書館就在最新免費數據庫資源一欄中推薦使用專門目錄查詢深網資源。以下列出的是幾個比較知名的目錄：

Complete Planet www.completeplanet.com

Direct Search www.freepint.com/gary/direct.htm Informine http://informine.ucr.edu/Geniusfind http://geniusfind.com

Resource DiscoveryNetwork www.rdn.ac.uk/

Search EngineColossuswww.searchenginecolossus.com/

Search Engine Guide www.search engineguide.com/searchines

Complete Planet是現今為止最大的網絡目錄之一，是Bright Planet公司擁有的網絡站點，包括7萬個可以檢索的數據庫及專用搜索引擎，以前只作商用，現在對公眾開放。Price是喬治華盛頓大學圖書館的館員，同時也是隱蔽網絡研究和Direct Search網站的開創者，Direct Search包括專題目錄集合和新增加到目錄里新的數據庫的通告，被認為是最具權威的用于檢索隱蔽網絡的網站。Informine是由加州大學、底特律大學等多個高校參與建設的數據庫，主要服務于高校師生和研究人員。http://lii.org/是由公共資助，加州圖書組織建設的網站，服務于加州、美國和世界，每周四會發布免費的時事資訊，提供一些由館員經過仔細挑選的高質量網站。

以上很多指南都提供網內檢索服務，用戶可以查詢相關數據庫但由于專門目錄和下面將要提到的通用網絡目錄在查詢時都存在不完全或忽略良好匹配的問題，筆者建議暫不使用該查詢功能，而是瀏覽其相關主題分類目錄，然后點擊該目錄，一級一級地向下尋找并記錄下有用的相關數據庫。雖然隱蔽網絡目錄可以檢索很小部分的數據庫，也許以后網絡目錄的覆蓋面會提高，但現在我們還必須使用Google等一般搜索引擎尋找數據庫的范圍。

表1 數據庫經常使用的名稱

2.3 使用主要搜索引擎

使用通用搜索引擎查找數據庫，通常是在搜索欄中輸入主題詞，在主題詞后面加上類似于“searchable database”或者“interactive tool”等詞語。Google等搜索引擎能夠檢索到有以上查詢形式的數據庫，然后再利用數據庫自帶的查詢系統檢索該數據庫的內容。很多學者都建議采用這種基本方法發掘隱蔽網絡。在檢索某一主題時首先要考慮該主題所屬的更寬泛的分類，即上一級的分類，這樣可以避免由于題目過于狹窄或者必須人機交互找不到合適的數據庫，并有助于擴大查詢范圍。譬如，The Battle ofGettysburg（匹斯堡戰役），應該屬于the Americal Vivil War（美國內戰）的范疇。

輸入關鍵詞“civil war”+“database”或者與database類似的詞，可以找到關于美國內戰的隱蔽網絡數據庫，然后再用數據庫自帶的檢索工具查詢有關Gettysburg戰役的記錄，文章或者圖片等。

這種方法被稱為“錯層檢索”（split-leval searching），即檢索人員首先使用Google檢索，將結果限制在專門的數據庫和引擎上，然后再利用這些工具查找某一特定的題目。[7]這個過程猶如使用OPAC檢索某百科全書，確定其在書架上的位置后，找到它，再利用書里的內容目錄和索引尋找僅使用OPAC不能查到的具體的信息。在具體的操作中，應該考慮以下幾個問題：

（1）通常我們檢索隱蔽網絡時需要在關鍵詞后面加上“database”，但有些數據庫的創建人使用的可能是其他詞語，[8]見表1。文章[8]指出一般關于歷史的隱蔽網絡數據庫傾向于使用“digital archive”或者“online collection”，商業數據庫一般使用“inventory”，藝術類的數據庫經常以“online gallery”命名。科學界喜歡用“information system”，而“directory”多出現在表示交易和地理位置列表的數據庫中。一般搜索引擎像“Google”或者“AltaVista”允許用戶在單次查詢使用多個近義詞，具體方法是使用大寫“OR”運算符號和括號，如：

+ “civil war”（database 0R “search engine”0R“online collection”OR“digital archiye”）

（2）簡單的輸入 +“civilwar”+database，會出現關于這個主題數目龐雜的數據庫，如果用戶需要的只是一些文獻、日記、回憶錄等原始資料時，需要對檢索詞進行限制，如：

+“Civil war”+database（“primary sources”0R diarieS0R documents 0R memoirs）

或者使用通配符*進行限定，也可以找到相關度高的數據庫：

如“primary*database”該檢索可以找到primary source database，primary material database， primary document database等所有關于原始內容的數據庫。

（3）有些情況下，在檢索框中輸入“search form”能更好的限制檢索結果。一般來說，數據庫會有一種查詢形式，輸入以下檢索式可以將檢索集中到具有查詢形式的數據庫：

+transportatiOn+database+“search form”

其次，將主題詞和經常出現在檢索頁面里的像“submitquery”，“quicksearch”或者“advanced search”等短語組合，可以有效過濾掉僅僅含有“database”這個詞但并不是真正的數據庫。與上述相似的另一個方法也可以檢索到比較理想的結果，如：

+transportation+database inurl：search

注意inurl：和search之間不空格，該檢索表達式可以找到正文中含有 “transportation”和“database”，以及在在網址中出現“search”的相關站點（許多數據庫創始人會在網站檢索頁的地址中使用“search”這個詞）。

（4）檢索隱蔽網絡數據庫還應該考慮過濾商業數據庫。在Google檢索框中輸入“database”會出現大量的受權限訪問的，只對本館或付費用戶開放的電子資源。

舉例來說，查找社會學數據庫時，我們可以通過調整檢索表達式過濾收費數據庫：

+database+sociology-ebscohost-proquestinfotrac-“SOCiOlogicai abstracts”-subscriptiOn-fee

2.4 使用網絡目錄的主題分類

2.4.1使用雅虎等網絡目錄

綜合性的主題分類樹體系的網絡資源指南受到用戶的歡迎。其主要特點是根據網絡信息的主題內容進行分類，并以等級目錄的形式組織和表現。通過網絡目錄，像著名的雅虎目錄，計算機驅動的新型目錄和OCLC Worldcat全球目錄等都可以幫助檢索人員尋找到免費的在線數據庫。在Google檢索框中輸入主題詞檢索的數據庫往往只是提到“數據庫”，并非真正的數據庫，而許多的通用網絡目錄會直接將帶有“database”標題的網站與實際的數據庫鏈接，可以大大提高檢索的準確度。Yahoo是迄今為止使用最廣泛的網絡目錄之一，其發達的分類目錄是檢索隱蔽網絡的門戶。

雖然大多數通用目錄都具備查詢功能，但是網站目錄僅僅由鏈接和注解組成，使用網站目錄的檢索功能是檢索構成這些鏈接和注解的詞，而不是他們所指向的網絡文件全文，因此，檢索結果可能會不完全或忽略了潛在的良好的匹配。[7]還有，由于初次使用我們可能并不清楚所查詢的數據庫對應哪一主題分類，檢索往往會受限。因此，在使用上述方法時，筆者認為要遵循以下幾個步驟：

首先在Google或者Yahoo的主檢索頁進行正常的主題詞+database檢索，找到一個數據庫，在雅虎目錄中檢索該數據庫的標題，檢查該數據庫的所屬分類，看它是否包含“database”或者類似的詞，如果有，點擊該類別查看其他專門數據庫。

譬如，利用Yahoo進行關鍵詞查詢生物學數據庫可以找到以下優質數據庫：

Integrated TaxonomiCInformatiOn System

然后在雅虎目錄輸入該數據庫的名稱（在yahoo.com主頁檢索框上方點擊more，在more的下拉菜單中找到directory，進入雅虎目錄），在查詢結果頁面顯示的類別中找到包含有“taxonomic databases”標題的那類，點擊該分類就可以找到其他的同類數據庫。利用雅虎等網絡目錄既可以受益于其包羅萬象的豐富內容，又能通過其分類將檢索細化。但Yahoo和大多數的網絡目錄（如open directoryprojec）只能夠標引關于某一主題的部分數據庫或相關工具，并且擅長的領域不同，譬如Yahoo目錄在自然領域和 “peoplefinders”、“image searchengines”和“searchable archive”等方面表現優異，可以找到很多相關的專業資源。讀者可以嘗試在目錄中輸入常用的數據庫或工具檢索，檢查結果看其是否能夠提供包含多個數據庫的分類鏈接。鑒于此，用戶在使用時要盡量查詢多個門戶以保證獲得全面的檢索結果。

2.4.2利用新型搜索引擎

由于通用網絡目錄只會給部分數據庫加上小標題，檢索人員應當多嘗試利用新的搜索引擎，如Gigablast（www.gablast.com）和 ViviSimo（www.vivisimo.com）。它們可以自動給多個主題領域內的數據庫生成小標題，用戶可以先使用主題詞檢索，然后網站的相關工具會對檢索結果進行分類，最終展現給用戶的是某一題目下定制的多個小標題列表。隱蔽網絡檢索人員可以利用該功能篩掉僅僅提到“database”或者“search engine”的偽數據庫。如在Gigablast檢索：

database+“baseball cards”

在頁面左上方系統自動生成的主題樹結構中查找含有“database”的小標題，點擊標題確認只含有“database”單詞的網頁已被過濾，則這個標題下的站點就很有可能是真正可以檢索的數據庫，這種標題生成機制會使檢索更加精確。或者在ViVisimo中檢索Movic database，我們可以看到在頁面左側的主題樹結構里排列著各式各樣的電影數據庫分類，這種結構可以方便隱蔽網絡檢索人員快速地從中篩選出合適的主題數據庫。

2.4.3使用OCLCWorldcat

除網絡目錄外，OCLCWorldcat（全球目錄）也充當著隱蔽網絡目錄的作用，原因是現在很多圖書館都開始對網站進行編目，其高級檢索界面允許檢索者將檢索范圍擴展到互聯網，通過使用“database”或者類似的詞語作為標題，檢索人員可以將檢索集中在已被其他圖書館挑選出來的隱蔽網絡資源。

2.5 評價查找結果

完成檢索數據庫的工作后，要重新審視已找到的數據庫，確定它是否能提供獨一無二的高質量的內容，是否可以通過Google查到。如果它能提供高質量的資源而且不能被Google檢索到，那就很有可能找到了寶藏。值得注意的是有些專門數據庫會全部或部分被Google索引，有的則對搜索引擎完全不可見。因此讀者可以先在某數據庫里檢索，然后再用Google檢索看能否直接找到上述查找內容來確定Google是否標引了該數據庫的內容。

另外，將找到的隱蔽網絡資源和圖書館購買的商業數據庫進行比較，特別是那些能夠彌補館藏資源建設薄弱或者缺乏的資源。即便有的數據庫的內容同館藏部分資源重復，在做取舍的時候也要衡量這些專門的數據庫是否提供更先進的限制檢索的方法或者提供比其他資源更快捷的檢索服務等。

3 結論

對隱蔽網絡資源進行收集、評價與管理是當今圖書館館藏建設的重要業務之一，既能滿足用戶對信息的需求，又能提升圖書館的服務，同時也是凸顯館員專業水平的絕佳機會。因此，很多學者都建議教師在文獻檢索課上介紹隱蔽網絡，實驗證明它能夠極大的激發學生的求知欲和對文獻檢索的興趣，每個館員都應該了解并在工作中利用隱蔽網絡服務于讀者。[9]本文描述的深網查詢方法和策略可能并不全面，對深網的研究是一個漫長漸進的過程。同時我們應該認識到，Internet上的信息資源正以無法估量的速度增長，而搜索引擎更新的速度遠遠跟不上資源的增長速度，隱蔽網絡問題可能永遠得不到解決。但無論如何我們應該像Price在書中所倡議的那樣“大膽地進入搜索引擎未曾進入的領域?！硎苤挥性谑澜绲貐^遠征地早期探索者才能感受到的快樂和滿足。”[10]

[1][4][10]Gary Price，Chris sherman.馬費成等譯.看不見的網站-Internet專業信息檢索指南[M].沈陽：遼寧科學技術出版社，2003.47-48，51.

[2]Michael K.Berman0The Deep Web：SurfaeingHidden Value0 2009-06-04.

[3]Dirk Lewandowski，Philipp Mayr.ExplOrlngthe AcademiCInvisible Web.LibraryHi Tech.http：//www.emeraldinsight.com/0737-8831.btm.2009-05-20.

[5]劉雅晴.隱蔽網絡及其資源檢索策略研究[J].情報科學，2006，(5)：714-715.

[6]常唯.綜合性學術搜索引擎研究[J].大學圖書館學報，2007（2）：75-76.

[7]R.Kay.Deep Web[J].Computerworld，2005，39（51）：28.

[8]Brett Spencer.HarnesSlng the Deep Web：a practical plan for locatlng free specialty databaseOn the web.Reference Services RevieW.http：//www.emeraldinsight.com/0090-7324.htm.2009-05-28.

[9]Jane Devine，Francine Egger-sider.Beyond 600gle：the lnvisble Web in the AcademiC Library[J].The Journal OfAcademiCLibrarianship，2004，（5），265-269.