基于Ｐ２Ｐ的數(shù)字圖書館分布式搜索關(guān)鍵技術(shù)

2008-01-01 00:00:00潘威郭希娟

計(jì)算機(jī)應(yīng)用研究 2008年4期

摘要：在對(duì)現(xiàn)流行的互操作協(xié)議的發(fā)展和特征進(jìn)行比較分析的基礎(chǔ)上，介紹了基于P2P搜索方法的特點(diǎn)及分類。最后在原有OAI－PMH框架的基礎(chǔ)上，提出一種基于P2P技術(shù)的數(shù)字圖書館分布式搜索模型 (P2P－DL) ，并對(duì)系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)進(jìn)行了分析與設(shè)計(jì)。

關(guān)鍵詞：數(shù)字圖書館；對(duì)等點(diǎn)；分布式搜索； OAI－PMH

中圖分類號(hào)：TP393文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001－3695(2008)04－1240－03

數(shù)字圖書館是將多種媒體形態(tài)的大量文獻(xiàn)信息以規(guī)范的數(shù)字方式存儲(chǔ)在計(jì)算機(jī)中，并將信息的存儲(chǔ)、管理、檢索、發(fā)布和產(chǎn)權(quán)保護(hù)等綜合技術(shù)集成在一起，利用現(xiàn)代網(wǎng)絡(luò)技術(shù)，實(shí)現(xiàn)跨地區(qū)、跨國(guó)家的多個(gè)數(shù)字圖書館的連接，使讀者能通過統(tǒng)一的界面，在任何地點(diǎn)、任何時(shí)間實(shí)現(xiàn)自己的信息需求。數(shù)字圖書館追求的最終目標(biāo)是實(shí)現(xiàn)聯(lián)邦檢索，即將全球的數(shù)字化資源連為一體，實(shí)現(xiàn)館中數(shù)字資源和信息的共享，為用戶提供統(tǒng)一、高效的檢索服務(wù)[1]。

數(shù)字圖書館的檢索服務(wù)實(shí)際是一種分布式搜索[2]，它首先要解決系統(tǒng)間的互操作問題，然而現(xiàn)有的數(shù)字圖書館分別屬于不同的機(jī)構(gòu)，使用不同格式的元數(shù)據(jù)，這也構(gòu)成了形成聯(lián)邦數(shù)字圖書館的最大障礙。為了克服這一困難，出現(xiàn)了各種數(shù)字圖書館之間互操作的方案[3]。然而在分布式環(huán)境和用戶數(shù)量激增的情況下，原有的互操作方案表現(xiàn)出了各種各樣的局限性。因此本文解決問題的關(guān)鍵就是在分布異構(gòu)環(huán)境下的對(duì)原有的互操作方案進(jìn)行擴(kuò)展，并提出新的檢索方案。

1數(shù)字圖書館互操作協(xié)議

互操作的目的是跨越組織邊界，為不同的數(shù)字圖書館系統(tǒng)之間的客戶端和服務(wù)端提供交互。這需要不同的組織遵循一個(gè)共同的協(xié)議標(biāo)準(zhǔn)。其規(guī)范了分布式搜索時(shí)檢索信息的組織、訪問檢索服務(wù)的機(jī)制等。現(xiàn)在廣泛流行以下兩種標(biāo)準(zhǔn)協(xié)議[3]：

a)Z39.50協(xié)議。它是由圖書館界開發(fā)的用于信息搜索和檢索服務(wù)的標(biāo)準(zhǔn)協(xié)議，已被廣泛應(yīng)用于不同的計(jì)算機(jī)系統(tǒng)之間的互操作。Z39．50是一個(gè)基于客戶機(jī)／服務(wù)器結(jié)構(gòu)的網(wǎng)絡(luò)應(yīng)用層協(xié)議，并且客戶機(jī)與服務(wù)器的交互是基于會(huì)話的。客戶機(jī)程序一旦與服務(wù)器建立連接，服務(wù)器便進(jìn)行搜索并建立結(jié)果集。客戶機(jī)程序?qū)Y(jié)果集進(jìn)行檢索，而不需要檢索整個(gè)數(shù)據(jù)庫(kù)。在整個(gè)會(huì)話過程中，客戶機(jī)和服務(wù)器需要記住各自交互的狀態(tài)。Z39．50除了各種檢索服務(wù)外，還具有索引瀏覽、訪問控制和資源管理等功能。

b)OAI協(xié)議。OAI－PMH(open archives initiative protocol for memdata harvesting)是1999年由美國(guó)數(shù)字圖書館聯(lián)盟、網(wǎng)絡(luò)信息聯(lián)盟等組織提出的一個(gè)應(yīng)用框架。最初是為了解決電子期刊的預(yù)印本的互操作和元數(shù)據(jù)收割問題。2000年，OAI協(xié)議的應(yīng)用擴(kuò)展到數(shù)字圖書館領(lǐng)域，目的是實(shí)現(xiàn)分散的、不同系統(tǒng)平臺(tái)之間的元數(shù)據(jù)交換和共享，提高系統(tǒng)的互操作能力。

OAI為解決數(shù)字圖書館之間的互操作問題提出了一種簡(jiǎn)單的互操作框架，如圖1所示。該框架區(qū)分兩種不同類型的參與者，即數(shù)據(jù)提供者(data providers，DP)和服務(wù)提供者(service providers，SP)。前者要求按照標(biāo)準(zhǔn)的元數(shù)據(jù)格式(dublin core)建立館藏元數(shù)據(jù)，后者利用OAI－PMH協(xié)議從數(shù)據(jù)提供者處獲取元數(shù)據(jù)以實(shí)現(xiàn)增值服務(wù)(如搜索、瀏覽等)。該結(jié)構(gòu)的代表是Arc[4]，Arc是第一個(gè)采用OAI互操作框架實(shí)現(xiàn)的聯(lián)邦搜索服務(wù)，它能夠從遵守OAI協(xié)議標(biāo)準(zhǔn)的DLs館藏中提取元數(shù)據(jù)，經(jīng)過處理后集中保存在一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中。

Z39．50與OAI相比，功能比較完善，但是實(shí)現(xiàn)起來比較困難，所以通常只能實(shí)現(xiàn)其中一個(gè)子集。例如，用于對(duì)數(shù)字圖書館的數(shù)字對(duì)象進(jìn)行搜索管理STARTS協(xié)議就只實(shí)現(xiàn)了Z39．50協(xié)議的一個(gè)子集。而OAI的元數(shù)據(jù)采集方案不要求嚴(yán)格遵守一組完整的技術(shù)協(xié)定，只要求做少許支持基本共享服務(wù)(如數(shù)據(jù)訪問)的工作，對(duì)聯(lián)盟成員的要求很少，因此，許多組織可能會(huì)加入這種松散的DLs聯(lián)邦。檢索過程中，Z39．50是系統(tǒng)之間的分布式搜索，而OAI是檢索過程的集中式檢索(檢索服務(wù)提供者)。

總之，OAI作為一種新發(fā)展起來的互操作協(xié)議，相對(duì)Z39．50而言，吸納了更多新的思想和技術(shù)。而Z39．50作為重量級(jí)的互操作協(xié)議，其協(xié)議的復(fù)雜性，以及實(shí)現(xiàn)的困難性，對(duì)互操作的實(shí)現(xiàn)和發(fā)展帶來了瓶頸。所以O(shè)AI代表了互操作技術(shù)發(fā)展的方向和趨勢(shì)。但是由于OAI是集中式的搜索模式，在分布式環(huán)境下隨著加入的組織的增多，元數(shù)據(jù)發(fā)現(xiàn)、采集的效率會(huì)越來越低，如Arc系統(tǒng)，隨著數(shù)據(jù)提供者的增多，采集、索引和搜索均在同一個(gè)服務(wù)器上，它的效率就變得很低，它現(xiàn)在完成一次采集要用4天時(shí)間，而在索引中搜索要用約15 min，這對(duì)于用戶來說顯然是難以接受的[4]。因此需要新的技術(shù)支持OAI協(xié)議在分布式環(huán)境下的應(yīng)用。

2基于P2P技術(shù)的數(shù)字圖書館分布式技術(shù)

2.1P2P技術(shù)的引入

P2P網(wǎng)絡(luò)是一種全新的分布式網(wǎng)絡(luò)，在該網(wǎng)絡(luò)中所有主機(jī)處于同等地位。基于P2P的搜索方法與目前其他各類傳統(tǒng)搜索方法相比，其最大優(yōu)勢(shì)在于應(yīng)用了先進(jìn)的對(duì)等搜索理念，網(wǎng)絡(luò)中節(jié)點(diǎn)之間的動(dòng)態(tài)而又對(duì)等的互聯(lián)關(guān)系使得搜索可以在對(duì)等點(diǎn)之間直接地、實(shí)時(shí)地進(jìn)行，既可以保證搜索的實(shí)時(shí)性，又可以達(dá)到傳統(tǒng)目錄式搜索引擎無可比擬的深度。為此，本文提出將P2P技術(shù)與OAI技術(shù)相結(jié)合，在原有的OAI－PMH框架之上引入P2P的概念，使OAI原有的集中式搜索適應(yīng)分布式環(huán)境下的搜索，更好地解決了數(shù)字圖書館之間資源發(fā)現(xiàn)、跨倉(cāng)儲(chǔ)檢索等問題，實(shí)現(xiàn)整個(gè)社會(huì)范圍內(nèi)的聯(lián)邦數(shù)字圖書館。

2．2基于 P2P的分布式搜索技術(shù)

根據(jù)搜索與資源內(nèi)容的相關(guān)性將基于P2P的搜索技術(shù)分為結(jié)構(gòu)化搜索和非結(jié)構(gòu)化搜索[5]。結(jié)構(gòu)化搜索根據(jù)資源的內(nèi)容來存放和定位資源，這類搜索方法通常采用分布式哈希表DHT[6]將整個(gè)搜索空間對(duì)應(yīng)到一個(gè)散列空間，當(dāng)一個(gè)節(jié)點(diǎn)要搜索該資源時(shí)，對(duì)該資源的惟一標(biāo)志使用相同的散列函數(shù)進(jìn)行散列得到散列值，通過有效的局部路由，找到負(fù)責(zé)該資源的節(jié)點(diǎn)。但在這類系統(tǒng)中，用戶必須明確知道所搜索資源的惟一標(biāo)志才能進(jìn)行散列和找到該資源，且尚未完全支持多個(gè)關(guān)鍵詞的搜索。

非結(jié)構(gòu)化的搜索方法是目前應(yīng)用最廣的P2P網(wǎng)絡(luò)搜索方法且完全支持多關(guān)鍵詞的搜索，它通常采用寬度優(yōu)先算法（BFS）向所有的鄰居節(jié)點(diǎn)發(fā)送查找消息，Gnutella是這種算法的代表[7]，但是這種算法的問題是網(wǎng)絡(luò)負(fù)載過大，為此，筆者采用改進(jìn)網(wǎng)絡(luò)拓?fù)涞姆椒ǜ倪M(jìn)傳統(tǒng)非結(jié)構(gòu)化P2P網(wǎng)絡(luò)的搜索性能，引入超級(jí)節(jié)點(diǎn)super－peer。

如圖2所示，在使用super－peer[8]的系統(tǒng)中，存在一些特殊節(jié)點(diǎn)，這些節(jié)點(diǎn)各自作為一部分節(jié)點(diǎn)的中央服務(wù)器，稱做super－peer。各個(gè)super－peer也相互連接，構(gòu)成一個(gè)P2P網(wǎng)絡(luò)。對(duì)于資源的查詢，每一個(gè)客戶對(duì)等體在某一時(shí)刻僅與一個(gè)super－peer連接，客戶對(duì)等體向其發(fā)送自己的資源索引，也向其發(fā)出查詢。super－peer在收到查詢后既要根據(jù)本地緩存處理，也會(huì)在super－peer間傳播查詢。發(fā)起查詢傳播的super－peer在收到其他super－peer的回應(yīng)后，會(huì)將這些回應(yīng)連同本地查詢結(jié)果返回給客戶對(duì)等體。

這類系統(tǒng)不再依賴惟一的中央服務(wù)器，從而解決了中央索引模型中可伸縮性不強(qiáng)、容錯(cuò)性不夠的問題;另一方面由super－peer來各自負(fù)責(zé)一部分節(jié)點(diǎn)資源的搜索、索引的維護(hù)，從而避免了泛洪請(qǐng)求模型中消息泛濫的情形，使搜索效率明顯增強(qiáng)。

3基于P2P技術(shù)的數(shù)字圖書館分布式搜索框架

由以上分析可知，基于OAI的互操作技術(shù)是集中式的搜索模式，已經(jīng)不能滿足分布式環(huán)境下的性能要求，而P2P技術(shù)在分布式搜索領(lǐng)域有著獨(dú)特的優(yōu)勢(shì)。為此，本文提出一種新的數(shù)字圖書館分布式搜索結(jié)構(gòu)模型——P2P－DL，使OAI原有的集中式搜索適應(yīng)分布式環(huán)境下的搜索，更好地解決了數(shù)字圖書館之間的資源發(fā)現(xiàn)和檢索問題。

3.1P2P－DL結(jié)構(gòu)模型

如圖3所示，本文提出一種基于super－peer拓?fù)浣Y(jié)構(gòu)的分層搜索結(jié)構(gòu)模型，即數(shù)據(jù)資源層data provider、超級(jí)節(jié)點(diǎn)層SP。在本結(jié)構(gòu)模型中，原OAI框架中的數(shù)據(jù)提供者對(duì)應(yīng)super－peer結(jié)構(gòu)中的葉子節(jié)點(diǎn)，服務(wù)提供者對(duì)應(yīng)P2P網(wǎng)絡(luò)中的超級(jí)節(jié)點(diǎn)。具體包括以下核心功能：

a)數(shù)據(jù)資源層DP。該層由廣域分布的數(shù)字圖書館和用戶組成，構(gòu)成整個(gè)P2P－DL的信息提供者，也可以向上層提出查詢請(qǐng)求。該層節(jié)點(diǎn)主要有三種服務(wù)：

（a）注冊(cè)服務(wù)。特定信息的提供者必須在P2P搜索網(wǎng)絡(luò)中進(jìn)行注冊(cè)之后，其提供的資源才會(huì)被搜索網(wǎng)絡(luò)中的SP節(jié)點(diǎn)采集。注冊(cè)信息包括提供的查詢空間以及對(duì)某一特定的查詢作出應(yīng)答的條件以及提供給查詢者的服務(wù)連接端點(diǎn)地址信息，注冊(cè)信息被發(fā)送到超級(jí)對(duì)等體后，當(dāng)有用戶需要瀏覽或下載所需信息，就會(huì)被路由到愿意作出應(yīng)答的信息提供者，由它來作出相應(yīng)的應(yīng)答。

（b）查詢服務(wù)。查詢請(qǐng)求由用戶向與之相連的SP發(fā)出，它包含在規(guī)定格式的XML文檔中，當(dāng)SP收到查詢請(qǐng)求消息時(shí)，它將在本地索引中進(jìn)行匹配查找。在SP發(fā)現(xiàn)了足夠的查詢結(jié)果時(shí)(該數(shù)目可以由SP設(shè)定，也可由用戶設(shè)定)，就立即向用戶返回結(jié)果。如果不能發(fā)現(xiàn)足夠的查詢結(jié)果數(shù)目，本地超級(jí)對(duì)等點(diǎn)將根據(jù)具體的實(shí)現(xiàn)策略，在由超級(jí)對(duì)等體構(gòu)成的網(wǎng)絡(luò)中轉(zhuǎn)發(fā)查詢，以嘗試獲得用戶所需要的結(jié)果數(shù)。

（c）數(shù)據(jù)傳輸服務(wù)。傳輸服務(wù)包括上傳和下載兩個(gè)部分。注冊(cè)成功后，DP就連接到一個(gè)特定的SP，并共享準(zhǔn)備上傳的資源索引，接收SP的元數(shù)據(jù)采集。下載發(fā)生在用戶檢查返回的查詢結(jié)果，并決定需要使用的資源，然后該用戶可以直接同持有資源的用戶建立連接并使用資源，下載/上傳動(dòng)作的執(zhí)行均會(huì)引起用戶資源狀態(tài)的變化，此時(shí)用戶應(yīng)向其本地SP發(fā)送資源更新信息。

b）超級(jí)節(jié)點(diǎn)層SP。超級(jí)對(duì)等體一般由網(wǎng)絡(luò)中擁有相對(duì)較大的帶寬，較強(qiáng)的計(jì)算能力，以及較大的存儲(chǔ)空間的對(duì)等體承擔(dān)，因此可以提供搜索網(wǎng)絡(luò)中更多的服務(wù)。在搜索網(wǎng)絡(luò)中，超級(jí)對(duì)等體起到與其他普通對(duì)等體之間交流通信的紐帶作用，通過與其他的超級(jí)對(duì)等體的連接，將整個(gè)搜索網(wǎng)絡(luò)擴(kuò)展到更廣闊的區(qū)域。

（a）查詢路由服務(wù)。該服務(wù)管理由查詢發(fā)起者發(fā)送到搜索網(wǎng)絡(luò)中的查詢請(qǐng)求信息，并將其路由到滿足查詢條件的搜索服務(wù)器，隨后收集返回的查詢響應(yīng)消息，并將結(jié)果返回給查詢發(fā)起對(duì)等體。

（b）查詢解析服務(wù)。解析由數(shù)據(jù)提供者發(fā)送來的注冊(cè)消息，并將查詢請(qǐng)求消息與注冊(cè)消息進(jìn)行匹配，以此提供高效率的路由匹配信息。

3．2各種服務(wù)之間的關(guān)系

各種服務(wù)之間的關(guān)系如圖4所示，運(yùn)行在超級(jí)對(duì)等點(diǎn)上的路由服務(wù)將收到由查詢服務(wù)傳來的查詢消息并轉(zhuǎn)發(fā)出去，并且將搜索網(wǎng)絡(luò)中返回的查詢響應(yīng)消息合并在一起返回給查詢發(fā)起節(jié)點(diǎn)。注冊(cè)服務(wù)發(fā)送注冊(cè)信息到運(yùn)行的超級(jí)對(duì)等點(diǎn)上，對(duì)等點(diǎn)上的解析服務(wù)解析注冊(cè)消息成路由服務(wù)可以利用的索引結(jié)構(gòu)。用戶獲得查詢結(jié)果后可以利用傳輸服務(wù)瀏覽或下載所需資源。



4P2P－DL關(guān)鍵技術(shù)及其實(shí)現(xiàn)策略

根據(jù)P2P－DL結(jié)構(gòu)模型，筆者利用JXTA[9]平臺(tái)搭建了系統(tǒng)的實(shí)驗(yàn)環(huán)境，希望利用實(shí)驗(yàn)驗(yàn)證系統(tǒng)的可行性，在此過程中，發(fā)現(xiàn)了系統(tǒng)實(shí)現(xiàn)的幾個(gè)關(guān)鍵問題。

4．1應(yīng)用程序?qū)哟谓Y(jié)構(gòu)

設(shè)計(jì)的搜索引擎的層次結(jié)構(gòu)如圖5所示，處于最底層的是各個(gè)參與的數(shù)據(jù)提供者。JXTA核心層處于其上層，需要實(shí)現(xiàn)的有JXTA的六個(gè)協(xié)議，該層奠定了創(chuàng)建對(duì)等點(diǎn)、創(chuàng)立對(duì)等組、對(duì)等點(diǎn)的監(jiān)控、標(biāo)志對(duì)等點(diǎn)、發(fā)布資源廣告、保證安全性等功能的基礎(chǔ)。位于JXTA核心層之上的是服務(wù)層，提供了信息查詢服務(wù)、查詢提供者服務(wù)、資源注冊(cè)服務(wù)、查詢信息路由服務(wù)、查詢信息解析服務(wù)等P2P－DL必需的服務(wù)。處于最上層的是P2P搜索引擎應(yīng)用程序界面，提供了用戶與P2P搜索引擎交換的用戶圖形界面。



4．2JXTA核心層實(shí)現(xiàn)

JXTA核心層是對(duì)等搜索網(wǎng)絡(luò)實(shí)現(xiàn)的基礎(chǔ)，是搜索網(wǎng)絡(luò)對(duì)等點(diǎn)的解析、查找，實(shí)現(xiàn)相互之間通信的端點(diǎn)路由服務(wù)，以及通過管道之間通信等功能得以實(shí)現(xiàn)的基礎(chǔ)。對(duì)等網(wǎng)絡(luò)中的所有對(duì)等點(diǎn)，包括普通對(duì)等點(diǎn)和超級(jí)對(duì)等點(diǎn)，均應(yīng)該首先實(shí)現(xiàn)JXTA六個(gè)標(biāo)準(zhǔn)協(xié)議，即集合點(diǎn)協(xié)議(RVP)、端點(diǎn)路由協(xié)議(ERP)、對(duì)等機(jī)解析協(xié)議(PRP)、對(duì)等機(jī)信息協(xié)議(PIP)、管道綁定協(xié)議(PBP)和對(duì)等機(jī)發(fā)現(xiàn)協(xié)議(PDP)。

4．3查詢消息轉(zhuǎn)發(fā)優(yōu)化

通常的P2P搜索系統(tǒng)在進(jìn)行消息轉(zhuǎn)發(fā)時(shí)，往往對(duì)查詢消息接收者不加區(qū)別，要么向全部相鄰節(jié)點(diǎn)發(fā)出查詢，要么隨機(jī)選擇部分相鄰節(jié)點(diǎn)發(fā)出查詢；對(duì)消息的傳播，一般以最大地滿足用戶需要的查詢結(jié)果數(shù)為目標(biāo)，進(jìn)行經(jīng)常性的大范圍深度搜索。而用戶進(jìn)行搜索的使用習(xí)慣表明，對(duì)于產(chǎn)生的大量結(jié)果，只有較少部分被用戶瀏覽，因此僅在用戶真正需要大量結(jié)果時(shí)才擴(kuò)大搜索范圍的處理方法，將產(chǎn)生既符合查詢要求又降低總體查詢代價(jià)的效果。這里，擬使用以下兩種查詢優(yōu)化技術(shù)：

a) 迭代深入[10，11]。這是一種逐步進(jìn)行深度搜索的方法。在實(shí)現(xiàn)中，每一次搜索比上一次搜索擴(kuò)大一層搜索范圍，已經(jīng)執(zhí)行過搜索的super－peer僅轉(zhuǎn)發(fā)查詢消息和結(jié)果消息，只有在最大深度處的super－peer才實(shí)際執(zhí)行搜索。采用這種方法，要求查詢的初始發(fā)起者在需要更多結(jié)果時(shí)，多次發(fā)出同一查詢，并調(diào)整每一次查詢的要求結(jié)果數(shù)。

b) 分布式資源定位協(xié)議(DRLP)[12]。該算法將查詢請(qǐng)求以一定的概率發(fā)送到各個(gè)鄰居節(jié)點(diǎn)(屬于盲目搜索階段)。如果得到某個(gè)查詢結(jié)果，那么結(jié)果會(huì)在返回路徑的每個(gè)節(jié)點(diǎn)上記錄目標(biāo)數(shù)據(jù)的位置，在以后的查詢中，這些節(jié)點(diǎn)可以直接與請(qǐng)求節(jié)點(diǎn)聯(lián)系，通告目標(biāo)數(shù)據(jù)的位置。

4．4Super－peer間資源索引復(fù)制機(jī)制

當(dāng)super－peer僅保存自己本地客戶對(duì)等體的資源索引時(shí)，為了獲得足夠數(shù)量的查詢結(jié)果，super－peer只能進(jìn)行查詢轉(zhuǎn)發(fā)，這使得查詢轉(zhuǎn)發(fā)的次數(shù)偏多、網(wǎng)絡(luò)負(fù)載加重。因此如果部分復(fù)制客戶資源索引，則搜索可以直接在本地進(jìn)行，從而能夠減少查詢轉(zhuǎn)發(fā)的次數(shù)，并加快搜索的處理速度。部分復(fù)制是指每一個(gè)super－peer除了保存自己本地客戶的資源索引外，還保存了部分遠(yuǎn)程客戶的資源索引。在恰當(dāng)?shù)臅r(shí)候，super－peer間可以通過某種方式相互發(fā)送自己本地客戶的資源索引，并且被復(fù)制的索引能夠以合理的方式保存和刪除。實(shí)現(xiàn)中，利用從其他super－peer返回的查詢結(jié)果消息，將消息中那些本super－peer尚未擁有的索引保存下來，間接地完成了資源索引復(fù)制。

5結(jié)束語

搜索性能是數(shù)字圖書館最重要的性能指標(biāo)，現(xiàn)有數(shù)字圖書館已經(jīng)開發(fā)出了許多在互操作協(xié)議方案之上的分布式搜索方法，取得了一些成果，但這些方法在實(shí)現(xiàn)Internet上大規(guī)模的數(shù)字圖書館分布式搜索方面有一定的局限性。本文采用P2P的搜索理念來構(gòu)建搜索網(wǎng)絡(luò)，在原有OAI－PMH框架的基礎(chǔ)上構(gòu)建數(shù)字圖書館分布式搜索框架模型P2P－DL，而設(shè)計(jì)中采用的JXTA是一個(gè)P2P網(wǎng)絡(luò)應(yīng)用開發(fā)的統(tǒng)一平臺(tái)，徹底獨(dú)立于操作系統(tǒng)和程序設(shè)計(jì)語言，真正實(shí)現(xiàn)了跨平臺(tái)，使得基于JXTA的P2P系統(tǒng)的擴(kuò)展性、兼容性大為提高。利用P2P技術(shù)改進(jìn)OAI中集中式檢索為分布式搜索，順應(yīng)了搜索引擎技術(shù)的分布化發(fā)展趨勢(shì)，實(shí)現(xiàn)了數(shù)字圖書館信息資源共享和跨倉(cāng)儲(chǔ)無縫查找。

參考文獻(xiàn)：

［1］LU Jie ，CALLAN， JAMIE . Federated search oftext－based digital libraries in hierarchical peer－to－peer networks: Lecture Notes in Computer Science， v 3408[C]//Proc of the 27th European Conference on IR Research. 2005: 52－66.

[2］BENDEY M B， MICHEL S M，ZIMMER C，et al.Challenges of distributed search across digital libraries[C]//Proc ofDELOS workshop:System Architecture Information Access.2005: 14－26.

[3］張付志，孔令富. 幾種典型的數(shù)字圖書館互操作協(xié)議分析比較 [J].情報(bào)學(xué)報(bào)， 2003，22(4): 476－481.

[4］MALY K， ZUBAIR M， LI Xue－mei.A high performance implementation of an OAI－based federation service[C]//Proc of the 11th International Conference on Parallel and Distributed Systems Workshops－ ICPADS. 2005: 769－774.

[5］馮國(guó)富，毛鶯池，陸桑璐，等.PeerRank:一種無結(jié)構(gòu)P2P資源發(fā)現(xiàn)策略[J]. 軟件學(xué)報(bào)，2006，17(5): 1098－1106.

[6］ZEINALIPOUR－YAZTI D， KALOGERAKI V， GUNOPULOS D. Information retrieval techniques for peer－to－peer networks[J].Computing in Science and Engineering，2004，6(4)：20－26.

[7］TSOUMAKOS D， ROUSSOPOULOS N. A comparison of peer－to－peer search methods[C]//Proc of International Workshop on the Web and Databases (WebDB). San Diego， California:[s.n.]，2003.

[8］LEIBOWITZ N， RIPEANU M， WIERZBICKI A.Deconstructing the kazza Network[C]//Proc of the3rd IEEE Workshop on Internet Applications(WIAPP’03).2003: 23－24.

[9］SANNA A， ZUNINO C， CIMINIERA L. A distributed JXTA－based architecture for searching and retrieving solar data[J].Future Generation Computer Systems，Special Issues:P2P Computing and Interaction with Grids，2005，21(3): 349－359.

[10］LV C， CAO P， COHEN E，et al. Search and replication in unstrunctured peer－to－peer networks[C]//Proc ofICS. 2002.

[11］YANG B， GARCIA－MOLINA H. Improving search in peer－to－peer networks[C]//Proc ofInternational Conference on Distributed Computing Systems.2002: 5-14.

[12］MENASC’E D， KANCHANAPALLI L. Probabilistic scalable p2p resource location services[J]. ACM Sigmetrics Perfor mance Evaluation Rev， 2002，30(2)：48－58.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

計(jì)算機(jī)應(yīng)用研究2008年4期

計(jì)算機(jī)應(yīng)用研究的其它文章: 一種改進(jìn)的面向ＥＲＰ的工作流管理系統(tǒng); 基于Ｌｕｃｅｎｅ和ＧＭＬ／ＳＶＧ的地圖搜索引擎模型研究與實(shí)現(xiàn); 基于模型的業(yè)務(wù)流程建模平臺(tái)研究與實(shí)現(xiàn); 磁盤陣列多終端配置管理模塊設(shè)計(jì)與實(shí)現(xiàn); 兼容Ｘ８６指令的３２位乘法器的分析與設(shè)計(jì); 一種嵌入式紙幣特征采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)