摘要:在對(duì)現(xiàn)流行的互操作協(xié)議的發(fā)展和特征進(jìn)行比較分析的基礎(chǔ)上,介紹了基于P2P搜索方法的特點(diǎn)及分類。最后在原有OAI-PMH框架的基礎(chǔ)上,提出一種基于P2P技術(shù)的數(shù)字圖書館分布式搜索模型 (P2P-DL) ,并對(duì)系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)進(jìn)行了分析與設(shè)計(jì)。
關(guān)鍵詞:數(shù)字圖書館; 對(duì)等點(diǎn); 分布式搜索; OAI-PMH
中圖分類號(hào):TP393文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)04-1240-03
數(shù)字圖書館是將多種媒體形態(tài)的大量文獻(xiàn)信息以規(guī)范的數(shù)字方式存儲(chǔ)在計(jì)算機(jī)中,并將信息的存儲(chǔ)、管理、檢索、發(fā)布和產(chǎn)權(quán)保護(hù)等綜合技術(shù)集成在一起,利用現(xiàn)代網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)跨地區(qū)、跨國(guó)家的多個(gè)數(shù)字圖書館的連接,使讀者能通過統(tǒng)一的界面,在任何地點(diǎn)、任何時(shí)間實(shí)現(xiàn)自己的信息需求。數(shù)字圖書館追求的最終目標(biāo)是實(shí)現(xiàn)聯(lián)邦檢索,即將全球的數(shù)字化資源連為一體,實(shí)現(xiàn)館中數(shù)字資源和信息的共享,為用戶提供統(tǒng)一、高效的檢索服務(wù)[1]。
數(shù)字圖書館的檢索服務(wù)實(shí)際是一種分布式搜索[2],它首先要解決系統(tǒng)間的互操作問題,然而現(xiàn)有的數(shù)字圖書館分別屬于不同的機(jī)構(gòu),使用不同格式的元數(shù)據(jù),這也構(gòu)成了形成聯(lián)邦數(shù)字圖書館的最大障礙。為了克服這一困難,出現(xiàn)了各種數(shù)字圖書館之間互操作的方案[3]。然而在分布式環(huán)境和用戶數(shù)量激增的情況下,原有的互操作方案表現(xiàn)出了各種各樣的局限性。因此本文解決問題的關(guān)鍵就是在分布異構(gòu)環(huán)境下的對(duì)原有的互操作方案進(jìn)行擴(kuò)展,并提出新的檢索方案。
1數(shù)字圖書館互操作協(xié)議
互操作的目的是跨越組織邊界,為不同的數(shù)字圖書館系統(tǒng)之間的客戶端和服務(wù)端提供交互。這需要不同的組織遵循一個(gè)共同的協(xié)議標(biāo)準(zhǔn)。其規(guī)范了分布式搜索時(shí)檢索信息的組織、訪問檢索服務(wù)的機(jī)制等。現(xiàn)在廣泛流行以下兩種標(biāo)準(zhǔn)協(xié)議[3]:
a)Z39.50協(xié)議。它是由圖書館界開發(fā)的用于信息搜索和檢索服務(wù)的標(biāo)準(zhǔn)協(xié)議,已被廣泛應(yīng)用于不同的計(jì)算機(jī)系統(tǒng)之間的互操作。Z39.50是一個(gè)基于客戶機(jī)/服務(wù)器結(jié)構(gòu)的網(wǎng)絡(luò)應(yīng)用層協(xié)議,并且客戶機(jī)與服務(wù)器的交互是基于會(huì)話的。客戶機(jī)程序一旦與服務(wù)器建立連接,服務(wù)器便進(jìn)行搜索并建立結(jié)果集。客戶機(jī)程序?qū)Y(jié)果集進(jìn)行檢索,而不需要檢索整個(gè)數(shù)據(jù)庫(kù)。在整個(gè)會(huì)話過程中,客戶機(jī)和服務(wù)器需要記住各自交互的狀態(tài)。Z39.50除了各種檢索服務(wù)外,還具有索引瀏覽、訪問控制和資源管理等功能。
b)OAI協(xié)議。OAI-PMH(open archives initiative protocol for memdata harvesting)是1999年由美國(guó)數(shù)字圖書館聯(lián)盟、網(wǎng)絡(luò)信息聯(lián)盟等組織提出的一個(gè)應(yīng)用框架。最初是為了解決電子期刊的預(yù)印本的互操作和元數(shù)據(jù)收割問題。2000年,OAI協(xié)議的應(yīng)用擴(kuò)展到數(shù)字圖書館領(lǐng)域,目的是實(shí)現(xiàn)分散的、不同系統(tǒng)平臺(tái)之間的元數(shù)據(jù)交換和共享,提高系統(tǒng)的互操作能力。
OAI為解決數(shù)字圖書館之間的互操作問題提出了一種簡(jiǎn)單的互操作框架,如圖1所示。該框架區(qū)分兩種不同類型的參與者,即數(shù)據(jù)提供者(data providers,DP)和服務(wù)提供者(service providers,SP)。前者要求按照標(biāo)準(zhǔn)的元數(shù)據(jù)格式(dublin core)建立館藏元數(shù)據(jù),后者利用OAI-PMH協(xié)議從數(shù)據(jù)提供者處獲取元數(shù)據(jù)以實(shí)現(xiàn)增值服務(wù)(如搜索、瀏覽等)。該結(jié)構(gòu)的代表是Arc[4],Arc是第一個(gè)采用OAI互操作框架實(shí)現(xiàn)的聯(lián)邦搜索服務(wù),它能夠從遵守OAI協(xié)議標(biāo)準(zhǔn)的DLs館藏中提取元數(shù)據(jù),經(jīng)過處理后集中保存在一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中。
Z39.50與OAI相比,功能比較完善,但是實(shí)現(xiàn)起來比較困難,所以通常只能實(shí)現(xiàn)其中一個(gè)子集。例如,用于對(duì)數(shù)字圖書館的數(shù)字對(duì)象進(jìn)行搜索管理STARTS協(xié)議就只實(shí)現(xiàn)了Z39.50協(xié)議的一個(gè)子集。而OAI的元數(shù)據(jù)采集方案不要求嚴(yán)格遵守一組完整的技術(shù)協(xié)定,只要求做少許支持基本共享服務(wù)(如數(shù)據(jù)訪問)的工作,對(duì)聯(lián)盟成員的要求很少,因此,許多組織可能會(huì)加入這種松散的DLs聯(lián)邦。檢索過程中,Z39.50是系統(tǒng)之間的分布式搜索,而OAI是檢索過程的集中式檢索(檢索服務(wù)提供者)。
總之,OAI作為一種新發(fā)展起來的互操作協(xié)議,相對(duì)Z39.50而言,吸納了更多新的思想和技術(shù)。而Z39.50作為重量級(jí)的互操作協(xié)議,其協(xié)議的復(fù)雜性,以及實(shí)現(xiàn)的困難性,對(duì)互操作的實(shí)現(xiàn)和發(fā)展帶來了瓶頸。所以O(shè)AI代表了互操作技術(shù)發(fā)展的方向和趨勢(shì)。但是由于OAI是集中式的搜索模式,在分布式環(huán)境下隨著加入的組織的增多,元數(shù)據(jù)發(fā)現(xiàn)、采集的效率會(huì)越來越低,如Arc系統(tǒng),隨著數(shù)據(jù)提供者的增多,采集、索引和搜索均在同一個(gè)服務(wù)器上,它的效率就變得很低,它現(xiàn)在完成一次采集要用4天時(shí)間,而在索引中搜索要用約15 min,這對(duì)于用戶來說顯然是難以接受的[4]。因此需要新的技術(shù)支持OAI協(xié)議在分布式環(huán)境下的應(yīng)用。
2基于P2P技術(shù)的數(shù)字圖書館分布式技術(shù)
2.1P2P技術(shù)的引入
P2P網(wǎng)絡(luò)是一種全新的分布式網(wǎng)絡(luò), 在該網(wǎng)絡(luò)中所有主機(jī)處于同等地位。基于P2P的搜索方法與目前其他各類傳統(tǒng)搜索方法相比,其最大優(yōu)勢(shì)在于應(yīng)用了先進(jìn)的對(duì)等搜索理念,網(wǎng)絡(luò)中節(jié)點(diǎn)之間的動(dòng)態(tài)而又對(duì)等的互聯(lián)關(guān)系使得搜索可以在對(duì)等點(diǎn)之間直接地、實(shí)時(shí)地進(jìn)行,既可以保證搜索的實(shí)時(shí)性,又可以達(dá)到傳統(tǒng)目錄式搜索引擎無可比擬的深度。為此,本文提出將P2P技術(shù)與OAI技術(shù)相結(jié)合,在原有的OAI-PMH框架之上引入P2P的概念,使OAI原有的集中式搜索適應(yīng)分布式環(huán)境下的搜索,更好地解決了數(shù)字圖書館之間資源發(fā)現(xiàn)、跨倉(cāng)儲(chǔ)檢索等問題,實(shí)現(xiàn)整個(gè)社會(huì)范圍內(nèi)的聯(lián)邦數(shù)字圖書館。
2.2基于 P2P的分布式搜索技術(shù)
根據(jù)搜索與資源內(nèi)容的相關(guān)性將基于P2P的搜索技術(shù)分為結(jié)構(gòu)化搜索和非結(jié)構(gòu)化搜索[5]。結(jié)構(gòu)化搜索根據(jù)資源的內(nèi)容來存放和定位資源,這類搜索方法通常采用分布式哈希表DHT[6]將整個(gè)搜索空間對(duì)應(yīng)到一個(gè)散列空間,當(dāng)一個(gè)節(jié)點(diǎn)要搜索該資源時(shí),對(duì)該資源的惟一標(biāo)志使用相同的散列函數(shù)進(jìn)行散列得到散列值,通過有效的局部路由,找到負(fù)責(zé)該資源的節(jié)點(diǎn)。但在這類系統(tǒng)中,用戶必須明確知道所搜索資源的惟一標(biāo)志才能進(jìn)行散列和找到該資源,且尚未完全支持多個(gè)關(guān)鍵詞的搜索。
非結(jié)構(gòu)化的搜索方法是目前應(yīng)用最廣的P2P網(wǎng)絡(luò)搜索方法且完全支持多關(guān)鍵詞的搜索,它通常采用寬度優(yōu)先算法(BFS)向所有的鄰居節(jié)點(diǎn)發(fā)送查找消息,Gnutella是這種算法的代表[7],但是這種算法的問題是網(wǎng)絡(luò)負(fù)載過大,為此,筆者采用改進(jìn)網(wǎng)絡(luò)拓?fù)涞姆椒ǜ倪M(jìn)傳統(tǒng)非結(jié)構(gòu)化P2P網(wǎng)絡(luò)的搜索性能,引入超級(jí)節(jié)點(diǎn)super-peer。
如圖2所示,在使用super-peer[8]的系統(tǒng)中,存在一些特殊節(jié)點(diǎn),這些節(jié)點(diǎn)各自作為一部分節(jié)點(diǎn)的中央服務(wù)器,稱做super-peer。各個(gè)super-peer也相互連接,構(gòu)成一個(gè)P2P網(wǎng)絡(luò)。對(duì)于資源的查詢,每一個(gè)客戶對(duì)等體在某一時(shí)刻僅與一個(gè)super-peer連接,客戶對(duì)等體向其發(fā)送自己的資源索引,也向其發(fā)出查詢。super-peer在收到查詢后既要根據(jù)本地緩存處理,也會(huì)在super-peer間傳播查詢。發(fā)起查詢傳播的super-peer在收到其他super-peer的回應(yīng)后,會(huì)將這些回應(yīng)連同本地查詢結(jié)果返回給客戶對(duì)等體。
這類系統(tǒng)不再依賴惟一的中央服務(wù)器,從而解決了中央索引模型中可伸縮性不強(qiáng)、容錯(cuò)性不夠的問題;另一方面由super-peer來各自負(fù)責(zé)一部分節(jié)點(diǎn)資源的搜索、索引的維護(hù),從而避免了泛洪請(qǐng)求模型中消息泛濫的情形,使搜索效率明顯增強(qiáng)。
3基于P2P技術(shù)的數(shù)字圖書館分布式搜索框架
由以上分析可知,基于OAI的互操作技術(shù)是集中式的搜索模式,已經(jīng)不能滿足分布式環(huán)境下的性能要求,而P2P技術(shù)在分布式搜索領(lǐng)域有著獨(dú)特的優(yōu)勢(shì)。為此,本文提出一種新的數(shù)字圖書館分布式搜索結(jié)構(gòu)模型——P2P-DL, 使OAI原有的集中式搜索適應(yīng)分布式環(huán)境下的搜索,更好地解決了數(shù)字圖書館之間的資源發(fā)現(xiàn)和檢索問題。
3.1P2P-DL結(jié)構(gòu)模型
如圖3所示,本文提出一種基于super-peer拓?fù)浣Y(jié)構(gòu)的分層搜索結(jié)構(gòu)模型,即數(shù)據(jù)資源層data provider、超級(jí)節(jié)點(diǎn)層SP。在本結(jié)構(gòu)模型中,原OAI框架中的數(shù)據(jù)提供者對(duì)應(yīng)super-peer結(jié)構(gòu)中的葉子節(jié)點(diǎn),服務(wù)提供者對(duì)應(yīng)P2P網(wǎng)絡(luò)中的超級(jí)節(jié)點(diǎn)。具體包括以下核心功能:
a)數(shù)據(jù)資源層DP。該層由廣域分布的數(shù)字圖書館和用戶組成,構(gòu)成整個(gè)P2P-DL的信息提供者,也可以向上層提出查詢請(qǐng)求。該層節(jié)點(diǎn)主要有三種服務(wù):
(a) 注冊(cè)服務(wù)。特定信息的提供者必須在P2P搜索網(wǎng)絡(luò)中進(jìn)行注冊(cè)之后,其提供的資源才會(huì)被搜索網(wǎng)絡(luò)中的SP節(jié)點(diǎn)采集。注冊(cè)信息包括提供的查詢空間以及對(duì)某一特定的查詢作出應(yīng)答的條件以及提供給查詢者的服務(wù)連接端點(diǎn)地址信息,注冊(cè)信息被發(fā)送到超級(jí)對(duì)等體后,當(dāng)有用戶需要瀏覽或下載所需信息,就會(huì)被路由到愿意作出應(yīng)答的信息提供者,由它來作出相應(yīng)的應(yīng)答。
(b)查詢服務(wù)。查詢請(qǐng)求由用戶向與之相連的SP發(fā)出,它包含在規(guī)定格式的XML文檔中,當(dāng)SP收到查詢請(qǐng)求消息時(shí),它將在本地索引中進(jìn)行匹配查找。在SP發(fā)現(xiàn)了足夠的查詢結(jié)果時(shí)(該數(shù)目可以由SP設(shè)定,也可由用戶設(shè)定),就立即向用戶返回結(jié)果。如果不能發(fā)現(xiàn)足夠的查詢結(jié)果數(shù)目,本地超級(jí)對(duì)等點(diǎn)將根據(jù)具體的實(shí)現(xiàn)策略,在由超級(jí)對(duì)等體構(gòu)成的網(wǎng)絡(luò)中轉(zhuǎn)發(fā)查詢,以嘗試獲得用戶所需要的結(jié)果數(shù)。
(c)數(shù)據(jù)傳輸服務(wù)。傳輸服務(wù)包括上傳和下載兩個(gè)部分。注冊(cè)成功后,DP就連接到一個(gè)特定的SP,并共享準(zhǔn)備上傳的資源索引,接收SP的元數(shù)據(jù)采集。下載發(fā)生在用戶檢查返回的查詢結(jié)果,并決定需要使用的資源,然后該用戶可以直接同持有資源的用戶建立連接并使用資源,下載/上傳動(dòng)作的執(zhí)行均會(huì)引起用戶資源狀態(tài)的變化,此時(shí)用戶應(yīng)向其本地SP發(fā)送資源更新信息。
b)超級(jí)節(jié)點(diǎn)層SP。超級(jí)對(duì)等體一般由網(wǎng)絡(luò)中擁有相對(duì)較大的帶寬,較強(qiáng)的計(jì)算能力,以及較大的存儲(chǔ)空間的對(duì)等體承擔(dān),因此可以提供搜索網(wǎng)絡(luò)中更多的服務(wù)。在搜索網(wǎng)絡(luò)中,超級(jí)對(duì)等體起到與其他普通對(duì)等體之間交流通信的紐帶作用,通過與其他的超級(jí)對(duì)等體的連接,將整個(gè)搜索網(wǎng)絡(luò)擴(kuò)展到更廣闊的區(qū)域。
(a)查詢路由服務(wù)。該服務(wù)管理由查詢發(fā)起者發(fā)送到搜索網(wǎng)絡(luò)中的查詢請(qǐng)求信息,并將其路由到滿足查詢條件的搜索服務(wù)器,隨后收集返回的查詢響應(yīng)消息,并將結(jié)果返回給查詢發(fā)起對(duì)等體。
(b)查詢解析服務(wù)。解析由數(shù)據(jù)提供者發(fā)送來的注冊(cè)消息,并將查詢請(qǐng)求消息與注冊(cè)消息進(jìn)行匹配,以此提供高效率的路由匹配信息。
3.2各種服務(wù)之間的關(guān)系
各種服務(wù)之間的關(guān)系如圖4所示,運(yùn)行在超級(jí)對(duì)等點(diǎn)上的路由服務(wù)將收到由查詢服務(wù)傳來的查詢消息并轉(zhuǎn)發(fā)出去,并且將搜索網(wǎng)絡(luò)中返回的查詢響應(yīng)消息合并在一起返回給查詢發(fā)起節(jié)點(diǎn)。注冊(cè)服務(wù)發(fā)送注冊(cè)信息到運(yùn)行的超級(jí)對(duì)等點(diǎn)上,對(duì)等點(diǎn)上的解析服務(wù)解析注冊(cè)消息成路由服務(wù)可以利用的索引結(jié)構(gòu)。用戶獲得查詢結(jié)果后可以利用傳輸服務(wù)瀏覽或下載所需資源。
4P2P-DL關(guān)鍵技術(shù)及其實(shí)現(xiàn)策略
根據(jù)P2P-DL結(jié)構(gòu)模型,筆者利用JXTA[9]平臺(tái)搭建了系統(tǒng)的實(shí)驗(yàn)環(huán)境,希望利用實(shí)驗(yàn)驗(yàn)證系統(tǒng)的可行性,在此過程中,發(fā)現(xiàn)了系統(tǒng)實(shí)現(xiàn)的幾個(gè)關(guān)鍵問題。
4.1應(yīng)用程序?qū)哟谓Y(jié)構(gòu)
設(shè)計(jì)的搜索引擎的層次結(jié)構(gòu)如圖5所示,處于最底層的是各個(gè)參與的數(shù)據(jù)提供者。JXTA核心層處于其上層,需要實(shí)現(xiàn)的有JXTA的六個(gè)協(xié)議,該層奠定了創(chuàng)建對(duì)等點(diǎn)、創(chuàng)立對(duì)等組、對(duì)等點(diǎn)的監(jiān)控、標(biāo)志對(duì)等點(diǎn)、發(fā)布資源廣告、保證安全性等功能的基礎(chǔ)。位于JXTA核心層之上的是服務(wù)層,提供了信息查詢服務(wù)、查詢提供者服務(wù)、資源注冊(cè)服務(wù)、查詢信息路由服務(wù)、查詢信息解析服務(wù)等P2P-DL必需的服務(wù)。處于最上層的是P2P搜索引擎應(yīng)用程序界面,提供了用戶與P2P搜索引擎交換的用戶圖形界面。
4.2JXTA核心層實(shí)現(xiàn)
JXTA核心層是對(duì)等搜索網(wǎng)絡(luò)實(shí)現(xiàn)的基礎(chǔ),是搜索網(wǎng)絡(luò)對(duì)等點(diǎn)的解析、查找,實(shí)現(xiàn)相互之間通信的端點(diǎn)路由服務(wù),以及通過管道之間通信等功能得以實(shí)現(xiàn)的基礎(chǔ)。對(duì)等網(wǎng)絡(luò)中的所有對(duì)等點(diǎn),包括普通對(duì)等點(diǎn)和超級(jí)對(duì)等點(diǎn),均應(yīng)該首先實(shí)現(xiàn)JXTA六個(gè)標(biāo)準(zhǔn)協(xié)議,即集合點(diǎn)協(xié)議(RVP)、端點(diǎn)路由協(xié)議(ERP)、對(duì)等機(jī)解析協(xié)議(PRP)、對(duì)等機(jī)信息協(xié)議(PIP)、管道綁定協(xié)議(PBP)和對(duì)等機(jī)發(fā)現(xiàn)協(xié)議(PDP)。
4.3查詢消息轉(zhuǎn)發(fā)優(yōu)化
通常的P2P搜索系統(tǒng)在進(jìn)行消息轉(zhuǎn)發(fā)時(shí),往往對(duì)查詢消息接收者不加區(qū)別,要么向全部相鄰節(jié)點(diǎn)發(fā)出查詢,要么隨機(jī)選擇部分相鄰節(jié)點(diǎn)發(fā)出查詢;對(duì)消息的傳播,一般以最大地滿足用戶需要的查詢結(jié)果數(shù)為目標(biāo),進(jìn)行經(jīng)常性的大范圍深度搜索。而用戶進(jìn)行搜索的使用習(xí)慣表明,對(duì)于產(chǎn)生的大量結(jié)果,只有較少部分被用戶瀏覽,因此僅在用戶真正需要大量結(jié)果時(shí)才擴(kuò)大搜索范圍的處理方法,將產(chǎn)生既符合查詢要求又降低總體查詢代價(jià)的效果。這里,擬使用以下兩種查詢優(yōu)化技術(shù):
a) 迭代深入[10,11]。這是一種逐步進(jìn)行深度搜索的方法。在實(shí)現(xiàn)中,每一次搜索比上一次搜索擴(kuò)大一層搜索范圍,已經(jīng)執(zhí)行過搜索的super-peer僅轉(zhuǎn)發(fā)查詢消息和結(jié)果消息,只有在最大深度處的super-peer才實(shí)際執(zhí)行搜索。采用這種方法,要求查詢的初始發(fā)起者在需要更多結(jié)果時(shí),多次發(fā)出同一查詢,并調(diào)整每一次查詢的要求結(jié)果數(shù)。
b) 分布式資源定位協(xié)議(DRLP)[12]。該算法將查詢請(qǐng)求以一定的概率發(fā)送到各個(gè)鄰居節(jié)點(diǎn)(屬于盲目搜索階段)。如果得到某個(gè)查詢結(jié)果,那么結(jié)果會(huì)在返回路徑的每個(gè)節(jié)點(diǎn)上記錄目標(biāo)數(shù)據(jù)的位置,在以后的查詢中,這些節(jié)點(diǎn)可以直接與請(qǐng)求節(jié)點(diǎn)聯(lián)系,通告目標(biāo)數(shù)據(jù)的位置。
4.4Super-peer間資源索引復(fù)制機(jī)制
當(dāng)super-peer僅保存自己本地客戶對(duì)等體的資源索引時(shí),為了獲得足夠數(shù)量的查詢結(jié)果,super-peer只能進(jìn)行查詢轉(zhuǎn)發(fā),這使得查詢轉(zhuǎn)發(fā)的次數(shù)偏多、網(wǎng)絡(luò)負(fù)載加重。因此如果部分復(fù)制客戶資源索引,則搜索可以直接在本地進(jìn)行,從而能夠減少查詢轉(zhuǎn)發(fā)的次數(shù),并加快搜索的處理速度。部分復(fù)制是指每一個(gè)super-peer除了保存自己本地客戶的資源索引外,還保存了部分遠(yuǎn)程客戶的資源索引。在恰當(dāng)?shù)臅r(shí)候,super-peer間可以通過某種方式相互發(fā)送自己本地客戶的資源索引,并且被復(fù)制的索引能夠以合理的方式保存和刪除。實(shí)現(xiàn)中,利用從其他super-peer返回的查詢結(jié)果消息,將消息中那些本super-peer尚未擁有的索引保存下來,間接地完成了資源索引復(fù)制。
5結(jié)束語
搜索性能是數(shù)字圖書館最重要的性能指標(biāo),現(xiàn)有數(shù)字圖書館已經(jīng)開發(fā)出了許多在互操作協(xié)議方案之上的分布式搜索方法,取得了一些成果,但這些方法在實(shí)現(xiàn)Internet上大規(guī)模的數(shù)字圖書館分布式搜索方面有一定的局限性。本文采用P2P的搜索理念來構(gòu)建搜索網(wǎng)絡(luò),在原有OAI-PMH框架的基礎(chǔ)上構(gòu)建數(shù)字圖書館分布式搜索框架模型P2P-DL,而設(shè)計(jì)中采用的JXTA是一個(gè)P2P網(wǎng)絡(luò)應(yīng)用開發(fā)的統(tǒng)一平臺(tái),徹底獨(dú)立于操作系統(tǒng)和程序設(shè)計(jì)語言,真正實(shí)現(xiàn)了跨平臺(tái),使得基于JXTA的P2P系統(tǒng)的擴(kuò)展性、兼容性大為提高。利用P2P技術(shù)改進(jìn)OAI中集中式檢索為分布式搜索,順應(yīng)了搜索引擎技術(shù)的分布化發(fā)展趨勢(shì),實(shí)現(xiàn)了數(shù)字圖書館信息資源共享和跨倉(cāng)儲(chǔ)無縫查找。
參考文獻(xiàn):
[1]LU Jie ,CALLAN, JAMIE . Federated search oftext-based digital libraries in hierarchical peer-to-peer networks: Lecture Notes in Computer Science, v 3408[C]//Proc of the 27th European Conference on IR Research. 2005: 52-66.
[2]BENDEY M B, MICHEL S M,ZIMMER C,et al.Challenges of distributed search across digital libraries[C]//Proc ofDELOS workshop:System Architecture Information Access.2005: 14-26.
[3]張付志,孔令富. 幾種典型的數(shù)字圖書館互操作協(xié)議分析比較 [J].情報(bào)學(xué)報(bào), 2003,22(4): 476-481.
[4]MALY K, ZUBAIR M, LI Xue-mei.A high performance implementation of an OAI-based federation service[C]//Proc of the 11th International Conference on Parallel and Distributed Systems Workshops- ICPADS. 2005: 769-774.
[5]馮國(guó)富,毛鶯池,陸桑璐,等.PeerRank:一種無結(jié)構(gòu)P2P資源發(fā)現(xiàn)策略[J]. 軟件學(xué)報(bào),2006,17(5): 1098-1106.
[6]ZEINALIPOUR-YAZTI D, KALOGERAKI V, GUNOPULOS D. Information retrieval techniques for peer-to-peer networks[J].Computing in Science and Engineering,2004,6(4):20-26.
[7]TSOUMAKOS D, ROUSSOPOULOS N. A comparison of peer-to-peer search methods[C]//Proc of International Workshop on the Web and Databases (WebDB). San Diego, California:[s.n.],2003.
[8]LEIBOWITZ N, RIPEANU M, WIERZBICKI A.Deconstructing the kazza Network[C]//Proc of the3rd IEEE Workshop on Internet Applications(WIAPP’03).2003: 23-24.
[9]SANNA A, ZUNINO C, CIMINIERA L. A distributed JXTA-based architecture for searching and retrieving solar data[J].Future Generation Computer Systems,Special Issues:P2P Computing and Interaction with Grids,2005,21(3): 349-359.
[10]LV C, CAO P, COHEN E,et al. Search and replication in unstrunctured peer-to-peer networks[C]//Proc ofICS. 2002.
[11]YANG B, GARCIA-MOLINA H. Improving search in peer-to-peer networks[C]//Proc ofInternational Conference on Distributed Computing Systems.2002: 5-14.
[12]MENASC’E D, KANCHANAPALLI L. Probabilistic scalable p2p resource location services[J]. ACM Sigmetrics Perfor mance Evaluation Rev, 2002,30(2):48-58.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”