數字圖書館(DL)是將多種媒體形態的大量文獻信息以規范的數字方式存儲在計算機中,并將信息的存儲、管理、檢索、發布和產權保護等綜合技術集成在一起,利用現代網絡技術,實現跨地區、跨國家的多個DL的連接,使讀者能通過統一的界面,在任何地點、任何時間實現自己的信息需求。DL是一個沒有時間、地點限制的方便大規模的知識庫,它追求的最終目標是實現“聯邦檢索”,即把全球的數字化資源連為一體,實現數字資源和信息的共享,為用戶提供統一、高效的檢索服務。
目前,國內外有為數眾多的DL還沒有實現連接,形成“聯邦服務”的機制。因為它們是屬于不同的機構、為了不同的目的而建造的,所以它們使用的都是不同的、不可互操作的技術,這也構成了形成聯邦數字圖書館的最大障礙。為了克服這一困難,出現了各種實現DL之間互操作的方案。其中基于元數據收集(metadata harvesting)的OAI-PMH方案由于實現的簡單性和易用性而得到了廣泛的應用。
然而假設隨著采用OAI-PMH技術的DL的增多,怎樣才能連接不同的DL,建立一個高效的聯邦數字圖書館,使它能夠通過統一的接口收集異構的、急速增長的OAI-PMH數據呢?網格技術的出現為我們指明了方向。本文在OAI-PMH框架的基礎上,結合網格技術,提出一個全新的DL互操作框架——數字圖書館網格(DL Grid)。
一、OAI-PMH技術
目前國內外存在的大量的DL還沒有形成統一的聯邦式的服務,用戶可能要訪問多個DL才能得到自己需要的資料。形成聯邦式數字圖書館的最大障礙是不同DL間的互操作問題,OAI-PMH通過元數據收割來解決DL之間的互操作問題。許多以前的DL采用“分布式檢索”來實現DL之間的互操作。這種方法只適用于節點較少時(如小于20個)的情況,對于互聯網上大規模的節點之間(如大于100)卻顯得效率低下。OAI-PMH的最新版本2.0定義了元數據交互時通用的格式,這種交互是獨立于底層數據庫的。
OAI-PMH是一個比其他互操作技術更簡單的批量元數據傳輸協議,其他更具體的功能則要借助其他技術。理解OAI-PMH的關鍵是理解OAI-PMH中DP(Data Provider,數據提供者)和SP(Service Provider,服務提供者)的區別。DP是一個數據倉儲,向SP提供元數據。SP利用DP提供的元數據提供增值服務,SP向用戶提供服務,DP向SP提供元數據,一個SP可以從多個DP收割元數據,而實際上,一個DL既可以是DP也可以是SP。OAI-PMH對用戶是完全透明的,它定義了SP和DP之間的交互作用。
二、DL Grid體系結構
OA I-PMH是利用Harvesting概念建立的典型元數據采集框架,它為DL的互操作提出了一種簡單、可行的解決方案,解決了分布式搜索無法解決的一個規模問題。而網格技術關注大規模的資源共享,革新的應用,以及在某些事例上高性能的需求,它強調多機構之間大規模的資源共享和合作使用,提供了資源共享的基本方法。
通過研究網格和OAI-PMH的架構,本文提出一個基于網格的三層DL互操作框架。過去OAI-PMH只是將DP和SP直接相連,簡單地在http上實現元數據的采集,而本文提出的框架中,采集(harvester)節點通過網格收集DP的元數據。為增強收集和索引的動態性能,加快元數據的更新速度,在DL Grid體系結構中引入三類網格服務節點:采集調度服務節點、元數據采集節點和元數據收集/傳送節點。本文提出的三層DL Grid從下到上依次分為資源層、網格服務層和服務層。
1.資源層
資源層由異構的DL構成,是整個DL Grid系統的信息提供者,也就是OAI-PMH中的DP。它將DL的相關信息提供給采集調度服務,并且向元數據采集節點提供符合OAI-PMH標準的Dublin Core標準元數據,或者其他任何可以編碼成XML文檔格式的元數據。
2.網格服務層
網格服務層是DL Grid的核心,它利用網格技術實現資源層中元數據發現、采集、組織、存儲等功能,并向服務層提供透明、統一的接口。
(1)采集調度服務節點。該服務的主要功能是:存儲一個配置文件,其中存儲所有被收集的DP的列表;檢查元數據收集節點上的軟件版本是否一致、可用,如果某個元數據收集節點的軟件不可用,則通過采集調度服務節點向其傳送可用的軟件壓縮包;將收集元數據的任務分配給元數據收集節點并配置參數,再根據參數對收集工作進行跟蹤。
(2)元數據收集節點。這類節點從采集調度服務節點處接受任務,獲得DP的地址,從DP處采集元數據。采集完成后,通知采集調度服務,領取新任務,并接受采集調度節點的命令將收集的元數據傳送給元數據收集/傳送節點。
(3)元數據收集/傳送節點。該節點的功能是收集元數據收集節點的元數據,并把它們分配到不同的索引和收集節點。
3.服務層
服務層集成收集來的元數據,通過向用戶提供統一的聯邦搜索服務,為用戶提供文獻檢索、個性化服務、參考咨詢等增值服務。該層由以下節點構成:
(1)索引和搜索集群節點。該節點存儲下層元數據采集/傳送服務節點傳來的元數據,并對其進行重新索引或增量索引;按照聯邦搜索節點的要求,利用索引執行搜索任務,并返回結果。
(2)聯邦搜索節點。該節點向用戶提供統一的搜索界面,將用戶的搜索請求分配給索引和搜索集群節點,并整合搜索結果提交給用戶。
三、實現DL Grid的關鍵問題
1.元數據管理和信息服務
良好地表示、存儲、訪問和使用海量資源信息是DL Grid運行的基本前提。在DL Grid中,資源及其提供者是分布的。在DL Grid計算中,需要建立靈活的、可擴展的信息服務體系結構。這種體系結構應當保證資源信息提供者的廣泛分布性和加入或離開服務的動態性,避免由于單個信息服務實體的失敗導致其他資源信息服務不能正常提供服務。
2.任務管理
任務管理是DL Grid研究必須解決的另一個關鍵問題。網格計算的目標是分解一個應用為幾個子任務。由于應用程序分解的任務之間往往包含優先約束關系,對這樣的任務進行調度是必須重點考慮的問題之一。任務管理完成任務提交、查詢、為任務指定所需資源、刪除任務并監測任務的運行狀態。任務調度的作用是根據當前系統的負載情況,對系統內的任務進行動態調度,實現負載平衡,提高系統的運行效率。
3.安全控制
DL Grid所要實現的安全服務主要包含兩項基本內容:對資源使用的安全認證和對資源操作的權限控制。安全認證要實現提供給資源使用者及其所要求的資源之間一套能夠識別并確認對方身份的機制;權限控制則要求做到能夠將資源使用者對該資源的權限明確地映射成該資源在其擁有者本地的操作權限。對于DL Grid中的安全服務,它應該實現下面的功能:
(1)一次性的身份認證。資源的使用者應能在第一次身份認證被確認后就獲得對資源相應的操作權限,在釋放該資源的控制權之前,使用者對于該資源的各種操作(請求、使用、釋放、內部通訊)都不需要再次通過身份認證。
(2)對用戶信用信息的保護。這里的用戶信用信息主要包括用戶的密碼等信息,對這類信息的保護需要注意到存儲時的保護以及在網絡傳輸時的加密保護措施。
4.用戶界面
用戶界面設計影響用戶使用DL Grid的效率。如何保證用戶使用網格資源和構建問題解決(如統一檢索、網上咨詢)的效率和易用性,使用戶界面達到與平臺無關、與地理位置無關、安全、易用等目標,是設計DL Grid用戶界面應考慮的問題。
實現全球DL的信息資源共享和檢索,必須解決不同DL之間的互操作問題。OAI-PMH技術的出現很好解決了這個問題,但是假設使用OAI-PMH技術的DL數量的增加,傳統的基于Web的中央控制系統不能滿足需要。網格技術在處理分布式系統、異構性資源、動態性服務需求等方面具有強大的功能,作為一種探索性的課題,本文利用先進的網格技術,在原有的OAI-PMH框架基礎上,提出了DL Grid的體系框架,為實現大規模DL間的互操作提出了新思路。
(作者單位:河北化工醫藥職業技術學院)