摘要:首先介紹了科技資源數據庫中元數據標準的分級和互操作策略,根據科技資源數據特點,提出元數據注冊系統體系架構。分析并解決了元數據注冊系統中的關鍵技術。研究表明,元數據注冊有助于元數據標準管理,促進科技資源數據更好的利用、共享、交換和整合。
關鍵詞:科技資源數據;元數據;元數據標準;注冊;解析
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)36-3050-02
Research on Scientific Resources Database Metadata Registry System
YANG Jin-ying1, CUI Er-qiang1, CHEN Wei-hua2
(Department of Computer Science and Information Engineering,Shijiazhuang Railway Institute,Shijiazhuang 050043,China;2.Bohai Oil Vocational College,Renqiu 062552,China)
Abstract: This paper gives a full description of the level and the interoperability methodology of metadata schema in scientific resources database.Then the author propose the architecture of metadata registry system.The author also Analyzes and gives a solution of the important technology in metadata registry system.Research has shown that metadata registry is helpful for metadata schema management and it promotes data use,share,exchange and conformity in scientific resources.
Key words: scientific resources;metadata;metadata schema;registry;parser
1 引言
河北省于2005年啟動了科技資源數據庫建設項目[1],旨在對現有的科學數據資源進行整合,更好的實現科學數據資源共享。
信息技術的發展趨勢是數據信息的標準化。沒有基礎信息的標準化,對科技資源數據庫群開發深層次的資源整合、數據共享和高級服務將是困難重重。元數據理論和技術是實現數據標準化以及數據共享、交換和整合的重要手段。
河北省科技資源數據庫已經制定完成了科技資源數據庫元數據體系當中的核心元數據標準以及以它為基礎的多個面向具體應用的擴展元數據標準。而各種類型的元數據標準常常缺少兼容性的要求。因此,如何實現科技資源數據庫中多種元數據標準的相互兼容,進而按照不同元數據標準著錄的數據之間能夠相互訪問和檢索成為了目前亟待解決的問題。
2 科技資源數據庫元數據標準框架
2.1 科技資源數據庫元數據標準分級
科技資源數據庫元數據標準按照標準的來源和產生方式可以分為三個等級,如圖1所示。
1) 都柏林核心元數據標準 (Dublin Core,DC)
DC元數據術語詞表是目前DCMI推廣的一套元數據標準規范體系,它是一個動態的、依照一定程序不斷擴展的詞表,目前,DC元素集由15個元素組成。DC已經被看作是一種國際或廣泛遵循的元數據標準,它也是科技資源數據庫核心元數據標準中的核心部分,是制定所有其它元數據標準的基礎,具有很強的通用性。可以被認為是一種通用元數據標準[2]。

圖1 元數據標準等級

圖2 元數據注冊系統體系架構

圖3 提交XML文件注冊流程

圖4 在線編輯元數據屬性注冊流程

圖5 元數據標準轉化過程
2) 核心元數據標準
由于資源的特殊性,目前沒有相應的國際標準可以直接應用于科技資源數據庫,因此需要根據科技資源數據庫資源的特點,以DC元數據標準為基礎制定科技資源數據庫標準,使其在科技資源數據庫范圍內具有很強的通用性。
河北省科技資源數據庫核心元數據標準是由數據集元數據做主要部分。數據集元數據是一個面向數據集層次的科學數據資源的元數據標準,定義了一組通用的元數據模塊和元素。
3) 專業元數據標準
專業元數據標準是針對應用的需求,基于DC元數據標準和科技資源數據庫核心元數據標準,設計適合于應用系統的元數據元素集。以農作物資源數據庫為例,農作物資源元數據標準就是在DC及科技資源核心元數據標準的基礎上,結合農作物信息的具體情況,運用DC和核心元數據標準的擴展原則建立的。
2.2 科技資源數據庫元數據標準互操作策略
根據元數據標準的三級結構,科技資源數據庫應該能實現兩個層次的互操作。
1) 在DC元數據標準層,實現與科技資源數據庫以外的系統進行數據交換和共享,目前國際上其它項目大多數都是基于國際標準,因此,通過采用或映射到DC元數據標準,可以方便的與其它系統實現互操作。
2) 在科技資源數據庫核心元數據標準層,實現在科技資源數據庫內部不同學科、不同資源類型之間進行數據交換。因為該層的元素集在科技資源數據庫內部具有通用性,是該學科或該類資源類型中多個應用綱要共同包含的元素的匯集,所以在這一層可實現科技資源數據庫內部的互操作。
3 元數據注冊系統體系架構
元數據注冊系統又叫元數據登記系統(Metadata Registry,簡稱MR)是對元數據的定義信息及其編碼、轉換、應用等規范進行發布、登記、管理和檢索的系統。它從元數據的開發、管理、利用等環節為元數據的互操作提供了一個開放式的操作平臺。
科技資源數據庫元數據注冊系統采用四層的體系結構:網絡層、信息資源層、核心服務層和界面層。如圖2所示。
網絡層在邏輯架構中處于最底層,是科技資源數據庫元數據注冊與使用系統的重要基礎設施和物理平臺。
信息資源層構建于網絡層之上,為核心服務層提供信息資源。
核心服務層在整個框架中起承上啟下的關鍵作用,為信息資源層提供實現各項服務的接口,包括注冊接口、瀏覽/檢索接口和映射接口;對界面層提供對元數據進行注冊、瀏覽、檢索和映射的服務。
界面層為用戶提供用戶界面。
4 元數據注冊與使用系統關鍵技術
4.1 元數據注冊
在對元數據進行注冊時,分為對元數據元素的注冊和對元數據標準的注冊。在對元數據元素注冊時提供兩種方式對科技資源數據元數據進行注冊,一是在線的對元數據元素及其屬性進行編輯,直接注冊;二是通過提交元數據元素的XML文檔進行注冊。在對元數據標準進行注冊時,通過提交元數據標準的XML文件進行注冊。通過操作已注冊的元數據元素及標準,方便對科技資源數據庫元數據標準中的元素信息進行增加、修改、刪除和更新操作。
根據科技資源數據庫元數據標準管理的需要,對元數據的注冊流程如圖3和圖4所示。
在圖3中,從客戶端提交XML文件到服務器端,服務器端通過DOM[3]解析器,對元數據元素的XML文件進行解析,驗證,若驗證結構正確,則為解析后的元素分配唯一標識符,并存儲到SQL Server數據庫中,同時,對XML文件進行重命名,防止上傳不同元數據元素而采用相同文件時將原有文件覆蓋,重命名后保存到文件系統。
在圖4中,客戶端通過在線編輯元數據元素及其屬性,將元數據元素信息提交到服務器端,服務器端進行判斷,若不存在相同元素,則為該元素分配唯一標識符,將元數據元素信息保存到SQL Server數據庫同時,將元數據元素信息生成XML文件,并對XML文件進行重命名,防止同名覆蓋,同時保存XML文件到文件系統。
由于XML Schema文件采用XML語法,本身也是一個XML文件,因此,對元數據標準的注冊流程與對元數據元素注冊信息的XML文檔注冊流程一樣。
4.2 元數據標準轉換
目前實現元數據互操作的方法很多,普遍采用的一種方法是通過建立映射表來完成,但是這種方法在映射量較大時會出現較大的成本和維護開銷[4]。因此,本論文采取基于語義層的映射,在系統內建立一個語義層,先將元數據元素與語義層建立映射關系,這樣兩者之間的映射就方便許多,維護開銷和成本也很小。
在進行元數據標準轉化時,首先,系統管理員選取2個有待轉換的標準,然后,察看元素語義層映射情況,當標準A中所有元素在標準B中找到對應元素映射,即標準B中的對應元素與標準A中每個元素屬于同一語義層。當元素間全部建立起對應關系,則調用系統轉化模塊,該模塊根據元素間關系生成XSLT文件。最后導入XSLT文件,實現元數據標準間的互操作。轉化過程如圖5所示。
5 結束語
元數據在科技資源數據庫中正在發揮越來越重要的作用。針對河北省科技資源元數據標準管理的需要,通過元數據注冊系統從管理途徑上解決元數據互操作問題,為數據資源的有效利用、共享、交換和整合奠定堅實基礎。
參考文獻:
[1] The Hebei Province Scientific Recourses Database'S Network[EB/OL].http://202.206.45.2/kjzy.
[2] 張崇.DC元數據在國內的應用及思考[J].現代圖書情報技術,2004(14):6-9.
[3] 戴蓓潔,余雙,金蓓弘.基于DOM解析器的XML編輯器研究[J].計算機工程與設計,2007,28(22):5334-5338.
[4] 孔慶杰,宋丹輝.元數據互操作問題解決方案[J].情報科學,2007,25(5):754-758.