摘 要:元數據標準化是推進分布式信息資源一體化建設、實現信息資源共享的關鍵。基于分布式信息資源元數據標準化基本要求,提出分布式元數據標準規范,并設計了用于元數據標準發布、管理以及共享的平臺,即分布式信息資源元數據標準注冊系統的總體框架。
關鍵詞:分布式信息資源; 元數據標準化; 元數據標準; 元數據注冊系統
中圖分類號:TN915 文獻標識碼:A
文章編號:1004-373X(2010)11-0147-04
Research on Standardization of Distributed Information Resource Metadata
LI Zhen-fu1, ZHANG Jun-xing1, LI Yi2
(1. Xi’an Communication Institute, Xi’an 710106,China; 2. Shaanxi Electric Power Research Institute, Xi’an 710059, China)
Abstract: The metadata standardization is a key factor for carrying forward the integrated construction and sharing of distributed information resource. On the basis of the fundamental requirement for the standardization of distributed information resource metadata, the metadata standard specification of the distributed information resource is proposed, and the overall framework for the metadata standard registry system of the distributed information resource is designed for the metadata release, management and sharing.
Keywords: distributed information resource; metadata standardization; metadata standard; metadata registry system
隨著信息技術的快速發展和社會信息化建設的不斷深入,信息資源在數量和復雜程度上的同步增長使信息搜集和檢索技術越來越難以滿足大部分用戶的信息需求。特別是分布式信息資源,由于信息生產的多目的性和無序性,使信息資源在空間分布上顯現出復雜的格局,離散分布于不同地區、行業和組織之中,導致信息“富集”與“貧集”現象的產生[1]。由于標準難以統一、數據異構等原因,給信息資源的檢索、共享、利用帶來各種困難。元數據在大型企事業單位中應用廣泛,被稱為信息系統的“DNA”,結構化的元數據不僅能夠描述數據信息,還可以規范信息的數據結構和目錄內容[2]。統一的元數據描述框架可以進行真正意義上的信息資源整合,面向公眾提供統一的信息查詢,提高檢索的精確率,促進信息資源的共享和利用[3]。只有通過標準化、格式化的程序描述數據才能確保數據交換和數據重復的最小化。面對日益增長的分布式信息資源,用于數據收索、獲取和分析的標準化元數據就顯得非常必要[4]。
1 基本要求
1.1 需求驅動
元數據標準化要緊貼現實需求。只有以現實需求為依托,設計出來的元數據標準才有實際價值。因此,信息資源元數據標準規范的設計要立足于分布式信息資源元數據用戶實際需求,設計出來的元數據能夠對分布式信息資源盡可能全面地描述,以滿足信息資源不同應用主體對信息資源的需求。這些需求主要包括對信息資源的描述與評價、快速發現和定位、管理、數據維護以及獲取等。
1.2 個性化
不同領域的元數據有不同的功能需求,因此會有不同的標準。制訂分布式信息資源元數據標準時,應該以應用為背景,以滿足分布式信息資源的管理、共享為目的,在詳細分析分布式信息資源特性的基礎上,體現實際應用的需求特點,制定出滿足要求的元數據標準規范。
1.3 簡潔性與準確
分布式信息資源元數據的標準要盡可能的簡潔。只有簡潔易于掌握的元數據標準,才能被廣大元數據標準化工作人員接受,并很快運用。同時,為了最大限度地滿足用戶的需求,要求對分布式信息資源的描述要準確,而不準確、不相關的信息比沒有信息的危害還要大。在保證元數據標準能夠對分布式信息資源進行準確描述的基礎上,使標準構成盡可能的簡潔。
1.4 互操作
互操作性是分布式信息資源元數據的重要特征,是實現分布式信息資源互操作的基礎。分布式信息資源元數據只有具備良好的互操作性,才能實現不同系統間的信息資源互操作,進而滿足分布式、異構信息系統信息資源管理共享的需求。
1.5 可擴展
標準是標準化活動的成果之一,標準在標準化過程中得到不斷發展完善。標準化的主要內容就是制定標準,實施標準,進而修訂標準,又實施標準[5]。因此,分布式信息資源的元數據標準規范也不是一成不變的,它會隨著信息資源對元數據功能需求的改變而不斷改變。所以分布式信息資源的元數據標準要有可擴展性,要能實現元數據標準的可持續發展,以滿足分布式信息資源元數據發展需求。
2 分布式信息資源元數據標準規范
2.1 層次結構
元數據一般為樹狀結構,可以按一定的層次進行組織。分布式信息資源元數據從層次上可分為元數據子集、元數據實體和元數據元素。元數據元素是分布式信息資源元數據最基本的信息單元,不可再分割;元數據實體是同類信息資源元數據元素的集合,是比元數據元素高一層的概念,它們之間是包含與被包含的關系;元數據子集則是相互關聯的信息資源元數據實體與元數據元素的集合,用于說明信息資源某一方面的內容。分布式信息資源元數據的層次結構如圖1所示。
圖1 分布式信息資源元數據層次結構
2.2 核心元數據的數據模型
遵循分布式信息資源元數據標準的建設原則和流程,以實現信息資源的發現、定位、檢索與管理以及獲取為目的,設計資源信息核心元數據模型,如表1所示。
為了保證元數據的通用性,其元素盡可能地在現有元數據標準元素中選取,如表中部分元素是復用國際通用元數據標準DC元數據的元素。根據信息資源的特殊要求,對通用標準進行擴展,考慮到分布式信息資源對安全性的要求,特別增加了限制子集。
核心元數據元素按功能分為六個子集,分別為資源限制信息子集、資源內容信息子集、數據質量信息子集、資源標識信息子集、分發信息子集、負責方信息聯系子集。新增的資源限制信息子集,用于描述分布式信息資源的管理使用權限、資源安全限制等級分級以及資源安全保密期限,以便對信息資源的安全進行控制。資源內容信息子集重點說明了信息資源的基本數據組成,信息資源內容的基本情況。數據質量信息子集包含數據志和概述,數據志用來說明信息資源的生產依據和過程;概述給出了數據質量按特定數據生產標準進行評價的結果,由于分布式資源對數據質量的要求比較高,所以數據質量信息顯得尤為重要。資源標識信息子集包含有信息資源惟一標識符、信息資源的摘要信息、信息資源的狀態,用于信息資源的檢索和發現。分發信息子集主要用來描述信息資源獲取的信息,包括分發者信息、數據分發格式信息以及用戶獲取信息資源的途徑。負責方聯系信息子集主要為信息資源的獲取、分發、管理以及維護提供保障,可重復使用。
2.3 核心元數據總體邏輯結構
UML是一種通用的面向對象的可視化建模語言,可用于對軟件的描述、可視化處理、構造和建立軟件系統制品的文檔,還可用于對系統的理解、設計、瀏覽、配置、維護和信息控制等[6]。根據各信息包的邏輯關系,通過UML建模,構成了分布式信息資源核心元數據的總體邏輯結構,如圖2所示。
圖2 分布式信息資源核心元數據總體邏輯結構
分布式信息資源核心元數據由標識信息包、數據質量信息包、限制信息包、分發信息包、內容信息包、負責單位聯系信息包以及有關核心元數據本身的信息組成。其中,負責單位聯系的信息包是公用的,在核心元數據包的總體邏輯結構中,負責單位信息結構用來描述相應的聯系信息。
2.4 標準描述框架
分布式信息資源元數據標準的種類復雜且用途多樣,因此多種元數據標準共存的局面必然存在,而分布式信息資源元數據標準對互操作性要求較高。要保證能夠做到對用戶保持一致性的服務,也就是對用戶來說,能夠提供一個統一的數據界面,保證元數據標準一致性與對權限范圍內的用戶透明;同時,元數據復用和各種元數據互換已成為分布式信息資源元數據發展的趨勢。要實現這些目標,就必須用RDF框架對元數據進行描述。
RDF具有可伸縮、可擴展、可兼容、可互換以及簡單性的特點[7],應用到分布式信息資源元數據標準的描述,能增強元數據標準的互操作性,同時也有利于元數據標準的推廣應用。RDF的核心定義比較簡單,它規定了描述特定資源中特定屬性的基本數據模型,由資源(Resource)、屬性(Property)、聲明語句(Statement)構成。它基于如下假設:任何一個可被標識的“資源”都可以被一些可選擇的“屬性”描述,每一個屬性的描述都有一個“值”,也就是聲明語句。對此定義,可用如圖3的三元圖來描述。
圖3 RDF三元關系模型
RDF所提供的基于XML的結構與句法尤其適合描述語義定義較為豐富的分布式信息資源元數據,在這樣的模式下,語義、句法及結構得到了很好的整合。
對于更復雜的情況,可對RDF三元關系進行靈活擴展,下面用基于RDF的句法來描述如下一個假定事實:某某是http://www.xty.name/mydoc.htm資源插圖的作者,他是我方某單位的信息資源元數據標準化工作人員,他的email是:Moumou@163.com。可用圖4進行具體描述。
圖4 RDF三元關系擴展模型
3 分布式元數據標準注冊系統總體框架
元數據注冊系統(Metadata Registry,MR)是對元數據的定義信息、置標方案、轉換規則、著錄規則、應用指南等規范進行發布登記管理和檢索的系統,它可以支持網絡環境中元數據規范的發現、識別、解析、調用以及在此基礎上的元數據轉換、挖掘和復用[8-9]。是一個被用于存儲、組織、管理和共享元數據的系統,能夠提供關于元數據的定義、起源和位置的信息。信息資源元數據注冊系統是元數據標準制定中工作交流、溝通和統一管理的平臺,也是元數據標準的共享平臺,是實現元數據標準互操作的關鍵。注冊系統的設計要立足于滿足分布式系統信息資源共享的需求,有利于分布式信息資源元數據標準化的進行,支持對元數據標準化的統一管理,支持元數據標準的快速發布、共享、檢索以及獲取,因此也是實現元數據標準化的關鍵。
3.1 功能實現
分布式元數據標準注冊系統要能夠提供如下功能:為元數據的注冊提供標準統一的注冊模板;注冊系統的管理人員要能夠對提交的元數據標準進行審核,將符合要求的存入數據庫,通過注冊系統實現對元數據標準的有效管理;元數據注冊系統要支持對系統中存在的所有元數據標準和元素進行檢索;元數據注冊系統要支持不同單位之間的標準互操作,支持不同單位的標準建設協同工作。
3.2 總體框架設計
分布式信息系統中信息資源的建設單位分散,造成信息資源元數據標準的種類多樣,標準化建設協調難度大,同時對元數據標準一體化程度要求高。因此需要構建一種便于元數據標準集中管理,各標準建設單位能夠高度協調,同時各單位又有一定自主權的元數據管理注冊系統。本文提出了用于分布式信息資源元數據標準注冊的總體框架模型,以實現分布式系統中元數據標準及其元素注冊、管理、發布。注冊系統總體結構框架如圖5所示。
圖5 分布式信息資源元數據注冊系統總體框架
總體框架結構模型采取分布與集中相結合的模式,位于中央的是分布式信息資源元數據注冊系統總庫,它存儲來自不同系統A,B,C,D元數據工作者提交的元數據標準,負責分布式信息資源元數據庫、公用元數據庫及各個元數據標準工作單位之間的組織協調與管理,負責各單位標準化部門符合要求元數據標準的備份,同時提供面向用戶的應用接口與應用接口的軟件平臺,并負責總體標準的發布、實施、監督等;A,B,C,D各部門注冊系統,負責各自元數據的注冊工作,通過和總庫的有效溝通,確定部門標準制定的有效性以及與整個分布式系統元數據標準體系的協調性,然后進行注冊并將注冊過的標準提交到總庫;各部門注冊系統的管理者、標準制定者以及標準用戶之間能進行有效的溝通,通過溝通交流,標準制定者不僅能夠從使用者那里獲取需求信息,還可以從使用者的應用實踐中獲取標準改進意見;各部門注冊系統之間有業務來往,標準制定者和標準使用者可以相互訪問數據庫,提高了標準效率,有相近的標準時,可以通過相互溝通進行高效的元數據復用,節
省大量資源,并有助于標準的統一;注冊系統總庫的管理者和各部注冊系統管理者可以通過雙向溝通,有序協調,負責分布式元數據標準化的總體控制。
4 結 語
推進分布式信息資源元數據標準化建設對提高信息資源管理效率,促進信息資源共享、利用具有重要意義。本文在遵循分布式信息資源元數據標準化要求的基礎上,給出分布式信息資源元數據標準規范,并設計了用于元數據標準規范注冊、管理、共享的元數據標準注冊系統,希望能夠給分布式信息資源元數據標準化建設提供有益的參考。
參考文獻
[1]霍國慶.我國信息資源配置的模式分析(一)\\.圖書情報工作,2000(5):32-35.
[2]LIU Sheng-ping, YANG Yang, XIE Guo-tong. Supporting ontology-based dynamic property and classification in Websphere metadata server[J]. Lecture Notes in Computer Science, 2008,5318(1): 861-862.
[3]吳鵬強,韶華,蘇新寧.政府信息資源五數據貓述框架研究\\.中國圖書館學報,2007(1):66.
[4]BERMUDEZ Luis, PIASECKI Michael. Metadata community profiles for the semantic web[J]. Geo. Informatics, 2006,10(2):160.
[5]洪生偉.標準化過程模式探討[J].世界標準化與質量管理,2007(4):35.
[6]王正俊,顧宏斌.UML和設計模式在AMCCS中的綜合應用[J].計算機應用與軟件,2007,24(7):103-104.
[7]郭志紅.元數據的多角度透視[J].圖書館,2002(5):37-38.
[8]JEONG Dongwon, BAIK Doo-Kwon. Incremental data integration based on hierarchical metadata registry with data visibility[J]. Information Sciences, 2004,162(3):150.
[9]梁娜,張曉林.基于人工登記與檢索的元數據登記系統[J].大學圖書館學報,2003,21(1):22-25.