趙子凱
(中共遼寧省委黨校信息中心,遼寧 沈陽 110004)
元數(shù)據(jù)技術是數(shù)字圖書館建設過程中的關鍵技術之一,數(shù)字圖書館在對信息資源進行組織和有效利用的過程中,自始至終都離不開元數(shù)據(jù)。從某種意義上說,數(shù)字圖書館建設的成功與否很大程度上取決于其元數(shù)據(jù)方案的質(zhì)量高低。因而數(shù)字圖書館中的元數(shù)據(jù)研究就具有很強的現(xiàn)實意義。
元數(shù)據(jù)(metadata)是關于數(shù)據(jù)的數(shù)據(jù)。數(shù)字圖書館中的元數(shù)據(jù)體系就是數(shù)字圖書館中所有信息的描述方法,即各種元數(shù)據(jù)結構及其實現(xiàn)模塊的總和,是數(shù)字圖書館的基礎結構。元數(shù)據(jù)在數(shù)字圖書館中的主要作用是對數(shù)字信息資源的組織和整序,亦即為分布式數(shù)據(jù)發(fā)現(xiàn)和檢索奠定基礎。通常數(shù)字圖書館中的元數(shù)據(jù)體系具有以下功能:
①描述功能。數(shù)字圖書館中的元數(shù)據(jù)描述功能有兩個方面:a.描述數(shù)字化信息的基本特征,使得數(shù)字化圖書館系統(tǒng)能夠通過元數(shù)據(jù)體系自動搜索到數(shù)字化信息。b.描述用戶提問。
②整合功能。所謂整合功能,指的是數(shù)字圖書館的元數(shù)據(jù)體系將各種不同格式的元數(shù)據(jù),通過建立映射、翻譯等方法整合成一種元數(shù)據(jù)格式的過程,即實現(xiàn)不同格式元數(shù)據(jù)之間的互操作性,也是一個異構數(shù)據(jù)庫之間的整合過程。
③控制功能。元數(shù)據(jù)體系的規(guī)范控制功能包括信息內(nèi)容的規(guī)范化描述、規(guī)范標引和信息評估等方面。元數(shù)據(jù)體系可以通過標準元數(shù)據(jù)模型來規(guī)范化描述數(shù)字信息。
④代理功能。知道元數(shù)據(jù)本身也是替代記錄,數(shù)字圖書館中的元數(shù)據(jù)體系同樣具有代理功能。元數(shù)據(jù)的代理功能可以有效地節(jié)省網(wǎng)絡資源,這是因為元數(shù)據(jù)是數(shù)字化信息資源的一種描述,記錄了數(shù)字化信息資源的基本特征,可以基本反映信息的概貌,同時,元數(shù)據(jù)和數(shù)據(jù)相比,其數(shù)據(jù)量要小得多,可以作為完整信息的代理。
數(shù)字圖書館中的元數(shù)據(jù)體系結構的組成,往往因具體的數(shù)字圖書館項目而有所區(qū)別。這里僅就目前的研究現(xiàn)狀給出比較通用的6個組成部分。
①核心元數(shù)據(jù)系統(tǒng)。它構成數(shù)字圖書館中元數(shù)據(jù)體系的核心內(nèi)容,也有人將它稱為基準或標準元數(shù)據(jù)系統(tǒng),通常核心元數(shù)據(jù)是數(shù)字圖書館元數(shù)據(jù)體系所必須的。
②元數(shù)據(jù)字典。它實際上是一種用于不同格式的元數(shù)據(jù)到核心元數(shù)據(jù)系統(tǒng)相互轉換的對照表,描述了各種元數(shù)據(jù)的基本特征,構建了各種元數(shù)據(jù)與核心元數(shù)據(jù)系統(tǒng)的對應關系。
③非核心元數(shù)據(jù)封裝系統(tǒng)。它是指數(shù)字圖書館中存儲數(shù)據(jù)的屬性總和,即各種非核心元數(shù)據(jù)的集合。
④用戶接口系統(tǒng)。數(shù)字圖書館中的元數(shù)據(jù)體系與讀者、用戶之間的聯(lián)系就是通過用戶接口系統(tǒng)來實現(xiàn)的。
⑤轉換模塊。核心元數(shù)據(jù)系統(tǒng)與非核心元數(shù)據(jù)之間的轉換是通過元數(shù)據(jù)體系中的轉換模塊來實現(xiàn)的。轉換模塊提供了實現(xiàn)各種元數(shù)據(jù)之間相互轉換、翻譯的方法。相對于元數(shù)據(jù)字典而言,轉換模塊以它為基礎,是由專門程序?qū)崿F(xiàn)的動態(tài)過程。
⑥維護模塊。維護模塊是對上述數(shù)字化圖書館元數(shù)據(jù)體系的5個部分進行管理和維護的模塊。維護模塊可以對各種對照表進行添加、刪除、修改等動態(tài)管理,保證整個元數(shù)據(jù)體系的可擴展性和可維護性。
雖然元數(shù)據(jù)體系的組成結構在實際系統(tǒng)設計上可能形態(tài)各異,但上述6個組成部分是元數(shù)據(jù)體系的基本功能構成,它們實現(xiàn)了數(shù)字化圖書館對元數(shù)據(jù)的處理過程。
在對數(shù)字圖書館中的元數(shù)據(jù)類型進行劃分時,人們通常以功能作為其劃分標準。筆者認為數(shù)字圖書館中常見的元數(shù)據(jù)類型有以下5種:管理型元數(shù)據(jù)、描述型元數(shù)據(jù)、結構型元數(shù)據(jù)、技術型元數(shù)據(jù)和保存型元數(shù)據(jù)。這是因為這5種功能類型的元數(shù)據(jù)的功能正是數(shù)字圖書館在對數(shù)字信息資源進行組織和利用過程中整體功能的反映。數(shù)字圖書館首先要對數(shù)字信息資源進行描述,然后進行結構化的存取,從而實現(xiàn)對數(shù)字信息資源的有效管理。數(shù)字圖書館本身就是各種高新技術的集成,為實現(xiàn)數(shù)字圖書館技術環(huán)境中信息資源的有效利用,技術型元數(shù)據(jù)不可缺少,在數(shù)字圖書館中應該特別強調(diào)對數(shù)字信息資源的長期保存,因而保存型元數(shù)據(jù)將發(fā)揮一定的作用。
它是所有劃分標準中的公認類型,屬于元數(shù)據(jù)的基本功能范疇。描述型元數(shù)據(jù)支持資源的發(fā)現(xiàn)和鑒別。題名、創(chuàng)造者、制作者、出版者、出版日期等都是典型的描述型元數(shù)據(jù)。
數(shù)字圖書館中通過它實現(xiàn)對數(shù)字信息資源的有效管理。傳統(tǒng)圖書館中有關借閱權限、館藏地點等信息都是管理元數(shù)據(jù)的例子。
結構型元數(shù)據(jù)反映數(shù)字信息資源的內(nèi)部形式特征,如目錄、段落、章節(jié)等,從而實現(xiàn)對數(shù)字信息資源的結構化存取。
數(shù)字圖書館是高新技術的集聚地,其作業(yè)環(huán)境是典型的技術環(huán)境。將各種技術有效地應用于對數(shù)字信息資源的組織和管理,正是技術型元數(shù)據(jù)的功能和作用。
保存型元數(shù)據(jù)是指支持數(shù)字化資源長期保存的數(shù)據(jù)。在數(shù)字圖書館中,關于數(shù)字化信息資源發(fā)現(xiàn)與檢索的元數(shù)據(jù)研究固然重要,關于支持信息資源長期保存的元數(shù)據(jù)研究同樣非常重要。無論人們試圖以哪一種技術來解決數(shù)字化信息的長期保存,都必須知道數(shù)字信息本身及其環(huán)境的一些技術特征,這便是保存型元數(shù)據(jù)所揭示的內(nèi)容特征。
數(shù)字圖書館中的元數(shù)據(jù)類型劃分不是絕對的,而是相對的,隨著人們研究的不斷深入和具體的應用實踐,將會有新的類型出現(xiàn)。就數(shù)字圖書館中具體的元數(shù)據(jù)元素而言,它可能既是描述型元數(shù)據(jù),同時又是管理型元數(shù)據(jù);既是技術型元數(shù)據(jù),又是保存型元數(shù)據(jù)。在元素與元數(shù)據(jù)類型之間不是簡單的一一對應關系。
數(shù)字圖書館中的元數(shù)據(jù)模型為各種元數(shù)據(jù)在數(shù)字圖書館中的具體應用提供一個描述框架,它將元數(shù)據(jù)的語義和語法有機地結合起來,是元數(shù)據(jù)在編碼語言中的具體應用形式,它為實現(xiàn)各種格式、類型的元數(shù)據(jù)之間的互操作性提供了基礎,在多種格式、類型的元數(shù)據(jù)并存的數(shù)字圖書館元數(shù)據(jù)體系中將起到非常重要的作用。就數(shù)字圖書館而言,可選擇的元數(shù)據(jù)類型和元數(shù)據(jù)模型有多種。一般來說,數(shù)字圖書館中有代表性的元數(shù)據(jù)類型有兩種:以資源為中心的資源描述框架RDF和以事件為中心的ABC元數(shù)據(jù)邏輯模型。
RDF資源描述框架(Resource Description Framework)是1997年10月W3C正式發(fā)布的草案,其設計目的是提供一種強有力的表述、交換與利用元數(shù)據(jù)的機制,通過對一般意義上的語義、語法和結構的支持,提供在各種不同元數(shù)據(jù)體系之間的互操作性。RDF基于XML和XHTML,其核心定義比較簡單,它基于如下的假設:任何一個可以被標識的“資源”(resource)都可以被一些可選擇的“屬性”(properties)描述,每一個屬性的描述都有一個“值”(value)。資源、屬性、屬性值三者構成了資源描述框架的基本數(shù)據(jù)模型(見圖1)。

圖1 以資源為中心的資源描述框架RDF
ABC模型最突出的特征是引入了“事件”概念。“事件”概念為不同元數(shù)據(jù)集之間的信息交換架起了橋梁。它使我們將資源間復雜的、模糊的關系用簡單的二維關系來描述。而且,當人們將一種元數(shù)據(jù)描述轉換成另一種元數(shù)據(jù)格式時,資源間的關系不會丟失。在ABC邏輯模型中,將相對于其他元數(shù)據(jù)集中的上層域稱為類,類內(nèi)所包含的概念稱為子類。ABC中的基本類有:資源、特性、事件、行為、關聯(lián)。其邏輯關系見圖2。

圖2 以事件為中心的ABC邏輯模型
要想使元數(shù)據(jù)應用于數(shù)字圖書館,就要為其編碼,通過為元數(shù)據(jù)編碼,使之能夠為機器處理,從而提供給用戶使用,進而發(fā)揮其應有的作用。數(shù)字圖書館中最常見的元數(shù)據(jù)編碼標準應該是MARC機讀目錄通訊格式。MARC格式歷史悠久,但格式復雜,并不適宜對網(wǎng)絡信息資源進行描述,所以目前以標記語言作為數(shù)字圖書館中的元數(shù)據(jù)編碼語言或編碼標準為人們普遍接受,但也正處于研究和試用階段。
機讀目錄通訊格式(MARC Communication Format)是圖書館自動化系統(tǒng)之間傳輸和交換機讀目錄數(shù)據(jù)時共同遵循和使用的標準記錄格式,又稱機讀目錄交換格式。它規(guī)定了書目數(shù)據(jù)在機讀介質(zhì)上的表示和標記方法。在MARC格式中,每條元數(shù)據(jù)記錄都分為4個部分:頭標區(qū)(Header)、目次區(qū)(Directory)、控制字段(Control field)和可變長字段(Variable field)。
SGML通用標準標記語言是用于文獻標記的國際標準。它是一套設計標記語言的規(guī)則,描述文獻的結構,以便于文獻能夠跨越計算機平臺被交換。SGML非常靈活,足以定義無數(shù)的標記語言。HTML、XML和XHTML都是SGML定義的標記語言。HTML超文本標記語言是對元數(shù)據(jù)進行描述的最早、最廣泛的應用,該標記語言中的meta和link標記提供了為元數(shù)據(jù)進行編碼的通用機制;XML可擴展的標記語言,是前景被普遍看好的Web標記語言,非常適合對數(shù)字圖書館中的元數(shù)據(jù)進行編碼,XML語言通常與RDF資源描述框架結合使用;XHTML可擴展的超文本標記語言是更高級一些的標記語言,也可以作為數(shù)字圖書館中元數(shù)據(jù)的編碼語言,我們應在實踐中予以關注和深入研究。
[1] 林海青.數(shù)字化圖書館的元數(shù)據(jù)體系.中國圖書館學報,2000(4).
[2] 李慧.元數(shù)據(jù)在數(shù)字圖書館中的應用.情報理論與實踐,2001(1).
[3] 吳開華,邢春曉,羅德胤.數(shù)字圖書館元數(shù)據(jù)研究.中國圖書館學報,2002(3).
[4] 李瑞勤.不同元數(shù)據(jù)集之間信息交換的橋梁-ABC邏輯模型.圖書情報工作,2002(10).
[5] 羅冰眉.元數(shù)據(jù)及其在數(shù)字圖書館的應用.情報雜志,2003(1).