劉 麗
(雞西大學圖書館,黑龍江 雞西 158100)
元數據在數字圖書館的應用研究*
劉 麗
(雞西大學圖書館,黑龍江 雞西 158100)
以元數據的概念為鋪墊,對元數據在數字圖書館應用的必要性做了闡述,重點探討了元數據在數字圖書館的應用及應當注意和解決的問題.
元數據;數字圖書館;DC
元數據是為了解決互連網上海量信息資源的組織與管理問題而興盛起來的,它具有信息的發現與選擇、描述與揭示、整合與集成等功能.元數據被廣泛應用在圖書館、自然科學、政務辦公、社會科學等領域.由于數字圖書館的收藏種類繁多,數量龐大,既有傳統的印刷資源,又有類型各異的數字資源等特點,因此為了滿足用戶快速、準確地獲取到所需信息,數字圖書館必須使用元數據對其信息資源進行有效組織與管理.離開元數據的數字圖書館將是一盤散沙,無法提供有效的檢索和處理.
元數據 (metadata),是用于描述數據的內容(what)、覆蓋范圍 (where,when)、質量、管理方式、數據的所有者 (who)、數據的提供方式 (how)等信息的數據,是數據與數據用戶之間的橋梁.簡言之,元數據是關于數據的數據.
在圖書館與信息界,元數據被定義為提供關于信息資源或數據的一種結構化的數據,是對信息資源的結構化的描述.其作用為:描述信息資源或數據本身的特征和屬性,規定數字化信息的組織具有定位、發現、證明、評估、選擇等功能[1].
從上述定義我們可以看出元數據所揭示的內涵似乎與傳統的書目數據、MARC數據極其相似,都是關于對象數據 (或資源)重要特征的描述,以促進信息對象的發現和檢索.但是,我們也不能將元數據簡單地等同于傳統的書目記錄.我們知道元數據產生于網絡時代,它是為組織與檢索海量網絡信息資源而提出的,它的內涵比書目記錄要豐富得多.它可以為各種形態的信息資源提供規范、普遍的描述方法和檢索工具,為分布的、由多種資源組成的信息體系 (如數字圖書館)提供整合的工具與紐帶.
數字圖書館的基本邏輯構成是“資源”,資源是可以被標識的任何東西,可以是物理的實體,也可以是數字對象或者虛擬的復合對象或對象集合.元數據的出現就是要整合這些資源,使其有序化.由于元數據提供了對資源的各種屬性的描述,因而可以看成是“資源”的替代品.數字圖書館通過管理元數據而管理資源,并提供絕大多數功能.因此元數據通過定義數字圖書館中資源的信息結構,以及定義由數字對象構成的資源庫的組織結構,決定著數字圖書館的信息組織和利用方式,同時元數據還是實現跨資源庫語義互操作的基礎.具體來講,元數據在數字圖書館信息組織中的必要性表現在以下幾方面:
浩瀚的網絡資源為信息資源的生成帶來了極大的便利,幾乎任何人在任何時間內都可以成為信息資源的創建者,但由于資源創建者自身素質的差異極大,且缺乏嚴格的網絡出版監督機制,導致了信息資源質量的參差不齊,因特網成了展示這些“商品”的雜店.作為數字圖書館的信息組織人員,其首要的任務就是利用信息資源創建者提供的簡單元數據,對這些雜貨店的商品進行嚴格篩選,以提供給最終用戶以高質量的信息資源[2].
對信息資源的描述與揭示是元數據的最主要的功能,也是數字圖書館信息組織的核心.同傳統圖書館一樣,對于篩選過的、已成為數字圖書館館藏的信息資源,信息組織人員需要根據資源類型使用傳統元數據標準 MARC或現代元數據如 DC、VRA、FGDC等對其進行描述與揭示,以方便用戶對資源的發現與檢索.
利用元數據整合與集成的功能,建立元數據體系,將傳統館藏和數字化館藏整合集成到一個統一的用戶界面上,使得用戶可以通過任意一個數字化圖書館的單個界面,訪問互聯網上的其他數字化圖書館和信息庫,為用戶提供統一的集成服務.
由于 DC(Dublin Core元數據)具有結構簡單、易操作、可擴展性等特點,因此數字圖書館建設多采用DC作為元數據方案或參照DC元數據,并根據實際需要對 DC元數據進行擴展,實現對信息資源的組織及提供檢索.
上海圖書館在數字圖書館建設中,共實現了 7個數字化項目,包括:善本古籍、上海圖典、上海文典、中國報刊、民國圖書、點曲臺和科技百花園.這些文獻資源中的圖書已經有完整的MARC格式記錄,古籍已用特殊的元數據來描述,圖典則需要重新加工和組織.這樣,上海圖書館在建設的過程中面臨的是多種元數據并存的局面,為了滿足不同元數據集之間因應用的需要而產生的互操作的需求,定義一個核心元數據集顯得非常必要,為了實現不同數據集間的互操作,上海圖書館選用 DC元數據作為核心元數據集,以便于元數據之間的轉換與整合.
北京大學的元數據設計是在一個總則和總的規范性文件——《北京大學中文元數據標準框架》的指導下,分別完成各資源對象的元數據設計.該文件規定了元數據的設計原則、功能、結構等問題.元數據分為描述型元數據、管理型元數據和應用型元數據,其中描述型元數據又劃分為核心元素、本館核心元素和個別元素.其中,核心元素采用了 DC的 14個元素,并且在使用的過程中嚴格遵循 DC的語義定義,通用性最強,此層次的元素是數據交換和共享中的核心所在,各資源對象的核心元素都包含在這 14個元素內.本館核心元素和個別元素則是根據不同對象的特性而定制的.目前已經設計完成的元數據方案包括拓片元數據、古籍元數據、學位論文元數據、輿圖元數據、電子圖書元數據以及人物類元數據.
作為美國“數字圖書館首倡計劃”之一的斯坦福大學數字化圖書館,是一個分布式的、異構的、基于代理的數字圖書館,其自動服務和收藏功能通過代理服務器來間接獲得.為滿足元數據的可容性和內部操作性,它的元數據體系包括以下四個基本組成部分:屬性模型代理、屬性模型翻譯器、搜索代理的元數據設地、元數據包.其中,屬性模型是指自包含的屬性集,即諸如 DC、US MARC等元數據標識集.屬性模型代理包含了屬性集和為首要對象定義的屬性,也允許包含屬性間的種種關系.屬性模型翻譯器將來自某個屬性集的屬性和屬性值映射到另一個屬性集中.搜索代理的元數據設施為搜索代理的可訪問資源和搜索能力提供了結構化的描述.元數據包積聚了從其他三個組成部分中挑選出的元數據,以利于元數據的全局查詢和局部檢索,是該數字化圖書館的基礎設施,它的核心是代理 (包裝器).元數據體系的建成便于各種格式的元數據在網絡數據庫間進行導入和導出,實現不同格式的元數據之間的互換,使得數字化圖書館最終成為互聯網上閱讀瀏覽的網絡數據庫.
作為國內知名的數據提供商,萬方公司于 2003年 8月正式啟動元數據標準項目,經過對中外各類成熟的元數據的分析和對國內幾大圖書館元數據方案的調研,對文獻類 (期刊論文、會議論文、引文、科技文獻)數據庫、機構類 (科研機構、高等院校、企業產品)數據庫、標準法規類數據庫、成果專利類數據庫、人物類數據庫共五大類一百多個數據庫進行數據規范的設計.最終決定除人物類采用 vCard元數據外,其他四類均采用 DC作為描述型元數據的核心元素集,使得 DC在國內的推廣和應用又邁進了一步.
數字圖書館的信息組織由指針、元數據和數據部分組成.指針是唯一用來標識數據的,對應于傳統圖書館的排架號;元數據是一組用來描述數據本身特征的數據集,對應于傳統圖書館的目錄;數據是數字圖書館的基本信息對象,對應于傳統圖書館的文獻[3].對象數據可分布式存放在各地的資源點內,用戶查詢時,利用元數據搜索引擎,即通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的 (甚至是同時利用若干個)搜索引擎來實現檢索操作,是對分布于網絡的多種檢索工具的全局控制機制[4].著名的元搜索引擎有 InfoS-pace、Dogpile、Vivisi mo等 (元搜索引擎列表 ),中文元搜索引擎中具有代表性的為搜星搜索引擎、搜魅網 (someta)、馬虎聚搜等.在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如 Dogpile,有的則按自定的規則將結果重新排列組合,如 Vivisimo.因此,在數字圖書館信息組織中應用元數據,可以使用戶充分利用元搜索引擎帶寬廣的特性來訪問遠程資源,以提高檢索效率.
元數據在數字圖書館的建設中已經取得了一定的成績,但也存在著一些需要注意和解決的問題,尤其是標準化問題、通用性問題、互操作問題等等.
在數字圖書館建設中,標準問題最重要的是元數據的制作,而與元數據的制作緊密相關的問題是元數據方案的設計.元數據方案的標準化具有廣泛的內涵.它包括元素著錄內容的標準化、同類型數字化信息資源的著錄所采用元數據的一致性、元數據方案所采用編碼語言的統一性這幾個方面[5].例如在超星數字圖書館的一條文獻記錄中,將 Publisher理解為“數字式資源制作者”,Data理解為“數字式資源制作日期”,這與 DC元素的本意是否相符合,還有待商榷,而 Format、Type等幾個元素的意義也比較抽象和模糊,各單位在應用的過程中也不盡相同,這些都涉及到元數據使用過程中的標準化問題,因此我們在使用元數據的過程中,應理解元素的語義定義并嚴格遵守.
今天,在分布式信息環境中已經有多個元數據格式存在,并將有更多的元數據格式出現,因此元數據的互操作問題已成為元數據的開發者和潛在使用者關注的焦點.但在過去的幾年中,不兼容的數據格式和數據結構阻礙了信息系統之間的互操作.一個日益重要的問題是怎樣實現各種元數據間的互操作,以保證任意系統的用戶能夠在整個分布式環境中發現、檢索和利用所需要的任意資源和任意服務.因此,筆者建議采用統一的元數據標準、元數據映射、元數據轉換等方式,以實現真正意義上的互訪.
隨著元數據的不斷發展,元數據已經不僅僅用于描述信息對象的內容,還可以描述信息對象的制作過程、保存、評估、服務、使用權限等各方面的內容,因此元數據的結構和層次也越來越復雜化.人們根據元數據的功能把元數據的元素劃分為描述型元素、管理型元素、技術型元素、長期保存型元素等,根據元數據的重要性把元素劃分為核心元素、非核心元素或個別元素等等.元數據結構與層次的劃分有利于數據處理、數據交換或共享過程中對數據進行區分,因此,在對元數據的結構層次進行正確的設計時,還應該考慮元數據的整體性與系統性問題.
[1]沈鳳善.元數據在數字圖書館中的應用[J].牡丹江師范學院學報,2005,(1):122-123.
[2]邵曉紅.元數據在數字圖書館信息組織中的應用[J].鄂州大學學報,2008,(5):14-16.
[3]盛小平.論元數據在數字圖書館信息組織中的應用[J].圖書情報工作,2001,(7):43-45.
[4]周立清.元搜索引擎概述[EB/OL].http://baike.geiwosou.net/index.php?doc-view-32.html,2010-03-02.
[5]孫嵐玲,等.元數據在數字圖書館中的應用 [J].情報科學,2004,(10):1230-1233.
(責任編校:簡子)
G202
A
1008-4681(2010)02-0076-03
2010-01-21;
2010-04-14
劉麗 (1980-),女,山西代縣人,雞西大學圖書館館員,碩士生.研究方向:數字圖書館的發展.