
摘 要:在對DC和EAD兩種元數據進行介紹和比較分析的基礎上,給出二者相互轉換的映射表,針對映射中在結構、應用和語義等方面產生的差異建立映射規則,并通過制訂基于DC的電子檔案元數據規范、善用DC修飾詞、確定DC為我國數字檔案館界元數據標準等措施解決轉換中所產生的問題。
關鍵詞:DC 元數據 EAD 電子檔案 映射
中國分類號:G250.76 文獻標識碼:A 文章編號:1674-098X(2013)01(a)-0-03
隨著計算機和互聯網的普及,來自檔案館、圖書館、博物館及其他機構的各種數字檔案資源如檔案、手稿、照片、古籍、個人論文日益增多,大量的電子檔案給傳統的文件管理方式和理念帶來了不小的沖擊,如何利用信息技術實現電子檔案的科學管理也成為檔案界的研究熱點。隨著元數據技術的發展和應用,利用元數據實現對電子檔案的有序管理已逐漸為檔案界所接受[1]。
來自于不同軟件系統的電子檔案常常具有不同的著錄格式,它們互不兼容,從而導致不同數據庫之間根本無法互相訪問和檢索,對普通的檔案館來說難以實現無障礙的利用與共享。目前,大多數的研究項目對于分布、異構的數字檔案資源只是提供基于互聯網的網絡鏈接與檢索共享,尚未實現元數據級的互操作,因此無法提供專業化的深度增值服務[2]。解決這一問題的途徑之一就是實現元數據的互操作和格式轉換。該文將探討EAD與DC這兩種目前應用最為普遍的元數據之間的映射,具備較大的實用意義。
1 DC元數據與EAD
1.1 DC元數據及特點
DC(Dublin Core)即都柏林核心元數據,是目前網絡信息資源組織最為通用的元數據格式。DC最早由美國OCLC發起研究,是“用該元素集描述任何網絡信息資源,并足夠簡單以至任何作者無需專門培訓即可創建自己文件”的元數據。它由15個基本元素組成,分為三個廣為認可的大類,內容描述類包括題名、主題或關鍵詞、資源描述、來源、語種、相關資源和時空范圍。知識產權類包括責任者、出版者、其他責任者及權限。外形描述類是指對資源外形特征信息的描述,包括日期、資源類型、資源形式和資源標識。
DC的特點包括以下幾方面。
簡易性:只有15個元素,而且通俗
易懂;
通用性:不針對某個特定的學科或領域,支持對任何內容的資源進行描述。增加了跨學科的語義互操作性的可能;
可重復性:其所有元素都是可重復的,解決了多著者與多出版者等重復元素的著錄問題;
可擴展性:它允許資料以地區性規范出現,并保持元數據的一些特性,以便日后有擴充的余地;
可修飾性:對于需要詳細著錄的資料,引進了DC修飾詞。它遵循向上兼容原則,在范圍上對未修飾詞的語義進行限定,在深度上對未修飾詞的語義進行延伸。
1.2 EAD及其特點
EAD的全稱是Electronic Archival Description,即電子檔案著錄,主要用于著錄檔案和手稿資源,包括文該文檔、電子文檔、可視材料和聲音記錄。它開發于1993年加州伯克利大學的一個研究項目。它是以通用標準語言(SGML)和擴展標記語言(XML)文件類型定義(DTD)的形式存在的[3]。EAD元素集定義有3個層次:EAD頭標,著錄檔案的產生、修訂、出版、發行等信息;前事項,著錄檔案題名頁內容;檔案著錄,是對檔案內容及其相關信息的具體描述,包括文件內容、上下關系及增補信息等。
經過多年的研究和發展,EAD受到了檔案界和圖書館界的普遍擁護,是美國檔案協會的成員們以及一些歐洲國家的檔案館主要使用的元數據,也已成為在世界范圍內獲得廣泛應用的電子檔案著錄標準。這是由于EAD具有以下特點。
使用了標準通用置標語言(SGML),SGML是電子文獻處理與交換的國際標準,用EAD著錄的電子檔案可以提供網上的信息共享和檢索。
不依賴于任何的硬件和軟件平臺,不需經過任何的轉化,在Unix操作系統、Microsoft Windows和Macintosh等環境下都可以很好地被識別。
具有伸縮性,同一部文獻既可選用一些簡單的標識符著錄,也可以選用復雜的等級化的標識符著錄。
使用EAD既可以形成新檢索工具,也可將已有的檢索工具轉化為EAD的編碼的機讀格式。轉化時可能要稍作改動或重排,但不需要大量的編輯。
檢索功能強。EAD以查詢語言(QL)為基礎,除了具有一般的檢索功能,如布爾檢索、截詞檢索、近似檢索以外,還可以在目錄中查找單個款目和離散的數
據項。
應用范圍廣,EAD既可用于手稿,也可用于技術革新、藝術與雕塑、醫學、工業等領域的科學資料。
1.3 DC與EAD的比較分析
不難看出,DC和EAD的結構都簡單靈活,具有很強的可兼容性、可擴展性和可互操作性,這些特性都使得這兩種元數據得到越來越多國家的重視并被廣泛應用。對在著錄和信息揭示深度上看,DC對資源主題的揭示過于簡單,對著錄對象的描述深度不夠,不能進行專指度較高的檢索;EAD則著錄詳盡,適用范圍廣泛,檢索途徑多樣[4]。
綜觀DC與EAD的結構特點和應用性能不難發現,DC的最大特征就是簡化的語法系統和有限的元素數量,因此它更具有簡易性和親和力,適用于廣泛的資源描述和利用群體;EAD則更為專業化,適合檔案專業背景,提供了詳盡的資源描述和更多的檢索入口,更適用于資源的深度描述和特定學科領域內的深入交流[5]。
2 DC元數據與EAD的映射
2.1 DC與EAD映射表
該文給出DC與EAD的映射表如表1。
2.2 建立映射規則
建立了以上映射表并不能直接完成DC與EAD的映射與轉換,仍需針對兩種元數據的多種差異建立映射規則,從而使轉換完成得更為完整準確。
2.2.1 解決結構上的差異
在映射表中多個元素均為一一對應,但由于兩種元數據的結構差異,就產生了源元數據和目標元數據元素間的一對多、多對一或無對應關系的情況出現,如DC的責任者和其他責任者兩元素與EAD來源元素的對應為多對一關系,DC的來源、相關資源和版權管理等元素在EAD中則找不到與其相對應的元素。針對這些情況,映射規則必須規定在什么情況下將進行相應轉換、如何轉換,對無對應關系的元素如何進行轉換處理,等等。
2.2.2 解決應用上的差異
由于DC和EAD的結構均靈活多變,存在多種必備和可選元素、可重復與不可重復元素、有無子元素等多種情況。此時映射規則須針對具體情況,做出恰當的規定,如明確規定源元數據必備元素的范圍、確定源元數據多個重復元素的可選擇性、對一方元數據中子元素缺少對應元素時如何處理,等等。
2.2.3 解決語義上的差異
針對二者語義、數據類型和形式、取值范圍不一致等情況做出明確規定,盡量消除差異,確保轉換的規范統一。
3 存在問題及解決辦法
通過理論研究和多個國家的轉換實驗,我們發現對DC和EAD進行轉換的主要困難還是在于EAD的復雜結構與DC元數據過于簡單的矛盾,表現為將EAD轉化為DC之后,難以在同一個全宗的檔案資料之間重新建立鏈接,或者難以對由不同數據庫收藏的、由同一個人或機構產生的資料之間重建鏈接;有時會丟失原EAD記錄中的上下文信息,或者轉換后的著錄不夠清晰,甚至出現錯誤指示等[6]。
以上問題的解決措施有以下幾方面。
3.1 制訂基于DC的電子檔案元數據規范
元數據規范(也稱元數據標準)是描述某類資源的具體對象時所有規則的集合。一般包括完整描述一個具體對象時所需要的數據項集合、各數據項的語義定義、著錄規則和計算機應用時的語法規定。
通過制訂針對電子檔案的元數據規范,我們可以解決DC諸如對著錄對象的描述深度不夠、不能進行專指度較高的檢索、與原EAD文件結構的對應不夠準確等方面的不足。制訂能夠描述或標識電子檔案內容、屬性、外觀特征及層次結構的描述元數據規范和管理元數據規范,從元素、語法、句法等方面對檢索屬性集做出規定,在保證數據質量和檢索效果的基礎上做好檢索點設置,提高轉換后文件對原文件相互聯系的反映準確程度,有效表示轉換后文件的可選項等等,確保轉換后的元數據質量。
3.2 善用DC修飾詞
由于簡單DC的15個元素只限于描述信息的單一層次,而EAD是具有等級結構,特別是在EAD內容描述部分的從屬部分(dsc)中,可從c01到c12多次重復,并且這些從屬部分之間存在密切關聯,要靠簡單的DC元素來充分表達檔案描述之間復雜的層級關系確有一定難度,但是,通過引入適當DC修飾詞的復雜DC將能彌補這一缺憾。
目前DCMI(Dublin Core Metadata Initiative,都柏林核心元數據計劃)確立了兩類修飾詞,即元素修飾詞和編碼體系修飾詞[7]。隨著各類團體遵從dumb-down(向上兼容)原則提出更多的修飾詞,在經過DCMI應用委員會審核批準后推薦給大家使用,由此逐漸形成一個修飾詞的大家族。相信不久的將來,通過檔案工作者的不懈努力,針對檔案專業領域的修飾詞也會應運而生,通過多個修飾詞的分級復用會較好地解決以上
問題。
3.3 確定DC為我國數字檔案館界的元數據標準
目前EAD在我國的應用僅限臺灣,大陸還只處于理論研究階段[8];而中文DC的研究與開發則已經從早年的實驗階段步入實用階段,已設計并制訂了期刊論文、電子圖書、古籍、家譜和地方志等多種元數據規范,而且使用范圍日趨廣泛,逐漸為越來越多的圖書館所采用。
數字圖書館的成功范例為數字檔案館做出了榜樣。希望我國檔案界盡早確立DC為行業元數據標準,加強數字檔案館建設中元數據利用的一致性,少走彎路,盡早實現中文檔案信息資源的共建和共享,提高我國檔案界的自動化和標準化水平。
參考文獻
[1]張正強.論中國電子檔案著錄標準化的發展方向[J].圖書情報知識,2004(5):35-38.
[2]何小菁.數字檔案館元數據編制研究[J].圖書情報工作,2004(5):93-95.
[3]宋雪雁.檔案元數據(EAD)著錄原則探析[J].檔案學通訊,2009(6):
57-59.
[4]王萍,宋雪雁.EAD、DC、TEI著錄實例及其比較分析[J].圖書情報工作,2006(12):79-82.
[5]王小麗,王芳.國內外數字檔案館元數據標準體系比較研究[J].情報科學,2007(3):382-389.
[6]王芳,王小麗.基于OAI協議的數字檔案館元數據互操作問題研究[J].現代圖書情報技術,2007(3):18-24.
[7]DCMI.DCMI Metada Terms[EB].(2010-10-11)http://dublincore.org/documents/dcmi-terms/.
[8]江薇.關于我國檔案元數據格式的建議[J].蘭臺世界,2008(4下半月):24-25.