


摘 要:保存元數(shù)據(jù)在確保數(shù)字資源被長期獲取方面扮演了重要的角色。本文介紹了保存元數(shù)據(jù)領(lǐng)域PREMIS和METS的相關(guān)背景、特點和結(jié)構(gòu),以及將PREMIS和METS相結(jié)合的保存元數(shù)據(jù)方案在數(shù)字資源長期保存方面的應(yīng)用、存在問題以及解決方案的研究進展,并總結(jié)分析帶給我們的啟示。
關(guān)鍵詞:元數(shù)據(jù);數(shù)字資源保存;OAIS;PREMIS;METS
1 前言
互聯(lián)網(wǎng)上海量的數(shù)字資源中,有大量的信息資源有長期保存的價值[1]。同時,由于聲像技術(shù)和計算機技術(shù)的更新?lián)Q代,存儲介質(zhì)壽命短,軟硬件環(huán)境容易過時,以及資金、組織、文化和法律等方面的諸多問題,使得數(shù)字信息的長期保存成為數(shù)字圖書館以及其他數(shù)字信息系統(tǒng)面臨的巨大挑戰(zhàn)[2-3]。
數(shù)字資源的長期保護問題近幾年已經(jīng)開始受到國內(nèi)外圖書館界的廣泛關(guān)注[4-5]。建立一個具備可持續(xù)性的數(shù)字資源組織與存儲系統(tǒng)是目前需要解決的重大問題[6]。歐美國家開展了一系列長期保存實踐,如美國國會圖書館開展了國家數(shù)字信息基礎(chǔ)設(shè)施保存項目NDIIPP,澳大利亞國家圖書館實施了網(wǎng)絡(luò)信息資源保存項目Pandora,瑞典皇家圖書館設(shè)立了網(wǎng)絡(luò)信息資源收集項目Kulturarw3,荷蘭電子出版物保存計劃DNEP。
保存元數(shù)據(jù)是以數(shù)字資源長期保存為目的的描述性的、結(jié)構(gòu)性的以及管理性的元數(shù)據(jù)。保存元數(shù)據(jù)需要在受到所有權(quán)、保管權(quán)、技術(shù)、法律等諸多限制,甚至是用戶群體都發(fā)生巨大改變的情況下,保障數(shù)字對象可以長久的保存和利用,并自我記錄數(shù)據(jù)保存的歷史過程。保存元數(shù)據(jù)的選擇將直接決定被保存的數(shù)字資源是否可以長期的被保存和訪問,是確保長期保存策略的成功與否的重要基礎(chǔ)。
本文將對PREMIS和METS標(biāo)準(zhǔn)的情況進行介紹,并對PREMIS和METS相結(jié)合的保存元數(shù)據(jù)框架體系做了詳細的分析,旨在發(fā)現(xiàn)和改善可以支持長期保存數(shù)字資源的元數(shù)據(jù)體系,為今后的數(shù)字資源保存系統(tǒng)的研究提供一些幫助。
2 PREMIS
2.1 PREMIS簡介
PREMIS(Preservation Metadata:Implementation Strategies,即“保存元數(shù)據(jù):實施戰(zhàn)略”)項目由OCLC和RLG發(fā)起[7],并建立在大量的專家意見的基礎(chǔ)上。
PREMIS提煉出了為實現(xiàn)長期保存目的所必須的技術(shù)、權(quán)利、管理等信息。其工作目標(biāo)有兩個方面:第一,以O(shè)AIS框架為出發(fā)點,借助數(shù)據(jù)字典,來定義一套核心的、可實現(xiàn)的、廣泛適用的保存元數(shù)據(jù)元素;二是識別和評估其他的元數(shù)據(jù)策略,包括編碼、存儲、管理和保存元數(shù)據(jù)交換等,并總結(jié)核心要素。
2.2 PREMIS保存元數(shù)據(jù)
PREMIS工作組在2005年5月發(fā)布的最終報告中給出了237頁的保存元數(shù)據(jù)的數(shù)據(jù)字典。該字典是圍繞數(shù)字長期保存的數(shù)據(jù)模型來組織,包括五個實體(如圖1所示):知識產(chǎn)權(quán)實體(一套連貫的內(nèi)容,可描述為一個單元:例如,一本書),對象實體(以數(shù)字形式的信息的離散單元:例如,一個PDF文件),事件實體(保存行動:例如,將PDF文件采集到資料庫),行為者實體(個人,組織,或與事件相關(guān)的軟件程序:例如,出版商將PDF文件存入到存儲庫)和權(quán)利實體(一個和有關(guān)對象的其他的權(quán)限:例如,允許對PDF文件拷貝建立以保存為目的副本)。數(shù)據(jù)字典提供了詳細的與對象,事件,代理,權(quán)利實體相關(guān)的元數(shù)據(jù)說明,以及相關(guān)的實施和使用的指導(dǎo)方針。該字典并沒有考慮知識產(chǎn)權(quán)實體的元數(shù)據(jù),其依據(jù)是知識產(chǎn)權(quán)實體的元數(shù)據(jù)可以在其他重點描述的元數(shù)據(jù)架構(gòu)內(nèi)解決[8]。
PREMIS定義了一套可執(zhí)行的核心保存元數(shù)據(jù),同時還制定了管理和應(yīng)用指南,充分考慮了不同領(lǐng)域共享設(shè)置和管理數(shù)字化保存能力的需要[9],有一個明顯的從概念到實施的進展。PREMIS數(shù)據(jù)字典是從許多機構(gòu)積累的經(jīng)驗的基礎(chǔ)上提煉而來,具有廣泛的適用性和必要性[10]。目前,PREMIS已經(jīng)成為保存元數(shù)據(jù)國際上的“事實標(biāo)準(zhǔn)”,正被越來越多的現(xiàn)有或者正在構(gòu)建的長期保存系統(tǒng)所接納和采用[11]。
3 METS元數(shù)據(jù)編碼和傳輸規(guī)范
3.1 METS簡介
METS(Metadata Encoding and Transmission Standard)由美國數(shù)字圖書館聯(lián)盟DLF(Digital Library Federation)2001年開發(fā),由美國國會圖書館的網(wǎng)絡(luò)發(fā)展和MARC標(biāo)準(zhǔn)辦公室負(fù)責(zé)維護,采用W3C的XML Schema語言表達,是一個為數(shù)字圖書館的數(shù)字對象進行封裝的描述性、管理型和結(jié)構(gòu)性元數(shù)據(jù)標(biāo)準(zhǔn)[12]。
METS是一個XML架構(gòu)的可將數(shù)字對象所有關(guān)聯(lián)的元數(shù)據(jù)進行存儲的整體框架。因此,它可以作為OAIS提交信息包(SIP),發(fā)布信息包(DIP),或者,關(guān)鍵在這里,作為一個文檔信息包(AIP)。
METS標(biāo)準(zhǔn)提供了整體的框架方案,具有很大的靈活性,能夠?qū)?shù)字對象完整的封裝在一起,可以兼容多種元數(shù)據(jù)標(biāo)準(zhǔn),做到與平臺和軟件無關(guān)。這些特點確保了METS不會輕易的被淘汰,并且具有強大的可交互性。已經(jīng)有若干知名大學(xué)和機構(gòu)將METS作為數(shù)字對象的編碼、描述、管理、交換、顯示等標(biāo)準(zhǔn),包括美國國會圖書館、OCLC、RLG、加州數(shù)字圖書館、哈佛大學(xué)、康奈爾大學(xué)、哥廷根大學(xué)、牛津大學(xué)等。其中美國國會圖書館就有700萬筆數(shù)字資源及其相關(guān)信息以METS方式保存[13]。
3.2 METS的結(jié)構(gòu)
如圖2所示,一個METS文件包含四個主要組成部分[14]:
·包含所有數(shù)字對象文件的文件庫(如圖像文件,文本,視頻或音頻文件)
·管理元數(shù)據(jù)部分(如文件相關(guān)的技術(shù)信息,權(quán)利管理信息,對象源信息和數(shù)據(jù)的出處信息)
·描述性元數(shù)據(jù)部分(包括書目信息和任何可以評判對象內(nèi)容知識產(chǎn)權(quán)價值的信息)
·結(jié)構(gòu)圖,以分層方式說明產(chǎn)品的組成部分之間的相互關(guān)系,因此允許用戶按照構(gòu)成元素進行導(dǎo)航。
4 PREMIS和METS的結(jié)合
4.1 相關(guān)背景
PREMIS和METS將數(shù)字資源長期保存元數(shù)據(jù)進行了必要的分類,并且確定了元數(shù)據(jù)的格式。前者提供了數(shù)字資源長期保存的技術(shù)和事件元數(shù)據(jù),后者提供了結(jié)構(gòu)元數(shù)據(jù)。兩個標(biāo)準(zhǔn)都是公開的、靈活的、可拓展的,并且以公開的方式進行維護。這些特質(zhì),都使得PREMIS和METS相結(jié)合的方式來作為數(shù)字資源長期保存元數(shù)據(jù)方案,有著很大的理論價值和現(xiàn)實意義。
目前明確的結(jié)合了PREMIS的METS框架就有:美國國會圖書館的事件記錄METS框架、加州伯克利圖書館的USCD復(fù)雜對象框架、DSpace METS文獻框架、澳大利亞METS框架1.0和METS期刊框架1.0、伊利諾伊大學(xué)厄本那-香檳分校的ECHO 基本保存和數(shù)據(jù)交互METS框架和ECHO網(wǎng)頁抓取METS框架等[15]。
4.2 結(jié)合框架
圖3給出了PREMIS和METS相結(jié)合的元數(shù)據(jù)組織框架結(jié)構(gòu)示意。METS本身并不指定具體的描述性的或者管理性的元數(shù)據(jù)方案,且允許使用外部開發(fā)的元數(shù)據(jù)方案用于它的兩個定義的元數(shù)據(jù)部分,
4.3 需要注意的問題
4.3.1 元數(shù)據(jù)的相對應(yīng)問題
PREMIS模式設(shè)計是實施中性的,但鑒于METS的靈活性,在將PREMIS和METS結(jié)合使用時,需要根據(jù)具體的資源庫的內(nèi)容做出一些決定和選擇。PREMIS的權(quán)利實體和METS的權(quán)利實體元數(shù)據(jù)相吻合,不過其他的實體和METS的元數(shù)據(jù)單元并沒有完全的對應(yīng)關(guān)系。在具體的實施過程中,有些機構(gòu)可能傾向于將PREMIS的所有元數(shù)據(jù)都放在METS文件中,有些則有選擇的將PREMIS的部分管理元數(shù)據(jù)放入到METS文件中。
4.3.2 信息冗余問題
將PREMIS和METS結(jié)合的另外一個問題是信息冗余。大多數(shù)PREMIS技術(shù)實體可以看作是METS結(jié)構(gòu)性元數(shù)據(jù)。這種情況下,可以選擇將兩處的元數(shù)據(jù)加以匯總,以得到更全面的元數(shù)據(jù)。另一種冗余的情況是在PREMIS中處理XML方案的圖像元數(shù)據(jù)MIX(Metadata for Images)。MIX既可以看作METS技術(shù)元數(shù)據(jù)子項,也可作為PREMIS元數(shù)據(jù)的拓展子項,這需要做出相應(yīng)選擇。
4.3.3 互操作性問題
METS內(nèi)在的靈活性,可能會導(dǎo)致在互操作性方面的問題[16]。當(dāng)METS文件允許各種對象內(nèi)容,多種不同的方式進行處理的時候,METS記錄的交換就變得非常困難。另外,PREMIS和METS兩種標(biāo)準(zhǔn)都有擴展機制,這會使得PREMIS和METS結(jié)合的元數(shù)據(jù)方案的互操作問題更加明顯。而互操作性對于數(shù)字資源的長期保存、消除信息孤島、提高數(shù)字資源長期的使用效益和整合效果有非常重要的作用。兩種標(biāo)準(zhǔn)的靈活性使得在執(zhí)行的時候需要做出選擇。標(biāo)準(zhǔn)化、內(nèi)部受控詞表、遵守一定的準(zhǔn)則以及充分的預(yù)測交互能力有利于提高互操作性,并盡可能的減少人工的干預(yù)。
5 總結(jié)
保存元數(shù)據(jù)對于數(shù)字資源長期保存至關(guān)重要。對于大型的數(shù)字資源保存項目而言,需要對對象數(shù)據(jù)的技術(shù)、權(quán)利、管理、結(jié)構(gòu)以及資源庫之間的交互等諸多方面進行考慮。PREMIS和METS提供了一個通過保存元數(shù)據(jù)實施長期保存資源庫的構(gòu)架基礎(chǔ),已經(jīng)成為諸多現(xiàn)行資源保存項目的事實選擇。PREMIS和METS的結(jié)合有利于提高數(shù)字資源庫的交換效率,利用標(biāo)準(zhǔn)化格式可以提高資源庫可交互性以及有利于交換工具的建立。由于各個具體的資源庫的目的、功能各有不同,在使用PREMIS和METS結(jié)合的元數(shù)據(jù)方式時,需要考慮到兩套規(guī)范的具體情況,通過建立一定的準(zhǔn)則以及充分的溝通協(xié)調(diào),來指導(dǎo)數(shù)字資源長期保存元數(shù)據(jù)體系的構(gòu)建。
作為我國數(shù)字資源長期保存的重要基礎(chǔ),中文保存元數(shù)據(jù)的標(biāo)準(zhǔn)的制定工作和國外仍有較大的差距,中文元數(shù)據(jù)的研究還處于起步和探索階段[17],PREMIS和METS相結(jié)合的元數(shù)據(jù)框架方案為我國中文保存元數(shù)據(jù)的研究工作提供了一個平臺和基礎(chǔ)。如何盡快通過和國際接軌,加強各方合作,自上而下的制定出中文元數(shù)據(jù)的整合方案,給出符合實際需要的中文元數(shù)據(jù)指導(dǎo)規(guī)則,指導(dǎo)各項數(shù)字資源長期保存項目的開展,提高保存元數(shù)據(jù)的交互性,實現(xiàn)共建共享,提高數(shù)字資源長期保存的效益,是一項艱巨又刻不容緩的工作。
[參考文獻]
[1]魏佳.我國網(wǎng)絡(luò)信息資源永久保存策略研究.2012.
[2]Pennock M.Digital Preservation Continued access to authentic digital assets.JISC.2006.
[3]邢軍.國家圖書館數(shù)字資源長期保存現(xiàn)狀與研究.2011年海峽兩岸檔案暨縮微學(xué)術(shù)交流會,2011.中國北京.7.
[4]夏旭,葛馳.引進、消化、吸收、創(chuàng)新——中文元數(shù)據(jù)應(yīng)用國際研討會論文綜述.大學(xué)圖書館學(xué)報.2001(05):36-38.
[5]張紹武.數(shù)字信息長期保存的幾個理論問題探討.曲靖師范學(xué)院學(xué)報. 2006(03):109-113.
[6]董曉莉,王迎霞.數(shù)字圖書館資源組織與存儲研究.情報雜志. 2010(S2):168-171+167.
[7]PREMIS.INTRODUCTION AND SUPPORTING MATERIALS from PREMIS Data Dictionary for Preservation Metadata.2012.http://www.loc.gov/standards/premis/v2/premis-report-2-2.pdf (Accessed June.2013).
[8]Caplan P.Understanding PREMIS.February 1,2009.http://www.loc.gov/standards/premis/understanding-premis.pdf.
[9]Brian Lavoie RG.Technology Watch Report Preservation Metadata. Oxford University Library Services.2005.http://www.dpconline.org/docs/reports/dpctw05-01.pdf (Accessed June,2013).
[10]高嵩,張智雄.PREMIS保存元數(shù)據(jù)體系分析.現(xiàn)代圖書情報技術(shù). 2006(04):19-23+52.
[11]王樂春,et al.超大型數(shù)據(jù)資源長期保存系統(tǒng)數(shù)據(jù)組織標(biāo)準(zhǔn)研究. 標(biāo)準(zhǔn)科學(xué).2012(08):12-15.
[12]METS官方網(wǎng)站.http://www.loc.gov/standards/mets/(Accessed July.2013).
[13]陳俊華,高曉軍.METS在口述歷史數(shù)字化保存中的應(yīng)用研究.圖書館學(xué)研究.2010(24):32-36+54.
[14]馬蕾.元數(shù)據(jù)及其封裝標(biāo)準(zhǔn)METS研究.情報雜志.2002(02):56-57.
[15]Using PREMIS with METS.http://www.loc.gov/standards/premis/premis-mets.html (Accessed July.2013).
[16]McDonough JP.METS:Standardized Encoding for Digital Library Objects.https://www.ideals.illinois.edu/bitstream/handle/2142/177/METS.pdf?sequence=2 (Accessed June.2013).
[17]賀宜.中文元數(shù)據(jù)開發(fā)與應(yīng)用的分析和思考.情報雜志.2002(09):86-87.
作者簡介:丁亮,金陵圖書館,教育培訓(xùn)部副主任。