






[摘 要]隨著數字技術的發展,高校圖書館數字化加工能力大幅提升,并逐步積累特色數字化館藏資源。為確保這些寶貴資源的持久性和可訪問性,高校圖書館開展數字化資源長期保存工作的研究與探索具有十分重要的意義。以北京大學圖書館館藏數字化資源長期保存工作實踐為例,研究高校圖書館開展館藏數字化資源長期保存的實施路徑,設計數字化資源長期保存概念及功能模型,并基于Islandora開發館藏數字化資源長期保存示范系統。
[關鍵詞]高校圖書館 數字化資源 長期保存 Islandora
[分類號]G252.3
高校圖書館作為知識與信息的重要載體,承擔著傳承文化、傳播知識、促進科研與教育的重任。隨著全球數字化趨勢的不斷發展,國內外高校圖書館數字化加工能力大大提升,很多高校逐步積累了特色數字化館藏資源,包括數字化圖書、數字化古籍、數字化音視頻、數字化地圖等。2017年OCLC發布研究報告顯示,美國92%的公共圖書館開展了數字化建設[1]。張毅等對U.S.News世界大學排名前100的高校展開調研,結果顯示有82所高校具有數字化資源[2]。這些特色數字化資源對于學術研究和歷史文化的傳承都有著不可替代的重要作用。然而,數字化資源的長期保存面臨諸多挑戰,包括技術更新換代導致的格式和設備兼容性問題、數據損壞及意外丟失等。美國國會圖書館將長期保存定義為“對數字內容進行長期積極管理,以確保持續訪問”[3],“長期積極管理”涉及保存政策、財務、人力、技術等。然而大多數圖書館只是簡單掃描形成數字化資源,或者將其以數據庫的形式供用戶訪問,無法滿足數字化資源的長期保存需求[4]。
數字化資源長期保存不僅關乎學術研究和教育的可持續發展,還涉及人類文化傳承問題。因此,為確保珍貴資源的持久性和可訪問性,高校圖書館開展數字化資源長期保存工作的研究與探索具有十分重要的意義。
1 數字資源長期保存研究現狀
國外對數字資源長期保存的研究較早,自1990年美國空間數據系統咨詢委員會 (Consultative Committee for Space Data Systems,CCSDS)開始制訂長期保存數字數據檔案的標準起,經過三十多年的發展,已形成了一系列成熟的政策、標準和技術。例如,自2000年起,美國國會圖書館推出“國家數字信息基礎設施和保護計劃(NDIIPP)”用于加強數字資源存檔和訪問提供,資助研制了一系列的保存標準和技術工具[3]。英國于2001年成立了數字保存聯盟(Dgital Presrevation Coalition,DPC),由教育、圖書館、檔案館、文化和商業領域共同領導,旨在確保全球面臨風險的數字資源能夠實際保存,以保障全球的數字記憶和知識基礎[5]。哈佛大學圖書館建立了長期保存庫服務 (Digital Repository Service,DRS),以滿足其當前和未來教學科研對數字資源的長期需求[6]。斯坦福大學牽頭的LOCKSS項目是為學術期刊設計的分布式開源系統,由保存同一份材料的圖書館所組成點對點網絡,允許圖書館對網上發布的材料進行收集、保存并提供訪問權限[7]。牛津大學圖書館和劍橋大學圖書館于2016年合作設立為期兩年的DPOC項目,開展了長期保存和管理領域的現有專業知識研究,并加強了各自圖書館的長期保存計劃[8]。此外,荷蘭國家圖書館推行了長期保存的數字存檔系統e-Depot、澳大利亞國家圖書館聯合國內公共和高校圖書館成立了保存聯盟共同保存澳大利亞的數字記憶等[9]。
國內對數字化資源長期保存的研究始于2000年左右。國家圖書館聯合北京大學圖書館、清華大學圖書館等,參照國外已有標準制定了數字化加工掃描、保存元數據等一系列相關規范標準[10]。國家圖書館設有數字化加工部,采用保存級別和非保存級別文件格式將資源區分保存到不同系統[11]。香港中文大學圖書館采用Islandora開源軟件構建數字集合,對其本地自建的數字化資源進行攝入保存和展示[12]。香港科技大學圖書館基于WordPress開發自建資源的元數據著錄系統,將本地數字化資源與館藏系統元數據關聯,輔助以人工進行元數據統一著錄并攝入系統中進行保存和展示[13-14]。中國科學院文獻情報中心自2009年開始研發商業數字資源長期保存系統,并于2013年依托“國家數字科技文獻資源長期保存體系(NDPP)”構建了國家級保存網絡[15]。北京大學圖書館在2016年加入NDPP工作,成為其中一個重要保存節點,參與保存了電子期刊、電子書、學位論文等多種資源[16]。
總體來講,在國際范圍內數字化資源長期保存已經有了較為成熟的研究和實踐。國外圖書館、檔案館和研究機構通過合作和創新,共同努力確保數字資源的長期可訪問性和可持續性。在國內,數字化資源長期保存的研究和實踐也在逐步展開,中國科學院文獻情報中心、國家圖書館等多個重點圖書館和研究機構積極參與并貢獻力量。然而高校圖書館在館藏數字化資源長期保存系統方面的建設實踐比較欠缺,一方面是由于高校對長期保存的重要性認識不足,人力和資金資源短缺,另一方面我國開展數字資源長期保存研究主要集中在理論和政策方面,可供參考的應用案例較少。
2 館藏數字化資源長期保存實施路徑分析
2.1 館藏數字化資源長期保存需求分析
隨著數字化設備由自動化逐步向智能化發展,數字化內容的精度大幅提升,存儲設備的成本逐步降低,高校圖書館的數字化資源越來越普遍。從機構的角度來看,高校圖書館開展資源數字化工作主要包括兩種:一是基于聯盟。該方式采用合作共享的機制,實現高校圖書館本地資源的數字化共建共享。如,大學數字圖書館國際合作計劃(China Academic Digital Associative Library,CADAL),構建了較完善的項目標準規范體系,成員館在元數據、資源保存與展示等方面,采用聯盟統一的平臺和技術[17]。二是高校圖書館自建。主要針對特色館藏資源,或者一些項目的數字化資源。這部分資源由于缺乏統一的系統保存和管理,存在種類繁多、存儲混亂等問題。筆者將著重討論本地數字化資源的長期保存建設問題。
2.2 數字化資源長期保存系統功能設計
張智雄等調研了符合開放檔案信息系統(Open Archival Information System,OAIS)普遍特性的多個系統,認為長期保存系統涉及面廣、功能復雜,是由多個系統組成的有機整體,并歸納了相關功能實體[18]。具體而言,OAIS提供了一套概念和術語體系,對開放存檔信息系統的構成組件、結構功能、管理要求和信息組織管理模式進行了描述,筆者基于OAIS六大功能實體設計了數字化資源長期保存功能(見圖1)。
2.3 數字化資源長期保存開源系統選型指標設計
筆者根據自身建設實施的經驗,梳理了開源系統的選型需求,并參考丹佛大學實施長期保存系統時的評估方法[19],構建了一個指標體系及其權重來評估開源系統是否符合當前機構的需求(見表1)。
2.4 長期保存開源系統對比分析
根據長期保存工具登記網站COPTR[15]統計,截至2023年1月17日,已有29種長期保存系統登記,其中大部分為開源系統。筆者通過文獻和檢索系統調研了其中比較有代表性的4種系統,分別是Islandora[21]、Samvera[22]、Archivematica[23]和DAITSS[24]。筆者基于六大功能實體和ISO 16363[25]的詳細要求梳理了4個主要功能模塊及若干具體功能,對上述系統功能進行對比分析,詳見圖2。
總體來看,4個系統都能滿足攝入、處理、訪問、存儲等基本功能,但是各自的特點和優勢又有所不同。其中,Islandora滿足的功能最多,但是目前不具備攝入過程中的復制和文件查重功能。其基于Drupal模塊化的架構優勢可以滿足各種不斷增加的長期保存活動帶來的新功能需求,適合那些不具備基本的保存功能、需要自定義更多優化功能的圖書館。Samvera能夠滿足大部分功能,但是無法打包元數據,同時導出策略也沒有明確。其架構與Islandora類似,基于微服務架構,支持多種功能需求。Archivematica具備完善的長期保存流程功能,但是在存儲方面功能較簡單,需要配合第三方存儲軟件滿足長期保存需要,如LOCKSS、DuraCloud和Arkivum。DAITSS能夠滿足長期保存的基本功能,但是在進一步優化功能方面有所欠缺。如不具備自動收割元數據、手動創建元數據的功能,也不具備權限管理功能;在訪問方面不具備公共訪問的接口;在多副本及可靠的長期保存方面也不如基于Fedora倉儲的Islandora和Samvera。綜上所述,這幾種開源軟件均具備基本的長期保存功能,并且能夠“開箱即用”。圖書館在建設數字化資源長期保存系統時可根據各自需求及成本選擇合適的技術方案。
3 北京大學圖書館館藏數字化資源長期保存示范系統建設
多年來,北京大學圖書館開展了大量文獻數字化工作,將珍貴文獻數字化后建成特色數據庫,方便用戶使用,避免或減少對原始紙質文獻的直接使用以加強保護。但由于缺乏系統性規劃,數字化資源面臨著存儲分散、管理難度大等問題以及數字對象老化、損壞等風險。因此,北京大學圖書館基于數字化項目的實際需求,開展了數字化館藏資源長期保存工作探索。北京大學圖書館基于開源軟件Islandora開發了館藏數字化資源長期保存示范系統,實現了數字化資源從元數據生產到提交數據包(SIP)提交,到攝入保存管理,再到發布的整套流程。該系統的探索實踐也為高校圖書館數字化資源的管理與保存工作提供了經驗借鑒。
3.1 數字化資源保存需求分析
北京大學分館數字化項目涉及的資源來自社會學系民國圖書、哲學系部分民國圖書、歷史系部分縮微膠片、外語學院和新聞傳播學院音視頻資源以及馬克思主義學院的影印圖書和報紙,這些資源均有保存和發布的需求。數字化后的資源格式包括圖像、文檔、音視頻等,分別存儲在移動硬盤、館員辦公電腦和服務器上,因此數字化館藏資源長期保存需要解決的問題主要包括:(1)自動采集元數據。數字化資源僅有圖像和PDF文件,元數據缺失,因此需要解決如何將館藏資源進行相關元數據加工、以何種封裝格式向保存系統提交數據等問題。(2)保存管理。目前,北京大學參與的國家科技文獻數字資源保存體系主要適用于期刊資源,并沒有針對自建數字化資源的保存系統。(3)發布管理。保存系統和展示系統對于數字對象的要求不同,涉及如何進行保存和格式轉換的問題。
3.2 數字化資源長期保存示范系統設計
筆者設計了北京大學圖書館數字化資源長期保存示范系統概念模型,如圖3所示。整個系統設計采用國際標準的OAIS框架構建,分為3個子系統:元數據加工系統、長期保存管理系統和展示發布系統。數字加工中心、北京大學長期保存系統和用戶分別對應數據生產者、數據管理者和數據使用者3個概念。在數字化加工過程中,添加描述元數據的加工,通過圖書館業務系統的API接口實現與館藏相關數字化資源的自動編目。同時,對于未收藏的圖書,可以手動填寫生成元數據。系統采用開源Fedora作為底層倉儲,設計通用數據對象模型,并通過開放接口開發模塊化的工具套件,構建出滿足實際需求的應用系統。
3.3 數字化資源長期保存示范系統選型分析
如上所述,筆者構建了一個指標體系及其權重來評估開源系統是否符合當前機構的需求。以北京大學圖書館為例,在技術選型方面除了上述4種開源軟件之外,將北京大學圖書館參與的國家保存體系中的長期保存系統DPS也加入對比。該系統將Fedora存儲系統進行了擴展,在此基礎上基于Java開發了數據處理和訪問系統[26]。利用“矩陣分析”技術,通過對該5種軟件關鍵因素得分的加權計算,得出決策結果(見圖4)。
3.4 數字化資源長期保存示范系統功能及效果
(1)元數據加工
為了解決數字化資源僅有圖像和PDF文件、元數據缺失的問題,北京大學圖書館基于Java和業務系統接口開發了元數據加工客戶端(見圖5)。該工具通過館藏目錄檢索來補充元數據。客戶端能夠安裝到館員的電腦上,實現對本地已掃描圖書文件的元數據自動生成,也支持手動修改增加元數據。
(2)數字化資源攝入
攝入是指將前面補充完元數據的壓縮包導入長期保存系統中的過程。攝入過程支持多種文件格式,如JPEG、PNG、PDF、MP3、MP4等;支持多種描述元數據的解析與轉換,如Dublin Core、MODS、MARC等;同時支持生成保存元數據標準PREMIS文件,并將數字資源內容封裝存儲到Fedora倉儲中。
(3)數字化資源保存管理
數字化資源的長期保存與管理,是系統的核心功能。該系統制定了完整的保存管理流程,包括病毒檢查、MD5校驗、描述元數據轉換、技術元數據抽取、保存元數據自動生成、縮略圖生成、圖像格式轉換、自動審計、攝入保存到Fedora、分發等。為實現該流程功能,系統應用了以下開源工具:圖像格式轉換工具Imagemagick、MD5校驗工具、技術元數據抽取JHOVE、審計工具、BagIT打包工具等。
(4)數字化資源獲取
基于drupal搭建的發布系統,內容數據全部來自保存管理系統。依據元數據采用solr構建了索引,支持分面瀏覽和內容檢索。如圖6所示,在內容建設時,按照北京大學圖書館各分館所屬院系分別建設了不同數據集,支持包括文檔、大圖像、音視頻等格式內容的在線瀏覽、檢索和下載,同時能夠針對用戶的身份類型作不同權限設置。
(5)系統實施效果
基于Islandora框架的長期保存系統,充分利用了Islandora豐富的功能和模塊。本探索工作總共處理了近一萬條元數據文件,實現了分館珍貴數字化資源的資源描述和長期保存。在實驗階段,成功測試保存了超過兩千本數字化圖書,約500GB的數據量。借助Islandora的特性,系統實現了豐富的圖書資源展示和管理,包括在線瀏覽、下載等基本功能。同時,Islandora的高度可定制性和擴展性也為未來系統升級和功能拓展提供了便利。
4 高校圖書館館藏數字化資源長期保存建設思考
4.1 制定完善的長期保存實施策略
長期保存工作不僅需要系統建設和開發,還應具備完善的政策保障。為了確保自建數字化資源的長久保存并能夠在未來重用,國內高校圖書館在開展數字化資源長期保存系統建設時也應考慮政策和保存策略問題。筆者基于調研和北大圖書館工作實踐,認為應著重考慮以下方面問題:(1)制定長期保存政策,明確需要保存的數字化資源范圍以及利益相關者的角色和責任。(2)實施符合國際標準(如OAIS參考模型)的長期保存系統。(3)采用適當的保存元數據標準(如保存元數據字典PREMIS),并為數字資源創建準確和全面的元數據記錄。(4)定期監測和評估保存系統及保存過程,確保數字資源隨著時間的推移能保持完整性、真實性和可訪問性。(5)為館員和用戶提供長期保存最佳實踐[如可信賴倉儲標準(Trustworthy Digital Repositories),TDR[12]]的培訓和支持。
4.2 重視長期保存技術和系統的建設
筆者調研了國內外現有的長期保存系統,并比較分析了其中有代表性的4種系統功能,認為當前長期保存系統的功能并不能完全滿足保存機構需求,尤其是對數字化資源的保存。筆者提出的館藏數字化資源長期保存系統建設方案及技術選型方案,可以為國內高校圖書館提供一定參考,但各館仍需個性化開發和優化系統功能。以北京大學圖書館館藏數字化資源長期保存實踐為例,考慮到珍貴數字化資源的安全性要求,元數據加工系統采用了C/S模式。國內其他高校在實施長期保存策略時,可考慮將元數據補充功能集成到Web系統中,并適當引入外部接口(如CALIS聯機目錄等)以加快元數據補充效率。
4.3 加強對珍貴數字化資源的長期保存
高校圖書館在開展數字化保存工作時,應支持更多資源類型,制定分層級的保存標準,優先加強珍貴資源(如名人手稿、古籍圖像等)的數字化保存。當前國內高校圖書館已經積累了大量的數字化古籍資源,如北京大學圖書館已掃描了256萬頁古籍,清華大學、南京大學、武漢大學圖書館等也已開展了數字化掃描工作[27]。針對古籍資源的數字化掃描工作既能為古籍數據庫建設提供支持,也有助于長久保護這些珍貴資源。
5 結語
筆者通過調研國際高校圖書館針對數字化資源的保存案例,分析了當前國內外的研究現狀,并對比研究了成熟的保存系統。結合北京大學圖書館館藏數字化資源建設和保存的實際需求,設計了基于Islandora的北京大學圖書館長期保存示范系統建設方案。通過系統搭建、元數據加工、數據攝入、長期保存管理、展示等探索研究,實現了對館藏數字化資源全生命周期的保存管理,可為高校圖書館數字化資源長期保存工作提供實踐參考。
參考文獻:
[1] 曲蘊,馬春.推進國家數字平臺:美國公共圖書館和州立圖書館的數字化現狀[J].公共圖書館,2017(1):88-94
[2] 張毅,陳丹.全球100所知名高校圖書館特藏資源調查與分析[J].圖書館雜志,2023(5):71-81.
[3] National Digital Information Infrastructure and Preservation Program (NDIIPP) [EB/OL]. [2023-01-10]. https://www.digitalpreservation.gov/.
[4] 蔡迎春. 數字人文視域下的圖書館特藏資源數字化建設——以“民國時期文獻目錄數據平臺”為例 [J]. 圖書館建設,2018 (7): 31-36,41.
[5] Digital Preservation Coalition[EB/OL].[2023-01-11]. https://www.dpconline.org/.
[6] Research Data Service [EB/OL]. [2023-03-10]. https://www.ed.ac.uk/library/research-support/research-data-service.
[7] LOCKSS Program. Lost Of Copice Keep Stuff Safe[EB/OL]. [2023-03-10]. https://www.lockss.org/.
[8] DPOC [EB/OL]. [2023-03-10]. http://www.dpoc.ac.uk.
[9] E-DEPO [EB/OL]. [2023-03-10]. https://finanzen.belgium.be/de/e-depo
[10] 姜愛蓉,等.長期保存元數據在文物數字化保護項目中的應用[J].數字圖書館論壇,2020(6):2-7.
[11] 邢軍. 國家圖書館數字資源保存的現狀和發展策略 [J]. 數字與縮微影像,2016 (4): 8-10.
[12] 香港中文大學圖書館. Digitisation Policy[EB/OL]. [2023-03-10]. https://repository. lib. cuhk. edu. hk/en/digitisation-policy.
[13] 認識WordPress [EB/OL]. [2023-03-10]. https://cn.wordpress.org/.
[14] HKUST Library [EB/OL]. [2023-03-10]. https://library.ust.hk/.
[15] 張曉林,等.國家數字科技文獻資源長期保存體系的戰略與實踐[J].圖書館雜志,2017(12):14-19.
[16] 張乃帥,孫超.北京大學圖書館長期保存系統建設與探索[J].大學圖書館學報,2019(2):62-66.
[17]" 金佳麗,薛霏,黃晨.學術數字圖書館二十年:從數字化合作到數字知識服務聯盟[J].中國圖書館學報,2022(2):25-35.
[18] 張智雄,等.基于OAIS的主要數字保存系統研究[J].現代圖書情報技術,2005(11):1-9,13.
[19] Yeh S-T,et al. Deploying Islandora as a Digital Repository Platform: a Multifaceted Experience at the University of Denver Libraries [J]. D-Lib Magazine,2016(7/8): 10.1045.
[20] Community Owned digital Preservation Tool Registry (COPTR) [EB/OL].[2023-03-10]. https://coptr.digipres.org/index.php/Main_Page.
[21] Islandora [EB/OL]. [2023-03-10]. https://www.Islandora.ca/.
[22] Samvera [EB/OL]. [2023-03-10]. https://wiki.lyrasis.org/display/samvera/Samvera.
[23] Archivematica [EB/OL]. [2023-03-10]. https://www.archivematica.org/.
[24] Caplan. The Florida Digital Archive and DAITSS: a working preservation repository based on format migration[J]. International Journal on Digital Libraries,2007,6(4): 305-11.
[25] CRL. ISO 1636/TDR[EB/OL]. [2023-03-10]. https://www.crl.edu/archiving-preservation/digital-archives/metrics-assessing-and-certifying/iso16363.
[26] 吳振新,等.長期保存系統數據存儲管理策略研究與應用[J].圖書館雜志,2017(9):75-81.
[27] 王波.高校圖書館古籍保護與利用工作的現狀、亮點、問題與建議[J].大學圖書館學報,2022(3):21-28.
孫 超 男,1991年生。碩士,館員。研究方向:數據管理、長期保存。
(收稿日期:2023-06-28;責編:徐向東。)
*本文系2020年高校圖書館數字資源采購聯盟(DRAA)項目“數字資源建設與長期保存”(項目編號:2020DRAA11)的研究成果之一。