
摘要:數字管護關注資源維護和價值增值,離不開檔案知識及其工作流程的支撐,是具有全生命周期特征的保管策略。為厘清數字管護與檔案工作的關聯,論文從知識結構、教育交融、實踐協同三個維度予以論證,發現檔案管理和數字管護理論根植同源。在辨析數字管護學術史和核心內涵的基礎上,以來源原則、文件生命周期、檔案鑒定理論為例,探究三大基礎理論在數字管護研究中的具體應用,進而論證檔案學理論對數字管護研究的支柱性貢獻。
關鍵詞:數字管護 檔案學理論 檔案價值 數字管護 生命周期
Abstract: Digital curation focuses on resource maintenance and value appreciation, which is insepa? rable from the support of archival knowledge and workflow, and its a custody strategy with the charac? teristics of full life cycle. In order to clarify the rela? tionship between digital curation and archival work, the article demonstrates from three dimensions of knowledge structure, educational integration, and practical collaboration, then finds that archival man? agement and digital curation theories are rooted in the same source.On the basis of distinguishing and analyzing the academic history and core connotation of digital curation,taking the Principle of Provenance, Theory of RecordsLife Cycle, and Theory of Archi? val Appraisal as examples, this paper analyzes the specific application of the three basic theories in digi? tal curation research, and then demonstrates the pil? lar contribution of archival theory to digital curation.
Keywords: Digital curation; Theory of archival sci? ence; Archival value; Life cycle of digital curation
數據作為新型生產要素,對傳統生產方式變革具有重大影響。[1]在全球數字轉型和e-Science運動推動下,數據密集型科學成為科學研究第四范式,它依賴于從歸檔數據中發現知識。關注數字資源維護和價值增值的數字管護(Digital Curation)孕育而生。相較于數字保存,它側重特定知識和制度背景下的數據共享、訪問和重用。美國數據管理學者海多恩(Heidorn)提出:“數字管護更像是一個菜園,而不是一個時間膠囊或埃及墳墓:因為數據必須得到培育,而不是在未來被埋葬。”[2]具有全生命周期特征的數字管護,也在不斷汲取其他學科知識。檔案館作為數字管護場所之一,電子文件和數字檔案是其核心管護對象,許多檔案管理原則被運用到數字管護流程之中。面對檔案保管對象變遷和存儲技術迭代升級,數字管護正從理論建構和實踐場景中彌合與檔案領域的協同鴻溝,但檔案理論應用還有待探索。不過,數字管護學者吉利安·沃利斯(Jillian Wallis)提出要善于借鑒檔案學基礎理論,將檔案實踐推向工作上游,增加數據真實性和可靠性。[3]這為數字管護的來源、背景和結構提供了理論基礎。基于此,本文在辨析數字管護概念后,試從檔案學三大基礎理論角度探析其對數字管護研究的支柱性貢獻。
數字管護是國際數字資源長期保存領域的通用術語,它伴隨著數字保存和數字存檔的演進。其學術史可追溯至本世紀初電子科學數據的興起。[4]
(一)數字管護的概念演進
數字保存聯盟(DPC)與英國國家空間中心(BNSC)于2001年聯合舉辦的“數字管護:數字檔案館、圖書館與電子科學”(Digital Curation: Digital Archives, Librar? ies, and e-Science)國際會議上,首次圍繞數字管護開展學術辯論。早在研討會前,時任研究理事會總干事的約翰·泰勒(John Taylor)就在擬議的電子科學信息基礎設施中指出,在獲取和管理大量有價值的原始數據時需采取管護行為。這為術語提出奠定了話語背景的支持。[5]其次,按照詞源語法考察,它兼具名詞和動詞之義。常用于數字資源收集、長期保存、策展利用等活動中,不僅囊括文化遺產資源的收藏過程,還應用于社交媒體交互,如編譯數字地圖、網絡鏈接和媒體文件。再次,審視法律術語規范,“管護”最早于1966年寫入美國《國家歷史保護法》中,在36CFR第79節中表述為“聯邦政府擁有和管理考古收藏品的管護過程”,繼而從法理視角滲透至歷史文化遺產和信息管理學科之中。作為一個通用概念,“Digital Curation”在國內翻譯已有30余種。為此,王海寧等對此進行辨析,認為檔案學區別于其他領域對數字管護研究在于側重電子文件的鑒定、整理、標引和保存。[6]為避免概念模糊和研究對象的混淆,本文統一將“Digital Curation”譯為“數字管護”,“Digital Archiving”譯為“數字存檔”,“Digital Preservation”譯為“數字保存”。
(二)數字管護的內涵解讀
數字管護的內涵解讀,需要關注背后深刻的技術變革和管理挑戰。以數字對象創建到重用的全流程視角出發,具體內涵包括:第一,數字管護關注資源維護和價值增值。在傳統數字保存方法基礎上,它嘗試增強數字資產的完整性和未來用戶的可重用性,從而增加館藏資源的附加價值。[7]第二,數字管護可視為系統工程,具有全生命周期管理特征。數字管護涵蓋數字資源創建、收集、鑒定、存儲、利用和銷毀等完整環節,體現在數字管護生命周期模型。[8]第三,數字管護依賴具體的數字實踐環境。數字管護實施場景通常是檔案館、圖書館、數字存儲庫等保管場所,眾多數字管護項目需依托DSpace、DataArchive、CONTENTdm、Omeka、Joomla等數字倉儲為基礎架構。[9]值得一提的是,檔案工作者和檔案學者在數字管護社群中占有一席之地。因為他們提出的來源原則、鑒定和挑選、真實性、元數據、風險管理和信任等檔案原則(Ar? chival principle)在數字管護中發揮著關鍵作用。[10]其內涵演變必然伴隨著數字存檔和電子文件的發展,特別是檔案保管思想演變和數據要素集成,正如錢毅[11]、肖秋會[12]、伊麗莎白[13]等基于文件檔案保管體系構建、檔案內容拓展、檔案專業貢獻等方面提出的真知灼見。
(三)國內外研究進展
本研究選取“Web of Science”“Emerald”“Pro? Quest”“Springlink”數據集為外文來源,采用邏輯檢索式“SU=(‘archiv*OR‘recordOR‘repository)AND(‘digital curat*OR‘datacurat*OR‘electroniccu? rat*)”檢索;在中國知網、萬方、中國人民大學學位論文庫中以“檔案/文件”和“數字管護/數字監護/數字策展”進行組配檢索。檢索時間均截至2022年8月10日,共命中43篇有效文獻,由此分析檔案理論和方法對數字管護的影響。
經整理,研究聚焦于以下幾個方面。一是數字管護框架與檔案知識的關聯研究。數字管護作為新興數字環境中的跨學科問題,離不開檔案工作場所和知識結構的支撐。美國阿瓊·薩巴瓦爾(Arjun Sabharwal)曾提出數字管護理論框架[14],指出檔案館特藏是管護對象之一,檔案館也是產生數據知識的管護場所。二是數字管護學科與檔案學教育的交叉研究。盡管對數字管護是否是一門學科仍有爭議,但其作為學科發展方向的趨勢不容小覷。毛天宇論證了檔案學是數字管護研究的創始性學科[15],劉越男等立足科學數據和科研檔案協同,倡導數字(據)管護方向人才培養[16]。iSchool聯盟還將其列為數據學科方向之一,并配備課程委員會討論專業發展。[17]三是數字管護實踐與檔案管理的融合研究。面對數字資源長期保存的風險挑戰,雙方選擇融合和協同合作,并在可信數字倉儲[18]、管護對象鑒定[19]、科技檔案科普開發[20]、科研檔案創新管理[21]等場景中有所拓展。
綜上所述,數字管護離不開檔案知識及其工作的支撐,兩者也在相輔相成中走向融合,檔案保存和數字管護理論根植同源。無論是數字管護政策標準和組織架構,還是管護平臺維護和學術爭鳴均有建樹。自數字管護視野延伸至檔案領域的20余年間,數字管護中心和實踐項目也在如火如荼地建設。但檔案學理論如何應用在數字管護中略顯抽象,也尚未脫離傳統數字保存框架,缺少具體理論剖析。下述章節是對三個具體理論的應用分析。
檔案學對數字管護的首要貢獻是來源原則的指導。來源原則為數字管護實踐提供批判視角,它對檔案文件的真實性和可靠性進行驗證,還對出于史學研究目的的手稿收藏物進行背景和語境分析。[22]來源屬性能為管護者提供證據,將檔案置于歷史、社會、文化、政治和組織環境中,能為數字管護對象的來源考據和背景關系帶來參考。為此,里根·摩爾(Reagan Moore)指出,來源原則理論對管護者開展文件保存和維護管護環境是必要的。[23]以來源原則基本內容為思考邏輯,歸納出其對數字管護實踐的理論支撐。
(一)尊重數字管護對象的來源(Provenance)
來源原則要求保持檔案與形成者之間的來源聯系,揭示出各類檔案數據的內容、時間和形式聯系,全面而深刻地反映形成者的活動原貌。里根教授進一步論證了來源對于維護數字管護對象(包括數字文件和永久檔案)真實性和完整性的作用,并在數據密集型網絡環境中心(DICE)應用該檔案思想。[24]同時,“來源原則的重新發現”反映了數字技術發展和檔案保管對象變遷,關注焦點不再局限于實體來源,更多地關注變化、更迭的動態職能和集合概念,如電子文件“元數據”從創建到利用的全程記錄。這與數字管護進行全程數據記錄的思想一脈相承。德國首個研究數據歸檔bwDataArchive項目在進行數字管護時,嚴格記錄各部門和用戶提供的來源信息,捕獲數據移動和訪問連接的節點信息,從而確保真實性和可靠性,其中身份校驗功能即尊重來源的體現。[25]
(二)強調數字管護對象的全宗完整性(Integrity)
來源原則要求全宗是一個有機整體,整理檔案必須維護全宗完整性。亞歷克斯·普爾(Alex Poole)在回顧北美和英國地區檔案領域開展數字管護實踐時指出,要發揮檔案機構在數字管護活動中的作用,需要應用來源原則和檔案信任,其中全宗完整性是對來源原則具體內容的寫照,以期實現檔案概念在數據密集型環境中的應用。[26]同時,在數字管護實踐中,要求收集、組織和保存大量數字化或原生數字化信息,確保同一來源數據不分散。而且實現增值的關鍵在于,以全宗整體完整性來確保管護對象成為數字資產。毛天宇以科研數據檔案為例,對其全宗完整性進行論證,提出“相關聯的科學數據應當有機地整合在一起,不相關的科學數據不能混雜”[27],這有助于為后續存取和再利用提供質量保障。
(三)關注數字管護對象的來源背景(Context)
來源背景即對檔案上下文內容的考察,它是數字管護資源共享、開放獲取和重用的關鍵。換句話說,在數字資源連同元數據被“封裝打包”前,其潛在用戶是被排除在外的,因為缺失相關描述信息會導致內容和創建環境相分離,降低日后用戶對檔案本身內容的理解和重用能力。此外,對數據管護資源的真實性驗證還在于來源背景信息的一致性。特別是在數據密集型研究中,通過上下文內容比照,來解決數據文檔稀疏或錯誤或不理解、傳統工具不可用的難題,辨別偽造信息,鑒別真假檔案。這與加拿大檔案學者露西安娜·杜蘭蒂(Luciana Duran? ti)等在西方“古文書學”(Diplomatics)的探索有異曲同工之處,他們均關注數字文件的可信任度,并認為文件檔案工作者能勝任可信任的第三方角色。早在2010年,澳大利亞國家數據中心的安德魯·威爾遜(Andrew Wil? son)就提出“檔案學理論和方法在管護實踐中運用越來越突出”[28],尤其是在文化記憶機構(檔案館、圖書館和博物館等)的融合管護中必然要運用來源原則,來源背景的考察也不斷涵養著數字管護理論。
數字管護中對“文件”的界定是廣義的,泛指機構和組織開展活動中直接產生和使用的一切信息記錄,涵蓋各類數字資源。數字管護生命周期模型(見圖1)在提出和修正期受到文件生命周期的影響。按照文件生命周期揭示各階段價值形態、服務對象、管理形式的對應關系,總結其與數字管護生命周期的內在聯系。
(一)文件生命周期揭示文件運動的內在聯系,為數字管護全程管理提供整體性思維
以各類研究數據歸檔為焦點的數字管護實踐,關注數據歸檔全流程和周期循環,被稱為周期式數據培育。該數字管護生命周期模型由核心數據、全生命行為、連續行為和偶發行為等四個重要圈層組成,它反映著文件和數據的整體性運動規律。從內部圈層的核心數據出發,確認來自檔案館和圖書館的數字管護對象,包括各類數字化文件和原生數字文件構成的數據集(庫);第二圈層則圍繞全生命周期展開描述著錄、內容再現、保存規劃,同時納入專業社群的觀察和參與(強調檔案工作者的歸檔責任);第三圈層是連續業務行為,包括“概念化(設計)—創建—保管—利用”等流程,這與電子文件生命周期的許多環節一致;第四圈層則是偶發補充行為,出于長期保存考慮而開展的重新鑒定、處置、遷移,這也是數字管護應用檔案管理方法較多的地方。數字管護很好地融入文件生命周期理論,從數字對象創建前的設計準備,到運行階段的數據收集、元數據捕獲,再到移交檔案部門永久保存或是銷毀,均貫穿于數字管護的整體行為中。

(二)文件生命周期理論揭示文件運動的階段變化,為數字管護的階段式管理提供實踐邏輯
這在模型的連續業務行為中表現突出,它由概念化(Conceptualize)、創建或接收(Create or Receive)、鑒定和挑選(Appraise & Select)、攝取(Ingest)、保存行為(Preservation Action)、存儲(Store)、存取和再利用(Ac? cess、Use & Reuse)和轉換(Transform)等8大業務環節構成。數字資源的功能效用和價值轉換,同樣對應著“現行期—半現行期—非現行期”階段。其中,管護模型認為“攝取/移交”標志著數字資源從文件創建部門轉移到了檔案部門,通過簽署《文件檔案移交接收表》等協議來確認資源訪問和利用權限,亦從法理上規范知識產權轉讓和隱私保護轉移等。這是數字管護對象價值形態發生變化的關鍵節點。
(三)文件生命周期理論揭示文件運動過程的前后銜接和相互影響,為數字管護全程管理和前端控制提供依據
從文件到檔案的管理是一個系統過程,需采取統一的程序和方法來實現全方位控制。一方面,為保障數字管護對象的高質量利用,數字管護實踐首先進行“概念化”設計,包括電子文件系統或可信數字倉儲的設計、開發和安裝等。此階段需將利益相關者需求考慮在內,如研究者的利用需求、檔案工作者的管理需要、數字社群的互動需求。另一方面,注重數字管護周期基礎上實現科學研究數據的全程管理和前端控制。亞歷克斯建議,檔案工作者應該更早地參與數字管護生命周期,因為在生命周期的每個階段做出的決策的影響是不斷累積的。[29]吉利安·沃利斯指出要將檔案鑒定、管護、追蹤來源等歸檔工作推動至文件生命周期的早期階段,從而增加捕獲可靠性、有效性和數據的可解釋性。[30]由此可見,數字管護實踐在借鑒文件生命周期步驟的同時,要將“人、技術、內容”全面嵌入管護之中,并將檔案管理思想和方法推向業務工作流的上游。[31]
檔案鑒定是鑒別和判定檔案的價值,對數字管護對象進行價值鑒定是關乎其能否轉化為檔案的關鍵。應用檔案鑒定理論,有助于保障歸檔管護數據的真實性、完整性、機密性和安全性。
(一)檔案鑒定思想對數字管護流程產生影響
檔案鑒定思想是數字管護實踐的“最外層(顯性區域)”[32],關乎整個管護流程能否正常運轉。按照匹茲堡學派對檔案鑒定理論的闡釋,鑒定環節能幫助檔案工作者識別文件檔案的證據和情報價值,這是數字管護者對館藏資源價值的有效鑒別。而數字資源管護原本缺乏理論支撐,需要從檔案學領域汲取養料,特別是對數字資源內在價值的識別。數字環境下具有內在價值的信息與特定物理載體之間是易分離性的,在復制和遷移過程中容易丟失關鍵信息;而檔案鑒定會考慮舊文件結構,兼顧館藏當前的業務、制度、法律、財政等狀況,為數字管護者提供取證和溯源鏈條。數字管護生命周期的連續行為和偶發行為以“鑒定、再鑒定和銷毀”為交匯點,直接驗證鑒定工作對于數字管護的重要性。
(二)檔案鑒定方法為數字管護提供直接方案
數字對象和各類數據庫與日俱增,但并不是所有數據都需要保存和復用。從檔案鑒定角度說,需要挑選具有完整內容、結構和背景的數據進行保存,對其數字身份和存儲技術進行鑒定。數字管護實踐中的鑒定操作通常采用檔案鑒定的兩種方法。一種是內容鑒定法,即對管護數據的集中度高低、記錄內容獨特性、涉及主題的保密性和時效性等進行判斷,如歐洲文化遺產數字管護項目多采用內容鑒定。另一種是職能鑒定法,即根據組織的政治、經濟、文化、社會、軍事、市場等職能進行把握,如科研數據中心的數字管護項目多采用職能鑒定。需要說明的是,實際運行的數字管護項目更為復雜,不僅要根據“是否進館/庫”問題做出鑒定,還需要對機構內部的業務數據歸檔做出判定。
(三)檔案鑒定效益為數字管護的成本計算提供參考
當前數字管護鑒定的核心在于對數據價值的有效判斷,包括管護過程成本計算和數字資源利用效益。數字管護對數字對象鑒定和挑選時注重科學數據的價值,需要考慮數據對未來再利用的潛在價值。正如檔案鑒定工作要求一樣,必須從國家和社會整體利益出發,采用科學效益的觀點指導鑒定業務。具有檔案知識背景的數字管護人員,主要擔任鑒定工作,他們對列入保存范圍的數字資源進行經濟效益和社會效益評估,判定何種數字對象進入后續環節、哪些對象會走向銷毀處置。對具體的數字管護機構而言,它們首先關注數字資源對本機構的有用性,在協調利益相關者需求后,權衡內外部利益訴求,借助檔案鑒定效益分析來計算鑒定成本并劃定保管期限表。
數字管護逐漸融入科學共同體之中,有效維護著各類數據的可持續性。在數字管護框架中[33],檔案是管護對象、檔案館是管護場所、檔案知識是管護理論的重要來源,檔案學理論及檔案工作影響著數字管護實踐效率和質量。其中,檔案學理論為數字管護實踐提供了理論基礎和知識指導。除本文提到的三個理論貢獻外,國外學者還提出文件連續體理論[34]、檔案范式理論[35]對數字管護的作用,如提倡將檔案學知識灌輸到數字管護環境中,論證檔案工作者要與數字資源創建者展開合作,以確保數據的可靠性和真實性,實現管護數據的再利用價值。
全球數字管護項目正在如火如荼地開展,檔案機構是否參與不再是選擇問題,如何實現檔案資源增值才是重點,檔案知識和檔案工作嵌入數字管護存在諸多可能。譬如,2022年6月召開的第17屆國際數字管護大會(IDCC22)以“可重用性(Reusability)”為議題,探討數字資源歸檔后端的價值增值。當然,面對“數據狂熱”“技術恐慌”的沖擊,檔案領域還需審時度勢,清醒地識別檔案工作融合的切入點。在保持檔案專業獨特性的同時,為整個數字管護實踐提供專業支撐。
*本研究得到中國國家公派出國留學基金項目(基金文號:留金選〔2022〕87號)的資助。
注釋及參考文獻:
[1]習近平.不斷做強做優做大我國數字經濟[J].求是,2022(2):4-8.
[2]HEIDORN P B. The emerging role of libraries in data curation and e-science[J]. Journal of Library Adminis? tration, 2011,51(7-8):662-672.
[3] [30] [31]WALLIS J C, BORGMAN C L, MAY? ERNIK M S, et al. Moving archival practices upstream: An exploration of the life cycle of ecological sensing data in collaborative field research[J]. International Journal of Digi? tal Curation, 2008,3(1):114-126.
[4]BEAGRIE N. Digital curation for science, digital li? braries, and individuals[J]. International Journal of Digital Curation, 2006,1(1):3-16.
[5]TAYLORJ.TheUKE-ScienceProgramme[EB/OL].[2022-04-23]. http :// www. rcuk. ac. uk/cmsweb/down? loads/rcuk/research/esci/jtaylor.pdf.
[6]王海寧,丁家友,聶云霞.Digital/Data Curation的概念與翻譯研究[J].圖書館雜志, 2018,37(1):8-18.
[7][13]YAKEL E. Digital curation[J]. OCLC Systems& Services: International Digital Library Perspectives, 2007,23(4):335–340.
[8]HIGGINS S.The DCC curation lifecycle model[J]. InternationalJournalofDigitalCuration, 2008,3(1):134-140.
[9] [14] [22] [32]SABHARWAL A.Digital curation in the digital humanities—Preserving and promoting archi? val and special collections[J].Waltham:Chandos Publishing, 2015:1-9,69-70.
[10][26][29] POOLE A H. How has your science data grown? Digital curation and the human factor: a critical lit? erature review[J]. Archival Science, 2015,15(2):101-139.
[11]錢毅.從保護到管護:對象變遷視角下的檔案保管思想演變[J].檔案學通訊, 2022(2):82-88.
[12]肖秋會,許曉彤,向京慧.數字轉型視角下歐美檔案與文件管理領域的研究主題演進:以《Archival Science》2001—2018年刊文為例[J].檔案學研究, 2019(6):72-76.
[15][27]毛天宇.數字監護研究中檔案學理論的應用及啟示探析[J].檔案學通訊,2016(1):34-38.
[16]劉越男,何思源.科學數據與科研檔案的管理協同:調查與思考[J].圖書情報工作, 2022,66(1):96-105.
[17]ORTIZ-REPISO J V, GREENBERG J, CAL? ZADA- PRADO F J. Dialoging about data with the iS? chools: exploring curricula trends[J]. Journal of Information science, 2017(3):1-19.
[18]SMITH M K, MOORE R. Digital archive poli? cies and trusted digital repositories[J]. International Journal of Digital Curation, 2007,2(1):92-101.
[19]NIU J.Appraisal and selection for digital curation[J]. International Journal of Digital Curation, 2014,9(2):65-82.
[20]龍家慶,邵亞偉.數字管護視角下科技檔案科普化開發策略研究[J].檔案管理,2023(1):38-41.
[21]李甜.數字管護(Digital Curation)視域下科研檔案管理創新研究[J].檔案學研究, 2021(3):113-120.
[23][24]Moore R.Towards a theory of digital preserva? tion[J].International Journal of Digital Curation, 2008,3(1): 63-75.
[25]BACH F, SCHEMBERA B, VAN WEZEL J. Design and Implementation of the first Generic Archive Storage Service for Research Data in Germany[J].Interna? tional Journal of Digital Curation, 2020,15(1):1-15.
[28]WILSON A. How much is enough: Metadata for preserving digital data[J]. Journal of Library Metadata, 2010, 10(2-3):205-217.
[33]薩巴瓦爾,龍家慶.數字人文與新興數字管護框架:概念、內容與實踐[J].數字人文研究,2022(2):57-69.
[34]CHOUDHURY S, HUANG C, PALMER C L. Updating the DCC Curation Lifecycle Model[J]. Interna? tional Journal of Digital Curation, 2020,15(1):1-12.
[35]GILLILAND A. Enduring Paradigm, New Oppor? tunities: The Value of the Archival Perspective in the Digi? tal Environment[R]. Washington, D.C: Council on Library and Information Resources, 2000:6-29.
作者單位:1.中國人民大學信息資源管理學院2.中國人民大學數字人文研究中心