趙鈺婷

一、引言
電子檔案被定義為“具有憑證、查考和保存價值并歸檔保存的電子文件”,由于容量大、占地小、便于檢索和管理,逐漸成為當今時代常用且與時俱進的檔案形式。在檔案管理中,元數據是描述檔案資源內容、結構、背景等的數據,有助于高效管理電子檔案,保障其真實性、完整性、可靠性和可用性等。隨著電子檔案的大量產生,識別、收集和管理用于電子檔案管理的元數據至關重要,迫切需要探析科學的元數據方案,定義電子檔案元數據和元數據元素之間的邏輯結構,助力電子檔案管理工作,以便為后續的檔案信息化建設工作提供指導。
二、元數據對電子檔案的作用
(一)規范電子檔案管理流程
元數據是電子檔案不可或缺的組成部分,伴隨著電子文件的產生到歸檔的全程,因此,充分捕獲與收集元數據十分重要。與傳統的檔案收集相比,電子環境下以更準確和科學的方式和數據形式捕捉檔案的內容、結構和背景。可以說,元數據作為重要的基本數據,是實現電子檔案標準化管理的重要基礎[1],它貫穿電子文件生命全程,組成電子檔案,并規范其管理流程。
(二)輔助電子檔案數據查詢
在檔案數據管理時代,任何類型的檔案數據采集都離不開對元數據的關注[2]。元數據是電子檔案數據查詢的基礎,查詢與利用電子檔案就是檢索元數據。元數據不僅能輔助電子檔案查詢,如輸入文件名、機構等元數據實現電子檔案的精準定位,還能通過設置并規范填寫元數據輔助結構化分析,基于此可以實現電子檔案的統計、編研、分析利用。
(三)助力電子檔案四性檢測
四性檢測是電子檔案生命周期管理的關鍵要素,其目的是通過驗證電子檔案的真實性、完整性、可靠性和可用性。電子文件是可復制、可修改的,而元數據是伴隨電子文件從生成到最終歸檔管理的數據,能充分記錄其各項內容信息,包括電子文件自身屬性、技術環境等,是電子檔案真實性的重要保障,可以說,元數據構成了四性檢測的來源和基礎。
(四)推動電子檔案資源開發
元數據是實現語義網的基礎,它能為不同形態的電子檔案提供描述方法、基準,也為分布式信息以及多種檔案資源的信息系統提供整合工具,令其具備最基礎的結構特征[3]。元數據不僅是確保電子檔案真實性、完整性、可讀性等的基礎,也是整合檔案資源和信息集成與共享系統不可或缺的工具。可以說,元數據是電子檔案數據的基礎和核心,有利于電子檔案的保護與長期有效的存儲、有利于科學管理電子檔案、有利于電子檔案的查詢和利用[4],以此推動電子檔案資源開發。
三、電子檔案及其對元數據方案的影響
(一)電子檔案的特性
第一,電子檔案基于系統生成,并且在創建電子文件的同時生成相關元數據。從創建電子文件到歸檔形成電子檔案的整個過程都離不開系統支持,元數據記錄了各種痕跡、特征,是電子檔案系統依賴性的直接體現。第二,由于在虛擬環境生成,檔案工作者難以通過固定載體來判斷電子檔案是否為原件。電子文件從生成到歸檔始終處于實時運轉過程,由于其與載體的可分離性,判斷是否為原件需采用技術手段,通過嚴格的運作程序,能夠最大程度避免失真。第三,電子檔案的存儲時間長且要求高。不同種類檔案的重要性和保存要求也存在差異[5],憑證價值的維護、復雜的數據形態和巨大的數據體量也對電子檔案的保存構成了挑戰,因此,電子檔案的存儲要求比普通計算機數據嚴格得多。
(二)電子檔案對元數據方案的影響
上述特點使電子檔案面臨真實性、完整性、可用性和安全性等多方面的挑戰,繼而影響電子檔案管理的元數據方案設計。一方面,檔案與其他事物最本質的區別在于其原始性和真實性,因而要突出元數據能夠保證電子檔案的原始性和真實性的價值[6],電子檔案可修改復制、元數據的完整性維護、電子檔案不同組成部分的關系保持等都是需要考慮的問題;另一方面,對元數據方案的設計提出功能實施層面的要求,由于電子檔案種類繁多,需要按照電子檔案的類型、技術環境、職能等特征進行標準化分類,便于各個領域獲取相應的檔案資源。
四、電子檔案管理的元數據方案
(一)設計原則
第一,電子檔案也是檔案,其相應的元數據方案應以尊重檔案、尊重客觀、尊重元數據與整體間的有機聯系為原則,使元數據與電子檔案內容信息保持關聯。第二,電子檔案元數據伴隨其整個生命階段生成,元數據方案的設計應始終堅持前端控制與全過程管理的原則,推動電子檔案管理工作科學展開。第三,充分考慮數據格式、編碼規則等,使得元數據與電子檔案內容信息間的關聯有效、有邏輯可言,進而實現數據交換、信息共享,提高元數據管理的效率。
(二)元數據方案
元數據伴隨電子檔案的生命全過程,從生成到捕獲,再到封裝,最后到維護,每一環節環環相扣,需要進行合理的安排,以此助力電子檔案管理工作。
在生成環節,主要是確定元數據的值域以便形成確定的元數據內容,應采用統一軟件進行處理,避免元數據格式轉換中的錯誤,并將識別的元數據內容存儲在數據庫中。在捕獲環節,采用人工與計算機著錄相結合的方式,并檢查元數據的內容、邏輯等,做好質量控制。在封裝環節,按照不同級別對元數據進行封裝,每一個封裝包要包含一個基于XML結構的數據文件和相關元數據,多個文件封裝包就形成了更高一級的基于XML結構的數據文件。在維護環節,關鍵在于保持電子檔案與元數據間的關聯,避免由于存儲方法而影響電子檔案的整合和它們之間關系的穩定性。
為了更好地進行電子檔案管理,充分發揮電子檔案價值,電子檔案的原始文本及其索引數據可以單獨保存,由專門的文件資源管理系統對接數據庫系統。前者負責獲取存儲站點和數據文件之間的關系,并將數據報告給后者便于其記錄與存儲,而后者則是通過XML的元數據記錄導入或更新數據表,并通過這些數據表提供其他應用程序、訪問和服務(圖1)。
在電子檔案管理過程引入元數據方案,旨在更好地記錄電子檔案著錄信息、標識、管理信息,并為用戶提供完善的服務。電子檔案的所有索引信息存儲在與電子檔案的原始文本相對應的XML文件中,新增文件資源管理系統,以確保索引文件與相應檔案的原始文本之間的關系不受干擾,用戶通過前臺系統提取所需檔案相關信息。如此一來,系統可以自動完成關于電子檔案的一切操作,并且記錄電子檔案的讀取時間、操作過程,從而在一定程度上保證了電子檔案真實性、完整性、可靠性和可用性。
五、實施路徑探析
(一)制定科學的元數據標準
目前為止,我國已經制定了一些元數據行業標準,如《文書類電子文件元數據方案》《照片類電子檔案元數據方案》和《電子文件元數據標準》等。沒有及時捕獲、記錄和有效管理元數據是造成電子檔案損失的一大風險因素,應對此類風險因素,國家層面應當制定電子檔案長期保存元數據標準,相關部門也亟需制定科技類、音頻類、視頻類電子檔案元數據標準。除了對電子檔案元數據的設計和捕獲提出要求,還應關注其管理,制定相關元數據管理標準,以此對元數據檢測、保存和記錄等管理方面的要求作出規定。此外,還應區分不同類型的元數據,制定專門針對長期保存的元數據標準[7],為電子檔案的價值發揮奠定基礎。
(二)探尋獨特的檔案元數據
檔案與諸如圖書、情報之類的其他相似事物有本質區別,在其他領域成功實踐的元數據標準難以直接運用于電子檔案管理,因此,檔案界迫切需要建立屬于檔案領域自身的元數據標準。在現有的標準基礎上,根據檔案領域特殊要求擴充一些新的元數據信息,既不影響通用標準的使用,也可以在電子檔案備份、還原、移交等業務操作過程中保持電子檔案信息的完整。當然,若電子檔案元數據只是簡單地著錄,沒有建立起數據間的關聯關系,則很難真正發揮電子檔案價值。因此,為了更科學有效地管理電子檔案,最大程度揭示并整合電子檔案之間的有機聯系,有學者提出了“檔案元數據核心集”的概念[8]。基于完整描述檔案自身形成過程中歷史聯系的信息,在可視化描述中展現檔案的內部聯系。應結合歷史主義精神,根據檔案歷史聯系與歷史的“同構性”規律[9],挖掘檔案所特有的元數據標準并構建專屬檔案領域的元數據核心集[10]。
(三)構建完善的前后端管理
一方面,應依托前端控制思想,改造前端業務系統。電子文件轉化為電子檔案的時間節點不清晰,且涉及管理權的轉移,若只關注電子檔案的形成結果而忽視其形成過程,易產生電子檔案真實性存疑的風險并且不可逆轉。為了避免這種安全風險,首先應以前端控制思想為指引改造原有的業務系統,在形成電子檔案期間按照相應要求收集所有類型的元數據,做到應收盡收,以證明電子檔案的創建在整個過程中處于受控狀態。
另一方面,還應建立實時響應機制和備份機制。電子檔案數據庫應定期備份電子檔案及其元數據,便于在遭到破壞后及時恢復數據。但若電子檔案管理系統沒有及時獲知破壞信息,錯誤的電子檔案及其元數據就會自動備份,使電子檔案的真實性存疑。因此,可以同時建立實時響應機制、備份機制,完善電子檔案管理的后端工作,切實保障電子檔案信息的安全,以便后續開發利用。
(四)形成豐富的元數據描述
在電子檔案時代,檔案元數據具有了結構化、集中化、標準化等基本屬性,一般以XML格式進行表達[11]。元數據不僅可以為不同形式的電子檔案提供標準化的描述標準和方法,還可以為由多個電子檔案組成的分布式信息系統提供集成工具和鏈接。然而,在電子檔案管理實踐中,利用元數據對電子檔案進行初步的語義描述只能解決資源描述問題,語義異構問題依然嚴重。各檔案機構采用的元數據規范不同,不利于電子檔案規范化管理工作的開展。而語義本體是元數據的補充形式,對電子檔案具有強大的描述能力,給異構元數據間的映射、轉換、互操作提供幫助。它以XML和RDF為基礎,在完成電子檔案語義描述的前提下,促進數字檔案資源的關聯與共享,在語義層面上形成豐富描述[12]。
六、結語
元數據有助于完整地記錄電子檔案的背景、內容、結構等信息,在保障電子檔案的真實性、完整性、可靠性和可用性等方面發揮著重要作用。隨著電子檔案的大量產生,元數據方案的確定、捕獲與管理尤為重要。本文提出了元數據方案的設計原則,認為在電子檔案管理過程引入元數據方案有助于記錄電子檔案著錄信息、標識、管理信息,并為用戶提供完善的服務。具體實施路徑包括制定科學的元數據標準、探尋獨特的檔案元數據、構建完善的前后端管理、形成豐富的元數據描述,以此提升電子檔案管理水平,便于后續開發利用。
參考文獻:
[1]李芳芳,吳玉龍,米捷,陳成.機關電子檔案元數據體系構建及元數據庫建設研究[J].檔案管理,2019(05):13-15.
[2]陳雪燕,于英香.從檔案管理走向檔案數據管理:大數據時代下的檔案管理范式轉型[J].山西檔案,2019(05):24-32.
[3]熊華蘭.基于語義本體的數字檔案資源知識管理模型研究[D].遼寧大學,2019.
[4]馬利濤.檔案信息資源管理平臺設計與實現[D].西安電子科技大學,2019.
[5]杜琳琳,袁嘉新.電子檔案長期保存技術策略研究[J].中國檔案,2021(12):67-69.
[6]陶水龍,王貞,田雷,白巍,任文革.電子文件和電子檔案元數據分類與方案設計[J].檔案學研究,2016(06):83-90.
[7]張瑜.數字檔案長期保存風險的識別與應對策略[D].武漢大學,2017.
[8]田偉,韓海濤.發揮檔案元數據核心集作用推進“互聯網+檔案”建設[J].檔案,2016,(6):5-9.
[9]任天琪.檔案元數據核心集內部要素及關系研究[J].檔案與建設,2016(08):12-15.
[10]楊文剛,崔杰,田偉.檔案元數據核心集系統的設計研究[J].北京檔案,2016(07):12-15.
[11]祁天嬌,馮惠玲.檔案數據化過程中語義組織的內涵、特點與原理解析[J].圖書情報工作,2021,65(09):3-15.
[12]王志宇,熊華蘭.語義網環境下數字檔案資源關聯與共享模式研究[J].檔案學研究,2019(05):114-119.
作者單位:上海大學文化遺產與信息管理學院