尹哲


本文就北京數字檔案館(電子文件中心)的檔案數字資源建設的規劃思路、總體架構、數據庫邏輯劃分、數據存儲模式設計、應用系統與數據庫間的關系和數據遷移工作六部分內容進行了詳細的介紹。
一、規劃思路
檔案數字資源是北京數字檔案館(電子文件中心)建設的重要組成部分,在建設過程中必須做好檔案數字資源的規劃工作。首先,明確檔案事業發展戰略與檔案業務管理對于數字資源支撐的需求;其次,確定各業務形態以及應用系統中已有的數字資源;最后,通過綜合分析兩方面需求,提出未來數字資源的架構目標以及分步實現的路徑。具體內容包含:
(一)檔案事業發展戰略與檔案業務管理對于數據支撐的需求,總結檔案事業發展業務模型,包括:業務域劃分、主題分析、用戶視圖、業務流程、數據流程、業務實體、數據元素、分析指標集等。
(二)梳理檔案業務管理中各業務系統的架構,理清數據流向,特別是市檔案局(館)與區檔案局(館)、檔案館與檔案立檔單位之間的數據流轉關系,建立全市檔案數據資源分布框架。
(三)總結描繪檔案業務管理數字資源主題域和關鍵實體,分析數據價值鏈的各個環節的處理和運用方式。
二、總體架構
北京數字檔案館數據資源總體架構如圖1所示,分為三個區域:政務外網數據區、互聯網數據區和市、區檔案館局域網數據區。其中政務外網數據區和互聯網數據區采取邏輯隔離方式,市、區檔案館局域網數據區與政務外網、互聯網數據區采取物理隔離方式。
北京數字檔案館(電子文件中心)項目數據庫建設要求統一存儲、分級管理,即各個單位數據統一存儲在北京數字檔案館(電子文件中心)的大集中數據庫中,在業務操作上各單位獨立管理本單位的數據。
三、數據庫邏輯劃分
數據是數字檔案館的基礎,以檔案數字資源為基礎的業務數據經過采集、傳輸、處理、標準化和規范化后,裝載到因特網、政務外網和市檔案館專網等各網絡的數字檔案館業務應用系統的數據庫中。
為了科學的管理和維護數據,滿足全市檔案管理業務的需要,在數據需求分析的基礎上,根據數據關聯程度及數據庫存儲等特征,系統數據可以分為結構化數據和非結構化數據兩大類。結構化數據以行數據為主,存儲在數據庫里用二維表結構來邏輯表達實現的數據;非結構化數據無法用數字或統一的結構表示,如文本、圖形、圖像、聲音影像等。
(一)結構化數據
根據數據的關聯關系和業務邏輯關系,結構化數據可分為:
1.基礎信息庫:包括檔案管理常用的基礎性數據,如機構、用戶、權限、基礎編碼、檔案移交單位、數字化加工外協單位及員工等。
2.目錄信息庫:檔案數字資源的目錄信息,包括檔案目錄和資料目錄,其中檔案目錄包括全宗目錄、案卷級目錄、文件級目錄、專題目錄、專門檔案目錄等,資料目錄包括書刊、報紙、地圖等。目錄信息庫還包括對目錄信息的注冊、審核、管理、發布及目錄之間關系等業務信息,為檔案的目錄管理提供數據支撐。
3.元數據庫:存儲檔案的元數據信息,從檔案類型分為文書類、照片類、錄音類和錄像類等元數據。
4.業務過程庫:是數字檔案館平臺業務操作過程中的相關數據。包括電子文件中心業務管理、檔案的接收、整編、利用、數字化、音視頻檔案整編處理、征集、縮微、自定的計劃、下達的任務等相關業務過程數據。
5.業務輔助信息庫:包括檔案長期存儲的鑒定專家庫、征集線索庫、庫房基本信息、庫房倉位信息、庫房規劃信息、存儲載體目錄、存儲備份策略、存儲載體索引、檢索工具、知識庫等。
6.運維日志庫:包括用戶操作日志信息、運維過程記錄、安全審計信息、系統故障信息及實時監控信息等。
7.共享資源庫:主要存儲檔案共享資源的注冊、審核、管理、發布、控制等業務信息,以及各類共享資源的具體及描述信息,如政策法規、技術規范、共享文件、檔案信息網的發布信息及網頁內容信息記錄等。
8.統計信息庫:包含自定義及定制的統計報表模板、統計結果、統計臨時數據資源等相關數據信息。
9.電子檔案身份證數據庫:電子檔案身份證就是證明一份電子檔案身份的真憑實據,它是一種能夠保證電子檔案唯一性、真實性和真實性的身份證件,也是電子檔案作為司法證明的重要依據,就像一個人擁有身份證一樣。電子檔案的身份證由電子檔案身份證編號、檔案移交單位名稱、電子檔案全文數字摘要、電子檔案其他核心元數據、檔案移交單位數字簽名等構成。
(二)非結構化數據
檔案數字資源庫:由市和區檔案局(館)館藏檔案數字資源,市和各區屬檔案室室藏檔案數字資源組成,主要包括檔案數字副本和電子檔案。其中,檔案數字副本包括紙質、照片、錄音、錄像、縮微膠片、實物、地圖等數字副本;電子檔案包括文本類、圖形類、圖像類、聲音類、影像類等。
四、數據存儲模式設計
從數據結構形式上劃分,結構化的數據(除XML文檔之外)均采用關系型數據庫進行存儲。非結構化的電子文件采用文件方式進行存儲。
(一)結構化數據存儲模式
結構化數據存儲方式可分為具有邏輯關系的數據庫表存儲和XML存儲兩種方式。本方案針對應用系統訪問采用數據庫表存儲,針對長期保持的結構化數據采用XML方式存儲。
1.數據庫表存儲
在數據庫中建立檔案數字資源信息物理庫表,存儲檔案數字資源的基礎信息、目錄數據、元數據、業務過程數據、業務輔助信息庫、運維日志信息、共享資源、統計信息等。通過結構化的管理,方便快速檢索定位。
2.XML存儲
數字檔案館涉及電子文件長期保管,根據元數據封裝規范,將檔案信息存儲到XML文檔中,并將此文檔和電子原件打成壓縮包進行長期保管。并且不同的檔案館建設中有相同元數據結構,可以將元數據結構保存在XML,以便其他檔案館利用。XML存儲包括兩個方式:endprint
(1)文件形式存儲方式
原始XML文檔或經過系統轉換后符合標準的XML文檔,以文件形式存儲。針對讀寫直接操作,節省多余開銷,能夠對文件結構做專門的優化,獲得更高的讀寫性效果,適用于元數據封裝存儲和瀏覽。
(2)平面表存儲
原始XML文檔或經過系統轉換后符合標準的XML文檔,經過XML解析器解析分解后,以約定的格式將XML文檔中的內容存儲在數據庫的表或字段中,適合于元數據結構維護和存儲。
(二)非結構化數據存儲
檔案數字化副本包括紙質、照片、錄音、錄像、縮微膠片、實物、地圖等數字副本。北京市檔案館館藏紙質文書和傳統照片檔案數字化副本的數據存儲結構按照“全宗--目錄--案卷”的結構存儲,錄音和錄像檔案數字化副本數據存儲結構保留原始“檔號”命名的存儲結構。其他類型數字化副本存儲類型待定。
五、應用系統與數據庫間的關系
應用系統的運行需要數據庫中各種數據的支持,隨著系統的運行還會不斷地產生新的數據。本項目中應用系統與主要信息資源數據庫之間的關系見圖2:
六、數據遷移工作
數字資源的核心是數據,要根據舊系統的數據庫結構提供新舊系統的轉換方案,保證數據在遷移過程中的完整性、準確性、一致性。
在數據遷移工作啟動前,先依照相關標準規范進行數據清理工作,為保障數據安全,建議將計劃遷移的數據做一次完整備份,避免因意外情況導致數據出現不可逆的損失。
(一)數據遷移的原則
對于原有的數據庫的數據,對照新的數據結構,檢查每個字段是否都滿足要求,包括非空要求、唯一性要求、小數位數要求、字節長度要求、取值范圍要求、代碼格式要求等。此時,可以發現一些數據格式不一致等問題,根據經驗對這些問題提供一些參考解決方案。
(二)數據遷移采取的步驟
在實施遷移計劃的時候,建議按如下步驟進行:
截止一個時間段,把此時間段前的所有數據進行整理,然后遷移到新系統的數據庫中;第一部分數據遷移完成后,新舊系統肯定存在并行的階段,要制訂出舊系統運行的最終結束日期;舊系統到結束日期后,把系統并行運行這段時間新產生的數據,按原來的規則進行遷移。
截止到2017年7月,共有1400余萬條檔案機讀目錄數據和7000余萬個檔案數字化副本數據遷移至北京數字檔案館(電子文件中心)數字資源庫。
七、結語
隨著檔案數字化工作的推進、電子文件的大量增長,以及用戶信息利用需求的日趨多樣化,如何科學有效地進行數字檔案資源建設已成為檔案事業發展的重點問題。建設數字檔案館需要合理規劃國家檔案資源的流向,加強數據資源整合,實現數據資源共享。在系統建設過程中針對數據管理合理設計,兼顧歷史數據需求;在數據資源整理和遷移過程中應重點保證數據資源的真實性、完整性、可用性和安全性。數字檔案資源建設除了對檔案數字資源本身的重視外,強化數字檔案館應用系統建設,構建良好的檔案信息平臺,提供便捷準確的利用是其最終目的。endprint