魏紅霞
(江蘇省檔案館,江蘇 南京,210008)
檔案信息管理系統數據庫設計中的三庫分離技術
魏紅霞
(江蘇省檔案館,江蘇 南京,210008)
三庫分離技術是在檔案信息管理系統數據庫設計實踐中提出的一種實用的數字檔案長期保存技術,它將數據庫在物理設計上劃分為核心庫、管理庫、利用庫。文章分析了三庫分離技術的應用背景、定義及相應的數據庫設計方法,并提出了其在長期保存、提高數據庫效率和保證數據安全性方面的優點和應用原則。
三庫分離技術 檔案信息管理系統 長期保存技術 核心庫 管理庫 利用庫
21世電子紀文以件來及信電息子化檔發案展大迅量猛涌,現,我國全面進入檔案信息化發展階段。隨著檔案信息化建設的開展和逐步深入,數字檔案館建設成了檔案信息化的重點工程。檔案數據庫建設是數字檔案館建設的核心內容之一,它是提高檔案管理效率和服務水平的根本途徑。數據庫技術是建立數據庫及其應用系統的技術,是信息系統開發和建設中的核心技術,具體來說,數據庫設計是指對于一個給定的應用環境,構造最優的數據庫模式,建立數據庫及其應用系統,使之能夠有效地存儲數據,滿足各種用戶的信息要求和處理要求,它的設計直接關系到系統執行的效率和系統的安全性及穩定性[1]。
1.1 現實背景
大數據時代,電子數據指數式增長,電子檔案的存儲和訪問成了數據庫設計的瓶頸問題。隨著電子檔案數量的快速增長以及系統用戶訪問量的不斷擴大,檔案信息管理系統出現運行效率降低、用戶長時間等待等甚至已經影響到用戶正常操作的現象,造成了系統整體性能低下。另外,電子檔案還存在著自然災害和人為破壞的風險,以及系統安全、載體安全、電子檔案遷移風險及電子檔案真實性等幾個方面的問題。針對以上諸多問題,優化數據庫設計顯得尤其重要。本文要探討的三庫分離技術是在總結檔案信息管理系統數據庫設計實踐基礎上提出的一種實用的數字檔案長期保存技術,此項技術的應用有助于提高系統的整體性能,保障數字檔案的安全性。
1.2 OAIS參考模型
OAIS(Open Archival Information System,開放檔案信息系統)參考模型是空間數據系統咨詢委員會(CCSDS)制定的標準,并于2003年作為ISO的標準(ISO14721:2003)頒發。其主要目的是為具有數據長期保存和利用責任的檔案機構以及非檔案機構提供數字信息長期保存和利用的基本概念、術語、基本信息模型、功能模型和指南。具體模型如圖1所示。
OAIS參考模型提出了數字檔案館等對數字信息長期保存和利用負有責任的機構應該履行的六項基本功能:
(1)檔案收集:從信息生產者那里接收提交信息包(SIP),并且對內容進行準備,以便所提交信息能夠在檔案系統中存儲和管理。
(2)數據管理:對檔案信息包的描述信息進行管理,幫助用戶查找和檢索信息。
(3)歸檔存儲:存儲檔案信息包,為其選擇恰當的存儲媒體,判斷存儲級別,按照不同級別采取不同的安全保管措施,并執行錯誤檢測以及災難恢復。
(4)檔案利用:將歸檔信息包加工成分發信息包,并提供給用戶利用。

圖1 OAIS信息模型

圖2 系統功能模型

圖3 數據庫優化模型
(5)行政管理:與信息生產者簽訂“移交協議”,對數據移交的格式、移交的內容、程序和方式進行規范,把握信息長期保存的源頭。
(6)保存規劃:對技術的變化以及用戶群的服務需求變化進行監控,并根據變化制定詳細的保存策略和遷移計劃[2]。
1.3 三庫分離技術的提出
OAIS規定了資源存取和長期保存的概念和參考框架。本文以OAIS六個功能模塊為基礎,按照電子文件從檔案生產者傳遞到檔案利用者的過程分析設計出收集管理模塊、保存模塊、利用模塊三大系統功能模型。如圖2所示。
在對系統功能模型進行分析的基礎上,可以利用三庫分離技術進一步優化數據庫模型,即在數據庫物理設計中將數據庫分為核心庫、管理庫和利用庫,如圖3所示。
檔案信息管理系統中的管理庫、核心庫、利用庫主要功能如下:
(1)管理庫:該庫主要供檔案業務人員進行新增修改刪除等操作,實現電子檔案數據的收集整理、編目著錄、鑒定銷毀等日常管理。
(2)核心庫:該庫主要實現電子檔案數據的長期保存。
(3)利用庫:該庫主要供利用者借閱利用,實現電子檔案數據的檢索統計、編研利用、數據分析及數據挖掘。
2.1 三庫分離的數據庫架構
在概念結構上,因在三庫概念結構設計時三庫中檔案對象具有相同的ER圖,因此三庫的邏輯結構一致。在物理結構上,三庫分離技術實質上是數據庫物理結構設計時的一種優化措施。三庫分離的數據庫架構如圖4所示。
在三庫分離數據庫架構中,服務器和存儲之間使用存儲區域網絡(Storage Area Network,簡稱SAN)連接。SAN實際是一種專門為存儲建立的獨立于TCP/IP網絡之外的采用高速數據連接通道(光纖通道FC)的專用網絡,目前一般的SAN提供2Gb/S到4Gb/S的傳輸數率,存取速度很快。由于SAN的基礎是一個專用網絡,所有的服務器與存儲設備均采用中心化管理,因此擴展性很強,不管是在一個SAN系統中增加一定的存儲空間還是增加幾臺使用存儲空間的服務器都非常方便,并且可以通過集群方式達到高可用性[3]。

圖4 三庫分離數據庫架構

圖5 三庫同步流程圖
2.2 三庫的具體設計
管理庫是檔案信息系統正常運行的核心組件,它提供對檔案數據的編輯、修改和刪除等操作,支持各類管理流程順利實現。管理庫的核心數據采用按檔案類型建表的架構。為保證管理庫的災難恢復和高可用性,我們在三庫設計中使用了數據庫雙機熱備技術。將管理庫安裝成為互為備份的兩臺服務器,當運行著的服務器出現故障無法啟動時,另一臺服務器自動啟動以減少損失;當原運行著的服務器被修復后,又可以作為新的備用服務器。
核心庫即檔案的長期保存庫,該數據庫結構遵照相關的元數據標準,采用以全宗建表的架構,基于XML(可擴展標記語言,Extensible Markup Language)技術對電子檔案元數據進行封裝。利用標準的、與軟硬件無關的XML語言將電子檔案與其元數據按照規范結構封裝在一個數據包中,可以維護電子檔案與其元數據的完整性,并保障兩者之間的可靠聯系,實現電子檔案的自描述、自包含、自證明[4]。在封裝的同時,引入CA技術對封裝包做數字簽名操作,形成數字簽名和鎖定簽名,確保電子檔案的真實性。具體設計是將基礎結構元數據作為一個全宗表的通用字段,將各檔案類型中非通用字段整合為XML文件保存在名為擴展字段的大字段中,將封裝新增的元數據在電子文件封裝表中保存。在電子檔案進入核心庫時,應當對其元數據的完整性和封裝包的合法性進行全面檢測,嚴防不合格的電子檔案數據進入核心庫。
利用庫主要用于檢索統計、編研利用、數據分析等數據挖掘應用。為便于高效地查詢利用,利用庫的核心數據采用按檔案類型建表的架構。
2.3 三庫同步設計
三庫間數據通過數據庫同步保持一致。核心庫數據由管理庫數據同步而來,利用庫中數據由核心庫數據同步而來。在同步過程中,首先使用數據庫連接方法連接需要進行同步的兩個數據庫,然后建立能實現同步的存儲過程,最后在計劃任務中運行存儲過程完成同步。使用計劃任務可設置三庫之間的同步工作在每天業務空閑時間段進行,以避免與客戶端爭搶資源。三庫同步流程如圖5所示。
3.1 三庫分離技術的優點
首先,三庫分離技術實現了電子檔案的長期保存。電子檔案與傳統檔案相比,有著檢索便捷、傳輸快速、高度開放、信息共享等優點。然而電子檔案在長期保存方面卻存在著一系列問題,成為電子檔案建設和發展的瓶頸。三庫分離技術將長期保存數據存放在核心庫中,只對核心庫進行同步操作,而不進行添加刪除更新等操作,有利于實現電子檔案的長期保存。
其次,三庫分離技術提高了數據庫的效率。在數據庫設計中采用三庫分離技術,可使長期保存數據、工作數據、利用數據不再存放于同一個數據庫,三庫中數據也不會隨著業務數據量的累積而急劇增加。在進行三庫分離后,系統管理員對電子檔案數據進行添加刪除更新等操作只在管理庫中進行,用戶查閱利用數字檔案只在利用庫中進行,此舉可以優化數據庫性能,有效提升數據庫使用效率。
最后,三庫分離技術保證了電子檔案數據的安全性。管理庫中包含許多業務中間過程的臨時數據,其有效性需要在審核后才能確認。如果直接在核心庫中進行操作,一旦數據庫系統的事務遭到破壞,數據的正確性就得不到保障。而在三庫分離的情況下,進行添加刪除更新等操作時,首先將臨時數據進行逐級上報審批,審批通過后保存到管理庫中成為正式數據,最后對核心庫和利用庫中的數據進行同步更新;如果審批未通過,則不需要將數據保存到管理庫中。
3.2 三庫分離技術的應用原則
三庫分離技術在數據庫設計中具有明顯的優越性,但不可否認的是此項技術也增加了系統程序的復雜性。在數據庫實際設計中,設計者要根據檔案信息管理系統業務子系統的實際情況,對技術有選擇地加以應用。三庫分離技術的應用可遵循以下原則:
(1)核心庫與管理庫、核心庫與利用庫必須分離,以此保證核心庫的安全,實現電子檔案數據的長期保存。
(2)管理庫和利用庫分離與否視業務數據量大小而決定。在業務數據量較大的情況下,為提高數據庫使用效率,管理庫和利用庫可以分離。在業務數據量不大的情況下,管理庫和利用庫可以不分離。
三庫分離技術是在檔案信息管理系統數據庫設計實踐中提出的一種實用的數字檔案長期保存技術,它提高了電子檔案數據的訪問效率,保障了電子檔案數據的安全性,對大數據時代檔案信息系統的數據庫設計具有一定的實際應用價值以及理論研究意義。
[1]謝波.江蘇省數字檔案館建設理論與實踐[M].河海大學出版社,2014.
[2]何歡歡.OAIS參考模型及其在我國的應用[J].圖書館雜志,2008(9):56-61.
[3]黃靖鋒.基于SAN的網絡存儲技術研究與應用[D].電子科技大學,2010.
[4]段榮婷.國際電子文件置標理論與應用研究綜述[J].浙江檔案,2011(8):36-39.
[5]謝波.理念與范式:檔案工作新探[M].南京大學出版社,2011.
[6]石偉偉,譚秀娟.房產信息系統數據庫設計中的三庫分離技術[J].計算機工程,2006,(5):58-59.
[7]吳彩榮,羅艷,龍波,覃濤.基于OAIS模型的電子政務檔案長久保存系統研究[A].廣西計算機學會.廣西計算機學會2014年學術年會論文集[C].廣西:廣西計算機學會,2014:9.
[8]高旭,趙豪邁.數字檔案長期保存利用技術機制[J].檔案學通訊,2013(6):85-89.
[9]林麗群.數字檔案信息長期保存的策略研究[J].社會工作與管理,2011(1):78-82.
[10]胡星火.基于OAIS的數字信息長期保存研究[D].南京航空航天大學,2008.
[11]王艷麗.我國檔案界對OAIS參考模型的研究和應用[J].浙江檔案,2009(4):26-27.
[12]孫曉燕.淺析幾種常見的計算機網絡存儲技術[J].中小企業管理與科技旬刊,2011(3):254.
魏紅霞,女,江蘇省檔案館主任科員,主要研究方向為檔案數字化。
Archives In formation Management System Database Design of the Three Databases Separation Technology
Wei Hongxia
(Jiangsu Archives,Nanjing,Jiangsu,210008)
Three databases separation technology is puts forward in the archive information system database design practice of a practical long-term preservation technology.In the physical database design,database is divided into core database,management database,use database.This paper analyzes the three databases separation technology application background,definition and corresponding design methods,and summarizes its advantages an application of long-term preservation,efficiency and principles of data security.
Three Databases Separation Technology;Archive Information Management System;Long-term Preservation Technology;Core Database;Management Database;Use Database
G270.7