摘 要:本文對電子文件的特點及管理現(xiàn)狀進行了分析,介紹了用于信息分析的數(shù)據(jù)倉庫技術(shù),并借助于其思想內(nèi)涵,提出了一種建立電子文件倉庫的管理方案,該方案通過對電子文件共有屬性的抽象,形成電子文件倉庫的維度,可以有效地實現(xiàn)電子文件安全保護及方便利用.為電子文檔一體化的實現(xiàn)提供保障措施。
關(guān)鍵詞:電子文件 數(shù)據(jù)倉庫 管理
1 引 言
文件的運動過程可以劃分為三個階段[1],即現(xiàn)行階段、暫時保管階段、永久保存階段。要實現(xiàn)電子文件的完整性運動,必須考慮到電子文件的特點及與紙制文件的關(guān)系。電子文件的特性包括:信息的非人工識讀性、系統(tǒng)的依賴性、信息與特定載體之間的可分離性、信息的可變性、信息存儲的高密度性、多種信息的集成以及信息的可操作性等[2],這些特性決定了電子文件保存與歸檔必須采用前端控制思想,將文件運動過程的各個階段進行綜合設計,形成一套與電子文件運動階段相對應的系統(tǒng)管理模式。我們知道,在企事業(yè)單位運作過程中不斷產(chǎn)生各種類型的文件材料,從數(shù)量上看,有著越來越多的趨勢,從類型上可以有多種媒體,從來源來說,可能來源于上級機關(guān)、或者職能管理部門、下級部門、合作單位、自己單位等。其中絕大多數(shù)是首先產(chǎn)生電子文件,然后將其打印出來以紙質(zhì)的形式進行審閱、傳閱等,最后將有關(guān)電子或紙質(zhì)文件到一定期限后移交到檔案部門進行歸檔處理,由于文件的數(shù)量和類型較多及經(jīng)手人的變化,在紙制文件利用的過程中容易造成損毀和遺失。
由此看見,電子文件的管理與應用是檔案管理的當務之急,其具有易用性、可復制性及一定意義上的原始性。依據(jù)國家有關(guān)檔案管理的標準,借助于先進的計算機技術(shù),對電子文件進行綜合管理,形成一套包括電子文件的形成、歸檔、利用和安全保護等管理系統(tǒng)具有很大的現(xiàn)實意義。
2 電子文件管理問題分析
1)電子文件的保存與利用問題
原始的電子文件保存較為混亂,人為因素較大,分布于不同的存儲設備中,保存時較為隨意,文件屬性不明確,甚至這些草稿性的電子文件在計算機存儲器上處于整體無組織狀態(tài),一旦紙質(zhì)文件在歸檔前遺失,將難以溯源。
由于上述原因,對電子文件檢索和利用往往基于人的記憶和對存儲設備的瀏覽查找,由此制約了其效能。
2)電子文件歸檔問題
傳統(tǒng)的立卷方法要進行文件及案卷兩級整理,而計算機管理系統(tǒng)則可以直接以每份文件材料為整理單位,而其“立卷”功能存在于其方便的查詢當中,是邏輯上的立卷,實現(xiàn)了真正意義上的“文件級”保管。但是,實行計算機管理檔案后,一般只停留在目錄級的管理,其重在對文件的日期、所屬部門的屬性的管理,由于文件內(nèi)容的數(shù)據(jù)最大,形式復雜(可以是文本、圖形圖像、聲音等)難以實現(xiàn)對文件內(nèi)容的管理,從而不便于對電子文件內(nèi)容的查詢與利用,削弱了系統(tǒng)的功能。解決的辦法之一是將文件內(nèi)容以大二進制字段集成到數(shù)據(jù)庫表中,這樣將對歸檔的其他有關(guān)操作產(chǎn)生不利的影響。
3)自動化程度不高
計算機及網(wǎng)絡技術(shù)發(fā)展迅速,電子文件及現(xiàn)有的檔案管理系統(tǒng)并沒有實現(xiàn)對計算機及網(wǎng)絡技術(shù)充分利用。事實上現(xiàn)有的計算機軟硬件完全可以支持對電子文件夾的自動監(jiān)視、檢索、轉(zhuǎn)運、文件信息(如建立日期、大小等)提取等,分布式計算技術(shù)也可以滿足信息在不同的計算機節(jié)點之間流動和處理。而目前對電子文件的處理大部分僅僅限于手動的拷貝、復制、上傳、組織到文件夾等操作,檔案管理系統(tǒng)自動化程度不高,手工錄入的工作量較大,缺乏后臺的服務程序及自動化觸發(fā)功能的利用。
3 數(shù)據(jù)倉庫技術(shù)
1)數(shù)據(jù)倉庫概述
由于一般的數(shù)據(jù)庫,數(shù)據(jù)存放的方式以及表的結(jié)構(gòu)等都是為方便事務處理而設計,所以這種適合于線上事務處理的數(shù)據(jù)不適合從數(shù)據(jù)中取得“信息”,而信息正是近年來受到重視的決策支持所不可缺少的資源。以某個商業(yè)數(shù)據(jù)庫為例,要用SOL語法從數(shù)據(jù)庫中查詢出甲客戶在什么時候購買了乙產(chǎn)品,應該不是太難的事情,但是要以相同的方式查出那位客戶在某段時間內(nèi)買了最多的乙產(chǎn)品或者每一項產(chǎn)品在那些地區(qū)賣的最好就不是那么容易了。
由此可見,雖然用功能強大的查詢語法來查詢事務性的數(shù)據(jù)是事務性數(shù)據(jù)庫的基本功能,但是要從中取得一些決策信息來分析市場則就不是十分方便了,必須在數(shù)據(jù)庫系統(tǒng)上構(gòu)建復雜的查詢語句.其所帶來的問題有兩個,一是要影響到日常的事務處理,使得日常的作業(yè)速度變慢甚至影響到數(shù)據(jù)的安全;二是決策人員也必須等待較長時間才能獲得信息。
為了解決以上問題,產(chǎn)生了數(shù)據(jù)倉庫技術(shù),數(shù)據(jù)倉庫可定義為是個整合的、主題導向的、長期積累的、且內(nèi)容小需要更改(但可加入新數(shù)據(jù)庫)的數(shù)據(jù)集合,以輔助管理員進行決策的思考
2)數(shù)據(jù)倉庫結(jié)構(gòu)
數(shù)據(jù)倉庫本質(zhì)還是數(shù)據(jù)庫系統(tǒng),但是不同于關(guān)系數(shù)據(jù)庫的“物理一關(guān)聯(lián)模型”(E-RModel),而建立數(shù)據(jù)倉庫所川的則是“緯度模型”(Dimensions Model)。數(shù)據(jù)庫結(jié)構(gòu)通常為星狀結(jié)構(gòu)如圖1所示:
FactTabl中存放的數(shù)據(jù)稱為量值,是用于保存和分析信息的直接數(shù)據(jù),它是數(shù)據(jù)倉庫中最大的表,由于數(shù)據(jù)倉庫通常不進行事務處理,因此它不考慮數(shù)據(jù)容量所帶來的效率問題,Dimension Table則用來存放各維度的數(shù)據(jù)(描述FaetTable中數(shù)據(jù)的信息),每個維度的數(shù)據(jù)都存放在單獨的Dimension表中,例如類別、時間等。因此Fact Table中要有各個Dimension·Fable的主索引鍵的Foreign Key。
4 基于數(shù)據(jù)倉庫思想的電子文件管理實現(xiàn)方案
我們可以將數(shù)據(jù)倉庫的思想和結(jié)構(gòu)用到管理電子文件中來,建立電子文件倉庫。就電子文件的產(chǎn)生與運動過程來說,它是符合數(shù)據(jù)倉庫的主要特點的,即,整合的(電子文件的日期、大小等屬性)、主題導向(以文件內(nèi)容為核心)、長期積累的(產(chǎn)生于日常業(yè)務)、歷史性的數(shù)據(jù)(電子文件保存)、只讀數(shù)據(jù)(檔案性質(zhì)的電子文件)。
針對電子文件處理的三個階段,采用數(shù)據(jù)倉庫的思想.抽象出所有電子文檔都具有的基本屬性,例如,文件號、文件類型、密級、簽發(fā)日期等引用與描述性屬性(度)及創(chuàng)建日期、文件名稱、簽名等命名性屬性。將在工作中產(chǎn)生的電子文件審閱后進行基本的屬性著錄并將電子文件的保存與歸檔,保存的主體是數(shù)據(jù)倉庫,歸檔的主體是檔案管理信息系統(tǒng)。利用采用一體化進程進行管理,管理流程如圖2所示:
與通常所理解的數(shù)據(jù)倉庫產(chǎn)生順序不同,首先建立以文件主體本身為主的數(shù)據(jù)庫(數(shù)據(jù)倉庫),主要內(nèi)容包括:電子文件主體(或者其相對于文件存儲的絕對路徑)、各種類型電子文件的共有屬性(作為基本的查詢索引)。由于本數(shù)據(jù)庫只是針對文件內(nèi)容,建立的目的是組織和保存歷史所形成的電子文件及進行信息分析,其利用頻率相對較低,因此可以將文件內(nèi)容、文件名稱、文件號等及相關(guān)的屬性索引直接集成到數(shù)據(jù)庫表中。其數(shù)據(jù)庫負荷的增加并不影響檔案管理數(shù)據(jù)庫系統(tǒng)的日常事務處理負荷,其基本結(jié)構(gòu)如圖3所示。(見圖3)
在文件的流動過程中,在電子文件產(chǎn)生端的客戶端軟件(文件收集系統(tǒng))功能是收集有關(guān)文件的內(nèi)容及屬性信息并將這些內(nèi)容轉(zhuǎn)發(fā)給文件倉庫文件接收服務器程序,服務器程序的功能是接收文件及相關(guān)屬性并進行合法性判斷,通過后激發(fā)數(shù)據(jù)庫的觸發(fā)器將有關(guān)內(nèi)容插入到數(shù)據(jù)倉庫表中。
在歸檔操作中,要從文件倉庫中提取相關(guān)的電子文件基本信息,再按照歸檔的流程(著錄、編研、鑒定)等過程對電子文件進行歸檔處理。在此過程中,可以借助于數(shù)據(jù)庫管理信息系統(tǒng)中的數(shù)據(jù)轉(zhuǎn)換服務 (Data Transformation Service,簡稱為DTS)實現(xiàn)從數(shù)據(jù)倉庫到檔案數(shù)據(jù)庫的數(shù)據(jù)定期自動轉(zhuǎn)換。通過制定科學的數(shù)據(jù)處理方案可以將紙質(zhì)文件、電子文件同時歸檔以保證其一致性。
5 結(jié)束語
本文提出的基于數(shù)據(jù)倉庫的管理機制是對現(xiàn)有計算機軟硬件技術(shù)的較充分的利用,這種機制將電子文件的保存形成系統(tǒng)并有效地通過各種中間程序與歸檔相關(guān)起來,提高了電子文件的組織性與管理的自動化程度。不足之處是該方案的實施將不可避免地增加硬件與軟件的投資,但從長遠來看其所降低的管理成本與提高的管理效率及安全性保證將是更大的無形資產(chǎn)。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。