當前,檔案部門在政府信息化建設向云計算、大數據、數據共享快速發展這樣的“新常態”下,面臨著巨大挑戰,主要表現在以下幾個方面: 第一,如何能夠高效、快速、敏捷地響應各種業務系統的規則變化,完整地收集、歸檔和集成業務數據,為檔案部門擴展信息種類和數據量、積極參與到智慧電子政務和智慧化城市建設中提供數據保障。第二,各個機關單位的信息系統面臨數據膨脹的壓力,如果能夠切實有效地幫助他們解決系統的數據壓力,將數據歸檔轉化為一種真正的信息化服務。第三,如何突破現有的歸檔模式,真正實現數據庫歸檔,為各類業務系統提供業務數據的長期保存、管理和訪問等功能,以支持業務合規、信息統計和數據挖掘等信息利用的需要。
眼下,全省檔案系統在“最多跑一次”工作的引領下,根據省檔案局的工作部署和要求,正緊鑼密鼓地開展“最多跑一次”事項電子數據歸檔工作[1]。作為此項工作的試點單位之一,杭州市檔案局以理念創新為推動、業務優化為保障、技術路徑為手段,針對上述問題大膽嘗試,探索出了一條行之有效的“最多跑一次”事項數據歸檔實踐路徑。
杭州市電子業務數據歸檔系統(Electronic Data Archive System,EDAS)是杭州市檔案局開發的針對電子業務數據歸檔的全新系統。它不但能夠有效地實現對政務服務網行政事項電子數據進行歸檔,而且能夠對其他各類重要的業務系統進行數據歸檔,并且能夠保持業務數據、辦理過程信息和結果的完整性。EDAS、電子文件管理系統ERMS、數字檔案館系統一起構建起了完整的信息生命周期管理環境。
基于對前述問題的思考,杭州市檔案局對EDAS的建設提出了以下要求:一是自動化歸檔。采用全自動化歸檔以降低人工干預,確保系統具有足夠高的歸檔效率。二是不依賴第三方的數據攝入。通過配置和工具即可完成歸檔數據的攝入,無需第三方的軟件定制開發。三是高度靈活的數據管理功能。支持各種類型的數據格式和信息/記錄結構,并最大限度地保持業務信息的有機關聯。四是高性能。能夠對TB甚至是PB級規模的數據具有很高的信息檢索和訪問并發能力。
2.1 業務規則前置。數據自動化歸檔的前提條件是需要制定規則,只有通過既定的規則,EDAS才能夠實現數據攝入、封裝、生成檔號、賦予保管期限、確定系統保留時間、自動分類、入庫等一系列業務操作。因此,制定詳細的歸檔管理計劃成為項目實施之前的業務重點。
相對于傳統的保管期限表,市檔案局要求各個業務單位必須根據自己的業務職能重新梳理業務分類,并對各類業務的業務編碼、歸檔范圍、文件保管期限、處置動作、開放等級、密級劃定做詳細的要求,使得傳統的保管期限表升級到了更為細致、科學的綜合性歸檔管理計劃,并嵌入系統中形成業務規則。
2.2 統一數據模型(Unified Data Model,UDM)。從業務角度看,不同的業務過程和業務信息千差萬別,而這些差異化極大的信息又是在各種技術環境中產生、流轉和交換的。如果針對每一個業務單獨構建一個歸檔數據標準規范,無疑在后期的標準管理和維護上都不可行。因此EDAS提供了一種統一的歸檔數據模型(Unified Data Model,UDM),能夠幫助實現以下目標:一是具有足夠的靈活性以應對不同業務系統的數據;二是足夠抽象和通用,幫助用戶更好地訪問和理解數據;三是建立全方位的數據視角,消滅數據差異性,保證歸檔數據的一致性。
UDM在邏輯模型設計上參考OAIS的數據包模型[2],在邏輯上由三個部分構成:一是數據包描述信息和封裝信息,包含了信息封裝報的各類描述信息;二是保存描述信息PDI,指與歸檔內容相關的描述信息,比如歷史參考信息、歸檔信息等;三是業務信息,即業務過程中產生的文件材料和業務的描述信息、過程信息等。
在數據抓取的過程中,可以將這些信息按照相應的元數據規范組織成信息包描述文件、保存信息描述文件和文檔,通過封裝技術將其組織在一起。
2.3 混合式的數據庫架構。在數據庫的構建形式上,EDAS采用RDBMS和NoSQL混合式的數據庫架構。這樣做,一是為了實現數據的管用分離,更重要的是為了更好地管理半結構化數據(XML、JSON)。這種架構當中RDBMS因為只承擔最為基礎的信息管理(如SIP、AIP信息包的基本描述信息),所以應盡可能簡單。管理和使用半結構化數據的任務則由NoSQL數據庫承擔。在實際的業務場景中(比如行政審批業務),其數據的結構會根據業務的調整不斷發生變化(業務環節、信息的變更)。由于NoSQL數據庫的反范式化操作無需事先定義實體關系、字段,添加新的屬性或組合對象操作都非常靈活,也就意味著應對業務變化的能力相較于RDBMS更強。因此采用XML或者JSON來構建數據物理模型是非常理想的選擇。
EDAS通過前置機實現與政務服務網的數據庫同步,依靠ETL工具對同步數據庫進行數據抽取、轉換,并將每一條業務數據庫記錄以及文檔附件封裝成一個歸檔信息單元(Archival Information Unit,AIU)。除了使用ETL工具之外,通過靈活的數據模板配置,EDAS也可以接收第三方已經封裝的歸檔數據包,因此在數據兼容性上完全符合相關的要求和標準。
多個AIU形成一個歸檔批次進入SIP封裝隊列進行信息提交包的封裝。系統對SIP封裝包進行數據校驗并形成MD5碼,以確保封裝內容不被改動。通過校驗之后,SIP封裝包進入AIP封裝隊列進行歸檔信息包封裝并最終進入數據倉庫進行歸檔保存。在SIP封裝到AIP封裝的階段,數據包的真實性保障可以通過MD5碼、數字簽名或者時間戳予以保證。
4.1 現行管理制度的遵循。由于EDAS直接與業務系統對接,傳統從業務部門到檔案室再到檔案館的三段式管理由于繞開了檔案室變成了兩段,因此不可避免地出現了與現有檔案管理模式不一致的地方,尤其是歸檔數據的歸屬權和管理權問題。從信息管理的角度來說,減少管理環節能夠提升管理效率。但是考慮到與現行管理制度的兼容,杭州市檔案局通過在電子文件管理系統ERMS中嵌入各立檔單位的行政事項歸檔規則,如分類、編碼、保管期限、系統保留時間、處置動作、開放權限等,同時將EDAS收集的各單位歸檔數據自動導入到ERMS對應單位的數據歸檔區,以此規避與現行管理制度上的矛盾。
4.2 多系統多數據源的集成。EDAS的建設初衷,就是要構建起一個能夠集成多個數據源的歸檔系統,將歸檔轉變為一種信息治理的服務,通過技術推動來實現檔案管理部門服務能力的提升和數據管理能力的進步。要達成這樣的目標,集成平臺的多系統多數據源接入就成為關鍵。只有通過靈活地數據定義和前端數據的接入方式,多系統集成才能成為可能。傳統的依托于第三方的定制開發或者數據導出,雖然在技術上可行,但是存在以下幾個問題:一是業務系統已經失去原開發商的技術支持;二是面臨著高昂的開發定制費用;三是多方工作協調的難度;四是數據獲得不夠齊全完整。
如果存在上述任何一個問題,顯然無法滿足杭州市檔案局的建設目標和要求,因此杭州市檔案局采用了ETL數據抽取和第三方定制開發相結合的方式進行多數據源集成。經過前期的數據測試,EDAS完成了30家機關單位共計12.4萬筆的測試數據歸檔,證明了建設思路的可行。目前,除了正在與行政服務網對接之外,正在與衛計委的醫學出生證明系統、林水局的自建業務審批系統進行對接。
4.3 數據模板。數據模板是EDAS的核心功能,是統一數據模型UMD在系統中的具體實現,也是多系統集成的最重要、最基礎的保障。在數據模板的定義中,一個業務記錄(Record)由多個區塊(Block)來構成[3]。Block是用于對數據對象進行組織以達到信息充分表述的信息容器,它將有關聯關系或者有特殊意義的一組信息以Block這種方式組織起來。每個Block可以代表著一組信息,比如歸檔信息、業務信息、技術環境信息等。節點(Node)是一種特殊的Block,用來描述業務環節。如果存在著業務流程并且需要對每個環節進行描述時,可以將每個環節形成一個Node。如果不存在業務流程(比如直接登記)則無需定義Node,只需將信息直接存儲于Block當中即可。
在Block和node中,除了系統默認定義的元數據,可以根據業務信息自定義不同的元數據。正是這種數據模板和單獨對Block、Node的元數據定義,使得EDAS能夠真正應對各種類型的業務系統數據。
目前,考慮到未來應對多數據源的歸檔效率和數據的利用分析,杭州市檔案局正在對EDAS做進一步的升級和改進,重點是改進底層的數據支撐框架和分析計算框架,以期EDAS能夠滿足未來對大數據的數據關聯、對比和組裝等諸多數據利用分析的需求,努力將其打造為一個新型的歸檔數據集成平臺。