◎劉文婧 韓建業
隨著時代的發展,數據的采集、處理、存儲和應用都發生著深刻而巨大的變革,給政府統計帶來了極大挑戰。國家統計局《“十三五”時期統計改革發展規劃綱要》就打造適用可靠的數據存儲管理平臺作出規劃,在繼續建設和完善國家統計數據資源體系的基礎上,加快建設統計數據歸檔管理系統。國家統計局《關于進一步推進新形勢下國家調查隊改革和創新發展的意見》進一步強調,要加強國家調查隊數據資源管理和共享能力,建立面向基礎調查數據管理的工作制度及電子文件柜系統,推進各項調查數據資源統一存儲與共享。
湖北調查隊系統按照“統籌考慮、統一規劃、分期建設、分步實施”的構想,以國家統計數據庫系統為基礎,按照體系科學、功能健全、流程合理的系統建設規劃和原則,開展電子數據歸檔管理系統建設。
系統包括綜合數據文件柜系統、元數據庫子系統及系統管理子系統三個主要部分。綜合數據文件柜系統是用于連接統計數據處理系統和統計數據庫體系的數據管理和整理的子系統,可以規劃統計數據結構及安全域劃分,并用于基礎數據、成品數據的歸檔管理,提供接收、下載、導出、整理維護以及加載更新等功能。元數據庫子系統是系統的重要組成部分,包含統計報表、調查制度等統計元數據的維護管理。元數據管理是其他子系統的工作基礎,其他子系統都依賴于該系統。系統管理子系統主要是實現用戶權限和相關的運維功能,包括用戶管理、機構管理、權限管理、密碼修改及日志管理等。
按照文件的方式(非結構化)進行歸檔管理、集中存儲,實現分類別、分時段歷史數據的可查詢、可追溯、可復原和可使用,從根本上解決統計調查數據的存儲、共享、開發等問題。一是建立統計數據共享機制。對文件資料進行統一共享設置,各業務部門人員通過不同的數據權限可在線預覽和下載查看其他部門共享的數據,達到系統內文件共享的目的。二是建立任務跟蹤機制。形成定期的歸檔制度,通過查詢文件柜系統中的歸檔情況,可跟蹤各業務部門上傳文件的具體情況,包括待上傳、已上傳、未上傳和遲上傳,從而解決數據遲報、缺報的問題,實現精細化管理。三是建立元數據管理機制。基于ISO-11179、CSpro標準建立的元數據以及指標化數據管理體系,將數據資料進行電子化、標準化處理,實現數據查詢的精準化。
總體架構包括:IT基礎設施層、數據層、應用支撐層、應用層、界面層、支撐體系、運維體系、標準規范體系以及安全保障體系(見圖1)。其中數據層的數據資源系統統一保存總隊各業務系統數據,包括各種統計業務所需要的數據庫及其所保存的數據資源及管理配置。功能架構也就是文件柜系統由首頁、文件柜、元數據管理和系統管理四個子系統組成(見圖2)。部署架構則為運行湖北調查系統內網,用戶通過內網訪問文件柜系統。應用服務器中安裝操作系統和應用中間件,文件柜系統的應用程序部署在應用服務器中;數據庫服務器中安裝操作系統和數據庫中間件,文件柜系統的數據庫部署在數據庫服務器中。應用服務器和數據庫服務器通過光纖交換機連接磁盤陣列和磁帶庫,文件柜系統的物理文件存貯在磁盤陣列中,備份文件也存儲在磁盤陣列中。
一是數據標準化內容。除了指標、數據元、數據庫結構等數據本身的標準化外,還有交換數據的標準、元數據標準等內容。二是數據采集處理模式。采用分散采集、集中處理、集中交換、集中管理、全局應用的建設模式,把來自各個業務處室、不同來源、不同存儲方式、不同格式和不同質量的業務源數據,根據數據特點及時采集到統計數據庫后,對數據文件進行解析,并以指標化的形式存儲到工作庫數據庫中。對外交換數據統一由統計數據庫進行存儲管理,由統計數據庫交換服務系統統一進行交換策略管理和交換方式管理,使數據交換服務規范化標準化。三是數據模型設計可擴展性。隨著統計調查事業不斷發展和數據庫系統應用不斷深入,必然要產生新的指標和新的數據。系統數據模型的設計力保適應新形勢新變化,盡可能少修改甚至不修改各類數據表結構。四是數據資源支持類型。將數據資源分為業務數據、元數據兩類。業務數據從功能上分為定報數據、普查數據和一次性調查數據。從數據內容形式上可以分為關系型的基礎業務數據、統計指標數據、非結構化的文檔多媒體數據等。元數據可按用途分為技術元數據、業務元數據和操作元數據。

圖1 電子數據歸檔管理系統總體框架

圖2 電子數據歸檔管理系統功能架構
在國家統計局數據管理中心的關心支持下,湖北調查總隊按照先行試點、從易到難、逐步推進的工作思路,全力推進該系統建設試點工作。于2017年2月完成了系統環境搭建,積極開展消費價格調查處相關價格調查資料加載試點工作,同時整理相關加載資料目錄清單和用戶操作手冊,3月對歷史數據歸檔工作進行部署,對系統整體功能、操作與管理流程進行了培訓,正式啟動了系統全面試點工作。4月再次組織各專業處室對需要加載的調查專業及報表進行再梳理確認,并按照規范的目錄要求對收集的資料進行了編輯和整理,包括2006年以來除涉密電子數據資料以外的各類進度調查、各類普查、專項(委托)調查等原始和匯總數據及相關制度和說明、各種以電子方式存儲的統計產品(出版物、文件等),含電子版文檔、電子版統計調查數據和其他類需要歸檔管理的磁介質、媒體和音像類數據等。5月再次集中梳理試點中發現的新問題,對系統功能進一步完善,按照可讀取、可識別(數據與調查制度相匹配)、可使用(可在目前計算機處理環境下使用)原則,逐個處室按目錄完成數據加載驗收。目前,近七年包括住戶收支調查、住戶專項調查、消費價格調查、生產資料價格調查、農業調查以及畜牧業調查在內的9個專業、118個制度、140個標準表,2000多個數據文件已全部完成數據加載,各項后續工作正在有序推進。同時,還出臺了《湖北調查總隊統計調查數據資料存儲管理辦法》,為歷史數據的保管、開發和利用提供了制度保障。
電子數據歸檔管理系統建設是一項全新工作,沒有太多經驗可供借鑒,且涉及較長歷史跨度和多個處室,使得對數據進行加工、整理、錄入和審校工作量大,從湖北調查隊系統的實踐探索中可以看出,由于人員力量等客觀條件限制,實現整體數據加載一步到位,客觀上存在困難。從理論上說歸檔的歷史數據越多越系統,其發揮的作用就越大,但在實際操作中,有的由于年代久遠,技術原因導致數據無法解讀;有的因人員變動或保管不善導致數據丟失,損失無法彌補;有的則是加工整理難度大。因此,搶救歷史數據迫在眉睫。
從目前來看,系統建設前期開發主要依靠政府購買服務,而后期管理維護和開發利用將是一個動態的、長期的工作。從長遠來看,電子數據歸檔管理系統將實現規范保存、集中管理、開放共享的建設目標,有利于政府統計調查數據實現安全存儲、高效應用。

■ 看花紫陌 原永紅/攝
電子數據歸檔管理系統是一個統一資料管理平臺,其優點是將數據從各應用系統平臺中分離出來,擺脫數據對處理軟件的依賴,減輕數據處理軟件的壓力,使數據徹底獨立,最大限度保留調查信息和調查表信息,提高數據的再利用,為數據交換平臺建設打下良好基礎。
基于集中統一的數據存儲管理,將數據從各匯總上報系統中分離出來,擺脫數據對處理軟件的束縛,徹底釋放數據的獨立性、共享性,拓展數據的規模和應用。同時通過權限管理,各業務部門用戶可相互開通共享數據的互訪權限,在系統中直接進行數據的訪問利用,實現了數據資源的高效流通。
系統支持集群+分布式模式部署,規避單點故障,易于橫向擴展;前后臺分離,并支持傳輸3DES等加密方式加密后的交易數據;文件分布式存儲,文件自動在多個數據存儲區域備份;文件加密存儲,物理文件只能通過文件柜系統等經過授權的方式獲取;非結構化存儲各報告期數據,適應數據結構隨時間而變化。