王津琳
(海河水利委員會水利信息網絡中心,天津300170)
云計算、大數據在水利檔案管理系統建設中應用的構想
王津琳
(海河水利委員會水利信息網絡中心,天津300170)
簡要介紹了云計算、大數據和檔案的概念及其相互關系,認為在海委現有水利信息化基礎上可以搭建海委云計算平臺和海委檔案管理大數據平臺,建立海委檔案微應用和移動應用,以提升海委檔案管理的智能化水平和便捷高效的服務能力。
云計算;大數據;檔案管理;系統應用
隨著海河水利委員會(以下簡稱海委)水利信息化建設的加快和推廣,海委檔案管理工作經過不斷地探索研究,基于水利電子政務網,已將成熟的軟硬件技術應用到檔案管理體系中,進一步提升了檔案的收集、管理、開發和利用能力和水平。這是檔案管理的終點嗎?筆者認為,肯定不是。“十三五”以來,根據國家實施大數據戰略的提出和國務院印發的《促進大數據發展行動綱要》,水利部編制印發了《關于推進水利大數據發展的指導意見》,旨在水利行業推進數據資源開放共享,促進水利大數據發展與創新應用。
云計算(Cloud Computing)是分布式計算(Dis?tributed Computing)、并行計算(Parallel Computing)、效用計算(Utility Computing)、網絡存儲(Network Storage Technologies)、虛擬化(Virtualization)、負載均衡(Load Balance)、熱備份冗余(High Available)等傳統計算機和網絡技術發展融合的產物。私有云和公有云是其重要的兩種應用模式,私有云是單位自己使用的云,它所有的服務不是為了別人使用,而是供自己內部人員或分支機構使用。公有云是云運營商提供給用戶能夠使用的云,一般通過Internet付費使用。海委檔案管理適合建立在海委私有云上。
大數據(Big Data)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據是指不用隨機分析法(抽樣調查)這樣捷徑而采用所有數據進行分析處理。它具有5V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veraci?ty(真實性)。海委檔案數據具備5V特點。
海委檔案主要包括文書檔案、科技檔案、會計檔案、音像檔案、機要檔案等多種類型檔案,已實現檔案資源的數字化,可為搭建新一代海委智慧檔案系統提供基礎數據資源。云計算為海委檔案管理提供基礎計算和存儲資源,可以強化基礎設施的擴展和服務能力;大數據為海委檔案管理提供檔案分析、挖掘能力,可以整體提升檔案管理的服務水平。總體上說,檔案管理負責生產數據,云計算負責數據存儲和計算,大數據負責數據分析和提供服務。
經過多年信息化建設,海委建成包括電子政務系統、防汛抗旱指揮系統、水資源監控能力系統、水文監測系統、水土保持系統等政務及業務系統,各系統統一部置在信息中心機房,基于項目配置的軟硬件環境獨立運行,部分系統運行在虛擬機上。硬件計算和存儲資源的分散管理利用,在當前軟硬件技術架構上無法共享及統一管理分配,需要利用云技術統一管理各項目的軟硬件資源。
搭建云平臺不是為了追逐技術,而是為了應用服務。為此,首先需要梳理已建的應用系統有哪些,涉及哪些服務器、哪些軟件,以及相關軟硬件的型號、版本,為逐步向云平臺遷移做好準備。
根據海委軟硬件資源的現狀,充分利用已有資源,實現異構資源和存量資源混合環境的按需分配、統一管理、統一調度和資源的合理規劃。分層次按資源池/域/集群/節點對異構計算環境進行統一管理,構筑海委云平臺。云平臺通過服務化的方式形成統一的基礎資源服務目錄,通過用戶自助門戶,實現基礎資源的快速申請、審批和使用流程,更好地支撐政務、業務對軟硬件資源的需要。
海委檔案電子原文信息幾乎涉及到所有電子文件類型,主要包括文本文件、影像文件、多媒體文件、圖形文件等。為了方便借閱用戶使用檔案文件,云平臺應結合用戶借閱權限自動提供文件使用虛擬化終端,借閱期滿虛擬終端自動回收。
目前,海委的檔案數據基本存儲在關系型數據庫中,客戶端功能以查詢、檢索為主,由于數據量、服務器處理能力等原因的影響,在此軟硬件架構上很難對功能、性能進行大提升。因此,需要應用云平臺、大數據技術,通過多類型數據采集平臺進行數據采集,在智能數據處理平臺上對這些非結構化信息、多媒體信息和用戶信息進行分析,最后在應用平臺上提供數據挖掘結果的搜索功能和多媒體自動編研功能。
檔案數據采集離不開檔案鑒定。通過業務專家、檔案專業人員、大數據技術專家的檔案鑒定工作,形成檔案大數據采集的基礎標準和規范。在新的采集體系中,可以擴大檔案數據的采集范圍,除了歸檔之前已被認為的檔案文件外,還應將相關的文件及在線運行的歷史數據進行自動的采集歸檔,為大數據應用分析、挖掘提供更豐富的數據支撐。
根據檔案數據采集的內容及數據間的關聯關系,檔案數據處理環節應充分利用大數據平臺提供的元數據管理和數據標簽能力,保留、定義、提取數據邏輯關系。如,自動定義單頁掃描文件與自動識別后的文本文件的關系,智能提取自動識別后的文本文件的關鍵字等。
從海量的大數據庫中找到用戶可能最關心的檔案,是大數據平臺的重要任務,通過分類、回歸分析、聚類、關聯規則、神經網絡方法、決策樹等算法,能夠根據用戶的需要從不同的角度對檔案數據進行挖掘、分類、提取、排名,快速定位相關檔案。如,用戶根據當前工作的需要輸入一段文字,查找相關檔案,大數據平臺將自動進行關鍵字提取,利用關鍵字快速檢索相關檔案,對搜集到的檔案進行聚類分析,利用聚類結果對不同的檔案賦以不同的類標記,然后利用分類功能組織檔案。
傳統檔案系統的建設模式是通過設計、開發、測試、部署、試運行等階段之后投入系統運行,用戶才能正常使用,這種建設模式不僅投入大而且建設周期較長。架構在云平臺、大數據技術基礎上的檔案應用開發模式是將核心、復雜的檔案業務模塊以組件形式封裝到平臺中,檔案系統開發者可在平臺的基礎上自定義、組裝業務流程,開發出更多碎片化、個性化的微應用。微應用比傳統的應用更輕量級、搭建起來更簡潔、更靈活,同時對其進行改造提升也更為便捷。每一個微應用之間都是松耦合的,開發者可以根據用戶的需求去開發各種微應用,更直接地面向用戶提供服務,檔案系統的復雜度也會因此而大幅降低,靈活度大幅增加。
當前,對檔案的需求已經是隨時隨地,傳統基于PC機的應用模式已無法滿足用戶的需求,需要開發基于智能移動終端的檔案應用。為此,可以結合微應用的建設方式,根據用戶的需求不斷推出新的應用功能,充分發揮檔案數據的業務支撐、決策支撐作用。
[1]陳康明.云計算在檔案管理中的應用[J].云南檔案,2016(5):27-29.
[2]徐擁軍,牛力.企業檔案管理的十大發展趨勢[J].中國檔案,2014(5):31-33.
[3]祝潔.我國云計算環境下檔案管理研究綜述[J].檔案管理,2016(5):15-17.
[4]張鳳武.基于云計算的檔案管理服務創新[J].檔案與建設,2016(8):28-29.
[5]祝慶軒,桑毓域,方昀.基于云計算的檔案信息資源共享模式研究[J].蘭臺世界,2011(7):8-9.
TP399;G271
A
1004-7328(2017)06-0055-02
2017—10—15
王津琳(1963—),男,高級工程師,主要從事水利信息化建設和管理工作。
10.3969/j.issn.1004-7328.2017.06.016