劉文旭 范橋發 資兵飛
摘 要:2017年水利部印發了《關于推進水利大數據發展的指導意見》,旨在推進水利行業數據資源共享開放,促進水利大數據發展與創新應用。本文介紹了大數據和檔案的概念及其相互關系,在海委現有水利信息化基礎上可以搭建海委云計算平臺和海委檔案管理大數據平臺,建立海委檔案微應用和移動應用,以提升海委檔案管理的智能化水平和便捷高效的服務能力。
關鍵詞:云計算;大數據;檔案管理;應用
1 云計算、大數據與檔案
1.1云計算是分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡、熱備份冗余等傳統計算機和網絡技術發展融合的產物。私有云和公有云是其重要的兩種應用模式,私有云是單位自己使用的云,它所有的服務不是為了別人使用,而是供自己內部人員或分支機構使用。公有云是云運營商提供給用戶能夠使用的云,一般通過 Internet付費使用。海委檔案管理適合建立在海委私有云上。
1.2大數據。大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據具有大量、高速、多樣、低價值密度、真實性等五大特點。海委檔案數據具備這五大特點。
1.3檔案。海委檔案主要包括文書檔案、科技檔案、會計檔案、涉密檔案、機要檔案、音像檔案、實物檔案、電子檔案、地圖等多種類型,已實現檔案資源數字化,可為搭建新一代海委智慧檔案系統提供基礎數據資源。云計算能為海委檔案管理提供基礎計算和存儲資源,加強基礎設施的擴展和服務能力;大數據能為海委檔案管理提供檔案分析、挖掘能力,整體提升檔案的業務服務水平。總之,檔案管理負責生產數據,云計算負責數據存儲和計算,大數據負責數據分析和提供服務。
2 搭建海委云計算平臺
經過多年信息化建設,海委已建設包括電子政務系統、防汛抗旱指揮系統、水資源監控能力系統、水文監測系統、水土保持系統等政務及業務系統,各系統統一部署在信息中心機房,基于項目配置的軟硬件環境獨立運行,部分系統運行在虛擬機上。硬件計算和存儲資源分散管理利用,在當前軟硬件技術架構上無法共享及統一管理分配,需要利用云技術統一管理各項目的軟硬件資源。
2.1梳理已建軟硬件資源列表。搭建云平臺不是為了追逐技術,而是為了怎么為應用服務。應該認真梳理已建的應用有哪些,涉及哪些服務器、哪些軟件,以及相關軟硬件的型號、版本,為逐步向云平臺遷移做好準備。
2.2規劃云平臺核心應用功能。根據海委軟硬件資源的現狀,充分利用已有資源,實現異構資源和存量資源混合環境的按需分配、統一管理、統一調度和資源的合理規劃。分層次按資源池/域/集群/節點對異構計算環境進行統一管理,構建海委云平臺。云平臺通過服務化的方式形成統一的基礎資源服務目錄,通過用戶自助門戶,實現基礎資源的快速申請、審批和使用,支撐政務、業務對軟硬件資源的需要。
2.3定制檔案管理的個性服務。海委檔案電子原文信息幾乎涉及所有電子文件類型,主要包括文本文件、數據文件、圖像文件、聲像文件、影像文件、多媒體文件、圖形文件、超文本文件等。為了方便借閱用戶使用檔案文件,云平臺應結合用戶借閱權限自動提供文件使用虛擬化終端,借閱期滿虛擬終端自動回收。
3 建設檔案管理大數據平臺
應用云平臺、大數據技術按照實際內容應用流程實現,即建立數據的采集、智能處理、數據挖掘與智能搜索應用平臺。
3.1檔案數據采集。檔案數據采集離不開檔案鑒定,通過業務專家、檔案專業人員、大數據技術專家的檔案鑒定工作,形成檔案大數據采集的基礎標準和規范。在新的采集體系中,可以擴大檔案數據的采集范圍,除了歸檔之前認定的檔案文件外,還應將相關的文件及在線運行的歷史數據進行自動的采集歸檔,為大數據應用分析、挖掘提供更豐富的數據支撐。
3.2檔案數據處理。根據檔案數據采集的內容及數據間的關聯關系,檔案數據處理環節應充分利用大數據平臺提供的元數據管理和數據標簽能力,保留、定義、提取數據邏輯關系。例如,自動定義單頁掃描文件與自動識別后的文本文件的關系,智能提取自動識別后的文本文件的關鍵字等。
3.3檔案數據分析。從海量的大數據庫中找到用戶可能最關心的檔案,是大數據平臺的重要任務,通過分類、回歸分析、聚類、關聯規則、神經網絡方法、決策樹等算法,能夠根據用戶的需要從不同的角度對檔案數據進行挖掘、分類、提取、排名,快速定位相關檔案。例如,用戶根據當前工作的需要輸入一段文字,查找相關檔案,大數據平臺將自動進行關鍵字提取,利用關鍵字快速檢索相關檔案,對搜集到的檔案進行聚類分析,利用聚類結果對不同的檔案賦以不同的類標記,然后利用分類功能組織檔案。
4 建立檔案微應用、移動應用
4.1檔案微應用。傳統檔案系統的建設模式是通過設計、開發、測試、部署、試運行等階段之后投入系統運行,用戶才能正常使用,這種建設模式不僅投入大而且建設周期較長。架構在云平臺、大數據技術基礎上的檔案應用開發模式是將核心、復雜的檔案業務模塊以組件形式封裝到平臺中,檔案系統開發者可在平臺的基礎上自定義、組裝業務流程,開發出更多碎片化、個性化的微應用。微應用比傳統的應用量級輕,搭建起來簡潔、靈活,同時對其進行改造的時候也更為便捷。每一個微應用之間都是松耦合的,開發者可以根據用戶的需求去開發各種微應用,更直接地面向用戶提供服務,檔案系統的復雜度也會大幅降低,靈活度大幅提高。
4.2檔案移動應用。當前,隨時隨地可能對檔案都會有需求,傳統基于PC機的應用模式已無法滿足用戶的需求,需要開發基于智能移動終端的檔案應用,結合微應用的建設方式根據用戶的需求不斷推出新的應用功能,充分發揮檔案數據的業務支撐、決策支撐等作用。
參考文獻
[1]劉偉.提升水利工程檔案管理水平的有效路徑研究[J].現代國企研究.2018(20)
[2]張琪梅.水利工程檔案管理信息化建設思考[J].辦公室業務.2018(06)
[3]劉燦欽.水利工程檔案管理工作探討[J].居舍.2018(04)