■許濟滄
大數據云計算對電子文件的影響
■許濟滄
本文主要分析了大數據環境對電子文件前端控制、歸檔存儲和數據挖掘等方面產生的巨大影響,闡述了云計算在大數據環境解決電子文件集成和安全保存方面發揮的作用,并運用SWOT分析法,揭示了新技術在電子文件領域運用的利弊和產生的影響。
大數據云計算電子文件
大數據的定義十分多樣,總結國內外一些經典的理論,如維克托·邁爾-舍恩伯格及肯尼斯·庫克耶的“4V”理論,“大數據”(Big data)研究機構Gartner的信息資產論,從內涵上來說大數據是建立在對大規模、多樣且真實數據的實時處理基礎上的用以洞察、預測、決策的信息資源。從外延上來說,大數據包含了超過傳統工具和流程分析和處理能力的數據。這些大數據產生的行業分別來自于計算機軟硬件及計算機應用、檔案及博物館、醫藥衛生及健康領域、工業、企業經濟、教育理論與教育管理、圖書情報與數字圖書館。根據對“知網期刊數據庫”的檢索分析,采用檢索式:SU=(‘大數據'+‘云計算')*‘電子文件',這幾個領域與大數據相關的論文數量占所有比例的85%。
(一)對電子文件形成的影響
由于大數據的分析是建立在“樣本等于總體”的基礎上的,沒有海量的數據作為支撐是無法發掘電子文件、電子文檔、電子檔案的價值的。當今,圖、情、檔領域的數據主要來自于檔案、文檔數字化和電子文件的前端控制兩方面。面對強大的需求,數字化工作固然刻不容緩,但是更為重要和主要的還是注重強化電子文件工作的前端控制。要站在電子文件生命周期的宏觀層面上設計并完善管理系統,在文件的制作、傳遞、收集流程中加強電子文件的質量控制,從而保障電子文件的價值。如近年來,國家電網公司各項經營管理過程實現了數字化管理,將電子文件的元數據、背景信息、關聯信息和辦理信息等捕獲到電子文件管理系統,在電子文件管理系統中實現對電子文件的全程管理。
(二)對電子文件歸檔存儲的影響
1.在歸檔規范方面
在大數據環境下,電子文件的數量急劇膨脹,歸檔過程中鑒定工作遇到了極大的阻力,這使得電子文件的鑒定由逐份鑒定成為了對電子文件形成機構的鑒定與認證。對電子文件的分類與知識因子的提取也由原來的人工著錄元數據,變為大數據工具和軟件自動批處理。對于電子文件的編號也做出了相應的調整,但是目前還不是很標準和規范。張勇提出一種新檔號編碼方式:
編碼結構:全宗號——類型——歸檔年度——文件號
文件存儲結構:\全宗號類型歸檔年度文件號文檔流水號.文件類型|原始文件
當然,由于現如今存儲的高密度化,部分單位采取了取消卷宗編號的方式,而以GB為單位分類和整理非現行的電子文件。
總之,目前受大數據環境影響,電子文件歸檔過程中的規范發生了一些變化、創新,但仍需不斷完善。這項工作與電子文件的前端控制密不可分,在大數據環境下,只有企業、工程項目、科創系統形成電子文件的規范與以上種種變化相適應、相互調整,才能達到系統效應。
2.在存儲方式方面
大數據時代,數據不僅龐大,而且格式類型多樣,如北京市檔案館接收的原生電子文件格式就有20-30種,這給電子文件的存儲工作帶來了巨大影響,其中影響最大的就是數據庫結構的改變。大量的電子文件以非結構化的形式出現,傳統的關系型數據庫已經無法滿足存儲的需求。現在SQL數據庫已經針對電子文件領域推出了基于對象的存儲架構,使得大量的數據流、圖像、空間數據得到有效存儲。
3.對非現行電子文件挖掘的影響
大數據主要的理念是“通過分析現有的,找到相關性,從而預測未來的。”海量的電子文件如果石沉大海,不能為政府、企業、個人的決策提供參考的話,將失去存儲保留的價值。大數據時代改變了電子文件被動利用的局面。電子文件擁有者通過調查需求,建立數據模型,聚類、分類,相關性分析,提出決策方案等過程,將半現行和非現行電子文件的價值發掘出來,滿足各類使用者的利用需求。如北京市政府外事辦從2010年開始做信息化的頂層設計,將隱形知識轉化為顯性知識,較好預測了國際油價的走勢。
如果說大數據給電子文件帶來的影響更多是產生諸多亟待解決的問題,那么云計算更多是從技術層面提出如何解決這些問題的方法。云計算分為三種,硬件即服務、應用即服務、平臺即服務。云技術將海量電子文件以低廉的成本儲存在云端,整合網絡范圍內的資源向圖、情、檔工作者提供高效的辦公工具,如果用戶不滿意還可以采用租用云平臺的方式開發出與電子文件工作相適應的云軟件。
(一)解決的問題
1.方便電子文件的共享與集成
過去,常常是由檔案部門著手收集整理電子文件,工作量大,硬件投資成本高,也不易于電子文件的集成、開發利用。但是云存儲技術解決了這樣的問題,例如國家檔案局正在著手構建“中國檔案云”,將囊括國內50家以上的重要檔案館。在中心平臺進行集成,形成目錄數據和各數據訪問路徑。對于有困難的檔案館,可以先離線存儲,報目錄文件與中心平臺的其他目錄合成。
2.提升電子文件保存的安全性
云計算最大的特點就是可以進行自動備份。由于用戶資源不是存儲在本地或某一臺服務器上,而是經過高度虛擬化之后分布式存儲在云端。所以在云端始終保留了多個電子文件的副本。當發生自然災害或硬件損壞時能夠有效實現異地備份的功用,這極大地提高了電子文件建設的安全性。
(二)帶來的挑戰
這主要集中在了真實性、完整性和可靠性上。電子文件存儲在云端上難免會產生遷移,這在資源的整合時尤為突出。數據遷移時元數據產生的變化對文件的真實性產生巨大的影響。同時云計算環境中,電子文件以64MB被分塊處理,分布式存儲在不同服務器中,遷移過程中要保障數據的完整和一致。在云計算環境下私有云、公有云混合,文件的保密性大大降低,另外,云平臺也面臨著病毒的攻擊,文件的安全可靠需要保障。如何有效處理這樣的問題是云計算帶來的重大挑戰。
(三)SWOT分析
云環境對電子文件帶來的影響:
優勢:在于降低了基礎設施的投資運行成本,方便了電子文件的集成和利用;
劣勢:在于文件的控制權模糊,保障電子文件的真實、可靠還缺乏相關法規的約束;
機會:在于大數據為云計算的開發利用,提供了很好的契機,人類迫不及待想使用和開發沉淀的信息資源;
威脅:在于云計算依賴的網絡和服務器易于受到病毒的攻擊,存在著比較大的安全隱患。行業內的標準也有待整合、統一。
總之,云計算在大數據環境下產生,二者密不可分,與物聯網并稱當今信息世界的新興技術。兩者對電子文件的全過程產生了巨大的影響。這種變化雖然帶來了挑戰,但是筆者堅信,電子文件領域始終應該和信息技術的發展同呼吸、共命運。相信在新技術的引導下,電子文件領域會更加智能、更加規范。
[1]余洋.大數據時代背景下電子文件歸檔的重要性及歸檔措施研究[J].商場現代化,2014,33:129.
[2]殷志敏.云計算時代市政檔案管理概述[J].科教文匯(中旬刊),2015,03:191-192.
[3]劉曉光.電子文件歸檔光盤的選擇與保存[J].中國檔案,2009,12:52-53.
[4]石峻峰,樊澤恒,畢建新.云計算環境下高校電子文件一體化管理研究[J].圖書情報工作,2014,04:35-39.
[5]畢建新,鄭建明.云計算環境下電子文件一體化管理初探[J].檔案與建設,2014,04:15-18+33.
[6]本刊評論員.檔案大數據:機遇與挑戰并存[J].檔案時空,2014,06:1.
[7]積極適應主動引領開啟檔案管理大數據時代[J].山東檔案,2014,01:1.
[8]王玉龍.云計算環境下電子文件管理問題的思考[J].北京檔案,2012,02:21-23.
[9]孫靖靖,金丹,馮瑜.云計算模式下電子文件中心安全問題探討[J].蘭臺世界,2012,17:51-52.
[10]薛四新.云計算環境下電子文件管理的實現機理[J].檔案學通訊,2013,03:65-66.
作者單位:中國人民大學信息資源管理學院