陳南
摘 要:大數據時代的到來,沖擊著整個社會,改變著人們的工作與思維方式,也給檔案信息化建設理念與技術帶來了機遇與挑戰。我們應主動運用大數據的理念,將大數據技術與水利檔案工作深度融合,使檔案工作適應大數據時代發展趨勢,更好更快發展。本文從大數據的特性及運用出發,分析了大數據背景下將大數據技術引入檔案管理工作的必要性。
關鍵詞:大數據;檔案;檔案管理
大數據時代,檔案信息資源的數據量呈現出幾何級數的增長趨勢,資源用戶也對信息的需求表現出“井噴式”擴展的態勢,為檔案工作帶來了前所未有的機遇與挑戰。即便是云計算、云儲存、移動互聯網等新型信息技術,也難以滿足檔案管理工作的需要和檔案信息資源用戶對檔案的利用需求。在這種情況下,檔案管理技術革新勢在必行。大數據是繼云計算、物聯網之后的社會信息化的又一次顛覆性的技術變革,它通過海量、動態數據的有效集成,推動信息管理科學化和精細化,有效提升信息利用精準度和實效性。
1 大數據及其特點
隨著計算機科學和互聯網技術的快速發展,我們已經進入了一個大數據時代。大數據有以下四個特征:
一是數據量巨大(Volume)。我國館藏檔案的總量已經達到4億卷。館藏數字檔案的數量已經從TB級別躍升到PB級別, 甚至會達到ZB級別。預計到2020年,我國各級綜合檔案館紙質檔案數字化的數量要比2010年翻兩倍。國家和各省的綜合檔案館開展了百萬館藏檔案數字化工程,電子檔案的移交和接收也要開始實施。
二是數據類型繁多(Variety)。大數據的數據來源多,因此得到的數據呈現分布和異構的特點,不僅包含文本、圖像、視頻等,還有網絡日志、地理位置信息、用戶行為信息等。這些不同形式的數據包括結構化數據、非結構化數據及半結構化數據,這些數據的構成非常龐大,構成類型多樣,處理和分析方式各不相同。
三是處理速度快(Velocity)。檔案工作實際上就是提供利用資源,大數據形勢下的檔案管理工作最重要的就是時效性和便捷性要求,而大數據就具有較強的時效性,在大數據技術能夠實現網絡信息智能化和個性化以及精品化的基礎上,依托互聯網的新技術,采用實時分析和分布式處理模式,全方位實現檔案信息的檢索功能、決策功能以及推送功能,從各種類型的數據中快速獲得高價值的信息,這一點和傳統的數據挖掘技術有著本質的不同。
四是價值性高(Value)。檔案的技術實現必須依賴檔案作為載體,大量的檔案數據在運用過程中,數據價值的密度較低,數據的價值卻很高,大數據的數據相關度不高,數據量龐大且蘊含巨大價值,但是單個數據的價值很難體現,檔案信息資源能夠提供資政查考,服務社會等不可替代的作用,在大數據的形勢下,只有使用海量數據處理工具,合理利用數據并對其進行正確、準確的深度分析,才可以對趨勢和結果進行預測,實現其較高的利用價值。
2 大數據應用到檔案管理中的必要性
隨著社會的發展、技術的進步,無論是檔案本身還是檔案管理工作都在發生著深刻的變化:檔案理論含義不斷擴展,檔案管理技術不斷創新,檔案業務環節、載體等都在不斷豐富。同時,社會對于信息資源的需求呈現出幾何級數的增長趨勢。這就要求我們適應新形勢,利用新技術去開展檔案管理,因此在檔案管理中引入大數據技術是非常有必要的。
1、社會管理的需要
目前,由國家統一規劃和施行的智慧城市建設已經正式起步,檔案館需要借助大數據技術融入智慧城市。智慧城市建設理念為“多用信息少用資源、多用信息少受災害、多用信息多利民眾”,需要海量的信息作為資源,檔案館作為重要的社會文化機構之一,存儲有海量信息,恰恰可以提供這種需要。但是目前檔案的數字化率還有待于進一步提高,為了跟上智慧城市建設的步伐,有必要改變傳統的管理方式,使社會信息資源得到更好的開發利用,而大數據處理技術則是不二選擇。
從另一方面來看,智慧城市建設可以將大量的檔案信息融入到智慧城市的建設中,盤活檔案館中信息資源,加大信息管理、開發,便于政府決策和公民的利用。而想要盤活檔案館的海量信息,就必須借助于大數據技術,為政府借助檔案館加強和創新社會管理奠定堅實的基礎。
2、文件處理的需要
大數據時代,數字化資源、電子文件以幾何速度增長,這給檔案文件鑒定、處理、存儲、備份帶來了新的挑戰。首先,利用大數據技術做好電子文件的宏觀鑒定,從整體上形成能直接判斷文件價值的方法和能力,為電子文件的進一步利用打好基礎。其次,加大數據技術在非結構化電子文件處理中的應用,大數據包括結構化數據、半結構化數據和非結構化數據,其中非結構化數據的增長比例一直呈上升趨勢,鑒于此,利用相關數字技術對顯性、隱性網絡化數據進行處理,理清數據之間的內在關聯,拓展系統規模和性能,成為空間數據、圖像、數據流等非結構化數據處理的關鍵,也是檔案工作中非結構化電子文件管理的新方法。最后,利用大數據技術做好檔案數據的存儲與備份。檔案數據庫的建立和使用,提高了檔案管理利用效率,但是,數據庫脹庫現象日益嚴重。到2020年,各級國家檔案館館藏案卷將達6 億多卷。有限的庫房容量致使新出現的檔案無法存儲到庫房中去,這就促使我們借助大數據技術優化數據庫存儲,提高數據存儲效率,節約數據存儲空間。但就目前來說,檔案數據存儲與備份技術尚未大規模使用。這就要求檔案館在加快數據技術開發的同時,盡快建立跨系統、跨平臺、跨數據結構的數據系統,提高檔案利用效率。
3、檔案存儲方式轉變的需要
隨著檔案信息化管理方式的產生,檔案從以傳統的紙質載體為主,轉變為以電子文檔、圖片、音視頻等載體為主,電子檔案的數量越來越多,檔案管理人員需要對這些數據信息進行存儲與備份,但海量的信息資源僅僅采取目前所采取的云存儲、虛擬存儲、網格存儲等方式是不夠的,而要采取新的存儲方式。如今大數據技術得到了廣泛應用,檔案管理部門能夠建立大數據平臺,對檔案信息進行數據存儲,在降低存儲空間的基礎上有效提升存儲質量,并通過智能技術對數據進行收集整理和分配,通過數據平臺高效處理大量的信息數據,利用分析用戶有關行為數據,不斷優化檔案信息的內部存儲,提高電子檔案的使用效率。
4、檔案服務職能轉變的需要
大數據時代,檔案管理從實體管理轉變為知識管理,檔案用戶已經不僅僅滿足于檔案展覽、查詢等傳統服務方式,也不僅僅滿足于數據和文件的利用,他們的需求變得更加個性化和多樣化,希望獲得更多數據隱藏的信息和知識,而數據背后知識的獲得就需要通過大數據技術來實現。
此外,檔案的功能和作用發生了變化,從以前的純粹重保管轉變為通過先進技術手段分析現、發現和提取有效信息,創造價值。檔案服務也將以服務對象個性化的需求為導向,提供網絡化、智慧化的服務,這些都需要大數據技術作為支撐,為用戶提供有針對性的服務。
大數據技術可以把隱藏在海量數據中的知識揭示、展現出來,把傳統低效的信息服務創新為高效的知識服務,還能對用戶的行為習慣和喜好進行數據挖掘和量化分析,獲得潛在價值,構建檔案館知識服務體系,提供個性化的檔案信息資源收集、推送服務,實現真正的個性化服務。
參考文獻
[1]徐呈平.大數據時代的檔案管理[J].中國管理信息化,2017,20(14):147-148.
[2]房潔.大數據背景下檔案工作信息化建設的思考[J].辦公室業務,2017,(11):47-48.
[3]蔡利劍.大數據背景下的檔案管理問題研究[J].西北工業大學學報(社會科學版),2016,36(01):104-107.
[4]劉泓,劉冰欣.大數據時代背景下的檔案管理探討[J].信息化建設,2016,(05):277.
[5]李小晨.大數據時代背景下的檔案管理探討[J].云南檔案,2013,(06):48-50.endprint