經驗人:方 瓊
應對大數據的智慧檔案
經驗人:方 瓊
隨著大數據時代的來臨,檔案信息量激增,亟需通過互聯形成物聯網,運用超級計算機和云計算等技術,對海量的數據和信息進行分析與處理,實施智能化的控制,并在智慧城市建設中提供相應的公共服務,從而使檔案管理達到高效、動態、安全的智慧狀態。
隨著科技的不斷進步,全球數據信息量呈現爆炸式增長,據統計,2011年被創建和復制的數據總量為1.82ZB,預測到2020年該值將增加到35.2ZB,人們將這種海量數據稱之為“大數據”,為應對海量數據和信息的分析與處理,必然將要求實現智能化控制,數字地球已經發展到第二代“智慧地球”階段。檔案信息資源亟需通過互聯形成物聯網,以超級計算機和云計算等技術,運用各種數據挖掘方法,在智慧城市建設中提供相應的公共服務,從而使檔案管理達到實時、動態的智慧狀態,為檔案工作提供高效、安全的智力支持。
物聯網是通過RFID、紅外感應器、全球定位系統等信息傳感設備,按約定的協議,把物品與互聯網連接,以實現對物品的智能化識別、定位、監控、管理的一種網絡。檔案管理物聯網作為一個龐大、復雜的綜合信息系統,涉及的技術較多,主要由感知層(RFID、傳感器等)、網絡層(WSN、近距離通信、無線網絡等)、應用層(終端服務等)等核心技術構成。
感知層的信息傳感設備不僅包括上行的傳感器,還應包括下行的執行器,物品的識別信息不僅有感知信息還有控制信息,感知層的識別技術解決了物聯網中在多種不同傳感器控制設備間的采集感知信息和接收控制信息,實現了物品感知信息和控制信息的統一識別。將RFID電子標簽粘貼在檔案資料上,在統計、查閱、檢索、盤存等業務中均可與電子標簽進行關聯,進行無接觸式自動感知、探測、定位,實現不拆盒的、自動的、快速而準確的無損操作,未來還可借助機械手進行自動提取資料。通過電子傳感器可以實現對檔案館庫房不同區域的溫度、濕度、煙霧等全分散系監測與控制,較之傳統的報警系統,這種分布式物聯網技術對館庫區的監控更準確、高效。
在感知層識別各種感知和控制信息后,網絡層可以將其中的信息通過通用的數據傳輸協議進行雙向傳遞、路由和控制,該層可在現有的互聯網和通信網基礎上建立,主要包括各種有線和無線網關、接入網以及核心網。網關在邏輯上距離感知層較近,可按檔案職能部門進行劃分,網關匯聚的數據經過初步處理后,通過統一的接口上傳到各職能部門的云存儲中,以便進一步進行數據融合和處理。由于匯聚后的數據量較大,同時為了確保數據的安全性,可采用高速安全的VPN虛擬專用網技術來實現數據的傳輸。
應用層通過對網絡層獲取來的各類檔案數據參數進行加工處理、統計分析、查詢檢索,借助IPv6、高性能云計算、海量存儲等各種軟、硬件技術實現,同時開發檔案應用組件,以滿足不同用戶的需求。
“云計算”主要采用Web服務、P2P點對點傳輸、MPI消息傳遞編程接口等技術實現,具有計算與存儲能力高、維護費低,擴展彈性強等優點。云計算以“一切皆服務”為理念,在檔案領域搭建云計算平臺,提供松散耦合的、不同粒度的、甚至是適應多粒度和變粒度的服務,將分布在不同服務器上的“檔案云滴”匯聚成“檔案云團”,從而滿足用戶不同層次、不同角度的需求。
以SOA為基本框架搭建虛擬化的檔案云計算平臺,給出服務管理、搜索調用機制;采用SOA基于面向服務的體系結構,對多元、異構的檔案數據集成與共享;采用計算服務對已有算法進行封裝,實現計算組件共享;對海量、異構檔案數據的訪問通過不同粒度的數據服務和計算服務來實現,并將這些服務發布;采用Silverlight、Flex實現基于RIA技術的客戶端方法;基于SOAP協議、REST接口技術,將有效提升數據集成與共享服務終端的用戶體驗與應用效果。
云存儲可以我國現有的國家級、省市級綜合檔案館為基礎,以特定網絡范圍內的檔案目錄或全文數據庫為依托,通過技術手段把不同來源、不同數據標準、不同通信協議的信息體系完全融合,實現全國各級檔案數據集中整合、無縫銜接,有效解決信息孤島問題。采用TB級存儲設備,未來將提升至PB級、EB或ZB級,搭建檔案云存儲平臺,并可擴展作為節點分布式存儲。檔案的云存儲可以分為公有云存儲和私有云存儲:公有云存儲構建在Internet上,將可公開的檔案信息發布在外網支持的SOA服務器上,向公眾發布資源調用的API;而私有云構建于Intranet內,采用虛擬化軟件將后臺的若干存儲、內存、CPU等進行劃分,裝載不同的操作系統,應用程序級、桌面級的虛擬應用,使用戶可以像使用本地設備一樣使用遠端的操作系統、應用程序等。
智慧城市是把新一代信息技術充分運用于城市各行各業中的、基于知識社會的下一代創新(創新2.0)的城市信息化高級形態。智慧檔案就是把為用戶提供各種服務作為核心目標,采用一站式門戶技術與設計理念,通過物聯網基礎設施、云計算基礎設施、地理空間設施及社交網絡、綜合集成、網動全媒體融合通信終端,實現全面透徹的感知、寬帶泛在的互聯、智能融合的應用,以檔案云平臺中資源的消費搭建服務平臺,將檔案服務系統融入智慧城市的整體架構中。
建構智慧檔案服務平臺,可從以下兩方面入手:首先,建立檔案智能化服務體系。搭建檔案信息數據庫系統,依托物聯網的識別和定位技術,開展用戶自我檢索、查詢、交付功能,實現一站式的服務,從內容性、時間性、相關性等多個維度構建全方位、立體式的服務模式。服務內容性是指內容的多樣化,不僅有單一的文字服務,還包括圖片、音頻、視頻在內的全媒體服務體系;時間性是指檔案信息按時間排序,使用戶對其發展架構有一目了然的認識和了解;相關性是指當用戶查詢某一主題的檔案時,系統會自動關聯與該主題相關的所有信息,以供用戶參考和選擇。其次,建立檔案個性化服務體系。以物聯網技術為基礎,從用戶的背景、習慣和綜合素質等方面對其檔案需求偏好進行分析和總結,通過手機或電腦等網絡終端向用戶提供潛在需要的或感興趣的檔案資料,為其提供定單式和推送式的APP應用,客戶端對服務調用返回的結果進行處理與格式化,并將結果以文檔、圖片、影像等多種形式進行顯示,最終,客戶感覺如同使用搜索引擎似的方便地使用應用程序。
科學技術是一把雙刃劍,大數據所引發的問題與其帶來的價值同樣引人注目,特別是數據安全與隱私保護問題日益突顯。針對安全性的威脅之一是偽造或刻意制造的數據,之二是數據在傳播過程中的逐步失真;針對隱私性的攻擊可分為外部攻擊和內部攻擊兩種模式,外部攻擊主要指攻擊者通過鏈路層竊取敏感數據,內部攻擊主要指攻擊者偽裝成網絡的參與者以俘獲所有數據。針對上述大數據面臨的數據內容可信驗證、用戶隱私保護、訪問控制等問題,急需開展大數據安全等關鍵技術研究,如可應用數據水印技術、數據溯源技術、數據發布匿名保護技術、角色挖掘技術等,更主動地發現潛在的安全隱患,做好風險評估,從而規范大數據建設,完善大數據資產管理,建立從物理防護、網絡防護、平臺防護到應用防護的全方位的安全屏障,完善檔案信息的安全性和隱私性。
在大數據時代背景下,智慧檔案的建設與應用是一個龐大的系統工程,方興未艾的物聯網科技和云計算技術為構建新一代的檔案管理平臺提供了良好的智力支撐,為檔案工作的快速、安全、全面發展提供了一個良好的環境,智慧檔案建設任重而道遠。


方 瓊
三峽大學檔案館
方瓊(1978-)女,碩士,三峽大學檔案館館員,主要研究方向為檔案信息化管理。
10.3969/j.issn.1001-8972.2015.16.048