丁寶


[摘要]部分具有保存價值的時態數據正面臨丟失的風險,檔案部門應及時采取措施。論文以地理信息系統數據為例,提出了切片歸檔時態數據的技術策略,分析了其核心內容——快照技術的原理、歸檔數據的特點及對不同類型數據的適用性,并討論了在切片歸檔過程中需要注意的切片時間、歸檔時間和格式管理等問題。
[關鍵詞]時態數據歸檔數據切片地理信息系統
[分類號]G275.9
Research on the Technology of Temporal Data Snapshot Archive—Taking Geographic Information System Data as an Example
Ding Bao
(College of Society of Soochow University, Suzhou, Jiangsu,215123)
Abstract: Temporal data with some preservation value is facing the risk of being lost, and the archives department should take timely measures. This paper takes geographic information system data as an example, puts forward the technical strategy of snapshot archiving temporal data, analyzes its core content - the principle of snapshot technology, the characteristics of archived data and the applicability to different types of data, and discusses the issues such as snapshot time, archive time and format management in the process of snapshot archiving.
Keywords: Temporal Data; Archive; Data Snapshot; Geographic Information System
1引言
數據具有時間屬性。對于文本、圖像、音頻和視頻等一般類型的數據,人們只關注最終版本的內容,但在電信信息系統、地理信息系統、電子政務等復雜的信息系統中,用戶往往需要處理與時間相關的數據,比如在地理信息系統中調用1990年到2000年間北京土地利用情況的數據。這種需要顯式表示和管理與時間相關的數據就是時態數據。[1]信息系統中的時態數據在每一時間點的狀態都反映了某一社會實踐的具體情況,除了對于業務機關的現行價值,成為歷史數據后也蘊含重要的情報價值和科研價值。在上述例子中,調用的歷史數據不僅能夠還原十年間北京的發展變化,而且可用于研究北京的城市發展模式。但是,檔案部門在滿足這一信息需求時面臨嚴重阻礙。時態數據的內容和狀態會隨著時間的推移而改變,業務部門在資源、預算有限的情況下不會優先考慮保存過去形成的數據,決策者或從業者未能正確認知保存歷史數據的益處,更新數據時往往會覆蓋掉原有的數據。當前采用技術手段歸檔具有長遠保存價值的時態數據是一項重要且迫切的工作。本文將以地理信息系統數據為例對時態數據的切片歸檔技術進行研究和討論。
地理信息系統(Geographic Information System,簡稱GIS)是在計算機軟、硬件系統支持下,對整個或部分地球表層的有關地理分布數據進行采集、儲存、管理、運算、分析、顯示和描述的技術系統。[2]其產生的GIS數據專業性強、獲取成本高,具有極高的重復利用價值,但隨著技術的發展和時間的推移正面臨丟失的風險。因此,以GIS數據為例介紹切片歸檔技術,能夠為檔案部門歸檔保存GIS數據提出參考性方案,更利于為歸檔其它時態數據提供經驗和借鑒,兼具理論和實踐價值。
2地理信息系統數據切片歸檔的技術策略
GIS以數字數據的形式表現空間實體的空間位置特征、屬性特征和時態特征,數據的幾何特性、非結構化數據結構和動態變化的時間特征給長期保存帶來了三個方面的難題。首先,不同的數據組織方式。GIS中最基本的空間數據組織方式是矢量數據和柵格數據,矢量數據用點、線和多邊形刻畫所關注的空間對象,柵格數據用二維矩陣的形式表示空間地物或現象分布,二者導致不同的數據格式與應用系統,不利于采用統一的歸檔方式。其次,復雜的數據存儲模式。目前常見的GIS數據存儲方式有通用文件系統、文件系統結合關系數據庫以及全關系數據庫三種,不同的存儲系統通常意味著不同的歸檔策略。最后,動態變化的數據內容。GIS數據會隨時間不斷更新變化,新數據覆蓋舊數據是歸檔保存面臨的最大問題。為了解決以上難題,本文引入切片歸檔技術,即運用快照技術,在特定的時間節點對具備歸檔價值的GIS數據做切片處理,經過整理后形成地理信息圖層數據包,進而按照電子文件歸檔的流程標準歸檔。[3]核心內容是快照技術的應用。
2.1快照技術及其歸檔地理信息系統數據的特點
快照技術,即通過建立指針列表指示讀取數據的地址,當數據改變時在極短時間內提供一個實時數據并復制,[4]獲得數據在特定時間點的完全狀態。它不涉及所表示數據的格式,通過快速“拍照”記錄的是數據的完整可用拷貝;適用于各種類型的存儲系統,包括基于文件系統的快照、基于邏輯卷管理器的快照以及基于數據庫的快照等;能夠根據需要靈活設置多個快照點,定期和不定期地捕捉數據的變化情況。它有效地解決了上述GIS數據歸檔保存的難題,并具有瞬時保存、對系統影響小的優點。此外,不同原理的快照技術各具特色,適用于不同特點的GIS數據。
2.2快照技術的分類及對不同地理信息系統數據的適用性
以實現的工作原理為依據,快照技術劃分為不同種類。其中,適用于GIS數據切片保存的主要有增量快照、全拷貝快照兩種。
增量快照即快照創建后,源 LUN(Logical Unit Number,邏輯單元號)和快照LUN通過數據指針表共用一份數據拷貝,直至數據改動,改動前的數據將被記錄。主要有寫時復制快照和寫時重定向快照兩種實現方式。寫時復制在創建快照時僅復制指示數據實際所處位置的指針,不進行實質拷貝。此時,快照LUN和源LUN保存相同的數據指針表。快照生成后,如有請求修改源LUN中的原始數據,快照LUN首先拷貝改變前的原始數據,然后源LUN再進行改寫。當后續再有數據寫入源LUN的同一位置時,將不再拷貝原始數據至快照LUN,而是直接覆蓋。這樣對同一位置的更新僅進行一次寫時拷貝,有效地保證了快照時刻點的數據一致性。最終,僅獲得源LUN的邏輯存儲副本,利用時通過查詢數據指針表訪問數據的物理存儲位置,若快照LUN中對應的數據項不存在,則讀取源LUN中相應位置的數據;反之,讀取快照LUN相應位置的數據。因此,在歸檔時需要配合保存原始的數據副本。寫時重定向的技術原理類似,不同之處在于對源LUN的首次寫操作重新定向至快照LUN中。創建快照時,同樣僅復制數據指針表;但是生成快照后,如果產生對源LUN改寫的請求,新數據會直接寫入快照LUN,之后更新源LUN中的指針表,使其指向新數據所在的快照LUN地址。這樣只需要一次寫操作,此時源LUN中保存快照副本,而快照卷保存的則是新數據。
全拷貝快照創建的是數據的完整副本,分為鏡像分離快照或克隆快照。鏡像分離需預留與源LUN容量相同的存儲空間,在快照時間點前創建源LUN鏡像,快照點到來時鏡像分離轉換成快照卷,完成數據備份等操作后快照LUN與源LUN重新同步。由于鏡像操作在快照點前完成,這種方式無法隨時為任意源LUN創建快照。相比之下,克隆快照增強了靈活性,在快照時間點采用寫時復制的方式快速生成指針式副本,之后在后臺運行拷貝進程執行實質性的數據拷貝任務,結束后采用鏡像分離技術獲得克隆快照。
表1[5]從不同角度比較了以上四種快照技術。分析可得它們的優缺點及對不同種類GIS數據的適用情況。寫時復制和寫時重定向技術采用增量快照的方法,優點是快照創建前只需分配少量的存儲空間用于保存源LUN中被更新的原始數據;在創建快照前對系統無任何依賴性,可隨時生成應用系統快照;快照副本通過額外的拷貝操作獲得,可以選擇業務空閑時間進行,減少對應用系統的影響。缺點是快照生成后對源LUN具有依賴性,一旦源LUN發生不可恢復性的損壞,且未及時拷貝快照副本,快照數據也隨之失效;在生成快照時會對源LUN產生讀和寫操作,降低系統的性能。因此,增量快照技術適用于兩種類型的GIS數據。一種是變化幅度小的GIS數據,如地形地貌數據。其在以年為單位的時間周期中很難發生大量的變化,充分發揮了增量快照只記錄變化數據、存儲空間利用率高的特點。另一種是變化可預見的GIS數據,如基礎設施建設、管網規劃、城市建設以及行政區劃等數據。這些數據的改變具有規劃性,數據變化能夠提前掌握,如有必要可以設置專門的快照時間點保存這一變化。這樣,充分發揮了增量快照靈活性高以及空間占用小、快照點設置密集的優勢,更加細致地記錄GIS數據的變化情況。
全拷貝快照在快照點結束即可獲得源LUN的完整副本,能夠脫離源LUN單獨存在,數據可靠性更高,歸檔保存的流程和后期的管理也更加簡單。但是,其缺點也十分明顯。一方面,每次生成快照都需要源LUN同樣大小的鏡像卷,對存儲空間要求很高,在長期保存中會形成大量的數據冗余;另一方面,無論是鏡像分離技術在快照時間點前生成鏡像,還是克隆技術在生成快照后拷貝原始數據,物理拷貝過程都會對系統產生較大的影響。因此,全拷貝適用于變化極頻繁的GIS數據,如人口流動、交通出行數據等。這些數據無時無刻不處于變化的狀態中,運用增量快照不但無法發揮空間利用率高的優勢,反而在多次生成快照后會加重應用系統的負擔。而采用全拷貝快照在較長的時間段中周期性地記錄它們的變化是更好的選擇。此外,由于增量快照對源LUN的依賴性,全拷貝快照也經常和增量快照技術一起使用,用來增強快照的可靠性和穩定性。
3地理信息系統數據切片歸檔時需注意的問題
切片歸檔GIS數據,檔案部門除了掌握快照技術的原理,根據不同特點的GIS數據選擇合適的快照類型,還應該注意選擇合理的切片時間與歸檔時間,同時管理GIS數據格式。前者影響歸檔數據的完整性和真實性,后者有助于保證數據長期可讀。
3.1制定合理的切片時間和歸檔時間策略
切片時間和歸檔時間是GIS數據切片歸檔過程中涉及的兩個不同的時間概念。切片時間指在存儲系統中設置創建源LUN快照的時間,歸檔時間指將獲得的快照副本整理為地理信息圖層數據包移交檔案部門的時間。運用全拷貝快照技術,在快照時間即獲得完整的數據副本,切片時間和歸檔時間往往是一致的;運用增量快照技術,在快照時間僅生成虛擬快照,需要通過快照副本技術拷貝獲得完整的數據副本,切片時間和歸檔時間會出現不一致的情況。因此,應該分別討論兩種時間的設置情況。
從切片時間選擇的角度,GIS快照的創建策略分為定時快照和手動快照。定時快照即在每年12月31日對當年需要歸檔的GIS數據創建快照,根據不同數據的運動特性、流轉規律,也可以設置不同的切片周期。手動快照則是在事件點創建當前時間點的快照。事件點是指在切片周期內可能引起相關數據巨大變化的重要事件的發生時間節點,如市政大樓搬遷等。在定期快照的基礎上運用手動快照,能夠清晰地反映重要事件的變化過程,保存和記錄更加完整的社會記憶。

歸檔時間是從歸檔流程的角度考慮,分為實時歸檔和定期歸檔兩種形式。GIS數據具有連續性、動態性的特點,因此完全意義上的實時歸檔難以實現。就切片歸檔技術而言,實時歸檔是指快照副本生成后立即歸檔,定期歸檔是參照紙質文件歸檔時間的規定,在第二年上半年處理本年度的快照,拷貝獲取副本后整理成地理信息圖層數據包歸檔。相比定期歸檔,實時歸檔有利于檔案部門控制快照的質量與安全,避免因GIS存儲故障導致快照失效,確保歸檔數據的真實性。此外,由于創建快照花費的時間會隨快照數量的增加而增加,也會對應用系統性能造成影響,歸檔后即可刪除存儲在應用系統中的快照。因此,實時歸檔是GIS數據切片歸檔中最宜采用的時間策略。
3.2實施地理信息系統數據格式管理
隨著地理信息科學的發展,出現了ArcGIS、Mapinfo、GvSIG等優秀的GIS應用軟件,相應地產生了紛繁的GIS數據格式,使其歸檔保存面臨很大的難題。盡管運用快照技術從存儲系統的角度實現了對不同GIS數據的切片,克服了數據格式的差異性,但是為了確保數據長期有效讀取,便于歸檔后數據的管理與利用,檔案部門仍應加強對GIS數據格式的管理。
首先,檔案部門應發布GIS數據長期保存推薦格式指南,限制接收數據格式。我國的《電子文件歸檔與管理規范》GB/T18894-2002中要求歸檔電子文件格式應符合開放性、標準性、長期可讀性等要求。表2從開放性的角度統計、分析了目前流行的GIS數據格式,并參考美國國家與文件署制定的《NARA公告2014-04:永久保存文件移交的格式指南修訂版》[6],為檔案部門選擇格式提供參考。其次,應基于電子文件生命周期視角,實行前端控制。在政府機關各業務部門與檔案部門采用相同的GIS軟件和存儲系統,實現GIS數據從生成、利用到歸檔、再利用的一致性,避免不同業務部門、業務部門與檔案部門之間格式不統一造成的管理混亂、重復勞動、數據失真的情況。最后,對于已形成的不一致數據應統一轉換數據格式。國際上已經制定了一系列空間數據轉換的標準,通過這種中間橋梁,實現不同系統數據的相互轉換和共享,具有代表性的有SDTS空間數據轉換標準、ISO/TC211地理信息標準、DIGEST數字圖形信息交換標準以及OpenGIS及其規范等。[7]
參考文獻
[1]維基百科.時間數據庫[EB/OL].[2016-10-2].https://zh.wikipedia.org/w/index. php?title=%E6%97%B6%E9%97%B4%E6%95%B0%E6%8D%AE%E5%BA%93&oldid=46658931.
[2]劉南,劉仁義.地理信息系統[M].北京:高等教育出版社,2002:5-6.
[3]金波.地理信息庫數據切片歸檔實現方式研究[J].檔案與建設,2017(2):34-38.
[4]吳晨濤.信息存儲與IT管理[M].北京:人民郵電出版社,2015:242-243.
[5]Neeta Garimella. Snapshot technology overview.[EB/OL].[2006-4-26].https:// www.ibm.com/developerworks/tivoli/library/t-snaptsm1/index.html.
[6]National Archives and Records Administration. Transfer Guidance Format Tables[EB/OL].[2014-3-3].https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html.
[7]Sailor. GIS空間數據共享標準[EB/OL].[2014-3-6].http://malagis.com/gis-spatial-data-sharing-standards.html.