李寶雙


摘? ?要:文章針對目前各行業(yè)的大量數(shù)據(jù)存在的地域化以及日漸凸顯的數(shù)據(jù)快速增長的特點(diǎn),重點(diǎn)提出了分布式空間數(shù)據(jù)的儲存對象概念,同時(shí),介紹了基于分布式空間數(shù)據(jù)儲存對象的一種高性能、可伸縮性的信息共享管理體制,為分布式數(shù)據(jù)儲存工作提供出了全新的工作形式。
關(guān)鍵詞:空間數(shù)據(jù);分布式存儲;基于對象的存儲
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的存儲已經(jīng)在各行各業(yè)中得到了廣泛的應(yīng)用,特別是地球空間信息技術(shù),針對一些層次更高的分辨率傳感器技術(shù),在發(fā)展過程當(dāng)中使地理信息系統(tǒng)所受到的影響和挑戰(zhàn)不斷加劇。地理信息系統(tǒng)(Geographic Information System,GIS)是獲取、處理、管理和分析地理空間數(shù)據(jù)的重要工具,在GIS系統(tǒng)的運(yùn)用過程當(dāng)中會出現(xiàn)數(shù)據(jù)的大量上漲以及對數(shù)據(jù)的合理應(yīng)用等相關(guān)問題,通過空間數(shù)據(jù)儲存的標(biāo)準(zhǔn)和需求,現(xiàn)階段,空間數(shù)據(jù)的儲存量從吉字節(jié)(Gigabyte,GB)級別上升到了太字節(jié)(Terabyte,TB)級別,甚至達(dá)到了拍字節(jié)(Petabyte,PB)級別。在儲存大量空間數(shù)據(jù)過程當(dāng)中,已經(jīng)無法延續(xù)傳統(tǒng)形式,即向GIS的集中儲存模式,在數(shù)據(jù)的儲存空間上有著明顯的限制,通過海量數(shù)據(jù)地域分布,保證整個(gè)數(shù)據(jù)空間的運(yùn)用更加合理,在一些網(wǎng)絡(luò)信息環(huán)境下的信息分布和分層儲存更加適用。
1? ? 分布式空間數(shù)據(jù)存儲對象
現(xiàn)有的數(shù)據(jù)儲存模式基本都是在數(shù)據(jù)結(jié)構(gòu)層面上操作,分析數(shù)據(jù)構(gòu)成類型的不同,沒有考慮數(shù)據(jù)在儲存過程當(dāng)中的數(shù)量特性以及數(shù)據(jù)使用性能方面的需求。常見的空間數(shù)據(jù)拓?fù)潢P(guān)系如圖1所示。
圖1? 空間數(shù)據(jù)的拓?fù)潢P(guān)系
在數(shù)據(jù)空間分布形式上,相關(guān)工作人員只單純分析了數(shù)據(jù),收集工作中存在的地域性差別,需要人為將空間數(shù)據(jù)依照相關(guān)的排列規(guī)則進(jìn)行分層和分級,然后進(jìn)行數(shù)據(jù)劃分儲存。在此過程當(dāng)中并沒有充分考慮到整個(gè)網(wǎng)絡(luò)和計(jì)算內(nèi)部的工作特性,因此,也無法充分滿足整個(gè)GIS分布系統(tǒng)的實(shí)際功能需求。對很多不同的觀測數(shù)據(jù)來講,比如,在衛(wèi)星遙感數(shù)據(jù)和監(jiān)測數(shù)據(jù)系統(tǒng)當(dāng)中,數(shù)據(jù)必須要具備在線分布和儲存的工作能力。如何有效運(yùn)用信息資源,不能完全依靠人為工作的預(yù)先規(guī)劃,所以,需要將整個(gè)空間數(shù)據(jù)的儲存工作由被動式的服務(wù)模式轉(zhuǎn)化成為主動分布工作模式,以一種自適應(yīng)的工作服務(wù)狀態(tài),在整個(gè)空間數(shù)據(jù)儲存過程當(dāng)中解決數(shù)據(jù)大量上漲的問題[1]。
2? ? 海量空間數(shù)據(jù)分布式存儲機(jī)制
以分布式空間數(shù)據(jù)作為儲存對象建立起空間數(shù)據(jù)系統(tǒng)結(jié)構(gòu),在大量的數(shù)據(jù)空間當(dāng)中依照數(shù)據(jù)本身所具有的不同特性,在數(shù)據(jù)的使用需求、儲存特性以及一系列的用戶定義空間當(dāng)中,對數(shù)據(jù)的儲存對象進(jìn)行科學(xué)地劃分,在分布式儲存器當(dāng)中安裝了對象存儲裝置(Object Storage Device,OSD)處理器、內(nèi)存以及網(wǎng)絡(luò)接口,在整個(gè)系統(tǒng)的構(gòu)成類型上,通過分布式儲存結(jié)構(gòu)作為主要的核心點(diǎn),在工作過程當(dāng)中具有信息本地處理功能,用于數(shù)據(jù)的緩存和數(shù)據(jù)快速處理,實(shí)現(xiàn)了信息傳輸過程中的網(wǎng)絡(luò)銜接。在空間數(shù)據(jù)儲存對象當(dāng)中,分布式結(jié)構(gòu)可以儲存在多個(gè)OSD系統(tǒng)當(dāng)中,多個(gè)空間數(shù)據(jù)對象也可以使用同一個(gè)OSD模型結(jié)構(gòu),OSD當(dāng)中所包含的設(shè)備類型分為數(shù)據(jù)信息單元,以一種自主管理的模式在整個(gè)空間數(shù)據(jù)結(jié)構(gòu)中進(jìn)行分布和處理。比如,信息處理速率和對象處理長度等方面都需要加以考慮,在OSD系統(tǒng)內(nèi)部承擔(dān)了系統(tǒng)儲存器中的數(shù)據(jù)維護(hù)工作和單元數(shù)據(jù)管理工作,有效消除了系統(tǒng)服務(wù)器內(nèi)部存在的瓶頸問題。以GIS服務(wù)器通過系統(tǒng)分布式空間儲存對象,為客戶端提供出準(zhǔn)確有效的OSD空間邏輯信息,同時(shí),依照客戶在操作過程當(dāng)中的組織管理需求,對數(shù)據(jù)儲存管理對象進(jìn)行識別。GIS服務(wù)器另外一個(gè)作用是通過用戶授權(quán)工作管理,OSD授權(quán)信息提供相應(yīng)的安全工作驗(yàn)證,在信息完成驗(yàn)證工作之后,數(shù)據(jù)方面不通過服務(wù)器結(jié)構(gòu)直接進(jìn)行轉(zhuǎn)發(fā),在客戶端和儲存器內(nèi)部實(shí)現(xiàn)了第三方通信信息的連接。
3? ? 分布式空間數(shù)據(jù)存儲基本實(shí)現(xiàn)方法
利用數(shù)據(jù)共享,設(shè)備共享,通信靈活地實(shí)現(xiàn)分布式空間數(shù)據(jù)的存儲,基于多地點(diǎn)多設(shè)備的實(shí)現(xiàn),如圖2所示。
圖2? 分布式存儲示意
4? ? ?分布式空間數(shù)據(jù)存儲對象優(yōu)勢
基于分布式空間數(shù)據(jù)在系統(tǒng)的工作過程中,針對不同類型的儲存對象,所設(shè)定的數(shù)據(jù)儲存空間具有以下幾個(gè)方面的優(yōu)勢。
4.1? 高性能優(yōu)勢
基于分布式空間的訴訟儲存過程當(dāng)中,在數(shù)據(jù)對象的空間儲存方面,數(shù)據(jù)的客戶端和儲存器之間,可以進(jìn)行信息的高速傳輸,服務(wù)器當(dāng)中的輸入/輸出(Input/Output,I/O)端口,存在的信息傳輸速率較慢問題得以有效的解決,同時(shí),還可以有效防止信息傳輸過程當(dāng)中產(chǎn)生的信息失真以及信息傳輸阻塞等不良問題。當(dāng)儲存系統(tǒng)內(nèi)部需要對信息儲存量和儲存空間進(jìn)行擴(kuò)展過程中,對信息儲存技術(shù)需要提供一個(gè)更加均衡的空間模型,這樣才可以充分保證整個(gè)信息系統(tǒng)在處理信息的能力上得到同步提高,進(jìn)而在信息的響應(yīng)速度和信息的傳輸速率上得到明顯的提高,保證整個(gè)系統(tǒng)可以更加適用GIS環(huán)境下多個(gè)用戶共同發(fā)出信息請求,整個(gè)數(shù)據(jù)傳輸規(guī)模和傳輸效率具有更高效果。
4.2? 異構(gòu)共享、透明訪問
在海量空間數(shù)據(jù)的分布儲存過程當(dāng)中,經(jīng)常會面對多重異構(gòu)的儲存工作環(huán)境,通過這種儲存環(huán)境可以充分實(shí)現(xiàn)空間數(shù)據(jù)儲存資源的有效共享。首先,在系統(tǒng)儲存工作當(dāng)中,在操作平臺上經(jīng)常會產(chǎn)生矛盾問題,分布式空間數(shù)據(jù)儲存對象可以將系統(tǒng)設(shè)備當(dāng)中的數(shù)據(jù)模塊從設(shè)備層當(dāng)中進(jìn)行分離,同時(shí)將儲存系統(tǒng)內(nèi)部的信息邏輯結(jié)構(gòu)和儲存層的映射關(guān)系之間進(jìn)行對應(yīng),通過這種方式,很容易實(shí)現(xiàn)跨平臺數(shù)據(jù)結(jié)構(gòu)的組成。從用戶角度上來進(jìn)行分析,通過對空間數(shù)據(jù)儲存對象的設(shè)定存在很明顯的差別,用戶在使用過程中不需要關(guān)心大量數(shù)據(jù)該如何進(jìn)行劃分和儲存,只需要通過使用對象接口,實(shí)現(xiàn)對海量數(shù)據(jù)的透明化訪問,這在很大程度上提高了數(shù)據(jù)訪問工作人員的工作效率。
4.3? 靈活高效的安全機(jī)制
在分布式的GIS用戶的協(xié)同工作模式當(dāng)中,經(jīng)常會涉及一些針對空間數(shù)據(jù)的操作和儲存部分,在整合空間數(shù)據(jù)的儲存工作當(dāng)中具有操作時(shí)間較長以及信息準(zhǔn)確度不足等問題[2]。對此,在進(jìn)行GIS空間數(shù)據(jù)的儲存工作當(dāng)中,相關(guān)工作人員需要針對不同的空間數(shù)據(jù)對象的一致性和信息的安全性加以有效的保障。在分布式空間的數(shù)據(jù)儲存和管理工作當(dāng)中,需要對其進(jìn)行不同屬性以及不同的訪問方式來進(jìn)行設(shè)定。相比于傳統(tǒng)的基礎(chǔ)文件或者是模塊數(shù)據(jù)的管理工作來講,在分布式的空間數(shù)據(jù)儲存工作當(dāng)中,在整個(gè)數(shù)據(jù)的儲存安全性方面有著重要的保障,因此,這種數(shù)據(jù)處理方式更加有利于建立起GIS網(wǎng)絡(luò)環(huán)境條件,實(shí)現(xiàn)了對多用戶相互之間的靈活信息提取、儲存以及應(yīng)用等。
5? ? 結(jié)語
在數(shù)字城市和數(shù)字社會的發(fā)展過程當(dāng)中,需要在空間數(shù)據(jù)的儲存功能上達(dá)到PB級以上的級別。隨著當(dāng)前信息化技術(shù)的發(fā)展速度不斷加快,信息的收集量以及收集的詳細(xì)程度都在不斷深化。在海量空間的數(shù)據(jù)儲存過程當(dāng)中,不但需要充分滿足數(shù)據(jù)儲存量的標(biāo)準(zhǔn)要求,同時(shí)還需要充分滿足GIS分布式數(shù)據(jù)工作服務(wù)的標(biāo)準(zhǔn)。
[參考文獻(xiàn)]
[1]王曉龍.基于Spark的地理空間大數(shù)據(jù)查詢處理技術(shù)研究[D].西安:西安電子科技大學(xué),2017.
[2]涂振發(fā).云計(jì)算環(huán)境下海量空間數(shù)據(jù)高效存儲關(guān)鍵技術(shù)研究[D].武漢:武漢大學(xué),2012.
Analysis on the storage object of the distributed spatial data
Li Baoshuang
(China No.8 Shipbuilding Heavy Industry, Yangzhou 225001, China)
Abstract:Aiming at the regionalization of a large number of data in various industries and the characteristics of the rapid growth of data, the paper puts forward the concept of storage object of distributed spatial data, and introduces a kind of high-performance data storage object based on the distributed spatial data. The scalable information-sharing management system provides a brand-new form of work for distributed data storage.
Key words:spatial data; distributed storage; object-based storage