陸明
(天津智信慧通信息技術有限公司,天津 300456)
目前,國內外學術界對大數據的各種定義中,最具有代表性的是 3V、4V 的特征。李德仁和劉經南分別對大數據5V——Volume,Velocity,Variety,Veracity,Value 的特征進行同詞異譯的闡釋[1]。時空大數據信息量龐大等特點,使其研究方式較傳統的基于數學模型的研究手段有所不同,已故圖靈獎得主吉姆·格雷將大數據研究從計算科學(第三范式)中剝離成為一種新的科研范式,即數據密集型科研“第四范式(the fourth paradigm)”。同樣,王家耀認為“大數據”的出現為科學研究帶來“第四范式”[2],為地理研究所面臨的具有本質性的理論、技術和方法挑戰帶來新的可能,在大數據的推動下,時空大數據產業發生變化,或許會構成以時空大數據科學為中心的理論體系。雖說這樣的結論有待進一步考證,但時空大數據已勢不可當地運用于地理學、社會學、生物學等諸多領域,對各學科傳統研究方式、理論和尺度產生沖擊。
“大數據”并不單指一項具體的技術或是一類產品,當前信息技術是一個比較抽象的概念,有著很大的發展趨勢。這個概念之所以被稱作“大數據”原因在于這種概念的表現形式與我們常見的傳統數據有根本上的不同,“大數據”所包含的數據量更加龐大、數據的種類紛繁復雜、可以使用多種途徑獲得數據、沒有明確的結構、傳播的速度更快。在大數據時代之下互聯網開始與各行各業進行融合并朝著深度融合的方向發展,各行各業都在實踐中探索與互聯網大數據進行契合的切入點,以推動行業的發展與創新[1]。對于測繪信息部門來說,大數據時代的意義在于機遇與挑戰,主要的原因就是現代地理信息產業將在未來地理信息系統當中創建出更多的大數據,而大數據也將幫助地理信息產業實現更好的發展,也就是說兩者屬于協同發展的情況,因此要求未來大數據時代下我國地理信息部門以及相關行業在新一輪的變革機遇影響下,需要更好的對大數據技術來進行考核,發現其中帶來的更大商機。未來企業需要結合大數據時代下社會各行業對工作業務流程的實際需求,從而更好的幫助地理信息相關企業實現全新的業務轉型,幫助我國地理信息產業能夠適應時代的發展需求。
首先在未來發展的過程中,地理空間數據量將會進一步的提升與增加,并且提升的速度將會達到非常迅猛的狀態,幾乎能夠達到指數級增長。同時在發展的過程中地理空間數據相關問題也顯現出來,因此需要對大數據的存儲問題進行研究,而這正是未來地理信息系統發展過程中的主要研究內容,站在這一角度上來看,未來大數據的出現需要幫助地理信息系統解決更多的大數據儲存問題,同時大數據還需要關注自身如何將地理信息系統數據實現共享。又如何才能夠保護大數據分享下的文件?對于一些大量的重復數據又該怎么處理? 這些都是需要面對的關鍵問題。
在實際處理與使用的過程中,傳統數據處理方式很難控制這些數量極大的數據。在這種情況的影響下,未來如何能夠提升大數據量計算的能力,提升數據的實時更新率、迎合廣大用戶應用需求等等,這些都是需要進行處理與管理的問題。未來這一系列的問題和挑戰在大數據時代下將會發揮出更大的影響,因此也需要更多的高度重視。
在當今科學技術快速發展的今天,計算機技術得到了快速的發展,使得硬盤的成本進一步下降,這導致數據的儲存技術成本也隨之下降。未來大數據量數據的儲存更加容易,甚至當下個人電腦的數據存儲量也能夠達到1TB左右,單個磁盤陣列服務器的容量能夠達到30TB,這代表著我國大數據技術和數據存儲技術的快速發展和進步。然而在客觀世界不斷變化的過程中,地理信息系統需要在更多的方面進行應用,其中包括有應急保障、實時導航、分析決策等等方面,這在一定的程度上要求能夠提升數據的存儲效率。一旦無法提升這方面的能力,那么將會導致整個地理信息系統的性能受到一定的影響,進而導致地理信息系統無法發揮出應有的作用。因此,在大數據時代下,未來發展的過程中地理信息系統需要具備有高效的數據存儲能力。
地理信息數據的來源非常豐富,因此種類也十分的多樣,對于一些較少的數據或者說在其他領域應用的數據,大數據時代下地理信息系統需要對其進行數據規范化。一般來說數據規范化的主要方式就是使用數據轉換、人工整理等等一系列的途徑,主要的目的在于保證數據結構的統一。在未來發展的過程中,一旦出現多種類型的數據,就會導致發展過程中產生的數據與傳統數據出現存儲要求的不符合,而這對于大數據地理信息系統來說將會造成較為嚴重的影響,想要解決這一問題就需要使用原始的非結構性數據來進行存儲。或者說地理新系統的特殊性決定了需要對不同來源的數據進行儲存,因此要求數據庫必須要能夠支持多種類型的數據進行共同存儲。
大數據時期的來臨,要求地理信息系統能夠有全新的發展方向,而現如今地理信息系統當中蘊含的數據正在飛速上漲,這代表著未來需要轉換管理方式。如果說依舊使用傳統方式來管理數據,那么就需要將數據庫的存儲來進行擴展和審計。現如今發展的過程中,使用次數較多的數據庫格式就是關系型數據庫,這種數據庫需要進行升級與加強,從而更好的幫助這類型數據庫在今后使用的過程中進行分割與非規劃擴展。一般情況下,數據想要進行升級處理,就需要將數據庫中的內容進行區分,而這往往會耗費大量的資源。除此之外升級時由于服務器的自身狀態,很多時候無法對性能和容量產生非常大的提升。同時數據庫進行分割之后對于一些非結構化數據的儲存可以說非常不適合,然而地理信息系統當中又擁有著非常多的非結構化數據,這導致程序以及模型的獨立性受到了嚴重的破壞。針對于這種情況如果使用非規范化的處理,不僅僅會增加大量的冗余,同時也會導致數據一致性維護難度大大提升。由此來看,未來發展的過程中需要將地理信息數據系統數據庫進行擴展,保證其擁有非常良好的可伸縮性和可擴展性。
地理信息系統在實際發展的過程中,對于數據的快速處理有著非常大的作用,總的來說就是數據儲存技術當中包括了對數據的各項處理工作以及技術。在數據庫當中可以將數據存儲為BSON 格式,能夠更好的省略數據傳輸過程中的各項工作以及過程,從而搭建出具有更好空間索引水平的數據庫。這種方式的主要目的就是為了在最大程度上提升數據查詢和訪問的效率。
總而言之,未來大數據在地理信息系統當中的應用有著非常重要的意義。在大數據時代下,未來各項技術得到了全新的發展,而這些技術對于地理信息系統的進一步發展與提升有著非常重要的意義,其中包括物聯網技術和云計算技術等等。在這一基礎上,大數據技術的出現能夠推動我國地理信息系統格局的進一步創新與發展。為了保證大數據技術能夠在地理信息系統當中的應用實現更加廣泛的提升,地理信息部門以及相關企業都需要更加重視大數據技術的發展,通過不斷推動地理信息系統的發展,從而挖掘出大數據技術帶來的好處。