摘 要:空間信息的概念進入公眾視野、成為研究人員的探討議題后,部分專家便預測了空間數據挖掘的必然出現,由于大數據時代對于數據的特殊要求及屬性定位,勢必會帶動一股對于數據整合手段的討論熱潮,而空間數據挖掘技術隨之應運而生。文章主要討論了空間大數據的價值以及如何發掘空間大數據兩方面的問題。
關鍵詞:大數據;空間數據;挖掘利用
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2014) 24-0000-01
隨各類型資料、信息的聚集量逐漸擴大,信息整合技術手段層出不窮,可以說,我們當下生活的環境已進入大數據時代。各類型事件、各類型組織、各類型研究議題均無法脫離大數據時代的長遠影響。大數據時代已經開啟便注定其今后的主導地位。而空間數據挖掘則是大數據時代的主要代表思想,從其概念看,空間數據挖掘指的是將存在于空間領域、表面看毫無規律、內在聯系不明顯的隱含數據信息運用相關特征及模型建立手段進行提煉的過程。
一、空間大數據的價值
(一)總體認知原貌。大數據的開發利用讓人類可以從虛擬信息世界中觀察到世界的全貌,在大數據產生以前,受空間數據采集、數據儲存、運算處理等能力的限制,概率統計工作只能從采用隨機抽樣的方法,根據樣本數據來推測全體數據。這就猶如盲人摸象,只是對局部數據有很深的了解,很難真正認識總體的規律和變化。但是在大數據時代,人們可以收集存儲大量的數據,從而克服了抽樣調查的局限性。人們可以從大數據中了解世界的原貌,進而尋找其中隱含的規律。比如對氣象衛星傳回的數據進行分析,從而準確進行天氣預報。
(二)基礎性資源。美國著名經濟學家詹姆斯·麥肯錫認為數據也是一種基礎性資源,甚至與物質資金、人力資源一樣重要,它可以為世界經濟創造巨大的價值。美國政府認為大數據是“未來的新石油”,關系到國家經濟的未來。
二、大數據下的空間數據挖掘
(一)基本的大數據技術。基本的大數據技術有搜集、儲存、處理、表達以及評估。(1)搜集技術。大數據的產生與發展離不開移動設備、RFID技術、傳感技術、網絡技術、電子商務、追蹤系統等數據產品的發展。目前按照數據獲取方式可將空間數據分為點方式、面方式以及移動方式三種獲取方式。點方式獲取就是通過GPS接受終端、全站儀等逐點搜集地表的空間坐標;面方式獲取就是通過衛星遙感、航空遙感等大面積獲取影像資料,并從中提取相關的幾何特征;移動方式獲取是將GPS、RS、GIS的技術手段植入對地觀測系統中,從而獲取、儲存、分析空間數據;(2)儲存技術。它是數據挖掘的基礎,其價值就是為不斷增加的大數據提供性能穩定可靠、擴展性強的儲存管理方案。比如負載均衡、分布式數據儲存等;(3)處理技術。其任務是完成數據→信息→知識→智慧的轉變。比如地物疊加,空間數據的分析、挖掘、清理等,目標緩存以及影響分割等;(4)表達技術。顧名思義就是向用戶清楚、有效的表達數據中包含的信息,以提供新視角尋找難以掌握的數據。比如數字中國、3D地圖、數字模型、平面地圖等;(5)評估技術。由于大數據的數據量龐大、測量密度高所以很容易出錯,評估技術的作用就是盡量減少錯誤帶來的風險。比如邏輯性評估方法、基于異常值或者核算的評估方法。
(二)發現空間知識。發現空間知識就是指通過一系列的空間數據挖掘方法從空間大數據中提取出未知的、有價值、可解規則的技術,它是一個由空間數據發展到空間信息,再由空間信息發展到空間知識的過程。空間數據發掘系統的作用在于將空間數據進行歸納整理,并升華成空間知識,再將這些新得到的知識與數據結合,做到對數據的處理、判斷和決策。空間知識具有自學習性、自提升性、普遍性等特點,所以容易被人們認可和利用,是決策的重要依據。如果空間技術能夠廣泛應用于各行各業的話,那么人類的學習方式、工作方式、生活方式都會變得更加精細。從而有效提高資源利用率,減少資源浪費;促進人類生產力水平的發展。對于人類應對金融危機、能源危機、生態環境惡化等問題有巨大的幫助作用。
(三)萃取數據智能。所謂的數據智能就是對收集到的數據進行全面深入的分析,從中獲得更為系統、更為全面、更為新穎的知識用來解決相關問題。是一種能夠靈活、迅速、有效、正確、全面的理解問題和解決問題的能力。空間數據智能主要由透徹的感知能力、廣泛的互動和智能化更加深入三大元素組成。三者協同合作,共同獲取數量更多、內容更加全面的數據信息,通過互聯網絡實現這些數據的傳遞、分享。并利用與之相關的技術和方法深入分析數據、挖掘數據,形成一個層次結構。如果認為大數據的智能僅僅是將不同的數據挖掘技術簡單的疊加到一起,那就大錯特錯。它是一個擁有合理的組織機構、優良的運行程序、強大的綜合功能的面向某一個應用行業的系統智慧。一個行業的系統結構越合理,那么內部的消耗就會越小,功效就會越大,系統智慧就會越高,反之就會越低。人和大數據的每一次交流互動就意味著可以以更為完美、更為高效的方法進行分析和計算,通過對不同地域、不同行業、不同部門的海量數據的分析,提取出與當前情況相符的信息,從而為解決問題提供有效的方案。比如美國遭受卡特里娜颶風襲擊后,受災地區的電力、通訊、交通等設施損毀情況嚴重,在這種情況下海岸巡邏隊的隊員就通過GPS的坐標來尋找災民。
上述只是一些淺層次的數據智能,更深層次的是創造數據的新價值。一方面把空間大數據知識應用于各行各業可以產生許多新的知識,可以再次形成新的智慧表達形式,從而形成更深層次的知識挖掘機制,即在知識中挖掘知識。另一方面可以重新定義政府、企業與個人之間的交往互動方式,從而提高互動交流的明確性、準確性和靈活性。從傳統的單維度生產、消費,管理、被管理,向多維度的合作關系轉變。在這種關系下每個人以及每個組織都能夠自由、精確的傳遞信息和獲取信息,從而對對方的行為產生正面影響,從宏觀上實現智能運行效果。
三、結束語
隨著科技的進步,人類的數據處理能力越來越強,人類逐漸認識到傳統的抽樣調查猶如盲人摸象,很難準確的了解總體數據的特征,所以人們開始研究大數據的運用方法。筆者從基本的大數據技術、發現空間知識和萃取數據智能三個方面向大家介紹了大數據下的人類對空間數據挖掘,希望對各位有所幫助。
參考文獻:
[1]潘鵬.Deep Web查詢中的不確定性問題研究[D].山東大學.2010.
[2]黃莉.基于語義關聯的重復數據清理技術研究[D].華中科技大學,2011.
[3]張曉輝.云理論和數據挖掘在水上安全分析中的應用[D].大連海事大學,2011.