袁存忠,鄧淑丹
(福建省基礎地理信息中心,福建 福州 350003)
地理信息大數據探討
袁存忠,鄧淑丹
(福建省基礎地理信息中心,福建 福州 350003)
隨著信息化程度的不斷提高及云計算與物聯網技術的興起,數據量飛速增長,全球進入大數據時代。本文從大數據發展與特征入手,闡述了地理信息大數據的特征,介紹了地理信息大數據環境下的地理信息云平臺建設思路,探索了地理信息大數據的挖掘應用。
地理信息;大數據;云平臺
隨著計算機技術全面融入社會生活,信息爆炸已經積累到了引發變革的程度[1]。它不僅使世界充斥著比以往更多的信息,其增長速度也在加快。
20世紀90年代,數據倉庫之父Bill Inmon對信息數據賦予了新的特性,即Big Data,隨后大數據名詞在全球蔓延。2008年,Science專刊指出大數據時代已到來[2],EMC與美國工程院院士Eric也拋出了Big Data概念;政府層面上,2012年3月29日,美國奧巴馬宣布每年投資兩億美元進行大數據研究[3-4],同日我國科技部發布的《十二五國家科技計劃信息技術領域2013年度備選項目征集指南》把大數據研究列在先進技術研究首位,2014年,“大數據”首次進入我國政府工作報告,2015年我國政府工作報告明確提出推動大數據發展,設立400億元新興產業創業投資引導基金,為產業創新加油助力。從百姓搜索熱點看,依據百度與google的檢索數據,大數據的名稱從2008年在全球傳播,2013年在我國的檢索熱度陡然增加。
借用百度百科、維基百科等搜索引擎網站的定義:大數據或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內獲取、處理成幫助政府決策、企業經營決策的資訊。
大數據具有大量化(volume)、多樣化(variety)、快速化(velocity)、價值化(value)4個特征[5],只有具備這些特點的數據,才能稱之為大數據。大量化,數據量達PB、ZB,據統計,將2013年全球一年產生的數據印刷成書,可覆蓋美國52次,刻錄成光盤,堆成五堆,每堆均能延伸至月球[6];數據結構多樣,包括文本、機器數據、視頻等多樣化的數據;速度化方面,人類產生的數據量正呈指數級增長,大約每兩年翻一番[7],意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量,該增速將保持持續至2020年,這也要求數據處理分析效率極高;價值化方面,通過對大量相關數據的分析,可預測未來的發展趨勢。
隨著地理信息資源的獲取手段越來越多,且獲取效率高,數據產生速度快,地理信息資源也進入大數據時代,并具備多樣化、體量大、快速化、價值高等特性。
1. 數據多樣化
隨著測繪技術、移動互聯網絡、傳感網、物聯網和智能移動終端的飛速發展,地理信息數據來源越來越多,包括通過人工、機器、人機交互等手段獲取的多樣化地理信息數據,如全外業測繪生產的DLG、DEM,天繪、天鏈、天拓、遙感等系列衛星獲取的遙感影像數據,數字攝影測量形成的DOM、DEM數據,傾斜攝影獲得的點云數據及處理形成的城市三維模型數據,車載移動激光掃描獲取的點云數據、街景數據、DLG、DEM、城市三維模型數據,無人機、風箏、氣球拍攝的影像數據,定位車、手機、手表、鞋等各類移動設備實時產生的位置信息,能見度、溫度、濕度等傳感器獲取的傳感數據,攝像頭獲取的實時視頻數據等。
2. 數據體量大
多樣化的數據獲取手段帶來了地理信息資源數據量的爆炸。負責我省地理信息數據資料管理的福建省基礎地理信息中心2014年地理信息數據的數據量達24 TB,是2013年的2~3倍。在全國范圍內,覆蓋全國的1∶5萬DLG達250 GB、1∶5萬DOM達10 TB,覆蓋全國的1∶1萬DLG約5.3 TB、1∶1萬DOM約350 TB,覆蓋全國一次的0.5 m分辨率影像數據量約65 TB,加上多波段、多時相、多產品、歷史數據、中間數據、重疊區等數據量更大,GNSS一個基準站1 s采樣率1 d的數據大約是50~80 MB,以全國3000個基準站計算,則總數據規模為180~240 GB[8]。在全球范圍內,聯合國全球地理信息管理(UN-GGIM)估計,全球每天會產生2503萬字節的數據,其中顯著的部分是位置感知[9]。
3. 數據快速化
獲取速度上,我國中高分辨率的影像數據獲取接近實時,高分二號同一地區重復采集周期為4 d,資源三號同一地區重復采集周期為5 d,傳感器與移動設備獲取數據的周期為實時;處理速度上,需響應“以秒甚至毫秒計的流數據”;時效性方面,數據的時效性可按分鐘計,如實時路況數據的時效性達10 min。
4. 數據價值高
地理信息數據蘊藏著豐富的價值,據《大數據市場:2012~2018年全球形勢、發展趨勢預測》預測,在個人地理信息方面,大數據將為服務商帶來超過1000億美元的收入,為用戶帶來超過7000億美元的價值。
5. 與傳統地理信息的比較
結合以上特征分析,地理信息大數據與傳統的地理信息數據相比,發生了很大的變化,見表1。定位不同,從主要服務政府部門轉變為服務大眾;驅動性上,除完成政府下達的地理信息數據采集任務外,還增加了自發地理信息(volunteer geographical information,VGI)采集,一種新型的基于網絡的大眾協同地理位置測量和地理信息采集[10];地理信息數據的生產者從政府部門、企事業單位、具有測繪資質的公司,轉變為每個人都是地理信息數據的采集者;數據量從MB、GB到TB、PB的轉變;部分數據更新頻率達到了實時;質量方面,之前地理信息數據成果需通過具有資質的單位質檢,才能投入使用,質量要求非常高,但在大數據環境里,面對如此快速化、體量大的數據,傳統的質檢方法已不能滿足要求,必須通過計算機系統對地理信息數據進行質量控制,質量控制也沒有之前嚴格;地理信息大數據大多沒有元數據信息,而傳統地理信息數據擁有非常完整的元數據信息。

表1 地理信息大數據與傳統地理信息數據比較
地理信息大數據已為實現價值奠定了基礎,而數據處理分析能力是達到智慧的關鍵,因此,數據處理分析能力至關重要。針對地理信息大數據的特性,要實現大數據到智慧的轉變,需采用云存儲技術、關系與非關系型數據庫存儲巨量數據,通過人工智能與云計算技術,按照一定的規則對可信度低、未質檢的數據進行抽取,清洗、轉換形成可用的地理信息數據,利用統計分析、數據挖掘技術來預測、洞察未來發展情況,而這一切可通過地理信息云平臺實現。
地理信息云平臺的定位不僅是支持桌面端與Web端應用,為企業內部與政府內部服務的平臺,還是服務型的、跨部門的、服務大眾的云平臺。
地理信息云平臺需集成各類趨勢化的技術與數據。數據管理方面支持3D數據、公共地理框架數據、點云、街景、實時位置及感知數據,支持的數據格式包括非關系型數據庫格式,關系型數據庫格式,表格、圖片等文件格式,互聯網社會媒體信息,傳感網絡設備傳輸的流數據,支持地理信息數據服務的接入。在功能方面,除具備傳統支持可視化查詢、編輯、分析、共享交換、應用開發功能外,還具備在線的地理信息關聯觸發與地理信息圍欄篩選的能力,其處理結果可為系列消息、通信信息、郵件、地圖成果,預測結果等;在使用上,用戶可基于各類終端訪問地理信息云平臺,并基于云平臺訂閱相關數據與功能,便可得到滿意的結果,無需關心數據在哪,如何處理,真正開啟全新的用戶體驗。
百度大數據產品使地理信息大數據應用廣為人知,百度遷徙圖是通過統計分析數億百度手機用戶遷徙軌跡數據形成的,其直觀地反映了人口遷徙情況,為交通部門進行春運交通調度提供指導,“百度天眼”可實時“嗅探”飛機運行狀態,為百姓出行規劃提供指導。
地理信息云平臺實現各類資源的共享交換,使地理信息應用從推動應用轉變為利用相關信息挖掘應用,為政府、企業、社會公眾的決策提供服務。地理信息大數據還可應用于地理信息數據更新、城市信息挖掘、公共安全管理、交通出行、環保監測、衛生防疫等領域。
1) 地理信息數據更新應用。對用戶在微博、微信中分享的海量位置信息進行聚合、篩選后,更新地名地址、興趣點數據,借助人口與車輛的流動數據更新道路,確保地理信息數據資料的鮮活性。
2) 城市人文信息挖掘應用。燈光直接反映著城市工業化水平、城鎮化水平、人口集中分布情況[11],利用遙感衛星夜間影像可以獲取各城市的經濟要素。如利用夜光的減少情況,可評估居民大規模遷徙與戰爭情況;通過經濟統計數據、夜光影像、人口分布圖、土地覆蓋類型數據等,獲得格網化的GDP數據,可使政府精準掌握經濟區域發展情況。
3) 公安應急應用。對于開放式的廣場,公安部門很難掌控人口聚集程度,難以給出科學的人口流量控制措施,極易出現踩踏事件。因此可借助手機熱點大數據計算出每平方米聚集的人口數量,結合手機熱點的流動趨勢,判斷每平方米人口聚集量的變化趨勢,從而及時做出相應的應急措施,避免因人口超負荷聚集帶來的傷亡。
4) 交通出行規劃應用。百姓出行大多會根據實時路況數據,避開擁堵路段,選擇寬松路段行駛,而寬松路段則因車流量快速聚集變成新的擁堵路段,因此導航系統可結合大量歷史擁堵的變化情況,基于當前車輛行駛的趨勢性,如路口車輛左轉、前行等趨勢性數據,分析出合理的路線告知用戶,避免從一個擁堵路段進入另一個擁堵路段。
5) 環保領域的霧霾監測應用。對污染企業分布信息、風向走勢、道路分布、交通流量、人群軌跡等大量的數據信息進行匯集、處理分析,可制作可視化的霧霾分布圖及霧霾變化趨勢圖,從而為政府部門提前應對霧霾天氣、開展環境整治等方面提供指導。
6) 衛生領域,可判斷流感蔓延情況。對用戶在百度、搜搜等搜索引擎網站輸入的咳嗽、發燒等熱點檢索信息,可分析流感疫情的蔓延情況,為政府部門應對快速蔓延的流感病提供第一手資料。
隨著地理信息數據的獲取手段越來越多,地理信息數據逐步進入大數據時代。在地理信息大數據環境里,用戶無需發愁地理信息數據資源的覆蓋性與現勢性,而更關注于數據如何組織管理,如何獲取可靠的數據,也不再擔心地理信息數據資源無處可用,更專注于通過相關信息挖掘應用,更好地服務于政府、企事業單位、社會公眾。然而,大數據時代個人隱私面臨嚴峻挑戰[12],如何防止私人信息泄密是值得研究的問題。我們將積極擁抱地理信息大數據,開發地理信息云平臺,深入挖掘數據寶藏,促進地理信息產業跨越發展。
[1] 朱金莉.大數據時代對傳統新聞媒體的顛覆與嬗變[J].學術論壇,2015,38(1):152-155.
[2] GRAHAM-ROWE D,GOLDSTON D,DOCTOROW C,et al.Big Data:Science in the Petabyte Era[J].Nature,2008(455):7209.
[3] 喬朝飛.大數據及其對測繪地理信息工作的啟示[J].測繪通報,2013(1):107-108.
[4] 王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.
[5] 曹磊,陳薇娜,繆其浩,等.大數據:數字世界的智慧基因[N].文匯報,2011-11-08(11).
[6] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[7] IDC預測:全球數據每兩年翻一番[N].計算機世界,2011-07-04(35).
[8] 劉經南.大數據時代的泛在測繪與位置服務[EB/OL].2013-09-24[2015-09-30].http:∥news.3snews.net/2013/0924/27016.html.
[9] 3S新聞周刊.大數據未來在于空間關聯分析[EB/OL].2013-07-16[2016-01-08].http:∥news.3snews.net/2013/exclusive_0716/25600.html.
[10] GOODCHILD M F.Citizens as Sensors:The World of Volunteered Geography[J].GeoJournal,2007,69(4):211-221.
[11] 曹麗琴,李平湘,張良培.基于DMSP/OLS夜間燈光數據的城市人口估算——以湖北省各縣市為例[J].遙感信息,2009(1):83-87.
[12] 劉雅輝,張鐵贏,靳小龍,等.大數據時代的個人隱私保護[J].計算機研究與發展,2015,52(1):229-247.
Discussion of Geographic Information Big Data
YUAN Cunzhong,DENG Shudan
2016-01-29
袁存忠(1969—),男,碩士,教授級高級工程師,主要從事空間數據庫、地理信息工程應用研究工作。E-mail:437309477@163.com
鄧淑丹。E-mail:dengshu917@163.com
袁存忠,鄧淑丹.地理信息大數據探討[J].測繪通報,2016(12):105-107.
10.13474/j.cnki.11-2246.2016.0412.
P208
B
0494-0911(2016)12-0105-03