沈鳳嬌,余曉敏
(1.湖北省基礎地理信息中心,湖北 武漢 430070)
習近平總書記在黨的十九大報告中提出,推動互聯網、大數據、人工智能和實體經濟深度融合,建設數字中國、智慧社會,城市是人口聚集、社會發展最活躍的地區,因此智慧城市建設是建設智慧社會的重要組成部分,而時空大數據平臺是智慧城市建設與運行的基礎支撐[1]。時空大數據平臺的構成包含了時空大數據和云平臺,其中云平臺通過云計算等技術,為時空大數據的存儲、管理、可視化、應用等提供基礎支撐。
時空大數據平臺是基礎時空數據、公共專題數據、物聯網實時感知數據、互聯網在線抓取數據根據本地特色擴展數據及其獲取、感知、存儲、處理、共享、集成、挖掘分析、泛在服務的技術系統,連同云計算環境、政策、標準、機制等支撐環境,以及時空基準共同組成的時空基礎設施,其結構如圖1所示[1]。

圖1 時空大數據平臺構成
空間云計算是時空大數據平臺建設最基礎的支撐。通過云計算技術,一方面能實現資源共享,通過資源管理實現計算資源的統一管理,達到資源共享、規模效應;另一方面,還能基于智能化、自動化的資源調度,實現資源的按需調取和負載均衡[2]。
空間云計算支撐一方面依托空間數據云存儲,使用多個位于虛擬機的計算節點,構建高性能并行計算框架,可實現子任務級的快速處理;另一方面,提供適合空間數據的多粒度并行計算模型與插件框架,為上層服務開發算法插件提供基礎支撐。如圖2所示為空間云計算支撐的原理圖[3]。

圖2 空間云計算支撐原理圖
空間云計算支撐的業務流程如圖3所示。

圖3 空間云計算支撐業務流程圖
空間云計算支撐提供子任務級批處理計算服務與算法插件框架,主要包括并行任務調度,空間計算插件框架與集群狀態監控等功能模塊,如圖4所示。

圖4 空間云計算支撐功能模塊組成
并行任務調度模塊用于接收任務、分解任務,為任務分配計算資源,并將任務信息傳遞給計算插件框架,由計算插件框架調用具體算法插件實施處理過程。
空間計算插件框架提供包含插件執行、管理、注冊、并行計算接口、影像處理鏈的基礎框架,為插件算法編寫提供支持。
集群狀態監控模板提供任務與節點狀態監控功能。
借助成熟的開源分布式計算平臺Hadoop生態圈和Tensorflow深度學習框架來構建時空信息云平臺的云計算平臺。主要包括3方面內容:一是通過Apache Ambari web管理平臺hadoop生態圈,增加accumulo、HBASE分布式索引數據庫,打通空間大數據與HDFS、HBase等列存儲結構壁壘——快速地跨多臺機器處理大型數據集合,實現海量數據索引的快速檢索存儲;二是增加Storm流式處理框架,基于內存計算,擴展云計算平臺在實時數據接入的時空數據的處理能力;三是引入Tensorflow分布式深度學習框架,用于支持神經網絡密集型計算應用開發,并結合Kubernetes和Docker容器技術,注冊Tensorflow服務到Kubernetes框架的POD單元,實現計算節點的彈性伸縮,實現容器的集群資源管理、容器部署彈性伸縮,容器運行的狀態管控,并支持GPU集群深度學習計算應用。如圖5所示為本時空大數據平臺的云計算基礎平臺架構實現。

圖5 云計算基礎平臺架構
底層為基礎設施,為云計算平臺提供基礎硬件服務資源。中間層為云計算平臺的基礎構成,主要包括四部分:即①Hadoop分布式計算生態圈,主要包括了HDFS分布式文件系統、Yarn資源管理器、MapReduce分布式計算框架、Spark計算框架、Hive數據倉庫、Zookeeper分布式協調服務、Kafka消息系統、Ambari安裝部署配置管理工具等;②Storm分布式流計算框架;③Tensorflow分布式深度學習計算框架;④Kubernetes集群調度管理框架。
云計算應用服務指的是基于云計算基礎平臺的接口進行應用服務開發,如離線塊數據計算、實時流計算、數據挖掘等,后文將要介紹的典型云計算應用服務,如多尺度影像的快速切片、位置數據路網實時匹配、視頻數據典型目標動態檢測就是基于該基礎平臺接口進行的擴展開發,使用空間云計算的組件接口來達成數據的實時性、高效性、安全性處理。
采用hadoop大數據分布式計算框架,基于高性能地理信息數據處理引擎Geotrellis,對多尺度海量遙感影像大數據進行導入,利用Spark RDD任務并行特性、高可用性對原始影像進行快速瓦片分割計算;采用Accumulo分布式列式索引數據庫對瓦片進行存儲,并支持瓦片柵格服務發布時進行的高速大數據查詢,實現影像發布的高可用。解決了傳統方式在大影像數據從磁盤加載比較耗時、IO效率存在瓶頸、程序處理異常不可恢復、服務遷移不便的問題,增強數據處理效率吞吐量,提高用戶體驗以及影像發布的實際應用價值,服務流程如圖6所示。

圖6 遙感影像快速切片服務流程
海量的移動位置傳感器位置數據接入平臺后,實時消息Kafka服務將原始位置信息導入Storm流式接收器,將城市中的海量交通設備位置流式數據通過高效實時的Storm計算框架進行分發調度,分布至各個運算節點進行運算;根據初始定位結果,利用路網數據庫,實時計算處理,將每次移動目標點的位置坐標進行糾正,投影到實際道路位置,并實時反饋至外部消費服務用戶,從而使用戶獲取精度更高的實時位置,減少位置信號噪聲所帶來的干擾,服務流程如圖7所示。

圖7 位置數據路網實時匹配計算服務業務流程圖
為了克服傳統圖像識別對視頻這類隨機復雜數據的環境識別能力弱、誤報率高、計算實時性差的問題,采用分布式深度神經網絡計算技術平臺框架,通過構建圖像卷積目標分割模型,對視頻傳感器實時流進行處理,實現對當前環境的人、車等典型對象內容實時高準確率的識別與分割,達到典型視頻圖像內容識別分類的目的,服務流程如圖8所示。

圖8 視頻數據典型動態目標檢測服務流程圖
智慧城市時空大數據平臺建設是提升城市治理能力、解決城市問題的具體舉措,也是全面履行好自然資源部職責的切實行動,對于促進城市政務信息資源整合共享、實現信息資源深度應用、支撐政府科學決策具有重要意義[14]。