彭 貝,劉黎志*,楊 敏,張晨躍
1.智能機器人湖北省重點實驗室(武漢工程大學),湖北 武漢430205;
2.武漢工程大學計算機科學與工程學院,湖北 武漢430205
大數據技術對環境監測數據分析和綜合決策具有重要意義。我國已建成涵蓋國家、省、市、縣4個層級的環境質量自動監測系統,建立了環境質量實時發布系統[1]。根據全國“互聯網+監管”系統建設的總體設計,在省級設立一個數據監管中心,建立各類監管數據庫。縣、市級環境監測機構負責編制轄區內環境質量報告,上報省環境監測中心站。省環境監測中心站匯總分析各地報告并編制全省環境質量報告。因此,省級中心站收集了全省范圍內各個自動化監測站的數據,其中的空氣質量監測數據庫收集記錄了省內各站點的SO2,NO2,PM10,CO,O3,PM2.5六類污染物的每小時監測均值及相關氣象參數等數據[2-3]。隨著時間的推移,省級中心站存儲的數據量越來越大,形成了有著容量大、種類多、產生速度快、價值高、密度低等特征的大數據[4-5]。在對這些大數據進行統計分析時,SQL Server等傳統關系數據庫會出現存儲空間不足、數據查詢耗時長等問題,而SQL Server上的分區視圖優化技術也有其局限性,已無法滿足高效迅速處理這類數據的需求[6-7]。為了提高省級中心站數據處理速度,提升空氣質量數據分析評價工作效率。本文基于Spark分布式集群環境和Hive數據倉庫,提出了一種多維度的分區存儲策略對省級中心站中的空氣質量大數據查詢進行了優化。
Spark是目前最受歡迎的分布式計算引擎之一,被廣泛應用于大規模數據處理。……