摘 要:本文主要講述了運用Hadoop技術存儲海量數據,以建立多用戶高并發高可靠性的糖業智能管理系統。
關鍵詞:Hadoop;大數據;云計算
中圖分類號:TP311.52 文獻標識碼:A 文章編號:1674-7712 (2014) 24-0000-01
糖業智能管理系統涵蓋了GIS(信息管理系統),GPS(全球定位系統),北斗衛星導航,傳感等先進技術,關聯糖業管理部門、糖廠各業務環節及業務流程。糖業智能管理系統中的數據涉及制糖企業在“種植-采砍-運輸-加工-倉儲”整個產業鏈上相關的業務信息,不僅包含結構化的數據,還包含了非結構化數據,結構復雜。而隨著糖業業務的推進,地理數據的空間和時間分辨率的不斷提高,信息系統的數據量的迅速增長,其對海量數據的管理能力和多用戶高效并發訪問的要求也越來越高。在充分考慮系統的性價比、性能、容錯等各方面因素下,本項目采用Hadoop存儲海量的空間數據,以建設具有大用戶高并發高可靠性的應用平臺。
傳統的地理信息系統在數據的存儲和處理上,在構建時通常使用的是小型機,專用存儲設備,大型數據庫管理工具如Oracle,對軟硬件要求高、成本昂貴、橫向擴展困難、計算性能不足。Hadoop的出現為這一問題提供了解決方案。Hadoop采用的是橫向擴展的擴展模式,當現有集群性能、存儲出現不足時,可以簡單地通過添加新的機器來實現集群的擴展,擴展成本低,維護方法簡便。
一、數據存儲方式
糖業智能管理系統的空間數據寫入后很少修改,一般都是用于數據的讀操作,很少有修改的操作,不存在事務型數據存儲上常見的數據共享問題。所以在存儲的時候大量的采用HDFS文件系統,以文件的方式來存儲數據。
二、數據管理機制
數據的存儲采用master/slave的結構,在master上只運行一個namenode,上面存儲了整個文件系統的目錄信息、文件信息以及文件相應的分塊信息,為保證其穩定性,設置兩個冗余,當當前namenode出錯時,立刻把備用namenode換上去。每一個slave上運行一個datanode。在hadoop中,一個文件被劃分成大小固定的多個文件塊,每個塊64M,存儲在datanode節點中。同一個文件塊在不同的節點中有多個副本,每個副本分布在不同的主機上存儲,分塊讀取可以提高并發訪問的速度,多副本存儲可以保證數據的安全穩定性。
HDFS文件系統擅長于存儲大文件,但當HDFS中存儲的文件數超過一定量時,系統的性能會嚴重降低。對于單文件數據量較小的矢量數據,還需要借助HBase分布式數據庫管理系統來實現對其管理。HBase在數據庫的存儲上與傳統關系型數據庫采用了不同的方式,傳統的關系型數據庫是以行為單位來進行存儲,適用于結構化的數據,但地理信息系統中的空間數據大多是非結構化的數據,所以在本項目中按列的方式來存儲,一個列中又可以存儲任意多個子列,可以不用遵守第一范式的約束存儲半結構、非結構的數據,又可以存儲文件較小但文件數量海量的矢量數據。
三、運行機制
運行時,對于大數據量、大處理量的問題,系統采用Hadoop的MapReduce方式進行處理。把一個問題分成多個小問題,各個擊破,然后再把結果進行最后的處理與匯總。
其運行由2個階段組成:Map映射階段和Reduce規約階段。首先把原始大數據集切割成小數據集,通常讓小數據集小于或等于HDFS中一個Block的大小(缺省是64M),這樣能夠保證一個小數據集位于一臺計算機上,便于本地計算。有M個小數據集待處理,就啟動M個Map任務,M個Map任務分布于N臺計算機上并行運行。首先Map函數把一組(Key,Value)輸入,經過Map階段的處理生成一組中間結果(Key,Value),之后將中間結果中有相同key的
綜上所述,糖業智能管理系統數據存儲層采用分布式文件系統和關系數據庫組成。以分布式文件系統存儲糖業系統中的空間數據,這些數據壓縮成數據塊存儲到分布式文件系統中;將用于屬性查詢的空間屬性信息,如名稱、街道、倉儲、車輛信息等,以及圖層描述信息、元數據信息等數據量小、查詢更新頻繁、結構性強的數據存儲在關系數據庫中。分布式半結構數據管理系統HBase在HDFS高性能存儲能力的基礎上提供半結構化空間數據的存儲和管理功能。這種體系架構充分利用分布式存儲集群輕松應對糖業系統中海量空間數據的存儲;計算集群的高I/O帶寬和高運算性能可以滿足對糖業數據的多用戶高并發的訪問需求;關系型數據庫強大的SQL查詢功能可以支持對糖業數據的多樣化查詢。
參考文獻:
[1]孫忠富,杜克明,鄭飛翔.大數據背景下農業信息化的發展[J].中國農業科技導報,2013(06)
[2]孫忠富,杜克明,鄭飛翔.大數據在智慧農業中研究與應用展望[J].中國農業科技導報,2013(06).
[3]孟輝,朱美正,張鋒葉.基于Hadoop的矢量空間數據庫技術[J].計算機與現代化,2014(02).
[作者簡介]趙朝輝(1970.02-),女,湖南邵東人,就職于信息工程學院,教師,副高,學士學位,研究方向:J2EE。