王承統
摘要:隨著近年來礦區安全生產需求的增加,各個監測站監測間隔縮短,監測指標增加,系統需要處理的數據會隨之增大。基于這種大量數據分布、處理集中的應用場景,文章論證了云計算在礦區信息監測中的應用前景,及其在實現礦區檢測信息的高度統一,提高信息的時效性、處理效率,增強礦區安全性等方面的重要性。
關鍵詞:云計算;MapReduce;Hadoop;分布式文件系統;礦區信息監測
中圖分類號:TP393文獻標識碼:A文章編號:1009-2374(2014)24-0043-02
1云計算技術概述
云計算是一種商業計算模型,它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算能力、存儲空間和信息服務,這些資源池稱為“云”?!霸啤笔且恍┛梢宰晕揖S護和管理的虛擬計算資源,通常是一些大型服務器集群,包括計算服務器、存儲服務器和寬帶資源等(劉鵬,2010)。
目前,云計算技術已成為了IT產業的關注焦點,得到了各大主流公司的支持。包括Google、微軟、IBM、Amazon在內的許多IT業巨頭都在云計算上進行了重點研究。例如,Google的云計算基礎架構模式包括4個相互獨立又緊密結合在一起的系統:Google File System分布式文件系統(Sanjay Ghemawat等,2003)、針對Google應用程序特點提出的MapReduce編程模式(Jeffrey Dean等,2004)、分布式鎖機制Chubby(Burrows M,2006)以及Google開發的模型簡化的大規模分布式數據庫BigTable(Fay Chang等,2006)。
云計算在學術研究方面也取得了重大進展,這主要包括兩個方面:一是分布式平臺基礎設施的構建,另一個是云計算分布式平臺的開發編程。在分布式平臺的基礎設施研究上,主要包括微軟的Dryad框架、Amazon公司的Dynamo框架和Ask.com公司的Neptune框架(DeCandia等,2007)。
2Hadoop云計算關鍵技術分析
Hadoop是MapReduce的開源實現,是著名的開源組織Apache開發的一個開源云計算系統,是目前在學術和工業界應用較為廣泛的云計算軟件。Hadoop起源于Apache的另外兩個開源項目:全文檢索軟件Lucene和Web搜索系統Nutch。Hadoop的主要模塊開始是包含在Nutch軟件中,主要用于提高開源Web搜索引擎性能和擴展性。從Nutch 8.0開始,Hadoop逐漸獨立形成一個開源項目,并得到迅速的發展。Hadoop的關鍵技術包括HDFS分布式存儲技術、HBase數據管理技術、MapReduce編程模型。
2.1HDFS分布式存儲技術
為保證數據的高可用、高可靠和經濟性,Hadoop的數據采用HDFS分布式文件系統進行存儲。由于HDFS的開源優勢,目前有很大一部分IT廠商,包括yahoo!、Intel、阿里巴巴的云存儲計劃采用的均為HDFS的數據存儲技術(劉鵬,2010)。
HDFS系統是受Google文件系統(Ghemawat等,2003)啟發,是建立在大型服務器集群上可以安全可靠地存儲海量數據(可以達到TB甚至PB級)的文件系統,具有高度容錯性。它可以和MapReduce編程模型很好的結合,是分布式計算的存儲基礎。
一個HDFS集群是由一個名稱節點(Namenode)和一定數目的數據節點(Datanodes)組成。名稱節點是一個中心服務器,負責管理文件系統的命名空間(Namespace)以及客戶端對文件的訪問的元數據。數據節點在集群中一般是一個節點一個,負責管理它所在節點上的實際數據的存儲。客戶端聯系名稱節點以獲取文件的元數據,而真正的文件I/O操作是直接和數據節點進行交互的。
2.2HBase數據管理技術
與關系型數據庫不同,HBase是按照“列”存儲的稀疏列/行矩陣,表內數據非?!跋∈琛?,不同行、列數據可以大不相同。在HBase數據庫中空的數據單元不占用任何存儲空間,這種技術特點使得HBase特別適合管理具有稀疏特征的大型數據表。按照互聯網地圖發布的要求,柵格數據按照分辨率分為若干層,每一層都包含大量的柵格地圖圖片數據,數據從數百個乃至上千萬個,每層包含的圖片數量存在巨大差異。這就導致每個數據庫表中必定有大量單元是沒有數據的,是一個非常稀疏的表格,所以適合使用HBase存儲和管理瓦片地圖圖片數據。HBase物理模型是把邏輯模型中的一個“行”進行分割,并按照“列族”存儲。
2.3MapReduce編程模型技術
MapReduce編程模式由Google于2004年開發,用于在超大集群下進行T級以上海量數據的計算處理(Jeffrey Dean等,2004)。它以Key-Value對的思維方式來考慮問題,開發人員只需要寫Map和Reduce兩個操作就可以簡單快速的處理海量的數據。HadoopMapReduce引擎由JobTracker(作業服務器)和Task Tracker(任務服務器)組成,其運行框架如圖2-3所示。Job Tracker(Google 稱為Master)是負責管理調度所有作業,它是整個系統分配任務的核心。Task Tracker具體負責執行用戶定義操作,每個作業被分割為任務集,包括Map任務和Reduce任務,任務是具體執行的基本單元。
3基于MapReduce的礦區信息監測云平臺結構
根據MapReduce的體系架構,設在礦井內各監測點的監測信息首先通過以太網傳送至處理集群,并存儲在數據服務器中,總控室的監測員通過運管服務器,調度后臺集群中適當的結點對監測數據進行處理,然后將結果返回,同時可以將處理后的結果反饋給接入無線網絡的移動設備,達到隨時監測和預警的目的,具體架構圖如圖1所示。
從上圖可以看出,礦區監測云系統可以將各監測站的數據有效的結合起來,利用MapReduce調度后臺處理結點形成高效的信息處理機制和反饋機制,提高了礦區監測的實時性和穩定性。
圖1礦區監測云系統架構圖
4結語
云計算的分布式存儲以及數據管理、節點管理可以使大量的信息協同處理,客戶端的任務可以由運管服務器自動分配到可用的計算資源和存儲資源。以礦區信息監測為目的的云系統可以將各分散監測站的監測信息有效的整合在一起,形成快速實時的信息處理和反饋系統,為礦區的安全生產提供保障。
參考文獻
[1]?Luis M V,Luis Rodero-Merino,Juan Caceres,
?Maik Lindner.A break in the clouds:toward a cloud
?definition[J].ACM SIGCOMM Computer
?Communication Review, 2009,39(1).
[2]?LUO Jun-zhou,JIN Jia-hui,SONG Ai-bo,DONG
?Fang,云計算:體系架構與關鍵技術[J].通信學,
?2011,(7).
[3]?馮登國,張敏,張妍,徐震,云計算安全研究[J].軟
?件學報,Journal of Software,2011,(1).
摘要:隨著近年來礦區安全生產需求的增加,各個監測站監測間隔縮短,監測指標增加,系統需要處理的數據會隨之增大?;谶@種大量數據分布、處理集中的應用場景,文章論證了云計算在礦區信息監測中的應用前景,及其在實現礦區檢測信息的高度統一,提高信息的時效性、處理效率,增強礦區安全性等方面的重要性。
關鍵詞:云計算;MapReduce;Hadoop;分布式文件系統;礦區信息監測
中圖分類號:TP393文獻標識碼:A文章編號:1009-2374(2014)24-0043-02
1云計算技術概述
云計算是一種商業計算模型,它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算能力、存儲空間和信息服務,這些資源池稱為“云”?!霸啤笔且恍┛梢宰晕揖S護和管理的虛擬計算資源,通常是一些大型服務器集群,包括計算服務器、存儲服務器和寬帶資源等(劉鵬,2010)。
目前,云計算技術已成為了IT產業的關注焦點,得到了各大主流公司的支持。包括Google、微軟、IBM、Amazon在內的許多IT業巨頭都在云計算上進行了重點研究。例如,Google的云計算基礎架構模式包括4個相互獨立又緊密結合在一起的系統:Google File System分布式文件系統(Sanjay Ghemawat等,2003)、針對Google應用程序特點提出的MapReduce編程模式(Jeffrey Dean等,2004)、分布式鎖機制Chubby(Burrows M,2006)以及Google開發的模型簡化的大規模分布式數據庫BigTable(Fay Chang等,2006)。
云計算在學術研究方面也取得了重大進展,這主要包括兩個方面:一是分布式平臺基礎設施的構建,另一個是云計算分布式平臺的開發編程。在分布式平臺的基礎設施研究上,主要包括微軟的Dryad框架、Amazon公司的Dynamo框架和Ask.com公司的Neptune框架(DeCandia等,2007)。
2Hadoop云計算關鍵技術分析
Hadoop是MapReduce的開源實現,是著名的開源組織Apache開發的一個開源云計算系統,是目前在學術和工業界應用較為廣泛的云計算軟件。Hadoop起源于Apache的另外兩個開源項目:全文檢索軟件Lucene和Web搜索系統Nutch。Hadoop的主要模塊開始是包含在Nutch軟件中,主要用于提高開源Web搜索引擎性能和擴展性。從Nutch 8.0開始,Hadoop逐漸獨立形成一個開源項目,并得到迅速的發展。Hadoop的關鍵技術包括HDFS分布式存儲技術、HBase數據管理技術、MapReduce編程模型。
2.1HDFS分布式存儲技術
為保證數據的高可用、高可靠和經濟性,Hadoop的數據采用HDFS分布式文件系統進行存儲。由于HDFS的開源優勢,目前有很大一部分IT廠商,包括yahoo!、Intel、阿里巴巴的云存儲計劃采用的均為HDFS的數據存儲技術(劉鵬,2010)。
HDFS系統是受Google文件系統(Ghemawat等,2003)啟發,是建立在大型服務器集群上可以安全可靠地存儲海量數據(可以達到TB甚至PB級)的文件系統,具有高度容錯性。它可以和MapReduce編程模型很好的結合,是分布式計算的存儲基礎。
一個HDFS集群是由一個名稱節點(Namenode)和一定數目的數據節點(Datanodes)組成。名稱節點是一個中心服務器,負責管理文件系統的命名空間(Namespace)以及客戶端對文件的訪問的元數據。數據節點在集群中一般是一個節點一個,負責管理它所在節點上的實際數據的存儲??蛻舳寺撓得Q節點以獲取文件的元數據,而真正的文件I/O操作是直接和數據節點進行交互的。
2.2HBase數據管理技術
與關系型數據庫不同,HBase是按照“列”存儲的稀疏列/行矩陣,表內數據非?!跋∈琛?,不同行、列數據可以大不相同。在HBase數據庫中空的數據單元不占用任何存儲空間,這種技術特點使得HBase特別適合管理具有稀疏特征的大型數據表。按照互聯網地圖發布的要求,柵格數據按照分辨率分為若干層,每一層都包含大量的柵格地圖圖片數據,數據從數百個乃至上千萬個,每層包含的圖片數量存在巨大差異。這就導致每個數據庫表中必定有大量單元是沒有數據的,是一個非常稀疏的表格,所以適合使用HBase存儲和管理瓦片地圖圖片數據。HBase物理模型是把邏輯模型中的一個“行”進行分割,并按照“列族”存儲。
2.3MapReduce編程模型技術
MapReduce編程模式由Google于2004年開發,用于在超大集群下進行T級以上海量數據的計算處理(Jeffrey Dean等,2004)。它以Key-Value對的思維方式來考慮問題,開發人員只需要寫Map和Reduce兩個操作就可以簡單快速的處理海量的數據。HadoopMapReduce引擎由JobTracker(作業服務器)和Task Tracker(任務服務器)組成,其運行框架如圖2-3所示。Job Tracker(Google 稱為Master)是負責管理調度所有作業,它是整個系統分配任務的核心。Task Tracker具體負責執行用戶定義操作,每個作業被分割為任務集,包括Map任務和Reduce任務,任務是具體執行的基本單元。
3基于MapReduce的礦區信息監測云平臺結構
根據MapReduce的體系架構,設在礦井內各監測點的監測信息首先通過以太網傳送至處理集群,并存儲在數據服務器中,總控室的監測員通過運管服務器,調度后臺集群中適當的結點對監測數據進行處理,然后將結果返回,同時可以將處理后的結果反饋給接入無線網絡的移動設備,達到隨時監測和預警的目的,具體架構圖如圖1所示。
從上圖可以看出,礦區監測云系統可以將各監測站的數據有效的結合起來,利用MapReduce調度后臺處理結點形成高效的信息處理機制和反饋機制,提高了礦區監測的實時性和穩定性。
圖1礦區監測云系統架構圖
4結語
云計算的分布式存儲以及數據管理、節點管理可以使大量的信息協同處理,客戶端的任務可以由運管服務器自動分配到可用的計算資源和存儲資源。以礦區信息監測為目的的云系統可以將各分散監測站的監測信息有效的整合在一起,形成快速實時的信息處理和反饋系統,為礦區的安全生產提供保障。
參考文獻
[1]?Luis M V,Luis Rodero-Merino,Juan Caceres,
?Maik Lindner.A break in the clouds:toward a cloud
?definition[J].ACM SIGCOMM Computer
?Communication Review, 2009,39(1).
[2]?LUO Jun-zhou,JIN Jia-hui,SONG Ai-bo,DONG
?Fang,云計算:體系架構與關鍵技術[J].通信學,
?2011,(7).
[3]?馮登國,張敏,張妍,徐震,云計算安全研究[J].軟
?件學報,Journal of Software,2011,(1).
摘要:隨著近年來礦區安全生產需求的增加,各個監測站監測間隔縮短,監測指標增加,系統需要處理的數據會隨之增大。基于這種大量數據分布、處理集中的應用場景,文章論證了云計算在礦區信息監測中的應用前景,及其在實現礦區檢測信息的高度統一,提高信息的時效性、處理效率,增強礦區安全性等方面的重要性。
關鍵詞:云計算;MapReduce;Hadoop;分布式文件系統;礦區信息監測
中圖分類號:TP393文獻標識碼:A文章編號:1009-2374(2014)24-0043-02
1云計算技術概述
云計算是一種商業計算模型,它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算能力、存儲空間和信息服務,這些資源池稱為“云”?!霸啤笔且恍┛梢宰晕揖S護和管理的虛擬計算資源,通常是一些大型服務器集群,包括計算服務器、存儲服務器和寬帶資源等(劉鵬,2010)。
目前,云計算技術已成為了IT產業的關注焦點,得到了各大主流公司的支持。包括Google、微軟、IBM、Amazon在內的許多IT業巨頭都在云計算上進行了重點研究。例如,Google的云計算基礎架構模式包括4個相互獨立又緊密結合在一起的系統:Google File System分布式文件系統(Sanjay Ghemawat等,2003)、針對Google應用程序特點提出的MapReduce編程模式(Jeffrey Dean等,2004)、分布式鎖機制Chubby(Burrows M,2006)以及Google開發的模型簡化的大規模分布式數據庫BigTable(Fay Chang等,2006)。
云計算在學術研究方面也取得了重大進展,這主要包括兩個方面:一是分布式平臺基礎設施的構建,另一個是云計算分布式平臺的開發編程。在分布式平臺的基礎設施研究上,主要包括微軟的Dryad框架、Amazon公司的Dynamo框架和Ask.com公司的Neptune框架(DeCandia等,2007)。
2Hadoop云計算關鍵技術分析
Hadoop是MapReduce的開源實現,是著名的開源組織Apache開發的一個開源云計算系統,是目前在學術和工業界應用較為廣泛的云計算軟件。Hadoop起源于Apache的另外兩個開源項目:全文檢索軟件Lucene和Web搜索系統Nutch。Hadoop的主要模塊開始是包含在Nutch軟件中,主要用于提高開源Web搜索引擎性能和擴展性。從Nutch 8.0開始,Hadoop逐漸獨立形成一個開源項目,并得到迅速的發展。Hadoop的關鍵技術包括HDFS分布式存儲技術、HBase數據管理技術、MapReduce編程模型。
2.1HDFS分布式存儲技術
為保證數據的高可用、高可靠和經濟性,Hadoop的數據采用HDFS分布式文件系統進行存儲。由于HDFS的開源優勢,目前有很大一部分IT廠商,包括yahoo!、Intel、阿里巴巴的云存儲計劃采用的均為HDFS的數據存儲技術(劉鵬,2010)。
HDFS系統是受Google文件系統(Ghemawat等,2003)啟發,是建立在大型服務器集群上可以安全可靠地存儲海量數據(可以達到TB甚至PB級)的文件系統,具有高度容錯性。它可以和MapReduce編程模型很好的結合,是分布式計算的存儲基礎。
一個HDFS集群是由一個名稱節點(Namenode)和一定數目的數據節點(Datanodes)組成。名稱節點是一個中心服務器,負責管理文件系統的命名空間(Namespace)以及客戶端對文件的訪問的元數據。數據節點在集群中一般是一個節點一個,負責管理它所在節點上的實際數據的存儲??蛻舳寺撓得Q節點以獲取文件的元數據,而真正的文件I/O操作是直接和數據節點進行交互的。
2.2HBase數據管理技術
與關系型數據庫不同,HBase是按照“列”存儲的稀疏列/行矩陣,表內數據非常“稀疏”,不同行、列數據可以大不相同。在HBase數據庫中空的數據單元不占用任何存儲空間,這種技術特點使得HBase特別適合管理具有稀疏特征的大型數據表。按照互聯網地圖發布的要求,柵格數據按照分辨率分為若干層,每一層都包含大量的柵格地圖圖片數據,數據從數百個乃至上千萬個,每層包含的圖片數量存在巨大差異。這就導致每個數據庫表中必定有大量單元是沒有數據的,是一個非常稀疏的表格,所以適合使用HBase存儲和管理瓦片地圖圖片數據。HBase物理模型是把邏輯模型中的一個“行”進行分割,并按照“列族”存儲。
2.3MapReduce編程模型技術
MapReduce編程模式由Google于2004年開發,用于在超大集群下進行T級以上海量數據的計算處理(Jeffrey Dean等,2004)。它以Key-Value對的思維方式來考慮問題,開發人員只需要寫Map和Reduce兩個操作就可以簡單快速的處理海量的數據。HadoopMapReduce引擎由JobTracker(作業服務器)和Task Tracker(任務服務器)組成,其運行框架如圖2-3所示。Job Tracker(Google 稱為Master)是負責管理調度所有作業,它是整個系統分配任務的核心。Task Tracker具體負責執行用戶定義操作,每個作業被分割為任務集,包括Map任務和Reduce任務,任務是具體執行的基本單元。
3基于MapReduce的礦區信息監測云平臺結構
根據MapReduce的體系架構,設在礦井內各監測點的監測信息首先通過以太網傳送至處理集群,并存儲在數據服務器中,總控室的監測員通過運管服務器,調度后臺集群中適當的結點對監測數據進行處理,然后將結果返回,同時可以將處理后的結果反饋給接入無線網絡的移動設備,達到隨時監測和預警的目的,具體架構圖如圖1所示。
從上圖可以看出,礦區監測云系統可以將各監測站的數據有效的結合起來,利用MapReduce調度后臺處理結點形成高效的信息處理機制和反饋機制,提高了礦區監測的實時性和穩定性。
圖1礦區監測云系統架構圖
4結語
云計算的分布式存儲以及數據管理、節點管理可以使大量的信息協同處理,客戶端的任務可以由運管服務器自動分配到可用的計算資源和存儲資源。以礦區信息監測為目的的云系統可以將各分散監測站的監測信息有效的整合在一起,形成快速實時的信息處理和反饋系統,為礦區的安全生產提供保障。
參考文獻
[1]?Luis M V,Luis Rodero-Merino,Juan Caceres,
?Maik Lindner.A break in the clouds:toward a cloud
?definition[J].ACM SIGCOMM Computer
?Communication Review, 2009,39(1).
[2]?LUO Jun-zhou,JIN Jia-hui,SONG Ai-bo,DONG
?Fang,云計算:體系架構與關鍵技術[J].通信學,
?2011,(7).
[3]?馮登國,張敏,張妍,徐震,云計算安全研究[J].軟
?件學報,Journal of Software,2011,(1).