摘要:網格是繼Internet 和Web之后第三次信息技術革命,最終將改變分布式資源的共享和服務方式。該文主要討論了海量數據的產生、存儲、處理,以及其對數據網格技術的需求,分析了歐洲數據網格和LHC計算網格的功能,并探討了網格技術研究的最新情況。
關鍵詞:網格;LHC;數據網格;海量數據
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)35-2108-02
Mass Data Processing Applications of Grid Technology
WEN Quan-sheng, LUO Tai-peng
(Grid Research Center,Polytechnic University School of the People's Liberation Army Corps of Engineers,Nanjing 210007,China)
Abstract: Data Grid is the third revolution of the information technology after Internet and Web,and based on current data management technologies,Data Grid aims to integrate all kinds of resources in the network,such as storage resources,data resources,computing resources,etc.,and establish a unified architecture for data access,store,transfer and management,which offers a new way for mass data management.
Key word: grid;LHC;data grid;mass data
1 引言
目前,在越來越多的領域,例如高能物理、醫學、生物學、天文學等等,數據量正在呈現爆炸性增長。一般認為,當數據量超過普通桌面硬盤的存儲容量時,即可稱之為海量數據。因此這些領域的數據都可以稱作為海量數據。目前,許多領域所產生的數據總和已經達到 TB(terabyte)級,而 PB(petabyte)級的已經出現;不難想象,未來還有可能繼續增加。海量數據具有分布性、異構性等許多新的特征,對存儲資源、計算資源、網絡資源等都提出了極高的性能需求,為傳統的數據管理技術帶來了巨大的挑戰。自20世紀50年代開始,傳統的數據存儲管理方式經歷了人工管理、文件管理、數據庫管理幾個階段,數據存儲從簡單的磁帶、紙帶、卡片發展到現今的大容量服務器,數據管理從無專門的管理軟件發展至數據庫管理系統,數據的共享性不斷增強。但是面對信息爆炸時代的海量數據,現行的數據存儲管理方式仍然體現出了它的不足之處[1]:
1) 海量數據大多分布在不同的地理位置、不同的存儲設備以及不同的數據管理平臺,數據來自多個數據源,形式豐富多樣。而目前尚未有一種數據管理系統可以很好地同時處理數據的分布性和異構性。
2) 計算資源、存儲資源之間存在著相互交流與協作,如何將這些資源有效地整合在一起進行分配和調度,充分利用資源,真正達到共享目的,還存在很大的問題。
3) 如何能提供給用戶一個高效、快速而又方便地數據共享應用平臺也是一個亟待解決的問題。
2 海量數據的產生及特點
2.1 海量數據的產生
1) 生物和醫學:就我國而言 ,生命科學界對網格技術產生了強烈需求:首先是必須開發和應用全新的生物信息處理方法;另外,必須建立高效的超大規模數據信息處理系統[2]。
2) 天文學:虛擬天文臺是新世紀天文學研究的一個重要發展方向。它利用最先進的信息技術和網絡技術將各種天文研究資源以統一的服務模式透明的匯集在統一的系統中。因此,導致世界范圍內天文觀測的數據量以指數級別迅速增長。
3) 高能物理學: 北京譜儀BESIII (Beijing Electron Spectrometer III)是北京正負電子對撞機BEPC (Beijing Electron-Positron Collider)上的大型粒子物理實驗。它每年將產生640TB的數據。除了要求有高性能的海量數據存儲系統外,分析處理BESIII數據需要兩千個CPU[3]。
4) 在其他領域:例如信息檢索、計算幾何、全球氣候建模、大腦研究等等,所產生和需要分析處理的數據量也正在迅速膨脹。
2.2 海量數據的特點
通過對各個領域海量數據的生產、處理、加工、檢索等過程的綜合分析,我們發現海量數據有以下幾個共同的特點:
1) 資源的分布性:主要表現在數據資源的分布性和用戶的分布性。
2) 資源的異構性:主要是數據資源、存儲設備、管理系統、訪問協議的異構性。
3) 數據密集型應用不斷增多:例如前面提到的高能物理方面的研究,另外還包括氣候模擬研究(climatesimulation),生物信息學方面的研究(bioinformatics)等等。
從以上看出,諸多因素共同導致了海量數據對存儲能力、計算能力、處理能力的許多新的高性能的需求。
3 網格技術及應用
3.1 數據網格(Data Grid)
網格就是一個集成的計算與資源環境,或者說是一個計算資源池。數據網格(Data Grid)是網格技術在數據管理方面的延伸,側重于數據的存儲、管理。它可以管理不同地域,不同來源,不同類型的存儲及數據資源,隱藏存儲介質、數據存儲方式、存儲位置等具體的物理細節,提供給網格用戶一個物理上分散、邏輯上集中的應用技術,使他們可以方便、快速、高效地訪問數據[4]。
它可以簡單地描述為:用戶向數據網格提交數據請求,網格接收請求后,查找符合要求的數據,并將找到的結果返回給用戶。整個過程由網格自動完成,對用戶完全透明,他不必關心數據的物理存儲位置,數據的存儲管理方式,因此簡化和方便和了用戶的使用。
3.2 歐洲數據網格(EuroDataGrid)
全球最大的粒子對撞機——歐洲大型強子對撞機(LHC),其加速器將產生的數據將是空前的:每秒產生100MB原始數據,每年將產生需記錄的事件約為1億個,每年產生的數據量就為15PB 。存儲這15PB數據量每年需要使用兩千萬張CD,分析則需要使用100萬臺當今最快的計算機處理器。
科學家們確信解決問題的唯一思想是將存儲和網絡資源全球分布,進行協作式處理和分析。在這個背景下,歐洲數據網格(EuroDataGrid)應運而生了,它成為實現這個“大科學”目標的基礎平臺。EuroDataGrid 要解決以下幾個方面的問題[5]:
1) EuroDataGrid 需要管理成千上萬的處理器和磁盤、千萬億字節(PB)的數據以及每秒萬億比特的網絡帶寬,保證系統的高可擴展性、低成本和易管理性;
2) 保證數據在不同的研究機構、不同的管理者以及不同的管理政策之間安全地分發、復制、緩存,并保持同步性和完整性;
3) 協調不同國籍、不同研究機構的科學工作者的工作,使他們能夠及時分析數據并匯總結果。
為了滿足以上的需求,EuroDataGrid 系統包含了以下幾個主要功能:負載調度和管理海量數據管理、網格監控、網格構造層的資源管理以及海量存貯管理等。
3.3 大型強子對撞機計算網格(LHC Computing Grid)
LCG(LHC Computing Grid)的目的是將若干參與該計劃的研究機構的計算資源整合為一個世界范圍的計算網格。現在已發展為LCG-2。它主要是建立在EDG的基礎上,也就是在EDG的基礎上再封裝了一層,從而使得用戶的網格部署更加方便。LCG-2的基本構成部件有用戶界面、資源代理(RB)、伯克利數據庫信息索引(BDII)、計算資源(CE)、存儲資源(SE)等等[6]。
其主要功能體現在:
1) 海量數據管理:LCG-2的設計是基于歐洲數據網格(EDG),因此,它更加擅長于對海量數據進行管理。LCG-2的數據管理服務由EDG中的副本管理者(RM)和副本管理系統(RMS)提供。RM給用戶提供一個訪問RMS的單一接口。RMS提供的服務包括副本位置服務(RLS)和元數據目錄副本(RMC)。RLS:維護復制文件地位置信息,它由多個本地副本目錄(LRC)組成。RMC:存儲GUID和LFN直接的映射關系,維護其它的元數據信息。
2) 作業管理:LCG-2的作業管理是由負載管理系統(WMS)集中完成的。WMS負責接受提交的作業,并根據作業的要求和可用的資源將作業分配給合適的計算資源。因此,WMS必須先從BDII和RLS中查詢信息。其所提供的所有服務運行在資源代理(RB)機器上。
3) 信息服務:LCG-2中的信息服務基于OpenLDAP,采用Globus中的MDS來實現,提供了資源信息和資源狀態信息,信息按照層次結構進行發布。對于信息的描述,LCG-2采用了GLUE框架。
4) 層次信息服務平臺:LCG-2采用層次式信息服務的平臺。這種平臺避免了P2P方式的頻繁信息更新的缺陷,也避免了分布式管理流程過于冗長的特點,使得LCG-2的信息服務更加快捷。
LCG-2中使用了虛擬組織的概念,力圖以一種靈活、安全的方式實現共享資源。數據管理層次清晰,安全機制中對代理證書的處理尤為出色。它的不足之處在于安裝非常繁瑣,步驟復雜,缺乏詳細的幫助文檔[3.7]。
4 小結
隨著許多科學領域中數據量的急劇增加,海量數據集已經成為一種重要的數據資源。由于現存的數據管理方式已經不能滿足這種新的需求,在這種情況下,便產生了數據網格技術。它將為現今的海量數據管理帶來新的解決思路與方法。
作為是近年來國際上新興的一種重要信息技術,數據網格被稱為21 世紀的IT技術基礎設施,最終將改變人們對分布式資源的使用方式。相信隨著網格研究的發展,在網格應用需求的推動下,網格技術越來越成熟,功能也會越來越強大。
參考文獻:
[1] 甕正科,王新英.Oracle 8.x for Windows NT 實用教程[M].清華大學出版社,2000.
[2] 黃元南.生物網格的應用探索[J].中山大學信息科學與技術學院軟件世界,2005(4).
[3] 孫功星,陳剛.海量數據處理系統的設計和實現[J].高性能計算發展與應用,2008.
[4] 桂小林,網格技術導論[M].北京:郵電大學出版社,2005.
[5] 趙念強,鞠時光.網格計算及網格體系結構研究綜述[J].計算機工程與設計,2006(7).
[6] 陳剛.高能物理網格的建設和使用[J].信息化工作動態,2008(2).
[7] 謝夏,金海,等.四種網格平臺的分析和比較[J].計算機工程與應用,2008(3).