摘 要:在分析科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境下數(shù)據(jù)挖掘之特點(diǎn)的基礎(chǔ)上,提出了科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)框架。科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)以網(wǎng)格服務(wù)的形式提供了科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境下的數(shù)據(jù)挖掘解決方案。與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)相比,科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)具有諸多優(yōu)點(diǎn),更適合科學(xué)數(shù)據(jù)網(wǎng)格和科學(xué)數(shù)據(jù)庫環(huán)境。目前已經(jīng)實(shí)際應(yīng)用于幾個(gè)數(shù)據(jù)庫中,不僅具有簡(jiǎn)單的查詢檢索功能,而且可以進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析及知識(shí)發(fā)現(xiàn),進(jìn)一步提高了科學(xué)數(shù)據(jù)網(wǎng)格服務(wù)的水平。
關(guān)鍵詞:數(shù)據(jù)挖掘; 網(wǎng)格服務(wù); 科學(xué)數(shù)據(jù)庫; 開放網(wǎng)格服務(wù)體系結(jié)構(gòu)
中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2007)06-0025-05
0 引言
中國科學(xué)院科學(xué)數(shù)據(jù)庫是從1983年開始建設(shè)的一個(gè)大型綜合性數(shù)據(jù)庫群,是目前國內(nèi)信息量最大、學(xué)科專業(yè)最廣、服務(wù)層次最高、綜合性最強(qiáng)的科技信息服務(wù)系統(tǒng)[1]。“十五”期間,在中國科學(xué)院信息化建設(shè)專項(xiàng)的支持下,科學(xué)數(shù)據(jù)庫的發(fā)展進(jìn)入一個(gè)新的階段。目前已有45個(gè)建庫單位(中科院的研究所),截至2005年10月底,達(dá)到專業(yè)數(shù)據(jù)庫503個(gè),總數(shù)據(jù)量16.6 TB。科學(xué)數(shù)據(jù)庫將數(shù)據(jù)網(wǎng)格技術(shù)作為“十五”科學(xué)數(shù)據(jù)庫建設(shè)的核心技術(shù),其目標(biāo)就是通過建立科學(xué)數(shù)據(jù)網(wǎng)格,實(shí)現(xiàn)科研工作的信息化。科學(xué)數(shù)據(jù)網(wǎng)格(Scientific Data Grid,SDG)[2]是以科學(xué)數(shù)據(jù)資源的共享以及在此基礎(chǔ)上的協(xié)同工作為核心的應(yīng)用網(wǎng)格。它集成了當(dāng)前在信息化環(huán)境中的科學(xué)研究的主要資源——科學(xué)數(shù)據(jù)和數(shù)據(jù)分析處理所需要的計(jì)算能力,是在科學(xué)研究領(lǐng)域中非常有代表性的應(yīng)用網(wǎng)格。目前,科學(xué)數(shù)據(jù)上的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的重要性日益提高。許多領(lǐng)域,諸如生物信息學(xué)、地球物理學(xué)、天文學(xué)、醫(yī)藥學(xué)、氣象學(xué)、粒子物理學(xué)等學(xué)科,面臨著數(shù)據(jù)量的指數(shù)級(jí)增長。計(jì)算基礎(chǔ)設(shè)施的進(jìn)步,使得科學(xué)家可以從桌面電腦上訪問大量的數(shù)據(jù)和計(jì)算資源。EScience的首要挑戰(zhàn)是從數(shù)據(jù)的“雪崩”中有效地抽取、集成、探測(cè)、分析和表達(dá)知識(shí),使科學(xué)家能夠利用數(shù)據(jù)的潛能。這引發(fā)了一系列不同領(lǐng)域的需求。軟件工程師需要建設(shè)把眾多的數(shù)據(jù)資源集成到一起的計(jì)算基礎(chǔ)設(shè)施;計(jì)算機(jī)科學(xué)家需要開發(fā)集成和探測(cè)數(shù)據(jù)的算法;各個(gè)領(lǐng)域的專家需要定義元數(shù)據(jù)標(biāo)準(zhǔn)并提出挖掘目標(biāo)。
中國科學(xué)院正在建設(shè)以EScience為核心的新型科研環(huán)境與支撐平臺(tái),為知識(shí)創(chuàng)新提供強(qiáng)有力的支持,為國家科技事業(yè)的發(fā)展作出貢獻(xiàn)。科學(xué)研究的信息化(EScience)將改變?nèi)藗儚氖驴茖W(xué)研究的方式和方法,為科研人員提供一個(gè)信息化的科學(xué)研究環(huán)境,極大地促進(jìn)科學(xué)研究的發(fā)展,并有力地推動(dòng)社會(huì)的信息化與進(jìn)步。科學(xué)數(shù)據(jù)網(wǎng)格的目標(biāo)是建設(shè)一個(gè)資源共享、協(xié)同工作的開放式科研平臺(tái)。它使得全球性的、跨學(xué)科的、大規(guī)模科研合作,跨越時(shí)間、空間、物理障礙的資源共享與協(xié)同工作成為可能;將改變科學(xué)家們從事科研活動(dòng)的方法和模式,極大地促進(jìn)交流合作,推動(dòng)科學(xué)研究的發(fā)展;是下一代互聯(lián)網(wǎng)絡(luò)技術(shù)及信息基礎(chǔ)設(shè)施在科研領(lǐng)域的率先應(yīng)用;提供了一種信息化的科學(xué)研究環(huán)境和平臺(tái),在不同的科學(xué)研究領(lǐng)域和科學(xué)研究活動(dòng)中,開發(fā)針對(duì)特定需求的應(yīng)用。
網(wǎng)格計(jì)算是新興的分布式計(jì)算和應(yīng)用集成的良好平臺(tái);而科學(xué)數(shù)據(jù)網(wǎng)格是在科學(xué)數(shù)據(jù)庫多年建設(shè)成果的基礎(chǔ)上,引入網(wǎng)格計(jì)算技術(shù),提供科研信息共享和協(xié)作的應(yīng)用網(wǎng)格。數(shù)據(jù)挖掘技術(shù)提供了分析海量數(shù)據(jù),從中提煉知識(shí)的強(qiáng)大工具。
本文主要討論科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境下如何通過構(gòu)建科學(xué)數(shù)據(jù)挖掘服務(wù),提供科學(xué)數(shù)據(jù)挖掘解決方案。由于科學(xué)數(shù)據(jù)網(wǎng)格涵蓋的領(lǐng)域非常廣泛,數(shù)據(jù)類型極其豐富,數(shù)據(jù)應(yīng)用各式各樣,科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境下的數(shù)據(jù)挖掘具有下列特點(diǎn):(1)分布式異構(gòu)數(shù)據(jù)環(huán)境。
科學(xué)數(shù)據(jù)網(wǎng)格是由分布在全國各地的若干數(shù)據(jù)存儲(chǔ)資源聯(lián)合提供網(wǎng)格服務(wù)構(gòu)成的。各個(gè)存儲(chǔ)資源可能具有不同的軟硬件環(huán)境。數(shù)據(jù)存儲(chǔ)的格式包括各種關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和文件系統(tǒng)等多種類型。
(2)多種數(shù)據(jù)類型。
科學(xué)數(shù)據(jù)網(wǎng)格中不僅存在關(guān)系型數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),也存在大量的半結(jié)構(gòu)化和無結(jié)構(gòu)的數(shù)據(jù)。數(shù)據(jù)類型包括數(shù)值型、類別性、布爾型及文本型,并且具有不同的計(jì)量單位。
(3)多種數(shù)據(jù)挖掘功能和方法。
數(shù)據(jù)挖掘系統(tǒng)利用的技術(shù)越多,得出的結(jié)果精確度就越高。原因很簡(jiǎn)單,對(duì)于某一種技術(shù)不適合的問題,其他方法卻可能奏效。科學(xué)家可能利用科學(xué)數(shù)據(jù)網(wǎng)格提供的數(shù)據(jù)資源作各種各樣的分析、處理和挖掘,用于發(fā)現(xiàn)多種模式。因此,科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)需要提供多種數(shù)據(jù)挖掘功能和方法。
(4)面向眾多的學(xué)科領(lǐng)域。
科學(xué)數(shù)據(jù)庫的內(nèi)容涵蓋了化學(xué)、生物、天文、材料、腐蝕、光學(xué)機(jī)械、自然資源、能源、生態(tài)環(huán)境、湖泊、濕地、冰川、大氣、古氣候、動(dòng)物、水生生物、遙感等多種學(xué)科。科學(xué)數(shù)據(jù)挖掘系統(tǒng)面向眾多的學(xué)科領(lǐng)域,提供數(shù)據(jù)挖掘服務(wù),而不是針對(duì)一個(gè)特定的問題給出具體實(shí)現(xiàn)。
(5)可伸縮性。
目前,在越來越多的科學(xué)、生產(chǎn)、工程等領(lǐng)域,如生物、醫(yī)學(xué)、天文學(xué)、高能物理、全球氣候模擬等,每天產(chǎn)生的數(shù)據(jù)正在以爆炸性的趨勢(shì)迅速增長,數(shù)據(jù)量已經(jīng)達(dá)到TB級(jí),并且將很快達(dá)到PB級(jí)。大尺寸數(shù)據(jù)集逐漸成為一種重要的數(shù)據(jù)資源。因此,科學(xué)數(shù)據(jù)挖掘系統(tǒng)需具有良好的可伸縮性,能夠處理海量數(shù)據(jù)。
(6)面向網(wǎng)格計(jì)算環(huán)境。
科學(xué)數(shù)據(jù)挖掘的目標(biāo)是為科學(xué)數(shù)據(jù)網(wǎng)格的用戶提供靈活方便的數(shù)據(jù)挖掘解決方案,促進(jìn)科學(xué)研究的發(fā)展。因此,科學(xué)數(shù)據(jù)挖掘系統(tǒng)是一個(gè)面向科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境,為網(wǎng)格用戶提供數(shù)據(jù)挖掘服務(wù)的系統(tǒng)。
1 網(wǎng)格體系結(jié)構(gòu)
網(wǎng)格體系結(jié)構(gòu)是關(guān)于如何建造網(wǎng)格的技術(shù),包括對(duì)網(wǎng)格基本組成部分和各部分功能的定義和描述、網(wǎng)格各部分相互關(guān)系與集成方法的規(guī)定、網(wǎng)格有效運(yùn)行機(jī)制的刻畫。顯然,網(wǎng)格體系結(jié)構(gòu)是網(wǎng)格的骨架和靈魂,是網(wǎng)格最核心的技術(shù),只有建立合理的網(wǎng)格體系結(jié)構(gòu),設(shè)計(jì)和建造好網(wǎng)格,才能夠使網(wǎng)格有效地發(fā)揮作用。目前網(wǎng)格體系結(jié)構(gòu)的設(shè)計(jì)已有了一定的研究。其中層次協(xié)議結(jié)構(gòu)和開放網(wǎng)格服務(wù)體系結(jié)構(gòu)(Open Grid Service Architecture, OGSA)是最重要、最具代表性的兩個(gè)。
1.1 五層沙漏結(jié)構(gòu)
層次協(xié)議結(jié)構(gòu)是在Globus項(xiàng)目中提出的具有一般性的網(wǎng)格體系結(jié)構(gòu)。它是以協(xié)議為中心的協(xié)議結(jié)構(gòu),強(qiáng)調(diào)協(xié)議在網(wǎng)格的資源共享和互操作中的地位。根據(jù)層次協(xié)議結(jié)構(gòu)中各組成部分與共享資源的距離,將對(duì)共享資源進(jìn)行操作、管理和使用的功能分散在五個(gè)不同的層次,分別是構(gòu)造層、連接層、資源層、匯集層和應(yīng)用層,如圖1所示。
五個(gè)層次的功能描述如下:
(1)構(gòu)造層。它是物理或邏輯實(shí)體,其功能是向上提供網(wǎng)格中可以提供共享的資源。
(2)連接層。它是網(wǎng)格中網(wǎng)絡(luò)事務(wù)處理通信與授權(quán)控制的核心協(xié)議。構(gòu)造層提供的各種資源間的數(shù)據(jù)交換均在這一層的控制下實(shí)現(xiàn)。各個(gè)資源間的授權(quán)驗(yàn)證、安全控制也在這里實(shí)現(xiàn)。
(3)資源層。其作用是對(duì)單一資源實(shí)施控制,與可用資源進(jìn)行安全連接,對(duì)資源作初始化,監(jiān)測(cè)資源運(yùn)行狀況,對(duì)有關(guān)的資源使用數(shù)據(jù)作統(tǒng)計(jì)與實(shí)施付費(fèi)。
(4)匯集層。其作用是將資源層提供的受控資源匯集在一起,供虛擬組織的應(yīng)用程序共享、調(diào)用。
(5)應(yīng)用層。該層是網(wǎng)格上用戶的應(yīng)用程序。應(yīng)用程序通過各層的API調(diào)用相應(yīng)的服務(wù),再通過服務(wù)調(diào)用網(wǎng)格上的資源來完成任務(wù)。
五層沙漏結(jié)構(gòu)是一種抽象層次結(jié)構(gòu),其特點(diǎn)是整體結(jié)構(gòu)呈沙漏形狀,而且各部分協(xié)議的數(shù)量是不同的。沙漏瓶頸作為核心部分定義了核心抽象和協(xié)議的一個(gè)小集合,由資源層和連接層共同組成。各個(gè)高層(沙漏的頂部)行為映射到它們上面,它們自身也能被映射到不同的基本技術(shù)之上(沙漏的底部)。另外,此結(jié)構(gòu)實(shí)現(xiàn)了更高程度的共享。這種共享不只是交換文件,而是更強(qiáng)調(diào)對(duì)計(jì)算機(jī)、軟件、數(shù)據(jù)以及其他資源的直接訪問,并且這種共享是一種隨時(shí)間變化的動(dòng)態(tài)共享,可以跨越不同的單位與組織的管理范圍,也可以跨越不同的地理位置。這種共享是深層次、廣泛、動(dòng)態(tài)、具有多種形式的、有條件受控制的共享。
1.2 開放網(wǎng)格服務(wù)結(jié)構(gòu)
OGSA是在以IBM為代表的工業(yè)界的影響下,在考慮到Web技術(shù)的發(fā)展與影響后,F(xiàn)oster等人結(jié)合Web服務(wù)提出的,是繼五層沙漏之后最重要,也是目前最新的以服務(wù)為中心的網(wǎng)格體系結(jié)構(gòu),被稱為是下一代的網(wǎng)格結(jié)構(gòu)。相對(duì)于五層沙漏結(jié)構(gòu)的以協(xié)議為中心的協(xié)議結(jié)構(gòu),OGSA是以服務(wù)為中心的服務(wù)結(jié)構(gòu),如圖2所示。這里的服務(wù)所指的概念更為廣泛,包括各種計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)、程序、數(shù)據(jù)庫等,一切均是服務(wù)。在OGSA中實(shí)現(xiàn)的是對(duì)服務(wù)的共享。它將資源、信息、數(shù)據(jù)等統(tǒng)一起來,十分有利于靈活、一致、動(dòng)態(tài)共享機(jī)制的實(shí)現(xiàn),使得分布式系統(tǒng)管理有了標(biāo)準(zhǔn)的接口和行為。
為了使服務(wù)的思想更加明確和具體,OGSA定義了網(wǎng)格服務(wù)的概念,它是Web服務(wù)的一個(gè)擴(kuò)展。它把Globus標(biāo)準(zhǔn)與面向商業(yè)應(yīng)用的萬維網(wǎng)服務(wù)結(jié)合起來,把網(wǎng)格計(jì)算從科學(xué)與工程計(jì)算應(yīng)用擴(kuò)展到更廣泛的以分布式系統(tǒng)服務(wù)集成為主要特征的商業(yè)應(yīng)用領(lǐng)域。OGSA將一切都看做是網(wǎng)格服務(wù)。網(wǎng)格服務(wù)可以不同的方式聚集起來滿足虛擬組織的需要。虛擬組織自身也可以部分地根據(jù)它們操作和共享的服務(wù)來定義。
圖1 五層沙漏結(jié)構(gòu)的協(xié)議分層圖2 開放網(wǎng)格服務(wù)結(jié)構(gòu)OGSA
網(wǎng)格服務(wù)=接口/行為+服務(wù)數(shù)據(jù)。在OGSA中,目前已提供服務(wù)生命周期管理、創(chuàng)建臨時(shí)服務(wù)、注冊(cè)服務(wù)、主鍵服務(wù)、消息發(fā)布服務(wù)、消息接收服務(wù)、句柄映射七個(gè)服務(wù)接口。其中服務(wù)生命周期管理服務(wù)是必需的。每一個(gè)服務(wù)接口均提供了相應(yīng)的操作。網(wǎng)格服務(wù)通過提供一組相對(duì)統(tǒng)一的核心服務(wù)接口,所有的網(wǎng)格服務(wù)均基于這些接口實(shí)現(xiàn)。這樣就可以很容易地基于簡(jiǎn)單的、基本的、具體的服務(wù)構(gòu)造出具有層次結(jié)構(gòu)的、更高級(jí)別的抽象服務(wù)。這些服務(wù)可以跨越不同的抽象層次,以一種統(tǒng)一的方式來看待,有利于通過統(tǒng)一的標(biāo)準(zhǔn)接口來管理和使用網(wǎng)格。與五層模型一樣,在OGSA中也非常重視互操作性。從服務(wù)的觀點(diǎn)看,OGSA將互操作性問題轉(zhuǎn)換為兩個(gè)子問題,即定義服務(wù)的接口和識(shí)別激活特定接口的協(xié)議。
以網(wǎng)格服務(wù)為中心的模型具有如下好處:①由于網(wǎng)格環(huán)境中所有的組件均是虛擬的,通過提供一組相對(duì)統(tǒng)一的核心接口,所有的網(wǎng)格服務(wù)均基于這些接口實(shí)現(xiàn),就可以很容易地構(gòu)造出具有層次結(jié)構(gòu)的、更高級(jí)別的服務(wù)。這些服務(wù)可以跨越不同的抽象層次,以一種統(tǒng)一的方式來看待。②虛擬化也使得將多個(gè)邏輯資源實(shí)例映像到相同的物理資源上成為可能,在對(duì)服務(wù)進(jìn)行組合時(shí)不必考慮具體的實(shí)現(xiàn),可以在底層資源組成的基礎(chǔ)上,在虛擬組織中進(jìn)行資源管理。通過網(wǎng)格服務(wù)的虛擬化,可以將通用的服務(wù)語義和行為,無縫地映像到本地平臺(tái)的基礎(chǔ)設(shè)施之上。
Web服務(wù)是網(wǎng)格服務(wù)及OGSA的基礎(chǔ)。因此了解Web服務(wù)的體系結(jié)構(gòu)能夠更好地理解和部署網(wǎng)格服務(wù)。Web服務(wù)是一種分布式計(jì)算技術(shù)(類似CORBA、RMI、EJB等),它能在所有支持Internet通信的操作系統(tǒng)上實(shí)現(xiàn)。目前被大量部署于商業(yè)應(yīng)用的C/S模式中。Web服務(wù)的基本結(jié)構(gòu)是基于服務(wù)提供者(Web服務(wù)容器)、請(qǐng)求者(客戶機(jī))和中介者(UDDI注冊(cè)中心)三個(gè)角色之間的交互、交涉及服務(wù)的發(fā)布、發(fā)現(xiàn)和服務(wù)請(qǐng)求者與服務(wù)提供者之間的綁定三個(gè)動(dòng)作。可簡(jiǎn)單地歸結(jié)為客戶根據(jù)需求向Web服務(wù)發(fā)送服務(wù)請(qǐng)求,Web服務(wù)向客戶返回服務(wù)結(jié)果。Web服務(wù)的所有協(xié)議均基于標(biāo)準(zhǔn)的Web協(xié)議,如HTTP、XML、SOAP、WSDL、UDDI等。這些協(xié)議組成堆棧的形式,每一個(gè)下層提供對(duì)它上層的支持;同時(shí)每一個(gè)上層均必須基于所有的下層協(xié)議之上。
開放網(wǎng)格服務(wù)結(jié)構(gòu)基于統(tǒng)一的Web服務(wù)框架。一個(gè)Web服務(wù)就是一個(gè)可以被URI識(shí)別的軟件應(yīng)用。其接口和綁定可以被XML語言描述和發(fā)現(xiàn),并且可以通過基于Internet的協(xié)議直接支持與其他基于XML的軟件應(yīng)用進(jìn)行交互。OGSA架構(gòu)從下到上依次是:
(1)資源層。它包括物理資源和邏輯資源。物理資源包括存儲(chǔ)器、網(wǎng)絡(luò)、計(jì)算機(jī)、顯示設(shè)備、服務(wù)器和其他相關(guān)的本地服務(wù)。邏輯資源通過虛擬化和聚合物理層的資源來提供額外的功能和通用的中間件,如文件系統(tǒng)、數(shù)據(jù)庫、目錄、工作流管理和安全認(rèn)證等,在物理網(wǎng)格上提供這些抽象服務(wù)。
(2)Web服務(wù)層。在這一層所有的網(wǎng)格資源(物理的和邏輯的)均被建模為服務(wù)。OGSI(Open Grid Services Infrastructure)規(guī)范定義了網(wǎng)格服務(wù)并建立在標(biāo)準(zhǔn)Web服務(wù)技術(shù)之上。OGSI進(jìn)一步擴(kuò)展了Web服務(wù)的定義,利用如XML和WSDL這樣的Web服務(wù)機(jī)制,為所有網(wǎng)格資源指定標(biāo)準(zhǔn)的接口、行為和交互,提供動(dòng)態(tài)的、有狀態(tài)的和可管理的Web服務(wù)的能力。
(3)網(wǎng)格服務(wù)層。基于OGSI架構(gòu)的網(wǎng)格服務(wù)層是Web服務(wù)層及OGSI擴(kuò)展為上一層提供的基礎(chǔ)設(shè)施。目前,研究人員致力于在程序執(zhí)行、數(shù)據(jù)服務(wù)、核心服務(wù)等方面定義基于網(wǎng)格架構(gòu)的服務(wù)。定義這些核心網(wǎng)格服務(wù),主要是因?yàn)樗鼈冏钣锌赡艿玫酱蠖鄶?shù)高級(jí)服務(wù)的利用。實(shí)現(xiàn)這些高級(jí)服務(wù)或者是為了支持程序執(zhí)行,或者是支持?jǐn)?shù)據(jù)訪問,或者是將它們實(shí)現(xiàn)為特定領(lǐng)域的服務(wù)。
這些核心服務(wù)包括:①服務(wù)管理。提供相關(guān)功能來管理分布式網(wǎng)格中部署的服務(wù)。
②服務(wù)通信。支持網(wǎng)格服務(wù)用來與其他網(wǎng)格服務(wù)通信的基本方法。提供支持多種通信的模型,允許進(jìn)行有效的服務(wù)間通信。
③策略服務(wù)。提供用于創(chuàng)建、執(zhí)行和管理系統(tǒng)操作策略和協(xié)議的一般框架,包括控制安全、資源分配和性能策略,以及一個(gè)用于策略敏感的服務(wù)的基礎(chǔ)結(jié)構(gòu),以便使用策略來控制它們的操作。
④安全服務(wù)。以一種使不同操作系統(tǒng)能夠安全互操作的方式,支持、集成和統(tǒng)一現(xiàn)在流行的安全模型、機(jī)制、協(xié)議和技術(shù)。這些安全服務(wù)啟用并擴(kuò)展了核心Web服務(wù)安全協(xié)議和綁定,同時(shí)提供面向服務(wù)的身份驗(yàn)證、授權(quán)、信任策略、證書轉(zhuǎn)換等機(jī)制。這些服務(wù)的提供,使OGSA變成更加有用的面向服務(wù)的架構(gòu)(Service Oriented Architecture, SOA)。
(4)網(wǎng)格應(yīng)用層。隨著基于網(wǎng)格架構(gòu)的服務(wù)不斷被開發(fā)出來,使用一個(gè)或多個(gè)基于網(wǎng)格架構(gòu)的服務(wù)的新網(wǎng)格應(yīng)用程序亦將大量出現(xiàn),構(gòu)成網(wǎng)格應(yīng)用層。
1.3 網(wǎng)格服務(wù)
網(wǎng)格服務(wù)是網(wǎng)格環(huán)境中進(jìn)行分布式計(jì)算的基本構(gòu)造模塊。網(wǎng)格開放的標(biāo)準(zhǔn)以及用戶與網(wǎng)格應(yīng)用程序之間的通信和協(xié)作產(chǎn)生了網(wǎng)格計(jì)算環(huán)境。在網(wǎng)格環(huán)境下,網(wǎng)格服務(wù)成為應(yīng)用程序集成的平臺(tái)。網(wǎng)格應(yīng)用是通過使用多個(gè)不同來源的網(wǎng)格服務(wù)構(gòu)造而成的。這些網(wǎng)格服務(wù)相互協(xié)同工作,而不管它們位于何處或者如何實(shí)現(xiàn)。網(wǎng)格服務(wù)是物理和邏輯資源,以及暴露在網(wǎng)絡(luò)上的應(yīng)用功能的邏輯展現(xiàn)。網(wǎng)格服務(wù)具有以下特點(diǎn):
(1)網(wǎng)格服務(wù)通過標(biāo)準(zhǔn)的協(xié)議向網(wǎng)格用戶提供有用的功能。
(2)網(wǎng)格服務(wù)可以非常詳細(xì)地說明其接口,這使網(wǎng)格用戶能夠創(chuàng)建客戶端應(yīng)用程序與它們進(jìn)行通信。
(3)網(wǎng)格服務(wù)通過注冊(cè)中心注冊(cè)后,網(wǎng)格用戶能夠輕易地找到這個(gè)網(wǎng)格服務(wù)。這是通過通用的發(fā)現(xiàn)、說明和集成機(jī)制來完成的。
在OGSA框架下有簡(jiǎn)單運(yùn)行模式、虛擬運(yùn)行模式和組操作模式。所謂簡(jiǎn)單運(yùn)行模式,是指在一個(gè)簡(jiǎn)單的或小的管理范圍內(nèi)的資源集成和共享。例如在一個(gè)商業(yè)化IT基礎(chǔ)設(shè)施的內(nèi)部,甚至是一個(gè)J2EE應(yīng)用服務(wù)、Microsoft .NET系統(tǒng)或Linux集群內(nèi)。所謂虛擬運(yùn)行模式,是指與虛擬組織相關(guān)聯(lián)的資源可能跨越異構(gòu)、地理分布的多個(gè)運(yùn)行環(huán)境。組操作模式是一種更高級(jí)的形式。在組操作模式環(huán)境中,可以提供給虛擬組織參與者更復(fù)雜的、虛擬的、組或端到端的服務(wù)。這三種應(yīng)用模式從簡(jiǎn)單到復(fù)雜,包含的服務(wù)從具體到抽象。OGSA的Factory、Registry、GridService、HandleMap等接口支持臨時(shí)服務(wù)實(shí)例的創(chuàng)建,可以發(fā)現(xiàn)并且描述與組織相關(guān)的服務(wù)實(shí)例。
一般而言,網(wǎng)格用戶提出的服務(wù)要求均比較抽象和復(fù)雜,但可將其層層分解,轉(zhuǎn)換為多個(gè)相對(duì)基本的要求或服務(wù),直到找到基本的可以滿足的服務(wù)。這些不同服務(wù)的實(shí)現(xiàn)可以直接映射到局部操作。基于上述三種應(yīng)用模式,注冊(cè)后的網(wǎng)格服務(wù)組,可以跨越多個(gè)分布式的資源池,支持滿足服務(wù)質(zhì)量要求的功能。可以借助于一些應(yīng)用和中間件來開發(fā)這些服務(wù),在本地/遠(yuǎn)程透明以及局部?jī)?yōu)化的基礎(chǔ)上,實(shí)現(xiàn)跨越異構(gòu)平臺(tái)的資源管理。與多個(gè)虛擬組織相聯(lián)系的服務(wù)集合可以映射到相同的底層物理資源上。這些資源在邏輯上可以是不同的,但是可以在更低的物理層次上共享資源。
網(wǎng)格服務(wù)包括永久服務(wù)和瞬時(shí)服務(wù)。網(wǎng)格需要提供對(duì)永久服務(wù)的發(fā)現(xiàn)和調(diào)用、動(dòng)態(tài)創(chuàng)建和銷毀瞬時(shí)服務(wù)。每一個(gè)服務(wù)實(shí)例有一個(gè)全局唯一的、不變的名字GSH(Grid Service Handle);它通常是一個(gè)全局唯一的URL,沒有攜帶網(wǎng)絡(luò)協(xié)議和地址等信息。網(wǎng)格服務(wù)引用GSR(Grid Service Reference)描述了與服務(wù)實(shí)例交互所需的實(shí)例特殊信息,包括協(xié)議綁定信息、網(wǎng)絡(luò)地址等。客戶程序使用GSR與服務(wù)實(shí)例進(jìn)行交互。GSR在服務(wù)實(shí)例生命期內(nèi)會(huì)發(fā)生變化,一個(gè)GSH可能對(duì)應(yīng)多個(gè)GSR,但在一個(gè)時(shí)刻是一一對(duì)應(yīng)的。這種名字與實(shí)現(xiàn)的分離方便了服務(wù)的升級(jí)和演變。映射接口(Mapper Interface)將GSH映射到GSR。工廠服務(wù)提供了創(chuàng)建新的網(wǎng)格服務(wù)實(shí)例的接口。網(wǎng)格注冊(cè)服務(wù)實(shí)例維持網(wǎng)格服務(wù)的信息,注冊(cè)管理接口允許網(wǎng)格服務(wù)的軟狀態(tài)注冊(cè)。網(wǎng)格服務(wù)實(shí)例可以周期性地注冊(cè)其GSH到注冊(cè)服務(wù)。GSH注冊(cè)接口與GSH相關(guān)服務(wù)屬性定義分開。服務(wù)發(fā)現(xiàn)接口允許客戶查詢服務(wù)實(shí)例的信息,可以用來發(fā)現(xiàn)服務(wù)實(shí)例集合。客戶程序通過調(diào)用工廠服務(wù)創(chuàng)建所請(qǐng)求的網(wǎng)格服務(wù)實(shí)例,返回網(wǎng)格服務(wù)實(shí)例的網(wǎng)格服務(wù)句柄GSH和網(wǎng)格服務(wù)引用GSR。這個(gè)過程如圖3所示。
圖3 創(chuàng)建網(wǎng)格服務(wù)實(shí)例的過程
2 科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)
科學(xué)數(shù)據(jù)網(wǎng)格是以科學(xué)數(shù)據(jù)資源的共享以及在此基礎(chǔ)上的協(xié)同工作為核心的應(yīng)用網(wǎng)格。它集成了當(dāng)前在信息化環(huán)境中科學(xué)研究的主要資源——科學(xué)數(shù)據(jù)和數(shù)據(jù)分析處理所需要的計(jì)算能力。科學(xué)數(shù)據(jù)網(wǎng)格的目標(biāo)是為網(wǎng)格用戶在科學(xué)數(shù)據(jù)庫的基礎(chǔ)上提供更好的服務(wù),并促進(jìn)科研信息化的發(fā)展。
2.1 虛擬存儲(chǔ)
計(jì)算網(wǎng)格的初衷是通過網(wǎng)絡(luò)互連,使Internet 成為高性能的計(jì)算環(huán)境,面向科學(xué)計(jì)算,支持大規(guī)模計(jì)算密集型問題的求解。但是隨著應(yīng)用的發(fā)展,數(shù)據(jù)密集型應(yīng)用逐漸成為廣為關(guān)注的焦點(diǎn),數(shù)據(jù)網(wǎng)格的概念被提出。它通過集成網(wǎng)絡(luò)上分布的多個(gè)數(shù)據(jù)集資源,形成單一虛擬的數(shù)據(jù)訪問、管理和處理環(huán)境,為用戶屏蔽底層異構(gòu)的物理資源,建立分布海量數(shù)據(jù)的一體化數(shù)據(jù)訪問、存儲(chǔ)、傳輸、管理與服務(wù)架構(gòu)[4]。相比于計(jì)算網(wǎng)格,它更側(cè)重于數(shù)據(jù)的存儲(chǔ)、傳輸和管理。用戶向數(shù)據(jù)網(wǎng)格提交數(shù)據(jù)請(qǐng)求,網(wǎng)格接收請(qǐng)求后,查找符合要求的數(shù)據(jù),并將找到的結(jié)果返回給用戶。整個(gè)過程由網(wǎng)格自動(dòng)完成,對(duì)用戶完全透明,他不必關(guān)心數(shù)據(jù)的物理存儲(chǔ)位置、數(shù)據(jù)的存儲(chǔ)管理方式,因此在很大程度上簡(jiǎn)化和方便了用戶的使用。
數(shù)據(jù)網(wǎng)格關(guān)心的不僅僅是存儲(chǔ),還包括了數(shù)據(jù)、信息、用戶以及網(wǎng)格節(jié)點(diǎn)等多種資源。數(shù)據(jù)網(wǎng)格雖然是一個(gè)全新的概念,但它并不是另起爐灶,完全從頭開始。它并不排斥現(xiàn)存數(shù)據(jù)存儲(chǔ)管理技術(shù),而是在這些技術(shù)的基礎(chǔ)上對(duì)它們進(jìn)行補(bǔ)充、集成和發(fā)展,在更高一個(gè)層面上為數(shù)據(jù)的存儲(chǔ)和管理提供一種解決方案[5]。在數(shù)據(jù)網(wǎng)格中,物理資源通過網(wǎng)格服務(wù)映射到虛擬資源,服務(wù)化各類資源,如圖4所示。對(duì)資源的訪問位置透明、多協(xié)議綁定和服務(wù)的多種實(shí)現(xiàn)。多個(gè)網(wǎng)格服務(wù)可以組成高級(jí)服務(wù),不關(guān)心各服務(wù)如何構(gòu)成實(shí)現(xiàn)。
圖4 數(shù)據(jù)網(wǎng)格存儲(chǔ)虛擬化
2.2 科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)框架
科學(xué)數(shù)據(jù)網(wǎng)格通過提供網(wǎng)格服務(wù)——科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)(Scientific Data Mining Grid Service, SDMGS),為用戶程序提供網(wǎng)格環(huán)境下的數(shù)據(jù)挖掘解決方案。用戶程序在科學(xué)數(shù)據(jù)網(wǎng)格中進(jìn)行數(shù)據(jù)挖掘的步驟如圖5所示。
圖5 科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)
科學(xué)數(shù)據(jù)挖掘工廠(Scientific Data Mining Factory)是一個(gè)可以動(dòng)態(tài)創(chuàng)建科學(xué)數(shù)據(jù)挖掘服務(wù)實(shí)例的工廠,為用戶程序提供數(shù)據(jù)挖掘服務(wù)。SDMGS實(shí)例從科學(xué)數(shù)據(jù)挖掘工具集(Scientific Data Mining Toolkit, SDMK)獲得數(shù)據(jù)預(yù)處理算法和數(shù)據(jù)挖掘算法。SDMK提供了數(shù)據(jù)預(yù)處理工具和多個(gè)數(shù)據(jù)挖掘算法,包括關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、聚類算法、分類算法、序列模式算法等。這些數(shù)據(jù)挖掘算法具有統(tǒng)一的屬性和方法的描述方式,系統(tǒng)可以動(dòng)態(tài)地增加和刪除算法;對(duì)于所有的挖掘算法,可以采用統(tǒng)一的方式調(diào)用。科學(xué)數(shù)據(jù)挖掘工具集解決了傳統(tǒng)數(shù)據(jù)挖掘應(yīng)用中數(shù)據(jù)挖掘算法固定、不可增刪的問題。
數(shù)據(jù)挖掘的數(shù)據(jù)來源是用戶在挖掘任務(wù)中指定的一個(gè)或多個(gè)數(shù)據(jù)服務(wù)。SDMGS實(shí)例通過訪問這些數(shù)據(jù)服務(wù),選取用于挖掘任務(wù)的數(shù)據(jù),進(jìn)而構(gòu)造成數(shù)據(jù)挖掘模型。SDMGS實(shí)例挖掘的結(jié)果是用PMML[6]表示的數(shù)據(jù)挖掘模型。數(shù)據(jù)挖掘模型是利用某種數(shù)據(jù)挖掘算法對(duì)一組數(shù)據(jù)進(jìn)行分析之后得到的規(guī)則和知識(shí)。數(shù)據(jù)挖掘模型可以是多種多樣的:它可能是一組關(guān)聯(lián)規(guī)則、一棵決策樹、一條曲線或是對(duì)某些聚類的描述。數(shù)據(jù)挖掘模型是數(shù)據(jù)挖掘算法的實(shí)際應(yīng)用形式。用戶程序使用可視化工具把數(shù)據(jù)挖掘模型展現(xiàn)出來,并且可以對(duì)數(shù)據(jù)挖掘模型進(jìn)行瀏覽和查詢。
科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境下,用戶程序使用科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)進(jìn)行數(shù)據(jù)挖掘的各個(gè)步驟描述如下:
(1)用戶程序向科學(xué)數(shù)據(jù)網(wǎng)格中的注冊(cè)服務(wù)提出請(qǐng)求,請(qǐng)求發(fā)現(xiàn)一個(gè)科學(xué)數(shù)據(jù)挖掘工廠和一個(gè)數(shù)據(jù)存儲(chǔ)工廠。其中數(shù)據(jù)挖掘工廠能夠創(chuàng)建科學(xué)數(shù)據(jù)挖掘服務(wù)實(shí)例;數(shù)據(jù)存儲(chǔ)工廠用于存儲(chǔ)挖掘的結(jié)果。
(2)注冊(cè)服務(wù)向用戶程序返回發(fā)現(xiàn)的科學(xué)數(shù)據(jù)挖掘工廠和數(shù)據(jù)存儲(chǔ)工廠的網(wǎng)格服務(wù)句柄和網(wǎng)格服務(wù)引用。
(3)客戶程序向科學(xué)數(shù)據(jù)挖掘工廠請(qǐng)求創(chuàng)建一個(gè)科學(xué)數(shù)據(jù)挖掘服務(wù)實(shí)例。創(chuàng)建的科學(xué)數(shù)據(jù)挖掘服務(wù)實(shí)例為用戶提供數(shù)據(jù)挖掘服務(wù)。
(4)客戶程序向數(shù)據(jù)存儲(chǔ)工廠請(qǐng)求創(chuàng)建一個(gè)存儲(chǔ)服務(wù)實(shí)例,用于存儲(chǔ)科學(xué)數(shù)據(jù)挖掘服務(wù)產(chǎn)生的結(jié)果。
(5)科學(xué)數(shù)據(jù)挖掘服務(wù)訪問用戶指定的挖掘目標(biāo),產(chǎn)生用戶感興趣的模式。這一步是整個(gè)過程的核心。它接受用戶交互模塊的數(shù)據(jù)挖掘任務(wù)請(qǐng)求,對(duì)該任務(wù)加以分析,調(diào)用科學(xué)數(shù)據(jù)挖掘工具集SDMK提供的預(yù)處理算法和挖掘算法;根據(jù)算法的要求訪問數(shù)據(jù)服務(wù)以獲取相應(yīng)的數(shù)據(jù)傳回挖掘算法,完成數(shù)據(jù)挖掘運(yùn)算;最后根據(jù)運(yùn)算結(jié)果對(duì)數(shù)據(jù)挖掘模型加以處理,并將相應(yīng)的結(jié)果存儲(chǔ)到用戶申請(qǐng)到的存儲(chǔ)資源空間中,同時(shí)通知用戶程序。
(6)數(shù)據(jù)挖掘的結(jié)果保存到數(shù)據(jù)存儲(chǔ)服務(wù)實(shí)例中。科學(xué)數(shù)據(jù)挖掘服務(wù)產(chǎn)生的數(shù)據(jù)挖掘模型被存儲(chǔ)到用戶申請(qǐng)到的存儲(chǔ)服務(wù)中,以便用戶程序訪問。
(7)用戶程序訪問數(shù)據(jù)挖掘的結(jié)果,將數(shù)據(jù)挖掘任務(wù)的結(jié)果以人們可以理解的形式展示給用戶。數(shù)據(jù)挖掘的結(jié)果可能是多種多樣的。它可以是一棵決策樹,可以是一張表格,可以是一組曲線,可以是一張圖表,甚至可以是一段描述性文字;對(duì)于任務(wù)執(zhí)行者來說,它是一篇符合PMML規(guī)范的模型描述文檔。該部分要求將復(fù)雜的知識(shí)轉(zhuǎn)換為人腦思維可容易理解的形式,可以運(yùn)用各種可視化技術(shù)實(shí)現(xiàn)。
3 結(jié)束語
黃河流域水文泥沙數(shù)據(jù)庫和黃土高原地區(qū)氣候數(shù)據(jù)庫是中國科學(xué)院水土保持所建設(shè)的科學(xué)數(shù)據(jù)庫項(xiàng)目。目前已經(jīng)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于這兩個(gè)數(shù)據(jù)庫中。在此,主要的數(shù)據(jù)挖掘功能包括:①利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)屬性之間的關(guān)系,如黃土高原地區(qū)氣候數(shù)據(jù)庫中各種氣候?qū)傩灾g的關(guān)系。②利用聚類算法在黃河流域水文泥沙數(shù)據(jù)庫中發(fā)現(xiàn)水文特征相似的觀測(cè)站的集合;在黃土高原地區(qū)氣候數(shù)據(jù)庫中發(fā)現(xiàn)氣候特征相似的觀測(cè)站的集合。③利用序列模式發(fā)現(xiàn)算法發(fā)現(xiàn)屬性值的變化規(guī)律,為科研工作者分析水文參數(shù)和氣候特征變化提供參考。④利用預(yù)測(cè)算法預(yù)測(cè)水文特征和氣候特征演變的規(guī)律和發(fā)展趨勢(shì),為科研工作者進(jìn)行分析和預(yù)測(cè)提供參考。
本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。