999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科學工作流技術及在天文研究中的應用探討*

2011-01-25 07:53:30季凱帆
天文研究與技術 2011年4期
關鍵詞:數據處理科學

關 宇,鄧 輝,王 鋒,2,季凱帆

(1.昆明理工大學云南省計算機技術應用重點實驗室,云南 昆明 650051;2.中國科學院云南天文臺,云南 昆明 650011)

上世紀后期以來,天文學研究取得了突飛猛進的進展,主要推動力來自眾多的地面和空間的大中型觀測設備產生的海量觀測數據。例如斯隆數字巡天(SDSS)[1]、帕洛馬巡天和UK Schmidt巡天、紫外IUE衛星、IRAS紅外巡天、ROAST X射線巡天、哈勃空間望遠鏡、FIRST和NVSS等射電巡天,以及眾多的非巡天式望遠鏡。在此基礎上,產生了眾多的數據釋放平臺(天文數據庫)。同時,一些重要的多波段天文數據交叉證認檢索、查詢數據庫也應運而生,例如NED[2]、SIMBAD[3]、CDS等等,數據的開放和共享使得科學產出趨于最大化和最優化,成為促進天文學飛速發展的一個關鍵保障,也是天文學發展的潮流所趨。為了更加有效地利用這些開放共享的海量數據資源,虛擬天文臺(VO)[4-9]應運而生。國際虛擬天文臺聯盟(IVO)目前已經包括全球18個國家和地區,其中包括中國虛擬天文臺(China-VO)。

在數據處理與展現系統的實現過程中,科學工作流(Scientific Workflow)技術起到了關鍵作用??茖W工作流針對科學研究工作的特點,專注于大規??茖W處理(e-Science)的定制[10],對科學數據進行管理、分析、模擬、仿真,提供輔助科學發現的環境。在生物學領域、經濟學領域已經有了科學工作流的系統原型[11]和初步應用,如 Taverna 系統[12-13]、Kepler[14]、Triana[15-16]系統、GridNexus[17]系統,以及EPSRC資助的DiscoveryNet[18]系統等。天文領域中,包括美國等發達國家在內,對科學工作流技術的應用尚處于起步階段。在我國,受到客觀條件的制約,工作流技術被人更多地理解為業務工作流(Business Workflow),這極大地限制了廣大天文工作者對科學工作流技術的理解,影響了其推廣應用。

1 科學工作流技術的概念

工作流技術起源于20世紀70年代中期對辦公自動化領域的研究,但至今仍沒有一個對工作流的統一定義。在工作流技術發展的初期,不存在業務工作流與科學工作流的區分,隨著科學工作流的出現,從工作流中分離出所謂的業務工作流。

工作流管理聯盟(WfMC)曾在1996年定義:工作流(Workflow)是一類能夠完全或者部分自動執行的經營過程,根據一系列過程規則,文檔、信息或任務能夠在不同的執行者之間傳遞、執行[19]。一般來說,一個工作流包括:任務、它們的關系以及它們的啟動和終止條件。也有文獻將工作流簡化定義為一系列用來管理業務處理或計算活動的運營操作或任務[20]。

隨著e-Science的興起,目前一般定義的科學工作流(Scientific Workflow),是指將一系列在科學研究中遇到的數據管理、計算、分析、展現等工作變成一個個獨立的服務,再把這些服務通過數據鏈接組合在一起,滿足研究人員在科學實驗和數據處理中的需要,從而實現相應的處理與科學計算。

2 科學工作流的特點與優勢

盡管從技術角度來說,科學工作流與業務工作流之間的差異非常明顯,但從用戶應用的角度來看,兩者的區別不大。這使得天文研究者經常對兩種工作流的概念產生混淆,不理解科學工作流區別于業務工作流的內涵與應用價值。事實上,隨著網格計算、云計算的發展,今后的天文科學數據處理必然基于新的模式,了解與掌握科學工作流,對于理解和發展虛擬天文技術具有較大的推動作用。

首先需要明確地指出,科學工作流與業務工作流的本質都是工作流,兩者的基礎是一致的。工作流系統的主要工作是在一個分布式環境中控制復雜活動(Activity)的執行[21-23]??茖W工作流和業務工作流都是基于工作流系統來實現。業務工作流中,每次業務處理過程可看作是一次活動,比如公文的編寫、發送等;而科學家在研究實驗過程中,每次實驗都可看作是工作流中對數據的收集、獨立的數據處理等多個有序的數據處理活動。對比分析兩種工作流技術,科學工作流有如下鮮明的特點:

(1)科學工作流采用數據驅動模式

科學工作流采用數據驅動(Data Driven)模式。由于科學研究依賴于實驗數據,科學工作流趨向于建立一個以數據流為導向的可執行模型。在整個數據處理過程中,前一級的數據輸出成為后一級處理的數據輸入。而業務工作流是命令驅動(Command Driven)機制,業務工作流以業務為導向,設計好之后被實施。業務工作流把重點放在控制流的模式與活動,工作流中的某個任務在滿足規定的控制條件才會被觸發執行。

(2)科學工作流的定義與設計是全動態的

科學工作流的設計目的是由科學家自己構建處理流程,將一個科學實驗具體化,以完成對科學家提出的科學設想或假說的驗證。科研的目的是希望在某領域的研究中,對本領域的某些知識有更深的理解。科學工作流設計過程中,科學家對工作流的整個任務序列是未知或者不確定的,需要依據某一任務的處理結果才能確定下一處理任務,或者需要隨時動態調整某幾個處理任務盡可能滿足研究需求。這個動態過程反映了科學工作流與業務工作流很顯著的一個特征——增量式[24]。此外科學工作流還必須可重用,可不斷完善,可重現、借鑒給同領域的其他科學家[25]。

業務工作流是由工程師用專業軟件(如辦公自動化軟件)創建的。創建的工作流一旦使用就不會輕易改變。創建好的工作流在使用過程中如果發現一些關鍵流程處理有問題,就需要將此工作流廢除,重新創建一個新的工作流,而不是在原來的基礎上進行改變。從這方面來看,業務工作流可以看作是靜態的工作流[26]。

(3)科學工作流處理的數據量大、數據類型更為復雜

業務工作流通常處理的是一些像文檔(Word文件,PDF文件)、電子數據表(Excel文件)、電子表單等結構簡單的小規模的數據,而且其數據量是可以預知的。然而,在科研方面,科學家面對的往往是海量數據,結構也較為復雜自由。天文研究領域的數據量基本上都達到TB量級,比如SDSS的數據量就高達40 TB以上。數據量的巨大差異,給科學工作流的實現帶來了巨大的困難,采用常規的數據復制技術進行數據傳遞是不現實的。

(4)科學工作流強調數據的可信度

業務工作流以一個整體的長時間運行的商業事務方式協調一些商業系統的更新,當工作流中的某個子任務執行出錯,整個事務能夠回退,以保證本次處理的狀態跟未改變前是相同的。然而在科學工作流中,如果科學家認為工作流中的某一個任務執行得出的結果錯誤,整個處理會立即停止,不強調工作流的“事務”性??茖W工作流對每一步處理過程的可信度存在較高要求,對全程數據的變化過程需要進行監控,在需要的時候,可以重現整個計算過程,即實現數據的“溯源”[27-30]。

3 科學工作流對天文數據處理模式的改變

長期以來,天文學家對數據的處理,更多地是習慣于利用單臺計算機,通過桌面應用軟件(如IRAF[31]、IRIS等),或者直接采用高級語言(Fortran等)編寫程序或腳本對數據進行處理,為確保數據的準確性,不得不對程序與腳本的可靠性與正確性進行大量的驗證。這樣的處理模式要求天文學家必須具有較強的計算機軟件設計能力,天文學家不得不投入巨大的精力學習計算機領域的相關知識,在很大程度上影響了其天文研究的開展。

為了降低程序開發難度,提高數據處理效率,天文研究中開始出現把程序代碼模塊化,對模塊進行調用的方法,由此誕生了若干的科學處理包(Library)軟件,對代碼進行重用。天文觀測中的自動觀測系統,數據處理中的批處理(Batch Process),管道技術(Pipeline)等開始被天文工作者所掌握和使用。顯而易見,這樣的處理模式提高了工作效率與科研產出。

近幾年來,SOA[32](Service-Oriented Architecture面向服務的體系結構)成為分布式系統體系結構中的代表架構。SOA將異構平臺上應用程序的不同功能部件定義為服務,服務之間通過定義良好的接口和規范按松耦合方式整合在一起,即將多個現有的應用軟件通過網絡整合成一個新系統。科學工作流技術的發展,正是在網格計算、分布式計算、云計算這樣一個大時代背景下,對原有批處理與管道技術等從系統架構、程序設計模式、處理模式等各方面進行一次根本性提升,是e-Science未來發展的一個重要方向。從天文研究角度看,科學工作流可以視為一種可以定制的自動批處理系統。處理的對象可以是數據,也可以是一個計算方法??茖W家的工作,就是根據自己科研的需要,通過簡單的設置,對數據、處理方法進行組合,構建一個自動數據處理系統。其基本應用思想是:

(1)業務標準化。對當前天文數據處理中的主要功能進行抽象,對常用算法進行整理,對可以形成標準化處理的功能進行設計,并確保其可靠性。如前所述天文數據處理已經存在很多成熟的軟件包,充分利用這些軟件包提供的功能就能滿足常規計算的要求,也可以確保計算結果的可靠性。

(2)功能服務化。利用Web Service將上述標準化后的功能進一步服務化,這與程序中的函數設計思想類似。這些服務可以部署于一臺或多臺服務器,并可以采用集群技術以適應業務量的不同變化。事實上,通過Web Service技術,實現可靠、標準的功能服務也是虛擬天文臺中的基本要求。原有的科學計算模式強調的是代碼重用,而新一代計算模式強調的是服務重用。

(3)處理分布化。通過分布處理技術,調用位于不同服務器的標準功能服務,實現業務處理。同時,利用數據的分布存儲以提高海量數據的訪問效率。

(4)功能定制化。對網絡上的各類服務進行任意定制與調用,并根據業務處理需要,快速變化、組合,以滿足科學研究的需要。

以一個標準天文光譜CCD數據處理為例。光譜測量的數據處理過程是天文學家很熟悉的一個管道處理過程,包括扣除(Overscan)、合并暗場(Bias)、扣除暗場(Bias)、合并平場(Flat)、歸一化平場(Flat)、改正平場(Flat)、剔除宇宙線、抽取一維光譜、抽取定標光譜、波長定標、波長系統轉換、流量定標(根據需要)一系列過程。經過上述處理過程,天文學家可以進一步測量光譜的基本參數、譜線輪廓、強度、紅移、譜線不對稱性等等,從而進行深入的天文學研究。

圖1A表示了上述計算模式。所有處理程序安裝于一臺服務器上,當數據量巨大時,可以部署多臺服務器,每臺服務器均安裝同樣的程序,實現從扣除一直到波長系統轉換等全過程處理。在面向科學工作流的應用中,服務器上部署的是各類標準服務,原則上每臺計算機承擔不同的處理功能,多臺服務器在處理工作站的調度下實現整個計算的并行處理(圖1B)。

圖1 傳統單機批處理與科學工作流處理示意圖Fig.1 Traditional single-machine batch-processing and new Scientific Work flow processing

比較兩者,在處理工作量較小,且處理流程完全固定的情況下,傳統的批處理方式部署簡單,有一定優勢。隨著處理工作量不斷增大,支持并行處理的科學工作流處理模式優勢將得以發揮:

(1)在處理中可以根據處理任務的變化動態調整某一個處理單元的數量,確保整體的計算能力。傳統批處理雖然可以采用多機提高數據的處理效率,但這樣的擴展方式是一種縱向擴展,而采用科學工作流系統的擴展方式是典型的橫向擴展方式。兩者相比,橫向擴展更利于實現任務擴展,可以有針對性地解決計算中存在瓶頸的服務單元,單獨針對某一特別消耗CPU資源的任務進行擴展。

(2)科學工作流可以動態調整處理過程,能靈活地對計算流程進行重組與再定制,可以根據實際情況的變化新增或刪除某些處理模塊,對數據的處理可以更有針對性。同時,根據科研要求的變化,科學工作流可以快速地完成系統構建,并確保計算的質量。

(3)很容易構建定時執行(Schedule)與自動執行(Auto)機制,滿足全自動處理的需求。從圖1B可以看出,部署環境中可以根據需要靈活地部署多臺處理工作站,各個工作站可以根據各自的需要實現對不同處理的靈活調用。這樣一方面充分利用了各服務器的資源,另一方面也可以構建針對關鍵應用的快速運行環境。

4 新計算模式下科學工作流的發展與需要解決的問題

網格計算的發展和云計算的提出,給天文數據處理帶來了新的機遇。云計算提出了IaaS、PaaS和SaaS的思想,代表了今后的發展趨勢。在這種情況下,構建云計算平臺,并把當前的若干處理業務向云計算方向遷移,可能是下一階段天文研究的一個發展趨勢。從科學工作流的發展看,在云計算時代,科學工作流的作用更加明顯。當前在天文研究中應用科學工作流,迫切需要解決以下問題:

(1)科學工作流的整體定位,將由簡單的服務定制與調度執行,向云計算的核心服務調度平臺發展。其中,除了當前主要支持的Web Service調用,今后的科學工作流還需要支持云計算的標準調用接口,如Amazon EC2等。調用接口的多樣化可以使科學工作流獲得更多的可調用資源,從而擴展科學工作流的應用面。

(2)以BPEL4WS作為科學工作流描述語言會逐漸成為一種趨勢。目前BPEL實際上已經成為標準工作流語言,很多供應商開發的工作流系統軟件都支持BPEL,但如何利用BPEL描述科學工作流系統仍是一個值得研究的問題。

(3)針對智能語義的數據交換接口(Interface)是一項急待解決的任務。在進行不同的服務調用時,服務之間如何自由地交換數據,特別是如何實現服務間數據的格式、定義、含義等的智能語義匹配,是一個急待研究的關鍵問題。面對海量的天文數據和不同的數據格式(Fits、VOTable、自定義二進制、Raw Image等),工作流設計中完全靠人工進行指定與區配是不現實的。

5 結論

本文主要介紹了科學工作流、業務工作流的概念,對兩者從多方面做了較為詳細的比較,并通過實例討論了科學工作流在天文中的應用。結果表明,科學工作流的優勢可以有效地滿足當前天文數據處理、展現、發布等多種需要,可以在我國當前LAMOST、HXMT、FAST、云臺2.4 m望遠鏡等新一代觀測設備的科學數據處理中起到關鍵作用。

[1]斯隆數字巡天.The Sloan Digital Sky Survey [EB/OL].http://www.sdss.org/.

[2]NASA/IPAC.NASA/IPAC Extragalactic Database [EB/OL].http://www.ipac.caltech.edu/.

[3]斯特拉斯堡天文數據中心.SIMBAD Astronomical Database[EB/OL].http://simbad.ustrasbg.fr/simbad/.

[4]崔辰州,李文,于策,等.指尖上的宇宙——虛擬天文臺 [J].科學畫報,2004,(9):34-37.

[5]趙永恒.互聯網時代的天文學革命——虛擬天文臺 [J].科學,2002,54(2):13-20.Zhao Yongheng.Revolution of Astronomy on Internet——Virtual Observatory [J].Science,2002,54(2):13-20.

[6]張彥霞,趙永恒.虛擬天文臺的科學意義 [J].天文學進展,2004,22(4):350-353.Zhang Yanxia,Zhao Yongheng.The Science of the Virtual Observatory [J].Progress in Astronomy,2004,22(4):350-353.

[7]崔辰州.虛擬天文臺 [J].世界科學,2003,(2):16-18.

[8]張彥霞,趙永恒.虛擬天文臺:科學、工具及應用 [J].天文學進展,2006,24(3):189-199.Zhang Yanxie,Zhao Yongheng.Science,Tools and Applications of the Virtual Observatory[J].Progress in Astronomy,2006,24(3):189-199.

[9]陳東.網絡控制技術與虛擬天文臺——理論和初步實踐 [D].昆明:中國科學院云南天文臺,2003.

[10]Ian J Taylor,E D Dennis Gannon,Matthew S Shields.Workf lows for e-Science [M].Heidelberg:Springer-Verlag Berlin,2006.

[11]Jia Yu,Rafkumar Buyya.A Taxonomy of Scientific Workflow Systems for Grid Computing [J].Sigmod Record,2005,34(3):44.

[12]Wei Tan,Paolo Missier,Ravi Madduri,et al.Building Scientific Workflow with Taverna and BPEL:A Comparative Study in caGRID [M].Heidelberg:Springer-Verlag Berlin,2009.

[13]Oinn T,Addis M,Ferris J,et al.A Tool for the Composition and Enactment of Bioinformatics Workflows [J].Bioinformitics,2004,20(17):3045-3054.

[14]Bertram Lud?scher,Ilkay Altintas,Chad Berkley,et al.Scientific Workflow Management and the Kepler System [J].Concurrency and Computation Practice and Experience,2006,18(10):1039-1065.

[15]Shalil Majithia,Ian Taylor,Matthew Shields,et al.Triana:A Graphical Web Service Composition and Execution Toolkit[C]//Proceedings IEEE International Conference on Web Services,2004:514-521.

[16]Ian Taylor,Matthew Shields,Ian Wang,et al.Distributed P2P Computing within Triana:A Galaxy Visualization Test Case[M].Washington:IEEE Computer Society,2003.

[17]Jeffrey L Brown,Clayton S Ferner,Thomas C Hudson,et al.GridNexus:A Grid Services Scientific Workflow System [J].The International Journal of Computer and Information Science,2005,6(2):72-82.

[18]V M Ghanem,M Ghanem,Y Guo,et al.Wendel Discovery Net:Towards a Grid of Knowledge Discovery [J].Computer and Information Science,2002:658-663.

[19]羅海濱,范玉順,吳澄.工作流技術綜述 [J].軟件學報,2000,11(7):899-907.Luo Haibin,Fan Yushun,Wu Cheng.Overview of Workflow Technology [J].Journal of Software,2000,11(7):899-907.

[20]Shields M.Control-Versus Data-Driven Workf lows [J].Workf lows for e-Science,2006:167-173.

[21]Rob Allen.United Kingdom Chair,WfMC External Relations Committee Workflow:An Introduction[M].Url:Open Image Systems,2001.

[22]Gustavo Alonso,Divyakant Agrawal,Amr E Abbadi,et al.Functionality and Limitations of Current Workflow Management Systems [J].Ieee Expert Intelligent Systems And Their Applications,1997,12(5):632-635.

[23]M Weske,G Vossen,C Bauzer Medeiros.Scientific Workflow Management:WASA Architecture and Application [M]. Fachbericht Angewandte Mathematik und Informatik 03/96-I,Universitat Munster,1996.

[24]Jacques Wainer Mathias,Mathias Weske,Gottfried Vossen,et al.Scientific workflow systems(Short Paper) [J/OL].[2010-10-05].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.6464.

[25]Barker A,J Van Hemert.Scientific workflow:A Survey and Research Directions[C]//Roman Wyrzykowski,Jack Donqarra,Konrad Karczewski,et al.Parallel Processing and Applied Mathematics In Parallel Processing and Applied Mathematics,2008,4967:746-753.

[26]Roger Barga,Dennis Gannon.Scientific Versus Business Workflows [J].Workflows for e-Science,2007,2:9-16.

[27]Davidson S,Cohen-Boulakia S,Eyal A,et al.Provenance in Scienti?c Workf l ow Systems[J].IEEE Data Engineering Bulletin,2007,30(4):44-50.

[28]Luciano A Digiampietri,Claudia B Medeiros,Joao C Setubal,et al.Traceability Mechanisms for Bioinformatics Scienti?c Workf l ows [J].Proceedings of the AAAI2007's Workshop on Semantic E-Science,2007:26-33.

[29]Susan B Davidson,Juliana Freire.Provenance and Scienti?c Workf l ows:Challenges and Opportunities[J].Sigmod Conference,2008:1345-1350.

[30]Yogesh L Simmhan,Beth Plale,Dennis Gannon.A Survey of Data Provenance in e-Science[J].Sigmod Record,2005,34(3):31-36.

[31]蘇云寶,郭永國,張雄.利用IRAF軟件進行CCD測光 [J].云南師范大學學報:自然科學版,2009,29(6):1-4.Su Yunbao,Guo Yongguo,Zhang Xiong.CCD Photometry with IRAF [J].Journal of Yunnan Normal University:Natural Sciences Edition,2009,29(6):1-4.

[32]Lin Cui,Lu Shiyong,Fei Xubo,et al.A Reference Architecture for Scientific Workflow Management Systems and the VIEW SOA Solution [J].IEEE Transactions on Services Computing,2009,2(1):79-92.

猜你喜歡
數據處理科學
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
點擊科學
點擊科學
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
科學
MATLAB在化學工程與工藝實驗數據處理中的應用
科學拔牙
Matlab在密立根油滴實驗數據處理中的應用
基于POS AV610與PPP的車輛導航數據處理
主站蜘蛛池模板: 日韩 欧美 小说 综合网 另类 | 91精品国产综合久久香蕉922| 九九热精品在线视频| 午夜福利网址| 日韩免费视频播播| 精品人妻无码区在线视频| 四虎影视永久在线精品| 久久99国产视频| 鲁鲁鲁爽爽爽在线视频观看| 日本道中文字幕久久一区| 成年人国产网站| 国产经典在线观看一区| 久久久波多野结衣av一区二区| 亚洲精品无码抽插日韩| 国产人人干| 伊人蕉久影院| 无码精品国产dvd在线观看9久| 亚洲AV无码久久精品色欲| 播五月综合| 日韩麻豆小视频| 在线视频亚洲色图| 色哟哟国产成人精品| 亚洲V日韩V无码一区二区| 欧美在线国产| 在线色综合| 亚洲精品动漫| 日韩A∨精品日韩精品无码| 久久无码高潮喷水| 亚洲一区色| 欧美一级高清视频在线播放| 免费国产不卡午夜福在线观看| 第一页亚洲| 中文字幕亚洲综久久2021| 狠狠色狠狠综合久久| 久久久久国产精品嫩草影院| 欧美亚洲国产精品久久蜜芽| a网站在线观看| 一本无码在线观看| 成人无码一区二区三区视频在线观看| 日本不卡视频在线| 国产成人高清在线精品| 2022国产91精品久久久久久| 91福利片| 日韩高清欧美| 亚洲欧美另类色图| 久久久久国产一级毛片高清板| 青青青国产在线播放| 国产人成在线观看| 人禽伦免费交视频网页播放| 欧美日韩一区二区三区四区在线观看| 美女裸体18禁网站| 无码中文AⅤ在线观看| 国产成人av一区二区三区| 日韩久草视频| 欧美日韩亚洲综合在线观看| a级毛片视频免费观看| 又黄又爽视频好爽视频| 成人伊人色一区二区三区| 国产成人综合亚洲网址| 亚洲一区二区三区香蕉| 又爽又黄又无遮挡网站| 中文字幕自拍偷拍| 日本道综合一本久久久88| 91麻豆国产精品91久久久| 欧美中文字幕第一页线路一| 日本黄色不卡视频| 日韩中文精品亚洲第三区| 久久国语对白| 中文无码精品A∨在线观看不卡| 人妻精品久久无码区| 国产精品香蕉在线| 国产成人毛片| 精品视频一区在线观看| 成人午夜视频在线| 青青青视频蜜桃一区二区| 一本综合久久| 免费国产小视频在线观看| 国产精品jizz在线观看软件| 亚洲精品无码久久久久苍井空| 在线另类稀缺国产呦| 欧美精品伊人久久| 熟女成人国产精品视频|