郭力爭,趙曙光,姜長遠
(1.東華大學信息學院,上海201620;2.河南城建學院計算機科學與工程系,河南 平頂山467036)
研究人員依賴于一定的平臺來執行科學工作流,解決數據密集型、計算復雜型等問題,如天文學、高能物理、地震監測[1]和生物信息學[2],這樣的科學工作流通常在本地集群和數據網格平臺上執行[3]。云計算的出現為科研人員提供了執行科學工作流的又一個優秀平臺[4]。在學術界,文獻[5,6]探討了在云計算平臺上運行科學工作流的可行性,文獻[7]總結了云計算平臺運行科學工作流的優點。科學工作流的特點是要處理和傳輸的數據量通常巨大,達TB甚至PB級,另外科學工作流運行過程中也會產生大量的中間數據和一些最終的處理結果,因此,在利用云計算時遇到了一些新的挑戰性問題,如數據部署和任務調度,主要表現為數據中心的不同集群處理能力不同,集群間網絡性能有所不同,而且數據密集型應用所處理的數據量巨大,所以如何減少數據中心不同集群間的數據傳輸量、傳輸時間和數據傳輸次數就成為數據密集型應用的一個難題。一個科學工作流有一定數量的任務,每個任務要處理特定的文件,每個文件有不同的數據量和復雜性,并且這些文件間有一定的依賴關系,所以數據中心應合理分析這種關系,盡量減少流程執行過程中數據的移動和傳輸,提高數據中心的性能。
一些研究者在網格環境下致力于數據依賴性的研究,并應用到大規模科學工作流中。……