楊敏 李惠歡
摘 要:近幾年,各高校級、國家級的高性能計算中心陸續建成,超級計算平臺的運維模式也從過去強調計算力向注重降低運營管理成本和提升應用服務水平轉變。中山大學經歷了超過10年的行業實踐,在高性能計算平臺的建設管理、平臺運維服務支撐、應用研究和人才培養等諸多方面具備堅實的基礎積累,建立了隨需而變的運維管理機制,充分滿足多學科應用需求的個性化應用服務模式,具備可持續發展的行業競爭實力。
關鍵詞:百萬億次;高性能計算;國家超級計算廣州中心
中圖分類號:TP311 文獻標識碼:A
Abstract:In recent years,with the continual establishments of national and university HPC centers,the operation and maintenance pattern of the supercomputing platform has been changed from the emphasis on computing capacity to the focus on reducing the cost of operation management and improving the level of application service.After over 10 years of practice in the captive industry,Sun Yat-sen University has solid basic accumulations in respect of construction management of the high-performance computing platform,support of operation and maintenance services as well as application research and personnel training,etc.The operation and maintenance management can be adjusted in response to demands and the personalized service mode can fully meet the needs of multidisciplinary application,with the sustainable competition capacities in the HPC field.
Keywords:MegaFLOPS;HPC;National Supercomputer Center in Guangzhou
1 引言(Introduction)
中山大學高性能計算平臺的建設始于2004年底,采取分步走、分批構建、按需建設、逐步升級的策略,現在校內共享平臺已經建成聚合計算力接近200萬億次,存儲容量達到500T,其中GPU計算力130萬億次,使用團隊已超過170多個。高性能計算系統支撐的科學計算多數都是非計算機學科的,對于用戶來說,系統上提供的軟件資源和硬件資源服務是一體化的。高性能計算系統的主要職責即是為各領域用戶提供科學計算相關的資源,包括計算資源和應用資源。我校百萬億次高性能計算集群系統分批多次建成,硬件數量多達四百多臺,異構復雜,用戶應用領域廣泛,用戶需求各異。如何進行統一的管理,提高運維的效率,降低用戶的使用門檻,為用戶提供易用性強的技術支持是系統應用的難點。經過十幾年的經驗積累,我校在……