趙一寧,肖海力
中國科學院計算機網絡信息中心,北京 100083
中國國家高性能計算環境(中國國家網格,CNGrid)[1-2]是由國內眾多國家級和地區級計算中心、高校、科研單位的計算資源匯聚而成的大規模超級計算環境,長期為國內科研用戶提供優質的高性能計算資源。目前國家高性能計算環境已經擁有22 個結點,聚合計算資源超過800PFlops、存儲資源超過500PB,支持了物理、化學、生物醫藥、工業設計、教育等眾多領域的專業社區和業務平臺,對推動我國科學技術水平的發展起到了重要作用。
中國科學院計算機網絡信息中心是國家高性能計算環境的運管中心和北方主結點,并通過中心自主研發的高性能計算環境核心軟件SCE[3]實現了環境資源匯聚、作業調度和運行支持等服務。在環境運行維護工作中,建設安全運行機制以支持環境穩定運行是一項十分關鍵的任務。我們研發部署了包括環境資源監控、環境信息采集、環境數據分析等一系列相關機制,并通過對日志等環境數據進行分析來獲取環境狀態側寫并發現異常來輔助環境運行維護工作。然而這種數據分析的結果通常是文本和數字形式,對運維人員來說缺乏直觀印象,不利于快速理解。
為此我們建設了高性能計算環境運行狀態診斷系統,它是一種對于目標計算環境的運行狀態進行量化和可視化評判的系統,通過對于目標環境的信息收集、整理,進行不同角度的分項分析,并最終將各分析結果集成為統一的環境運行狀態分值,采用可視化方法將各類分析結果立體的表現出來,以便相關運維人員能夠直觀的獲取環境信息和快速定位問題。……