999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

百萬億次高性能計算系統管理和應用的實踐

2018-03-28 06:03:14楊敏李惠歡
軟件工程 2018年2期

楊敏 李惠歡

摘 要:近幾年,各高校級、國家級的高性能計算中心陸續建成,超級計算平臺的運維模式也從過去強調計算力向注重降低運營管理成本和提升應用服務水平轉變。中山大學經歷了超過10年的行業實踐,在高性能計算平臺的建設管理、平臺運維服務支撐、應用研究和人才培養等諸多方面具備堅實的基礎積累,建立了隨需而變的運維管理機制,充分滿足多學科應用需求的個性化應用服務模式,具備可持續發展的行業競爭實力。

關鍵詞:百萬億次;高性能計算;國家超級計算廣州中心

中圖分類號:TP311 文獻標識碼:A

Abstract:In recent years,with the continual establishments of national and university HPC centers,the operation and maintenance pattern of the supercomputing platform has been changed from the emphasis on computing capacity to the focus on reducing the cost of operation management and improving the level of application service.After over 10 years of practice in the captive industry,Sun Yat-sen University has solid basic accumulations in respect of construction management of the high-performance computing platform,support of operation and maintenance services as well as application research and personnel training,etc.The operation and maintenance management can be adjusted in response to demands and the personalized service mode can fully meet the needs of multidisciplinary application,with the sustainable competition capacities in the HPC field.

Keywords:MegaFLOPS;HPC;National Supercomputer Center in Guangzhou

1 引言(Introduction)

中山大學高性能計算平臺的建設始于2004年底,采取分步走、分批構建、按需建設、逐步升級的策略,現在校內共享平臺已經建成聚合計算力接近200萬億次,存儲容量達到500T,其中GPU計算力130萬億次,使用團隊已超過170多個。高性能計算系統支撐的科學計算多數都是非計算機學科的,對于用戶來說,系統上提供的軟件資源和硬件資源服務是一體化的。高性能計算系統的主要職責即是為各領域用戶提供科學計算相關的資源,包括計算資源和應用資源。我校百萬億次高性能計算集群系統分批多次建成,硬件數量多達四百多臺,異構復雜,用戶應用領域廣泛,用戶需求各異。如何進行統一的管理,提高運維的效率,降低用戶的使用門檻,為用戶提供易用性強的技術支持是系統應用的難點。經過十幾年的經驗積累,我校在高性能計算平臺的建設管理、平臺運維服務支撐、應用研究和人才培養等諸方面具備堅實的基礎積累,并于2012年與廣東省政府、廣州市政府、國防科學技術大學四方共同建立國家超級計算廣州中心,中心的大樓坐落于中山大學廣州大學城校區內,峰值計算性能11億億次的“天河二號”超級計算機系統已于2015年投入運行[1-3]。

2 運維與管理(Maintenance and management)

我校高性能計算共享服務平臺有先后建于不同時期的多套異構系統,包括公共計算平臺、GPU平臺、省網格、國家網格、科研團隊的專業計算平臺(例如空氣質量預測平臺),各類平臺都集成在一起進行統一建設和管理。對于不同規模的專業應用計算平臺,我們采用不同的協同服務機制。系統總體架構圖如圖1所示。

2.1 網格監控

大規模高性能計算集群系統在管理上存在著很多的難點:(1)服務器數量多,且異構多樣,專門技術人才配比少。系統一般都包括管理節點、登錄節點、計算節點、I/O存儲節點、光纖存儲網絡、高速計算網絡、管理網絡等。設備類型復雜,無法完全依賴人工方式完成系統運維;(2)故障類型眾多,迅速故障定位要求技術專業程度高。不同類型的設備配置不一樣,故障的原因和影響的范圍有很大差異。單個計算節點故障只影響到提交到該節點的作業運行異常,管理節點、共享存儲節點或共享計算網絡故障會影響整個系統服務,導致所有用戶的作業運行受到影響;(3)故障發生不可預測,要求響應處理及時。高性能計算系統需7*24小時對外提供服務,滿足用戶網絡訪問的需求,一旦發生故障必須及時通知管理員進行處理[4,5]。

為解決以上問題,我們在開源軟件ganglia和Icinga的基礎上搭建了自動化的集群監控、告警運維系統。采用ganglia構建SYSU_HPC Grid網格,能夠跨操作系統平臺和異構硬件平臺采集系統信息,持續地監測每個平臺各個組件的性能,觀察系統運行的情況,檢測資源利用的分布趨勢,并將這些信息有效地匯總和呈現,這些信息可以作為資源管理策略制定、系統架構優化和新設備的選型的依據。同時集成Icinga的告警功能,能夠在問題發生之前,性能指標達到一定的閥值就發出警告,而不是在問題發生之后。在性能超出預定范圍時及時通知管理員進行處理,比如溫濕度過高、內存不足、CPU占用太高、磁盤剩余空間不夠、ssh服務異常、網絡異常等等。發出警告的途徑可以由用戶設置,包括MAIL、SMS、微信等方式。不同的告警級別使用不同的告警方式,一般warning警告可使用MAIL、微信告警,在網絡不可用的情況可以通過SMS發短信告警。使用自動化的監控告警,使集群系統保持穩定、高效的運行狀態,提高平臺服務質量[6,7]。運維管理結構圖如圖2所示。

根據監測到系統負載的分布情況,在整套平臺中建立多種適合不同資源需求的作業調度管理策略,以作業申請的CPU核數、作業運行時間和用戶優先級別為維度劃分多種隊列,不同類型的作業根據資源需求情況自動進入相應隊列,從而顯著提高平臺資源的利用率。

2.2 數據分析統計

為了提高平臺使用的透明度,我們在開源軟件作業管理調度系統TORQUE基礎上進行了運維報表等統計分析軟件的開發[8]。主要對系統使用數據和用戶使用數據進行分析統計,實現對多校區集群系統的用戶作業運行情況的實時監測,并對作業調度及運行情況、集群平臺使用情況及利用率等進行統計分析,形成了每周、每月、每年的運行情況報表,并進行及時發布。記錄詳細的CPU、內存、網絡、文件系統、IO等信息的歷史使用數據,按照用戶指定的時間段以曲線圖或報表的形式提供給用戶,進行系統使用情況的統計;形成與作業系統整合的用戶資源統計報表,可以按照管理員指定的時間段,統計指定用戶的系統資源使用情況,或者以圖表形式統計各個用戶占用資源的比例。統計分析系統采用了自上而下的設計方法,技術規范、信息標準和系統安全保障橫跨各個層面。系統架構分為五層,包括用戶界面層、業務層、應用組件層、應用接口層和基礎平臺層,每一層都為上層提供服務,同時也從下層接口中獲得服務[9]。

最頂層為用戶界面層直接面向最終用戶,用戶可以使用普通瀏覽器如IE或Chrome等作為客戶端來訪問。用戶界面層為所有用戶提供了統一登錄入口,用戶只需輸入賬號/密碼則可登錄。用戶界面層作為單獨一層,可以和高性能計算服務門戶的用戶界面層集成在一起,把系統的整個UI設計獨立出來,使系統設計得更具人性化。

第二層為業務層,也是統計分析系統的主要功能模塊集合。該層從用戶和系統等多個緯度提供年度、季度、月度的使用情況統計查詢和報表生成打印等功能,還可從分析結果中產生決策支持等功能。業務層以服務接口的方式為用戶界面層提供服務,同時從應用組件層的相關引擎中獲取服務。

第三層為應用組件層,將統計分析系統的業務進行邏輯抽象出來的引擎組件。這些組件包括實現對TORQUE原始日志記錄進行分析的數據分析引擎;實現日志文件訪問處理的文件處理引擎;實現統計報表管理的報表引擎;實現用戶操作日志記錄的日志引擎等。應用組件層同樣為上層提供通用的應用組件以構成業務功能模塊。

第四層為應用接口層,負責與基礎平臺層進行對接和通信,為上層應用組件層提供服務,該層由各類適配器構成,使上層應用不需依賴于基礎平臺。

最底層為基礎平臺層,包括高性能計算平臺上的各種基礎運行環境,是整個系統的基礎平臺,涵蓋集群的共享文件系統、作業管理調度系統TORQUE、各類并行程序運行環境等[10]。

3 應用與服務(Application and service)

3.1 高性能計算門戶

高性能計算系統的使用對一般用戶,特別是非計算機專業的用戶來說應用門檻仍然較高。我校通過建設高性能計算門戶,將建于不同時期、分布在不同校區的多套計算資源進行有機地整合,為用戶使用所有校內高性能計算資源提供一個統一的Web接口,有效地提高平臺的易用性[11,12]。

高性能計算門戶框架主要由單點登錄、遠程應用管理、個性化用戶界面定制等。

(1)單點登錄

門戶將建立單一登錄功能,用戶通過Web瀏覽器使用用戶名/密碼登錄高性能計算門戶后,門戶將在用戶的整個會話期內為用戶管理證書,基于證書映射的角色管理為用戶提供更加細致粒度的高性能計算資源和高性能計算服務的訪問控制。

(2)遠程應用管理

用戶可以基于Web對高性能計算作業進行遠程的在線應用管理,方便用戶監控自己的作業。用戶使用發布出來的在線高性能應用服務提交高性能計算作業。對于在線的應用管理分為三個部分:作業提交管理、作業詳細信息查詢、作業列表查詢。

(3)個性化用戶界面定制

給不同角色的用戶提供不同的資源和服務視圖,保證資源和服務的安全運行,同時也給不同用戶賦予特定的應用體驗。

高性能計算門戶系統采用二級調度機制。用戶從Web客戶端提交的所有作業,都將被提交到系統服務,由系統服務根據整個環境的使用情況以前端服務為單位進行調度;而前端服務收到作業請求之后,則是根據其接入機群的情況,在局部范圍內進行二次調度。網格上的調度不干涉高性能計算機群自身的調度系統策略,因此網格上只需要提供簡單的FIFO和人工調度即可,復雜的調度策略由高性能計算機群調度系統完成。各種高性能計算機群調度系統都有各自的特點,不過大多支持批量作業提交,支持回填、搶占、預留等高級調度算法。二級調度機制既保證了全局的調度機制,又給予局部管理范圍一定的調度靈活性,可以很好地適應層次化管理需求。

高性能計算門戶基于portlet技術構建。Web Portal是基于符合JSR-168 規范的Portlet 并融合了Ajax技術的Portal。Web Portal 由基礎層、服務層和Portlets組件層構成。Web Portal體系結構如圖3所示。

3.2 應用服務封裝

中大的高性能計算系統中除了部署高性能計算必需的編譯器、數學庫、并行庫外,還把各科學領域用戶常用的開源、商用軟件分類部署到集群系統中,涉及計算化學、理論化學、理論物理、材料科學、流體力學、環境工程、氣象、地理信息、生物信息等多個領域。我們通過分析主流的開源和商用大型科學與工程計算軟件的應用模式,提取出科學計算軟件的應用服務封裝的一般化方法,實現了部分軟件的基于Web技術的應用服務封裝,為用戶提供更加直觀、易用的基于Web的科學計算軟件作業提交方式[13]。

在計算環境應用封裝的基礎上,在Web頁面上提供應用的使用接口。Portal適合封裝交互次數少、作業輸入和輸出數據較小的應用。在Portal上的應用封裝可以分成兩個部分,Web頁面部分和服務部分。

(1)Web頁面部分

該部分提供用戶操作的界面及一些輔助功能,包括檢查用戶參數的完整性和合理性等功能,根據本地的cookie信息提供信息補全等功能。收集用戶輸入的數據并按一定的格式整理后傳輸到服務器。

(2)服務部分

該部分處理提交頁面的請求。主要功能是接受頁面的請求,通過與計算環境交互,完成相關請求并返回提示信息,如可能需要的資源列表、作業數據上傳和作業提交及返回信息。

目前Web Portal已經在材料科學、生命科學和工程力學等領域獲得了廣泛的應用,已經封裝和定制的應用包括Amber、Gaussian、NAMD、Fluent和MATLAB等多個學科領域的應用,也可以很方便地增加更多的應用。

4 結論(Conclusion)

中山大學重視學科建設,整合校內各方面的科研資源構建國內高校先進的高性能計算服務平臺。院系各科研團隊利用該平臺在各學科領域開展深入研究,在物理化學、環境大氣科學、生命科學、光學工程、計算科學、海洋科學、材料科學、流體力學等多個領域發表高水平科研成果?;谄脚_開展的科學研究項目包括國家自然科學基金項目、國家科技重大專項、國家重點基礎研究發展規劃(973)項目、省自然科學基金項目和廣東省科技攻關項目等,其中有兩個項目獲得2011年度國家科技進步二等獎,在此基礎之上培養了一批具備交叉學科的科研人員,從整體上提升了中山大學科研學術水平,于2013年成功孵化并建成了中山大學國家超級計算廣州中心。

參考文獻(References)

[1] 鄭寧,王冰,黨崗.廣州超級計算中心應用發展與研究[J].計算機工程與科學,2013,35(11):187-190.

[2] 遲學斌,胡永宏.我國超級計算發展狀況研究[J].調研世界, 2013(8):56-60.

[3] 張云泉,袁國興.中國高性能計算及TOP100排行榜[EB/OL].http://www.samass.org.cn,2013-10-21.

[4] Meuer H,Simon H,Strohmaier E,et al.TOP500 super-computer sites [EB/OL].http://www.top500.org,2013-10-21.

[5] 林皎,張武生,徐偉平,等.百萬億次集群機的建設和部署[J].實驗室研究與探索,2013,32(6):188-190.

[6] Monitoring with Ganglia,Massie,Matt;Li,Bernard;Nicholes,Brad 2012-11.

[7] 中山大學高興能計算網格監控平臺[EB/OL].http://hpccmonitor.sysu.edu.cn/ganglia,2013-10-21.

[8] CLUSTER RESOURCES,TORQUE Administrator's Guide version 2.4[EB/OL].http://www.clusterresources.com,2013-10-21.

[9] 牛鐵,朱鵬,趙毅,等.超級計算環境配額系統設計與實現[J].計算機應用,2010,30(12):8-9;39.

[10] 李惠歡,楊敏,吳汝明.基于 TORQUE 的高性能計算平臺記賬系統[J].計算機應用與軟件,2016(8):126-130.

[11] 廣東省教育科研網格門戶系統[EB/OL].http://hpcc.sysu.edu.cn,2013-10-21.

[12] 楊敏.廣東省教育科研網格門戶系統構建[J].武漢大學學報(理學版)2012,58(10):371-375.

[13] 楊敏,關偉豪,朱敏.面向超級計算中心的運營管理支撐平臺的設計與實現[J].實驗技術與管理,2015,32(6):243-246.

作者簡介:

楊 敏(1979-),女,碩士,工程師.研究領域:高性能計算系統架構,大數據系統架構.

李惠歡(1975-),女,碩士,工程師.研究領域:軟件開發.

主站蜘蛛池模板: 伊人蕉久影院| 高清不卡毛片| 最新国产网站| 国产成人艳妇AA视频在线| 亚洲精品第一在线观看视频| 影音先锋亚洲无码| 波多野结衣中文字幕久久| 国产日本一线在线观看免费| 小说 亚洲 无码 精品| 欧美日本一区二区三区免费| 真实国产乱子伦高清| 中文字幕调教一区二区视频| 区国产精品搜索视频| 国产成人综合日韩精品无码首页| 最新痴汉在线无码AV| 日本高清免费不卡视频| 在线欧美a| 成人午夜视频免费看欧美| 欧美精品v| 国产成人禁片在线观看| 香蕉伊思人视频| 亚洲欧美一区二区三区麻豆| 色亚洲激情综合精品无码视频| 天堂成人av| 亚洲成a人在线观看| 一区二区在线视频免费观看| 久久国产黑丝袜视频| 国产在线观看高清不卡| 国产精品亚洲片在线va| 91免费精品国偷自产在线在线| 亚洲a级毛片| 精品一区二区三区波多野结衣| 日韩欧美网址| 高潮毛片无遮挡高清视频播放 | 久久久久亚洲Av片无码观看| 麻豆国产精品视频| 国产男女免费视频| 中文成人在线视频| 日韩av电影一区二区三区四区 | 亚洲综合专区| 国产一级视频久久| 国产人人射| 波多野结衣在线se| 国产主播福利在线观看| 亚洲一级毛片免费观看| 欧美日韩激情在线| 精久久久久无码区中文字幕| 波多野结衣AV无码久久一区| 久久无码高潮喷水| 制服丝袜无码每日更新| 精品91视频| 欧美日一级片| 欧美伦理一区| www.99精品视频在线播放| 久久精品免费国产大片| 亚洲熟女中文字幕男人总站| 福利在线不卡| 一区二区三区国产精品视频| 丝袜美女被出水视频一区| 国产十八禁在线观看免费| AV网站中文| 一级毛片免费高清视频| 国产91高清视频| 中文字幕免费视频| 国产区在线看| 国产成人亚洲精品无码电影| 精品亚洲欧美中文字幕在线看| 国产97色在线| 在线国产毛片| 亚洲欧美成人在线视频| 国产一区亚洲一区| 成人福利免费在线观看| 永久天堂网Av| 久久精品这里只有国产中文精品| 99视频精品在线观看| 午夜精品一区二区蜜桃| 香蕉视频在线精品| 9久久伊人精品综合| 成人免费黄色小视频| 美女无遮挡免费视频网站| 第一区免费在线观看| 中文字幕人妻av一区二区|