文 / 劉佳 王興虎 張玉
科學計算已成為與理論分析和科學實驗并列的第三種科學研究方法,是促進重大科學發現和社會經濟發展的戰略性支撐技術。高性能計算中心是利用高性能計算平臺和技術開展科學計算、支撐科技創新的基地,對于推動科學研究、工程應用和經濟發展具有不可或缺的作用。
2020年,南京航空航天大學(簡稱“南航”)正式成立校級高性能計算中心,以“服務科研應用,兼顧教學實驗”為工作導向,結合校情完成一期建設并投入運行,并且在運維管理、科研服務、課程開發等方面開展了一系列有益的實踐與探索。
南京航空航天大學作為一所以工為主、理工結合、多學科協調發展、具有航空航天民航特色的研究型大學,對高性能計算有著天然且旺盛的應用需求,但卻長期為以下問題所困擾:
1.建設和管理的主體不明確,缺乏統一規劃;
2.整體計算資源匱乏,只有少量院系或課題組建設了計算集群,且以自用為主,算力有限,地點分散,配置差異大,難以共享;
3.經費少的院系無力獨自承擔計算集群的建設、使用和維護工作;
4.計算集群多由非專業人員管理,應用水平低,安全風險高;
5.計算集群多由教師和研究生使用,本科生基本無緣接觸此類設備。
為推動學科發展,促進創新研究,滿足師生對高性能計算資源和服務的迫切需求,南航以“服務科研應用,兼顧教學實驗”為工作導向,由信息化處負責,從平臺建設、科研服務、課程建設和實驗室建設4個方面打造校級高性能計算中心(簡稱“中心”)。中心建設構架見圖1,其中:

圖1 高性能計算中心建設構架
1.平臺建設重點在于建立校級高性能計算平臺,合理購置和部署相關軟硬件,開展人員培訓,是中心建設的根基和載體;
2.科研服務重點在于根據學校學科建設的要求和特點,為科研項目和工程應用提供計算資源、部署計算軟件,以及其他相關的技術支持和服務;
3.課程建設重點在于沿著高性能計算的行業應用和技術發展兩條主線,由淺入深開設課程,推動高性能計算在學校的教學發展;
4.實驗室建設重點在于一方面輔助課程建設,開設相應的實驗課程;另一方面為師生提供高性能計算環境和培訓,推動自主創新活動。
高性能計算平臺是整個高性能計算中心的核心,是融合了計算、網絡、存儲和軟件的綜合體系。南航高性能計算平臺(下文簡稱“平臺”)一期采用浪潮天梭TS10000集群,整體架構見圖2。

圖2 高性能計算平臺架構
師生用戶通過網絡遠程登錄到平臺的管理節點上提交計算作業;作業調度系統根據計算作業的請求分配計算資源,執行和管理計算作業;計算結果保存在存儲系統中,供用戶取回和處理。
平臺的計算資源包括:
1.CPU節點62個,每個節點配置2顆Intel Xeon 6248 20核2.5GHz處理器;其中33個節點配置192GB內存,29個節點配置384G內存。
2.GPU節點31個,其中29個為4卡節點,每個節點配置2顆Intel Xeon 4210 10核2.4GHz處理器、192GB內存、4塊NVIDIA Tesla V100 32GB GPU卡;2個為8卡節點,每個節點配置2顆Intel Xeon 6248 20核2.5GHz處理器、192GB內存、8塊NVIDIA Tesla V100 32GB GPU卡。
平臺的理論雙精度峰值浮點計算能力達到1173.3Tflops,其中CPU部分249.3Tflops,GPU部分924Tflops。
平臺的網絡系統包括100G計算網、萬兆帶內管理網和千兆帶外IPMI網3套網絡。
1.100G計算網以1臺Mellanox QM8790 InfiniBand交換機為核心,配備HDR 200G/s端口,采用Splitter Cables連接HDR100 100G/s端口,實現所有計算節點和存儲節點之間100G高速互聯。
2.萬兆帶內管理網采用3臺48口萬兆接入交換機,實現所有節點10G接入,并通過40G端口上連至1臺匯聚交換機實現集群互通。在計算網出現故障時,萬兆帶內管理網可以作為臨時的計算網絡,保障計算作業正常運行。
3.IPMI網采用3臺48口千兆接入交換機,下連至各節點BMC獨立管理端口,并通過10G端口上連至匯聚交換機,實現集群IPMI管理互通。
平臺的存儲系統采用聯想DSS-G220存儲系統,包含2臺SR650 IO節點及4臺磁盤擴展柜,裸容量達1PB。通過GPFS文件系統實現高性能IO,讀寫帶寬均可達20GB/s。
平臺選用CentOS 7.6 64位版操作系統,使用Slurm作業調度系統管理計算作業,將用戶請求的計算作業分配到合適的計算節點上運行。
平臺部署了高性能計算必需的集群并行環境、編譯調試環境和開發軟件包,安裝了學校各學科領域常用的開源或商用軟件,并對常用軟件配置了modulefile以方便加載應用軟件所需的環境變量。
平臺管理系統(見圖3)提供用戶管理、計費管理、作業管理、資產管理等模塊,實時監控計算資源的分配占用、計算作業的運行調度、計算設備的工作情況等數據。

圖3 高性能計算平臺管理系統
機房環境監控系統負責監控機房的溫濕度、用電量、水浸、煙火、電力配送、UPS、精密空調、備用電池等數據或設備,是保障安全和實現高性能計算平臺高可用的重要系統。其提供的數據還是平臺系統調優、節能降耗的重要依據。
為保障平臺安全、平穩、有效運行,信息化處發布和實施了一系列規章制度,主要包括《高性能計算平臺服務管理辦法》《高性能計算中心機房安全管理規定》《高性能計算室管理條例》等,從不同層次、不同角度規范了平臺的服務和管理。
鑒于中心成立時間短且事項繁雜,專職人員少且較難招募,運維管理采用了“校內專人+服務外包”的模式。
校內專人:由學校在職人員專職從事中心和平臺的管理工作,包括:設備現場巡檢;用戶的開戶激活、協議簽訂、費用結算、技術支持;學校相關政策和制度的制定、執行和解答等。校內專人具有航空航天學科背景和學術能力,同時具備高性能計算的使用經驗,既可以從專業角度幫助指導用戶開展計算工作,又可以在師生用戶和運維團隊之間起到溝通橋梁的作用。
服務外包:由專業的高性能計算服務廠商承擔平臺的運維工作,包括:設備遠程和現場巡檢;平臺管理、作業調度等系統的維護與開發;計算軟件的安裝與維護;用戶技術支持與培訓,如作業腳本糾錯、失敗作業分析、計算軟件測試運行等。
用戶通過學校網上辦事大廳“高性能計算平臺用戶申請”流程申請開戶,登記項目信息和軟硬件需求,并與中心簽訂使用協議,以獲得平臺使用權。開戶流程見圖4。

圖4 高性能計算平臺用戶申請流程
平臺將為用戶建立獨立的訪問目錄,用戶之間相互隔離,不能訪問他人的目錄和作業內容。用戶可以在自己的目錄中上傳、下載數據文件,提交計算作業,也可以安裝計算所需要的軟件,而不使用平臺提供的軟件版本。用戶必須通過作業管理系統提交作業、查詢計算隊列和計算結果,嚴禁繞過作業管理系統使用計算資源。
中心提供的科研服務包括科學計算和仿真計算,覆蓋學校所有理工科學院、科研技術部門和部分文科學院。服務內容主要包括:
1.一對一技術支持:中心為每個簽訂使用協議的老師設立用戶組(老師及其學生各自擁有獨立的平臺賬號,但歸于同一個用戶組之下),單獨建立微信群,在微信群里配置學校專職人員和運維廠商技術人員,指導用戶正確合理地使用平臺,幫助用戶解決計算中出現的各類問題,提高技術支持的針對性和時效性。
2.定期提醒:定期檢查運行中的計算作業,根據各個用戶組的計算作業特點對超時的長任務(如計算時常超過1個月)或者出現錯誤的計算作業,及時提醒用戶檢查作業情況,終止錯誤作業,節約計算經費。
3.用戶培訓:通過多種形式培訓用戶,包括在中心官網發布和及時修訂平臺資源信息和用戶手冊,定期開展線下用戶培訓等活動。
4.圖形化節點:針對多數仿真計算用戶使用圖形化軟件進行仿真建模和結果數據處理等工作的習慣,平臺單獨配置1個圖形化節點,與存儲系統打通,安裝帶GUI的CentOS系統以及常用仿真軟件的圖形化版本,使用體驗與Windows版本一致。用戶遠程登錄此節點,便可以直接在平臺上處理模型和計算數據,取回處理后的結果數據或圖形圖像,既符合用戶的操作習慣,又節省了下載和處理數據的時間,解決了數據量過大時用戶難以下載到本地處理等問題。
5.計算室建設:配合南航“一校兩地四區”的辦學格局,為各學院建設了20個高性能計算室,通過獨立光纖與平臺直接連接,實現高速穩定的網絡接入,解決通過校園網等公共網絡訪問平臺時用戶多、網速慢的問題。
除了為《云計算》《人工智能》《分布與并行計算》等課程提供教學和實驗平臺,中心還積極探索新工科背景下的新型教學思路,推進本科生高性能計算相關課程實踐,與公共實驗教學部協同,面向學校長空學院開展“高性能計算平臺探索”教學活動。
活動包括參觀高性能計算中心、高性能計算宣講、計算作業操作演示等環節,每次安排本科生70人,時間1.5小時,共有800多人參加,通過體驗科學計算和工程應用案例,提高了本科生對高性能計算的認知水平。中心還為100多名本科生安排了1.5小時的上機操作課程,讓學生親自執行計算作業,體會平臺的計算能力和使用的難易程度,破除學生眼中高性能計算的神秘感,推廣平臺應用。
中心本著“堅持共享原則,打通共享渠道,實現共享結算,降低使用成本”的原則,在平臺建設伊始就積極參與學校大型儀器設備共享工作。與國資處協調制定了平臺收費標準、使用與結算流程(見圖5),并與學校大型儀器設備共享平臺(簡稱“大儀平臺”)同期建設,完成了“高性能計算平臺->大儀平臺->財務平臺”的無縫對接,成為最早落地大儀平臺,落實大儀共享的校級平臺。

圖5 高性能計算平臺使用及結算流程
通過向大儀平臺定時推送計算日志數據等技術手段,實現了:1.計算作業查詢與統計、賬單制作與結算、服務協議管理等功能;2.基于用戶組的多種使用模式的作業計費;3.“高性能計算平臺使用->大儀平臺結算->財務平臺繳費”全流程管理。通過開放共享,平臺實際使用機時、經費結算等指標在學校大型儀器設備中遙遙領先。
平臺于2020年6月上線運行,全校師生廣泛參與,注冊用戶超過540人,覆蓋學校所有理工科學院和專業技術部門。承載科研項目400余項,基本覆蓋學校全部理工類學科,有效滿足了航空航天、機械設計、電氣工程、電子信息、材料科學、人工智能、數理基礎等學科的計算需求,對航空航天相關學科的支撐尤為明顯。項目的學院和學科分布見圖6。

圖6 項目的學院分布和學科分布
學校立項建設高性能計算平臺后,已不再批準各單位自行建設高性能計算的相關采購。經初步估算,累計節約建設經費約500萬元,累計節約計算費近80萬元。
平臺上線以來,累計完成計算作業近190萬個(圖7),累計完成計算量超過2090萬核時,每個作業平均計算量在10核時左右。其中最長的作業占用CPU資源40核,運行2229小時,計算量達89189核時,充分驗證了平臺的穩定性和可靠性。

圖7 計算作業數量統計
將計算隊列的作業數和核時數餅圖(圖8)對比可發現:1.計算作業主要由CPU完成,占比達96%,針對這種情況,中心已啟動二期建設,擴充CPU節點。2.雖然GPU作業數量只占3.56%,但核時數占比達18.8%,說明每個GPU作業的計算量都非常大。

圖8 計算隊列的作業數和核時數對比
從作業狀態的作業數和核時數餅圖(圖9)對比可見,95%以上的作業能夠正常完成(COMPLETED)。但取消(CANCELLED)的作業所占的核時達到了43%,說明存在不少試算、程序錯誤、計算不收斂且耗時長的作業,中心針對這種情況提供了定期提醒服務。
從作業核數-作業數、作業核數-核時數(圖10)的對比中發現,雖然使用10核以下計算資源完成的作業數占比達94.6%,但核時數只占4.6%。而40核以上的多核計算貢獻了絕大部分的計算量,占比達86.2%,是平臺應用的主力和中心關注的重點。

圖10 核數-作業、核數-核時對比
通過兩年的探索和實踐,南京航空航天大學高性能計算中心圍繞平臺建設、運維管理、科研服務和課程建設,建立了穩定高效的工作模式,形成了校級平臺應有的服務保障能力,推動了學校高性能計算的應用和發展。通過運營數據分析,證明了優秀的計算資源、創新的服務模式、專業的技術支持是吸引用戶,提高平臺利用率,促進高性能計算中心發展的關鍵因素。